magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown
Introduction générale
magic-html est une bibliothèque Python conçue pour simplifier le processus d'extraction du contenu de la région du corps à partir de HTML. Qu'il s'agisse de structures HTML complexes ou de simples pages web, cette bibliothèque vise à fournir une interface pratique et efficace aux utilisateurs. Elle supporte l'extraction multimodale, l'extraction de plusieurs layoutextractor, y compris les articles, les forums et les articles de Microsoft, et supporte également la conversion de l'extraction de formules latex.
Liste des fonctions
- Extraire le contenu de la zone du corps en HTML
- Prise en charge de l'extraction multimodale
- Mise en page des articles de soutien, des forums et des messages weibo
- Prise en charge de l'extraction et de la conversion des formules en latex
- Sortie personnalisée en texte brut ou en format markdown
Utiliser l'aide
montage
Pour installer magic-html, utilisez la commande pip :
pip install magic-html
utiliser
Une fois installé, il peut être utilisé avec le code suivant :
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)
Fonction Opération Déroulement
- Initialisation de l'extracteurLes données de la bibliothèque magic-html et l'initialisation de l'extracteur sont les premières à être importées.
- Préparation du contenu HTMLLe code HTML : Prépare le code HTML à partir duquel le contenu doit être extrait, qui peut se présenter sous la forme d'une chaîne de caractères.
- Appel de la méthode d'extraction: Utilisation
extract
pour extraire le contenu du corps de l'article. Différents types de HTML peuvent être spécifiés selon les besoins, tels que des articles, des forums ou des messages WeChat. - résultat de la sortieLe résultat de l'extraction peut se présenter sous la forme d'un texte simple ou d'un format markdown, en fonction des besoins de l'utilisateur.
exemple typique
Vous trouverez ci-dessous un exemple complet montrant comment extraire le contenu du corps d'une simple page HTML :
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...