magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown

Introduction générale

magic-html est une bibliothèque Python conçue pour simplifier le processus d'extraction du contenu de la région du corps à partir de HTML. Qu'il s'agisse de structures HTML complexes ou de simples pages web, cette bibliothèque vise à fournir une interface pratique et efficace aux utilisateurs. Elle supporte l'extraction multimodale, l'extraction de plusieurs layoutextractor, y compris les articles, les forums et les articles de Microsoft, et supporte également la conversion de l'extraction de formules latex.

Liste des fonctions

  • Extraire le contenu de la zone du corps en HTML
  • Prise en charge de l'extraction multimodale
  • Mise en page des articles de soutien, des forums et des messages weibo
  • Prise en charge de l'extraction et de la conversion des formules en latex
  • Sortie personnalisée en texte brut ou en format markdown

 

Utiliser l'aide

montage

Pour installer magic-html, utilisez la commande pip :

pip install magic-html

utiliser

Une fois installé, il peut être utilisé avec le code suivant :

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Fonction Opération Déroulement

  1. Initialisation de l'extracteurLes données de la bibliothèque magic-html et l'initialisation de l'extracteur sont les premières à être importées.
  2. Préparation du contenu HTMLLe code HTML : Prépare le code HTML à partir duquel le contenu doit être extrait, qui peut se présenter sous la forme d'une chaîne de caractères.
  3. Appel de la méthode d'extraction: Utilisationextractpour extraire le contenu du corps de l'article. Différents types de HTML peuvent être spécifiés selon les besoins, tels que des articles, des forums ou des messages WeChat.
  4. résultat de la sortieLe résultat de l'extraction peut se présenter sous la forme d'un texte simple ou d'un format markdown, en fonction des besoins de l'utilisateur.

exemple typique

Vous trouverez ci-dessous un exemple complet montrant comment extraire le contenu du corps d'une simple page HTML :

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...