magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown

Dernières ressources sur l'IAMise à jour il y a 12 mois Cercle de partage de l'IA

9.8K 00

Introduction générale

magic-html est une bibliothèque Python conçue pour simplifier le processus d'extraction du contenu de la région du corps à partir de HTML. Qu'il s'agisse de structures HTML complexes ou de simples pages web, cette bibliothèque vise à fournir une interface pratique et efficace aux utilisateurs. Elle supporte l'extraction multimodale, l'extraction de plusieurs layoutextractor, y compris les articles, les forums et les articles de Microsoft, et supporte également la conversion de l'extraction de formules latex.

Liste des fonctions

Extraire le contenu de la zone du corps en HTML
Prise en charge de l'extraction multimodale
Mise en page des articles de soutien, des forums et des messages weibo
Prise en charge de l'extraction et de la conversion des formules en latex
Sortie personnalisée en texte brut ou en format markdown

Utiliser l'aide

montage

Pour installer magic-html, utilisez la commande pip :

pip install magic-html

utiliser

Une fois installé, il peut être utilisé avec le code suivant :

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Fonction Opération Déroulement

Initialisation de l'extracteurLes données de la bibliothèque magic-html et l'initialisation de l'extracteur sont les premières à être importées.
Préparation du contenu HTMLLe code HTML : Prépare le code HTML à partir duquel le contenu doit être extrait, qui peut se présenter sous la forme d'une chaîne de caractères.
Appel de la méthode d'extraction: Utilisationextractpour extraire le contenu du corps de l'article. Différents types de HTML peuvent être spécifiés selon les besoins, tels que des articles, des forums ou des messages WeChat.
résultat de la sortieLe résultat de l'extraction peut se présenter sous la forme d'un texte simple ou d'un format markdown, en fonction des besoins de l'utilisateur.

exemple typique

Vous trouverez ci-dessous un exemple complet montrant comment extraire le contenu du corps d'une simple page HTML :

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Dernières ressources sur l'IA # AI Java Open Source Projecct

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Depth AI : un assistant IA pour construire un graphe de connaissance du code complet et une compréhension approfondie de la base de code.

Dernières ressources sur l'IA # Programmation AI # Recherche de connaissances et cadre RAG

Il y a 9 mois

011.7K

Bebop : l'outil de vente pour trouver rapidement des prospects B2B

Dernières ressources sur l'IA # AI Marketing

il y a 5 mois

011.1K

CodeGuide : créer de la documentation sur le développement de la programmation en IA et automatiser la génération de la documentation complète d'un projet informatique (payant)

Dernières ressources sur l'IA # Programmation AI

Il y a 7 mois

014.1K

StartAI - AI 绘画软件，基于 Adobe Photoshop 提供多种绘图功能

StartAI - Logiciel de peinture AI, basé sur Adobe Photoshop, offrant un large éventail de fonctions de dessin.

Dernières ressources sur l'IA

Il y a 3 mois

010.2K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown

Introduction générale

Liste des fonctions

Utiliser l'aide

montage

utiliser

Fonction Opération Déroulement

exemple typique

LightFlow : plugin de peinture IA pour la réutilisation en un clic des flux de travail SD-WebUI

PromeAI : Des croquis créatifs transformés en images photoréalistes grâce à de riches capacités de redécoupage d'images

Articles connexes

Depth AI : un assistant IA pour construire un graphe de connaissance du code complet et une compréhension approfondie de la base de code.

Bebop : l'outil de vente pour trouver rapidement des prospects B2B

CodeGuide : créer de la documentation sur le développement de la programmation en IA et automatiser la génération de la documentation complète d'un projet informatique (payant)

StartAI - Logiciel de peinture AI, basé sur Adobe Photoshop, offrant un large éventail de fonctions de dessin.

Pas de commentaires

Dernières collections

Derniers articles

magic-html : extrait les données du corps de l'URL HTML, produit du texte brut/markdown

Introduction générale

Liste des fonctions

Utiliser l'aide

montage

utiliser

Fonction Opération Déroulement

exemple typique

LightFlow : plugin de peinture IA pour la réutilisation en un clic des flux de travail SD-WebUI

PromeAI : Des croquis créatifs transformés en images photoréalistes grâce à de riches capacités de redécoupage d'images

Articles connexes

Depth AI : un assistant IA pour construire un graphe de connaissance du code complet et une compréhension approfondie de la base de code.

Bebop : l'outil de vente pour trouver rapidement des prospects B2B

CodeGuide : créer de la documentation sur le développement de la programmation en IA et automatiser la génération de la documentation complète d'un projet informatique (payant)

StartAI - Logiciel de peinture AI, basé sur Adobe Photoshop, offrant un large éventail de fonctions de dessin.

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles