magic-html: extrae los datos del cuerpo de una URL HTML, salida texto plano/markdown
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 2K 00
Introducción general
magic-html es una biblioteca de Python diseñada para simplificar el proceso de extracción del contenido de la región del cuerpo de HTML. Tanto si se trata de estructuras HTML complejas como de páginas web sencillas, esta biblioteca pretende proporcionar una interfaz cómoda y eficiente a los usuarios. Soporta la extracción multimodal, múltiples layoutextractor, incluyendo artículos, foros y artículos de microsoft, y también soporta la conversión de extracción de fórmulas de látex.
Lista de funciones
- Extraer el contenido del área del cuerpo HTML
- Soporte para extracción multimodal
- Diseño de artículos de apoyo, foros y mensajes de weibo
- Apoyo a la extracción y conversión de fórmulas de látex
- Salida personalizada en formato de texto plano o markdown
Utilizar la ayuda
montaje
Para instalar magic-html, utilice el comando pip:
pip install magic-html
utilizar
Una vez instalado, puede utilizarse con el siguiente código:
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)
Función Flujo de operaciones
- Inicialización del extractorPrimero necesitas importar la librería magic-html e inicializar el extractor.
- Preparación del contenido HTML: Prepara el código HTML del que hay que extraer el contenido, que puede tener forma de cadena.
- Llamada al método de extracción: Uso
extract
para extraer el contenido del cuerpo. Se pueden especificar distintos tipos de HTML según sea necesario, como artículos, foros o mensajes de WeChat. - resultado de salidaEl resultado de la extracción puede estar en texto plano o en formato markdown, en función de las necesidades del usuario.
ejemplo típico
A continuación se muestra un ejemplo completo de cómo extraer el contenido del cuerpo de una simple página HTML:
from magic_html import GeneralExtractor
# 初始化提取器
extractor = GeneralExtractor()
# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
<title>Example Domain</title>
<meta charset="utf-8" />
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""
# 提取数据
data = extractor.extract(html)
print(data)
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...