magic-html: extrae los datos del cuerpo de una URL HTML, salida texto plano/markdown

Últimos recursos sobre IA2年前更新 Círculo de intercambio de inteligencia artificial

54.8K 00

Introducción general

magic-html es una biblioteca de Python diseñada para simplificar el proceso de extracción del contenido de la región del cuerpo de HTML. Tanto si se trata de estructuras HTML complejas como de páginas web sencillas, esta biblioteca pretende proporcionar una interfaz cómoda y eficiente a los usuarios. Soporta la extracción multimodal, múltiples layoutextractor, incluyendo artículos, foros y artículos de microsoft, y también soporta la conversión de extracción de fórmulas de látex.

Lista de funciones

Extraer el contenido del área del cuerpo HTML
Soporte para extracción multimodal
Diseño de artículos de apoyo, foros y mensajes de weibo
Apoyo a la extracción y conversión de fórmulas de látex
Salida personalizada en formato de texto plano o markdown

Utilizar la ayuda

montaje

Para instalar magic-html, utilice el comando pip:

pip install magic-html

utilizar

Una vez instalado, puede utilizarse con el siguiente código:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Función Flujo de operaciones

Inicialización del extractorPrimero necesitas importar la librería magic-html e inicializar el extractor.
Preparación del contenido HTML: Prepara el código HTML del que hay que extraer el contenido, que puede tener forma de cadena.
Llamada al método de extracción: Usoextractpara extraer el contenido del cuerpo. Se pueden especificar distintos tipos de HTML según sea necesario, como artículos, foros o mensajes de WeChat.
resultado de salidaEl resultado de la extracción puede estar en texto plano o en formato markdown, en función de las necesidades del usuario.

ejemplo típico

A continuación se muestra un ejemplo completo de cómo extraer el contenido del cuerpo de una simple página HTML:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)