Aprendizagem pessoal com IA
e orientação prática
讯飞绘镜

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela suporta extração multimodal, vários layoutextractor, incluindo artigos, fóruns e artigos da Microsoft, e também suporta a conversão de extração de fórmulas de látex.

Lista de funções

  • Extrair o conteúdo da área do corpo do HTML
  • Suporte para extração multimodal
  • Layout de artigos de suporte, fóruns e postagens do weibo
  • Suporte à extração e conversão de fórmulas de látex
  • Saída personalizada em texto simples ou formato markdown

 

Usando a Ajuda

montagem

Para instalar o magic-html, use o comando pip:


pip install magic-html

fazer uso de

Depois de instalado, ele pode ser usado com o seguinte código:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Função Fluxo de operação

  1. Inicialização do extrator: Primeiro, você precisa importar a biblioteca magic-html e inicializar o extrator.
  2. Preparação de conteúdo HTMLCódigo HTML: prepara o código HTML do qual o conteúdo precisa ser extraído, que pode estar na forma de uma cadeia de caracteres.
  3. Chamada do método de extração: Usoextractpara extrair o conteúdo do corpo. Diferentes tipos de HTML podem ser especificados conforme necessário, como artigos, fóruns ou mensagens do WeChat.
  4. resultado de saídaO resultado da extração pode estar em texto simples ou no formato markdown, dependendo das necessidades do usuário.

exemplo típico

Abaixo está um exemplo completo que mostra como extrair o conteúdo do corpo de uma página HTML simples:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown
pt_BRPortuguês do Brasil