magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Recursos mais recentes de IAAtualizado há 12 meses Círculo de compartilhamento de IA

9.8K 00

Introdução geral

magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela suporta extração multimodal, vários layoutextractor, incluindo artigos, fóruns e artigos da Microsoft, e também suporta a conversão de extração de fórmulas de látex.

Lista de funções

Extrair o conteúdo da área do corpo do HTML
Suporte para extração multimodal
Layout de artigos de suporte, fóruns e postagens do weibo
Suporte à extração e conversão de fórmulas de látex
Saída personalizada em texto simples ou formato markdown

Usando a Ajuda

montagem

Para instalar o magic-html, use o comando pip:

pip install magic-html

fazer uso de

Depois de instalado, ele pode ser usado com o seguinte código:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Função Fluxo de operação

Inicialização do extrator: Primeiro, você precisa importar a biblioteca magic-html e inicializar o extrator.
Preparação de conteúdo HTMLCódigo HTML: prepara o código HTML do qual o conteúdo precisa ser extraído, que pode estar na forma de uma cadeia de caracteres.
Chamada do método de extração: Usoextractpara extrair o conteúdo do corpo. Diferentes tipos de HTML podem ser especificados conforme necessário, como artigos, fóruns ou mensagens do WeChat.
resultado de saídaO resultado da extração pode estar em texto simples ou no formato markdown, dependendo das necessidades do usuário.

exemplo típico

Abaixo está um exemplo completo que mostra como extrair o conteúdo do corpo de uma página HTML simples:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Recursos mais recentes de IA # Projeto de código aberto AI Java

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Remoção de marca d'água: ferramenta de remoção de marca d'água de imagem de código aberto, recuperação de marca d'água de imagem original

Recursos mais recentes de IA # Projeto de código aberto AI Java # Chaveamento de IA para alterar os planos de fundo

7 meses atrás

014.2K

Pinokio: implantação local com um clique de todos os tipos de projetos de código aberto de IA, implantação totalmente automatizada de pessoas brancas

Recursos mais recentes de IA Ferramenta de geração de imagens de autoimplantação de IA ## Ferramenta de modelo grande de código aberto implantada localmente

1 ano atrás

015.3K

FiaMind - Ferramenta de mapeamento mental de IA com telas ilimitadas para divisão e combinação gratuitas

Recursos mais recentes de IA

3 meses atrás

09.7K

ComfyUI disty Flow：为 ComfyUI 提供友好的用户界面，简化工作流程

ComfyUI disty Flow: uma interface amigável para o ComfyUI para agilizar o fluxo de trabalho

Recursos mais recentes de IA # AI Auxiliares de geração de imagens # Projeto de código aberto AI Java # ComfyUI

7 meses atrás

012.2K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

Lista de funções

Usando a Ajuda

montagem

fazer uso de

Função Fluxo de operação

exemplo típico

LightFlow: plug-in de pintura de IA para reutilização de fluxos de trabalho SD-WebUI com um clique

PromeAI: esboços criativos em imagens fotorrealistas com recursos avançados de redesenho de imagens

Artigos relacionados

Remoção de marca d'água: ferramenta de remoção de marca d'água de imagem de código aberto, recuperação de marca d'água de imagem original

Pinokio: implantação local com um clique de todos os tipos de projetos de código aberto de IA, implantação totalmente automatizada de pessoas brancas

FiaMind - Ferramenta de mapeamento mental de IA com telas ilimitadas para divisão e combinação gratuitas

ComfyUI disty Flow: uma interface amigável para o ComfyUI para agilizar o fluxo de trabalho

Sem comentários

Últimas coleções

Artigos mais recentes

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

Lista de funções

Usando a Ajuda

montagem

fazer uso de

Função Fluxo de operação

exemplo típico

LightFlow: plug-in de pintura de IA para reutilização de fluxos de trabalho SD-WebUI com um clique

PromeAI: esboços criativos em imagens fotorrealistas com recursos avançados de redesenho de imagens

Artigos relacionados

Remoção de marca d'água: ferramenta de remoção de marca d'água de imagem de código aberto, recuperação de marca d'água de imagem original

Pinokio: implantação local com um clique de todos os tipos de projetos de código aberto de IA, implantação totalmente automatizada de pessoas brancas

FiaMind - Ferramenta de mapeamento mental de IA com telas ilimitadas para divisão e combinação gratuitas

ComfyUI disty Flow: uma interface amigável para o ComfyUI para agilizar o fluxo de trabalho

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes