magic-html: извлечение данных о теле из HTML URL, вывод обычного текста/markdown

Общее введение

magic-html - это библиотека Python, предназначенная для упрощения процесса извлечения содержимого области тела из HTML. Независимо от того, имеет ли она дело со сложными структурами HTML или простыми веб-страницами, эта библиотека призвана обеспечить удобный и эффективный интерфейс для пользователей. Она поддерживает мультимодальное извлечение, множество компоновок, включая статьи, форумы и статьи microsoft, а также поддерживает преобразование извлечения формул латекса.

Список функций

  • Извлечение содержимого области тела HTML
  • Поддержка мультимодального извлечения
  • Макет статьи поддержки, форума и сообщения Weibo
  • Поддержка извлечения и преобразования латексных формул
  • Настраиваемый вывод в виде обычного текста или формата markdown

 

Использование помощи

монтаж

Чтобы установить magic-html, воспользуйтесь командой pip:

pip install magic-html

пользоваться

После установки его можно использовать с помощью следующего кода:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Функции Поток операций

  1. Инициализация экстрактора: Сначала вам нужно импортировать библиотеку magic-html и инициализировать экстрактор.
  2. Подготовка содержимого HTML: Подготовьте HTML-код, из которого нужно извлечь содержимое, который может быть в виде строки.
  3. Вызов метода извлечения: Использованиеextractметод для извлечения содержимого тела. При необходимости можно указать различные типы HTML, например статьи, форумы или сообщения WeChat.
  4. результат вывода: Результат извлечения может быть в виде обычного текста или в формате markdown, в зависимости от потребностей пользователя.

типичный пример

Ниже приведен пример, показывающий, как извлечь содержимое тела из простой HTML-страницы:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...