API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown

Общее введение

 

Проект Jina AI's Reader - это инструмент с открытым исходным кодом (Адрес считывателя с открытым исходным кодом), который может принимать любой URL, добавляя префикс https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) к входному формату, поддерживая такие функции, как динамический потоковый режим и чтение изображений.

Пользователи могут легко захватить основное содержимое веб-страниц и преобразовать его в чистый текст, пригодный для обработки в LLM. Инструмент поддерживает не только текст веб-страниц, но также работает с изображениями и PDF-файлами, автоматически добавляя необходимые теги и форматирование, чтобы LLM мог понимать и обрабатывать контент более эффективно. Проект работает на Node v18 и Firebase CLI и доступен под лицензией Apache 2.0.

 

Reader API:网页内容提取工具,HTML转换为Markdown格式

 

 

Список функций

  • Извлечение веб-контента: Преобразование любого URL в удобный для LLM текстовый формат.
  • распознавание образов: Автоматически генерирует описательные теги для изображений на веб-страницах.
  • PDF Reader: Поддержка чтения PDF-файлов с любого URL и преобразования их в текст, подходящий для LLM.
  • функция поиска: Получите самую свежую информацию из Интернета и преобразуйте ее в удобный для LLM формат, добавив к запросу "s.jina.ai".
  • Высокий уровень параллелизма и надежности: Обеспечивает высокую доступность и надежность для поддержки большого количества одновременных запросов.

 

 

Использование помощи

Установка и использование

Jina AI Reader не требует установки, пользователям просто нужно добавить префикс "r.jina.ai" к URL. Например, чтобы преобразовать URL "https://en.wikipedia.org/wiki/Artificial_intelligence" в формат ввода, удобный для LLM, просто используйте следующий URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Аналогично, чтобы выполнить веб-поиск и получить результаты, дружественные к LLM, префикс запроса - "s.jina.ai", например:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Функции Поток операций

  1. Извлечение веб-контента::
    • Введите URL-адрес в браузере с префиксом, например, "https://r.jina.ai/https://example.com".
    • Нажав клавишу Enter, Jina AI Reader автоматически извлечет содержимое веб-страницы и преобразует его в удобный для LLM текстовый формат.
    • Извлеченный контент будет отображен в браузере, и пользователь сможет скопировать его напрямую или обработать дальше.
  2. распознавание образов::
    • При извлечении содержимого веб-страницы Jina AI Reader автоматически генерирует описательные теги для изображений на странице.
    • Эти теги будут использоваться в качестве атрибутов alt изображения, чтобы облегчить LLM понимание содержимого изображения во время обработки.
  3. PDF Reader::
    • Введите URL-адрес PDF-файла с префиксом, например "https://r.jina.ai/https://example.com/document.pdf".
    • Jina AI Reader автоматически читает содержимое PDF и преобразует его в удобный для LLM текстовый формат.
    • Преобразованный контент отображается в браузере, и пользователь может скопировать его напрямую или обработать дальше.
  4. функция поиска::
    • Добавьте префикс "s.jina.ai" к запросу, например, "https://s.jina.ai/your+query".
    • Нажмите Enter, и Jina AI Reader возьмет самую свежую информацию из Интернета и преобразует ее в удобный для LLM текстовый формат.
    • Результаты поиска отображаются в браузере, и пользователь может скопировать их напрямую или обработать дальше.

Дополнительные настройки

  • Теги описания изображений: По умолчанию функция тегов описания изображений отключена. Пользователи могут включить ее, установив в заголовке запроса значение "x-with-generated-alt: true".
  • Прокси-серверы и файлы cookie: Пользователи могут устанавливать прокси-серверы и куки в заголовке запроса, чтобы использовать Jina AI Reader в определенном контексте.

 

потоковый режим
Чтобы обрабатывать содержимое по мере его поступления, установите в заголовке запроса режим потока. Это минимизирует время, необходимое для получения первого байта. пример в curl:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

Посоветуйте другой инструмент для преобразования html в markdown

https://markdowndown.vercel.app/

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...