API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown
Общее введение
Проект Jina AI's Reader - это инструмент с открытым исходным кодом (Адрес считывателя с открытым исходным кодом), который может принимать любой URL, добавляя префикс https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) к входному формату, поддерживая такие функции, как динамический потоковый режим и чтение изображений.
Пользователи могут легко захватить основное содержимое веб-страниц и преобразовать его в чистый текст, пригодный для обработки в LLM. Инструмент поддерживает не только текст веб-страниц, но также работает с изображениями и PDF-файлами, автоматически добавляя необходимые теги и форматирование, чтобы LLM мог понимать и обрабатывать контент более эффективно. Проект работает на Node v18 и Firebase CLI и доступен под лицензией Apache 2.0.

Список функций
- Извлечение веб-контента: Преобразование любого URL в удобный для LLM текстовый формат.
- распознавание образов: Автоматически генерирует описательные теги для изображений на веб-страницах.
- PDF Reader: Поддержка чтения PDF-файлов с любого URL и преобразования их в текст, подходящий для LLM.
- функция поиска: Получите самую свежую информацию из Интернета и преобразуйте ее в удобный для LLM формат, добавив к запросу "s.jina.ai".
- Высокий уровень параллелизма и надежности: Обеспечивает высокую доступность и надежность для поддержки большого количества одновременных запросов.
Использование помощи
Установка и использование
Jina AI Reader не требует установки, пользователям просто нужно добавить префикс "r.jina.ai" к URL. Например, чтобы преобразовать URL "https://en.wikipedia.org/wiki/Artificial_intelligence" в формат ввода, удобный для LLM, просто используйте следующий URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
Аналогично, чтобы выполнить веб-поиск и получить результаты, дружественные к LLM, префикс запроса - "s.jina.ai", например:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Функции Поток операций
- Извлечение веб-контента::
- Введите URL-адрес в браузере с префиксом, например, "https://r.jina.ai/https://example.com".
- Нажав клавишу Enter, Jina AI Reader автоматически извлечет содержимое веб-страницы и преобразует его в удобный для LLM текстовый формат.
- Извлеченный контент будет отображен в браузере, и пользователь сможет скопировать его напрямую или обработать дальше.
- распознавание образов::
- При извлечении содержимого веб-страницы Jina AI Reader автоматически генерирует описательные теги для изображений на странице.
- Эти теги будут использоваться в качестве атрибутов alt изображения, чтобы облегчить LLM понимание содержимого изображения во время обработки.
- PDF Reader::
- Введите URL-адрес PDF-файла с префиксом, например "https://r.jina.ai/https://example.com/document.pdf".
- Jina AI Reader автоматически читает содержимое PDF и преобразует его в удобный для LLM текстовый формат.
- Преобразованный контент отображается в браузере, и пользователь может скопировать его напрямую или обработать дальше.
- функция поиска::
- Добавьте префикс "s.jina.ai" к запросу, например, "https://s.jina.ai/your+query".
- Нажмите Enter, и Jina AI Reader возьмет самую свежую информацию из Интернета и преобразует ее в удобный для LLM текстовый формат.
- Результаты поиска отображаются в браузере, и пользователь может скопировать их напрямую или обработать дальше.
Дополнительные настройки
- Теги описания изображений: По умолчанию функция тегов описания изображений отключена. Пользователи могут включить ее, установив в заголовке запроса значение "x-with-generated-alt: true".
- Прокси-серверы и файлы cookie: Пользователи могут устанавливать прокси-серверы и куки в заголовке запроса, чтобы использовать Jina AI Reader в определенном контексте.
потоковый режим
Чтобы обрабатывать содержимое по мере его поступления, установите в заголовке запроса режим потока. Это минимизирует время, необходимое для получения первого байта. пример в curl:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
Посоветуйте другой инструмент для преобразования html в markdown
https://markdowndown.vercel.app/
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...