Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 3.1K 00
Introducción general
El proyecto Reader de Jina AI es una herramienta de código abierto (Dirección de código abierto Reader), que puede tomar cualquier URL añadiendo el prefijo https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) al formato de entrada, y que admite funciones como el modo de flujo dinámico y la lectura de imágenes.
Los usuarios pueden capturar fácilmente el contenido central de las páginas web y convertirlo en texto limpio y adecuado para el procesamiento LLM. La herramienta no sólo soporta texto de páginas web, sino que también maneja imágenes y archivos PDF, añadiendo automáticamente las etiquetas y el formato necesarios para que LLM pueda entender y procesar el contenido de forma más eficiente. El proyecto funciona con Node v18 y Firebase CLI y está disponible bajo licencia Apache 2.0.

Lista de funciones
- Extracción de contenidos webConvierte cualquier URL a un formato de texto compatible con LLM.
- reconocimiento de imágenes: Genera automáticamente etiquetas de descripción para las imágenes de las páginas web.
- Lectura en PDF: Soporta la lectura de archivos PDF desde cualquier URL y su conversión a texto apto para LLM.
- función de búsquedaObtenga la información más reciente de la web y conviértala a un formato compatible con LLM anteponiendo a la consulta el prefijo "s.jina.ai".
- Alta concurrencia y fiabilidad: Proporciona alta accesibilidad y fiabilidad para soportar un gran número de peticiones concurrentes.
Utilizar la ayuda
Instalación y uso
Jina AI Reader no requiere instalación, los usuarios sólo tienen que añadir el prefijo "r.jina.ai" a la URL. Por ejemplo, para convertir la URL "https://en.wikipedia.org/wiki/Artificial_intelligence" a un formato de entrada compatible con LLM, basta con utilizar la siguiente URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
Del mismo modo, para realizar una búsqueda en Internet y obtener resultados compatibles con LLM, anteponga a la consulta "s.jina.ai", por ejemplo:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Función Flujo de operaciones
- Extracción de contenidos web::
- Introduzca la URL en su navegador con el prefijo, por ejemplo "https://r.jina.ai/https://example.com".
- Al pulsar la tecla Intro, Jina AI Reader extraerá automáticamente el contenido de la página web y lo convertirá a un formato de texto compatible con LLM.
- El contenido extraído se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
- reconocimiento de imágenes::
- Al extraer el contenido de una página web, Jina AI Reader genera automáticamente etiquetas descriptivas para las imágenes de la página.
- Estas etiquetas se utilizarán como atributos alt de la imagen para facilitar a LLM la comprensión del contenido de la imagen durante el procesamiento.
- Lectura en PDF::
- Introduzca la URL del PDF con un prefijo, como "https://r.jina.ai/https://example.com/document.pdf".
- Jina AI Reader leerá automáticamente el contenido del PDF y lo convertirá a un formato de texto compatible con LLM.
- El contenido convertido se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
- función de búsqueda::
- Añada el prefijo "s.jina.ai" a la consulta, por ejemplo "https://s.jina.ai/your+query".
- Pulsa enter y Jina AI Reader obtendrá la información más reciente de la web y la convertirá en un formato de texto amigable para LLM.
- Los resultados de la búsqueda se mostrarán en el navegador y el usuario podrá copiarlos directamente o procesarlos posteriormente.
Configuración avanzada
- Etiquetas de descripción de imágenesPor defecto, la descripción de la imagen está desactivada. Los usuarios pueden activarla estableciendo "x-with-generated-alt: true" en la cabecera de la solicitud.
- Proxies y cookiesLos usuarios pueden establecer proxies y cookies en el encabezado de la solicitud para utilizar Jina AI Reader en un contexto específico.
modo streaming
Para procesar el contenido a medida que esté disponible, configure la cabecera de la petición en modo stream. Esto minimiza el tiempo que se tarda en recibir el primer byte. ejemplo en curl:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
Recomienda otra herramienta html to markdown
https://markdowndown.vercel.app/
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...