综合介绍
Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)的输入格式,支持动态流模式和图片读取等功能。
用户可以轻松获取网页的核心内容,并将其转换为干净、适合LLM处理的文本。该工具不仅支持网页文本,还能处理图像和PDF文件,自动添加必要的标签和格式化,以便LLM更有效地理解和处理内容。项目使用Node v18及Firebase CLI运行,以Apache 2.0授权协议提供。
功能列表
- 网页内容提取:将任何URL转换为LLM友好的文本格式。
- 图像识别:自动为网页中的图像生成描述标签。
- PDF阅读:支持从任意URL读取PDF文件,并转换为适合LLM的文本。
- 搜索功能:通过在查询前添加前缀“s.jina.ai”,从网络中获取最新信息并转换为LLM友好的格式。
- 高并发性和可靠性:提供高可访问性和可靠性,支持大量并发请求。
使用帮助
安装与使用
Jina AI Reader 无需安装,用户只需在URL前添加前缀“r.jina.ai”即可。例如,要将URL“https://en.wikipedia.org/wiki/Artificial_intelligence”转换为LLM友好的输入格式,只需使用以下URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
同样,若要进行网络搜索并获取LLM友好的结果,可以在查询前添加前缀“s.jina.ai”,例如:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
功能操作流程
- 网页内容提取:
- 在浏览器中输入带有前缀的URL,例如“https://r.jina.ai/https://example.com”。
- 按下回车键,Jina AI Reader 将自动提取网页内容并转换为LLM友好的文本格式。
- 提取的内容将显示在浏览器中,用户可以直接复制或进一步处理。
- 图像识别:
- 在提取网页内容时,Jina AI Reader 会自动为网页中的图像生成描述标签。
- 这些标签将作为图像的alt属性,方便LLM在处理时理解图像内容。
- PDF阅读:
- 输入带有前缀的PDF URL,例如“https://r.jina.ai/https://example.com/document.pdf”。
- Jina AI Reader 将自动读取PDF内容并转换为LLM友好的文本格式。
- 转换后的内容将显示在浏览器中,用户可以直接复制或进一步处理。
- 搜索功能:
- 在查询前添加前缀“s.jina.ai”,例如“https://s.jina.ai/your+query”。
- 按下回车键,Jina AI Reader 将从网络中获取最新信息,并转换为LLM友好的文本格式。
- 搜索结果将显示在浏览器中,用户可以直接复制或进一步处理。
高级设置
- 图像描述标签:默认情况下,图像描述标签功能是关闭的。用户可以通过在请求头中设置“x-with-generated-alt: true”来开启此功能。
- 代理和Cookie:用户可以通过请求头设置代理和Cookie,以便在特定环境下使用Jina AI Reader。
要在内容可用时对其进行处理,请将请求标头设置为流模式。这可以最大限度地缩短收到第一个字节所需的时间。curl 中的示例:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
推荐另一款html转markdown工具