Reader API：网页内容提取工具，HTML转换为Markdown格式

329.9K 00

综合介绍

Jina AI的Reader项目是一个开源工具（Reader 开源地址），可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)的输入格式，支持动态流模式和图片读取等功能。

用户可以轻松获取网页的核心内容，并将其转换为干净、适合LLM处理的文本。该工具不仅支持网页文本，还能处理图像和PDF文件，自动添加必要的标签和格式化，以便LLM更有效地理解和处理内容。项目使用Node v18及Firebase CLI运行，以Apache 2.0授权协议提供。

功能列表

网页内容提取：将任何URL转换为LLM友好的文本格式。
图像识别：自动为网页中的图像生成描述标签。
PDF阅读：支持从任意URL读取PDF文件，并转换为适合LLM的文本。
搜索功能：通过在查询前添加前缀“s.jina.ai”，从网络中获取最新信息并转换为LLM友好的格式。
高并发性和可靠性：提供高可访问性和可靠性，支持大量并发请求。

使用帮助

安装与使用

Jina AI Reader 无需安装，用户只需在URL前添加前缀“r.jina.ai”即可。例如，要将URL“https://en.wikipedia.org/wiki/Artificial_intelligence”转换为LLM友好的输入格式，只需使用以下URL：

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

同样，若要进行网络搜索并获取LLM友好的结果，可以在查询前添加前缀“s.jina.ai”，例如：

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

功能操作流程

网页内容提取：
- 在浏览器中输入带有前缀的URL，例如“https://r.jina.ai/https://example.com”。
- 按下回车键，Jina AI Reader 将自动提取网页内容并转换为LLM友好的文本格式。
- 提取的内容将显示在浏览器中，用户可以直接复制或进一步处理。
图像识别：
- 在提取网页内容时，Jina AI Reader 会自动为网页中的图像生成描述标签。
- 这些标签将作为图像的alt属性，方便LLM在处理时理解图像内容。
PDF阅读：
- 输入带有前缀的PDF URL，例如“https://r.jina.ai/https://example.com/document.pdf”。
- Jina AI Reader 将自动读取PDF内容并转换为LLM友好的文本格式。
- 转换后的内容将显示在浏览器中，用户可以直接复制或进一步处理。
搜索功能：
- 在查询前添加前缀“s.jina.ai”，例如“https://s.jina.ai/your+query”。
- 按下回车键，Jina AI Reader 将从网络中获取最新信息，并转换为LLM友好的文本格式。
- 搜索结果将显示在浏览器中，用户可以直接复制或进一步处理。

高级设置

图像描述标签：默认情况下，图像描述标签功能是关闭的。用户可以通过在请求头中设置“x-with-generated-alt: true”来开启此功能。
代理和Cookie：用户可以通过请求头设置代理和Cookie，以便在特定环境下使用Jina AI Reader。

流模式

要在内容可用时对其进行处理，请将请求标头设置为流模式。这可以最大限度地缩短收到第一个字节所需的时间。curl 中的示例：

curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

推荐另一款html转markdown工具

https://markdowndown.vercel.app/

最新AI资源 # AI开源项目 # 文档提取与清洗

文章版权归 AI分享圈所有，未经允许请勿转载。

AFFiNE：超越Notion 和 Miro的新一代知识库软件

FlowiseAI：构建自定义LLM应用的节点拖放界面

最新AI资源 # AI开源项目 # 低代码工作流

1年前

081.6K

Sonic：音频驱动肖像图片生成面部表情生动的数字人口播视频

最新AI资源 # AI开源项目 # AI数字人

12个月前

070.4K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Reader API：网页内容提取工具，HTML转换为Markdown格式

综合介绍

功能列表

使用帮助

安装与使用

功能操作流程

高级设置

腾讯智影：智能视频创作工具|AI数字人、动漫生成套件

吐司(TusiArt)：免费AI模型在线生成图像社区|AI绘图工具|ComfyUI

相关文章

AFFiNE：超越Notion 和 Miro的新一代知识库软件

FlowiseAI：构建自定义LLM应用的节点拖放界面

Sonic：音频驱动肖像图片生成面部表情生动的数字人口播视频

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

暂无评论

最新收录

最新文章

Reader API：网页内容提取工具，HTML转换为Markdown格式

综合介绍

功能列表

使用帮助

安装与使用

功能操作流程

高级设置

腾讯智影：智能视频创作工具|AI数字人、动漫生成套件

吐司(TusiArt)：免费AI模型在线生成图像社区|AI绘图工具|ComfyUI

相关文章

AFFiNE：超越Notion 和 Miro的新一代知识库软件

FlowiseAI：构建自定义LLM应用的节点拖放界面

Sonic：音频驱动肖像图片生成面部表情生动的数字人口播视频

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

暂无评论

AI工具精选

最新收录

最新文章