本文于 2025-03-25 23:42 更新,部分内容具有时效性,如有失效,请留言
综合介绍
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容,pure.md 都能高效处理。工具使用 Cloudflare 和 AWS 等技术支持,提供 REST API 接口。它最大的特点是操作简单,能大幅减少内容提取和整理的时间,特别适合需要实时数据或结构化输出的场景。
功能列表
- 快速转为 Markdown:将网页或文件内容提取为简洁的 Markdown 格式。
- 绕过反爬虫检测:模拟真实用户行为,旋转 IP 地址访问受限网站。
- JavaScript 渲染:完整解析单页应用(SPA)的动态内容。
- PDF 和文件转换:支持 PDF、Excel 等文件转为 Markdown。
- 搜索引擎爬取:抓取搜索结果并整合为 Markdown。
- 数据提取:通过 POST 请求提取 JSON 或摘要,支持自然语言指令。
- 社交媒体支持:提取 LinkedIn、Twitter 等平台数据(部分功能开发中)。
使用帮助
pure.md 无需复杂安装,直接通过网页或 API 使用。以下是详细的操作步骤和功能说明,确保你能快速上手。
基本使用方法
- 访问官网
在浏览器输入https://pure.md/
,进入主页面。无需下载软件,直接在线操作。 - 输入目标链接
在链接前加上https://pure.md/
,例如将https://example.com
改为https://pure.md/https://example.com
。 - 获取 Markdown
提交后,pure.md 会返回提取的内容,默认以 Markdown 格式输出。你可以复制结果或下载文件。
特色功能操作流程
1. 快速转为 Markdown
- 操作步骤:
- 输入目标网页,如
https://pure.md/https://wikipedia.org
。 - 点击提交,pure.md 会移除广告和无关元素,生成包含标题、正文和元数据的 Markdown 文件。
- 输入目标网页,如
- 效果:
输出仅 28K 字符,比同类工具(如 r.jina.ai 的 143K)更简洁,适合 AI 处理。参考:Reader API:网页内容提取工具,HTML转换为Markdown格式
2. 绕过反爬虫检测
- 操作步骤:
- 输入受限网页链接,如
https://pure.md/https://science.org/article
。 - pure.md 使用数据中心代理、住宅代理或历史数据(Common Crawl、Wayback Machine)获取内容。
- 如果需要登录,可在请求头中添加 Cookie(见
https://pure.md/docs
)。
- 输入受限网页链接,如
- 效果:
避开“验证你是人类”等限制,成功提取内容并转为 Markdown。
3. JavaScript 渲染支持
- 操作步骤:
- 输入动态网页链接,如
https://pure.md/https://react-app.com
。 - pure.md 在后台执行 DOM 渲染,生成完整内容。
- 结果以 Markdown 返回。
- 输入动态网页链接,如
- 效果:
单页应用的动态数据(如评论或表格)被完整提取,避免只拿到空 HTML。
4. PDF 和文件转换
- 操作步骤:
- 输入 PDF 链接,如
https://pure.md/https://example.com/file.pdf
。 - 提交后,pure.md 解析文件并转为 Markdown。
- 对于 Excel 文件,同样支持转为表格格式的 Markdown。
- 输入 PDF 链接,如
- 效果:
文件内容被整理为清晰的 Markdown,标题和段落层次分明。
5. 搜索引擎爬取
- 操作步骤:
- 输入搜索关键词链接,如
https://pure.md/https://google.com/search?q=AI
。 - pure.md 抓取搜索结果并整合为 Markdown 字符串。
- 输入搜索关键词链接,如
- 效果:
最新的事件或知识被快速整理,适合实时更新 AI 数据。
6. 数据提取(POST 请求)
- 操作步骤:
- 使用 POST 请求访问,如:
POST https://pure.md/https://reuters.com
请求体示例:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- 返回 JSON 或 Markdown 结果。
- 使用 POST 请求访问,如:
- 效果:
根据自然语言指令提取结构化数据,适合复杂任务。
7. 社交媒体支持(开发中)
- 操作步骤:
- 输入 LinkedIn 或 Twitter 链接,如
https://pure.md/https://twitter.com/user/tweet
。 - pure.md 通过数据提供商提取内容。
- 输入 LinkedIn 或 Twitter 链接,如
- 效果:
输出帖子或简介的 Markdown,未来支持更多平台。
定价与账号
- 注册:访问
https://pure.md/login
,免费获得 $1 信用。 - 定价:
- Starter:每分钟 60 请求,提取 $0.001/次,搜索 $0.005/次。
- Growth:$19/月,600 请求/分钟,含 $20 免费信用。
- Business:$99/月,3000 请求/分钟,含 $100 免费信用。
- 支付:通过 Stripe 处理,支持随时取消。
注意事项
- 免费版有严格限制,建议订阅以解锁完整功能。
- 大型网页或文件处理时间稍长,通常在 5-30 秒。
- 社交媒体功能尚未完全上线,敬请期待。
通过以上步骤,你可以轻松使用 pure.md 提取内容并转为 Markdown,操作简单且高效。
应用场景
- AI 数据采集
AI 开发者需要网页数据训练模型。pure.md 快速提取并转为 Markdown,减少预处理工作。 - 研究与学习
学生将 PDF 或网页转为 Markdown,方便整理笔记或引用资料。 - 新闻监控
企业抓取实时新闻。pure.md 爬取搜索结果并输出 Markdown,保持信息更新。
QA
- 需要信用卡注册吗?
不需要,注册后即可获得 $1 免费信用。 - 支持哪些文件类型?
当前支持 HTML、PDF、Excel,图片可通过 AI 转为描述。 - 能访问登录后的内容吗?
可以,但需提供 Cookie,具体见文档。