AI个人学习
和实操指南
讯飞绘镜

pure.md:网址前插入“pure.md/”即可提取干净的文本

本文于 2025-03-25 23:42 更新,部分内容具有时效性,如有失效,请留言

综合介绍

pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容,pure.md 都能高效处理。工具使用 Cloudflare 和 AWS 等技术支持,提供 REST API 接口。它最大的特点是操作简单,能大幅减少内容提取和整理的时间,特别适合需要实时数据或结构化输出的场景。

pure.md:网址前插入“pure.md/”即可提取干净的文本-1


 

功能列表

  • 快速转为 Markdown:将网页或文件内容提取为简洁的 Markdown 格式。
  • 绕过反爬虫检测:模拟真实用户行为,旋转 IP 地址访问受限网站。
  • JavaScript 渲染:完整解析单页应用(SPA)的动态内容。
  • PDF 和文件转换:支持 PDF、Excel 等文件转为 Markdown。
  • 搜索引擎爬取:抓取搜索结果并整合为 Markdown。
  • 数据提取:通过 POST 请求提取 JSON 或摘要,支持自然语言指令。
  • 社交媒体支持:提取 LinkedIn、Twitter 等平台数据(部分功能开发中)。

 

使用帮助

pure.md 无需复杂安装,直接通过网页或 API 使用。以下是详细的操作步骤和功能说明,确保你能快速上手。

基本使用方法

  1. 访问官网
    在浏览器输入 https://pure.md/,进入主页面。无需下载软件,直接在线操作。
  2. 输入目标链接
    在链接前加上 https://pure.md/,例如将 https://example.com 改为 https://pure.md/https://example.com
  3. 获取 Markdown
    提交后,pure.md 会返回提取的内容,默认以 Markdown 格式输出。你可以复制结果或下载文件。

特色功能操作流程

1. 快速转为 Markdown

  • 操作步骤
    • 输入目标网页,如 https://pure.md/https://wikipedia.org
    • 点击提交,pure.md 会移除广告和无关元素,生成包含标题、正文和元数据的 Markdown 文件。
  • 效果
    输出仅 28K 字符,比同类工具(如 r.jina.ai 的 143K)更简洁,适合 AI 处理。参考:Reader API:网页内容提取工具,HTML转换为Markdown格式

2. 绕过反爬虫检测

  • 操作步骤
    • 输入受限网页链接,如 https://pure.md/https://science.org/article
    • pure.md 使用数据中心代理、住宅代理或历史数据(Common Crawl、Wayback Machine)获取内容。
    • 如果需要登录,可在请求头中添加 Cookie(见 https://pure.md/docs)。
  • 效果
    避开“验证你是人类”等限制,成功提取内容并转为 Markdown。

3. JavaScript 渲染支持

  • 操作步骤
    • 输入动态网页链接,如 https://pure.md/https://react-app.com
    • pure.md 在后台执行 DOM 渲染,生成完整内容。
    • 结果以 Markdown 返回。
  • 效果
    单页应用的动态数据(如评论或表格)被完整提取,避免只拿到空 HTML。

4. PDF 和文件转换

  • 操作步骤
    • 输入 PDF 链接,如 https://pure.md/https://example.com/file.pdf
    • 提交后,pure.md 解析文件并转为 Markdown。
    • 对于 Excel 文件,同样支持转为表格格式的 Markdown。
  • 效果
    文件内容被整理为清晰的 Markdown,标题和段落层次分明。

5. 搜索引擎爬取

  • 操作步骤
    • 输入搜索关键词链接,如 https://pure.md/https://google.com/search?q=AI
    • pure.md 抓取搜索结果并整合为 Markdown 字符串。
  • 效果
    最新的事件或知识被快速整理,适合实时更新 AI 数据。

6. 数据提取(POST 请求)

  • 操作步骤
    • 使用 POST 请求访问,如:
      POST https://pure.md/https://reuters.com
      

      请求体示例:

      {
      "prompt": "列出今天的前5条头条",
      "model": "meta/llama-3.1-8b",
      "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]}
      }
      
    • 返回 JSON 或 Markdown 结果。
  • 效果
    根据自然语言指令提取结构化数据,适合复杂任务。

7. 社交媒体支持(开发中)

  • 操作步骤
    • 输入 LinkedIn 或 Twitter 链接,如 https://pure.md/https://twitter.com/user/tweet
    • pure.md 通过数据提供商提取内容。
  • 效果
    输出帖子或简介的 Markdown,未来支持更多平台。

定价与账号

  • 注册:访问 https://pure.md/login,免费获得 $1 信用。
  • 定价
    • Starter:每分钟 60 请求,提取 $0.001/次,搜索 $0.005/次。
    • Growth:$19/月,600 请求/分钟,含 $20 免费信用。
    • Business:$99/月,3000 请求/分钟,含 $100 免费信用。
  • 支付:通过 Stripe 处理,支持随时取消。

注意事项

  • 免费版有严格限制,建议订阅以解锁完整功能。
  • 大型网页或文件处理时间稍长,通常在 5-30 秒。
  • 社交媒体功能尚未完全上线,敬请期待。

通过以上步骤,你可以轻松使用 pure.md 提取内容并转为 Markdown,操作简单且高效。

 

应用场景

  1. AI 数据采集
    AI 开发者需要网页数据训练模型。pure.md 快速提取并转为 Markdown,减少预处理工作。
  2. 研究与学习
    学生将 PDF 或网页转为 Markdown,方便整理笔记或引用资料。
  3. 新闻监控
    企业抓取实时新闻。pure.md 爬取搜索结果并输出 Markdown,保持信息更新。

 

QA

  1. 需要信用卡注册吗?
    不需要,注册后即可获得 $1 免费信用。
  2. 支持哪些文件类型?
    当前支持 HTML、PDF、Excel,图片可通过 AI 转为描述。
  3. 能访问登录后的内容吗?
    可以,但需提供 Cookie,具体见文档。
未经允许不得转载:首席AI分享圈 » pure.md:网址前插入“pure.md/”即可提取干净的文本
zh_CN简体中文