pure.md: вставьте "pure.md/" перед URL-адресом, чтобы извлечь чистый текст.

Общее введение

pure.md - это инструмент, предназначенный для агентов искусственного интеллекта и разработчиков и ориентированный на быстрое преобразование веб-контента или файлов в формат Markdown. Он обходит ограничения антикраулера через прокси-сервисы, извлекает основные данные веб-страницы и выводит чистый файл в формате Markdown. Будь то динамическая веб-страница, PDF-файл или контент социальных сетей, pure.md справится с этим эффективно. Инструмент работает на базе Cloudflare и AWS и предоставляет интерфейс REST API. Его лучшая особенность заключается в том, что он прост в эксплуатации, позволяет значительно сократить время извлечения и организации контента, особенно подходит для работы с данными в режиме реального времени или сценариями структурированного вывода.

pure.md:网址前插入“pure.md/”即可提取干净的文本

 

Список функций

  • Quick to Markdown: извлечение содержимого веб-страницы или документа в чистый формат Markdown.
  • Обход обнаружения антикраулера: имитирует реальное поведение пользователя и подкручивает IP-адреса для доступа к запрещенным сайтам.
  • Рендеринг JavaScript: полный разбор динамического контента для одностраничных приложений (SPA).
  • Конвертация PDF и файлов: поддержка преобразования PDF, Excel и других файлов в Markdown.
  • Search Engine Crawling: поиск результатов поиска и интеграция их в Markdown.
  • Извлечение данных: извлечение JSON или дайджеста через POST-запрос, поддержка команд на естественном языке.
  • Поддержка социальных сетей: извлечение данных из таких платформ, как LinkedIn, Twitter и т. д. (некоторые функции находятся в стадии разработки).

 

Использование помощи

pure.md не требует сложной установки и может быть использован непосредственно через веб-интерфейс или API. Ниже приведены подробные пошаговые инструкции и описания функций, чтобы вы могли быстро приступить к работе.

Базовое использование

  1. Посетите официальный сайт
    Введите в браузере https://pure.md/Главная страница сайта будет отображаться на главной странице. Не нужно загружать программное обеспечение, работайте прямо в режиме онлайн.
  2. Введите целевую ссылку
    Перед ссылкой поставьте https://pure.md/Например, это может быть https://example.com превратиться в https://pure.md/https://example.com.
  3. Получить уценку
    После отправки pure.md возвращает извлеченное содержимое, которое по умолчанию выводится в формате Markdown. Вы можете скопировать результат или загрузить файл.

Основные функции Процедура работы

1. Быстрое преобразование в Markdown

  • процедура::
    • Введите целевую веб-страницу, например https://pure.md/https://wikipedia.org.
    • Когда вы нажмете кнопку "Отправить", файл pure.md удалит рекламу и лишние элементы и создаст файл в формате Markdown, содержащий заголовок, тело и метаданные.
  • эффект::
    Выходные данные составляют всего 28K символов, что более компактно, чем у аналогичных инструментов (например, у r.jina.ai - 143K) и подходит для обработки искусственным интеллектом. Ссылки:API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown

2. обход обнаружения антикраулеров

  • процедура::
    • Введите ссылку на веб-страницу с ограниченным доступом, например https://pure.md/https://science.org/article.
    • pure.md использует агентов центров обработки данных, агентов по месту жительства или исторические данные (Common Crawl, Wayback Machine) для получения контента.
    • Если вам нужно войти в систему, добавьте cookie в заголовок запроса (см. https://pure.md/docs).
  • эффект::
    Успешно извлекает содержимое и преобразует его в Markdown, обходя такие ограничения, как "Убедитесь, что вы человек".

3. поддержка рендеринга JavaScript

  • процедура::
    • Введите ссылку на динамическую веб-страницу, например. https://pure.md/https://react-app.com.
    • pure.md выполняет рендеринг DOM в фоновом режиме для создания полного содержимого.
    • Результат возвращается в формате Markdown.
  • эффект::
    Динамические данные (например, комментарии или формы) для одностраничных приложений извлекаются целиком, что позволяет избежать получения просто пустого HTML.

4. преобразование PDF и документов

  • процедура::
    • Введите ссылку на PDF-файл, например https://pure.md/https://example.com/file.pdf.
    • После отправки pure.md анализирует файл и преобразует его в Markdown.
    • Для файлов Excel также поддерживается формат Markdown to table.
  • эффект::
    Содержимое документа организовано в понятном формате Markdown с иерархическими заголовками и абзацами.

5. поиск в поисковых системах

  • процедура::
    • Введите ссылку на поисковый запрос, например. https://pure.md/https://google.com/search?q=AI.
    • pure.md просматривает результаты поиска и объединяет их в строки Markdown.
  • эффект::
    Последние события или знания быстро собираются и подходят для обновления данных ИИ в режиме реального времени.

6. извлечение данных (POST-запросы)

  • процедура::
    • Для доступа используйте POST-запрос, например:
      POST https://pure.md/https://reuters.com
      

      Пример тела запроса:

      {
      "prompt": "列出今天的前5条头条",
      "model": "meta/llama-3.1-8b",
      "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]}
      }
      
    • Возвращает результаты в формате JSON или Markdown.
  • эффект::
    Извлечение структурированных данных на основе инструкций естественного языка подходит для решения сложных задач.

7. Поддержка социальных сетей (в разработке)

  • процедура::
    • Введите ссылку на LinkedIn или Twitter, например https://pure.md/https://twitter.com/user/tweet.
    • pure.md извлекает содержимое через поставщиков данных.
  • эффект::
    Выводите Markdown для постов или профилей, а в будущем появится поддержка других платформ.

Ценообразование и счета

  • зачисление: Доступ https://pure.md/loginВы можете получить кредит $1 бесплатно.
  • установить цену::
    • Стартовый: 60 запросов в минуту, $0.001/экстракция, $0.005/поиск.
    • Рост: $19 в месяц, 600 запросов в минуту с $20 бесплатным кредитом.
    • Бизнес: $99/месяц, 3000 запросов в минуту с $100 бесплатным кредитом.
  • платить (деньги): Обработка через Stripe, с поддержкой отмены в любое время.

предостережение

  • Бесплатная версия имеет строгие ограничения, и для разблокировки полной функциональности рекомендуется подписка.
  • Большие страницы или файлы обрабатываются немного дольше, обычно 5-30 секунд.
  • Функции социальных сетей еще не полностью реализованы, так что следите за новостями.

С помощью этих шагов вы сможете легко извлечь содержимое и преобразовать его в Markdown с помощью pure.md, что просто и эффективно.

 

сценарий применения

  1. Получение данных искусственного интеллекта
    Разработчикам ИИ нужны веб-данные для обучения моделей. pure.md быстро извлекает и преобразует их в Markdown, сокращая предварительную обработку.
  2. Исследование и изучение
    Студенты конвертируют PDF-файлы или веб-страницы в Markdown для удобства организации заметок или цитирования информации.
  3. мониторинг новостей
    Enterprise проверяет новости в реальном времени. pure.md проверяет результаты поиска и выводит Markdown, чтобы поддерживать информацию в актуальном состоянии.

 

QA

  1. Нужна кредитная карта для регистрации?
    Нет необходимости, зарегистрируйтесь и получите $1 бесплатный кредит.
  2. Какие типы файлов поддерживаются?
    В настоящее время поддерживаются HTML, PDF, Excel, а изображения могут быть преобразованы в описания с помощью AI.
  3. Могу ли я получить доступ к содержимому, в которое вошел?
    Да, но вам нужно предоставить cookie, см. документацию.
© заявление об авторских правах

Похожие статьи

CHRONOS:新闻时间线总结工具,提升新闻检索和时间线生成效率

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...