pure.md: вставьте "pure.md/" перед URL-адресом, чтобы извлечь чистый текст.
Общее введение
pure.md - это инструмент, предназначенный для агентов искусственного интеллекта и разработчиков и ориентированный на быстрое преобразование веб-контента или файлов в формат Markdown. Он обходит ограничения антикраулера через прокси-сервисы, извлекает основные данные веб-страницы и выводит чистый файл в формате Markdown. Будь то динамическая веб-страница, PDF-файл или контент социальных сетей, pure.md справится с этим эффективно. Инструмент работает на базе Cloudflare и AWS и предоставляет интерфейс REST API. Его лучшая особенность заключается в том, что он прост в эксплуатации, позволяет значительно сократить время извлечения и организации контента, особенно подходит для работы с данными в режиме реального времени или сценариями структурированного вывода.

Список функций
- Quick to Markdown: извлечение содержимого веб-страницы или документа в чистый формат Markdown.
- Обход обнаружения антикраулера: имитирует реальное поведение пользователя и подкручивает IP-адреса для доступа к запрещенным сайтам.
- Рендеринг JavaScript: полный разбор динамического контента для одностраничных приложений (SPA).
- Конвертация PDF и файлов: поддержка преобразования PDF, Excel и других файлов в Markdown.
- Search Engine Crawling: поиск результатов поиска и интеграция их в Markdown.
- Извлечение данных: извлечение JSON или дайджеста через POST-запрос, поддержка команд на естественном языке.
- Поддержка социальных сетей: извлечение данных из таких платформ, как LinkedIn, Twitter и т. д. (некоторые функции находятся в стадии разработки).
Использование помощи
pure.md не требует сложной установки и может быть использован непосредственно через веб-интерфейс или API. Ниже приведены подробные пошаговые инструкции и описания функций, чтобы вы могли быстро приступить к работе.
Базовое использование
- Посетите официальный сайт
Введите в браузереhttps://pure.md/
Главная страница сайта будет отображаться на главной странице. Не нужно загружать программное обеспечение, работайте прямо в режиме онлайн. - Введите целевую ссылку
Перед ссылкой поставьтеhttps://pure.md/
Например, это может бытьhttps://example.com
превратиться вhttps://pure.md/https://example.com
. - Получить уценку
После отправки pure.md возвращает извлеченное содержимое, которое по умолчанию выводится в формате Markdown. Вы можете скопировать результат или загрузить файл.
Основные функции Процедура работы
1. Быстрое преобразование в Markdown
- процедура::
- Введите целевую веб-страницу, например
https://pure.md/https://wikipedia.org
. - Когда вы нажмете кнопку "Отправить", файл pure.md удалит рекламу и лишние элементы и создаст файл в формате Markdown, содержащий заголовок, тело и метаданные.
- Введите целевую веб-страницу, например
- эффект::
Выходные данные составляют всего 28K символов, что более компактно, чем у аналогичных инструментов (например, у r.jina.ai - 143K) и подходит для обработки искусственным интеллектом. Ссылки:API Reader: инструмент для извлечения веб-контента, преобразование HTML в Markdown
2. обход обнаружения антикраулеров
- процедура::
- Введите ссылку на веб-страницу с ограниченным доступом, например
https://pure.md/https://science.org/article
. - pure.md использует агентов центров обработки данных, агентов по месту жительства или исторические данные (Common Crawl, Wayback Machine) для получения контента.
- Если вам нужно войти в систему, добавьте cookie в заголовок запроса (см.
https://pure.md/docs
).
- Введите ссылку на веб-страницу с ограниченным доступом, например
- эффект::
Успешно извлекает содержимое и преобразует его в Markdown, обходя такие ограничения, как "Убедитесь, что вы человек".
3. поддержка рендеринга JavaScript
- процедура::
- Введите ссылку на динамическую веб-страницу, например.
https://pure.md/https://react-app.com
. - pure.md выполняет рендеринг DOM в фоновом режиме для создания полного содержимого.
- Результат возвращается в формате Markdown.
- Введите ссылку на динамическую веб-страницу, например.
- эффект::
Динамические данные (например, комментарии или формы) для одностраничных приложений извлекаются целиком, что позволяет избежать получения просто пустого HTML.
4. преобразование PDF и документов
- процедура::
- Введите ссылку на PDF-файл, например
https://pure.md/https://example.com/file.pdf
. - После отправки pure.md анализирует файл и преобразует его в Markdown.
- Для файлов Excel также поддерживается формат Markdown to table.
- Введите ссылку на PDF-файл, например
- эффект::
Содержимое документа организовано в понятном формате Markdown с иерархическими заголовками и абзацами.
5. поиск в поисковых системах
- процедура::
- Введите ссылку на поисковый запрос, например.
https://pure.md/https://google.com/search?q=AI
. - pure.md просматривает результаты поиска и объединяет их в строки Markdown.
- Введите ссылку на поисковый запрос, например.
- эффект::
Последние события или знания быстро собираются и подходят для обновления данных ИИ в режиме реального времени.
6. извлечение данных (POST-запросы)
- процедура::
- Для доступа используйте POST-запрос, например:
POST https://pure.md/https://reuters.com
Пример тела запроса:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- Возвращает результаты в формате JSON или Markdown.
- Для доступа используйте POST-запрос, например:
- эффект::
Извлечение структурированных данных на основе инструкций естественного языка подходит для решения сложных задач.
7. Поддержка социальных сетей (в разработке)
- процедура::
- Введите ссылку на LinkedIn или Twitter, например
https://pure.md/https://twitter.com/user/tweet
. - pure.md извлекает содержимое через поставщиков данных.
- Введите ссылку на LinkedIn или Twitter, например
- эффект::
Выводите Markdown для постов или профилей, а в будущем появится поддержка других платформ.
Ценообразование и счета
- зачисление: Доступ
https://pure.md/login
Вы можете получить кредит $1 бесплатно. - установить цену::
- Стартовый: 60 запросов в минуту, $0.001/экстракция, $0.005/поиск.
- Рост: $19 в месяц, 600 запросов в минуту с $20 бесплатным кредитом.
- Бизнес: $99/месяц, 3000 запросов в минуту с $100 бесплатным кредитом.
- платить (деньги): Обработка через Stripe, с поддержкой отмены в любое время.
предостережение
- Бесплатная версия имеет строгие ограничения, и для разблокировки полной функциональности рекомендуется подписка.
- Большие страницы или файлы обрабатываются немного дольше, обычно 5-30 секунд.
- Функции социальных сетей еще не полностью реализованы, так что следите за новостями.
С помощью этих шагов вы сможете легко извлечь содержимое и преобразовать его в Markdown с помощью pure.md, что просто и эффективно.
сценарий применения
- Получение данных искусственного интеллекта
Разработчикам ИИ нужны веб-данные для обучения моделей. pure.md быстро извлекает и преобразует их в Markdown, сокращая предварительную обработку. - Исследование и изучение
Студенты конвертируют PDF-файлы или веб-страницы в Markdown для удобства организации заметок или цитирования информации. - мониторинг новостей
Enterprise проверяет новости в реальном времени. pure.md проверяет результаты поиска и выводит Markdown, чтобы поддерживать информацию в актуальном состоянии.
QA
- Нужна кредитная карта для регистрации?
Нет необходимости, зарегистрируйтесь и получите $1 бесплатный кредит. - Какие типы файлов поддерживаются?
В настоящее время поддерживаются HTML, PDF, Excel, а изображения могут быть преобразованы в описания с помощью AI. - Могу ли я получить доступ к содержимому, в которое вошел?
Да, но вам нужно предоставить cookie, см. документацию.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...