Introdução geral
O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ele contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um conteúdo de mídia social, o pure.md pode lidar com isso de forma eficiente. A ferramenta é alimentada pela Cloudflare e pela AWS e fornece uma interface de API REST. Seu recurso mais importante é que ela é simples de operar e pode reduzir significativamente o tempo de extração e organização do conteúdo, sendo especialmente adequada para a necessidade de dados em tempo real ou cenários de saída estruturada.
Lista de funções
- Quick to Markdown: extraia o conteúdo de uma página da Web ou documento em um formato Markdown limpo.
- Contornar a detecção do Anti-Crawler: simula o comportamento real do usuário e gira os endereços IP para acessar sites restritos.
- Renderização de JavaScript: análise completa de conteúdo dinâmico para aplicativos de página única (SPAs).
- Conversão de PDF e arquivos: suporte a PDF, Excel e outros arquivos para Markdown.
- Rastreamento de mecanismos de pesquisa: rastreie resultados de pesquisa e integre-os ao Markdown.
- Extração de dados: extraia JSON ou resumo por meio de solicitação POST, com suporte a comandos de linguagem natural.
- Suporte a mídias sociais: extraia dados de plataformas como LinkedIn, Twitter, etc. (alguns recursos estão em desenvolvimento).
Usando a Ajuda
O pure.md não requer uma instalação complicada e pode ser usado diretamente pela Web ou pela API. Abaixo estão instruções detalhadas passo a passo e descrições de funcionalidade para garantir que você comece a usar rapidamente.
Uso básico
- Visite o site oficial
Digite em seu navegadorhttps://pure.md/
Se tiver alguma dúvida, não hesite em entrar em contato conosco. Não há necessidade de fazer download do software, opere diretamente on-line. - Digite o link de destino
Preceda o link comhttps://pure.md/
Por exemplo, seriahttps://example.com
mudar parahttps://pure.md/https://example.com
. - Obter Markdown
Após o envio, o pure.md retorna o conteúdo extraído, que é produzido no formato Markdown por padrão. Você pode copiar o resultado ou fazer o download do arquivo.
Funções em destaque Procedimento de operação
1. conversão rápida para Markdown
- procedimento::
- Digite a página da Web de destino, por exemplo
https://pure.md/https://wikipedia.org
. - Quando você clica em enviar, o pure.md remove os anúncios e os elementos estranhos e gera um arquivo Markdown contendo o título, o corpo e os metadados.
- Digite a página da Web de destino, por exemplo
- efeito::
A saída tem apenas 28 mil caracteres, o que é mais conciso do que ferramentas semelhantes (por exemplo, 143 mil do r.jina.ai) e adequado para o processamento de IA. Referência:API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown
2. contornar a detecção de rastreadores
- procedimento::
- Insira um link para uma página da Web restrita, como
https://pure.md/https://science.org/article
. - O pure.md usa agentes de data center, agentes residenciais ou dados históricos (Common Crawl, Wayback Machine) para obter conteúdo.
- Se você precisar fazer login, adicione um cookie ao cabeçalho da solicitação (consulte
https://pure.md/docs
).
- Insira um link para uma página da Web restrita, como
- efeito::
Extrai com êxito o conteúdo e o converte em Markdown, ignorando restrições como "Verify you're human" (Verifique se você é humano).
3. suporte à renderização de JavaScript
- procedimento::
- Insira um link para uma página da Web dinâmica, por exemplo.
https://pure.md/https://react-app.com
. - O pure.md executa a renderização do DOM em segundo plano para gerar o conteúdo completo.
- O resultado é retornado em Markdown.
- Insira um link para uma página da Web dinâmica, por exemplo.
- efeito::
Os dados dinâmicos (como comentários ou formulários) para aplicativos de página única são extraídos em sua totalidade, evitando a obtenção apenas de HTML vazio.
4. conversão de PDF e documentos
- procedimento::
- Digite o link do PDF, por exemplo
https://pure.md/https://example.com/file.pdf
. - Após o envio, o pure.md analisa o arquivo e o converte em Markdown.
- Para arquivos do Excel, também há suporte para o formato Markdown para tabela.
- Digite o link do PDF, por exemplo
- efeito::
O conteúdo do documento é organizado em Markdown claro, com cabeçalhos e parágrafos hierárquicos.
5. rastreamento de mecanismos de pesquisa
- procedimento::
- Digite um link para o termo de pesquisa, por exemplo
https://pure.md/https://google.com/search?q=AI
. - O pure.md rastreia os resultados da pesquisa e os consolida em sequências de Markdown.
- Digite um link para o termo de pesquisa, por exemplo
- efeito::
Os eventos ou conhecimentos mais recentes são coletados rapidamente e são adequados para atualizar os dados de IA em tempo real.
6. extração de dados (solicitação POST)
- procedimento::
- Use uma solicitação POST para acesso, por exemplo:
POST https://pure.md/https://reuters.com
Exemplo de corpo de solicitação:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- Retorna resultados JSON ou Markdown.
- Use uma solicitação POST para acesso, por exemplo:
- efeito::
A extração de dados estruturados com base em instruções de linguagem natural é adequada para tarefas complexas.
7. suporte à mídia social (em desenvolvimento)
- procedimento::
- Insira um link do LinkedIn ou do Twitter, como
https://pure.md/https://twitter.com/user/tweet
. - O pure.md extrai conteúdo por meio de um provedor de dados.
- Insira um link do LinkedIn ou do Twitter, como
- efeito::
Gera Markdown para publicações ou perfis, com suporte para mais plataformas no futuro.
Preços e contas
- registro: Acesso
https://pure.md/login
Você pode obter o crédito $1 gratuitamente. - fixar um preço::
- Starter: 60 solicitações por minuto, $0.001/extração, $0.005/pesquisa.
- Crescimento: $19/mês, 600 solicitações/minuto com $20 de crédito gratuito.
- Empresas: $99/mês, 3000 solicitações/minuto com $100 de crédito gratuito.
- pagar (dinheiro)Tratamento via Stripe, com suporte para cancelamento a qualquer momento.
advertência
- A versão gratuita tem limitações rigorosas e recomenda-se uma assinatura para desbloquear toda a funcionalidade.
- Páginas ou arquivos grandes levam um pouco mais de tempo para serem processados, geralmente de 5 a 30 segundos.
- Os recursos de mídia social ainda não estão totalmente disponíveis, portanto, fique atento.
Com essas etapas, você pode extrair facilmente o conteúdo e convertê-lo em Markdown usando o pure.md, que é simples e eficiente.
cenário do aplicativo
- Aquisição de dados de IA
Os desenvolvedores de IA precisam de dados da Web para treinar modelos. O pure.md extrai e converte rapidamente para Markdown, reduzindo o pré-processamento. - Pesquisa e estudo
Os alunos convertem PDFs ou páginas da Web em Markdown para facilitar a organização de anotações ou a citação de informações. - monitoramento de notícias
O pure.md rastreia resultados de pesquisa e gera Markdown para manter as informações atualizadas.
QA
- Precisa de um cartão de crédito para se registrar?
Não é necessário, inscreva-se e receba $1 de crédito gratuito. - Quais são os tipos de arquivos suportados?
Atualmente, é compatível com HTML, PDF, Excel e as imagens podem ser convertidas em descrições por meio de IA. - Posso acessar o conteúdo conectado?
Sim, mas você precisa fornecer um cookie, consulte a documentação.