Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.

Introdução geral

O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ele contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um conteúdo de mídia social, o pure.md pode lidar com isso de forma eficiente. A ferramenta é alimentada pela Cloudflare e pela AWS e fornece uma interface de API REST. Seu recurso mais importante é que ela é simples de operar e pode reduzir significativamente o tempo de extração e organização do conteúdo, sendo especialmente adequada para a necessidade de dados em tempo real ou cenários de saída estruturada.

pure.md:网址前插入“pure.md/”即可提取干净的文本-1


 

Lista de funções

  • Quick to Markdown: extraia o conteúdo de uma página da Web ou documento em um formato Markdown limpo.
  • Contornar a detecção do Anti-Crawler: simula o comportamento real do usuário e gira os endereços IP para acessar sites restritos.
  • Renderização de JavaScript: análise completa de conteúdo dinâmico para aplicativos de página única (SPAs).
  • Conversão de PDF e arquivos: suporte a PDF, Excel e outros arquivos para Markdown.
  • Rastreamento de mecanismos de pesquisa: rastreie resultados de pesquisa e integre-os ao Markdown.
  • Extração de dados: extraia JSON ou resumo por meio de solicitação POST, com suporte a comandos de linguagem natural.
  • Suporte a mídias sociais: extraia dados de plataformas como LinkedIn, Twitter, etc. (alguns recursos estão em desenvolvimento).

 

Usando a Ajuda

O pure.md não requer uma instalação complicada e pode ser usado diretamente pela Web ou pela API. Abaixo estão instruções detalhadas passo a passo e descrições de funcionalidade para garantir que você comece a usar rapidamente.

Uso básico

  1. Visite o site oficial
    Digite em seu navegador https://pure.md/Se tiver alguma dúvida, não hesite em entrar em contato conosco. Não há necessidade de fazer download do software, opere diretamente on-line.
  2. Digite o link de destino
    Preceda o link com https://pure.md/Por exemplo, seria https://example.com mudar para https://pure.md/https://example.com.
  3. Obter Markdown
    Após o envio, o pure.md retorna o conteúdo extraído, que é produzido no formato Markdown por padrão. Você pode copiar o resultado ou fazer o download do arquivo.

Funções em destaque Procedimento de operação

1. conversão rápida para Markdown

  • procedimento::
    • Digite a página da Web de destino, por exemplo https://pure.md/https://wikipedia.org.
    • Quando você clica em enviar, o pure.md remove os anúncios e os elementos estranhos e gera um arquivo Markdown contendo o título, o corpo e os metadados.
  • efeito::
    A saída tem apenas 28 mil caracteres, o que é mais conciso do que ferramentas semelhantes (por exemplo, 143 mil do r.jina.ai) e adequado para o processamento de IA. Referência:API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

2. contornar a detecção de rastreadores

  • procedimento::
    • Insira um link para uma página da Web restrita, como https://pure.md/https://science.org/article.
    • O pure.md usa agentes de data center, agentes residenciais ou dados históricos (Common Crawl, Wayback Machine) para obter conteúdo.
    • Se você precisar fazer login, adicione um cookie ao cabeçalho da solicitação (consulte https://pure.md/docs).
  • efeito::
    Extrai com êxito o conteúdo e o converte em Markdown, ignorando restrições como "Verify you're human" (Verifique se você é humano).

3. suporte à renderização de JavaScript

  • procedimento::
    • Insira um link para uma página da Web dinâmica, por exemplo. https://pure.md/https://react-app.com.
    • O pure.md executa a renderização do DOM em segundo plano para gerar o conteúdo completo.
    • O resultado é retornado em Markdown.
  • efeito::
    Os dados dinâmicos (como comentários ou formulários) para aplicativos de página única são extraídos em sua totalidade, evitando a obtenção apenas de HTML vazio.

4. conversão de PDF e documentos

  • procedimento::
    • Digite o link do PDF, por exemplo https://pure.md/https://example.com/file.pdf.
    • Após o envio, o pure.md analisa o arquivo e o converte em Markdown.
    • Para arquivos do Excel, também há suporte para o formato Markdown para tabela.
  • efeito::
    O conteúdo do documento é organizado em Markdown claro, com cabeçalhos e parágrafos hierárquicos.

5. rastreamento de mecanismos de pesquisa

  • procedimento::
    • Digite um link para o termo de pesquisa, por exemplo https://pure.md/https://google.com/search?q=AI.
    • O pure.md rastreia os resultados da pesquisa e os consolida em sequências de Markdown.
  • efeito::
    Os eventos ou conhecimentos mais recentes são coletados rapidamente e são adequados para atualizar os dados de IA em tempo real.

6. extração de dados (solicitação POST)

  • procedimento::
    • Use uma solicitação POST para acesso, por exemplo:
      POST https://pure.md/https://reuters.com
      

      Exemplo de corpo de solicitação:

      {
      "prompt": "列出今天的前5条头条",
      "model": "meta/llama-3.1-8b",
      "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]}
      }
      
    • Retorna resultados JSON ou Markdown.
  • efeito::
    A extração de dados estruturados com base em instruções de linguagem natural é adequada para tarefas complexas.

7. suporte à mídia social (em desenvolvimento)

  • procedimento::
    • Insira um link do LinkedIn ou do Twitter, como https://pure.md/https://twitter.com/user/tweet.
    • O pure.md extrai conteúdo por meio de um provedor de dados.
  • efeito::
    Gera Markdown para publicações ou perfis, com suporte para mais plataformas no futuro.

Preços e contas

  • registro: Acesso https://pure.md/loginVocê pode obter o crédito $1 gratuitamente.
  • fixar um preço::
    • Starter: 60 solicitações por minuto, $0.001/extração, $0.005/pesquisa.
    • Crescimento: $19/mês, 600 solicitações/minuto com $20 de crédito gratuito.
    • Empresas: $99/mês, 3000 solicitações/minuto com $100 de crédito gratuito.
  • pagar (dinheiro)Tratamento via Stripe, com suporte para cancelamento a qualquer momento.

advertência

  • A versão gratuita tem limitações rigorosas e recomenda-se uma assinatura para desbloquear toda a funcionalidade.
  • Páginas ou arquivos grandes levam um pouco mais de tempo para serem processados, geralmente de 5 a 30 segundos.
  • Os recursos de mídia social ainda não estão totalmente disponíveis, portanto, fique atento.

Com essas etapas, você pode extrair facilmente o conteúdo e convertê-lo em Markdown usando o pure.md, que é simples e eficiente.

 

cenário do aplicativo

  1. Aquisição de dados de IA
    Os desenvolvedores de IA precisam de dados da Web para treinar modelos. O pure.md extrai e converte rapidamente para Markdown, reduzindo o pré-processamento.
  2. Pesquisa e estudo
    Os alunos convertem PDFs ou páginas da Web em Markdown para facilitar a organização de anotações ou a citação de informações.
  3. monitoramento de notícias
    O pure.md rastreia resultados de pesquisa e gera Markdown para manter as informações atualizadas.

 

QA

  1. Precisa de um cartão de crédito para se registrar?
    Não é necessário, inscreva-se e receba $1 de crédito gratuito.
  2. Quais são os tipos de arquivos suportados?
    Atualmente, é compatível com HTML, PDF, Excel e as imagens podem ser convertidas em descrições por meio de IA.
  3. Posso acessar o conteúdo conectado?
    Sim, mas você precisa fornecer um cookie, consulte a documentação.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.
pt_BRPortuguês do Brasil