Aprendizagem pessoal com IA
e orientação prática

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Introdução geral

 

O projeto Reader da Jina AI é uma ferramenta de código aberto (Endereço de código aberto do leitor), que pode aceitar qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Language Models, LLM) ao formato de entrada, oferecendo suporte a recursos como o modo de streaming dinâmico e a leitura de imagens.


Os usuários podem capturar facilmente o conteúdo principal das páginas da Web e convertê-lo em texto limpo e adequado para o processamento do LLM. A ferramenta é compatível não apenas com o texto da página da Web, mas também com imagens e arquivos PDF, adicionando automaticamente as tags e a formatação necessárias para que o LLM possa entender e processar o conteúdo com mais eficiência. O projeto é executado com Node v18 e Firebase CLI e está disponível sob a licença Apache 2.0.

 

Reader API: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown-1

 

 

Lista de funções

  • Extração de conteúdo da WebURL: converte qualquer URL em um formato de texto compatível com o LLM.
  • reconhecimento de imagensGera automaticamente tags de descrição para imagens em páginas da Web.
  • Leitor de PDFSuporte à leitura de arquivos PDF de qualquer URL e sua conversão em texto adequado para LLM.
  • função de pesquisaObtenha as informações mais recentes da Web e converta-as em um formato compatível com o LLM, prefixando a consulta com "s.jina.ai".
  • Alta simultaneidade e confiabilidadeOferece alta acessibilidade e confiabilidade para suportar um grande número de solicitações simultâneas.

 

 

Usando a Ajuda

Instalação e uso

O Jina AI Reader não requer instalação, os usuários só precisam adicionar o prefixo "r.jina.ai" ao URL. Por exemplo, para converter o URL "https://en.wikipedia.org/wiki/Artificial_intelligence" em um formato de entrada compatível com LLM, basta usar o seguinte URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Da mesma forma, para realizar uma pesquisa na Web e obter resultados compatíveis com o LLM, prefixe a consulta com "s.jina.ai", por exemplo:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Função Fluxo de operação

  1. Extração de conteúdo da Web::
    • Digite o URL em seu navegador com o prefixo, por exemplo, "https://r.jina.ai/https://example.com".
    • Ao pressionar a tecla Enter, o Jina AI Reader extrairá automaticamente o conteúdo da página da Web e o converterá em um formato de texto compatível com LLM.
    • O conteúdo extraído será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
  2. reconhecimento de imagens::
    • Ao extrair o conteúdo de uma página da Web, o Jina AI Reader gera automaticamente tags descritivas para as imagens da página.
    • Essas tags serão usadas como atributos alt da imagem para facilitar a compreensão do LLM sobre o conteúdo da imagem durante o processamento.
  3. Leitor de PDF::
    • Digite o URL do PDF com um prefixo, como "https://r.jina.ai/https://example.com/document.pdf".
    • O Jina AI Reader lerá automaticamente o conteúdo do PDF e o converterá em um formato de texto compatível com LLM.
    • O conteúdo convertido será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
  4. função de pesquisa::
    • Adicione o prefixo "s.jina.ai" à consulta, por exemplo, "https://s.jina.ai/your+query".
    • Pressione Enter e o Jina AI Reader buscará as informações mais recentes da Web e as converterá em um formato de texto amigável para LLM.
    • Os resultados da pesquisa serão exibidos no navegador e o usuário poderá copiá-los diretamente ou processá-los posteriormente.

Configurações avançadas

  • Tags de descrição da imagemDescrição: Por padrão, o recurso de tag de descrição da imagem está desativado. Os usuários podem ativá-lo definindo "x-with-generated-alt: true" no cabeçalho da solicitação.
  • Proxies e cookiesOs usuários podem definir proxies e cookies no cabeçalho da solicitação para usar o Jina AI Reader em um contexto específico.

 

modo de streaming
Para processar o conteúdo à medida que ele se torna disponível, defina o cabeçalho da solicitação como modo de fluxo. Isso minimiza o tempo necessário para receber o primeiro byte. exemplo em curl:
enrolar -H "Aceitar: text/event-stream" https://r.jina.ai/https://example.com

 

 

Recomendar outra ferramenta de html para markdown

Chefe do Círculo de Compartilhamento de IAEste conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo
Captcha:
Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil