Introdução geral
O projeto Reader da Jina AI é uma ferramenta de código aberto (Endereço de código aberto do leitor), que pode aceitar qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Language Models, LLM) ao formato de entrada, oferecendo suporte a recursos como o modo de streaming dinâmico e a leitura de imagens.
Os usuários podem capturar facilmente o conteúdo principal das páginas da Web e convertê-lo em texto limpo e adequado para o processamento do LLM. A ferramenta é compatível não apenas com o texto da página da Web, mas também com imagens e arquivos PDF, adicionando automaticamente as tags e a formatação necessárias para que o LLM possa entender e processar o conteúdo com mais eficiência. O projeto é executado com Node v18 e Firebase CLI e está disponível sob a licença Apache 2.0.
Lista de funções
- Extração de conteúdo da WebURL: converte qualquer URL em um formato de texto compatível com o LLM.
- reconhecimento de imagensGera automaticamente tags de descrição para imagens em páginas da Web.
- Leitor de PDFSuporte à leitura de arquivos PDF de qualquer URL e sua conversão em texto adequado para LLM.
- função de pesquisaObtenha as informações mais recentes da Web e converta-as em um formato compatível com o LLM, prefixando a consulta com "s.jina.ai".
- Alta simultaneidade e confiabilidadeOferece alta acessibilidade e confiabilidade para suportar um grande número de solicitações simultâneas.
Usando a Ajuda
Instalação e uso
O Jina AI Reader não requer instalação, os usuários só precisam adicionar o prefixo "r.jina.ai" ao URL. Por exemplo, para converter o URL "https://en.wikipedia.org/wiki/Artificial_intelligence" em um formato de entrada compatível com LLM, basta usar o seguinte URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
Da mesma forma, para realizar uma pesquisa na Web e obter resultados compatíveis com o LLM, prefixe a consulta com "s.jina.ai", por exemplo:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Função Fluxo de operação
- Extração de conteúdo da Web::
- Digite o URL em seu navegador com o prefixo, por exemplo, "https://r.jina.ai/https://example.com".
- Ao pressionar a tecla Enter, o Jina AI Reader extrairá automaticamente o conteúdo da página da Web e o converterá em um formato de texto compatível com LLM.
- O conteúdo extraído será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
- reconhecimento de imagens::
- Ao extrair o conteúdo de uma página da Web, o Jina AI Reader gera automaticamente tags descritivas para as imagens da página.
- Essas tags serão usadas como atributos alt da imagem para facilitar a compreensão do LLM sobre o conteúdo da imagem durante o processamento.
- Leitor de PDF::
- Digite o URL do PDF com um prefixo, como "https://r.jina.ai/https://example.com/document.pdf".
- O Jina AI Reader lerá automaticamente o conteúdo do PDF e o converterá em um formato de texto compatível com LLM.
- O conteúdo convertido será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
- função de pesquisa::
- Adicione o prefixo "s.jina.ai" à consulta, por exemplo, "https://s.jina.ai/your+query".
- Pressione Enter e o Jina AI Reader buscará as informações mais recentes da Web e as converterá em um formato de texto amigável para LLM.
- Os resultados da pesquisa serão exibidos no navegador e o usuário poderá copiá-los diretamente ou processá-los posteriormente.
Configurações avançadas
- Tags de descrição da imagemDescrição: Por padrão, o recurso de tag de descrição da imagem está desativado. Os usuários podem ativá-lo definindo "x-with-generated-alt: true" no cabeçalho da solicitação.
- Proxies e cookiesOs usuários podem definir proxies e cookies no cabeçalho da solicitação para usar o Jina AI Reader em um contexto específico.
enrolar -H "Aceitar: text/event-stream" https://r.jina.ai/https://example.com
Recomendar outra ferramenta de html para markdown