Reader API: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Introdução geral

O projeto Reader da Jina AI é uma ferramenta de código aberto (Endereço de código aberto do leitor), que pode aceitar qualquer URL adicionando o prefixo https://r.jina.ai/转换成适合大型语言模型 (Large Language Models, LLM) ao formato de entrada, oferecendo suporte a recursos como o modo de streaming dinâmico e a leitura de imagens.

Os usuários podem capturar facilmente o conteúdo principal das páginas da Web e convertê-lo em texto limpo e adequado para o processamento do LLM. A ferramenta é compatível não apenas com o texto da página da Web, mas também com imagens e arquivos PDF, adicionando automaticamente as tags e a formatação necessárias para que o LLM possa entender e processar o conteúdo com mais eficiência. O projeto é executado com Node v18 e Firebase CLI e está disponível sob a licença Apache 2.0.

Reader API: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown-1

Lista de funções

Extração de conteúdo da WebURL: converte qualquer URL em um formato de texto compatível com o LLM.
reconhecimento de imagensGera automaticamente tags de descrição para imagens em páginas da Web.
Leitor de PDFSuporte à leitura de arquivos PDF de qualquer URL e sua conversão em texto adequado para LLM.
função de pesquisaObtenha as informações mais recentes da Web e converta-as em um formato compatível com o LLM, prefixando a consulta com "s.jina.ai".
Alta simultaneidade e confiabilidadeOferece alta acessibilidade e confiabilidade para suportar um grande número de solicitações simultâneas.

Usando a Ajuda

Instalação e uso

O Jina AI Reader não requer instalação, os usuários só precisam adicionar o prefixo "r.jina.ai" ao URL. Por exemplo, para converter o URL "https://en.wikipedia.org/wiki/Artificial_intelligence" em um formato de entrada compatível com LLM, basta usar o seguinte URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Da mesma forma, para realizar uma pesquisa na Web e obter resultados compatíveis com o LLM, prefixe a consulta com "s.jina.ai", por exemplo:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Função Fluxo de operação

Extração de conteúdo da Web::
- Digite o URL em seu navegador com o prefixo, por exemplo, "https://r.jina.ai/https://example.com".
- Ao pressionar a tecla Enter, o Jina AI Reader extrairá automaticamente o conteúdo da página da Web e o converterá em um formato de texto compatível com LLM.
- O conteúdo extraído será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
reconhecimento de imagens::
- Ao extrair o conteúdo de uma página da Web, o Jina AI Reader gera automaticamente tags descritivas para as imagens da página.
- Essas tags serão usadas como atributos alt da imagem para facilitar a compreensão do LLM sobre o conteúdo da imagem durante o processamento.
Leitor de PDF::
- Digite o URL do PDF com um prefixo, como "https://r.jina.ai/https://example.com/document.pdf".
- O Jina AI Reader lerá automaticamente o conteúdo do PDF e o converterá em um formato de texto compatível com LLM.
- O conteúdo convertido será exibido no navegador e o usuário poderá copiá-lo diretamente ou processá-lo posteriormente.
função de pesquisa::
- Adicione o prefixo "s.jina.ai" à consulta, por exemplo, "https://s.jina.ai/your+query".
- Pressione Enter e o Jina AI Reader buscará as informações mais recentes da Web e as converterá em um formato de texto amigável para LLM.
- Os resultados da pesquisa serão exibidos no navegador e o usuário poderá copiá-los diretamente ou processá-los posteriormente.

Configurações avançadas

Tags de descrição da imagemDescrição: Por padrão, o recurso de tag de descrição da imagem está desativado. Os usuários podem ativá-lo definindo "x-with-generated-alt: true" no cabeçalho da solicitação.
Proxies e cookiesOs usuários podem definir proxies e cookies no cabeçalho da solicitação para usar o Jina AI Reader em um contexto específico.

modo de streaming

Para processar o conteúdo à medida que ele se torna disponível, defina o cabeçalho da solicitação como modo de fluxo. Isso minimiza o tempo necessário para receber o primeiro byte. exemplo em curl:

enrolar -H "Aceitar: text/event-stream" https://r.jina.ai/https://example.com

Recomendar outra ferramenta de html para markdown

Chefe do Círculo de Compartilhamento de IA

Este conteúdo foi ocultado pelo autor. Digite o código de verificação para visualizar o conteúdo

Preste atenção ao número público do WeChat deste site, responda "CAPTCHA, um tipo de teste de desafio-resposta (computação)", obtenha o código de verificação. Pesquise no WeChat por "Chefe do Círculo de Compartilhamento de IA"ou"Aparência-AI"ou WeChat escaneando o lado direito do código QR pode prestar atenção a esse número público do WeChat do site.

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

Introdução geral

Lista de funções

Usando a Ajuda

Instalação e uso

Função Fluxo de operação

Configurações avançadas

Artigos relacionados

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Gerador de imagens FLUX.1 (suporta entrada em chinês)

Novos lançamentos

Artigos populares

Hot Tags.

Chefe do Círculo de Compartilhamento de IA