Aprendizagem pessoal com IA
e orientação prática
Recomendação de recursos 1

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML

A Jina AI lançou o Reader-LM-0.5B e o Reader-LM-1.5B, dois modelos de linguagem pequenos projetados para converter HTML bruto e ruidoso da Web aberta em um formato Markdown limpo, que suporta comprimentos de contexto de até 256 mil tokens e mostra desempenho comparável ou melhor do que modelos de linguagem grandes em tarefas de conversão. desempenho na tarefa de conversão.

 

Prefácio

Em abril de 2024, a Jina AI lançou o Jina Reader, uma API simples que converte qualquer URL em markdown compatível com LLM. A API usa o navegador Chrome sem cabeça para buscar o código-fonte de uma página da Web, extrai o conteúdo principal usando o pacote Readability da Mozilla e converte o HTML limpo em markdown usando regex e as bibliotecas bibliotecas Turndown para converter o HTML limpo em markdown.

Após o lançamento, o feedback dos usuários apontou problemas com a qualidade do conteúdo, que a Jina AI resolveu corrigindo o pipeline existente.


Desde então, temos refletido sobre a seguinte questão: em vez de mexer com mais heurísticas e expressões regulares (que estão se tornando cada vez mais difíceis de manter e não são propícias ao multilinguismo), podemos resolver esse problema de ponta a ponta com um modelo de linguagem?

 

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para conversão eficiente de HTML para Markdown-1

Ilustração que ilustra o reader-lm, substituindo o pipeline de heurística de legibilidade+rebaixamento+regex por um pequeno modelo de linguagem.

 

 

Sobre o Reader-LM

11 de setembro de 2024 -- Continuando a impulsionar a inovação em inteligência artificial para processamento de conteúdo e conversão de texto, a Jina AI anunciou hoje o lançamento de suas mais recentes conquistas tecnológicas, o Reader-LM-0.5B e o Reader-LM-1.5B, dois modelos de idiomas pequenos. Esses modelos marcam uma nova era de processamento de conteúdo HTML bruto na Web aberta, convertendo com eficiência HTML complexo em formato Markdown estruturado, oferecendo suporte avançado para gerenciamento de conteúdo e aplicativos de aprendizado de máquina na era do Big Data.

 

Desempenho e eficiência revolucionários

Os modelos Reader-LM-0.5B e Reader-LM-1.5B alcançam desempenho comparável ou até melhor do que modelos de linguagem maiores, mantendo um tamanho de parâmetro compacto. Com suporte a comprimentos de contexto de até 256 mil tokens, esses modelos lidam com os elementos ruidosos do HTML moderno, como CSS em linha, scripts etc., produzindo arquivos Markdown limpos e bem estruturados. Essa é uma grande conveniência para os usuários que precisam extrair e converter texto de conteúdo bruto da Web.

 

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML-1

 

Experiência prática e fácil de usar

A Jina AI oferece uma solução para esse problema no Google Colab (0.5Bresponder cantando1.5BO modelo Reader-LM foi projetado para oferecer aos usuários a capacidade de experimentar facilmente o poder do modelo Reader-LM, fazendo anotações sobre o modelo. Seja carregando diferentes versões do modelo, alterando o URL de um site processado ou explorando o resultado, os usuários podem fazer isso em um ambiente gratuito e baseado na nuvem. Além disso, o Reader-LM estará disponível em breve nos mercados do Azure e do AWS, oferecendo mais opções de integração e implementação para usuários corporativos.

 

Desempenho além dos modelos tradicionais

Por meio de testes de comparação com grandes modelos de linguagem, como GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B e Qwen2-7B-Instruct, o Reader-LM apresentou bons resultados em termos de ROUGE-L, taxa de erro de palavras (WER) e Token Taxa de erro (TER), entre outras métricas importantes. Essas avaliações demonstram a liderança do Reader-LM em termos de precisão, recuperação e capacidade de gerar Markdown limpo.

 

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML-1

 

Pesquisas qualitativas confirmam seus benefícios

Além da avaliação quantitativa, a Jina AI confirmou o desempenho superior do Reader-LM na extração de títulos, extração de conteúdo principal, retenção de estrutura e uso da sintaxe do Markdown por meio de estudos qualitativos do Markdown de saída inspecionado visualmente. Essas descobertas enfatizam a eficiência e a confiabilidade do Reader-LM em aplicativos do mundo real.

 

Uma abordagem inovadora para o treinamento em duas etapas

A Jina AI revelou os detalhes de seu processo de treinamento do Reader-LM, incluindo a preparação de dados, o treinamento em dois estágios e como eles superaram os problemas de degradação e ciclagem do modelo. Eles enfatizaram a importância da qualidade dos dados de treinamento e garantiram a estabilidade do modelo e a qualidade da geração por meios técnicos, como pesquisa comparativa e critérios de parada repetidos.

 

máximo

O Reader-LM da Jina AI não é apenas um grande avanço no campo da modelagem de linguagem pequena, mas também um aprimoramento significativo dos recursos de processamento de conteúdo da Web aberta. O lançamento desses dois modelos não apenas fornece aos desenvolvedores e cientistas de dados uma ferramenta eficiente e fácil de usar, mas também abre novas possibilidades para aplicativos de IA na extração, limpeza e transformação de conteúdo.

 

Download de ferramentas
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil