A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML

Notícias sobre IAAtualizado há 7 meses Círculo de compartilhamento de IA

2.6K 00

A Jina AI lançou o Reader-LM-0.5B e o Reader-LM-1.5B, dois modelos de linguagem pequenos projetados para converter HTML bruto e ruidoso da Web aberta em um formato Markdown limpo, que suporta comprimentos de contexto de até 256 mil tokens e mostra desempenho comparável ou melhor do que modelos de linguagem grandes em tarefas de conversão. desempenho na tarefa de conversão.

Prefácio

Em abril de 2024, a Jina AI lançou o Jina Reader, uma API simples que converte qualquer URL em markdown compatível com LLM. A API usa o navegador Chrome sem cabeça para buscar o código-fonte de uma página da Web, extrai o conteúdo principal usando o pacote Readability da Mozilla e converte o HTML limpo em markdown usando regex e as bibliotecas bibliotecas Turndown para converter o HTML limpo em markdown.

Após o lançamento, o feedback dos usuários apontou problemas com a qualidade do conteúdo, que a Jina AI resolveu corrigindo o pipeline existente.

Desde então, temos refletido sobre a seguinte questão: em vez de mexer com mais heurísticas e expressões regulares (que estão se tornando cada vez mais difíceis de manter e não são propícias ao multilinguismo), podemos resolver esse problema de ponta a ponta com um modelo de linguagem?

Jina AI 推出革命性小型语言模型 Reader-LM，高效提取HTML网页主要内容

Ilustração que ilustra o reader-lm, substituindo o pipeline de heurística de legibilidade+rebaixamento+regex por um pequeno modelo de linguagem.

Sobre o Reader-LM

11 de setembro de 2024 -- Continuando a impulsionar a inovação em inteligência artificial para processamento de conteúdo e conversão de texto, a Jina AI anunciou hoje o lançamento de suas mais recentes conquistas tecnológicas, o Reader-LM-0.5B e o Reader-LM-1.5B, dois modelos de idiomas pequenos. Esses modelos marcam uma nova era de processamento de conteúdo HTML bruto na Web aberta, convertendo com eficiência HTML complexo em formato Markdown estruturado, oferecendo suporte avançado para gerenciamento de conteúdo e aplicativos de aprendizado de máquina na era do Big Data.

Desempenho e eficiência revolucionários

Os modelos Reader-LM-0.5B e Reader-LM-1.5B alcançam desempenho comparável ou até melhor do que modelos de linguagem maiores, mantendo um tamanho de parâmetro compacto. Com suporte a comprimentos de contexto de até 256 mil tokens, esses modelos lidam com os elementos ruidosos do HTML moderno, como CSS em linha, scripts etc., produzindo arquivos Markdown limpos e bem estruturados. Essa é uma grande conveniência para os usuários que precisam extrair e converter texto de conteúdo bruto da Web.

Experiência prática e fácil de usar

A Jina AI oferece uma solução para esse problema no Google Colab (0.5Bresponder cantando1.5BO modelo Reader-LM foi projetado para oferecer aos usuários a capacidade de experimentar facilmente o poder do modelo Reader-LM, fazendo anotações sobre o modelo. Seja carregando diferentes versões do modelo, alterando o URL de um site processado ou explorando o resultado, os usuários podem fazer isso em um ambiente gratuito e baseado na nuvem. Além disso, o Reader-LM estará disponível em breve nos mercados do Azure e do AWS, oferecendo mais opções de integração e implementação para usuários corporativos.

Desempenho além dos modelos tradicionais

Por meio de testes de comparação com grandes modelos de linguagem, como GPT-4o, Gemini-1.5-Flash, Gemini-1.5-Pro, LLaMA-3.1-70B e Qwen2-7B-Instruct, o Reader-LM apresentou bons resultados em termos de ROUGE-L, taxa de erro de palavras (WER) e Token Taxa de erro (TER), entre outras métricas importantes. Essas avaliações demonstram a liderança do Reader-LM em termos de precisão, recuperação e capacidade de gerar Markdown limpo.

Pesquisas qualitativas confirmam seus benefícios

Além da avaliação quantitativa, a Jina AI confirmou o desempenho superior do Reader-LM na extração de títulos, extração de conteúdo principal, retenção de estrutura e uso da sintaxe do Markdown por meio de estudos qualitativos do Markdown de saída inspecionado visualmente. Essas descobertas enfatizam a eficiência e a confiabilidade do Reader-LM em aplicativos do mundo real.

Uma abordagem inovadora para o treinamento em duas etapas

A Jina AI revelou os detalhes de seu processo de treinamento do Reader-LM, incluindo a preparação de dados, o treinamento em dois estágios e como eles superaram os problemas de degradação e ciclagem do modelo. Eles enfatizaram a importância da qualidade dos dados de treinamento e garantiram a estabilidade do modelo e a qualidade da geração por meios técnicos, como pesquisa comparativa e critérios de parada repetidos.

máximo

O Reader-LM da Jina AI não é apenas um grande avanço no campo da modelagem de linguagem pequena, mas também um aprimoramento significativo dos recursos de processamento de conteúdo da Web aberta. O lançamento desses dois modelos não apenas fornece aos desenvolvedores e cientistas de dados uma ferramenta eficiente e fácil de usar, mas também abre novas possibilidades para aplicativos de IA na extração, limpeza e transformação de conteúdo.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

O Microsoft Copilot Studio pode realmente liberar o potencial das inteligências autônomas?

Notícias sobre IA

6 meses atrás

01.8K

Luma Photon 图像生成模型：用自然语言描述迭代生成图像，兼顾画质与创意

Modelo de geração de imagens de fótons de luma: geração iterativa de imagens com descrições de linguagem natural, equilibrando a qualidade da imagem e a criatividade

Notícias sobre IA

6 meses atrás

01.9K

O caminho do JPMorgan Chase para a transformação da IA: da proibição à adoção total

Notícias sobre IA

12 meses atrás

02.4K

Como a inteligência de IA da Rexera impulsiona o controle de qualidade com o LangGraph

Notícias sobre IA

8 meses atrás

02.2K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML

Prefácio

Sobre o Reader-LM

Desempenho e eficiência revolucionários

Experiência prática e fácil de usar

Desempenho além dos modelos tradicionais

Pesquisas qualitativas confirmam seus benefícios

Uma abordagem inovadora para o treinamento em duas etapas

máximo

O primeiro ColBERT multilíngue do mundo: Jina ColBERT V2 e sua tecnologia de "boneca russa

Extra: o1-mini foi totalmente aberto para a experiência de conta gratuita do ChatGPT!

Artigos relacionados

O Microsoft Copilot Studio pode realmente liberar o potencial das inteligências autônomas?

Modelo de geração de imagens de fótons de luma: geração iterativa de imagens com descrições de linguagem natural, equilibrando a qualidade da imagem e a criatividade

O caminho do JPMorgan Chase para a transformação da IA: da proibição à adoção total

Como a inteligência de IA da Rexera impulsiona o controle de qualidade com o LangGraph

Sem comentários

Últimas coleções

Artigos mais recentes

A Jina AI apresenta o Reader-LM, um modelo revolucionário de linguagem pequena para extrair com eficiência o conteúdo principal de páginas da Web em HTML

Prefácio

Sobre o Reader-LM

Desempenho e eficiência revolucionários

Experiência prática e fácil de usar

Desempenho além dos modelos tradicionais

Pesquisas qualitativas confirmam seus benefícios

Uma abordagem inovadora para o treinamento em duas etapas

máximo

O primeiro ColBERT multilíngue do mundo: Jina ColBERT V2 e sua tecnologia de "boneca russa

Extra: o1-mini foi totalmente aberto para a experiência de conta gratuita do ChatGPT!

Artigos relacionados

O Microsoft Copilot Studio pode realmente liberar o potencial das inteligências autônomas?

Modelo de geração de imagens de fótons de luma: geração iterativa de imagens com descrições de linguagem natural, equilibrando a qualidade da imagem e a criatividade

O caminho do JPMorgan Chase para a transformação da IA: da proibição à adoção total

Como a inteligência de IA da Rexera impulsiona o controle de qualidade com o LangGraph

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes