Os modelos de linguagem (LMs) se tornaram o principal impulsionador da inovação na tecnologia de IA. Desde o pré-treinamento até os aplicativos do mundo real, os modelos de linguagem dependem de dados de texto simples para funcionar. Seja para realizar trilhões de tokens Para que os dados de texto sejam usados em um treinamento de nível superior ou para dar suporte a aplicativos de IA com uso intensivo de dados, a qualidade dos dados de texto é fundamental. Dados de texto de baixa qualidade podem não apenas levar a um processo de treinamento instável e a um desempenho degradado do modelo, mas também produzir resultados abaixo do ideal quando solicitados pelos usuários.
No entanto, nem todos os dados necessários para a modelagem de linguagem existem em um formato facilmente analisável, como páginas da Web. Na verdade, em muitos domínios, informações valiosas são armazenadas em arquivos de documentos eletrônicos, especialmente no formato PDF, que apresenta desafios únicos no processamento de dados, pois foi originalmente projetado para apresentar o conteúdo em uma página de tamanho fixo em vez de preservar a estrutura lógica do texto. No PDF, por exemplo, o formato armazena o texto como uma série de códigos de caracteres e registra informações sobre o local e a formatação de cada caractere na página. Embora esse armazenamento seja muito eficiente, ele torna extremamente difícil recuperar unidades de texto, como títulos, parágrafos, tabelas e fórmulas, e organizá-las na ordem correta de leitura.
Para um melhor manuseio de documentos eletrônicos, temos o orgulho de apresentar o olmOCRO olmOCR é um kit de ferramentas de alto desempenho projetado para converter PDFs e imagens de documentos em texto simples claro e estruturado:
desempenho superior
Para garantir olmOCR Para extrair com precisão o texto de uma grande variedade de documentos, a equipe de desenvolvimento ajustou o modelo usando 250.000 páginas PDF de diversas fontes. Esses documentos PDF vieram de uma ampla variedade de fontes, incluindo documentos digitais nativos e cópias digitalizadas de livros de domínio público. Esse conjunto de dados diversificado garante que o olmOCR mantenha um excelente desempenho em uma ampla gama de documentos.
Extremamente econômico
O custo do kit de ferramentas olmOCR para processar um milhão de páginas de documentos PDF é de aproximadamente US$ 190, o que representa cerca de 1/32 do custo do processamento em lote do mesmo número de páginas usando a API GPT-4o. Reduzindo significativamente a barreira econômica para o processamento de documentos.
Saída no formato markdown
O olmOCR gera texto no formato Markdown, que é fácil de analisar e processar. Ele pode manipular fórmulas, tabelas e até mesmo conteúdo manuscrito, além de garantir que, mesmo com os layouts de documentos mais complexos e com várias colunas, a saída esteja na ordem correta de leitura.
Totalmente funcional, assim que sai da caixa
O olmOCR é um pipeline totalmente otimizado que funciona tanto com SGLang quanto com vLLM O mecanismo de inferência funciona em conjunto. Ele é dimensionado de uma única GPU para centenas de GPUs e tem heurística integrada para lidar com falhas comuns de análise e erros de metadados.
Código-fonte totalmente aberto
O olmOCR foi desenvolvido com base no Qwen2-VL-7B-Instruct. A equipe de desenvolvimento abriu o código-fonte de todos os componentes do kit de ferramentas, incluindo pesos do modelo, conjuntos de dados ajustados e código de treinamento e inferência.
Para ver como o olmOCR se compara a outras ferramentas líderes de extração de documentos e para saber mais sobre o processo de criação do olmOCR, siga os links. Se estiver pronto para experimentar o olmOCR, visite o repositório do GitHub e comece a usar o olmOCR em seus projetos!
Comparação de ferramentas interativas
Ao comparar documentos de amostra, você pode visualizar o desempenho do olmOCR em relação a outras ferramentas líderes de extração de documentos. Usando as guias abaixo, você pode visualizar o resultado das diferentes ferramentas e obter informações sobre as principais diferenças na qualidade do processamento.
O caminho para a criação do olmOCR
As técnicas tradicionais de OCR geralmente enfrentam muitos desafios ao lidar com documentos PDF com layouts complexos. A fim de obter dados de alta qualidade para treinar o olmOCR, a equipe de desenvolvimento desenvolveu de forma inovadora um método chamado ancoragem de documentos A técnica. O método faz uso total do texto e dos metadados existentes no arquivo PDF para melhorar significativamente a qualidade da extração de texto.
Figura 1: mostra como a técnica de ancoragem de documentos funciona em uma página típica. Locais de imagens e blocos de texto relevantes são extraídos, vinculados e inseridos no prompt do modelo. O texto ancorado é usado em conjunto com a imagem rasterizada da página ao solicitar uma versão de texto simples do documento ao VLM (Visual Language Model) запросить.
Com a ajuda de técnicas de ancoragem de documentos, a equipe de desenvolvimento usou o GPT-4o para marcar 250.000 páginas. O conjunto de dados é proveniente de uma ampla variedade de fontes, incluindo documentos PDF disponíveis publicamente, rastreados da Web e livros de domínio público digitalizados do Internet Archive. O conjunto de dados é de vários tipos, incluindo 60% para artigos acadêmicos, 12% para brochuras, 11% para documentos jurídicos, 6% para tabelas e gráficos, 5% para slides e 4% para outros tipos de documentos.
Para o treinamento do modelo, a equipe da olmOCR ajustou o ponto de verificação Qwen2-VL-7B-Instruct e usou SGLang para obter processamento em lote em grande escala e otimizar o pipeline de inferência. Para possibilitar o processamento em lote em larga escala e otimizar o pipeline de inferência, eles usaram SGLang. O olmOCR conseguiu converter um milhão de páginas em PDF por apenas US$ 190, o que representa 1/32 do custo da API GPT-4o. Os resultados experimentais mostram que o olmOCR não apenas reduz significativamente o custo em comparação com outras ferramentas populares de OCR, mas também demonstra desempenho superior na avaliação manual. Os resultados experimentais mostram que o olmOCR não só reduz significativamente os custos em comparação com outras ferramentas populares de OCR, mas também demonstra um desempenho superior na avaliação manual.
Figura 2: Boxplot da classificação ELO do olmOCR em relação a outras ferramentas populares.
Para avaliar completamente o desempenho do olmOCR, a equipe comparou seu resultado com outras ferramentas populares de extração de PDF, incluindo Marker, MinerU e GOT-OCR 2.0. 11 pesquisadores foram convidados a fazer julgamentos em pares. Em documentos PDF de 2017, foram coletados 452 conjuntos de comparações significativas e o desempenho foi quantificado pelo cálculo das pontuações ELO. Os resultados mostram que o olmOCR tem uma pontuação ELO de mais de 1800, superando significativamente todos os concorrentes. Em uma comparação direta com outras ferramentas, a olmOCR obteve uma pontuação de 61,3% em comparação com a pontuação de 1.800TP3T da concorrência. Marcador foi preferido na comparação do 58.6% com o GOT-OCR e na comparação do MinerU Essa proporção é ainda maior na comparação de 71,4%, o que demonstra plenamente a excelente capacidade do olmOCR de gerar textos claros e bem estruturados.
Você pode ver informações mais detalhadas e outros resultados de avaliação no Relatório Técnico.
Como usar o olmOCR
A primeira versão do olmOCR inclui uma demonstração, pesos de modelos, conjuntos de dados ajustados, um breve relatório técnico e, o mais importante, um pipeline de inferência eficiente.
Visite o repositório do GitHub para instalar o olmOCR e analisar a documentação. Em seguida, em uma máquina com uma GPU, basta executar o seguinte comando:
python -m olmocr.pipeline . /localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
A equipe de desenvolvimento espera lançar mais benchmarks quantitativos em um futuro próximo para ajudar a desenvolver melhores modelos de extração de PDF e avaliar seu desempenho com mais eficiência.