Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

Recursos mais recentes de IAAtualizado há 5 meses Círculo de compartilhamento de IA

1.4K 00

Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas contribuiu profundamente para o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda de digitalização, cada inovação tecnológica expandiu muito o escopo da disseminação do conhecimento humano e a profundidade de sua aplicação e, por sua vez, tornou-se um terreno fértil para uma nova rodada de inovação.

Hoje, estamos em um ponto de inflexão empolgante, com oportunidades sem precedentes para desbloquear o potencial da grande quantidade de informações digitalizadas. De acordo com dados do setor, cerca de 90% de dados organizacionais ainda estão armazenados como documentos, o que contém uma enorme quantidade de valor de informações que ainda não foi aproveitada. Para desbloquear esses ativos de dados inativos, a Mistral AI lançou o Mistral OCREste é um sistema óptico Caráter Reconhecimento Óptico de Caracteres (Optical Character Recognition), sua aparição, marcando a tecnologia de compreensão de documentos em um novo patamar.

Principais benefícios do Mistral OCR

Mistral Mais do que uma simples ferramenta de OCR, o OCR representa uma revolução completa na maneira como os documentos são compreendidos. Comparado a outros modelos de OCR no mercado, o Mistral OCR tem maior percepção e precisão dos documentos e é capaz de entender cada componente de um documento - seja uma imagem, um texto, uma tabela ou uma fórmula matemática - o Mistral OCR pode lidar com isso com facilidade. Os usuários simplesmente carregam uma imagem ou um documento PDF e o conteúdo estruturado é rapidamente extraído e apresentado de maneira gráfica e organizada.

Em resumo, o Mistral OCR tem vários benefícios importantes:

Compreensão de alto nível de documentos complexosAnalisar com precisão documentos com gráficos mistos, fórmulas matemáticas complexas, tabelas e formatos avançados, como o LaTeX.
Suporte nativo a vários idiomas e multimodaisNascido com a capacidade de lidar com documentos multilíngues e multimodais sem configuração adicional.
Excelentes indicadores de desempenhoO Mistral OCR foi classificado como o melhor em vários benchmarks confiáveis.
Processamento extremamente rápidoO Mistral OCR tem a velocidade de processamento mais rápida de qualquer produto de OCR de sua categoria.
Modelo inovador "Document as Prompt" com resultados estruturadosSuporte a todo o documento como um comando Prompt e pode gerar resultados de dados altamente estruturados.
Soluções auto-hospedadas flexíveis e opcionaisO Mistral OCR oferece opções opcionais de implementação auto-hospedada para empresas que exigem o máximo em segurança de dados.

Com essas vantagens significativas, o Mistral OCR é a solução perfeita para a criação de RAG O Mistral OCR é ideal para uso com sistemas Retrieval-Augmented Generation (RAG), especialmente ao lidar com documentos multimodais ricos em informações, como slides, arquivos PDF complexos etc. O Mistral OCR está sendo usado atualmente no sistema Mistral OCR. Atualmente, o Mistral OCR tem sido IA Mistral A estrela do show O Chat Adoção de plataforma de IA conversacional que oferece compreensão avançada de documentos a milhões de usuários. versão api mistral-ocr-latest Agora disponível, o preço é competitivo, de US$ 1 por 1.000 páginas, e ainda mais econômico quando se usa um modelo de inferência em lote. Os desenvolvedores podem começar imediatamente por meio da Mistral AI Developer Platform. La Plateforme Experimente o poder do Mistral OCR. No futuro, o Mistral OCR também será implantado de forma mais ampla por meio dos serviços em nuvem e da rede de parceiros da Mistral AI, além de oferecer suporte a implantações corporativas localizadas.

Em seguida, analisaremos as principais vantagens técnicas do Mistral OCR e apresentaremos como começar a usar rapidamente o Mistral OCR por meio da API.

Explicação dos principais benefícios do Mistral OCR

Compreensão profunda de documentos complexos

O Mistral OCR se destaca na compreensão de documentos complexos graças à sua avançada arquitetura de modelo e estratégia de treinamento. O Mistral OCR é capaz de analisar com precisão documentos intercalados com gráficos, trabalhos acadêmicos que contêm um grande número de fórmulas matemáticas profissionais, tabelas sofisticadas ou documentos gerados por sistemas de composição complexos, como o LaTeX. Mesmo no caso de artigos científicos com grande volume de informações, intercalados com tabelas, gráficos, fórmulas e imagens, o Mistral OCR é capaz de entender a lógica e as informações subjacentes do documento.

Para permitir que os usuários experimentem o poder do Mistral OCR de maneira mais intuitiva, a equipe da Mistral AI preparou um caso de demonstração especial. Eles alimentaram um documento PDF típico no Mistral OCR, e o modelo extraiu com êxito todas as informações de texto e imagem e as converteu com eficiência em um arquivo no formato Markdown, preservando perfeitamente a estrutura e o conteúdo do texto original. Os desenvolvedores interessados podem visitar Caderno Colab Experimente o processo por si mesmo.

Para mostrar mais claramente o efeito de análise de documentos do Mistral OCR em aplicativos reais, a equipe do Mistral AI também preparou cuidadosamente vários documentos PDF e sua comparação de resultados de OCR correspondente. Os usuários podem alternar livremente entre o documento original e o resultado do OCR por meio de uma simples operação deslizante e sentir intuitivamente o excelente desempenho do Mistral OCR ao lidar com uma variedade de documentos complexos.

Tabelas e gráficos

Resultados do OCR

fórmula

Resultados do OCR

Hindi (idioma)

Resultados do OCR

documento comum

Resultados do OCR

Árabe (idioma)

Resultados do OCR

Desempenho superior em benchmarking de desempenho

Para avaliar completamente o nível de desempenho do Mistral OCR, a equipe de IA da Mistral realizou uma série de testes rigorosos de benchmark. Os resultados mostram claramente que o Mistral OCR supera significativamente outros modelos líderes de OCR no mercado em uma série de métricas importantes. Em particular, o Mistral OCR se destacou por sua capacidade de extrair com precisão imagens incorporadas de documentos, um recurso não disponível atualmente nos outros modelos de linguagem em larga escala (LLMs) comparados. Para garantir uma avaliação justa, a equipe da Mistral AI também criou um conjunto de testes interno "somente de texto" que foi usado para comparar os modelos entre si. O conjunto de testes abrange uma ampla gama de artigos publicados e PDFs de origem da Internet para fornecer uma visão abrangente e objetiva do desempenho dos modelos no mundo real.

Abaixo estão os dados detalhados do resultado do benchmark:

modelagem	desempenho geral	Reconhecimento de fórmulas matemáticas	Suporte multilíngue	Reconhecimento de documentos digitalizados	reconhecimento de formulários
IA de documentos do Google	83.42	80.29	86.42	92.77	78.16
OCR do Azure	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Gemini-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Gemini-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
gpt-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Mistral OCR 2503	94.89	94.29	89.55	98.96	96.12

Os dados acima deixam claro que a Mistral OCR alcançou uma liderança significativa em todos os principais indicadores de desempenho, especialmente no desempenho geral e no reconhecimento de formulários.

Recursos nativos de processamento multilíngue

Desde o início da Mistral AI, atender a usuários globais tem sido uma importante meta de desenvolvimento. Portanto, a criação de poderosos recursos de processamento multilíngue tem sido uma das principais estratégias do desenvolvimento de produtos Mistral AI, e o Mistral OCR abre novos caminhos nesse sentido, analisando perfeitamente, entendendo com precisão e transcrevendo com eficiência milhares de textos, fontes e idiomas diferentes, abrangendo de forma abrangente idiomas e culturas de todos os continentes. Essa adaptabilidade multilíngue superior é estrategicamente importante para empresas multinacionais com operações globais que lidam com documentos de diferentes regiões linguísticas, bem como para empresas de localização que se concentram em mercados de idiomas específicos e atendem a usuários de idiomas diferentes.

A tabela a seguir mostra os resultados de benchmarking do Mistral OCR na tarefa de geração de correspondência fuzzy multilíngue:

modelagem	Precisão da geração de correspondência fuzzy
Google-Document-AI	95.88%
Gemini-2.0-Flash-001	96.53%
OCR do Azure	97.31%
Mistral OCR 2503	99.02%

Os dados de teste mostram que o Mistral OCR também apresenta bom desempenho na geração de correspondências difusas multilíngues, e seus indicadores de desempenho superam os de outros produtos OCR convencionais, confirmando mais uma vez seus poderosos recursos de processamento multilíngue.

Para avaliar o desempenho do Mistral OCR em diferentes idiomas, a equipe da Mistral AI também realizou testes de benchmark mais detalhados e específicos para cada idioma, e os resultados dos testes são os seguintes:

multilinguismo	OCR do Azure	IA do Google Doc	Gemini-2.0-Flash-001	Mistral OCR 2503
Russo (ru)	97.35%	95.56%	96.58%	99.09%
Francês (fr)	97.50%	96.36	97.06%	99.20%
Hindi (hi)	96.45%	95.65	94.99%	97.55%
Chinês (zh)	91.40%	90.89%	91.85%	97.11%
Português (pt)	97.96%	96.24	97.25%	99.42%
Alemão (de)	98.39%	97.09%	97.19	99.51%
Espanhol (es)	98.54%	97.52	97.75	99.54%
Turco (tr)	95.91%	93.85	94.66%	97.00%
Ucraniano (uk)	97.81%	96.24	96.70%	99.29%
Italiano (it)	98.31%	97.69	97.68	99.42%
Romeno (ro)	96.45%	95.14	95.88%	98.79%

A partir dos resultados do teste de subidioma, o Mistral OCR tem um bom desempenho na precisão do reconhecimento de vários idiomas, especialmente no reconhecimento do chinês, a vantagem do Mistral OCR é especialmente óbvia.

Poder de processamento de documentos extremamente rápido

O design leve do Mistral OCR, combinado com sua busca por um desempenho superior, torna-o muito mais rápido do que os produtos concorrentes. Em uma configuração padrão de nó único, o Mistral OCR pode processar até 2.000 páginas por minuto. Essa incrível velocidade de processamento de documentos garante uma operação eficiente do sistema, mesmo em cenários de aplicativos de alta carga que exigem o processamento de grandes volumes de documentos, e oferece suporte ao aprendizado contínuo e à otimização do desempenho.

"Documento como prompt e saída estruturada

Outro recurso inovador do Mistral OCR é o "Document as Prompt" Modelos. Esse recurso permite que os usuários modelem diretamente o documento inteiro como uma entrada de prompt para uma extração de informações mais poderosa e precisa. Os usuários podem instruir o Mistral OCR a extrair informações específicas de um documento e gerar dados estruturados em um formato predefinido, como JSON. Essa saída estruturada permite fácil integração com aplicativos e fluxos de trabalho downstream, por exemplo, os usuários podem usar os dados extraídos diretamente para chamadas de função ou criar agentes inteligentes. Exemplo de notebook Isso ajuda os usuários a começar a usar rapidamente o recurso "Document as Prompt".

Opções flexíveis de implementação auto-hospedada

O Mistral OCR oferece uma opção de implantação auto-hospedada em reconhecimento ao fato de que algumas empresas e organizações têm requisitos extremamente rigorosos de privacidade e segurança de dados. Aqueles que escolhem a opção de implantação auto-hospedada podem implantar o Mistral OCR inteiramente em sua própria infraestrutura, garantindo que todos os dados sensíveis e informações confidenciais sejam sempre manipulados em seu próprio ambiente seguro e controlado, atendendo aos mais rigorosos padrões de conformidade regulamentar e segurança de dados. Para organizações com implantações auto-hospedadas, sinta-se à vontade para entrar em contato com a Mistral AI para obter mais informações.

Primeiros passos com a API Mistral OCR

A API de OCR da Mistral é muito fácil de usar, e a Mistral AI fornece SDKs em Python e Typescript, bem como exemplos de solicitações curl para que os desenvolvedores se integrem rapidamente.

Processador de OCR de documentos

A principal funcionalidade do Mistral OCR é impulsionada pelo processador de OCR de documentos, que é construído no mais recente modelo de OCR da Mistral AI, mistral-ocr-latest, para extrair com precisão texto e conteúdo estruturado de documentos PDF.

Principais características::

Extração de conteúdo estruturadoExtração de texto: Ao extrair o conteúdo do texto, a estrutura original e as relações hierárquicas do documento são mantidas intactas.
Retenção de informações formatadasCapacidade de reconhecer e reter com precisão uma ampla gama de informações formatadas em um documento, como títulos, parágrafos, listas e tabelas.
Saída no formato markdownOs resultados são apresentados em um formato Markdown limpo e fácil de usar para análise e renderização secundárias.
Processamento de layout complexoManipule facilmente uma variedade de layouts de documentos complexos, incluindo texto com várias colunas e composição de conteúdo misto.
Processamento de alta precisão e em larga escalaSuporte ao processamento em lote de documentos em grande escala, garantindo alta precisão de reconhecimento.
Amplo suporte a formatos de documentosSuporte a vários formatos de entrada, como PDF, imagens e documentos carregados pelo usuário.

Os processadores de OCR de documentos não apenas retornam o conteúdo de texto extraído, mas também contêm metadados sobre a estrutura do documento, o que facilita para os desenvolvedores manipularem programaticamente o conteúdo do documento reconhecido.

OCR de documentos PDF

O exemplo de código a seguir mostra como usar a API Mistral OCR para processar documentos PDF:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url":"https://arxiv.org/pdf/2201.04234"
},
include_image_base64=True
)

Faça upload de documentos PDF para OCR

A API Mistral OCR também oferece suporte aos usuários que fazem upload de arquivos PDF para processamento de OCR.

Upload de arquivos

Em primeiro lugar, o arquivo PDF precisa ser carregado no serviço de arquivos da Mistral AI:

from mistralai import Mistral
import os
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
uploaded_pdf = client.files.upload(
file={
"file_name":"uploaded_file.pdf",
"content":open("uploaded_file.pdf","rb"),
},
purpose="ocr"
)

Recuperação de documentos

Após um upload bem-sucedido, você pode recuperar informações sobre o arquivo carregado:

client.files.retrieve(file_id=uploaded_pdf.id)

id='00edaf84-95b0-45db-8f83-f71138491f23' object='file' size_bytes=3749788 created_at=1741023462 filename='uploaded_file.pdf' purpose='ocr' sample_type='ocr_input' source='upload' deleted=False num_lines=None

Obter URL da assinatura

Para obter acesso seguro a um arquivo carregado, você pode obter o URL de assinatura do arquivo:

signed_url = client.files.get_signed_url(file_id=uploaded_pdf.id)

Obtenção de resultados de OCR

Por fim, use o URL da assinatura como o endereço do documento para obter o resultado do OCR do arquivo PDF carregado:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url": signed_url.url,
}
)

OCR de imagem

A API Mistral OCR também oferece suporte ao OCR direto de imagens.

OCR de imagem de URL

O reconhecimento de OCR pode ser realizado diretamente a partir do URL da imagem:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":"https://media-cldnry.s-nbcnews.com/image/upload/t_fit-560w,f_avif,q_auto:eco,dpr_2/rockcms/2023-11/short-quotes-swl-231117-02-33d404.jpg"
}
)

OCR de imagem codificada em base64

Como alternativa, a imagem pode ser codificada em Base64 e passada para a API para reconhecimento de OCR:

import base64
import requests
import os
from mistralai import Mistral
defencode_image(image_path):
"""Encode the image to base64."""
try:
withopen(image_path,"rb")as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
except FileNotFoundError:
print(f"Error: The file {image_path} was not found.")
returnNone
except Exception as e:# Added general exception handling
print(f"Error: {e}")
returnNone
# Path to your image
image_path ="path_to_your_image.jpg"
# Getting the base64 string
base64_image = encode_image(image_path)
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":f"data:image/jpeg;base64,{base64_image}"
}
)

Função de compreensão de documentos

O recurso de compreensão de documentos do Mistral OCR é um aplicativo inovador que integra profundamente a poderosa tecnologia de OCR com a modelagem de linguagem grande (LLM). Ele capacita os usuários com a capacidade de interagir com o conteúdo do documento em linguagem natural, permitindo que eles extraiam eficientemente informações e insights de documentos por meio de perguntas em linguagem natural.

O fluxo de trabalho para a compreensão de documentos consiste em duas etapas principais::

processamento de arquivosEm primeiro lugar, os documentos não estruturados são convertidos em um formato legível por máquina, extraindo informações de texto, estrutura e formatação do documento usando a tecnologia OCR.
compreensão do modelo de linguagemEm seguida, o modelo de linguagem em grande escala fornece análise e compreensão aprofundadas do conteúdo do documento extraído. Os usuários podem fazer perguntas ou solicitações de informações em linguagem natural, e o modelo entende o contexto e as associações intrínsecas do documento e fornece respostas precisas com base no conteúdo do documento.

Competências essenciais para a compreensão de documentos::

Perguntas e respostas com base no conteúdo do documentoCapacidade de responder a perguntas de linguagem natural sobre o conteúdo específico de um documento.
Extração e resumo de informaçõesExtraia informações importantes de documentos e gere resumos concisos.
Análise e percepção de documentosAnálise de documentos: Realize análises aprofundadas do conteúdo dos documentos para descobrir possíveis percepções e conhecimentos.
Consulta e comparação de vários documentosSuporte para consulta de informações e comparação de conteúdo em vários documentos.
Respostas com reconhecimento de contextoCapacidade de dar respostas mais precisas e relevantes, levando em conta todas as informações contextuais do documento.

Cenários típicos de aplicativos para compreensão de documentos::

Análise de artigos científicos e documentação técnicaAnálise e compreensão rápidas de grandes volumes de artigos científicos e documentos técnicos.
Extração de informações de documentos comerciaisExtraia com eficiência as principais informações de documentos, como contratos e relatórios comerciais.
Documentação jurídica e processamento de contratosAuxiliar no processamento e na análise de documentos jurídicos complexos e cláusulas contratuais.
Criação de aplicativos de teste de documentos: Desenvolvimento de um sistema inteligente de perguntas e respostas sobre documentos para melhorar a eficiência da recuperação de informações.
Fluxo de trabalho automatizado de documentosAutomatize uma variedade de fluxos de trabalho baseados em documentos, como revisão de documentos e entrada de informações.

O exemplo de código a seguir mostra como usar a linguagem natural para interagir com um documento PDF e perguntar qual é a última frase do documento:

import os
from mistralai import Mistral
# Retrieve the API key from environment variables
api_key = os.environ["MISTRAL_API_KEY"]
# Specify model
model ="mistral-small-latest"
# Initialize the Mistral client
client = Mistral(api_key=api_key)
# Define the messages for the chat
messages =[
{
"role":"user",
"content":[
{
"type":"text",
"text":"what is the last sentence in the document"
},
{
"type":"document_url",
"document_url":"https://arxiv.org/pdf/1805.04770"
}
]
}
]
# Get the chat response
chat_response = client.chat.complete(
model=model,
messages=messages
)
# Print the content of the response
print(chat_response.choices[0].message.content)
# Output:
# The last sentence in the document is:\n\n\"Zaremba, W., Sutskever, I., and Vinyals, O. Recurrent neural network regularization. arXiv:1409.2329, 2014.

Casos de aplicativos

Os poderosos recursos de compreensão de documentos do Mistral OCR estão liberando um tremendo valor em aplicações do mundo real em uma ampla gama de setores, ajudando empresas e organizações a transformar grandes quantidades de dados de documentos em conhecimento e soluções acionáveis. Atualmente, o Mistral OCR alcançou resultados significativos nas seguintes áreas-chave:

Transformação digital da pesquisaO Mistral OCR é uma ferramenta de pesquisa que permite a conversão de grandes volumes de artigos científicos e periódicos em formatos de dados compatíveis com IA, possibilitando o acesso contínuo a uma variedade de mecanismos de análise inteligente downstream. Isso facilitou muito a eficiência da colaboração em pesquisa e acelerou significativamente os fluxos de trabalho de pesquisa.

Preservação e transmissão digital do patrimônio culturalMuitas organizações de preservação do patrimônio cultural e organizações sem fins lucrativos estão adotando ativamente a tecnologia Mistral OCR para digitalizar documentos e artefatos históricos valiosos para preservação permanente e disseminação e compartilhamento mais amplos do patrimônio cultural.

Atualização inteligente do atendimento ao clienteO departamento de atendimento ao cliente também está explorando ativamente a aplicação do Mistral OCR, tentando transformar a documentação complicada do produto e os manuais do usuário em uma base de conhecimento estruturada e indexável, reduzindo significativamente o tempo de resposta do cliente e melhorando a qualidade do atendimento ao cliente e a satisfação do usuário.

Capacitação de IA para literatura em todos os setoresMistral OCR: O Mistral OCR está ajudando empresas de uma ampla gama de setores a converter grandes volumes de documentos técnicos, desenhos de engenharia, anotações, apresentações, registros regulatórios, etc. em formatos indexáveis e recuperáveis, compatíveis com IA, que aproveitam o conhecimento e a inteligência incorporados nos documentos para melhorar a produtividade organizacional.

Experimente o poder do Mistral OCR hoje mesmo!

Experimente o poder do Mistral OCR hoje mesmo! Os usuários podem experimentar gratuitamente os recursos de compreensão de documentos do Mistral OCR visitando a plataforma Le Chat. Para obter uma versão da API, visite La Plateforme. A equipe da Mistral AI espera receber feedback valioso dos usuários e continuará a otimizar e iterar no modelo Mistral OCR para melhorar seu desempenho. Como parte do programa de parceria estratégica, a Mistral AI também está oferecendo uma opção de implantação local para usuários selecionados.

Mais recursos

Para obter mais informações sobre como usar o Mistral OCR e dicas avançadas, consulte os recursos a seguir:

Livro de receitas para uso de ferramentas e compreensão de documentos: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/document_understanding.ipynb
Livro de receitas de OCR em lote: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/batch_ocr.ipynb
Livro de receitas de OCR estruturado: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/structured_ocr.ipynb

Esses livros de receitas fornecem amostras detalhadas de código e guias práticos para ajudar os desenvolvedores a obter uma compreensão e aplicação mais profundas dos recursos do Mistral OCR.