Mistral OCR: 94,89% Precisión global, 1.000 páginas/30 segundos, sólo 1 $.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

59.1K 00

En la larga historia de la civilización humana, cada salto en la forma de adquirir y analizar la información ha contribuido profundamente al progreso social. Desde los antiguos jeroglíficos, pasando por el papiro portátil, hasta la posterior aparición de la imprenta y la actual ola de digitalización, cada innovación tecnológica ha ampliado enormemente el alcance de la difusión del conocimiento humano y la profundidad de su aplicación, y a su vez se ha convertido en terreno abonado para una nueva ronda de innovación.

Hoy nos encontramos en un punto de inflexión apasionante, con oportunidades sin precedentes para liberar el potencial de la ingente cantidad de información digitalizada. Según datos del sector, alrededor de 90% de datos organizativos siguen almacenados en forma de documentos, lo que contiene una enorme cantidad de valor informativo que aún no se ha aprovechado. Para desbloquear estos activos de datos latentes, Mistral AI ha lanzado el proyecto Mistral OCRSe trata de una óptica Carácter (Reconocimiento Óptico de Caracteres) API, su aparición, marcando la tecnología de comprensión de documentos a un nuevo nivel.

Principales ventajas de Mistral OCR

Mistral Más que una simple herramienta de OCR, el OCR representa una revolución completa en la forma de entender los documentos. En comparación con otros modelos de OCR del mercado, Mistral OCR tiene un mayor conocimiento y precisión de los documentos, y es capaz de entender cada componente de un documento: ya sea una imagen, un texto, una tabla o una fórmula matemática, Mistral OCR puede manejarlo con facilidad. Los usuarios sólo tienen que cargar una imagen o un documento PDF y el contenido estructurado se extrae rápidamente y se presenta de forma gráfica y organizada.

En resumen, Mistral OCR tiene varias ventajas clave:

Excelente comprensión de documentos complejos: Analice con precisión documentos con gráficos mixtos, fórmulas matemáticas complejas, tablas y formatos avanzados como LaTeX.
Soporte nativo multilingüe y multimodal: Nace con la capacidad de gestionar documentos multilingües y multimodales sin necesidad de configuración adicional.
Excelentes indicadores de resultados: Mistral OCR ha sido clasificado en los primeros puestos de una serie de referencias autorizadas.
Procesamiento ultrarrápido: Mistral OCR tiene la velocidad de procesamiento más rápida de cualquier producto OCR de su clase.
Innovador modelo "Document as Prompt" con resultados estructurados: Admite todo el documento como comando Prompt y puede dar salida a resultados de datos altamente estructurados.
Soluciones autoalojadas flexibles y opcionalesMistral OCR ofrece opciones opcionales de despliegue autónomo para empresas que exigen lo último en seguridad de datos.

Con estas importantes ventajas, Mistral OCR es la herramienta perfecta para construir RAG Mistral OCR es ideal para su uso con sistemas de generación mejorada de recuperación (RAG), especialmente cuando se trata de documentos multimodales ricos en información, como diapositivas, archivos PDF complejos, etc. Actualmente, Mistral OCR se utiliza en el sistema Mistral OCR. Actualmente, Mistral OCR se ha Mistral AI La estrella del espectáculo El Chat Adopción de una plataforma de IA conversacional que ofrece una potente comprensión de documentos a millones de usuarios. versión api mistral-ocr-latest Ahora disponible, el precio es competitivo a 1 dólar por cada 1.000 páginas, e incluso más rentable cuando se utiliza un modelo de inferencia por lotes. Los desarrolladores pueden empezar de inmediato a través de la plataforma Mistral AI Developer Platform. La Plataforma Experimente la potencia de Mistral OCR. En el futuro, Mistral OCR también se desplegará más ampliamente a través de los servicios en la nube y la red de socios de Mistral AI, y dará soporte a despliegues empresariales localizados.

A continuación, analizaremos las principales ventajas técnicas de Mistral OCR e introduciremos cómo empezar a utilizar rápidamente Mistral OCR a través de la API.

Explicación de las ventajas principales de Mistral OCR

Comprensión profunda de documentos complejos

Mistral OCR destaca en la comprensión de documentos complejos gracias a su avanzada arquitectura de modelos y a su estrategia de formación. Mistral OCR es capaz de analizar con precisión documentos intercalados con gráficos, documentos académicos que contienen un gran número de fórmulas matemáticas profesionales, tablas sofisticadas o documentos generados por sistemas de composición tipográfica complejos como LaTeX. Incluso en el caso de documentos científicos con mucha información, en los que se intercalan tablas, gráficos, fórmulas e imágenes, Mistral OCR es capaz de comprender la lógica y la información subyacentes del documento.

Para que los usuarios puedan experimentar la potencia de Mistral OCR de forma más intuitiva, el equipo de Mistral AI ha preparado un caso de demostración especial. Introdujeron un documento PDF típico en Mistral OCR, y el modelo extrajo con éxito toda la información de texto e imagen del mismo y lo convirtió eficazmente en un archivo con formato Markdown, conservando perfectamente la estructura y el contenido del texto original. Los desarrolladores interesados pueden visitar Cuaderno Colab Experimente usted mismo el proceso.

Con el fin de mostrar más claramente el efecto de análisis de documentos de Mistral OCR en aplicaciones reales, el equipo de Mistral AI también ha preparado cuidadosamente una serie de documentos PDF y su correspondiente comparación de resultados de OCR. Los usuarios pueden cambiar libremente entre el documento original y el resultado del OCR mediante una simple operación de deslizamiento, y sentir intuitivamente el excelente rendimiento de Mistral OCR en el tratamiento de una variedad de documentos complejos.

Tablas y gráficos

Resultados OCR

fórmula

Resultados OCR

Hindi (lengua)

Resultados OCR

documento ordinario

Resultados OCR

Árabe (lengua)

Resultados OCR

Rendimiento superior en las pruebas de rendimiento

Para evaluar a fondo el nivel de rendimiento de Mistral OCR, el equipo de IA de Mistral llevó a cabo una serie de rigurosas pruebas comparativas. Los resultados muestran claramente que Mistral OCR supera significativamente a otros modelos de OCR líderes en el mercado en una serie de métricas clave. Cabe destacar que Mistral OCR sobresale por su capacidad para extraer con precisión imágenes incrustadas en documentos, una característica que actualmente no ofrecen los demás modelos lingüísticos a gran escala (LLM) comparados. Para garantizar una evaluación justa, el equipo de Mistral AI también creó un conjunto de pruebas interno de "sólo texto" que se utilizó para comparar los modelos entre sí. El conjunto de pruebas abarca una amplia gama de artículos publicados y archivos PDF de Internet para proporcionar una visión completa y objetiva del rendimiento de los modelos en el mundo real.

Aquí están los datos detallados de los resultados del benchmark:

modelización	rendimiento general	Reconocimiento de fórmulas matemáticas	Soporte multilingüe	Reconocimiento de documentos escaneados	reconocimiento de formularios
Google Document AI	83.42	80.29	86.42	92.77	78.16
Azure OCR	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Géminis-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Géminis-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
gpt-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Mistral OCR 2503	94.89	94.29	89.55	98.96	96.12

De los datos anteriores se desprende claramente que Mistral OCR ha alcanzado un liderazgo significativo en todos los indicadores clave de rendimiento, en particular en el rendimiento global y el reconocimiento de formularios.

Procesamiento multilingüe nativo

Desde los inicios de Mistral AI, atender a usuarios de todo el mundo ha sido un importante objetivo de desarrollo. Por lo tanto, la creación de potentes capacidades de procesamiento multilingüe ha sido una de las estrategias centrales del desarrollo de productos de Mistral AI, y Mistral OCR abre nuevos caminos en este sentido al analizar sin problemas, comprender con precisión y transcribir con eficacia miles de textos, fuentes e idiomas diferentes, abarcando de forma exhaustiva idiomas y culturas de todos los continentes. Esta adaptabilidad multilingüe superior es estratégicamente importante para las empresas multinacionales con operaciones globales que manejan documentos de diferentes regiones lingüísticas, así como para las empresas de localización que se centran en mercados lingüísticos específicos y atienden a usuarios местный.

La siguiente tabla muestra los resultados de la evaluación comparativa de Mistral OCR en la tarea de generación de coincidencias difusas multilingües:

modelización	Precisión de la generación de coincidencias difusas
Google-Document-AI	95.88%
Géminis-2.0-Flash-001	96.53%
Azure OCR	97.31%
Mistral OCR 2503	99.02%

Los datos de las pruebas muestran que Mistral OCR también obtiene buenos resultados en la generación de coincidencias difusas multilingües, y sus indicadores de rendimiento superan a los de otros productos OCR convencionales, lo que confirma una vez más sus potentes capacidades de procesamiento multilingüe.

Con el fin de evaluar el rendimiento de Mistral OCR en diferentes idiomas, el equipo de Mistral AI también llevó a cabo pruebas de referencia más detalladas específicas para cada idioma, y los resultados de las pruebas son los siguientes:

multilingüismo	Azure OCR	Google Doc AI	Géminis-2.0-Flash-001	Mistral OCR 2503
Ruso (ru)	97.35%	95.56%	96.58%	99.09%
Francés (fr)	97.50%	96.36	97.06%	99.20%
Hindi (hi)	96.45%	95.65	94.99%	97.55%
Chino (zh)	91.40%	90.89%	91.85%	97.11%
Portugués (pt)	97.96%	96.24	97.25%	99.42%
Alemán (de)	98.39%	97.09%	97.19	99.51%
Español (es)	98.54%	97.52	97.75	99.54%
Turco (tr)	95.91%	93.85	94.66%	97.00%
Ucraniano (uk)	97.81%	96.24	96.70%	99.29%
Italiano (it)	98.31%	97.69	97.68	99.42%
Rumano (ro)	96.45%	95.14	95.88%	98.79%

A partir de los resultados de la prueba de subidiomas, Mistral OCR obtiene buenos resultados en la precisión de reconocimiento de varios idiomas, especialmente en el reconocimiento del chino, la ventaja de Mistral OCR es especialmente obvia.

Procesamiento de documentos extremadamente rápido

El diseño ligero de Mistral OCR, combinado con la búsqueda de un rendimiento superior, hace que sea mucho más rápido que los productos de la competencia. En una configuración estándar de un solo nodo, Mistral OCR puede procesar hasta 2000 páginas por minuto. Esta asombrosa velocidad de procesamiento de documentos garantiza un funcionamiento eficaz del sistema incluso en escenarios de aplicaciones de alta carga que requieren el procesamiento de grandes volúmenes de documentos, y admite el aprendizaje continuo y la optimización del rendimiento.

"Documento como promesa" y "Salida estructurada

Otra característica innovadora del Mistral OCR es el "Documento como Prompt" Modelos. Esta función permite a los usuarios modelar directamente todo el documento como una entrada Prompt para una extracción de información más potente y precisa. Los usuarios pueden ordenar a Mistral OCR que extraiga información específica de un documento y genere datos estructurados en un formato predefinido, como JSON. Esta salida estructurada se puede integrar fácilmente con aplicaciones y flujos de trabajo posteriores; por ejemplo, los usuarios pueden utilizar los datos extraídos directamente para llamadas a funciones o para crear agentes inteligentes. el equipo de Mistral AI también proporciona un cuaderno Ejemplo Esto ayuda a los usuarios a empezar rápidamente con la función "Documento como pregunta".

Opciones flexibles de despliegue autónomo

Mistral OCR ofrece una opción de despliegue autoalojado en reconocimiento del hecho de que algunas empresas y organizaciones tienen requisitos de privacidad y seguridad de datos extremadamente estrictos. Aquellos que eligen la opción de despliegue autoalojado pueden desplegar Mistral OCR por completo en su propia infraestructura, garantizando que todos los datos sensibles y la información confidencial se manejan siempre en su propio entorno seguro y controlado, cumpliendo con los estándares más estrictos de cumplimiento normativo y seguridad de datos. Para las organizaciones con despliegues autoalojados, no dude en ponerse en contacto con Mistral AI para obtener más información.

Primeros pasos con la API Mistral OCR

La API de OCR de Mistral es muy fácil de usar, y Mistral AI proporciona SDK en Python y Typescript, así como peticiones curl de muestra para que los desarrolladores la integren rápidamente.

Procesador OCR de documentos

La funcionalidad principal de Mistral OCR está impulsada por el procesador de OCR de documentos, que se basa en el último modelo de OCR de Mistral AI, mistral-ocr-latest, para extraer con precisión texto y contenido estructurado de documentos PDF.

Características principales::

Extracción de contenidos estructuradosExtracción del contenido textual: al extraer el contenido textual, la estructura original y las relaciones jerárquicas del documento se mantienen intactas.
Retención de información formateadaCapacidad para reconocer y retener con precisión una amplia gama de información formateada en un documento, como títulos, párrafos, listas y tablas.
Salida en formato MarkdownLos resultados se presentan en un formato Markdown limpio y fácil de usar para su análisis y representación secundarios.
Tratamiento de diseños complejos: Maneje fácilmente una variedad de diseños de documentos complejos, incluyendo texto en varias columnas y composición tipográfica de contenido mixto.
Procesado de alta precisión a gran escala: Admite el procesamiento por lotes de documentos a gran escala al tiempo que garantiza una alta precisión de reconocimiento.
Amplia compatibilidad de formatos de documentos: Admite múltiples formatos de entrada, como PDF, imágenes y documentos cargados por el usuario.

Los procesadores OCR de documentos no sólo devuelven el contenido textual extraído, sino que también contienen metadatos sobre la estructura del documento, lo que facilita a los desarrolladores el procesamiento programático del contenido del documento reconocido.

OCR de documentos PDF

El siguiente ejemplo de código muestra cómo utilizar la API Mistral OCR para procesar documentos PDF:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url":"https://arxiv.org/pdf/2201.04234"
},
include_image_base64=True
)

Cargar documentos PDF para OCR

La API de OCR de Mistral también permite a los usuarios cargar archivos PDF para procesarlos mediante OCR.

Carga de archivos

En primer lugar, es necesario cargar el archivo PDF en el servicio de archivos de Mistral AI:

from mistralai import Mistral
import os
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
uploaded_pdf = client.files.upload(
file={
"file_name":"uploaded_file.pdf",
"content":open("uploaded_file.pdf","rb"),
},
purpose="ocr"
)

Recuperación de documentos

Tras una carga correcta, puede recuperar información sobre el archivo cargado:

client.files.retrieve(file_id=uploaded_pdf.id)

id='00edaf84-95b0-45db-8f83-f71138491f23' object='file' size_bytes=3749788 created_at=1741023462 filename='uploaded_file.pdf' purpose='ocr' sample_type='ocr_input' source='upload' deleted=False num_lines=None

Obtener URL de firma

Para acceder de forma segura a un archivo cargado, puede obtener la URL de firma del archivo:

signed_url = client.files.get_signed_url(file_id=uploaded_pdf.id)

Obtener resultados del OCR

Por último, utilice la URL de la firma como dirección del documento para obtener el resultado del OCR del archivo PDF cargado:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url": signed_url.url,
}
)

OCR de imágenes

La API de OCR de Mistral también admite el OCR directo de imágenes.

OCR de imágenes URL

El reconocimiento OCR puede realizarse directamente desde la URL de la imagen:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":"https://media-cldnry.s-nbcnews.com/image/upload/t_fit-560w,f_avif,q_auto:eco,dpr_2/rockcms/2023-11/short-quotes-swl-231117-02-33d404.jpg"
}
)

OCR de imágenes con codificación Base64

Alternativamente, la imagen puede codificarse en Base64 y pasarse a la API para el reconocimiento OCR:

import base64
import requests
import os
from mistralai import Mistral
defencode_image(image_path):
"""Encode the image to base64."""
try:
withopen(image_path,"rb")as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
except FileNotFoundError:
print(f"Error: The file {image_path} was not found.")
returnNone
except Exception as e:# Added general exception handling
print(f"Error: {e}")
returnNone
# Path to your image
image_path ="path_to_your_image.jpg"
# Getting the base64 string
base64_image = encode_image(image_path)
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":f"data:image/jpeg;base64,{base64_image}"
}
)

Función de comprensión de documentos

La función de comprensión de documentos de Mistral OCR es una aplicación innovadora que integra en profundidad la potente tecnología OCR con el modelado de grandes lenguajes (LLM). Ofrece a los usuarios la posibilidad de interactuar con el contenido de los documentos en lenguaje natural, lo que les permite extraer información y conocimientos de los documentos de forma eficaz mediante preguntas en lenguaje natural.

El flujo de trabajo para la comprensión de documentos consta de dos pasos principales::

tratamiento de ficherosEn primer lugar, los documentos no estructurados se convierten a un formato legible por máquina extrayendo del documento información sobre el texto, la estructura y el formato mediante tecnología OCR.
comprensión del modelo lingüísticoA continuación, el modelo lingüístico a gran escala proporciona un análisis y una comprensión en profundidad del contenido del documento extraído. Los usuarios pueden formular preguntas o peticiones de información en lenguaje natural, y el modelo entiende el contexto y las asociaciones intrínsecas del documento y da respuestas precisas basadas en el contenido del documento.

Competencias clave para la comprensión de documentos::

Preguntas y respuestas basadas en el contenido del documentoCapacidad para responder a preguntas en lenguaje natural sobre el contenido específico de un documento.
Extracción y resumen de información: Extraiga la información clave de los documentos y genere resúmenes concisos.
Análisis y comprensión de documentosFunciones: Analizar en profundidad el contenido de los documentos para descubrir ideas y conocimientos potenciales.
Consulta y comparación de documentos múltiples: Soporte para la consulta de información y la comparación de contenidos entre varios documentos.
Respuestas adaptadas al contexto: Ser capaz de dar respuestas más precisas y pertinentes, teniendo en cuenta toda la información contextual del documento.

Escenarios típicos de aplicación para la comprensión de documentos::

Análisis de artículos científicos y documentación técnica: Analice y comprenda rápidamente grandes volúmenes de artículos científicos y documentos técnicos.
Extracción de información de documentos comerciales: Extraiga eficazmente la información clave de documentos como contratos comerciales e informes.
Documentación jurídica y tramitación de contratosFunciones: Asistir en el tratamiento y análisis de documentos jurídicos complejos y cláusulas contractuales.
Creación de aplicaciones de cuestionarios sobre documentosDesarrollo de un sistema inteligente de preguntas y respuestas sobre documentos para mejorar la eficacia de la recuperación de información.
Flujo de trabajo documental automatizado: Automatice diversos flujos de trabajo basados en documentos, como la revisión de documentos y la introducción de información.

El siguiente ejemplo de código muestra cómo utilizar el lenguaje natural para interactuar con un documento PDF y preguntar cuál es la última frase del documento:

import os
from mistralai import Mistral
# Retrieve the API key from environment variables
api_key = os.environ["MISTRAL_API_KEY"]
# Specify model
model ="mistral-small-latest"
# Initialize the Mistral client
client = Mistral(api_key=api_key)
# Define the messages for the chat
messages =[
{
"role":"user",
"content":[
{
"type":"text",
"text":"what is the last sentence in the document"
},
{
"type":"document_url",
"document_url":"https://arxiv.org/pdf/1805.04770"
}
]
}
]
# Get the chat response
chat_response = client.chat.complete(
model=model,
messages=messages
)
# Print the content of the response
print(chat_response.choices[0].message.content)
# Output:
# The last sentence in the document is:\n\n\"Zaremba, W., Sutskever, I., and Vinyals, O. Recurrent neural network regularization. arXiv:1409.2329, 2014.

Casos de aplicación

Las potentes capacidades de comprensión de documentos de Mistral OCR están liberando un enorme valor en aplicaciones del mundo real en una amplia gama de industrias, ayudando a empresas y organizaciones a transformar cantidades masivas de datos de documentos en conocimientos y soluciones procesables. Actualmente, Mistral OCR ha logrado resultados significativos en las siguientes áreas clave:

Transformación digital de la investigaciónMistral OCR: Numerosas organizaciones de investigación de primer nivel han empezado a experimentar con Mistral OCR para convertir grandes volúmenes de artículos científicos y revistas académicas en formatos de datos compatibles con la IA, lo que permite un acceso sin problemas a una amplia gama de motores de análisis inteligentes posteriores. Esto ha facilitado en gran medida la eficiencia de la colaboración en la investigación y ha acelerado significativamente los flujos de trabajo de investigación.

Conservación y transmisión digital del patrimonio culturalMuchos organismos de conservación del patrimonio cultural y organizaciones sin ánimo de lucro están adoptando activamente la tecnología Mistral OCR para digitalizar valiosos documentos y artefactos históricos con vistas a su conservación permanente y a una mayor difusión e intercambio del patrimonio cultural.

Mejora inteligente del servicio al clienteEl departamento de atención al cliente también está explorando activamente la aplicación de Mistral OCR, intentando transformar la complicada documentación de los productos y los manuales de usuario en una base de conocimientos estructurada e indexable, reduciendo así significativamente el tiempo de respuesta al cliente y mejorando la calidad del servicio y la satisfacción de los usuarios.

La inteligencia artificial al servicio de la literatura en todos los sectoresMistral OCR ayuda a las empresas de una amplia gama de sectores a convertir grandes volúmenes de documentos técnicos, planos de ingeniería, notas, presentaciones, documentos normativos, etc. en formatos indexables y recuperables compatibles con la inteligencia artificial que aprovechan los conocimientos y la inteligencia integrados en los documentos para mejorar la productividad de la organización.

Experimente hoy mismo la potencia de Mistral OCR.

¡Experimente la potencia de Mistral OCR hoy mismo! Los usuarios pueden experimentar las capacidades de comprensión de documentos de Mistral OCR de forma gratuita visitando la plataforma Le Chat. Para obtener una versión API, visite La Plateforme. El equipo de Mistral AI espera recibir valiosos comentarios de los usuarios y continuará optimizando e iterando sobre el modelo Mistral OCR para mejorar su rendimiento. Como parte del programa de asociación estratégica, Mistral AI también ofrece una opción de despliegue local para usuarios seleccionados.

Más recursos

Para obtener más información sobre cómo utilizar Mistral OCR y consejos avanzados, consulte los siguientes recursos:

Manual de uso de herramientas y comprensión de documentos: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/document_understanding.ipynb
Libro de recetas de OCR por lotes: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/batch_ocr.ipynb
Libro de recetas de OCR estructurado: https://colab.research.google.com/github/mistralai/cookbook/blob/main/mistral/ocr/structured_ocr.ipynb

Estos libros de recetas proporcionan ejemplos de código detallados y guías prácticas para ayudar a los desarrolladores a comprender y aplicar mejor las funciones de Mistral OCR.