Mistral OCR: 94,89% общая точность, 1000 страниц/30 секунд, всего $1

Последние ресурсы по искусственному интеллектуОбновлено 1 год назад Круг обмена ИИ

За долгую историю человеческой цивилизации каждый скачок в способах получения и анализа информации вносил глубокий вклад в социальный прогресс. От древних иероглифов до переносного папируса, от появления печатного станка до сегодняшней волны оцифровки - каждая технологическая инновация значительно расширяла сферу распространения человеческих знаний и глубину их применения, и, в свою очередь, становилась благодатной почвой для нового витка инноваций.

Сегодня мы находимся на переломном этапе, когда открываются беспрецедентные возможности для раскрытия потенциала огромного количества оцифрованной информации. Согласно отраслевым данным, около 90% организационных данных все еще хранятся в виде документов, что содержит огромное количество информации, которую еще предстоит использовать. Для того чтобы разблокировать эти "спящие" информационные активы, компания Mistral AI запустила программу Mistral OCRЭто оптический Персонаж API оптического распознавания символов (Optical Character Recognition), его появление ознаменовало выход технологии понимания документов на новый уровень.

Основные преимущества Mistral OCR

Мистраль OCR - это не просто простой инструмент для распознавания текста, это революция в понимании документов. По сравнению с другими моделями OCR, представленными на рынке, Mistral OCR обладает большей осведомленностью о документах и точностью и способен понять каждый компонент документа - будь то изображение, текст, таблица или математическая формула - Mistral OCR с легкостью справится с этим. Пользователи просто загружают изображение или PDF-документ, и структурированное содержимое быстро извлекается и представляется в графическом и организованном виде.

В целом, Mistral OCR обладает рядом ключевых преимуществ:

Отличное понимание сложных документов: Точный разбор документов со смешанной графикой, сложными математическими формулами, таблицами и расширенными форматами, такими как LaTeX.
Встроенная многоязыковая и многомодальная поддержка: Born с возможностью обработки многоязычных и многомодальных документов без дополнительной настройки.
Отличные показатели эффективности: Mistral OCR занял первое место в ряде авторитетных рейтингов.
Молниеносная обработка: Mistral OCR обладает самой высокой скоростью обработки среди всех продуктов OCR в своем классе.
Инновационная модель "Документ как запрос" со структурированными результатами: Поддерживает весь документ в качестве команды Prompt и может выводить результаты с высокой структурированностью данных.
Гибкие и опциональные решения для самостоятельного размещенияMistral OCR предлагает опциональные возможности самостоятельного развертывания для предприятий, которым требуется максимальная безопасность данных.

Благодаря этим значительным преимуществам Mistral OCR является идеальным решением для создания RAG Mistral OCR идеально подходит для использования в системах Retrieval-Augmented Generation (RAG), особенно при работе с мультимодальными документами, насыщенными информацией, такими как слайды, сложные PDF-файлы и т. д. В настоящее время Mistral OCR используется в системе Mistral OCR. В настоящее время Mistral OCR Мистраль ИИ Звезда шоу Le Chat Принятие платформы разговорного ИИ, обеспечивающей мощное понимание документов миллионами пользователей. версия api mistral-ocr-latest Теперь они доступны по конкурентоспособной цене - 1 доллар за 1000 страниц, и еще более экономичны при использовании модели пакетного вывода. Разработчики могут сразу же приступить к работе через платформу Mistral AI Developer Platform. La Plateforme Оцените возможности Mistral OCR. В будущем Mistral OCR будет также более широко внедряться через облачные сервисы и партнерскую сеть Mistral AI, а также поддерживать локальные корпоративные развертывания.

Далее мы проанализируем основные технические преимущества Mistral OCR и расскажем, как быстро начать работу с Mistral OCR через API.

Основные преимущества Mistral OCR

Глубокое понимание сложных документов

Mistral OCR отлично справляется с пониманием сложных документов благодаря усовершенствованной архитектуре модели и стратегии обучения. Mistral OCR способен точно разобрать документы, перемежающиеся графикой, научные работы, содержащие большое количество профессиональных математических формул, сложные таблицы или документы, созданные в сложных системах верстки, таких как LaTeX. Даже в случае с информационно насыщенными научными статьями, которые перемежаются диаграммами, графиками, формулами и изображениями, Mistral OCR способен понять логику и информацию, лежащую в основе документа.

Чтобы пользователи могли более интуитивно оценить возможности Mistral OCR, команда Mistral AI подготовила специальный демонстрационный пример. Они загрузили в Mistral OCR типичный PDF-документ, и модель успешно извлекла из него всю текстовую и графическую информацию и эффективно преобразовала его в файл формата Markdown, идеально сохранив структуру и содержание исходного текста. Заинтересованные разработчики могут посетить Блокнот Colab Испытайте этот процесс на себе.

Для того чтобы более наглядно продемонстрировать эффект разбора документов с помощью Mistral OCR в реальных приложениях, команда Mistral AI также тщательно подготовила ряд PDF-документов и сравнение соответствующих результатов OCR. Пользователи могут свободно переключаться между оригинальным документом и результатом OCR с помощью простых операций со слайдами и интуитивно почувствовать превосходную производительность Mistral OCR при работе с различными сложными документами.

Таблицы + графика

Результаты OCR

формула

Результаты OCR

Хинди (язык)

Результаты OCR

обычный документ

Результаты OCR

Арабский (язык)

Результаты OCR

Превосходная производительность в сравнительных тестах

Чтобы в полной мере оценить уровень производительности Mistral OCR, команда Mistral AI провела серию тщательных сравнительных тестов. Результаты показали, что по ряду ключевых показателей Mistral OCR значительно превосходит другие ведущие модели OCR, представленные на рынке. Особенно следует отметить способность Mistral OCR точно извлекать из документов встроенные изображения, чего нет в других сравниваемых крупномасштабных языковых моделях (LLM). Чтобы обеспечить справедливую оценку, команда Mistral AI также создала внутренний тестовый набор "только текст", который использовался для сравнения моделей друг с другом. Тестовый набор охватывает широкий спектр опубликованных статей и PDF-файлов, размещенных в Интернете, что позволяет получить полное и объективное представление о реальной производительности моделей.

Вот подробные данные о результатах бенчмарка:

моделирование	общая производительность	Распознавание математических формул	Многоязычная поддержка	Распознавание отсканированных документов	Распознавание форм
ИИ для документов Google	83.42	80.29	86.42	92.77	78.16
Azure OCR	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Gemini-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Gemini-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
gpt-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Мистраль OCR 2503	94.89	94.29	89.55	98.96	96.12

Из приведенных выше данных видно, что Mistral OCR добилась значительного лидерства по всем ключевым показателям эффективности, особенно сильные позиции по общей эффективности и признанию форм.

Встроенные возможности многоязычной обработки

С самого начала создания Mistral AI обслуживание глобальных пользователей было важной целью разработки. Поэтому создание мощных возможностей многоязычной обработки было одной из основных стратегий развития продуктов Mistral AI, и Mistral OCR открывает новые возможности в этом отношении, легко разбирая, точно понимая и эффективно транскрибируя тысячи различных текстов, шрифтов и языков, охватывая все языки и культуры всех континентов. Такая превосходная многоязыковая адаптация стратегически важна для транснациональных компаний, работающих с документами из разных языковых регионов, а также для компаний, занимающихся локализацией и обслуживающих местных пользователей на конкретных языковых рынках.

В следующей таблице приведены результаты бенчмаркинга Mistral OCR в задаче создания многоязычных нечетких соответствий:

моделирование	Точность генерации нечеткого соответствия
Google-документ-AI	95.88%
Gemini-2.0-Flash-001	96.53%
Azure OCR	97.31%
Мистраль OCR 2503	99.02%

Данные тестирования показывают, что Mistral OCR также отлично справляется с созданием многоязычных нечетких соответствий, а показатели его работы превосходят аналогичные показатели других основных продуктов OCR, что еще раз подтверждает его мощные возможности по обработке многоязычных данных.

Чтобы оценить производительность Mistral OCR на разных языках, команда Mistral AI также провела более подробные бенчмарки для конкретных языков, и результаты тестов выглядят следующим образом:

многоязычие	Azure OCR	Google Doc AI	Gemini-2.0-Flash-001	Мистраль OCR 2503
Русский (ru)	97.35%	95.56%	96.58%	99.09%
Французский (fr)	97.50%	96.36	97.06%	99.20%
Хинди (хи)	96.45%	95.65	94.99%	97.55%
Китайский (zh)	91.40%	90.89%	91.85%	97.11%
Португальский (pt)	97.96%	96.24	97.25%	99.42%
Немецкий (de)	98.39%	97.09%	97.19	99.51%
Испанский (es)	98.54%	97.52	97.75	99.54%
Турецкий (tr)	95.91%	93.85	94.66%	97.00%
Украинский язык (uk)	97.81%	96.24	96.70%	99.29%
Итальянский (it)	98.31%	97.69	97.68	99.42%
Румынский (ro)	96.45%	95.14	95.88%	98.79%

Судя по результатам теста на подъязыки, Mistral OCR демонстрирует хорошие результаты в точности распознавания различных языков, особенно в распознавании китайского, преимущество Mistral OCR особенно очевидно.

Чрезвычайно высокая скорость обработки документов

Легкая конструкция Mistral OCR в сочетании со стремлением к высочайшей производительности делает его намного быстрее конкурирующих продуктов. В стандартной конфигурации с одним узлом Mistral OCR может обрабатывать до 2000 страниц в минуту. Такая потрясающая скорость обработки документов обеспечивает эффективную работу системы даже в высоконагруженных сценариях применения, требующих обработки больших объемов документов, и поддерживает непрерывное обучение и оптимизацию производительности.

"Документ как предложение" и структурированный вывод

Еще одна инновационная функция Mistral OCR - это "Документ в качестве подсказки" Модели. Эта функция позволяет пользователям напрямую моделировать весь документ в качестве входных данных Prompt для более мощного и точного извлечения информации. Пользователи могут поручить Mistral OCR извлечь из документа определенную информацию и вывести структурированные данные в заданном формате, например JSON. Эти структурированные данные могут быть легко интегрированы с последующими приложениями и рабочими процессами, например, пользователи могут использовать извлеченные данные непосредственно для вызова функций или создания интеллектуальных агентов. Пример ноутбука Это поможет пользователям быстро начать работу с функцией "Документ как подсказка".

Гибкие возможности самостоятельного развертывания

Mistral OCR предлагает вариант самостоятельного развертывания, учитывая тот факт, что некоторые предприятия и организации предъявляют чрезвычайно строгие требования к конфиденциальности и безопасности данных. Те, кто выбирает вариант самостоятельного развертывания, могут развернуть Mistral OCR полностью на собственной инфраструктуре, гарантируя, что все конфиденциальные данные и конфиденциальная информация всегда будут обрабатываться в собственной защищенной и контролируемой среде, отвечающей самым строгим нормативным требованиям и стандартам безопасности данных. Для организаций с самостоятельным развертыванием не стесняйтесь обращаться в Mistral AI за дополнительной информацией.

Начало работы с API Mistral OCR

API Mistral OCR очень прост в использовании, и Mistral AI предоставляет SDK на языках Python и Typescript, а также примеры запросов curl для разработчиков для быстрой интеграции.

Процессор распознавания документов

Основу функциональности Mistral OCR составляет процессор распознавания документов, построенный на базе новейшей модели распознавания Mistral AI mistral-ocr-latest для точного извлечения текста и структурированного содержимого из PDF-документов.

Основные характеристики::

Извлечение структурированного содержимого: При извлечении текстового содержимого исходная структура и иерархические связи документа остаются нетронутыми.
Сохранение информации в форматированном виде: Способность точно распознавать и сохранять широкий спектр форматированной информации в документе, такой как заголовки, абзацы, списки и таблицы.
Вывод в формате Markdown: Результаты представлены в чистом, удобном формате Markdown для вторичного разбора и визуализации.
Обработка сложных макетов: Легко справляйтесь с различными сложными макетами документов, включая многоколоночный текст и набор смешанного содержимого.
Высокоточная, крупномасштабная обработка: Поддержка пакетной обработки больших объемов документов при обеспечении высокой точности распознавания.
Широкая поддержка форматов документов: Поддерживает множество форматов ввода, таких как PDF, изображения и загруженные пользователем документы.

Процессоры OCR документов не только возвращают извлеченный текстовый контент, но и содержат метаданные о структуре документа, что облегчает разработчикам программную обработку распознанного содержимого документа.

OCR документов PDF

Следующий пример кода показывает, как использовать Mistral OCR API для обработки PDF-документов:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url":"https://arxiv.org/pdf/2201.04234"
},
include_image_base64=True
)

Загрузка PDF-документов для OCR

API Mistral OCR также поддерживает загрузку PDF-файлов для обработки OCR.

Загрузка файлов

Сначала PDF-файл нужно загрузить в файловый сервис Mistral AI:

from mistralai import Mistral
import os
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
uploaded_pdf = client.files.upload(
file={
"file_name":"uploaded_file.pdf",
"content":open("uploaded_file.pdf","rb"),
},
purpose="ocr"
)

Поиск документов

После успешной загрузки вы можете получить информацию о загруженном файле:

client.files.retrieve(file_id=uploaded_pdf.id)

id='00edaf84-95b0-45db-8f83-f71138491f23' object='file' size_bytes=3749788 created_at=1741023462 filename='uploaded_file.pdf' purpose='ocr' sample_type='ocr_input' source='upload' deleted=False num_lines=None

Получить URL-адрес подписи

Для безопасного доступа к загруженному файлу можно получить URL-адрес подписи файла:

signed_url = client.files.get_signed_url(file_id=uploaded_pdf.id)

Получение результатов OCR

Наконец, используйте URL-адрес подписи в качестве адреса документа, чтобы получить результат OCR загруженного PDF-файла:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"document_url",
"document_url": signed_url.url,
}
)

Распознавание изображений

API Mistral OCR также поддерживает прямое распознавание изображений.

URL Image OCR

Распознавание OCR может осуществляться непосредственно по URL-адресу изображения:

import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":"https://media-cldnry.s-nbcnews.com/image/upload/t_fit-560w,f_avif,q_auto:eco,dpr_2/rockcms/2023-11/short-quotes-swl-231117-02-33d404.jpg"
}
)

OCR изображений в кодировке Base64

Кроме того, изображение может быть закодировано в Base64 и передано API для распознавания OCR:

import base64
import requests
import os
from mistralai import Mistral
defencode_image(image_path):
"""Encode the image to base64."""
try:
withopen(image_path,"rb")as image_file:
return base64.b64encode(image_file.read()).decode('utf-8')
except FileNotFoundError:
print(f"Error: The file {image_path} was not found.")
returnNone
except Exception as e:# Added general exception handling
print(f"Error: {e}")
returnNone
# Path to your image
image_path ="path_to_your_image.jpg"
# Getting the base64 string
base64_image = encode_image(image_path)
api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type":"image_url",
"image_url":f"data:image/jpeg;base64,{base64_image}"
}
)

Функция понимания документов

Функция понимания документов Mistral OCR - это инновационное приложение, которое глубоко интегрирует мощную технологию OCR с моделированием большого языка (LLM). Оно дает пользователям возможность взаимодействовать с содержимым документов на естественном языке, позволяя эффективно извлекать информацию и выводы из документов с помощью вопросов на естественном языке.

Процесс понимания документа состоит из двух основных этапов::

обработка файлов: Сначала неструктурированные документы преобразуются в машиночитаемый формат путем извлечения из документа информации о тексте, структуре и форматировании с помощью технологии OCR.
понимание языковой моделиПосле этого крупномасштабная языковая модель обеспечивает глубокий анализ и понимание содержимого извлеченного документа. Пользователи могут задавать вопросы или запрашивать информацию на естественном языке, а модель понимает контекст и внутренние ассоциации документа и дает точные ответы на основе его содержания.

Ключевые компетенции для понимания документов::

Вопросы и ответы на основе содержания документа: Уметь отвечать на вопросы на естественном языке о конкретном содержимом документа.
Извлечение и обобщение информации: Извлечение ключевой информации из документов и составление кратких резюме.
Анализ документов и понимание: Проведение глубокого анализа содержания документов с целью выявления потенциальных идей и знаний.
Запрос и сравнение нескольких документов: Поддержка информационных запросов и сравнения содержимого нескольких документов.
Ответы с учетом контекста: Уметь давать более точные и релевантные ответы, учитывая всю контекстуальную информацию документа.

Типичные сценарии применения для понимания документов::

Анализ научных работ и технической документации: Быстрый анализ и понимание больших объемов научных статей и технической документации.
Извлечение информации из бизнес-документов: Эффективное извлечение ключевой информации из документов, таких как деловые контракты и отчеты.
Юридическая документация и оформление договоров: Помощь в обработке и анализе сложных юридических документов и договорных положений.
Создание приложений для викторины по документам: Разработка интеллектуальной вопросно-ответной системы для повышения эффективности поиска информации.
Автоматизированный документооборотАвтоматизация различных рабочих процессов, связанных с документами, таких как проверка документов и ввод информации.

В следующем примере кода показано, как с помощью естественного языка взаимодействовать с PDF-документом и спрашивать, каким является последнее предложение документа:

import os
from mistralai import Mistral
# Retrieve the API key from environment variables
api_key = os.environ["MISTRAL_API_KEY"]
# Specify model
model ="mistral-small-latest"
# Initialize the Mistral client
client = Mistral(api_key=api_key)
# Define the messages for the chat
messages =[
{
"role":"user",
"content":[
{
"type":"text",
"text":"what is the last sentence in the document"
},
{
"type":"document_url",
"document_url":"https://arxiv.org/pdf/1805.04770"
}
]
}
]
# Get the chat response
chat_response = client.chat.complete(
model=model,
messages=messages
)
# Print the content of the response
print(chat_response.choices[0].message.content)
# Output:
# The last sentence in the document is:\n\n\"Zaremba, W., Sutskever, I., and Vinyals, O. Recurrent neural network regularization. arXiv:1409.2329, 2014.

Случаи применения

Мощные возможности Mistral OCR по пониманию документов открывают огромную ценность в реальных приложениях в самых разных отраслях, помогая предприятиям и организациям преобразовывать огромные объемы данных о документах в полезные знания и решения. В настоящее время Mistral OCR достигла значительных результатов в следующих ключевых областях:

Цифровая трансформация исследований: Многие ведущие исследовательские организации начали использовать Mistral OCR для преобразования больших объемов научных работ и академических журналов в удобные для искусственного интеллекта форматы данных, обеспечивающие беспрепятственный доступ к широкому спектру последующих интеллектуальных аналитических систем. Это значительно повысило эффективность совместной работы исследователей и существенно ускорило рабочие процессы.

Сохранение и передача культурного наследия в цифровом формате: Многие организации, занимающиеся сохранением культурного наследия, и некоммерческие организации активно используют технологию Mistral OCR для оцифровки ценных исторических документов и артефактов с целью их постоянного сохранения и более широкого распространения и обмена культурным наследием.

Интеллектуальная модернизация обслуживания клиентов: Отдел обслуживания клиентов также активно изучает возможности применения Mistral OCR, пытаясь превратить сложную документацию по продуктам и руководства пользователя в структурированную, индексируемую базу знаний, что позволит значительно сократить время ответа на запросы клиентов, повысить качество обслуживания и удовлетворенность пользователей.

Использование искусственного интеллекта для создания литературы в различных отраслях: Mistral OCR помогает компаниям из самых разных отраслей промышленности преобразовывать большие объемы технической документации, инженерных чертежей, 강의 заметок, презентаций, нормативных документов и т. д. в индексируемые и восстанавливаемые с помощью искусственного интеллекта форматы, которые позволяют использовать знания и интеллект, заложенные в документах, для повышения производительности организации.

Оцените возможности Mistral OCR уже сегодня!

Оцените возможности Mistral OCR уже сегодня! Пользователи могут бесплатно оценить возможности Mistral OCR по пониманию документов, посетив платформу Le Chat. Для получения версии API посетите La Plateforme. Команда Mistral AI с нетерпением ждет ценных отзывов от пользователей и будет продолжать оптимизировать и совершенствовать модель Mistral OCR для повышения ее производительности. В рамках программы стратегического партнерства Mistral AI также предлагает возможность локального развертывания для избранных пользователей.