OCR

Всего 27 статей
расставлять по порядку
VOP:提取复杂图表与数学公式的OCR工具

VOP: инструмент OCR для извлечения сложных диаграмм и математических формул

Всеобъемлющее введение Универсальная программа OCR - это инструмент оптического распознавания символов (OCR) с открытым исходным кодом, предназначенный для работы со сложными академическими и образовательными документами. Она может извлекать текст, таблицы, математические формулы, диаграммы и схемы из PDF-файлов, изображений и других документов и генерировать...
5 месяцев назад
07.4K
自动解析PDF内容并提取文字与表格的开源服务

Автоматический разбор содержимого PDF и извлечение текста и форм из сервисов с открытым исходным кодом

Всеобъемлющее представление Программа автоматически анализирует макет PDF-документов, идентифицирует текст, заголовки, изображения, таблицы, формулы и другие элементы на странице и определяет их правильный порядок. Инструмент поддерживает функцию OCR и может преобразовывать отсканированные PDF-файлы в текст с возможностью поиска. Он работает на платформе Docker и предоставляет две модели...
5 месяцев назад
07.9K
RolmOCR:识别手写和倾斜字符的文档OCR模型

RolmOCR: модель распознавания рукописных и наклонных символов в документах

Общее представление RolmOCR - это инструмент оптического распознавания символов (OCR) с открытым исходным кодом, разработанный командой Reducto AI и основанный на модели визуального языка Qwen2.5-VL-7B. Он может извлекать текст из изображений и PDF-файлов быстрее, чем аналогичные инструменты...
5 месяцев назад
09.8K
uniOCR:跨平台开源的文字识别工具

uniOCR: кроссплатформенный инструмент для распознавания текста с открытым исходным кодом

Общее представление uniOCR - это инструмент для распознавания текста с открытым исходным кодом, разработанный командой mediar-ai. Он основан на языке Rust и поддерживает системы macOS, Windows и Linux. Пользователи могут использовать его для извлечения текста из изображений...
5 месяцев назад
07.8K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: преобразование отсканированных документов PDF в Markdown с открытым исходным кодом

Общее представление PDF Craft - это инструмент с открытым исходным кодом, предназначенный для сканирования PDF-файлов книг и преобразования их в формат Markdown. Он был разработан oomol-lab и размещен на GitHub для пользователей, которым нравится организовывать свои электронные книги. Инструмент работает через ...
5 месяцев назад
09.6K
SmolDocling:小体积高效处理文档的视觉语言模型

SmolDocling: визуальная языковая модель для эффективной обработки документов небольшого объема

Всеобъемлющее введение SmolDocling - это визуальная модель языка (VLM), разработанная командой ds4sd в сотрудничестве с IBM, построенная на SmolVLM-256M и размещенная на платформе Hugging Face. Она имеет небольшой размер, всего ...
5 месяцев назад
07K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% общая точность, 1000 страниц/30 секунд, всего $1

За долгую историю человеческой цивилизации каждый скачок в способах получения и обработки информации вносил глубокий вклад в социальный прогресс. От древних иероглифов до переносного папируса, а затем появления печатного станка и сегодняшней цифровой волны - каждая технологическая инновация значительно расширяла парадигму распространения человеческих знаний...
6 месяцев назад
09.9K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: извлечение текста из изображений с помощью визуальных моделей в Ollama

Введение Ollama OCR - это мощный набор инструментов для оптического распознавания символов (OCR), который использует современную визуальную языковую модель, предоставляемую платформой Ollama, для извлечения текста из изображений. Проект доступен как в виде пакета на языке Python, так и в виде удобного Strea...
8 месяцев назад
013.2K
STranslate:集成多种翻译接口和OCR功能的轻便翻译工具

STranslate: легкий инструмент перевода с несколькими интерфейсами перевода и функцией OCR

Общее представление STranslate - это готовый к использованию инструмент перевода и OCR, разработанный компанией WPF. Инструмент предназначен для обеспечения эффективного и удобного перевода и оптического распознавания символов (OCR) для широкого спектра языков и типов текста.STranslate является открытым...
8 месяцев назад
09K
VisionParser:高精度处理收据和发票的OCR工具,提供API

VisionParser: OCR-инструмент для высокоточной обработки квитанций и счетов-фактур, доступен API

Общее описание VisionParser - это инструмент OCR (оптического распознавания символов), предназначенный для обработки квитанций и счетов-фактур. Благодаря передовой технологии генеративного искусственного интеллекта VisionParser способен быстро и точно преобразовывать все виды квитанций и счетов в структурированные данные для...
8 месяцев назад
08.4K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: универсальный сервис, использующий визуальные модели для сбора документов и интеллектуальной группировки на основе иерархии абзацев текста.

Общее введение Chunkr - это самостоятельный API, предназначенный для преобразования файлов PDF, PPTX, DOCX и Excel в данные, пригодные для использования в RAG (Retrieval Augmented Generation) и LLM (Large Language Modelling). Проект был разработан компанией Lumina...
9 месяцев назад
010.3K
Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库

Llama OCR: библиотека OCR, которая конвертирует изображения в Markdown в три строки кода, используя бесплатный интерфейс Llama 3.2 Vision.

Общее представление Llama OCR - это библиотека OCR (Optical Character Recognition), основанная на Llama 3.2 Vision, способная конвертировать документы в формат Markdown. Библиотека была разработана компанией Nutlope и использует Together...
9 месяцев назад
09.2K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Docling: поддержка различных форматов, разбор и экспорт документов в формате Markdown и JSON, поддержка OCR в формате PDF.

Всеобъемлющее представление Docling - это мощный инструмент для разбора и экспорта документов, поддерживающий широкий спектр форматов, включая PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc и Markdown...
9 месяцев назад
012.2K
ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型
ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识

ScreenPipe: круглосуточный сбор записанной экранной и операционной информации и преобразование ее в локальную базу знаний, с помощью ИИ-помощника диалог, резюме, обзор знаний

Общее описание ScreenPipe - это инструмент AI-помощника, разработанный компанией mediar-ai, который ориентирован на запись содержимого экрана, захват скриншотов и аудио 24/7. Он сочетает в себе возможности rewind.ai и cursor.com...
9 месяцев назад
010.4K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API извлечения текста (text-extract-api): визуальное извлечение текстовой информации, инструмент для извлечения анонимных PDF-файлов

Всеобъемлющее введение API извлечения текста (text-extract-api) - это мощный инструмент, предназначенный для извлечения и разбора содержимого из документов различных форматов (например, PDF, Word, PPTX и т. д.). API использует современную технологию оптического распознавания символов (OCR) и Ol...
8 месяцев назад
08.4K
图片转Excel免费工具:高效识别图片中复杂格式的表格并转换为Excel文件

Picture to Excel Free Tool: эффективное определение таблиц со сложным форматированием на фотографиях и преобразование их в файлы Excel

Общее описание Picture to Excel Free Tool - это эффективный онлайн-инструмент для быстрого и точного определения и преобразования табличных данных из изображений в файлы Excel. Инструмент поддерживает широкий спектр форматов изображений, таких как JPG и PNG, и может использоваться на веб-страницах, в приложениях для iOS и Android...
10 месяцев назад
08.1K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: специализированная модель ИИ для распознавания OCR, преобразование PDF в Markdown (открытый исходный код/API).

Всеобъемлющее представление Datalab предлагает ряд продвинутых моделей искусственного интеллекта, ориентированных на OCR, анализ макетов, преобразование PDF в Markdown и многое другое. Эти модели не только высокопроизводительны, но и просты в использовании и имеют открытый исходный код. Модели Marker на платформе могут быстро и точно...
10 месяцев назад
010.3K
eSearch:多功能跨平台OCR工具,集成搜索|翻译|搜图|录屏等功能

eSearch: многофункциональный кросс-платформенный инструмент OCR, интегрированный поиск | перевод | карта поиска | запись экрана и другие функции.

Общее представление eSearch - это кроссплатформенный инструмент для создания скриншотов с открытым исходным кодом, разработанный xushengfeng, который поддерживает системы Windows, macOS и Linux. Он объединяет в себе множество функций, включая создание скриншотов, распознавание OCR, поиск, перевод, отображение...
10 месяцев назад
07.6K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: Профессиональный многоязычный инструмент для распознавания документов, нативное развертывание с открытым исходным кодом

Всеобъемлющее введение Surya - это многоязычный инструментарий OCR документов с открытым исходным кодом, поддерживающий распознавание текста на более чем 90 языках. Он выполняет не только построчное распознавание текста, но и анализ макета, определение порядка чтения и распознавание таблиц.Производительность Surya сопоставима с облачными сервисами для всех типов...
11 месяцев назад
018K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: извлечение и преобразование PDF-документов в мультимодальный формат Markdown, поддержка OCR-сканирования электронных книг

Всеобъемлющее введение MinerU - это инструмент извлечения данных с открытым исходным кодом, разработанный командой OpenDataLab в Шанхайской лаборатории искусственного интеллекта и предназначенный для эффективного извлечения содержимого из сложных PDF-документов, веб-страниц и электронных книг. Он способен извлекать мультимодальные PDF-файлы, содержащие изображения, формулы, таблицы и другие элементы...
11 месяцев назад
017.9K
PixPin:长截图和动态截图,内置本地文字识别(OCR)

PixPin: длинные и динамичные скриншоты, встроенное распознавание нативного текста (OCR)

Общее представление PixPin - это мощный инструмент для создания скриншотов и размещения информации, предназначенный для повышения продуктивности работы пользователей. PixPin обеспечивает удобные функции скриншота, вставки, длинного скриншота, распознавания текста (OCR) и динамического скриншота, как для повседневной работы, так и для профессиональных нужд. Его простой интерфейс и...
11 месяцев назад
011.9K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: Основан на сквозной мультимодальной модели распознавания текста QWen2 0.5B

Всеобъемлющее введение GOT-OCR2.0 - это совместно предложенная StepStar модель оптического распознавания символов (OCR) с открытым исходным кодом, целью которой является продвижение технологии OCR к OCR-2.0 с помощью единой сквозной модели. Модель поддерживает широкий спектр задач OCR, включая распознавание обычного текста, гр...
11 месяцев назад
09.7K
PaddleOCR:基于飞桨的多语言OCR工具库,支持80多种语言识别

PaddleOCR: Многоязычная библиотека инструментов OCR на основе Flying Paddle, поддерживающая распознавание более 80 языков.

Всеобъемлющее введение PaddleOCR - это многоязычный инструментарий OCR, основанный на PaddlePaddle и предназначенный для создания практичной и сверхлегкой системы OCR. Он поддерживает распознавание более 80 языков и предоставляет инструменты аннотирования и синтеза данных для поддержки...
9 месяцев назад
09.1K
Pix2Text:开源免费图片文字识别工具

Pix2Text: бесплатный инструмент для распознавания текста на изображениях с открытым исходным кодом

Pix2Text Общее представление Pix2Text (P2T) - это бесплатный инструмент с открытым исходным кодом, предназначенный для замены Mathpix, обеспечивающий распознавание текста изображений и математических формул. Пользователи могут использовать инструмент бесплатно через веб-версию, распознавая до 10 000 в день...
12 месяцев назад
09.8K
Umi-OCR:开源离线OCR软件,批量图片识别和PDF识别

Umi-OCR: программное обеспечение для автономного распознавания текста с открытым исходным кодом, пакетного распознавания изображений и PDF-файлов

Umi-OCR Общее представление Umi-OCR - это бесплатное автономное программное обеспечение OCR с открытым исходным кодом, поддерживающее создание скриншотов, пакетный импорт изображений, распознавание PDF-документов, исключение водяных знаков, верхних и нижних колонтитулов, сканирование и генерацию QR-кодов. Программа имеет встроенную мультиязычную библиотеку для Windows и Li...
12 месяцев назад
011.5K
TTime:图片你文字识别和文字翻译软件

TTime: программное обеспечение для распознавания и перевода текста

TTime Общее представление TTime - проект, опубликованный InkTimeRecord на GitHub, представляет собой простое и эффективное программное обеспечение для перевода. В основном она предоставляет функции ввода, скриншота, обводки и наведения курсора, поддерживает несколько источников перевода и службу распознавания текста...
1 год назад
08.5K