光学式文字認識

全27記事
VOP:提取复杂图表与数学公式的OCR工具

VOP: 複雑な図や数式を抽出するOCRツール

包括的な紹介 Versatile OCR Programは、複雑な学術文書や教育文書を扱うために設計されたオープンソースの光学式文字認識(OCR)ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、OCRファイルを生成することができます。
4ヶ月前
01.3K
自动解析PDF内容并提取文字与表格的开源服务

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

総合紹介 PDF文書のレイアウトを自動的に分析し、ページ内のテキスト、タイトル、画像、表、数式、その他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します。
4ヶ月前
0998
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍を整理したいユーザのためにGitHubでホストされています。このツールは、以下の方法で動作します。
5ヶ月前
01.3K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

ミストラルOCR:94.89%総合精度、1000ページ/30秒、わずか1ドル

人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会の進歩に大きく貢献してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識普及のパラダイムは大きく広がってきた。
5ヶ月前
01.2K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...
7ヶ月前
02.8K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。
8ヶ月前
02.6K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

Docling:様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。
8ヶ月前
02.7K
ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)は、ドキュメント・インテリジェンスのための視覚的ガイド付き生成テキストレイアウト事前学習(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)のオープンソースプロジェクトです。
8ヶ月前
01.5K
ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识

ScreenPipe:記録された画面や操作情報を24時間収集し、AIアシスタント対話、要約、知識の見直しを通じて、ローカルの知識ベースに変換する

概要 ScreenPipeはmediar-aiによって開発されたAIアシスタントツールで、スクリーンコンテンツの録画、スクリーンショットのキャプチャ、24時間365日の音声の録音に特化しています。rewind.aiとcursor.comを組み合わせたものです。
9ヶ月前
02.1K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介 テキスト抽出API(text-extract-api)は、さまざまな文書形式(PDF、Word、PPTXなど)からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOl...
7ヶ月前
01.9K
图片转Excel免费工具:高效识别图片中复杂格式的表格并转换为Excel文件

Picture to Excelフリーツール: 写真の複雑な書式を持つ表を効率的に識別し、Excelファイルに変換します。

概要 Picture to Excel Free Toolは、画像からExcelファイルへの表形式データの変換を迅速かつ正確に行う効率的なオンラインツールです。このツールは、JPGやPNGなどの幅広い画像形式をサポートしており、Webページ、iOSアプリ、Androidアプリで使用することができます...
9ヶ月前
01.8K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...
9ヶ月前
01.9K
eSearch:多功能跨平台OCR工具,集成搜索|翻译|搜图|录屏等功能

eSearch:多機能クロスプラットフォームOCRツール、統合検索|翻訳|検索マップ|画面録画およびその他の機能

一般的な紹介 eSearchは、xushengfengによって開発されたオープンソースのクロスプラットフォームスクリーンショットツールで、Windows、macOS、Linuxシステムをサポートしています。スクリーンショット、OCR認識、検索、翻訳、マッピングなど様々な機能を統合しています。
10ヶ月前
01.6K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Suryaは、90以上の言語のテキスト認識をサポートするオープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、あらゆる種類の文書でクラウドサービスに匹敵します。
10ヶ月前
02.5K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いている。画像、数式、表、その他の要素を含むマルチモーダルPDFを取り込むことができる。
10ヶ月前
02.4K
PixPin:长截图和动态截图,内置本地文字识别(OCR)

PixPin:長尺でダイナミックなスクリーンショット、ネイティブテキスト認識(OCR)内蔵

はじめに PixPin は、ユーザーの生産性を向上させるために設計された、強力な スクリーンショットおよび投稿ツールです。PixPin は、日常的なオフィスでもプロフェッショナルなニーズでも、便利なスクリーンショット、貼り付け、ロングスクリーンショット、テキスト認識(OCR)、ダイナミックスクリーンショット機能を提供します。シンプルなインターフェースと...
11ヶ月前
02.1K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

包括的な紹介 GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識(OCR)モデルです。このモデルは、通常のテキスト認識、gr...
11ヶ月前
02K