光学式文字認識

全27記事

順番に並べる

VOP: 複雑な図や数式を抽出するOCRツール

包括的な紹介 Versatile OCR Programは、複雑な学術文書や教育文書を扱うために設計されたオープンソースの光学式文字認識（OCR）ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、OCRファイルを生成することができます。

1年前

053.9K

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

総合紹介 PDF文書のレイアウトを自動的に分析し、ページ内のテキスト、タイトル、画像、表、数式、その他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します。

1年前

061.1K

RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデル

一般的な紹介 RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識（OCR）ツールで、Qwen2.5-VL-7B視覚言語モデルをベースにしています。類似のツールよりも高速に画像やPDFファイルからテキストを抽出することができます...

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

1年前

066K

uniOCR: クロスプラットフォームのオープンソーステキスト認識ツール

概論 uniOCRはmediar-aiチームによって開発されたオープンソースのテキスト認識ツールです。Rust言語に基づいており、macOS、Windows、Linuxシステムをサポートしています。画像からテキストを抽出することができます。

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

1年前

082.9K

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール

一般的な紹介 PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースツールです。このツールはoomol-labによって開発され、電子書籍を整理したいユーザのためにGitHubでホストされています。このツールは、以下の方法で動作します。

1年前

084.4K

SmolDocling：少量で効率的な文書処理のための視覚言語モデル

包括的な紹介 SmolDoclingは、ds4sdチームがIBMと共同で開発したビジュアル言語モデル（VLM）で、SmolVLM-256Mをベースに構築され、Hugging Faceプラットフォームでホストされています。サイズは小さく、わずか ...

1年前

053.7K

ミストラルOCR：94.89%総合精度、1000ページ/30秒、わずか1ドル

人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会の進歩に大きく貢献してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識普及のパラダイムは大きく広がってきた。

1年前

061.5K

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識（OCR）ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなストリー...

1年前

0107.8K

STranslate：複数の翻訳インターフェースとOCR機能を備えた軽量翻訳ツール

一般的な紹介 STranslateは、WPFによって開発されたすぐに使用できる翻訳とOCRツールです。このツールは、幅広い言語とテキストタイプに対して、効率的で便利な翻訳と光学式文字認識（OCR）機能を提供するように設計されています。

最新のAIリソース # AI翻訳 # OCR

1年前

063.4K

VisionParser：領収書や請求書を高精度に処理するOCRツール、APIあり

概要 VisionParserは、領収書や請求書を処理するために設計されたOCR（光学式文字認識）ツールです。高度な生成AI技術により、VisionParserはあらゆる種類の領収書や請求書を迅速かつ正確に構造化されたデータに変換することができます。

最新のAIリソース # OCR

1年前

059.1K

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

概要 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するためのセルフホストAPIです。このプロジェクトはLumina...によって開発されました。

1年前

056.3K

Llama OCR：利用免费Llama 3.2 Vision接口，三行代码将图像转换为Markdown的OCR库

Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。

概要 Llama OCRは、Llama 3.2 VisionをベースにしたOCR（光学式文字認識）ライブラリで、文書をMarkdown形式に変換することができます。このライブラリーはNutlope社によって開発され、Togetherを使用しています。

1年前

063.6K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。

1年前

0110.9K

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）は、ドキュメント・インテリジェンスのための視覚的ガイド付き生成テキストレイアウト事前学習（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）のオープンソースプロジェクトです。

最新のAIリソース # OCR # ドキュメントの抽出とクリーニング

1年前

055.5K

ScreenPipe：24小时收集录屏和操作信息并转换为本地知识库，通过AI助手对话、总结、回顾知识

ScreenPipe：記録された画面や操作情報を24時間収集し、AIアシスタント対話、要約、知識の見直しを通じて、ローカルの知識ベースに変換する

概要 ScreenPipeはmediar-aiによって開発されたAIアシスタントツールで、スクリーンコンテンツの録画、スクリーンショットのキャプチャ、24時間365日の音声の録音に特化しています。rewind.aiとcursor.comを組み合わせたものです。

1年前

068.3K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介テキスト抽出API（text-extract-api）は、さまざまな文書形式（PDF、Word、PPTXなど）からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識（OCR）技術とOl...

1年前

059K

Picture to Excelフリーツール: 写真の複雑な書式を持つ表を効率的に識別し、Excelファイルに変換します。

概要 Picture to Excel Free Toolは、画像からExcelファイルへの表形式データの変換を迅速かつ正確に行う効率的なオンラインツールです。このツールは、JPGやPNGなどの幅広い画像形式をサポートしており、Webページ、iOSアプリ、Androidアプリで使用することができます...

最新のAIリソース # OCR

1年前

080K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab：専用のOCR認識AIモデル、PDF to Markdown（オープンソース/API）

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...

1年前

067.5K

eSearch：多機能クロスプラットフォームOCRツール、統合検索｜翻訳｜検索マップ｜画面録画およびその他の機能

一般的な紹介 eSearchは、xushengfengによって開発されたオープンソースのクロスプラットフォームスクリーンショットツールで、Windows、macOS、Linuxシステムをサポートしています。スクリーンショット、OCR認識、検索、翻訳、マッピングなど様々な機能を統合しています。

最新のAIリソース # OCR

2年前

059.9K

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Suryaは、90以上の言語のテキスト認識をサポートするオープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、あらゆる種類の文書でクラウドサービスに匹敵します。

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

2年前

0122.2K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いている。画像、数式、表、その他の要素を含むマルチモーダルPDFを取り込むことができる。

2年前

0143.4K

PixPin：長尺でダイナミックなスクリーンショット、ネイティブテキスト認識（OCR）内蔵

はじめに PixPin は、ユーザーの生産性を向上させるために設計された、強力なスクリーンショットおよび投稿ツールです。PixPin は、日常的なオフィスでもプロフェッショナルなニーズでも、便利なスクリーンショット、貼り付け、ロングスクリーンショット、テキスト認識（OCR）、ダイナミックスクリーンショット機能を提供します。シンプルなインターフェースと...

最新のAIリソース # OCR

2年前

0113.6K