AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜
全22記事

タグ: OCR

SmolDocling:小体积高效处理文档的视觉语言模型-首席AI分享圈

SmolDocling:少量で効率的な文書処理のための視覚言語モデル

SmolDoclingは、ds4sdチームがIBMと共同で開発したビジュアル言語モデル(VLM)で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、SmolVLM-256Mをベースにした視覚言語モデル(VLM)で、Hugging Faceプラットフォーム上でホストされています。 パラメータが256Mしかない世界最小のVLMで、その中核機能は...

Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元-首席AI分享圈

ミストラルOCR:94.89%総合精度、1000ページ/30秒、わずか1ドル

人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会は大きく発展してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識の伝達は大きく拡大してきた。

Ollama OCR:使用Ollama中视觉模型提取图像中的文本-首席AI分享圈

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

包括的な紹介 Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを使用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトは、Pythonパッケージとして利用できるほか、ユーザーフレンドリーなStreamlitウェブ・アプリケーション・インターフェースを提供しています。このツールキットは複数の...

VisionParser:高精度处理收据和发票的OCR工具,提供API-首席AI分享圈

VisionParser:領収書や請求書を高精度に処理するOCRツール、APIあり

概要 VisionParserは、領収書や請求書を処理するために設計されたOCR(光学式文字認識)ツールです。高度な生成AI技術により、VisionParserはあらゆる種類の領収書や請求書を、小売、飲食、B2Bサービスなどの幅広い業界の構造化データに迅速かつ正確に変換することができます。

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

包括的な紹介 Chunkrは、PDF、PPTX、DOCX、ExcelファイルをRAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、ドキュメントの取り込みに高度なビジュアルモデルを使用しています。

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-首席AI分享圈

Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。

一般的な紹介 Llama OCRは、Llama 3.2 VisionをベースにしたOCR(光学式文字認識)ライブラリで、文書をMarkdown形式に変換します。Nutlopeによって開発されたこのライブラリーは、Together AIによって提供される無料のLlama 3.2インターフェースを使用し、画像を解析してMarkdown...

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する

包括的な紹介 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)は、視覚的にガイドされた生成的なテキストレイアウトの事前学習モデルを通じて、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。このプロジェクトはVeason-silverbul...によって開発されました。

ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识-首席AI分享圈

ScreenPipe:記録された画面や操作情報を24時間収集し、AIアシスタント対話、要約、知識の見直しを通じて、ローカルの知識ベースに変換する

概要 ScreenPipeはmediar-aiが開発したAIアシスタントで、24時間365日、スクリーンコンテンツの録画、スクリーンショットのキャプチャ、音声の録音に特化している。

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

概要 テキスト抽出API(text-extract-api)は、様々な文書形式(PDF、Word、PPTXなど)からコンテンツを抽出・解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOllamaがサポートするモデルを利用し、あらゆる文書や画像を...

图片转Excel免费工具:高效识别图片中复杂格式的表格并转换为Excel文件-首席AI分享圈

Picture to Excelフリーツール: 写真の複雑な書式を持つ表を効率的に識別し、Excelファイルに変換します。

概要 Picture to Excel Free Toolは、画像からExcelファイルへの表形式データの変換を迅速かつ正確に行うことができる効率的なオンラインツールです。このツールは、JPGやPNGなどの幅広い画像形式をサポートしており、Webページ、iOSアプリ、Androidアプリで使用することができます。高度なAI技術により...

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のMarkerモデルは、表を含むPDFを素早く正確にMarkdownに変換することができます...

eSearch:多功能跨平台OCR工具,集成搜索|翻译|搜图|录屏等功能-首席AI分享圈

eSearch:多機能クロスプラットフォームOCRツール、統合検索|翻訳|検索マップ|画面録画およびその他の機能

一般的な紹介 eSearchはxushengfengによって開発されたオープンソースのクロスプラットフォームスクリーンショットツールで、Windows、macOS、Linuxをサポートしています。eSearchは、OCR認識、検索、翻訳、貼り付け、画像検索、画面録画を含む様々な機能を統合しています。eSearchはスクリーンショット、OCR認識、検索、翻訳、マッピング、画像検索、画面録画を含む様々な機能を統合している。

Surya:专业多语言文档OCR工具,开源本地部署-首席AI分享圈

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Surya は、90 以上の言語のテキスト認識をサポートするオープンソースの多言語文書 OCR ツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、ページ、テキスト、画像、テキスト、文字列など、さまざまな種類の文書でクラウドサービスに匹敵します。

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いています。画像、数式、表、その他の要素を含むマルチモーダルPDFドキュメントを、分析しやすいm...

PixPin:长截图和动态截图,内置本地文字识别(OCR)-首席AI分享圈

PixPin:長尺でダイナミックなスクリーンショット、ネイティブテキスト認識(OCR)内蔵

はじめに PixPin は、ユーザーの生産性を向上させるために設計された、強力な スクリーンショットおよび投稿ツールです。PixPin は、日常的なオフィスでもプロフェッショナルなニーズでも、便利なスクリーンショット、貼り付け、ロングスクリーンショット、テキスト認識(OCR)、ダイナミックスクリーンショット機能を提供します。シンプルなインターフェースと豊富な機能により、PixPinは...

GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型-首席AI分享圈

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

包括的な紹介 GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同開発オープンソース光学式文字認識(OCR)モデルです。このモデルは、通常のテキスト認識、フォーマットされたテキスト認識、きめ細かなOCR、マルチ...

PaddleOCR: Flying Paddleベースの多言語OCRツールライブラリ。

概要 PaddleOCRはPaddlePaddleをベースとした多言語OCRツールキットで、実用的で超軽量なOCRシステムを提供するように設計されています。80以上の言語の認識をサポートし、サーバー、モバイルデバイス、組み込みデバイス、IoTデバイスをサポートするデータ注釈と合成ツールを提供します。

ja日本語