はじめに
Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。Suryaモデルは、90以上の言語のOCRをサポートし、さまざまな言語のテキスト行を検出し、文書内の見出し、画像、数式などのレイアウトブロックを認識します。Texifyモデルは、OCRによって認識された数式をLaTeX形式に変換します。Texifyモデルは、OCRによって認識された数式をLaTeX形式に変換します。ユーザーは、これらのツールを自分の環境で安全に使用することができます。
審議中 データ・オープンソース分析プロジェクト マーカー とsuryaオープンソースの作者がフォームの検出と抽出を行っている。
機能一覧
- マーカー表や数式を含め、素早く正確にPDFをMarkdownに変換します。
- スーリヤ90以上の言語に対応し、テキストの行を検出し、ドキュメントのレイアウトブロックを認識します。
- テキファイOCRで認識された数式をLaTeX形式に変換します。
- 安全な使用:: ユーザーは、それぞれの環境でこれらのツールを安全に使用することができます。
ヘルプの使用
マーカー
- 取り付けMarker モデルに関連する依存関係をダウンロードしてインストールします。
- 利用するPDFファイルをMarkerにアップロードし、変換ボタンをクリックして数秒待つと、Markdown形式のファイルが表示されます。
- ほら変換精度を向上させるために、PDFファイルがクリアであることを確認する。
スーリヤ
- 取り付けスーリヤ・モデルに関連する依存関係をダウンロードしてインストールする。
- 利用するOCRする文書をアップロードし、言語を選択し、[開始]ボタンをクリックして、OCR結果を待ちます。
- 官能性多言語OCR、テキスト行検出、文書レイアウト認識をサポート。
- ほら複雑な文書では、認識精度を向上させるためにセグメンテーションを行うことが推奨される。
テキファイ
- 取り付けTexify モデルに関連する依存関係をダウンロードしてインストールします。
- 利用する数式を含む文書をアップロードし、変換ボタンをクリックして数秒待つと、LaTeX形式の数式が表示されます。
- ほら:: 変換精度を高めるため、数式を明確にする。