Pix2Text 概要
Pix2Text(P2T)は、Mathpixを置き換えるために設計されたオープンソースの無料ツールで、画像テキストと数式を認識します。P2Tは、画像からテキスト、表、数式などを認識してLaTeXまたはMarkdown形式に変換し、簡単に編集して使用することができます。
Pix2Text 機能一覧
- 画像テキスト認識:画像内の中国語と英語のテキストを認識し、編集可能なテキストに変換します。
- 数式認識:画像内の数式を認識し、LaTeX表現に変換します。
- テーブル認識:画像内のテーブルを認識し、Markdownフォーマットに変換します。
- PDF変換:PDFファイルの内容をMarkdown形式に変換します。
- 利用無料:1日10,000文字まで。
Pix2Text ヘルプ
インストールと使用
Pix2Text は、ソフトウェアのインストールを必要としないウェブベースのバージョンでご利用いただけます。次のサイトにアクセスするだけです。 Pix2Textウェブサイト をクリックし、認識する必要がある画像またはPDFファイルをアップロードすると、認識結果を得ることができます。
機能 操作の流れ
- ウェブサイトへのアクセスブラウザを開き、次のサイトにアクセスする。 Pix2Textウェブサイト.
- ファイルのアップロードページ上の「ファイルをアップロード」ボタンをクリックし、認識する画像またはPDFファイルを選択します。
- 識別タイプの選択必要に応じて、テキスト、数式または表を認識するように選択します。
- 結果を見る認識開始」ボタンをクリックし、認識結果が表示されるまで数秒待ちます。
- ダウンロード結果認識結果を直接コピーしたり、LaTeXやMarkdownファイルとしてダウンロードすることができます。
詳細機能
- 画像テキスト認識あらゆる種類の文書、書籍、手書きメモ、その他の画像の中国語と英語のテキスト認識をサポートします。
- 数式認識高度な数式検出・認識モデルは、写真内の数式を正確に識別し、LaTeX表現に変換することができ、学術研究や論文作成に便利です。
- フォーム認識画像内の表構造を認識し、文書で使いやすいようにMarkdown形式に変換します。
- PDF変換PDFコンテンツを編集、整理する必要があるユーザーのために、PDFファイルをMarkdown形式に変換します。
- 利用無料Pix2Textは無料で使用でき、1日あたり10,000文字まで認識できるので、個人や小規模のチームに適しています。
ヒントとコツ
- 高画質画像シャープな画像をアップロードすることで、認識精度が向上します。
- セグメント識別長い文書の場合、画像を分割してアップロードして認識させることで、各セグメントを正確に認識させることができます。
- 検査結果認識結果には若干の誤りが含まれる可能性がありますので、ご使用前に必ずご確認ください。
Pix2Text プロジェクトの展開
取り付け
- オープンソースのアドレスhttps://github.com/breezedeus/Pix2Text
- Python環境の準備Python 3.6以上がインストールされていることを確認してください。
- Pix2Textのインストール::
pip install pix2text
多言語テキストを認識する必要がある場合は、以下のコマンドを使用して追加パッケージをインストールしてください:
pip install pix2text[multilingual]
インストールに時間がかかる場合は、AliCloudのインストールソースを使用するなど、国内のインストールソースを指定できます:
pip install pix2text -i https://mirrors.aliyun.com/pypi/simple
利用する
- コマンドラインツール::
- 絵の中の文字を認識する:
pix2text image.jpg
- PDFファイルを認識します:
pix2textドキュメント.pdf
- 絵の中の文字を認識する:
- HTTPサービス::
- HTTPサービスを開始します:
pix2textサーブ
- HTTPリクエストで画像を認識する:
curl -F "file=@image.jpg" http://localhost:5000/ocr
- HTTPサービスを開始します:
- ウェブ版の利用::
- Pix2Textオンライン版ウェブサイトにアクセスし、画像を指定されたエリアにドラッグ&ドロップすると、認識結果が表示されます。
典型例
- 画像テキスト認識入力画像: !例 出力テキスト:
これはサンプルテキストです。
- 数式認識入力画像: !例 出力式:
$$E=mc^2$$
- フォーム認識入力画像: !例 出力テーブル:
| ヘッダー1 |---------|---------| | データ1