はじめに
E2M (Everything to Markdown)は、様々なファイル形式をMarkdown形式に変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4aを含む幅広いファイルタイプをサポートしています。 E2Mは、ファイルコンテンツを効率的に解析・変換するパーサ・トランスフォーマ・アーキテクチャを採用しており、データ検索拡張生成(RAG)やモデルの学習・微調整のための柔軟な設定オプションを提供します。E2Mの目標は、文書フォーマットの調和プロセスを簡素化する高品質のデータ変換サービスをユーザーに提供することです。各フォーマットには専用のパーサーとコンバーターがあり、パーサーはファイルからテキストと画像を抽出し、コンバーターは抽出されたコンテンツをMarkdownに変換します。
機能一覧
- ファイルパーステキストや画像データを含む複数のファイルタイプの解析をサポート。
- フォーマット変換パースされたデータをMarkdown形式に変換します。
- 複数のパーサーとコンバーター異なるエンジンと戦略をサポートするパーサーとコンバーター。
- オープンソースで柔軟な構成オープンソースコードと、ユーザーがカスタマイズできる柔軟な設定オプションを提供します。
- APIサービス他のアプリケーションに簡単に統合できるAPIサービスを提供します。
ヘルプの使用
設置プロセス
- 環境づくり::
conda create -n e2m python=3.10
conda e2m をアクティブにする
- アップデート・パイプ::
pip install --upgrade pip
- E2Mの設置::
- git経由でインストールする(推奨):
バッシュ
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
- pipによるインストール:
バッシュ
pip install --upgrade wisup_e2m
- 手動での取り付け:
バッシュ
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install 詩
ポエトリー・ビルド
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- git経由でインストールする(推奨):
使用方法
- APIサービスの開始::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- APIドキュメントへのアクセスブラウザを開き、次のサイトにアクセスする。
http://127.0.0.1:8000/docs
をクリックして、APIのドキュメントと使用例をご覧ください。
主な機能
- ファイルの解析と変換::
- パーサーを使ってファイルの内容を解析する:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- パースされたコンテンツをMarkdownフォーマットに変換するには、コンバーターを使用します:
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(テキストデータ)
- カスタム設定::
- 設定ファイルの修正
config.yaml
パーサーとコンバーターのパラメーターは必要に応じて調整してください:
パーサー pdfの エンジン: 'unstructured' コンバータ。 text: エンジン: 'litellm' エンジン: 'litellm'
- 設定ファイルの修正
- 他のアプリケーションへの統合::
- APIサービスを使用してE2Mを他のアプリケーションに統合し、ファイルの解析と変換のためのHTTPリクエストを送信します:
パイソン
輸入リクエスト
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- APIサービスを使用してE2Mを他のアプリケーションに統合し、ファイルの解析と変換のためのHTTPリクエストを送信します: