AIパーソナル・ラーニング
と実践的なガイダンス

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

はじめに

E2M (Everything to Markdown)は、様々なファイル形式をMarkdown形式に変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3、m4aを含む幅広いファイルタイプをサポートしています。 E2Mは、ファイルコンテンツを効率的に解析・変換するパーサ・トランスフォーマ・アーキテクチャを採用しており、データ検索拡張生成(RAG)やモデルの学習・微調整のための柔軟な設定オプションを提供します。E2Mの目標は、文書フォーマットの調和プロセスを簡素化する高品質のデータ変換サービスをユーザーに提供することです。各フォーマットには専用のパーサーとコンバーターがあり、パーサーはファイルからテキストと画像を抽出し、コンバーターは抽出されたコンテンツをMarkdownに変換します。

E2M: 複数のファイル形式をMarkdownに変換し、ドキュメントの書式を簡単に統一-1


 

機能一覧

  • ファイルパーステキストや画像データを含む複数のファイルタイプの解析をサポート。
  • フォーマット変換パースされたデータをMarkdown形式に変換します。
  • 複数のパーサーとコンバーター異なるエンジンと戦略をサポートするパーサーとコンバーター。
  • オープンソースで柔軟な構成オープンソースコードと、ユーザーがカスタマイズできる柔軟な設定オプションを提供します。
  • APIサービス他のアプリケーションに簡単に統合できるAPIサービスを提供します。

 

ヘルプの使用

設置プロセス

  1. 環境づくり::
   conda create -n e2m python=3.10
conda e2m をアクティブにする
  1. アップデート・パイプ::
   pip install --upgrade pip
  1. E2Mの設置::
    • git経由でインストールする(推奨): バッシュ
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • pipによるインストール: バッシュ
      pip install --upgrade wisup_e2m
    • 手動での取り付け: バッシュ
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install 詩
      ポエトリー・ビルド
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

使用方法

  1. APIサービスの開始::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. APIドキュメントへのアクセスブラウザを開き、次のサイトにアクセスする。http://127.0.0.1:8000/docsをクリックして、APIのドキュメントと使用例をご覧ください。

主な機能

  1. ファイルの解析と変換::
    • パーサーを使ってファイルの内容を解析する:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • パースされたコンテンツをMarkdownフォーマットに変換するには、コンバーターを使用します:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(テキストデータ)
    
  2. カスタム設定::
    • 設定ファイルの修正config.yamlパーサーとコンバーターのパラメーターは必要に応じて調整してください:
     パーサー
    pdfの
    エンジン: 'unstructured'
    コンバータ。
    text: エンジン: 'litellm'
    エンジン: 'litellm'
    
  3. 他のアプリケーションへの統合::
    • APIサービスを使用してE2Mを他のアプリケーションに統合し、ファイルの解析と変換のためのHTTPリクエストを送信します: パイソン
      輸入リクエスト
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
無断転載を禁じます:チーフAIシェアリングサークル " E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語