AIパーソナル・ラーニング
と実践的なガイダンス

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

はじめに

E2M(Everything to Markdown)是一个开源的Python库,旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3和m4a在内的多种文件类型。E2M采用解析器-转换器架构,能够高效地解析和转换文件内容,提供灵活的配置选项,适用于数据检索增强生成(RAG)和模型训练或微调。E2M的目标是为用户提供高质量的数据转换服务,简化文档格式统一的过程。每种格式有专门的解析器和转换器,用Parser解析器从文件中提取文本和图像,用Converter转换器把提取的内容转为Markdown。

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一-1


 

機能一覧

  • ファイルパース:支持多种文件类型的解析,包括文本和图像数据。
  • フォーマット変換:将解析后的数据转换为Markdown格式。
  • 多种解析器和转换器:支持不同引擎和策略的解析器和转换器。
  • 开源和灵活配置:提供开源代码和灵活的配置选项,用户可以根据需求进行定制。
  • API服务:提供API服务,方便集成到其他应用中。

 

ヘルプの使用

設置プロセス

  1. 创建环境::
   conda create -n e2m python=3.10
conda activate e2m
  1. 更新pip::
   pip install --upgrade pip
  1. 安装E2M::
    • 通过git安装(推荐): バッシュ
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • 通过pip安装: バッシュ
      pip install --upgrade wisup_e2m
    • 手動での取り付け: バッシュ
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

使用方法

  1. 启动API服务::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. 访问API文档ブラウザを開き、次のサイトにアクセスする。http://127.0.0.1:8000/docs,查看API文档和使用示例。

主な機能

  1. 文件解析和转换::
    • 使用解析器解析文件内容:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • 使用转换器将解析后的内容转换为Markdown格式:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. カスタム設定::
    • 修改配置文件config.yaml,根据需求调整解析器和转换器的参数:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. 集成到其他应用::
    • 使用API服务将E2M集成到其他应用中,发送HTTP请求进行文件解析和转换: パイソン
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語