AI Personal Learning
und praktische Anleitung

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

Allgemeine Einführung

E2M(Everything to Markdown)是一个开源的Python库,旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、url、pdf、ppt、pptx、mp3和m4a在内的多种文件类型。E2M采用解析器-转换器架构,能够高效地解析和转换文件内容,提供灵活的配置选项,适用于数据检索增强生成(RAG)和模型训练或微调。E2M的目标是为用户提供高质量的数据转换服务,简化文档格式统一的过程。每种格式有专门的解析器和转换器,用Parser解析器从文件中提取文本和图像,用Converter转换器把提取的内容转为Markdown。

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一-1


 

Funktionsliste

  • Dateiparsing:支持多种文件类型的解析,包括文本和图像数据。
  • Formatkonvertierung:将解析后的数据转换为Markdown格式。
  • 多种解析器和转换器:支持不同引擎和策略的解析器和转换器。
  • 开源和灵活配置:提供开源代码和灵活的配置选项,用户可以根据需求进行定制。
  • API服务:提供API服务,方便集成到其他应用中。

 

Hilfe verwenden

Ablauf der Installation

  1. 创建环境::
   conda create -n e2m python=3.10
conda activate e2m
  1. 更新pip::
   pip install --upgrade pip
  1. 安装E2M::
    • 通过git安装(推荐): bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • 通过pip安装: bash
      pip install --upgrade wisup_e2m
    • Manuelle Installation: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

Verwendung

  1. 启动API服务::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. 访问API文档: Öffnen Sie Ihren Browser und besuchen Siehttp://127.0.0.1:8000/docs,查看API文档和使用示例。

Hauptfunktionen

  1. 文件解析和转换::
    • 使用解析器解析文件内容:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • 使用转换器将解析后的内容转换为Markdown格式:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. Benutzerdefinierte Konfiguration::
    • 修改配置文件config.yaml,根据需求调整解析器和转换器的参数:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. 集成到其他应用::
    • 使用API服务将E2M集成到其他应用中,发送HTTP请求进行文件解析和转换: python
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)