E2M: конвертируйте файлы различных форматов в Markdown, легко добивайтесь единообразного форматирования документов

Общее введение

E2M (Everything to Markdown) - это библиотека с открытым исходным кодом на языке Python, предназначенная для преобразования широкого спектра форматов файлов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 и m4a. E2M использует архитектуру парсер-трансформер, которая эффективно анализирует и преобразует содержимое файлов, предоставляя гибкие возможности настройки для расширенного поиска данных (RAG) и обучения или точной настройки модели. Цель E2M - предоставить пользователям высококачественные услуги по преобразованию данных, которые упрощают процесс гармонизации форматов документов. Для каждого формата предусмотрены специальные парсер и конвертер. Парсер Parser используется для извлечения текста и изображений из файла, а конвертер Converter - для преобразования извлеченного содержимого в Markdown.

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

 

Список функций

  • синтаксический анализ файлов: Поддерживает разбор файлов различных типов, включая текстовые и графические данные.
  • преобразование форматов: Преобразуйте разобранные данные в формат Markdown.
  • Несколько парсеров и конвертеров: Парсеры и конвертеры, поддерживающие различные движки и стратегии.
  • Открытый исходный код и гибкая конфигурация: Предоставляет открытый исходный код и гибкие параметры конфигурации, которые могут быть настроены пользователем.
  • API-сервисы: Предоставляет услуги API для легкой интеграции в другие приложения.

 

Использование помощи

Процесс установки

  1. Создание среды::
   conda create -n e2m python=3.10
conda activate e2m
  1. Обновить трубопровод::
   pip install --upgrade pip
  1. Установка E2M::
    • Установите через git (рекомендуется): bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • Установка с помощью программы pip: bash
      pip install --upgrade wisup_e2m
    • Ручная установка: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

Использование

  1. Запуск службы API::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. Доступ к документации API: Откройте браузер и посетитеhttp://127.0.0.1:8000/docsчтобы ознакомиться с документацией по API и примерами использования.

Основные функции

  1. Разбор и преобразование файлов::
    • Разбирает содержимое файла с помощью парсера:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • Используйте конвертер для преобразования разобранного содержимого в формат Markdown:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. Пользовательская конфигурация::
    • Измените конфигурационный файлconfig.yamlНастройте параметры парсера и конвертера в соответствии с потребностями:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. Интеграция в другие приложения::
    • Интегрируйте E2M в другие приложения с помощью служб API для отправки HTTP-запросов на разбор и преобразование файлов: python
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...