E2M: конвертируйте файлы различных форматов в Markdown, легко добивайтесь единообразного форматирования документов
Общее введение
E2M (Everything to Markdown) - это библиотека с открытым исходным кодом на языке Python, предназначенная для преобразования широкого спектра форматов файлов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 и m4a. E2M использует архитектуру парсер-трансформер, которая эффективно анализирует и преобразует содержимое файлов, предоставляя гибкие возможности настройки для расширенного поиска данных (RAG) и обучения или точной настройки модели. Цель E2M - предоставить пользователям высококачественные услуги по преобразованию данных, которые упрощают процесс гармонизации форматов документов. Для каждого формата предусмотрены специальные парсер и конвертер. Парсер Parser используется для извлечения текста и изображений из файла, а конвертер Converter - для преобразования извлеченного содержимого в Markdown.

Список функций
- синтаксический анализ файлов: Поддерживает разбор файлов различных типов, включая текстовые и графические данные.
- преобразование форматов: Преобразуйте разобранные данные в формат Markdown.
- Несколько парсеров и конвертеров: Парсеры и конвертеры, поддерживающие различные движки и стратегии.
- Открытый исходный код и гибкая конфигурация: Предоставляет открытый исходный код и гибкие параметры конфигурации, которые могут быть настроены пользователем.
- API-сервисы: Предоставляет услуги API для легкой интеграции в другие приложения.
Использование помощи
Процесс установки
- Создание среды::
conda create -n e2m python=3.10
conda activate e2m
- Обновить трубопровод::
pip install --upgrade pip
- Установка E2M::
- Установите через git (рекомендуется):
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple - Установка с помощью программы pip:
bash
pip install --upgrade wisup_e2m - Ручная установка:
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
poetry build
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- Установите через git (рекомендуется):
Использование
- Запуск службы API::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- Доступ к документации API: Откройте браузер и посетите
http://127.0.0.1:8000/docs
чтобы ознакомиться с документацией по API и примерами использования.
Основные функции
- Разбор и преобразование файлов::
- Разбирает содержимое файла с помощью парсера:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- Используйте конвертер для преобразования разобранного содержимого в формат Markdown:
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(text_data)
- Пользовательская конфигурация::
- Измените конфигурационный файл
config.yaml
Настройте параметры парсера и конвертера в соответствии с потребностями:
parsers: pdf: engine: 'unstructured' converters: text: engine: 'litellm'
- Измените конфигурационный файл
- Интеграция в другие приложения::
- Интегрируйте E2M в другие приложения с помощью служб API для отправки HTTP-запросов на разбор и преобразование файлов:
python
import requests
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- Интегрируйте E2M в другие приложения с помощью служб API для отправки HTTP-запросов на разбор и преобразование файлов:
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...