E2M: Convierte múltiples formatos de archivo a Markdown, consigue fácilmente un formato de documento uniforme.
Últimos recursos sobre IAPublicado hace 8 meses Círculo de intercambio de inteligencia artificial 2.9K 00
Introducción general
E2M (Everything to Markdown) es una biblioteca Python de código abierto diseñada para convertir una amplia gama de formatos de archivo al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 y m4a. E2M adopta una arquitectura de analizador sintáctico-transformador que analiza y transforma eficientemente el contenido de los archivos, proporcionando opciones de configuración flexibles para la generación mejorada de recuperación de datos (RAG) y la formación o ajuste de modelos. El objetivo de E2M es ofrecer a los usuarios servicios de conversión de datos de alta calidad que simplifiquen el proceso de armonización de formatos de documentos. Cada formato cuenta con un analizador sintáctico y un conversor específicos, que utilizan el analizador sintáctico Parser para extraer el texto y las imágenes del archivo, y el conversor Converter para convertir el contenido extraído a Markdown.

Lista de funciones
- análisis de archivos: Admite el análisis sintáctico de varios tipos de archivos, incluidos datos de texto e imágenes.
- conversión de formatoConvierte los datos analizados en formato Markdown.
- Múltiples analizadores sintácticos y conversores: Parsers y convertidores que admiten diferentes motores y estrategias.
- Código abierto y configuración flexible: Proporciona código fuente abierto y opciones de configuración flexibles que el usuario puede personalizar.
- Servicios API: Proporciona servicios API para facilitar la integración en otras aplicaciones.
Utilizar la ayuda
Proceso de instalación
- Creación del entorno::
conda create -n e2m python=3.10
conda activate e2m
- Actualizar pip::
pip install --upgrade pip
- Instalación de E2M::
- Instalar a través de git (recomendado):
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple - Instalación mediante pip:
bash
pip install --upgrade wisup_e2m - Instalación manual:
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
poetry build
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- Instalar a través de git (recomendado):
Utilización
- Iniciar el servicio API::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- Acceso a la documentación de la APIAbre tu navegador y visita
http://127.0.0.1:8000/docs
para ver la documentación de la API y ejemplos de uso.
Funciones principales
- Análisis sintáctico y conversión de archivos::
- Analiza el contenido del archivo utilizando un analizador sintáctico:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- Utilice un conversor para convertir el contenido analizado al formato Markdown:
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(text_data)
- Configuración personalizada::
- Modificar el archivo de configuración
config.yaml
, ajustar los parámetros del analizador sintáctico y del conversor en función de las necesidades:
parsers: pdf: engine: 'unstructured' converters: text: engine: 'litellm'
- Modificar el archivo de configuración
- Integración en otras aplicaciones::
- Integre E2M en otras aplicaciones mediante servicios API para enviar solicitudes HTTP de análisis sintáctico y conversión de archivos:
python
import requests
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- Integre E2M en otras aplicaciones mediante servicios API para enviar solicitudes HTTP de análisis sintáctico y conversión de archivos:
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...