E2M: Convierte múltiples formatos de archivo a Markdown, consigue fácilmente un formato de documento uniforme.

Introducción general

E2M (Everything to Markdown) es una biblioteca Python de código abierto diseñada para convertir una amplia gama de formatos de archivo al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 y m4a. E2M adopta una arquitectura de analizador sintáctico-transformador que analiza y transforma eficientemente el contenido de los archivos, proporcionando opciones de configuración flexibles para la generación mejorada de recuperación de datos (RAG) y la formación o ajuste de modelos. El objetivo de E2M es ofrecer a los usuarios servicios de conversión de datos de alta calidad que simplifiquen el proceso de armonización de formatos de documentos. Cada formato cuenta con un analizador sintáctico y un conversor específicos, que utilizan el analizador sintáctico Parser para extraer el texto y las imágenes del archivo, y el conversor Converter para convertir el contenido extraído a Markdown.

E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

 

Lista de funciones

  • análisis de archivos: Admite el análisis sintáctico de varios tipos de archivos, incluidos datos de texto e imágenes.
  • conversión de formatoConvierte los datos analizados en formato Markdown.
  • Múltiples analizadores sintácticos y conversores: Parsers y convertidores que admiten diferentes motores y estrategias.
  • Código abierto y configuración flexible: Proporciona código fuente abierto y opciones de configuración flexibles que el usuario puede personalizar.
  • Servicios API: Proporciona servicios API para facilitar la integración en otras aplicaciones.

 

Utilizar la ayuda

Proceso de instalación

  1. Creación del entorno::
   conda create -n e2m python=3.10
conda activate e2m
  1. Actualizar pip::
   pip install --upgrade pip
  1. Instalación de E2M::
    • Instalar a través de git (recomendado): bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • Instalación mediante pip: bash
      pip install --upgrade wisup_e2m
    • Instalación manual: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      poetry build
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

Utilización

  1. Iniciar el servicio API::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. Acceso a la documentación de la APIAbre tu navegador y visitahttp://127.0.0.1:8000/docspara ver la documentación de la API y ejemplos de uso.

Funciones principales

  1. Análisis sintáctico y conversión de archivos::
    • Analiza el contenido del archivo utilizando un analizador sintáctico:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • Utilice un conversor para convertir el contenido analizado al formato Markdown:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. Configuración personalizada::
    • Modificar el archivo de configuraciónconfig.yaml, ajustar los parámetros del analizador sintáctico y del conversor en función de las necesidades:
     parsers:
    pdf:
    engine: 'unstructured'
    converters:
    text:
    engine: 'litellm'
    
  3. Integración en otras aplicaciones::
    • Integre E2M en otras aplicaciones mediante servicios API para enviar solicitudes HTTP de análisis sintáctico y conversión de archivos: python
      import requests
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...