Aprendizagem pessoal com IA
e orientação prática

E2M: Converta vários formatos de arquivo para Markdown e obtenha facilmente uma formatação uniforme do documento

Introdução geral

E2M (Everything to Markdown) é uma biblioteca Python de código aberto projetada para converter uma ampla variedade de formatos de arquivo para o formato Markdown. A ferramenta é compatível com uma grande variedade de tipos de arquivos, incluindo doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 e m4a. A E2M adota uma arquitetura de analisador-transformador que analisa e transforma com eficiência o conteúdo do arquivo, fornecendo opções de configuração flexíveis para geração aprimorada de recuperação de dados (RAG) e treinamento ou ajuste fino de modelos. O objetivo da E2M é fornecer aos usuários serviços de conversão de dados de alta qualidade que simplifiquem o processo de harmonização de formatos de documentos. Cada formato tem um analisador e um conversor dedicados, usando o analisador Parser para extrair texto e imagens do arquivo, e o conversor Converter para converter o conteúdo extraído em Markdown.

E2M: Converta vários formatos de arquivo em Markdown para facilitar a unificação da formatação de documentos-1


 

Lista de funções

  • análise de arquivosSuporte à análise de vários tipos de arquivos, incluindo dados de texto e imagem.
  • conversão de formatoMarkdown: converte os dados analisados no formato Markdown.
  • Vários analisadores e conversoresParsers e conversores que suportam diferentes mecanismos e estratégias.
  • Código aberto e configuração flexívelCódigo-fonte aberto: Fornece código-fonte aberto e opções de configuração flexíveis que podem ser personalizadas pelo usuário.
  • Serviços de APIAPI: fornece serviços de API para facilitar a integração com outros aplicativos.

 

Usando a Ajuda

Processo de instalação

  1. Criando o ambiente::
   conda create -n e2m python=3.10
conda activate e2m
  1. Atualizar pip::
   pip install --upgrade pip
  1. Instalação da E2M::
    • Instale via git (recomendado): bash
      pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
    • Instalação via pip: bash
      pip install --upgrade wisup_e2m
    • Instalação manual: bash
      git clone https://github.com/wisupai/e2m.git
      cd e2m
      pip install poetry
      construção de poesia
      pip install dist/wisup_e2m-0.1.63-py3-none-any.whl

Uso

  1. Iniciando o serviço de API::
   gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
  1. Acesso à documentação da APIAbra seu navegador e acessehttp://127.0.0.1:8000/docspara ver a documentação da API e os exemplos de uso.

Funções principais

  1. Análise e conversão de arquivos::
    • Analisa o conteúdo do arquivo usando um analisador:
     from wisup_e2m.parsers import PdfParser
    parser = PdfParser()
    text_data = parser.parse('example.pdf')
    
    • Use um conversor para converter o conteúdo analisado para o formato Markdown:
     from wisup_e2m.converters import TextConverter
    converter = TextConverter()
    markdown_data = converter.convert(text_data)
    
  2. Configuração personalizada::
    • Modificar o arquivo de configuraçãoconfig.yamlAjuste os parâmetros do analisador e do conversor de acordo com as necessidades:
     parsers.
    pdf.
    mecanismo: 'não estruturado'
    conversores.
    text: mecanismo: 'litellm'
    mecanismo: 'litellm'
    
  3. Integração com outros aplicativos::
    • Integre a E2M a outros aplicativos usando serviços de API para enviar solicitações HTTP para análise e conversão de arquivos: python
      solicitações de importação
      response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
      markdown_data = response.text
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " E2M: Converta vários formatos de arquivo para Markdown e obtenha facilmente uma formatação uniforme do documento

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil