Introdução geral
E2M (Everything to Markdown) é uma biblioteca Python de código aberto projetada para converter uma ampla variedade de formatos de arquivo para o formato Markdown. A ferramenta é compatível com uma grande variedade de tipos de arquivos, incluindo doc, docx, epub, html, htm, url, pdf, ppt, pptx, mp3 e m4a. A E2M adota uma arquitetura de analisador-transformador que analisa e transforma com eficiência o conteúdo do arquivo, fornecendo opções de configuração flexíveis para geração aprimorada de recuperação de dados (RAG) e treinamento ou ajuste fino de modelos. O objetivo da E2M é fornecer aos usuários serviços de conversão de dados de alta qualidade que simplifiquem o processo de harmonização de formatos de documentos. Cada formato tem um analisador e um conversor dedicados, usando o analisador Parser para extrair texto e imagens do arquivo, e o conversor Converter para converter o conteúdo extraído em Markdown.
Lista de funções
- análise de arquivosSuporte à análise de vários tipos de arquivos, incluindo dados de texto e imagem.
- conversão de formatoMarkdown: converte os dados analisados no formato Markdown.
- Vários analisadores e conversoresParsers e conversores que suportam diferentes mecanismos e estratégias.
- Código aberto e configuração flexívelCódigo-fonte aberto: Fornece código-fonte aberto e opções de configuração flexíveis que podem ser personalizadas pelo usuário.
- Serviços de APIAPI: fornece serviços de API para facilitar a integração com outros aplicativos.
Usando a Ajuda
Processo de instalação
- Criando o ambiente::
conda create -n e2m python=3.10
conda activate e2m
- Atualizar pip::
pip install --upgrade pip
- Instalação da E2M::
- Instale via git (recomendado):
bash
pip install git+https://github.com/wisupai/e2m.git --index-url https://pypi.org/simple
- Instalação via pip:
bash
pip install --upgrade wisup_e2m
- Instalação manual:
bash
git clone https://github.com/wisupai/e2m.git
cd e2m
pip install poetry
construção de poesia
pip install dist/wisup_e2m-0.1.63-py3-none-any.whl
- Instale via git (recomendado):
Uso
- Iniciando o serviço de API::
gunicorn wisup_e2m.api.main:app --workers 4 --worker-class uvicorn.workers.UvicornWorker --bind 0.0.0.0:8000
- Acesso à documentação da APIAbra seu navegador e acesse
http://127.0.0.1:8000/docs
para ver a documentação da API e os exemplos de uso.
Funções principais
- Análise e conversão de arquivos::
- Analisa o conteúdo do arquivo usando um analisador:
from wisup_e2m.parsers import PdfParser parser = PdfParser() text_data = parser.parse('example.pdf')
- Use um conversor para converter o conteúdo analisado para o formato Markdown:
from wisup_e2m.converters import TextConverter converter = TextConverter() markdown_data = converter.convert(text_data)
- Configuração personalizada::
- Modificar o arquivo de configuração
config.yaml
Ajuste os parâmetros do analisador e do conversor de acordo com as necessidades:
parsers. pdf. mecanismo: 'não estruturado' conversores. text: mecanismo: 'litellm' mecanismo: 'litellm'
- Modificar o arquivo de configuração
- Integração com outros aplicativos::
- Integre a E2M a outros aplicativos usando serviços de API para enviar solicitações HTTP para análise e conversão de arquivos:
python
solicitações de importação
response = requests.post('http://127.0.0.1:8000/convert', files={'file': open('example.pdf', 'rb')})
markdown_data = response.text
- Integre a E2M a outros aplicativos usando serviços de API para enviar solicitações HTTP para análise e conversão de arquivos: