Introdução geral
O Docling é uma ferramenta avançada de análise e exportação de documentos que suporta uma ampla variedade de formatos de documentos, incluindo PDF, DOCX, PPTX, XLSX, imagens, HTML, AsciiDoc e Markdown. Ele analisa e exporta esses documentos para os formatos HTML, Markdown e JSON, com suporte para incorporação e referência a imagens. O Docling oferece compreensão avançada de documentos PDF, incluindo análise de layout de página, ordem de leitura e estrutura de tabela. O Docling é fácil de integrar e oferece suporte à integração com os avançados aplicativos RAG/QA do LlamaIndex e do LangChain, fornecendo uma interface de linha de comando (CLI) simples e conveniente.
Lista de funções
- Analisar vários formatos de documentos (PDF, DOCX, PPTX, XLSX, imagem, HTML, AsciiDoc, Markdown)
- Exportar para os formatos HTML, Markdown e JSON
- Compreensão avançada de documentos PDF (layout de página, ordem de leitura, estrutura de tabela)
- Suporta a tecnologia OCR para analisar PDFs digitalizados
- Fornece um formato unificado de representação do DoclingDocument.
- Fácil integração com o LlamaIndex e o LangChain
- Interface de linha de comando (CLI) simples e conveniente
Usando a Ajuda
Processo de instalação
Para usar o Docling, basta instalar o Docling a partir de um gerenciador de pacotes, por exemplo, usando o pip:
pip install docling
O Docling está disponível para ambientes macOS, Linux e Windows e é compatível com as arquiteturas x86_64 e arm64. Instruções detalhadas de instalação podem ser encontradas na documentação oficial.
Diretrizes para uso
Conversão de um único documento
Para converter documentos individuais, você pode usar a função convert()
Métodos, por exemplo:
from docling.document_converter import DocumentConverter
source = "path/to/document.pdf" Caminho local ou URL do documento #
converter = DocumentConverter()
resultado = converter.convert(source)
print(result.document.export_to_markdown()) Documento convertido em formato Markdown de saída do #
Uso avançado
O Docling oferece um rico conjunto de opções avançadas de uso que podem ser configuradas e ampliadas conforme necessário. Instruções e exemplos detalhados podem ser encontrados na documentação oficial.
Função Fluxo de operação
- resolução de documentosImportar um documento para o Docling e usar o analisador interno para analisar o conteúdo do documento.
- conversão de formatoSelecione o formato que você precisa exportar (HTML, Markdown, JSON) e use a função de exportação correspondente para converter o formato.
- Análise de OCRPara documentos PDF digitalizados, ative a função OCR para extrair o conteúdo do texto no documento.
- aplicativo integradoIntegração do Docling com o LlamaIndex ou o LangChain para criar aplicativos RAG/QA avançados.
- operação de linha de comandoUse as ferramentas CLI fornecidas pelo Docling para executar rapidamente operações de análise e exportação de documentos.
Os recursos de análise e exportação de documentos do Docling são avançados e fáceis de usar para uma ampla gama de necessidades de processamento de documentos. Os usuários podem começar a usar rapidamente e tirar o máximo proveito dos recursos do Docling com exemplos e documentação oficial detalhada.