일반 소개
Docling은 강력한 문서 파싱 및 내보내기 도구로 PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc, Markdown 등 다양한 문서 형식을 지원하며 이미지 삽입 및 참조를 지원하여 이러한 문서를 HTML, Markdown 및 JSON 형식으로 파싱하고 내보낼 수 있습니다. Docling은 페이지 레이아웃, 읽기 순서, 표 구조 구문 분석 등 고급 PDF 문서 이해 기능을 제공합니다. 또한 PDF 문서 스캔을 위한 OCR 기술을 지원하며, 간편하고 편리한 명령줄 인터페이스(CLI)를 제공하는 LlamaIndex 및 LangChain의 강력한 RAG/QA 애플리케이션과의 통합을 지원하여 쉽게 통합할 수 있습니다.

기능 목록
- 여러 문서 형식(PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc, 마크다운)을 구문 분석합니다.
- HTML, 마크다운 및 JSON 형식으로 내보내기
- 고급 PDF 문서 이해력(페이지 레이아웃, 읽기 순서, 표 구조)
- 스캔한 PDF를 파싱하는 OCR 기술 지원
- 통합된 DoclingDocument 표현 형식을 제공합니다.
- 라마인덱스 및 랭체인과의 간편한 통합
- 간단하고 편리한 명령줄 인터페이스(CLI)
도움말 사용
설치 프로세스
도클링을 사용하려면 패키지 관리자(예: pip)를 사용하여 도클링을 설치하기만 하면 됩니다:
pip install docling
도클링은 macOS, Linux 및 Windows 환경에서 사용할 수 있으며 x86_64 및 arm64 아키텍처를 지원합니다. 자세한 설치 지침은 공식 문서에서 확인할 수 있습니다.
사용 가이드라인
단일 문서 변환하기
개별 문서를 변환하려면 convert()
메소드 등을 예로 들 수 있습니다:
from docling.document_converter import DocumentConverter
source = "path/to/document.pdf" # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出转换后的 Markdown 格式文档
고급 사용법
Docling은 필요에 따라 구성하고 확장할 수 있는 다양한 고급 사용 옵션을 제공합니다. 자세한 지침과 예제는 공식 문서에서 확인할 수 있습니다.
기능 작동 흐름
- 문서 해상도문서를 Docling으로 가져오고 기본 제공 파서를 사용하여 문서 콘텐츠를 구문 분석합니다.
- 형식 변환내보내야 하는 형식(HTML, 마크다운, JSON)을 선택하고 해당 내보내기 기능을 사용하여 형식을 변환합니다.
- OCR 분석스캔한 PDF 문서의 경우 OCR 기능을 활성화하여 문서의 텍스트 내용을 추출합니다.
- 통합 애플리케이션도클링을 라마인덱스 또는 랭체인과 통합하여 강력한 RAG/QA 애플리케이션을 구축하세요.
- 명령줄 작업문서 구문 분석 및 내보내기 작업을 빠르게 수행하려면 Docling에서 제공하는 CLI 도구를 사용하세요.
Docling의 문서 구문 분석 및 내보내기 기능은 강력하고 사용하기 쉬워 다양한 문서 처리 요구 사항을 충족합니다. 사용자는 자세한 공식 문서와 예제를 통해 빠르게 시작하고 Docling의 기능을 최대한 활용할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...