Docling: 다양한 형식의 문서 파싱 지원 마크다운 및 JSON으로 내보내기, PDF 지원 OCR

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
2.8K 00

일반 소개

Docling은 강력한 문서 파싱 및 내보내기 도구로 PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc, Markdown 등 다양한 문서 형식을 지원하며 이미지 삽입 및 참조를 지원하여 이러한 문서를 HTML, Markdown 및 JSON 형식으로 파싱하고 내보낼 수 있습니다. Docling은 페이지 레이아웃, 읽기 순서, 표 구조 구문 분석 등 고급 PDF 문서 이해 기능을 제공합니다. 또한 PDF 문서 스캔을 위한 OCR 기술을 지원하며, 간편하고 편리한 명령줄 인터페이스(CLI)를 제공하는 LlamaIndex 및 LangChain의 강력한 RAG/QA 애플리케이션과의 통합을 지원하여 쉽게 통합할 수 있습니다.

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

 

기능 목록

  • 여러 문서 형식(PDF, DOCX, PPTX, XLSX, 이미지, HTML, AsciiDoc, 마크다운)을 구문 분석합니다.
  • HTML, 마크다운 및 JSON 형식으로 내보내기
  • 고급 PDF 문서 이해력(페이지 레이아웃, 읽기 순서, 표 구조)
  • 스캔한 PDF를 파싱하는 OCR 기술 지원
  • 통합된 DoclingDocument 표현 형식을 제공합니다.
  • 라마인덱스 및 랭체인과의 간편한 통합
  • 간단하고 편리한 명령줄 인터페이스(CLI)

 

도움말 사용

설치 프로세스

도클링을 사용하려면 패키지 관리자(예: pip)를 사용하여 도클링을 설치하기만 하면 됩니다:

pip install docling

도클링은 macOS, Linux 및 Windows 환경에서 사용할 수 있으며 x86_64 및 arm64 아키텍처를 지원합니다. 자세한 설치 지침은 공식 문서에서 확인할 수 있습니다.

사용 가이드라인

단일 문서 변환하기

개별 문서를 변환하려면 convert() 메소드 등을 예로 들 수 있습니다:

from docling.document_converter import DocumentConverter
source = "path/to/document.pdf"  # 文档的本地路径或 URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出转换后的 Markdown 格式文档

고급 사용법

Docling은 필요에 따라 구성하고 확장할 수 있는 다양한 고급 사용 옵션을 제공합니다. 자세한 지침과 예제는 공식 문서에서 확인할 수 있습니다.

기능 작동 흐름

  1. 문서 해상도문서를 Docling으로 가져오고 기본 제공 파서를 사용하여 문서 콘텐츠를 구문 분석합니다.
  2. 형식 변환내보내야 하는 형식(HTML, 마크다운, JSON)을 선택하고 해당 내보내기 기능을 사용하여 형식을 변환합니다.
  3. OCR 분석스캔한 PDF 문서의 경우 OCR 기능을 활성화하여 문서의 텍스트 내용을 추출합니다.
  4. 통합 애플리케이션도클링을 라마인덱스 또는 랭체인과 통합하여 강력한 RAG/QA 애플리케이션을 구축하세요.
  5. 명령줄 작업문서 구문 분석 및 내보내기 작업을 빠르게 수행하려면 Docling에서 제공하는 CLI 도구를 사용하세요.

Docling의 문서 구문 분석 및 내보내기 기능은 강력하고 사용하기 쉬워 다양한 문서 처리 요구 사항을 충족합니다. 사용자는 자세한 공식 문서와 예제를 통해 빠르게 시작하고 Docling의 기능을 최대한 활용할 수 있습니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...