비전 구문 분석: 시각 언어 모델을 사용하여 PDF 문서를 마크다운 형식으로 지능적으로 변환하기

최신 AI 리소스8개월 전 업데이트 AI 공유 서클
10.5K 00

일반 소개

Vision Parse는 최첨단 시각 언어 모델링(비전 언어 모델) 기술을 스마트하게 결합하여 PDF 문서를 고품질 마크다운 형식의 콘텐츠로 지능적으로 변환하는 혁신적인 문서 처리 툴입니다. 이 도구는 OpenAI, LLama, Google Gemini 등 다양한 최고의 시각 언어 모델을 지원하며 문서의 텍스트와 표를 정확하게 추출하고 원본 문서의 계층 구조, 스타일 및 들여쓰기를 유지할 수 있으며, Vision Parse는 다중 페이지 PDF 처리를 지원할 뿐만 아니라 로컬 모델 배포 옵션도 제공하므로 사용자가 동시에 문서 보안을 보장할 수 있습니다. 오프라인 처리. 간단한 API 설계를 통해 개발자는 몇 줄의 코드만으로 복잡한 문서 변환 작업을 수행하여 문서 처리의 효율성과 정확성을 크게 향상시킬 수 있습니다.

Vision Parse:使用视觉语言模型将PDF文档智能转换为Markdown格式

 

기능 목록

  • 지능형 콘텐츠 추출: 고급 시각 언어 모델을 사용하여 텍스트 및 표 콘텐츠를 정확하게 인식하고 추출합니다.
  • 서식 무결성: 문서의 전체 계층 구조, 스타일 및 들여쓰기 서식을 유지합니다.
  • 다중 모델 지원: OpenAI, LLama, Gemini 및 기타 시각 언어 모델 제공업체와 호환 가능
  • PDF 다중 페이지 처리: 다중 페이지 PDF 문서 지원은 처리를 위해 base64 인코딩된 이미지로 변환됩니다.
  • 로컬 모델 배포: Ollama는 문서 보안 및 오프라인 사용을 위한 로컬 모델 배포를 지원합니다.
  • 사용자 지정 구성: DPI, 색 공간 등과 같은 사용자 지정 PDF 처리 매개변수를 지원합니다.
  • 유연한 API: 간단하고 직관적인 Python API 인터페이스 제공

 

도움말 사용

1. 설치 준비

기본 요구 사항:

  • Python 3.9 이상
  • 로컬 모델을 사용하려면 Ollama를 설치해야 합니다.
  • OpenAI 또는 Google Gemini를 사용하려면 적절한 API 키가 필요합니다.

설치 단계:

  1. pip를 사용하여 기본 패키지를 설치합니다:
pip install vision-parse
  1. 필요에 따라 추가 종속성을 설치합니다:
  • OpenAI 지원:pip install 'vision-parse[openai]'
  • 제미니 지원:pip install 'vision-parse[gemini]'

2. 기본 사용법

샘플 코드:

from vision_parse import VisionParser
# 初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",  # 使用本地模型
temperature=0.4,
top_p=0.3,
extraction_complexity=False  # 设置为True获取更详细的提取结果
)
# 转换PDF文件
pdf_path = "your_document.pdf"
markdown_pages = parser.convert_pdf(pdf_path)
# 处理转换结果
for i, page_content in enumerate(markdown_pages):
print(f"\n--- 第 {i+1} 页 ---\n{page_content}")

3. 고급 구성

PDF 페이지 구성:

from vision_parse import VisionParser, PDFPageConfig
# 配置PDF处理设置
page_config = PDFPageConfig(
dpi=400,
color_space="RGB",
include_annotations=True,
preserve_transparency=False
)
# 使用自定义配置初始化解析器
parser = VisionParser(
model_name="llama3.2-vision:11b",
temperature=0.7,
top_p=0.4,
page_config=page_config
)

4. 지원 모델

Vision Parse는 광범위한 주류 시각 언어 모델을 지원합니다:

  • OpenAI 모델: gpt-4o, gpt-4o-mini
  • 구글 제미니 모델: 제미니-1.5-플래시, 제미니-2.0-플래시-익스프레스, 제미니-1.5-프로
  • 메타 라마 및 라바(Ollama를 통해): llava:13b, llava:34b, llama3.2-vision:11b, llama3.2-vision:70b

5. 사용 기술

  • 적합한 모델 선택: 필요에 따라 로컬 모델 또는 클라우드 기반 서비스를 선택하세요.
  • 매개변수 조정: 출력의 창의성과 정확성은 매개변수 temperature 및 top_p에 의해 조정됩니다.
  • 추출 복잡도: 복잡한 문서의 경우, 추출 복잡도 = True로 설정하는 것이 좋습니다.
  • 로컬 배포: 민감한 문서에서는 로컬 모델 배포에 Ollama를 사용할 것을 권장합니다.
  • PDF 구성: 문서의 특성에 따라 DPI와 색 공간 및 기타 매개변수를 조정합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...