Ollama OCR: Ollama의 시각적 모델을 사용하여 이미지에서 텍스트 추출

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
71K 00
堆友AI

일반 소개

Ollama Ollama 플랫폼에서 제공하는 최첨단 시각 언어 모델을 사용하여 이미지에서 텍스트를 추출하는 강력한 광학 문자 인식(OCR) 툴킷입니다. 이 프로젝트는 Python 패키지와 사용자 친화적인 Streamlit 웹 애플리케이션 인터페이스로 제공됩니다. 실시간 처리를 위한 LLaVA 7B와 복잡한 문서를 위한 고정밀 라마 3.2 비전 모델 등 다양한 비전 모델을 지원하며, Ollama OCR은 마크다운, 일반 텍스트, JSON 등 광범위한 출력 형식 지원과 일괄 처리 기능으로 차별화됩니다. 이 도구는 이미지에서 텍스트 데이터를 추출하고 구조화해야 하는 개발자와 연구자에게 특히 적합합니다.

Ollama OCR:使用Ollama中视觉模型提取图像中的文本

 

기능 목록

  • 여러 고급 시각 언어 모델 지원(LLaVA 7B 및 Llama 3.2 Vision)
  • 다양한 출력 형식 제공(마크다운, 일반 텍스트, JSON, 구조화된 데이터, 키-값 쌍)
  • 일괄 이미지 처리 기능 지원, 여러 이미지를 병렬로 처리할 수 있습니다.
  • 기본 제공 이미지 사전 처리(크기 조정, 정규화 등)
  • 진행 상황 추적 및 처리 통계 제공
  • 사용자 친화적인 Streamlit 웹 인터페이스 지원
  • 드래그 앤 드롭 이미지 업로드 및 실시간 처리 지원
  • 추출된 텍스트에 대한 다운로드 기능 제공
  • 통합 이미지 미리보기 및 상세 정보 표시

 

도움말 사용

1. 설치 단계

  1. 먼저 Ollama 플랫폼을 설치해야 합니다:
    • Ollama 공식 웹사이트를 방문하여 시스템에 맞는 설치 패키지를 다운로드하세요.
    • Ollama의 기본 설치 완료
  2. 필요한 시각적 모델을 설치합니다:
ollama pull llama3.2-vision:11b
  1. Ollama OCR 패키지를 설치합니다:
pip install ollama-ocr

2. Python 패키지 사용법

2.1 단일 이미지 처리

from ollama_ocr import OCRProcessor
# 初始化OCR处理器
ocr = OCRProcessor(model_name='llama3.2-vision:11b')
# 处理单张图像
result = ocr.process_image(
image_path="图片路径.png",
format_type="markdown"  # 可选格式:markdown, text, json, structured, key_value
)
print(result)

2.2 이미지 일괄 처리

# 初始化OCR处理器,设置并行处理数
ocr = OCRProcessor(model_name='llama3.2-vision:11b', max_workers=4)
# 批量处理图像
batch_results = ocr.process_batch(
input_path="图片文件夹路径",
format_type="markdown",
recursive=True,  # 搜索子目录
preprocess=True  # 启用图像预处理
)
# 查看处理结果
for file_path, text in batch_results['results'].items():
print(f"\n文件: {file_path}")
print(f"提取的文本: {text}")
# 查看处理统计
print(f"总图像数: {batch_results['statistics']['total']}")
print(f"成功处理: {batch_results['statistics']['successful']}")
print(f"处理失败: {batch_results['statistics']['failed']}")

3. Streamlit 웹 애플리케이션 사용 방법

  1. 코드 리포지토리를 복제합니다:
git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
  1. 종속성을 설치합니다:
pip install -r requirements.txt
  1. 웹 애플리케이션을 시작합니다:
cd src/ollama_ocr
streamlit run app.py

4. 출력 형식에 대한 설명

  • 마크다운 서식: 제목과 목록을 포함한 텍스트 서식을 유지합니다.
  • 일반 텍스트 서식: 깔끔하고 간단한 텍스트 추출 기능 제공
  • JSON 형식: 구조화된 데이터 형식 출력
  • 구조화된 형식: 표 및 정리된 데이터
  • 키-값 쌍 형식: 레이블이 지정된 정보 추출하기

5. 주의 사항

  • LLaVA 모델은 때때로 잘못된 출력을 생성할 수 있으며, 중요한 시나리오에는 Llama 3.2 Vision 모델을 사용하는 것이 좋습니다.
  • 이미지 전처리를 통해 인식 정확도를 향상시킬 수 있습니다.
  • 일괄 처리 시 과도한 메모리 소모를 피하기 위해 병렬 처리 수를 합리적으로 설정하는 데 주의하세요.
  • 많은 수의 이미지를 처리할 때는 진행률 추적을 켜는 것이 좋습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...