Dolphin - 워드프레스 오픈 소스 경량 문서 구문 분석 빅 모델

최신 AI 리소스2 개월 전에 게시 됨 AI 공유 서클
10.1K 00

돌핀이란 무엇인가요?

돌고래는 322M 매개변수, 작은 크기, 빠른 실행 속도를 갖춘 바이트 점프 오픈 소스 경량 문서 파싱 대형 모델입니다. 이 모델은 페이지 수준 레이아웃 분석을 기반으로 문서 요소 (예 : 제목, 표, 수식 등)를 식별 한 다음 분석 내용의 각 요소, 모델은 텍스트, 수식, 표 및 기타 요소의 추출, JSON, Markdown, HTML 형식 등의 출력을 지원하는 2 단계 구문 분석 방식을 기반으로합니다. Dolphin은 학술 연구, 상업 사무실, 교육, 기술 개발 및 기타에 적용됩니다. 돌핀은 학술 연구, 상업 사무, 교육, 기술 개발 등에 적합합니다. 돌핀은 학술 논문, 비즈니스 보고서, 기술 문서 등을 효율적으로 처리하고, 문서를 디지털화하고 정보를 추출하는 데 도움을 주며, 사무 효율성을 향상시킬 수 있습니다.

Dolphin - 字节跳动开源的轻量级文档解析大模型

돌핀의 주요 기능

  • 레이아웃 분석문서의 제목, 차트, 표, 각주 및 기타 요소를 정확하게 식별하고 자연스러운 읽기 순서에 따라 요소의 명확한 순서를 생성하여 후속 콘텐츠 구문 분석을 위한 토대를 마련합니다.
  • 콘텐츠 추출후속 처리 및 프레젠테이션을 위해 문서 페이지를 구조화된 JSON 또는 마크다운 형식으로 구문 분석합니다.
  • 텍스트 구문 분석중국어, 영어 및 기타 여러 언어를 포함하여 문서에서 텍스트 콘텐츠를 정확하게 추출합니다.
  • 공식 인식복잡한 인라인 및 블록 수준의 수식 인식을 지원하고 학술 및 기술 문서를 쉽게 처리할 수 있도록 LaTeX 형식으로 출력합니다.
  • 테이블 분석복잡한 표 구조를 구문 분석하고 셀 내용을 추출하여 다양한 애플리케이션 시나리오의 요구 사항을 충족하는 HTML 형식의 표를 생성할 수 있도록 지원합니다.
  • 경량 아키텍처이 모델은 참조 번호가 322M이며 작고 빠르며 리소스가 제한된 장치 또는 환경에서 사용하기에 적합합니다.
  • 여러 입력 및 출력학술 논문, 비즈니스 보고서, 기술 문서 등 다양한 문서 이미지 입력을 지원합니다. 구문 분석 결과는 JSON, Markdown, HTML 등의 형식으로 출력할 수 있어 다른 시스템과의 통합에 편리합니다.

돌핀의 공식 웹사이트 주소

Dolphin 사용 방법

  • 온라인 경험 데모Dolphin 온라인 경험 데모 주소를 방문하면 환경을 설치하거나 구성할 필요 없이 사용자가 직접 문서 이미지를 업로드하여 구문 분석할 수 있습니다.
  • GitHub 리포지토리 배포::
    • 클론 창고::
git clone https://github.com/bytedance/Dolphin.git
cd Dolphin
    • 종속성 설치::
pip install -r requirements.txt
    • 사전 학습된 모델 다운로드GitHub 저장소의 지침에 따라 사전 학습된 모델 파일을 다운로드하여 압축을 풉니다.
    • 실행 중인 코드: 리포지토리에 있는 샘플 코드에 따라 Dolphin을 실행합니다:
from dolphin import DolphinParser

parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)
  • 포옹하는 얼굴 모델 라이브러리::
    • 허깅 페이스 라이브러리 설치::
pip install transformers
    • 모델 로드::
from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor

model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")

# 进行解析
outputs = model(**image)
# 处理输出结果
    • 출력 결과 처리모델의 출력 형식(예: JSON, HTML 등)에 따른 구문 분석 결과의 추가 처리 및 사용.

돌핀의 핵심 강점

  • 경량 및 효율성돌핀은 크기가 322m에 불과하고 작고 빠르며 리소스가 제한된 환경에 적합합니다.
  • 2단계 구문 분석 접근 방식병렬 처리를 기반으로 콘텐츠보다 먼저 레이아웃을 파싱하여 효율성과 정확성을 향상시킵니다.
  • 강력한 문서 구문 분석텍스트, 표, 수식, 차트 및 기타 요소의 구문 분석을 지원하여 복잡한 문서 구조를 다룰 수 있습니다.
  • 다국어 지원다국어 문서 처리의 요구를 충족하기 위해 중국어, 영어 및 기타 다국어 텍스트를 정확하게 식별합니다.
  • 다양한 입력 및 출력다양한 문서 형식 입력과 호환, JSON, 마크다운, HTML 및 기타 형식 출력 지원, 통합이 용이합니다.
  • 오픈 소스 및 사용 편의성코드와 사전 학습된 모델은 오픈 소스이며 개발자가 빠르게 개발을 시작하고 맞춤화할 수 있도록 풍부한 리소스를 제공합니다.
  • 고성능문서 구문 분석 작업에서 GPT-4.1 및 Mistral-OCR과 같은 주류 모델보다 성능이 뛰어나며 표 및 수식 인식에 탁월합니다.

돌핀의 대상

  • 연구 작업자학술 논문의 텍스트, 수식, 도표를 빠르게 구문 분석하여 연구자가 효율적으로 문헌을 정리하고 핵심 정보를 추출하여 과학적 작업을 가속화할 수 있도록 도와줍니다.
  • 기업 사무실 직원비즈니스 담당자는 계약서, 보고서 및 기타 비즈니스 문서에서 핵심 정보를 추출하여 계약서 검토 및 보고서 작성을 지원하고 사무실 효율성을 개선합니다.
  • 교육자교사와 교육 기관은 Dolphin을 사용하여 교재와 시험지를 디지털화하고, 온라인 교육과 다국어 사용을 지원하며, 교육 자료를 풍부하게 만듭니다.
  • 기술 개발자개발자는 기술 문서를 파싱하여 코드 관리 및 기술 교환을 용이하게 하고 오픈 소스 코드를 기반으로 2차 개발 및 커스터마이징을 수행합니다.
  • 학생학습 자료를 빠르게 정리하고 요점을 추출하여 학습과 복습을 돕습니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...