Dolphin - 워드프레스 오픈 소스 경량 문서 구문 분석 빅 모델

49.5K 00

돌핀이란 무엇인가요?

돌고래는 322M 매개변수, 작은 크기, 빠른 실행 속도를 갖춘 바이트 점프 오픈 소스 경량 문서 파싱 대형 모델입니다. 이 모델은 페이지 수준 레이아웃 분석을 기반으로 문서 요소 (예 : 제목, 표, 수식 등)를 식별 한 다음 분석 내용의 각 요소, 모델은 텍스트, 수식, 표 및 기타 요소의 추출, JSON, Markdown, HTML 형식 등의 출력을 지원하는 2 단계 구문 분석 방식을 기반으로합니다. Dolphin은 학술 연구, 상업 사무실, 교육, 기술 개발 및 기타에 적용됩니다. 돌핀은 학술 연구, 상업 사무, 교육, 기술 개발 등에 적합합니다. 돌핀은 학술 논문, 비즈니스 보고서, 기술 문서 등을 효율적으로 처리하고, 문서를 디지털화하고 정보를 추출하는 데 도움을 주며, 사무 효율성을 향상시킬 수 있습니다.

돌핀의 주요 기능

레이아웃 분석문서의 제목, 차트, 표, 각주 및 기타 요소를 정확하게 식별하고 자연스러운 읽기 순서에 따라 요소의 명확한 순서를 생성하여 후속 콘텐츠 구문 분석을 위한 토대를 마련합니다.
콘텐츠 추출후속 처리 및 프레젠테이션을 위해 문서 페이지를 구조화된 JSON 또는 마크다운 형식으로 구문 분석합니다.
텍스트 구문 분석중국어, 영어 및 기타 여러 언어를 포함하여 문서에서 텍스트 콘텐츠를 정확하게 추출합니다.
공식 인식복잡한 인라인 및 블록 수준의 수식 인식을 지원하고 학술 및 기술 문서를 쉽게 처리할 수 있도록 LaTeX 형식으로 출력합니다.
테이블 분석복잡한 표 구조를 구문 분석하고 셀 내용을 추출하여 다양한 애플리케이션 시나리오의 요구 사항을 충족하는 HTML 형식의 표를 생성할 수 있도록 지원합니다.
경량 아키텍처이 모델은 참조 번호가 322M이며 작고 빠르며 리소스가 제한된 장치 또는 환경에서 사용하기에 적합합니다.
여러 입력 및 출력학술 논문, 비즈니스 보고서, 기술 문서 등 다양한 문서 이미지 입력을 지원합니다. 구문 분석 결과는 JSON, Markdown, HTML 등의 형식으로 출력할 수 있어 다른 시스템과의 통합에 편리합니다.

돌핀의 공식 웹사이트 주소

GitHub 리포지토리::https://github.com/bytedance/Dolphin
허깅페이스 모델 라이브러리::https://huggingface.co/ByteDance/Dolphin
arXiv 기술 논문::https://arxiv.org/pdf/2505.14059
온라인 경험 데모::http://115.190.42.15:8888/dolphin/

Dolphin 사용 방법

온라인 경험 데모Dolphin 온라인 경험 데모 주소를 방문하면 환경을 설치하거나 구성할 필요 없이 사용자가 직접 문서 이미지를 업로드하여 구문 분석할 수 있습니다.
GitHub 리포지토리 배포::
- 클론 창고::

git clone https://github.com/bytedance/Dolphin.git
cd Dolphin

- 종속성 설치::

pip install -r requirements.txt

- 사전 학습된 모델 다운로드GitHub 저장소의 지침에 따라 사전 학습된 모델 파일을 다운로드하여 압축을 풉니다.
- 실행 중인 코드: 리포지토리에 있는 샘플 코드에 따라 Dolphin을 실행합니다:

from dolphin import DolphinParser

parser = DolphinParser(model_path="path/to/model")
result = parser.parse(image_path="path/to/document.jpg")
print(result)

포옹하는 얼굴 모델 라이브러리::
- 허깅 페이스 라이브러리 설치::

pip install transformers

- 모델 로드::

from transformers import AutoModelForDocumentParsing, AutoFeatureExtractor

model_name = "ByteDance/Dolphin"
model = AutoModelForDocumentParsing.from_pretrained(model_name)
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)

# 加载文档图像并进行预处理
image = feature_extractor(images="path/to/document.jpg", return_tensors="pt")

# 进行解析
outputs = model(**image)
# 处理输出结果

- 출력 결과 처리모델의 출력 형식(예: JSON, HTML 등)에 따른 구문 분석 결과의 추가 처리 및 사용.

돌핀의 핵심 강점

경량 및 효율성돌핀은 크기가 322m에 불과하고 작고 빠르며 리소스가 제한된 환경에 적합합니다.
2단계 구문 분석 접근 방식병렬 처리를 기반으로 콘텐츠보다 먼저 레이아웃을 파싱하여 효율성과 정확성을 향상시킵니다.
강력한 문서 구문 분석텍스트, 표, 수식, 차트 및 기타 요소의 구문 분석을 지원하여 복잡한 문서 구조를 다룰 수 있습니다.
다국어 지원다국어 문서 처리의 요구를 충족하기 위해 중국어, 영어 및 기타 다국어 텍스트를 정확하게 식별합니다.
다양한 입력 및 출력다양한 문서 형식 입력과 호환, JSON, 마크다운, HTML 및 기타 형식 출력 지원, 통합이 용이합니다.
오픈 소스 및 사용 편의성코드와 사전 학습된 모델은 오픈 소스이며 개발자가 빠르게 개발을 시작하고 맞춤화할 수 있도록 풍부한 리소스를 제공합니다.
고성능문서 구문 분석 작업에서 GPT-4.1 및 Mistral-OCR과 같은 주류 모델보다 성능이 뛰어나며 표 및 수식 인식에 탁월합니다.

돌핀의 대상

연구 작업자학술 논문의 텍스트, 수식, 도표를 빠르게 구문 분석하여 연구자가 효율적으로 문헌을 정리하고 핵심 정보를 추출하여 과학적 작업을 가속화할 수 있도록 도와줍니다.
기업 사무실 직원비즈니스 담당자는 계약서, 보고서 및 기타 비즈니스 문서에서 핵심 정보를 추출하여 계약서 검토 및 보고서 작성을 지원하고 사무실 효율성을 개선합니다.
교육자교사와 교육 기관은 Dolphin을 사용하여 교재와 시험지를 디지털화하고, 온라인 교육과 다국어 사용을 지원하며, 교육 자료를 풍부하게 만듭니다.
기술 개발자개발자는 기술 문서를 파싱하여 코드 관리 및 기술 교환을 용이하게 하고 오픈 소스 코드를 기반으로 2차 개발 및 커스터마이징을 수행합니다.
학생학습 자료를 빠르게 정리하고 요점을 추출하여 학습과 복습을 돕습니다.