BabelDOC: PDF 문서가 이중 언어 오픈 소스 도구로 번역됩니다.

최신 AI 리소스3 개월 전 업데이트 AI 공유 서클
14.3K 00

일반 소개

바벨독은 PDF 문서를 이중 언어 형식으로 번역하기 위해 설계된 오픈 소스 도구입니다. 펀스토리아이 팀이 개발하고 깃허브에서 호스팅하는 이 도구는 주로 연구원, 학생, 기술자 등 외국어 문서로 작업해야 하는 사용자에게 서비스를 제공하며, 수학 공식과 표 등 원본 레이아웃을 유지하면서 영어 PDF를 중국어로 번역할 수 있도록 지원합니다. 사용자는 온라인 서비스, 명령줄 도구(CLI) 또는 Python API를 통해 사용할 수 있습니다. 온라인 서비스는 Immersive Translate에서 제공하며 월 1000페이지까지 무료로 제공되며, 자체 배포는 소스 코드 또는 PDFMathTranslate 프로젝트 실현.

BabelDOC:将PDF文档翻译成双语对照的开源工具

 

기능 목록

  • PDF 파일을 원본과 번역된 텍스트가 나란히 표시되는 이중 언어 형식으로 번역하세요.
  • 원본 타이포그래피를 유지하고 수학 공식, 표, 그림을 올바르게 표시할 수 있도록 지원합니다.
  • 여러 파일의 일괄 번역을 지원하는 명령줄 도구(CLI)를 제공합니다.
  • 개발자가 다른 프로그램에 쉽게 임베드할 수 있는 Python API를 제공합니다.
  • 온라인 서비스 지원, 월 1000페이지 무료 번역.
  • 자체 배포가 지원되며, 로컬에서 실행하거나 PDFMathTranslate와 함께 추가 번역 서비스를 사용할 수 있는 옵션이 있습니다.
  • OpenAI, Bing 등 여러 번역 엔진으로 구성할 수 있습니다.
  • 네트워크가 없는 환경에 적합한 오프라인 리소스 패키지 관리 기능을 제공합니다.

 

도움말 사용

BabelDOC는 온라인 서비스 및 로컬 배포 등 다양한 방법으로 사용할 수 있습니다. 다음은 빠르게 시작하는 데 도움이 되는 자세한 가이드입니다.

온라인 서비스 사용

  1. 온라인 서비스 액세스
    쇼(티켓) 몰입형 번역 - BabelDOC이 서비스는 베타 서비스입니다.
  2. 파일 업로드
    업로드 버튼을 클릭하고 번역할 PDF 파일을 선택합니다. 파일 크기와 페이지 수는 무료 할당량(월 1,000페이지) 이내여야 합니다.
  3. 언어 선택
    기본적으로 영어에서 중국어로 번역이 지원됩니다. 업로드 후 시스템에서 자동으로 처리하여 이중 언어 PDF를 생성합니다.
  4. 결과 다운로드
    번역이 완료되면 다운로드 버튼을 클릭하여 번역된 파일을 받습니다. 결과에는 원본 텍스트와 번역본이 나란히 표시됩니다.

로컬 설치 프로세스

BabelDOC는 PyPI 또는 소스에서 설치를 지원하며 권장됩니다. uv 환경 관리.

PyPI에서 설치

  1. Python 및 UV 설치
    시스템에 Python 3.12 이상이 설치되어 있는지 확인합니다. UV를 다운로드하여 설치하고 환경 변수를 구성합니다.
  2. 바벨독 설치하기
    터미널에서 실행됩니다:
uv tool install --python 3.12 BabelDOC
  1. 설치 확인
    입력:
babeldoc --help

도움말 메시지가 표시되면 설치에 성공한 것입니다.

소스에서 설치

  1. 복제 프로젝트
    터미널에서 실행됩니다:
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
  1. 종속성 설치
    활용 uv 종속성을 설치합니다:
uv run pip install -r requirements.txt
  1. 설치 확인
    실행 중입니다:
uv run babeldoc --help

도움말 메시지가 표시되면 성공입니다.

오프라인 리소스

오프라인에서 사용해야 하는 경우 리소스 팩을 관리할 수 있습니다:

  1. 리소스 키트 생성
babeldoc --generate-offline-assets /path/to/output/dir

생성된 zip 파일에는 글꼴과 모델이 포함되어 있습니다.
2. 복구 리소스 키트

babeldoc --restore-offline-assets /path/to/offline_assets_package.zip

리소스가 기본 경로로 추출됩니다. ~/.cache/babeldoc/assets/.

로컬 사용

명령줄 사용법

  1. 개별 문서 번역
    파일이 있다고 가정해 보겠습니다. example.pdfOpenAI로 번역되었습니다:
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"

출력 파일은 자동으로 다음과 같이 생성됩니다. example_translated.pdf.
2. 여러 문서 번역
여러 파일을 처리합니다:

babeldoc --files example1.pdf --files example2.pdf --bing
  1. 페이지 지정
    1, 3-5페이지만 번역합니다:
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
  1. 언어 조정
    다른 언어가 필요한 경우 기본값은 영어를 중국어로 번역합니다:
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"

Python API 사용

  1. 기본 번역
    문서 만들기 translate.py::
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)

움직여야 합니다. python translate.py 번역 준비 완료.
2. 오프라인 리소스 관리

from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))

주요 기능 작동

  1. 이중 언어 사용
    번역된 PDF는 원본 텍스트와 번역된 텍스트를 나란히 배치합니다. 예를 들어 영어는 왼쪽에, 중국어는 오른쪽에 배치하여 쉽게 비교할 수 있습니다. 다음과 같은 수식은 E=mc^2 원문은 그대로 유지되며 번역에 대한 설명이 함께 제공됩니다.
  2. 복잡한 문서 지원
    수학 공식과 표의 인식 및 보존을 지원합니다. 번역 시 원본 구조가 파괴되지 않습니다.
  3. 유연한 배포
    온라인 서비스는 간단하고 빠르며 자체 배포를 통해 번역 엔진 선택과 같은 더 많은 사용자 지정 옵션을 지원합니다.

셀프 배포 향상

더 많은 기능이 필요한 경우 PDFMathTranslate를 사용할 수 있습니다:

  1. PDFMathTranslate 설치
    웹UI 및 더 많은 번역 서비스를 지원하며, GitHub 지침에 따라 설치할 수 있습니다.
  2. BabelDOC와 결합
    향상된 번역 기능을 위해 BabelDOC에 대한 PDFMathTranslate 버전 1.9.3+의 실험적 지원.

주의

  • 온라인 서비스는 월 1,000페이지까지는 무료로 제공되며, 그 이후에는 유료로 이용해야 합니다.
  • 로컬 배포의 경우 OpenAI 웹사이트에서 얻을 수 있는 OpenAI 키와 같은 API 키를 구성해야 합니다.
  • 현재는 주로 영어에서 중국어로의 번역에 최적화되어 있으며 다른 언어에 대한 지원은 제한적입니다.
  • 대용량 파일은 다음을 사용하는 것이 좋습니다. --max-pages-per-part 세분화.

 

애플리케이션 시나리오

  1. 학술 연구
    연구자에게 영어 논문을 제공한 후 읽기 쉽고 이해하기 쉽도록 BabelDOC를 사용하여 이중 언어 버전으로 번역했습니다.
  2. 기술 문서 번역
    개발자는 영어 기술 매뉴얼을 번역하고 코드와 다이어그램을 보관하여 작업에 직접 사용합니다.
  3. 교육 학습
    학생들은 외국어 교과서를 번역하는 데 사용하며 언어 학습과 콘텐츠 숙달을 동시에 달성할 수 있습니다.

 

QA

  1. 어떤 파일 형식이 지원되나요?
    PDF만 지원되며 다른 형식은 먼저 PDF로 변환해야 합니다.
  2. 온라인 서비스와 로컬 배포의 차이점은 무엇인가요?
    온라인 서비스는 매월 1,000개의 무료 페이지가 제공되는 간단한 서비스이며, 로컬 배포는 설치가 필요하지만 더 많은 옵션으로 사용자 지정할 수 있습니다.
  3. 번역이 정확하지 않으면 어떻게 하나요?
    번역 엔진을 전환하거나(예: Bing에서 OpenAI로) 모델을 조정해 보세요.
  4. 코드 기여는 어떻게 하나요?
    체크 아웃 기여몰입형 번역 멤버십은 활동 중인 기여자에게 제공됩니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...