BabelDOC: PDF-документы будут переведены в двуязычные инструменты с открытым исходным кодом

Общее введение

BabelDOC - это инструмент с открытым исходным кодом, предназначенный для перевода PDF-документов в двуязычный формат. Разработанный командой funstory-ai и размещенный на GitHub, он служит пользователям, которым необходимо работать с документами на иностранных языках, таким как исследователи, студенты и технические специалисты. BabelDOC поддерживает перевод английских PDF-файлов на китайский язык с сохранением оригинального оформления, включая математические формулы и таблицы. Пользователи могут использовать его через онлайн-сервис, инструменты командной строки (CLI) или Python API. Онлайн-сервис предоставляется компанией Immersive Translate и является бесплатным при переводе 1000 страниц в месяц, а самостоятельное развертывание доступно через исходный код или PDFMathTranslate Реализация проекта.

BabelDOC:将PDF文档翻译成双语对照的开源工具

 

Список функций

  • Переводите PDF-файлы в двуязычный формат с отображением оригинального и переведенного текста рядом друг с другом.
  • Сохраняет оригинальную типографику и поддерживает правильное представление математических формул, таблиц и рисунков.
  • Предоставляет инструменты командной строки (CLI) для пакетного перевода нескольких файлов.
  • Предоставьте Python API, чтобы разработчики могли легко встраивать его в другие программы.
  • Поддержка онлайн-сервисов, бесплатный перевод 1000 страниц в месяц.
  • Поддерживается самостоятельное развертывание с возможностью локального запуска или использования дополнительных служб перевода совместно с PDFMathTranslate.
  • Возможность настройки с несколькими системами перевода, такими как OpenAI, Bing и др.
  • Обеспечивает автономное управление пакетами ресурсов, подходящее для отсутствия сетевого окружения.

 

Использование помощи

BabelDOC можно использовать по-разному, включая онлайн-сервисы и локальное развертывание. Здесь представлено подробное руководство, которое поможет вам быстро начать работу.

Использование онлайн-сервисов

  1. Доступ к онлайн-сервисам
    показать (билет) Иммерсивный перевод - BabelDOCЭто бета-версия сервиса.
  2. Загрузка файлов
    Нажмите кнопку "Загрузить" и выберите PDF-файл для перевода. Размер файла и количество страниц должны быть в пределах бесплатной квоты (1000 страниц в месяц).
  3. Выберите язык
    Перевод с английского на китайский поддерживается по умолчанию. После загрузки система автоматически обработает и создаст двуязычный PDF-файл.
  4. Результаты загрузки
    После завершения перевода нажмите кнопку "Загрузить", чтобы получить переведенный файл. В результате вы получите оригинальный текст и перевод, отображаемые рядом.

Процесс локальной установки

BabelDOC поддерживает установку из PyPI или из исходников, и это рекомендуется. uv Управление окружающей средой.

Установка из PyPI

  1. Установка Python и uv
    Убедитесь, что в вашей системе установлен Python 3.12 или более поздней версии. Загрузите и установите uv и настройте переменные окружения.
  2. Установка BabelDOC
    Запускается в терминале:
uv tool install --python 3.12 BabelDOC
  1. Проверка установки
    Вход:
babeldoc --help

Если появится сообщение о помощи, значит, установка прошла успешно.

Установка из источника

  1. проект клонирования
    Запускается в терминале:
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
  1. Установка зависимостей
    пользоваться uv Установите зависимость:
uv run pip install -r requirements.txt
  1. Проверка установки
    Бег:
uv run babeldoc --help

Появление сообщения о помощи означает успех.

Ресурсы в автономном режиме

Если вам нужно использовать его в автономном режиме, вы можете управлять пакетом ресурсов:

  1. Создайте комплект ресурсов
babeldoc --generate-offline-assets /path/to/output/dir

Созданный zip-файл содержит шрифты и модели.
2. Набор ресурсов для восстановления

babeldoc --restore-offline-assets /path/to/offline_assets_package.zip

Ресурсы будут извлечены в путь по умолчанию ~/.cache/babeldoc/assets/.

Местное использование

Использование командной строки

  1. Перевод отдельных документов
    Предположим, имеется файл example.pdfПереведено с помощью OpenAI:
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"

Выходной файл автоматически генерируется в виде example_translated.pdf.
2. Перевод нескольких документов
Работает с несколькими файлами:

babeldoc --files example1.pdf --files example2.pdf --bing
  1. Укажите страницу
    Переведите только страницы 1, 3-5:
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
  1. Корректировка языка
    Перевод с английского на китайский по умолчанию, если требуется перевод на другие языки:
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"

Использование API Python

  1. основной перевод
    Создание документов translate.py::
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)

быть в движении python translate.py Готовность к переводу.
2. Управление автономными ресурсами

from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))

Функциональное управление

  1. билингвизм
    В переведенном PDF-файле оригинальный и переведенный текст располагаются рядом. Например, английский текст расположен слева, а китайский - справа для удобства сравнения. Формулы, такие как E=mc^2 Оригинальный текст будет сохранен, а перевод будет сопровождаться пояснениями.
  2. Поддержка сложной документации
    Поддерживает распознавание и сохранение математических формул и таблиц. Перевод осуществляется без разрушения исходной структуры.
  3. Гибкое развертывание
    Онлайн-сервисы просты и быстры, а самостоятельное развертывание позволяет расширить возможности настройки, например, выбрать механизм перевода.

Повышение эффективности саморазвертывания

Если вам нужна более широкая функциональность, вы можете использовать PDFMathTranslate:

  1. Установите PDFMathTranslate
    Следуйте инструкциям на GitHub, чтобы установить его. Он поддерживает WebUI и больше сервисов перевода.
  2. В сочетании с BabelDOC
    В версии PDFMathTranslate 1.9.3+ реализована экспериментальная поддержка BabelDOC для расширения возможностей перевода.

предостережение

  • Онлайн-сервис предоставляется бесплатно в течение 1 000 страниц в месяц, после чего вам придется заплатить.
  • Для локального развертывания необходимо настроить ключ API, например, ключ OpenAI, который можно получить на сайте OpenAI.
  • В настоящее время он оптимизирован в основном для перевода с английского на китайский, поддержка других языков ограничена.
  • Большие файлы рекомендуется использовать --max-pages-per-part Сегментация.

 

сценарий применения

  1. научные исследования
    Исследователю был предоставлен документ на английском языке, который он перевел в двуязычную версию с помощью BabelDOC для удобства чтения и понимания.
  2. Перевод технической документации
    Разработчик переводит английские технические руководства, сохраняя код и диаграммы для непосредственного использования в своей работе.
  3. Образовательное обучение
    Студенты используют его для перевода учебников по иностранным языкам, изучая язык и осваивая содержание одновременно.

 

QA

  1. Какие форматы файлов поддерживаются?
    Поддерживается только PDF, другие форматы необходимо сначала преобразовать в PDF.
  2. В чем разница между онлайн-сервисами и локальным развертыванием?
    Онлайн-сервис прост и предоставляет 1 000 бесплатных страниц в месяц; для локального развертывания требуется установка, но его можно настроить с помощью дополнительных опций.
  3. Что делать, если перевод не точен?
    Попробуйте сменить систему перевода (например, с Bing на OpenAI) или скорректировать модель.
  4. Как внести свой код?
    проверять ПОДПИСКАЧленство в Immersive Translate доступно для активных участников.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...