BabelDOC: PDF-документы будут переведены в двуязычные инструменты с открытым исходным кодом
Общее введение
BabelDOC - это инструмент с открытым исходным кодом, предназначенный для перевода PDF-документов в двуязычный формат. Разработанный командой funstory-ai и размещенный на GitHub, он служит пользователям, которым необходимо работать с документами на иностранных языках, таким как исследователи, студенты и технические специалисты. BabelDOC поддерживает перевод английских PDF-файлов на китайский язык с сохранением оригинального оформления, включая математические формулы и таблицы. Пользователи могут использовать его через онлайн-сервис, инструменты командной строки (CLI) или Python API. Онлайн-сервис предоставляется компанией Immersive Translate и является бесплатным при переводе 1000 страниц в месяц, а самостоятельное развертывание доступно через исходный код или PDFMathTranslate Реализация проекта.

Список функций
- Переводите PDF-файлы в двуязычный формат с отображением оригинального и переведенного текста рядом друг с другом.
- Сохраняет оригинальную типографику и поддерживает правильное представление математических формул, таблиц и рисунков.
- Предоставляет инструменты командной строки (CLI) для пакетного перевода нескольких файлов.
- Предоставьте Python API, чтобы разработчики могли легко встраивать его в другие программы.
- Поддержка онлайн-сервисов, бесплатный перевод 1000 страниц в месяц.
- Поддерживается самостоятельное развертывание с возможностью локального запуска или использования дополнительных служб перевода совместно с PDFMathTranslate.
- Возможность настройки с несколькими системами перевода, такими как OpenAI, Bing и др.
- Обеспечивает автономное управление пакетами ресурсов, подходящее для отсутствия сетевого окружения.
Использование помощи
BabelDOC можно использовать по-разному, включая онлайн-сервисы и локальное развертывание. Здесь представлено подробное руководство, которое поможет вам быстро начать работу.
Использование онлайн-сервисов
- Доступ к онлайн-сервисам
показать (билет) Иммерсивный перевод - BabelDOCЭто бета-версия сервиса. - Загрузка файлов
Нажмите кнопку "Загрузить" и выберите PDF-файл для перевода. Размер файла и количество страниц должны быть в пределах бесплатной квоты (1000 страниц в месяц). - Выберите язык
Перевод с английского на китайский поддерживается по умолчанию. После загрузки система автоматически обработает и создаст двуязычный PDF-файл. - Результаты загрузки
После завершения перевода нажмите кнопку "Загрузить", чтобы получить переведенный файл. В результате вы получите оригинальный текст и перевод, отображаемые рядом.
Процесс локальной установки
BabelDOC поддерживает установку из PyPI или из исходников, и это рекомендуется. uv
Управление окружающей средой.
Установка из PyPI
- Установка Python и uv
Убедитесь, что в вашей системе установлен Python 3.12 или более поздней версии. Загрузите и установите uv и настройте переменные окружения. - Установка BabelDOC
Запускается в терминале:
uv tool install --python 3.12 BabelDOC
- Проверка установки
Вход:
babeldoc --help
Если появится сообщение о помощи, значит, установка прошла успешно.
Установка из источника
- проект клонирования
Запускается в терминале:
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
- Установка зависимостей
пользоватьсяuv
Установите зависимость:
uv run pip install -r requirements.txt
- Проверка установки
Бег:
uv run babeldoc --help
Появление сообщения о помощи означает успех.
Ресурсы в автономном режиме
Если вам нужно использовать его в автономном режиме, вы можете управлять пакетом ресурсов:
- Создайте комплект ресурсов
babeldoc --generate-offline-assets /path/to/output/dir
Созданный zip-файл содержит шрифты и модели.
2. Набор ресурсов для восстановления
babeldoc --restore-offline-assets /path/to/offline_assets_package.zip
Ресурсы будут извлечены в путь по умолчанию ~/.cache/babeldoc/assets/
.
Местное использование
Использование командной строки
- Перевод отдельных документов
Предположим, имеется файлexample.pdf
Переведено с помощью OpenAI:
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"
Выходной файл автоматически генерируется в виде example_translated.pdf
.
2. Перевод нескольких документов
Работает с несколькими файлами:
babeldoc --files example1.pdf --files example2.pdf --bing
- Укажите страницу
Переведите только страницы 1, 3-5:
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
- Корректировка языка
Перевод с английского на китайский по умолчанию, если требуется перевод на другие языки:
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"
Использование API Python
- основной перевод
Создание документовtranslate.py
::
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)
быть в движении python translate.py
Готовность к переводу.
2. Управление автономными ресурсами
from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))
Функциональное управление
- билингвизм
В переведенном PDF-файле оригинальный и переведенный текст располагаются рядом. Например, английский текст расположен слева, а китайский - справа для удобства сравнения. Формулы, такие какE=mc^2
Оригинальный текст будет сохранен, а перевод будет сопровождаться пояснениями. - Поддержка сложной документации
Поддерживает распознавание и сохранение математических формул и таблиц. Перевод осуществляется без разрушения исходной структуры. - Гибкое развертывание
Онлайн-сервисы просты и быстры, а самостоятельное развертывание позволяет расширить возможности настройки, например, выбрать механизм перевода.
Повышение эффективности саморазвертывания
Если вам нужна более широкая функциональность, вы можете использовать PDFMathTranslate:
- Установите PDFMathTranslate
Следуйте инструкциям на GitHub, чтобы установить его. Он поддерживает WebUI и больше сервисов перевода. - В сочетании с BabelDOC
В версии PDFMathTranslate 1.9.3+ реализована экспериментальная поддержка BabelDOC для расширения возможностей перевода.
предостережение
- Онлайн-сервис предоставляется бесплатно в течение 1 000 страниц в месяц, после чего вам придется заплатить.
- Для локального развертывания необходимо настроить ключ API, например, ключ OpenAI, который можно получить на сайте OpenAI.
- В настоящее время он оптимизирован в основном для перевода с английского на китайский, поддержка других языков ограничена.
- Большие файлы рекомендуется использовать
--max-pages-per-part
Сегментация.
сценарий применения
- научные исследования
Исследователю был предоставлен документ на английском языке, который он перевел в двуязычную версию с помощью BabelDOC для удобства чтения и понимания. - Перевод технической документации
Разработчик переводит английские технические руководства, сохраняя код и диаграммы для непосредственного использования в своей работе. - Образовательное обучение
Студенты используют его для перевода учебников по иностранным языкам, изучая язык и осваивая содержание одновременно.
QA
- Какие форматы файлов поддерживаются?
Поддерживается только PDF, другие форматы необходимо сначала преобразовать в PDF. - В чем разница между онлайн-сервисами и локальным развертыванием?
Онлайн-сервис прост и предоставляет 1 000 бесплатных страниц в месяц; для локального развертывания требуется установка, но его можно настроить с помощью дополнительных опций. - Что делать, если перевод не точен?
Попробуйте сменить систему перевода (например, с Bing на OpenAI) или скорректировать модель. - Как внести свой код?
проверять ПОДПИСКАЧленство в Immersive Translate доступно для активных участников.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...