BabelDOC: los documentos PDF se traducirán a herramientas bilingües de código abierto
Últimos recursos sobre IAActualizado hace 2 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
BabelDOC es una herramienta de código abierto diseñada para traducir documentos PDF a un formato bilingüe. Desarrollada por el equipo funstory-ai y alojada en GitHub, sirve principalmente a usuarios que necesitan trabajar con documentos en lenguas extranjeras, como investigadores, estudiantes y técnicos.BabelDOC admite la traducción de PDF ingleses al chino, conservando el diseño original, incluidas fórmulas matemáticas y tablas. Los usuarios pueden utilizarlo a través de un servicio en línea, la instrumentación de la línea de comandos (CLI) o la API de Python. El servicio en línea lo proporciona Immersive Translate y es gratuito para 1.000 páginas al mes, mientras que la autoimplantación está disponible a través del código fuente o la API de Python. PDFMathTranslate Realización del proyecto.

Lista de funciones
- Traduzca archivos PDF a un formato bilingüe con el texto original y el traducido mostrados uno al lado del otro.
- Conserva la tipografía original y favorece la correcta presentación de fórmulas matemáticas, tablas e imágenes.
- Proporciona herramientas de línea de comandos (CLI) para la traducción por lotes de varios archivos.
- Proporciona API Python, fácil de integrar en otros programas por los desarrolladores.
- Soporte para servicios en línea, traducción gratuita de 1000 páginas al mes.
- Se admite la autoimplantación, con la opción de ejecutar localmente o utilizar servicios de traducción adicionales junto con PDFMathTranslate.
- Configurable con múltiples motores de traducción, como OpenAI, Bing, etc.
- Proporciona gestión de paquetes de recursos sin conexión, adecuada para entornos sin red.
Utilizar la ayuda
BabelDOC puede utilizarse de varias maneras, incluyendo servicios en línea y despliegue local. A continuación encontrará una guía detallada que le ayudará a empezar rápidamente.
Uso de servicios en línea
- Acceso a los servicios en línea
espectáculo (una entrada) Immersive Translate - BabelDOCEste es un servicio Beta. - Cargar archivos
Haga clic en el botón Cargar y seleccione el archivo PDF que desea traducir. El tamaño del archivo y el número de páginas deben estar dentro de la cuota gratuita (1000 páginas/mes). - Seleccionar idioma
La traducción del inglés al chino es compatible por defecto. Tras la carga, el sistema procesará y generará automáticamente un PDF bilingüe. - Descargar resultados
Una vez finalizada la traducción, haz clic en el botón de descarga para obtener el archivo traducido. El resultado conservará el texto original y la traducción mostrados uno al lado del otro.
Proceso de instalación local
BabelDOC admite la instalación desde PyPI o desde el código fuente, y se recomienda. uv
Gestión del medio ambiente.
Instalación desde PyPI
- Instalación de Python y uv
Asegúrate de que tu sistema tiene Python 3.12 o posterior. Descarga e instala uv y configura las variables de entorno. - Instalación de BabelDOC
Se ejecuta en el terminal:
uv tool install --python 3.12 BabelDOC
- Verificar la instalación
Entrada:
babeldoc --help
Si aparece un mensaje de ayuda, la instalación se ha realizado correctamente.
Instalación desde el origen
- proyecto de clonación
Se ejecuta en el terminal:
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
- Instalación de dependencias
utilizaruv
Instale la dependencia:
uv run pip install -r requirements.txt
- Verificar la instalación
Corriendo:
uv run babeldoc --help
Ver el mensaje de ayuda indica éxito.
Recursos fuera de línea
Si necesitas utilizarlo sin conexión, puedes gestionar el paquete de recursos:
- Generar kit de recursos
babeldoc --generate-offline-assets /path/to/output/dir
El archivo zip generado contiene fuentes y modelos.
2. Kit de recursos de recuperación
babeldoc --restore-offline-assets /path/to/offline_assets_package.zip
Los recursos se extraerán a la ruta por defecto ~/.cache/babeldoc/assets/
.
Uso local
Uso de la línea de comandos
- Traducción de documentos individuales
Supongamos que existe un ficheroexample.pdf
Traducido con OpenAI:
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"
El archivo de salida se genera automáticamente como example_translated.pdf
.
2. Traducción de varios documentos
Maneja múltiples archivos:
babeldoc --files example1.pdf --files example2.pdf --bing
- Especifique la página
Traduzca sólo las páginas 1, 3-5:
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
- Adaptación lingüística
Traducción del inglés al chino por defecto, si se necesitan otros idiomas:
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"
Uso de la API de Python
- traducción básica
Creación de documentostranslate.py
::
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)
estar en movimiento python translate.py
Listo para traducir.
2. Gestión de recursos fuera de línea
from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))
Función destacada Operación
- bilingüismo
El PDF traducido coloca el texto original y el texto traducido uno al lado del otro. Por ejemplo, el inglés está a la izquierda y el chino a la derecha para facilitar la comparación. Fórmulas comoE=mc^2
Se mantendrá el texto original, con explicaciones sobre la traducción al lado. - Soporte de documentación compleja
Admite el reconocimiento y la retención de fórmulas y tablas matemáticas. La traducción no destruye la estructura original. - Despliegue flexible
Los servicios en línea son sencillos y rápidos, y la autoimplantación permite más opciones de personalización, como la selección del motor de traducción.
Mejora del autodespliegue
Si necesita más funcionalidad, puede utilizar PDFMathTranslate:
- Instalar PDFMathTranslate
Sigue sus instrucciones de GitHub para instalarlo, con soporte para WebUI y más servicios de traducción. - Combinado con BabelDOC
PDFMathTranslate versión 1.9.3+ es compatible con BabelDOC para mejorar las funciones de traducción.
advertencia
- El servicio en línea es gratuito para 1.000 páginas al mes, a partir de las cuales tendrá que pagar.
- Para el despliegue local, es necesario configurar una clave API, como la clave OpenAI, que puede obtenerse en el sitio web de OpenAI.
- Actualmente está optimizado principalmente para la traducción del inglés al chino, con soporte limitado para otros idiomas.
- Se recomienda utilizar archivos grandes
--max-pages-per-part
Segmentación.
escenario de aplicación
- investigación académica
El investigador recibió el documento en inglés y lo tradujo a una versión bilingüe utilizando BabelDOC para facilitar su lectura y comprensión. - Traducción de documentación técnica
El desarrollador traduce los manuales técnicos al inglés y conserva el código y los diagramas para utilizarlos directamente en su trabajo. - Aprendizaje educativo
Los estudiantes lo utilizan para traducir libros de texto de lenguas extranjeras, con lo que aprenden el idioma y dominan el contenido al mismo tiempo.
CONTROL DE CALIDAD
- ¿Qué formatos de archivo son compatibles?
Sólo se admite PDF; otros formatos deben convertirse primero a PDF. - ¿Cuál es la diferencia entre los servicios en línea y la implantación local?
El servicio en línea es sencillo, con 1.000 páginas gratuitas al mes; las implantaciones locales requieren instalación, pero pueden personalizarse con más opciones. - ¿Y si la traducción no es exacta?
Prueba a cambiar de motor de traducción (por ejemplo, de Bing a OpenAI) o a ajustar el modelo. - ¿Cómo puedo contribuir con código?
comprobar CONTRIBUCIÓNLa afiliación a Immersive Translate está disponible para los colaboradores activos.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...