BabelDOC : les documents PDF seront traduits dans des outils open source bilingues
Introduction générale
BabelDOC est un outil open source conçu pour traduire des documents PDF dans des formats bilingues. Développé par l'équipe funstory-ai et hébergé sur GitHub, il s'adresse principalement aux utilisateurs qui ont besoin de travailler avec des documents en langue étrangère, tels que les chercheurs, les étudiants et les techniciens.BabelDOC prend en charge la traduction de PDF anglais en chinois, en préservant la mise en page d'origine, y compris les formules mathématiques et les tableaux. Les utilisateurs peuvent l'utiliser par le biais d'un service en ligne, d'une ligne de commande instrumentée (CLI) ou de l'API Python. Le service en ligne est fourni par Immersive Translate et est gratuit pour 1000 pages par mois, tandis que l'auto-déploiement est disponible via le code source ou l'API Python. PDFMathTranslate Réalisation du projet.

Liste des fonctions
- Traduisez des fichiers PDF dans un format bilingue avec le texte original et le texte traduit affichés côte à côte.
- Conserve la typographie d'origine et favorise la présentation correcte des formules mathématiques, des tableaux et des images.
- Fournit des outils de ligne de commande (CLI) pour prendre en charge la traduction par lots de plusieurs fichiers.
- Fournir une API Python, facile à intégrer dans d'autres programmes pour les développeurs.
- Prise en charge des services en ligne, traduction gratuite de 1000 pages par mois.
- L'auto-déploiement est pris en charge, avec la possibilité d'exécuter localement ou d'utiliser des services de traduction supplémentaires en conjonction avec PDFMathTranslate.
- Configurable avec plusieurs moteurs de traduction, tels que OpenAI, Bing, etc.
- Permet de gérer les paquets de ressources hors ligne, ce qui convient à un environnement sans réseau.
Utiliser l'aide
BabelDOC peut être utilisé de différentes manières, y compris dans le cadre de services en ligne et de déploiements locaux. Voici un guide détaillé pour vous aider à démarrer rapidement.
Utilisation des services en ligne
- Accès aux services en ligne
spectacle (un billet) Traduction immersive - BabelDOCIl s'agit d'un service Beta. - Téléchargement de fichiers
Cliquez sur le bouton Upload et sélectionnez le fichier PDF à traduire. La taille du fichier et le nombre de pages doivent être conformes au quota gratuit (1000 pages/mois). - Sélectionner la langue
La traduction de l'anglais vers le chinois est prise en charge par défaut. Après le téléchargement, le système traitera et générera automatiquement un PDF bilingue. - Télécharger les résultats
Une fois la traduction terminée, cliquez sur le bouton de téléchargement pour obtenir le fichier traduit. Le résultat contiendra le texte original et la traduction affichés côte à côte.
Processus d'installation locale
BabelDOC supporte l'installation à partir de PyPI ou des sources, et est recommandé. uv
Gestion de l'environnement.
Installation à partir de PyPI
- Installation de Python et d'uv
Assurez-vous que votre système dispose de Python 3.12 ou d'une version ultérieure. Téléchargez et installez uv et configurez les variables d'environnement. - Installation de BabelDOC
S'exécute dans le terminal :
uv tool install --python 3.12 BabelDOC
- Vérifier l'installation
Entrée :
babeldoc --help
Si un message d'aide s'affiche, l'installation a réussi.
Installation à partir de la source
- projet de clonage
S'exécute dans le terminal :
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
- Installation des dépendances
utiliseruv
Installer la dépendance :
uv run pip install -r requirements.txt
- Vérifier l'installation
La course à pied :
uv run babeldoc --help
L'affichage du message d'aide indique que l'opération a réussi.
Ressourcement hors ligne
Si vous devez l'utiliser hors ligne, vous pouvez gérer le pack de ressources :
- Générer un kit de ressources
babeldoc --generate-offline-assets /path/to/output/dir
Le fichier zip généré contient des polices et des modèles.
2. Kit de ressources pour la récupération
babeldoc --restore-offline-assets /path/to/offline_assets_package.zip
Les ressources seront extraites dans le chemin d'accès par défaut ~/.cache/babeldoc/assets/
.
Utilisation locale
Utilisation de la ligne de commande
- Traduction de documents individuels
Supposons qu'il existe un fichierexample.pdf
Traduit avec OpenAI :
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"
Le fichier de sortie est automatiquement généré sous la forme example_translated.pdf
.
2. Traduction de plusieurs documents
Gère plusieurs fichiers :
babeldoc --files example1.pdf --files example2.pdf --bing
- Spécifier la page
Traduire uniquement les pages 1, 3 et 5 :
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
- Adaptation de la langue
Traduction par défaut de l'anglais vers le chinois, si d'autres langues sont requises :
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"
Utilisation de l'API Python
- traduction de base
Création de documentstranslate.py
: :
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)
être en mouvement python translate.py
Prêt à traduire.
2. Gestion des ressources hors ligne
from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))
Fonction en vedette Fonctionnement
- bilinguisme
Le PDF traduit place le texte original et le texte traduit côte à côte. Par exemple, l'anglais est à gauche et le chinois à droite pour faciliter la comparaison. Les formules telles queE=mc^2
Le texte original sera conservé, accompagné d'explications sur la traduction. - Soutien à la documentation complexe
Permet de reconnaître et de conserver les formules et les tableaux mathématiques. La traduction ne détruit pas la structure originale. - Déploiement flexible
Les services en ligne sont simples et rapides, et l'auto-déploiement permet davantage d'options de personnalisation telles que la sélection du moteur de traduction.
Amélioration de l'auto-déploiement
Si vous avez besoin de plus de fonctionnalités, vous pouvez utiliser PDFMathTranslate :
- Installer PDFMathTranslate
Suivez les instructions de GitHub pour l'installer, avec la prise en charge de l'interface WebUI et d'autres services de traduction. - Combiné avec BabelDOC
PDFMathTranslate version 1.9.3+ supporte expérimentalement BabelDOC pour des capacités de traduction améliorées.
mise en garde
- Le service en ligne est gratuit pour 1 000 pages par mois, au-delà il faut payer.
- Pour un déploiement local, vous devez configurer une clé API, telle que la clé OpenAI, qui peut être obtenue sur le site web d'OpenAI.
- Actuellement, il est principalement optimisé pour la traduction de l'anglais vers le chinois, avec une prise en charge limitée pour les autres langues.
- Il est recommandé d'utiliser des fichiers volumineux
--max-pages-per-part
Segmentation.
scénario d'application
- recherche universitaire
Le chercheur a reçu le document anglais et l'a traduit en version bilingue à l'aide de BabelDOC pour faciliter la lecture et la compréhension. - Traduction de la documentation technique
Le développeur traduit les manuels techniques en anglais et conserve le code et les diagrammes pour les utiliser directement dans son travail. - Apprentissage éducatif
Les étudiants l'utilisent pour traduire des manuels de langues étrangères, ce qui leur permet d'apprendre la langue et de maîtriser le contenu en même temps.
QA
- Quels sont les formats de fichiers pris en charge ?
Seul le format PDF est pris en charge, les autres formats doivent d'abord être convertis en PDF. - Quelle est la différence entre les services en ligne et le déploiement local ?
Le service en ligne est simple, avec 1 000 pages gratuites par mois ; les déploiements locaux nécessitent une installation mais peuvent être personnalisés avec davantage d'options. - Que se passe-t-il si la traduction n'est pas exacte ?
Essayez de changer de moteur de traduction (par exemple de Bing à OpenAI) ou d'ajuster le modèle. - Comment contribuer au code ?
vérifier CONTRIBUTIONL'adhésion à Immersive Translate est disponible pour les contributeurs actifs.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...