BabelDOC : les documents PDF seront traduits dans des outils open source bilingues

Introduction générale

BabelDOC est un outil open source conçu pour traduire des documents PDF dans des formats bilingues. Développé par l'équipe funstory-ai et hébergé sur GitHub, il s'adresse principalement aux utilisateurs qui ont besoin de travailler avec des documents en langue étrangère, tels que les chercheurs, les étudiants et les techniciens.BabelDOC prend en charge la traduction de PDF anglais en chinois, en préservant la mise en page d'origine, y compris les formules mathématiques et les tableaux. Les utilisateurs peuvent l'utiliser par le biais d'un service en ligne, d'une ligne de commande instrumentée (CLI) ou de l'API Python. Le service en ligne est fourni par Immersive Translate et est gratuit pour 1000 pages par mois, tandis que l'auto-déploiement est disponible via le code source ou l'API Python. PDFMathTranslate Réalisation du projet.

BabelDOC:将PDF文档翻译成双语对照的开源工具

 

Liste des fonctions

  • Traduisez des fichiers PDF dans un format bilingue avec le texte original et le texte traduit affichés côte à côte.
  • Conserve la typographie d'origine et favorise la présentation correcte des formules mathématiques, des tableaux et des images.
  • Fournit des outils de ligne de commande (CLI) pour prendre en charge la traduction par lots de plusieurs fichiers.
  • Fournir une API Python, facile à intégrer dans d'autres programmes pour les développeurs.
  • Prise en charge des services en ligne, traduction gratuite de 1000 pages par mois.
  • L'auto-déploiement est pris en charge, avec la possibilité d'exécuter localement ou d'utiliser des services de traduction supplémentaires en conjonction avec PDFMathTranslate.
  • Configurable avec plusieurs moteurs de traduction, tels que OpenAI, Bing, etc.
  • Permet de gérer les paquets de ressources hors ligne, ce qui convient à un environnement sans réseau.

 

Utiliser l'aide

BabelDOC peut être utilisé de différentes manières, y compris dans le cadre de services en ligne et de déploiements locaux. Voici un guide détaillé pour vous aider à démarrer rapidement.

Utilisation des services en ligne

  1. Accès aux services en ligne
    spectacle (un billet) Traduction immersive - BabelDOCIl s'agit d'un service Beta.
  2. Téléchargement de fichiers
    Cliquez sur le bouton Upload et sélectionnez le fichier PDF à traduire. La taille du fichier et le nombre de pages doivent être conformes au quota gratuit (1000 pages/mois).
  3. Sélectionner la langue
    La traduction de l'anglais vers le chinois est prise en charge par défaut. Après le téléchargement, le système traitera et générera automatiquement un PDF bilingue.
  4. Télécharger les résultats
    Une fois la traduction terminée, cliquez sur le bouton de téléchargement pour obtenir le fichier traduit. Le résultat contiendra le texte original et la traduction affichés côte à côte.

Processus d'installation locale

BabelDOC supporte l'installation à partir de PyPI ou des sources, et est recommandé. uv Gestion de l'environnement.

Installation à partir de PyPI

  1. Installation de Python et d'uv
    Assurez-vous que votre système dispose de Python 3.12 ou d'une version ultérieure. Téléchargez et installez uv et configurez les variables d'environnement.
  2. Installation de BabelDOC
    S'exécute dans le terminal :
uv tool install --python 3.12 BabelDOC
  1. Vérifier l'installation
    Entrée :
babeldoc --help

Si un message d'aide s'affiche, l'installation a réussi.

Installation à partir de la source

  1. projet de clonage
    S'exécute dans le terminal :
git clone https://github.com/funstory-ai/BabelDOC
cd BabelDOC
  1. Installation des dépendances
    utiliser uv Installer la dépendance :
uv run pip install -r requirements.txt
  1. Vérifier l'installation
    La course à pied :
uv run babeldoc --help

L'affichage du message d'aide indique que l'opération a réussi.

Ressourcement hors ligne

Si vous devez l'utiliser hors ligne, vous pouvez gérer le pack de ressources :

  1. Générer un kit de ressources
babeldoc --generate-offline-assets /path/to/output/dir

Le fichier zip généré contient des polices et des modèles.
2. Kit de ressources pour la récupération

babeldoc --restore-offline-assets /path/to/offline_assets_package.zip

Les ressources seront extraites dans le chemin d'accès par défaut ~/.cache/babeldoc/assets/.

Utilisation locale

Utilisation de la ligne de commande

  1. Traduction de documents individuels
    Supposons qu'il existe un fichier example.pdfTraduit avec OpenAI :
babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-api-key "你的API密钥"

Le fichier de sortie est automatiquement généré sous la forme example_translated.pdf.
2. Traduction de plusieurs documents
Gère plusieurs fichiers :

babeldoc --files example1.pdf --files example2.pdf --bing
  1. Spécifier la page
    Traduire uniquement les pages 1, 3 et 5 :
babeldoc --files example.pdf --pages "1,3-5" --openai --openai-api-key "你的API密钥"
  1. Adaptation de la langue
    Traduction par défaut de l'anglais vers le chinois, si d'autres langues sont requises :
babeldoc --files example.pdf --lang-in "en" --lang-out "fr" --openai --openai-api-key "你的API密钥"

Utilisation de l'API Python

  1. traduction de base
    Création de documents translate.py: :
from babeldoc.main import TranslationConfig, translate_document
config = TranslationConfig(
files=["example.pdf"],
lang_in="en",
lang_out="zh",
translator="openai",
openai_api_key="你的API密钥",
openai_model="gpt-4o-mini"
)
translate_document(config)

être en mouvement python translate.py Prêt à traduire.
2. Gestion des ressources hors ligne

from pathlib import Path
from babeldoc.assets.assets import generate_offline_assets_package, restore_offline_assets_package
# 生成资源包
generate_offline_assets_package(Path("/path/to/output/dir"))
# 恢复资源包
restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))

Fonction en vedette Fonctionnement

  1. bilinguisme
    Le PDF traduit place le texte original et le texte traduit côte à côte. Par exemple, l'anglais est à gauche et le chinois à droite pour faciliter la comparaison. Les formules telles que E=mc^2 Le texte original sera conservé, accompagné d'explications sur la traduction.
  2. Soutien à la documentation complexe
    Permet de reconnaître et de conserver les formules et les tableaux mathématiques. La traduction ne détruit pas la structure originale.
  3. Déploiement flexible
    Les services en ligne sont simples et rapides, et l'auto-déploiement permet davantage d'options de personnalisation telles que la sélection du moteur de traduction.

Amélioration de l'auto-déploiement

Si vous avez besoin de plus de fonctionnalités, vous pouvez utiliser PDFMathTranslate :

  1. Installer PDFMathTranslate
    Suivez les instructions de GitHub pour l'installer, avec la prise en charge de l'interface WebUI et d'autres services de traduction.
  2. Combiné avec BabelDOC
    PDFMathTranslate version 1.9.3+ supporte expérimentalement BabelDOC pour des capacités de traduction améliorées.

mise en garde

  • Le service en ligne est gratuit pour 1 000 pages par mois, au-delà il faut payer.
  • Pour un déploiement local, vous devez configurer une clé API, telle que la clé OpenAI, qui peut être obtenue sur le site web d'OpenAI.
  • Actuellement, il est principalement optimisé pour la traduction de l'anglais vers le chinois, avec une prise en charge limitée pour les autres langues.
  • Il est recommandé d'utiliser des fichiers volumineux --max-pages-per-part Segmentation.

 

scénario d'application

  1. recherche universitaire
    Le chercheur a reçu le document anglais et l'a traduit en version bilingue à l'aide de BabelDOC pour faciliter la lecture et la compréhension.
  2. Traduction de la documentation technique
    Le développeur traduit les manuels techniques en anglais et conserve le code et les diagrammes pour les utiliser directement dans son travail.
  3. Apprentissage éducatif
    Les étudiants l'utilisent pour traduire des manuels de langues étrangères, ce qui leur permet d'apprendre la langue et de maîtriser le contenu en même temps.

 

QA

  1. Quels sont les formats de fichiers pris en charge ?
    Seul le format PDF est pris en charge, les autres formats doivent d'abord être convertis en PDF.
  2. Quelle est la différence entre les services en ligne et le déploiement local ?
    Le service en ligne est simple, avec 1 000 pages gratuites par mois ; les déploiements locaux nécessitent une installation mais peuvent être personnalisés avec davantage d'options.
  3. Que se passe-t-il si la traduction n'est pas exacte ?
    Essayez de changer de moteur de traduction (par exemple de Bing à OpenAI) ou d'ajuster le modèle.
  4. Comment contribuer au code ?
    vérifier CONTRIBUTIONL'adhésion à Immersive Translate est disponible pour les contributeurs actifs.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...