AI no jimaku gumi : génération et traduction automatiques de sous-titres multilingues pour les vidéos à l'aide de l'IA
Introduction générale
AI no jimaku gumi (AI no subtitle group) est un puissant outil de traitement des sous-titres vidéo en ligne de commande qui permet d'automatiser les fonctions d'extraction, de transcription et de traduction des sous-titres vidéo. L'outil intègre des technologies avancées d'intelligence artificielle, notamment Chuchotement Des modèles de reconnaissance vocale et une variété de backends de traduction (par exemple DeepL, LLM, etc.) permettent un traitement efficace du contenu vidéo et audio et la génération de fichiers de sous-titres de haute qualité. Il prend en charge la conversion entre plusieurs langues, dont l'anglais, le japonais, le chinois, le coréen et d'autres langues courantes, et offre des options de sortie de sous-titres flexibles. En tant que projet open source, il fournit non seulement le code source complet, mais prend également en charge l'utilisation multiplateforme et peut fonctionner sur Linux, macOS et d'autres systèmes d'exploitation majeurs.
Liste des fonctions
- Extraction automatique du contenu audio d'une vidéo et reconnaissance de la parole
- Prise en charge de plusieurs sources de sous-titres : reconnaissance audio, extraction de conteneurs, reconnaissance OCR
- Intégration de plusieurs systèmes de traduction : DeepL, LLM, etc.
- Prise en charge de la traduction depuis et vers de nombreuses langues courantes
- Format de sortie des sous-titres configurable (le format SRT est actuellement pris en charge)
- Prise en charge de l'interception et du traitement des clips vidéo
- Fournit des modes de débogage : extraction audio uniquement, transcription uniquement, traduction uniquement, et autres options.
- Prise en charge des chemins et configurations personnalisés du modèle d'IA
- Prise en charge multiplateforme (Linux, macOS, Windows à prendre en charge)
Utiliser l'aide
1. préparation à l'environnement
Systèmes Windows en préparation...
Dépendances de l'installation du système Linux :
- Utilisateurs d'Ubuntu :
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
- Utilisateurs de Fedora :
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Utilisateurs d'Arch Linux :
pacman -S clang cmake ffmpeg make pkgconf
dépendances de l'installation du système macOS :
Utilisez le gestionnaire de paquets Homebrew :
brew install cmake ffmpeg
2. les étapes de l'installation
- Cloner le dépôt de code :
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
- Compiler le projet :
cargo build
- Télécharger le modèle Whisper :
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3. utilisation de base
L'outil offre plusieurs options de configuration :
--input-video-path
Spécifier le chemin d'accès au fichier vidéo d'entrée (obligatoire)--source-language
langue source (par défaut : ja)--target-language
Langue cible : Langue cible (par défaut : en)--ggml-model-path
: chemin du modèle AI (par défaut : ggml-tiny.bin)--subtitle-output-path
: Chemin de sortie des sous-titres (par défaut : output.srt)
4. configuration du back-end de traduction
DeepL backend de traduction (par défaut) :
- Définition des variables d'environnement :
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com # 付费API版本需要
LLM Backend de traduction :
- Définition des variables d'environnement :
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
- Exemple d'utilisation :
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5. fonctions avancées
- utiliser
--start-time
répondre en chantant--end-time
Peut traiter des clips vidéo spécifiques --only-extract-audio
Extraire l'audio uniquement (pour le débogage)--only-transcript
Sous-titres en langue originale uniquement--only-translate
Fonction de traduction uniquement- Prend en charge plusieurs options de sources de sous-titres : audio (par défaut), conteneur, ocr.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...