AI no jimaku gumi : génération et traduction automatiques de sous-titres multilingues pour les vidéos à l'aide de l'IA

Dernières ressources sur l'IAPosté il y a 9 mois Cercle de partage de l'IA

17.2K 00

Introduction générale

AI no jimaku gumi (AI no subtitle group) est un puissant outil de traitement des sous-titres vidéo en ligne de commande qui permet d'automatiser les fonctions d'extraction, de transcription et de traduction des sous-titres vidéo. L'outil intègre des technologies avancées d'intelligence artificielle, notamment Chuchotement Des modèles de reconnaissance vocale et une variété de backends de traduction (par exemple DeepL, LLM, etc.) permettent un traitement efficace du contenu vidéo et audio et la génération de fichiers de sous-titres de haute qualité. Il prend en charge la conversion entre plusieurs langues, dont l'anglais, le japonais, le chinois, le coréen et d'autres langues courantes, et offre des options de sortie de sous-titres flexibles. En tant que projet open source, il fournit non seulement le code source complet, mais prend également en charge l'utilisation multiplateforme et peut fonctionner sur Linux, macOS et d'autres systèmes d'exploitation majeurs.

Liste des fonctions

Extraction automatique du contenu audio d'une vidéo et reconnaissance de la parole
Prise en charge de plusieurs sources de sous-titres : reconnaissance audio, extraction de conteneurs, reconnaissance OCR
Intégration de plusieurs systèmes de traduction : DeepL, LLM, etc.
Prise en charge de la traduction depuis et vers de nombreuses langues courantes
Format de sortie des sous-titres configurable (le format SRT est actuellement pris en charge)
Prise en charge de l'interception et du traitement des clips vidéo
Fournit des modes de débogage : extraction audio uniquement, transcription uniquement, traduction uniquement, et autres options.
Prise en charge des chemins et configurations personnalisés du modèle d'IA
Prise en charge multiplateforme (Linux, macOS, Windows à prendre en charge)

Utiliser l'aide

1. préparation à l'environnement

Systèmes Windows en préparation...

Dépendances de l'installation du système Linux :

Utilisateurs d'Ubuntu :

apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev

Utilisateurs de Fedora :

dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config

Utilisateurs d'Arch Linux :

pacman -S clang cmake ffmpeg make pkgconf

dépendances de l'installation du système macOS :

Utilisez le gestionnaire de paquets Homebrew :

brew install cmake ffmpeg

2. les étapes de l'installation

Cloner le dépôt de code :

git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi

Compiler le projet :

cargo build

Télécharger le modèle Whisper :

wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. utilisation de base

L'outil offre plusieurs options de configuration :

--input-video-pathSpécifier le chemin d'accès au fichier vidéo d'entrée (obligatoire)
--source-languagelangue source (par défaut : ja)
--target-languageLangue cible : Langue cible (par défaut : en)
--ggml-model-path: chemin du modèle AI (par défaut : ggml-tiny.bin)
--subtitle-output-path: Chemin de sortie des sous-titres (par défaut : output.srt)

4. configuration du back-end de traduction

DeepL backend de traduction (par défaut) :

Définition des variables d'environnement :

export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM Backend de traduction :

Définition des variables d'environnement :

export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx

Exemple d'utilisation :

./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. fonctions avancées

utiliser--start-timerépondre en chantant--end-timePeut traiter des clips vidéo spécifiques
--only-extract-audioExtraire l'audio uniquement (pour le débogage)
--only-transcriptSous-titres en langue originale uniquement
--only-translateFonction de traduction uniquement
Prend en charge plusieurs options de sources de sous-titres : audio (par défaut), conteneur, ocr.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Devin.cursorrules：增强Cursor IDE开发体验，将Cursor/Windsurf打造成类Devin智能编程助手

Devin.cursorrules : Améliorer l'expérience de développement de l'IDE Cursor, faire de Cursor/Windsurf un assistant de programmation intelligent de type Devin

Dernières ressources sur l'IA # AI Java Open Source Projecct # Programmation AI

Il y a 9 mois

020K

NGCBot : WeChat Bot pour la diffusion de nouvelles, le dialogue avec l'IA et la gestion des discussions de groupe

Dernières ressources sur l'IA # AI Customer Service Robot # AI Java Open Source Projecct

Il y a 7 mois

020.7K

Grammarly : l'outil intelligent pour relire et optimiser les contenus écrits en temps réel

Dernières ressources sur l'IA # AI Rédaction

il y a 5 mois

018.2K

Jellypod : produire des podcasts multilingues sur l'IA, créer, éditer et distribuer des podcasts sur l'IA

Dernières ressources sur l'IA # Synthèse vocale AI

Il y a 8 mois

019.9K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

AI no jimaku gumi : génération et traduction automatiques de sous-titres multilingues pour les vidéos à l'aide de l'IA

Introduction générale

Liste des fonctions

Utiliser l'aide

1. préparation à l'environnement

Systèmes Windows en préparation...

Dépendances de l'installation du système Linux :

dépendances de l'installation du système macOS :

2. les étapes de l'installation

3. utilisation de base

4. configuration du back-end de traduction

DeepL backend de traduction (par défaut) :

LLM Backend de traduction :

5. fonctions avancées

TransRouter : un outil de conversion audio en temps réel pour la traduction du chinois vers l'anglais basé sur le modèle multimodal Gemini

J1 Assistant : Téléchargez J1 Assistant pour découvrir une nouvelle façon interactive d'utiliser l'assistant vocal.

Articles connexes

Devin.cursorrules : Améliorer l'expérience de développement de l'IDE Cursor, faire de Cursor/Windsurf un assistant de programmation intelligent de type Devin

NGCBot : WeChat Bot pour la diffusion de nouvelles, le dialogue avec l'IA et la gestion des discussions de groupe

Grammarly : l'outil intelligent pour relire et optimiser les contenus écrits en temps réel

Jellypod : produire des podcasts multilingues sur l'IA, créer, éditer et distribuer des podcasts sur l'IA

Pas de commentaires

Dernières collections

Derniers articles

AI no jimaku gumi : génération et traduction automatiques de sous-titres multilingues pour les vidéos à l'aide de l'IA

Introduction générale

Liste des fonctions

Utiliser l'aide

1. préparation à l'environnement

Systèmes Windows en préparation...

Dépendances de l'installation du système Linux :

dépendances de l'installation du système macOS :

2. les étapes de l'installation

3. utilisation de base

4. configuration du back-end de traduction

DeepL backend de traduction (par défaut) :

LLM Backend de traduction :

5. fonctions avancées

TransRouter : un outil de conversion audio en temps réel pour la traduction du chinois vers l'anglais basé sur le modèle multimodal Gemini

J1 Assistant : Téléchargez J1 Assistant pour découvrir une nouvelle façon interactive d'utiliser l'assistant vocal.

Articles connexes

Devin.cursorrules : Améliorer l'expérience de développement de l'IDE Cursor, faire de Cursor/Windsurf un assistant de programmation intelligent de type Devin

NGCBot : WeChat Bot pour la diffusion de nouvelles, le dialogue avec l'IA et la gestion des discussions de groupe

Grammarly : l'outil intelligent pour relire et optimiser les contenus écrits en temps réel

Jellypod : produire des podcasts multilingues sur l'IA, créer, éditer et distribuer des podcasts sur l'IA

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles