AI no jimaku gumi: generación y traducción automática de subtítulos multilingües para vídeos con ayuda de la IA.
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 2.2K 00
Introducción general
AI no jimaku gumi (AI no subtitle group) es una potente herramienta de procesamiento de subtítulos de vídeo de línea de comandos centrada en permitir funciones automatizadas de extracción, transcripción y traducción de subtítulos de vídeo. La herramienta integra tecnologías avanzadas de IA, como Susurro Los modelos de reconocimiento de voz y diversos backends de traducción (por ejemplo, DeepL, LLM, etc.) permiten procesar eficazmente los contenidos de vídeo y audio y generar archivos de subtítulos de alta calidad. Admite la conversión entre varios idiomas, como inglés, japonés, chino, coreano y otras lenguas mayoritarias, y ofrece opciones flexibles de salida de subtítulos. Como proyecto de código abierto, no sólo proporciona el código fuente completo, sino que también admite el uso multiplataforma y puede ejecutarse en Linux, macOS y otros sistemas operativos importantes.
Lista de funciones
- Extrae automáticamente el contenido de audio del vídeo y reconoce el habla
- Admite varias fuentes de subtítulos: reconocimiento de audio, extracción de contenedores, reconocimiento OCR
- Integración con múltiples backends de traducción: DeepL, LLM, etc.
- Posibilidad de traducir de y a muchos idiomas corrientes
- Formato de salida de subtítulos configurable (actualmente se admite el formato SRT)
- Interceptación y procesamiento de videoclips
- Ofrece modos de depuración: sólo extracción de audio, sólo transcripción, sólo traducción y otras opciones.
- Compatibilidad con rutas y configuraciones personalizadas del modelo de IA
- Compatibilidad multiplataforma (Linux, macOS, Windows)
Utilizar la ayuda
1. Preparación medioambiental
Sistemas Windows en preparación...
Dependencias de instalación del sistema Linux:
- Usuarios de Ubuntu:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
- Usuarios de Fedora:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Usuarios de Arch Linux:
pacman -S clang cmake ffmpeg make pkgconf
dependencias de instalación del sistema macOS:
Utiliza el gestor de paquetes Homebrew:
brew install cmake ffmpeg
2. Pasos de la instalación
- Clonar el repositorio de código:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
- Compila el proyecto:
cargo build
- Descarga el modelo Whisper:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3. Uso básico
La herramienta ofrece varias opciones de configuración:
--input-video-path
: Especifique la ruta del archivo de vídeo de entrada (obligatorio)--source-language
Idioma de origen (por defecto: ja)--target-language
: Idioma de destino (por defecto: en)--ggml-model-path
Ruta del modelo AI (por defecto: ggml-tiny.bin)--subtitle-output-path
: Ruta de salida de los subtítulos (por defecto: output.srt)
4. Configuración del back-end de traducción
DeepL backend de traducción (por defecto):
- Configuración de variables de entorno:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com # 付费API版本需要
Backend de traducción LLM:
- Configuración de variables de entorno:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
- Ejemplo de uso:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5. Funciones avanzadas
- utilizar
--start-time
responder cantando--end-time
Puede procesar videoclips específicos --only-extract-audio
: Extraer sólo audio (para depuración)--only-transcript
Subtítulos en el idioma original--only-translate
Sólo función de traducción- Admite varias opciones de fuente de subtítulos: audio (por defecto), contenedor, ocr.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...