AI no jimaku gumi: geração e tradução automáticas de legendas multilíngues para vídeos com a ajuda da IA

Recursos mais recentes de IAPublicado há 8 meses Círculo de compartilhamento de IA

10.8K 00

Introdução geral

O AI no jimaku gumi (AI no subtitle group) é uma poderosa ferramenta de processamento de legendas de vídeo de linha de comando, cujo foco é permitir funções automatizadas de extração, transcrição e tradução de legendas de vídeo. A ferramenta integra tecnologias avançadas de IA, incluindo Sussurro Os modelos de reconhecimento de fala e uma variedade de backends de tradução (por exemplo, DeepL, LLM etc.) permitem o processamento eficiente do conteúdo de vídeo e áudio e a geração de arquivos de legenda de alta qualidade. Ele é compatível com a conversão entre vários idiomas, inclusive inglês, japonês, chinês, coreano e outros idiomas comuns, e oferece opções flexíveis de saída de legendas. Como um projeto de código aberto, ele não apenas fornece o código-fonte completo, mas também oferece suporte ao uso em várias plataformas e pode ser executado no Linux, no macOS e em outros sistemas operacionais importantes.

Lista de funções

Extrai automaticamente o conteúdo de áudio do vídeo e reconhece a fala
Suporta várias fontes de legendas: reconhecimento de áudio, extração de contêineres, reconhecimento de OCR
Integração com vários backends de tradução: DeepL, LLM, etc.
Suporte para tradução de e para vários idiomas comuns
Formato de saída de legenda configurável (formato SRT suportado atualmente)
Suporte à interceptação e ao processamento de videoclipes
Oferece modos de depuração: somente extração de áudio, somente transcrição, somente tradução e outras opções
Suporte para caminhos e configurações de modelos de IA personalizados
Suporte a várias plataformas (Linux, macOS e Windows serão suportados)

Usando a Ajuda

1. preparação ambiental

Sistemas Windows em preparação...

Dependências de instalação do sistema Linux:

Usuários do Ubuntu:

apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev

Usuários do Fedora:

dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config

Usuários do Arch Linux:

pacman -S clang cmake ffmpeg make pkgconf

Dependências de instalação do sistema macOS:

Use o gerenciador de pacotes Homebrew:

brew install cmake ffmpeg

2. etapas de instalação

Clonar o repositório de código:

git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi

Compile o projeto:

cargo build

Faça o download do modelo Whisper:

wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. uso básico

A ferramenta oferece várias opções de configuração:

--input-video-pathCaminho do arquivo de vídeo de entrada: especifique o caminho do arquivo de vídeo de entrada (obrigatório)
--source-languageIdioma de origem: idioma de origem (padrão: ja)
--target-languageIdioma de destino (padrão: en)
--ggml-model-pathCaminho do modelo de IA (padrão: ggml-tiny.bin)
--subtitle-output-pathCaminho de saída da legenda (padrão: output.srt)

4. configuração do back-end da tradução

DeepL backend de tradução (padrão):

Configuração de variáveis de ambiente:

export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

Backend de tradução do LLM:

Configuração de variáveis de ambiente:

export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx

Exemplo de uso:

./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. funções avançadas

fazer uso de--start-timeresponder cantando--end-timePode processar clipes de vídeo específicos
--only-extract-audioExtrair somente o áudio (para depuração)
--only-transcriptLegenda: Somente legendas no idioma original
--only-translateFunção de tradução apenas
Oferece suporte a várias opções de fonte de legenda: áudio (padrão), contêiner, ocr.