Introdução geral
O AI no jimaku gumi (AI no subtitle group) é uma poderosa ferramenta de processamento de legendas de vídeo de linha de comando, cujo foco é permitir funções automatizadas de extração, transcrição e tradução de legendas de vídeo. A ferramenta integra tecnologias avançadas de IA, incluindo Sussurro Os modelos de reconhecimento de fala e uma variedade de backends de tradução (por exemplo, DeepL, LLM etc.) permitem o processamento eficiente do conteúdo de vídeo e áudio e a geração de arquivos de legenda de alta qualidade. Ele é compatível com a conversão entre vários idiomas, inclusive inglês, japonês, chinês, coreano e outros idiomas comuns, e oferece opções flexíveis de saída de legendas. Como um projeto de código aberto, ele não apenas fornece o código-fonte completo, mas também oferece suporte ao uso em várias plataformas e pode ser executado no Linux, no macOS e em outros sistemas operacionais importantes.
Lista de funções
- Extrai automaticamente o conteúdo de áudio do vídeo e reconhece a fala
- Suporta várias fontes de legendas: reconhecimento de áudio, extração de contêineres, reconhecimento de OCR
- Integração com vários backends de tradução: DeepL, LLM, etc.
- Suporte para tradução de e para vários idiomas comuns
- Formato de saída de legenda configurável (formato SRT suportado atualmente)
- Suporte à interceptação e ao processamento de videoclipes
- Oferece modos de depuração: somente extração de áudio, somente transcrição, somente tradução e outras opções
- Suporte para caminhos e configurações de modelos de IA personalizados
- Suporte a várias plataformas (Linux, macOS e Windows serão suportados)
Usando a Ajuda
1. preparação ambiental
Sistemas Windows em preparação...
Dependências de instalação do sistema Linux:
- Usuários do Ubuntu:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
- Usuários do Fedora:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Usuários do Arch Linux:
pacman -S clang cmake ffmpeg make pkgconf
Dependências de instalação do sistema macOS:
Use o gerenciador de pacotes Homebrew:
brew install cmake ffmpeg
2. etapas de instalação
- Clonar o repositório de código:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
- Compile o projeto:
construção de carga
- Faça o download do modelo Whisper:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3. uso básico
A ferramenta oferece várias opções de configuração:
-caminho de vídeo de entrada
Caminho do arquivo de vídeo de entrada: especifique o caminho do arquivo de vídeo de entrada (obrigatório)-idioma de origem
Idioma de origem: idioma de origem (padrão: ja)---idioma de destino
Idioma de destino (padrão: en)--ggml-model-path
Caminho do modelo de IA (padrão: ggml-tiny.bin)--subtitle-output-path
Caminho de saída da legenda (padrão: output.srt)
4. configuração do back-end da tradução
DeepL backend de tradução (padrão):
- Configuração de variáveis de ambiente:
export DEEPL_API_KEY=Sua chave de API
export DEEPL_API_URL=https://api.deepl.com # Obrigatório para a versão paga da API
Backend de tradução do LLM:
- Configuração de variáveis de ambiente:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
- Exemplo de uso:
. /target/debug/ainojimakugumi --input-video-path video.webm \
---translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'traduzir isso para o inglês' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5. funções avançadas
- fazer uso de
--start-time
responder cantando--end-time
Pode processar clipes de vídeo específicos --only-extract-audio
Extrair somente o áudio (para depuração)--only-transcript
Legenda: Somente legendas no idioma original--only-translate
Função de tradução apenas- Oferece suporte a várias opções de fonte de legenda: áudio (padrão), contêiner, ocr.