Aprendizagem pessoal com IA
e orientação prática

AI no jimaku gumi: geração e tradução automáticas de legendas multilíngues para vídeos com a ajuda da IA

Introdução geral

O AI no jimaku gumi (AI no subtitle group) é uma poderosa ferramenta de processamento de legendas de vídeo de linha de comando, cujo foco é permitir funções automatizadas de extração, transcrição e tradução de legendas de vídeo. A ferramenta integra tecnologias avançadas de IA, incluindo Sussurro Os modelos de reconhecimento de fala e uma variedade de backends de tradução (por exemplo, DeepL, LLM etc.) permitem o processamento eficiente do conteúdo de vídeo e áudio e a geração de arquivos de legenda de alta qualidade. Ele é compatível com a conversão entre vários idiomas, inclusive inglês, japonês, chinês, coreano e outros idiomas comuns, e oferece opções flexíveis de saída de legendas. Como um projeto de código aberto, ele não apenas fornece o código-fonte completo, mas também oferece suporte ao uso em várias plataformas e pode ser executado no Linux, no macOS e em outros sistemas operacionais importantes.

 

Lista de funções

  • Extrai automaticamente o conteúdo de áudio do vídeo e reconhece a fala
  • Suporta várias fontes de legendas: reconhecimento de áudio, extração de contêineres, reconhecimento de OCR
  • Integração com vários backends de tradução: DeepL, LLM, etc.
  • Suporte para tradução de e para vários idiomas comuns
  • Formato de saída de legenda configurável (formato SRT suportado atualmente)
  • Suporte à interceptação e ao processamento de videoclipes
  • Oferece modos de depuração: somente extração de áudio, somente transcrição, somente tradução e outras opções
  • Suporte para caminhos e configurações de modelos de IA personalizados
  • Suporte a várias plataformas (Linux, macOS e Windows serão suportados)

 

Usando a Ajuda

1. preparação ambiental

Sistemas Windows em preparação...

 

Dependências de instalação do sistema Linux:

  • Usuários do Ubuntu:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
  • Usuários do Fedora:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Usuários do Arch Linux:
pacman -S clang cmake ffmpeg make pkgconf

Dependências de instalação do sistema macOS:

Use o gerenciador de pacotes Homebrew:

brew install cmake ffmpeg

2. etapas de instalação

  1. Clonar o repositório de código:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
  1. Compile o projeto:
construção de carga
  1. Faça o download do modelo Whisper:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. uso básico

A ferramenta oferece várias opções de configuração:

  • -caminho de vídeo de entradaCaminho do arquivo de vídeo de entrada: especifique o caminho do arquivo de vídeo de entrada (obrigatório)
  • -idioma de origemIdioma de origem: idioma de origem (padrão: ja)
  • ---idioma de destinoIdioma de destino (padrão: en)
  • --ggml-model-pathCaminho do modelo de IA (padrão: ggml-tiny.bin)
  • --subtitle-output-pathCaminho de saída da legenda (padrão: output.srt)

4. configuração do back-end da tradução

DeepL backend de tradução (padrão):

  1. Configuração de variáveis de ambiente:
export DEEPL_API_KEY=Sua chave de API
export DEEPL_API_URL=https://api.deepl.com # Obrigatório para a versão paga da API

Backend de tradução do LLM:

  1. Configuração de variáveis de ambiente:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
  1. Exemplo de uso:
. /target/debug/ainojimakugumi --input-video-path video.webm \
---translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'traduzir isso para o inglês' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. funções avançadas

  • fazer uso de--start-timeresponder cantando--end-timePode processar clipes de vídeo específicos
  • --only-extract-audioExtrair somente o áudio (para depuração)
  • --only-transcriptLegenda: Somente legendas no idioma original
  • --only-translateFunção de tradução apenas
  • Oferece suporte a várias opções de fonte de legenda: áudio (padrão), contêiner, ocr.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " AI no jimaku gumi: geração e tradução automáticas de legendas multilíngues para vídeos com a ajuda da IA

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil