AIの自作組：AIによる映像の多言語字幕の自動生成と翻訳

60.6K 00

はじめに

AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする強力なコマンドライン動画字幕処理ツールです。このツールには、以下のような高度なAI技術が統合されています。ウィスパー音声認識モデルと多様な翻訳バックエンド（DeepL、LLMなど）により、映像・音声コンテンツを効率的に処理し、高品質な字幕ファイルを生成します。英語、日本語、中国語、韓国語、その他の主要言語を含む多言語間の変換をサポートし、柔軟な字幕出力オプションを提供します。オープンソースプロジェクトとして、完全なソースコードを提供するだけでなく、クロスプラットフォームでの使用をサポートし、Linux、macOSや他の主要なオペレーティングシステム上で実行することができます。

機能一覧

ビデオから音声コンテンツを自動的に抽出し、音声を認識します。
複数の字幕ソースをサポート：音声認識、コンテナ抽出、OCR認識
複数の翻訳バックエンドとの統合：DeepL、LLMなど。
多くの主要言語からの翻訳および主要言語への翻訳をサポート
設定可能な字幕出力フォーマット（現在SRTフォーマットをサポート）
ビデオクリップの受信と処理をサポート
音声抽出のみ、文字起こしのみ、翻訳のみ、その他オプションのデバッグモードを提供
カスタムAIモデルパスとコンフィギュレーションのサポート
クロスプラットフォーム対応（Linux、macOS、Windowsに対応予定）

ヘルプの使用

1.環境準備

準備中のWindowsシステム...

Linuxシステムインストールの依存関係：

Ubuntuユーザー：

apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev

Fedoraユーザー：

dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config

Arch Linuxユーザー：

pacman -S clang cmake ffmpeg make pkgconf

macOSシステムインストールの依存関係：

Homebrewパッケージマネージャを使用する：

brew install cmake ffmpeg

2.インストール手順

コードリポジトリをクローンする：

git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi

プロジェクトをコンパイルする：

cargo build

ウィスパーモデルのダウンロード

wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3.基本的な使い方

このツールにはいくつかの設定オプションがある：

--input-video-path入力動画ファイルのパスを指定（必須）
--source-language: ソース言語 (デフォルト: ja)
--target-languageターゲット言語（デフォルト：en）
--ggml-model-pathAIモデルのパス（デフォルト：ggml-tiny.bin）
--subtitle-output-path字幕出力パス（デフォルト：output.srt）

4.翻訳バックエンド設定

DeepL 翻訳バックエンド (既定)：

環境変数の設定：

export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM翻訳バックエンド：

環境変数の設定：

export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx

使用例：

./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin