はじめに
AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする強力なコマンドライン動画字幕処理ツールです。このツールには、以下のような高度なAI技術が統合されています。 ウィスパー 音声認識モデルと多様な翻訳バックエンド(DeepL、LLMなど)により、映像・音声コンテンツを効率的に処理し、高品質な字幕ファイルを生成します。英語、日本語、中国語、韓国語、その他の主要言語を含む多言語間の変換をサポートし、柔軟な字幕出力オプションを提供します。オープンソースプロジェクトとして、完全なソースコードを提供するだけでなく、クロスプラットフォームでの使用をサポートし、Linux、macOSや他の主要なオペレーティングシステム上で実行することができます。
機能一覧
- ビデオから音声コンテンツを自動的に抽出し、音声を認識します。
- 複数の字幕ソースをサポート:音声認識、コンテナ抽出、OCR認識
- 複数の翻訳バックエンドとの統合:DeepL、LLMなど。
- 多くの主要言語からの翻訳および主要言語への翻訳をサポート
- 設定可能な字幕出力フォーマット(現在SRTフォーマットをサポート)
- ビデオクリップの受信と処理をサポート
- 音声抽出のみ、文字起こしのみ、翻訳のみ、その他オプションのデバッグモードを提供
- カスタムAIモデルパスとコンフィギュレーションのサポート
- クロスプラットフォーム対応(Linux、macOS、Windowsに対応予定)
ヘルプの使用
1.環境準備
準備中のWindowsシステム...
Linuxシステムインストールの依存関係:
- Ubuntuユーザー:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-devlibwresample-dev libswscale-dev
- Fedoraユーザー:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Arch Linuxユーザー:
pacman -S clang cmake ffmpeg make pkgconf
macOSシステムインストールの依存関係:
Homebrewパッケージマネージャを使用する:
brew install cmake ffmpeg
2.インストール手順
- コードリポジトリをクローンする:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd 愛の自作組
- プロジェクトをコンパイルする:
カーゴビルド
- ウィスパーモデルのダウンロード
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3.基本的な使い方
このツールにはいくつかの設定オプションがある:
--入力ビデオパス
入力動画ファイルのパスを指定(必須)--ソース言語
: ソース言語 (デフォルト: ja)---ターゲット言語
ターゲット言語(デフォルト:en)--ggml-model-path
AIモデルのパス(デフォルト:ggml-tiny.bin)--字幕出力パス
字幕出力パス(デフォルト:output.srt)
4.翻訳バックエンド設定
DeepL 翻訳バックエンド (既定):
- 環境変数の設定:
export DEEPL_API_KEY=あなたのAPIキー
export DEEPL_API_URL=https://api.deepl.com # 有料APIバージョンに必要です。
LLM翻訳バックエンド:
- 環境変数の設定:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxx
- 使用例:
./target/debug/ainojimakugumi --input-video-path video.webm \
---translator-backend llm ୧-͈ᴗ-͈.
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'これを英語に翻訳してください' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5.高度な機能
- 利用する
--開始時間
歌で応える--終了時刻
特定のビデオクリップを処理できる --音声のみ抽出
音声のみ抽出(デバッグ用)--オンリー・トランスクリプト
原語字幕のみ--翻訳のみ
翻訳機能のみ- 複数の字幕ソースオプションをサポート:オーディオ(デフォルト)、コンテナ、OCR。