AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

AIの自作組:AIによる映像の多言語字幕の自動生成と翻訳

はじめに

AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする強力なコマンドライン動画字幕処理ツールです。このツールには、以下のような高度なAI技術が統合されています。 ウィスパー 音声認識モデルと多様な翻訳バックエンド(DeepL、LLMなど)により、映像・音声コンテンツを効率的に処理し、高品質な字幕ファイルを生成します。英語、日本語、中国語、韓国語、その他の主要言語を含む多言語間の変換をサポートし、柔軟な字幕出力オプションを提供します。オープンソースプロジェクトとして、完全なソースコードを提供するだけでなく、クロスプラットフォームでの使用をサポートし、Linux、macOSや他の主要なオペレーティングシステム上で実行することができます。

 

機能一覧

  • ビデオから音声コンテンツを自動的に抽出し、音声を認識します。
  • 複数の字幕ソースをサポート:音声認識、コンテナ抽出、OCR認識
  • 複数の翻訳バックエンドとの統合:DeepL、LLMなど。
  • 多くの主要言語からの翻訳および主要言語への翻訳をサポート
  • 設定可能な字幕出力フォーマット(現在SRTフォーマットをサポート)
  • ビデオクリップの受信と処理をサポート
  • 音声抽出のみ、文字起こしのみ、翻訳のみ、その他オプションのデバッグモードを提供
  • カスタムAIモデルパスとコンフィギュレーションのサポート
  • クロスプラットフォーム対応(Linux、macOS、Windowsに対応予定)

 

ヘルプの使用

1.環境準備

準備中のWindowsシステム...

 

Linuxシステムインストールの依存関係:

  • Ubuntuユーザー:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
  • Fedoraユーザー:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Arch Linuxユーザー:
pacman -S clang cmake ffmpeg make pkgconf

macOSシステムインストールの依存関係:

Homebrewパッケージマネージャを使用する:

brew install cmake ffmpeg

2.インストール手順

  1. コードリポジトリをクローンする:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
  1. プロジェクトをコンパイルする:
cargo build
  1. ウィスパーモデルのダウンロード
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3.基本的な使い方

このツールにはいくつかの設定オプションがある:

  • --input-video-path入力動画ファイルのパスを指定(必須)
  • --source-language: ソース言語 (デフォルト: ja)
  • --target-languageターゲット言語(デフォルト:en)
  • --ggml-model-pathAIモデルのパス(デフォルト:ggml-tiny.bin)
  • --subtitle-output-path字幕出力パス(デフォルト:output.srt)

4.翻訳バックエンド設定

DeepL 翻訳バックエンド (既定):

  1. 環境変数の設定:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM翻訳バックエンド:

  1. 環境変数の設定:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
  1. 使用例:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5.高度な機能

  • 利用する--start-time歌で応える--end-time特定のビデオクリップを処理できる
  • --only-extract-audio音声のみ抽出(デバッグ用)
  • --only-transcript原語字幕のみ
  • --only-translate翻訳機能のみ
  • 複数の字幕ソースオプションをサポート:オーディオ(デフォルト)、コンテナ、OCR。

無断転載を禁じます:チーフAIシェアリングサークル " AIの自作組:AIによる映像の多言語字幕の自動生成と翻訳
ja日本語