AIパーソナル・ラーニング
と実践的なガイダンス

AIの自作組:AIによる映像の多言語字幕の自動生成と翻訳

はじめに

AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする強力なコマンドライン動画字幕処理ツールです。このツールには、以下のような高度なAI技術が統合されています。 ウィスパー 音声認識モデルと多様な翻訳バックエンド(DeepL、LLMなど)により、映像・音声コンテンツを効率的に処理し、高品質な字幕ファイルを生成します。英語、日本語、中国語、韓国語、その他の主要言語を含む多言語間の変換をサポートし、柔軟な字幕出力オプションを提供します。オープンソースプロジェクトとして、完全なソースコードを提供するだけでなく、クロスプラットフォームでの使用をサポートし、Linux、macOSや他の主要なオペレーティングシステム上で実行することができます。

 

機能一覧

  • ビデオから音声コンテンツを自動的に抽出し、音声を認識します。
  • 複数の字幕ソースをサポート:音声認識、コンテナ抽出、OCR認識
  • 複数の翻訳バックエンドとの統合:DeepL、LLMなど。
  • 多くの主要言語からの翻訳および主要言語への翻訳をサポート
  • 設定可能な字幕出力フォーマット(現在SRTフォーマットをサポート)
  • ビデオクリップの受信と処理をサポート
  • 音声抽出のみ、文字起こしのみ、翻訳のみ、その他オプションのデバッグモードを提供
  • カスタムAIモデルパスとコンフィギュレーションのサポート
  • クロスプラットフォーム対応(Linux、macOS、Windowsに対応予定)

 

ヘルプの使用

1.環境準備

準備中のWindowsシステム...

 

Linuxシステムインストールの依存関係:

  • Ubuntuユーザー:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-devlibwresample-dev libswscale-dev
  • Fedoraユーザー:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Arch Linuxユーザー:
pacman -S clang cmake ffmpeg make pkgconf

macOSシステムインストールの依存関係:

Homebrewパッケージマネージャを使用する:

brew install cmake ffmpeg

2.インストール手順

  1. コードリポジトリをクローンする:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd 愛の自作組
  1. プロジェクトをコンパイルする:
カーゴビルド
  1. ウィスパーモデルのダウンロード
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3.基本的な使い方

このツールにはいくつかの設定オプションがある:

  • --入力ビデオパス入力動画ファイルのパスを指定(必須)
  • --ソース言語: ソース言語 (デフォルト: ja)
  • ---ターゲット言語ターゲット言語(デフォルト:en)
  • --ggml-model-pathAIモデルのパス(デフォルト:ggml-tiny.bin)
  • --字幕出力パス字幕出力パス(デフォルト:output.srt)

4.翻訳バックエンド設定

DeepL 翻訳バックエンド (既定):

  1. 環境変数の設定:
export DEEPL_API_KEY=あなたのAPIキー
export DEEPL_API_URL=https://api.deepl.com # 有料APIバージョンに必要です。

LLM翻訳バックエンド:

  1. 環境変数の設定:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxx
  1. 使用例:
./target/debug/ainojimakugumi --input-video-path video.webm  \
---translator-backend llm ୧-͈ᴗ-͈.
--llm-api-base https://your-api-endpoint.com/v1/  \
--llm-prompt 'これを英語に翻訳してください'  \
--llm-model-name 'gpt-4o-mini'  \
--ggml-model-path ggml-small.bin

5.高度な機能

  • 利用する--開始時間歌で応える--終了時刻特定のビデオクリップを処理できる
  • --音声のみ抽出音声のみ抽出(デバッグ用)
  • --オンリー・トランスクリプト原語字幕のみ
  • --翻訳のみ翻訳機能のみ
  • 複数の字幕ソースオプションをサポート:オーディオ(デフォルト)、コンテナ、OCR。

無断転載を禁じます:チーフAIシェアリングサークル " AIの自作組:AIによる映像の多言語字幕の自動生成と翻訳

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語