はじめに
KrillinAIはオープンソースの動画処理ツールで、人工知能を使ってユーザーが動画を翻訳し、自動的に吹き替えを行うことに重点を置いている。動画のダウンロードから始まり、数クリックでさまざまなプラットフォーム向けの完成品を生成し続けることができる。KrillinAIはLarge Language Modelling (LLM)技術を使って高品質な翻訳と字幕生成を行い、現在は中国語、英語、日本語など56言語の翻訳をサポートしている。また、動画フォーマットを調整し、YouTube、TikTok、Jieyinなどのプラットフォームに適応するため、コンテンツ制作者が多言語動画を迅速に制作するのに適している。
機能一覧
- ビデオのダウンロードとアップロードYouTube、Jitterbug、Bilibiliからの動画ダウンロード、ローカルファイルのアップロードに対応。
- 正確な字幕生成ウィスパー・テクノロジーを使って音声を認識し、精度の高い字幕を生成します。
- インテリジェント字幕分割字幕のセグメンテーションは、大きな言語モデルによって、意味的な整合性を保ったまま自然に行われます。
- プロフェッショナル翻訳段落全体の翻訳を行い、文脈の一貫性を確保し、人間のレベルに近づける。
- 吹き替えとボイスクローンCosyVoiceに男性と女性の声を提供するか、あなたの声のクローン音声をアップロードしてください。
- ビデオフォーマットの調整様々なプラットフォームに対応し、横向きまたは縦向きのビデオを自動的に生成します。
- 用語の置き換え特殊フィールドの語彙のワンクリック置換をサポート。
ヘルプの使用
設置プロセス
KrillinAIを実行するにはローカルにインストールする必要があります:
- ダウンロードファイル
- オープンhttps://github.com/krillinai/KrillinAI。
- ページ右上の「リリース」をクリックし、お使いのシステム(例:Windows、macOS)に適したバージョンをダウンロードしてください。
- ファイルを空のフォルダに解凍します。
- 設定環境
- の中にフォルダを作成する。
config
フォルダー - ある
config
に新しいフォルダを作成する。config.toml
ドキュメンテーション - GitHubの
config-example.toml
コンテンツをconfig.toml
そしてコンフィギュレーションを記入する。 - 最もシンプルな構成:OpenAIサービスのみを使用し、以下を記入する:
[openai] apikey = "你的OpenAI API密钥" transcription_provider = "openai" llm_provider = "openai"
- プロキシやカスタムモデルが必要な場合は
app.proxy
もしかしたらopenai.base_url
.
- の中にフォルダを作成する。
- ランニングプログラム
- ウィンドウズ実行ファイルをダブルクリックして起動します。
- マックオス署名されていないため、手動での信頼が必要:
- ターミナルを開き、ファイル・ディレクトリに移動する。
- コマンドを入力する:
sudo x'attr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64 sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64 ./KrillinAI_1.0.0_macOS_arm64
- 開始後、サービスは
http://127.0.0.1:8888
(ポートは変更可能)。
- Dockerデプロイメント(オプション)
- GitHubの
docs/docker.md
詳しい手順を見る - Dockerをインストールし、イメージを取り出して実行する。
- GitHubの
主な機能の操作
ビデオ翻訳と字幕生成
- 動く::
- サービス開始後、ブラウザは
http://127.0.0.1:8888
. - ビデオリンクを入力する(例
https://www.youtube.com/watch?v=xxx
またはファイルをアップロードしてください。 - 入力言語(例:中国語)とターゲット言語(例:英語)を選択します。
- Start "をクリックすると、プログラムは自動的に音声を認識し、字幕を作成し、翻訳します。
- サービス開始後、ブラウザは
- 結局字幕ファイルは
tasks
フォルダー - 銘記するダウンロードに失敗した場合は
cookies.txt
見えるdocs/get_cookies.md
.
ダビング機能
- 動く::
- 字幕が作成されたら、「ダビング」オプションをクリックしてください。
- CosyVoiceの男性または女性の声を選択するか、音声サンプルをアップロードして声のクローンを作成します。
- Generate "をクリックすると、プログラムが自動的にナレーションを合成します。
- 結局ナレーションと映像が合成され、新しいファイルが生成されます。
- 性格描写クロスランゲージ・ダビングに対応し、オーディオ・トラックとサブタイトルは正確に配置されています。
ビデオフォーマットの調整
- 動く::
- ビデオを生成する場合は、「横」または「縦」を選択します。
- Finish "をクリックすると、プログラムは解像度と字幕のレイアウトを調整します。
- 結局: YouTube(横向き)またはTikTok(縦向き)に合わせた動画を出力します。
- 注意を引く字幕が長すぎる場合は自動的に改行され、すっきりとした映像になります。
注目の機能操作
インテリジェント字幕分割
- このプログラムは、大規模な言語モデルを使用して音声を分析し、意味論によって字幕を分割する。例えば、10秒のダイアログは、固定されたタイムカットではなく、文の完全性に基づいて分割される。
- 手動設定は不要で、処理は自動的に行われる。
用語の置き換え
- 動く::
- ある
config.toml
次のような置換ルールを追加する:[custom_vocab] "AI" = "人工智能" "LLM" = "大语言模型"
- プログラムを再起動し、翻訳時に自動的に置き換えます。
- ある
- 使用テクノロジー、教育などの分野に適しており、正確な用語を使用できる。
サウンドクローニング
- 動く::
- ナレーション画面で10~30秒の音声サンプルをアップロードしてください。
- Clone Sound "を選択すると、プログラムは似たような音を生成する。
- リクエストAliCloudサービスをご利用の場合は、以下の設定が必要です。
aliyun.oss
見えるdocs/aliyun.md
.
追加設定オプション
- ローカルモデル設定
transcription_provider = "fasterwhisper"
必須項目local_model.faster_whisper
モデルは自動的にダウンロードされます(macOSはまだサポートされていません)。 - AliCloudサービスAliCloudの大きなモデルやダビングを使用する場合は、以下の設定が必要です。
aliyun.bailian
もしかしたらaliyun.speech
.
アプリケーションシナリオ
- 多言語コンテンツ制作
- YouTubeのブロガーは中国語の動画を英語やフランス語に翻訳したいと考えています。 KrillinAIは横長フォーマットの字幕とナレーションを素早く生成します。
- ショート・ビデオ・プロモーション
- 加盟店はJitterbugを使って商品を宣伝し、KrillinAIは動画を縦画面や現地語に変換して訴求力を高める。
- 教育リソースの共有
- 教師はコースのビデオを多言語に翻訳し、KrillinAIは世界中の学生のために正確な字幕とナレーションを提供します。
品質保証
- 起動時にAPIが見つからないのはなぜですか?
- である必要がある。
config.toml
OpenAIのapikey
詳しくはOpenAIのウェブサイトをご覧ください。
- である必要がある。
- どの入力言語に対応していますか?
- 現在、中国語、英語、日本語、ドイツ語、トルコ語に対応。
- 翻訳と吹き替えにはどのくらいの時間がかかりますか?
- ネットワークや設定にもよるが、10分のビデオを処理するのに約5〜10分かかる。
- ダウンロードに失敗した場合はどうすればよいですか?
- コンフィグ
cookies.txt
参照docs/get_cookies.md
ブラウザのクッキーをエクスポートします。
- コンフィグ