はじめに
TransRouterはGoogle ジェミニ TransRouterは、英語と中国語のリアルタイム音声翻訳に特化して設計された、大規模モデル向けのリアルタイム音声翻訳ツールです。Zoomなどのビデオ会議ソフトウェアにシームレスに統合されたTransRouterは、ストリーミング処理技術を採用し、翻訳プロセスにおける低遅延を保証し、自動音声合成機能を備えています。このシステムは、音声信号をリアルタイムで処理できるだけでなく、元の録音と合成された音声を自動的に保存し、後で確認したり録音したりすることもできる。このプロジェクトは完全にオープンソースで、Pythonで開発されており、拡張性とカスタマイズ性に優れている。
機能一覧
- 中国語と英語の双方向リアルタイム音声翻訳を実現
- Zoomなどの主要な会議ソフトウェアとのシームレスな統合をサポート
- Google Geminiマクロモデルを使用した高品質の翻訳
- 低レイテンシーのストリーミング・オーディオ処理を提供
- 自動音声合成出力
- オリジナル録音と翻訳音声の自動保存に対応
- 完全な記録システムの提供
- バーチャルオーディオデバイスのルーティングをサポート
- 設定可能なオーディオ入出力パラメータ
ヘルプの使用
システム環境の準備
- 基本的な環境要件:
- Python 3.8以上
- macOS オペレーティングシステム
- 安定したネットワーク接続
- グーグル インターネット企業 ジェミニAPI キー
- オーディオデバイスの設定:
- BlackHoleバーチャルオーディオデバイスをインストールします:
brew install ブラックホール-2ch
- システム環境設定でオーディオデバイスを設定する:
- システム環境設定>サウンド」を開きます。
- BlackHole 2chデバイスが正しく認識されていることを確認します。
- デフォルトの入出力デバイスの設定
- BlackHoleバーチャルオーディオデバイスをインストールします:
インストール手順
- クローン・プロジェクト・ウェアハウス
ギット クローン https://github.com/notedit/TransRouter.git cd トランスルーター
- 仮想環境を作成し、起動する:
python -m venv venv ソース venv/bin/activate #マックOS
- 依存パッケージをインストールします:
pip install -r requirements.txt
- 環境変数を設定する:
- のコピーを取る。
.env.example
ファイルは環境
- ある
環境
ファイルでGemini APIキーを設定します:GEMINI_API_KEY=your_gemini_api_key
- のコピーを取る。
ズーム設定ガイド
- ズーム設定パネルを開く
- オーディオ設定オプションに進む
- マイクをシステムのデフォルトデバイスに設定する
- スピーカーを "BlackHole 2ch "に設定する。
使用方法
- 手続きを開始する:
python transrouter.py
- プログラムは自動的に実行される:
- オーディオデバイスの初期化
- Google Geminiへの接続を確立する
- オーディオのキャプチャと処理を開始する
- 文書管理:
- 録音ファイルは
記録
ディレクトリ - 合成された翻訳音声は
シンセシス
ディレクトリ - 実行時ログは
過去ログ
ディレクトリ
- 録音ファイルは
- 運用管理:
- プログラム実行中、リアルタイムのステータス情報が表示される
- Ctrl+Cを押して、プログラムを安全に停止する。
- 停止時にすべてのオーディオファイルを自動的に保存
障害解決
- オーディオ機器の問題:
- BlackHoleが正しくインストールされ、設定されていることを確認する。
- システムオーディオ設定でデバイス識別の状態を確認する
- Zoomのオーディオ設定構成を確認する
- 翻訳の問題:
- 安定したネットワーク接続の確認
- APIキーが正しく設定されていることを確認する。
- 詳細なエラーメッセージのログファイルを見る