Hibiki：リアルタイム音声翻訳モデル、元の音声の特徴を保つストリーミング翻訳

中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

はじめに

響は、Kyutai Labsによって開発された高忠実度のリアルタイム音声翻訳モデルです。従来のオフライン翻訳機とは異なり、Hibikiはターゲット言語の自然な音声翻訳を生成し、ユーザーの発話に合わせてリアルタイムにテキスト翻訳を提供します。Hibikiは、教師あり学習によって原文と訳文の位置合わせを行い、合成データ生成技術によって限られた実世界データで高品質な翻訳を実現します。

Hibikiは、同一話者による原文と訳文の整合を教師付き学習で行う。そのようなデータが十分でないため、我々は合成データの生成に頼っている。原文と訳文の単語レベルの照合は、市販の機械翻訳システムMADLADを使用し、文脈アライメントの弱い教師ありアプローチで行われる。導出されたアライメントルール（単語は、ソース言語から予測できる場合にのみターゲット言語に出現する）は、音声制御されたアライメントを意識したTTSを使用して、サイレンスを挿入するか、ターゲット音声を合成することによって適用される。

響：原音声の特徴を保持した高忠実度ストリーミング翻訳のためのリアルタイム音声翻訳モデル-1

機能一覧

リアルタイム音声翻訳ユーザーが話している間、リアルタイムでターゲット言語の自然な音声翻訳を生成します。
テキスト翻訳音声と同期したテキスト翻訳を提供します。
マルチストリームアーキテクチャ入力音声ストリームを処理すると同時にターゲット音声を生成し、一貫性のある正確な翻訳を実現します。
ハイフィデリティ教師あり訓練と合成データ生成技術により、高品質の翻訳を保証します。
おんせいてんいオプションの音声転送機能により、より自然な翻訳音声が得られます。

ヘルプの使用

設置プロセス

パイトーチ

取り付け モシ パッケージ：
```
pip install -U moshi
```

サンプルファイルのダウンロード

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

翻訳を実行する：
```
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
```
- オプションのパラメータ --CFG-COEF デフォルト値は1です。値が大きいほど、生成される音声は元の音声に近くなり、推奨値は3です。

MLX

取り付け moshi_mlx パッケージ（少なくともバージョン0.2.1が必要）：
```
pip install -U moshi_mlx
```

サンプルファイルのダウンロード

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

翻訳を実行する：
```
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
```
- オプションのパラメータ --CFG-COEF デフォルト値は1です。値が大きいほど、生成される音声は元の音声に近くなり、推奨値は3です。

MLX-スウィフト

kyutai-labs/moshi-swift このリポジトリにはiPhoneで動作するMLX-Swiftの実装が含まれており、iPhone 16 Proでテストされています。このコードはまだ実験段階であることに注意してください。

さび

入る 響RS カタログ
```
CD響-RS
```

サンプルファイルのダウンロード

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

翻訳を実行する：
```
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
```
- 利用する --クーダ機能 NVIDIA GPU上で実行するか、または --メタルの特徴 Macで動作。