综合介绍
Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同,Hibiki 能够在用户讲话的同时,实时生成目标语言的自然语音翻译,并提供文本翻译。该模型采用多流架构,能够同时处理输入语音流并生成目标语音,确保翻译的连贯性和准确性。Hibiki 通过监督训练对齐源语音和目标语音及文本,利用合成数据生成技术,确保在有限的真实数据下仍能实现高质量的翻译效果。
Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练,这些数据来自同一个说话者。由于此类数据量不足,我们依赖于合成数据生成。通过使用现成的 MADLAD 机器翻译系统,采用上下文对齐的弱监督方法,在源和目标转录之间进行词级匹配。推导出的对齐规则(一个词只有在可以从源语言预测时才出现在目标语言中)通过插入静音或使用语音控制、对齐感知的 TTS 合成目标语音来应用。
功能列表
- 实时语音翻译:在用户讲话的同时,实时生成目标语言的自然语音翻译。
- 文本翻译:提供与语音同步的文本翻译。
- 多流架构:同时处理输入语音流并生成目标语音,确保翻译的连贯性和准确性。
- 高保真度:通过监督训练和合成数据生成技术,确保翻译的高质量。
- 语音转移:可选的语音转移功能,使翻译语音更自然。
使用帮助
安装流程
PyTorch
- 安装
moshi
包:pip install -U moshi
- 下载示例文件:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- 运行翻译:
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
- 可选参数
--cfg-coef
用于指定分类器自由引导系数,默认值为 1,值越高生成的语音越接近原始语音,推荐值为 3。
- 可选参数
MLX
- 安装
moshi_mlx
包(需要至少 0.2.1 版本):pip install -U moshi_mlx
- 下载示例文件:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- 运行翻译:
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
- 可选参数
--cfg-coef
用于指定分类器自由引导系数,默认值为 1,值越高生成的语音越接近原始语音,推荐值为 3。
- 可选参数
MLX-Swift
kyutai-labs/moshi-swift
仓库包含一个可以在 iPhone 上运行的 MLX-Swift 实现,已在 iPhone 16 Pro 上测试。注意,这段代码仍处于实验阶段。
Rust
- 进入
hibiki-rs
目录:cd hibiki-rs
- 下载示例文件:
wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
- 运行翻译:
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
- 使用
--features cuda
在 NVIDIA GPU 上运行,或使用--features metal
在 Mac 上运行。
- 使用
模型
我们发布了两个用于法语到英语翻译的模型:
- Hibiki 2B:适用于 PyTorch 和 MLX,具有 16 个 RVQ 流。
- Hibiki 1B:适用于 PyTorch 和 MLX,具有 8 个 RVQ 流,理想用于设备端推理。
模型列表:
- Hibiki 2B for PyTorch (bf16):
kyutai/hibiki-2b-pytorch-bf16
- Hibiki 1B for PyTorch (bf16):
kyutai/hibiki-1b-pytorch-bf16
- Hibiki 2B for MLX (bf16):
kyutai/hibiki-2b-mlx-bf16
- Hibiki 1B for MLX (bf16):
kyutai/hibiki-1b-mlx-bf16
所有模型均在 CC-BY 4.0 许可证下发布。
使用流程
- 启动模型:按照安装流程启动模型。
- 输入语音:通过麦克风输入源语言的语音。
- 实时翻译:Hibiki 会实时生成目标语言的语音翻译,并同步显示文本翻译。
- 调整设置:根据需要调整语音转移等设置,以获得更自然的翻译效果。
主要功能操作
- 实时语音翻译:启动模型后,直接通过麦克风输入语音,Hibiki 会自动进行翻译。
- 文本翻译:在语音翻译的同时,Hibiki 会同步生成文本翻译,显示在界面上。
- 语音转移:在设置中启用语音转移功能,使翻译语音更符合目标语言的自然发音。
详细操作流程
- 启动模型:按照安装流程启动模型,确保所有依赖已正确安装。
- 输入语音:通过麦克风输入源语言的语音,Hibiki 会自动开始翻译。
- 查看翻译结果:在界面上查看实时生成的目标语言语音和文本翻译。
- 调整设置:根据需要在设置中调整语音转移等功能,以获得最佳翻译效果。