Hibiki：实时语音翻译模型，保留原声特点的流式翻译

65.8K 00

综合介绍

Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同，Hibiki 能够在用户讲话的同时，实时生成目标语言的自然语音翻译，并提供文本翻译。该模型采用多流架构，能够同时处理输入语音流并生成目标语音，确保翻译的连贯性和准确性。Hibiki 通过监督训练对齐源语音和目标语音及文本，利用合成数据生成技术，确保在有限的真实数据下仍能实现高质量的翻译效果。

Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练，这些数据来自同一个说话者。由于此类数据量不足，我们依赖于合成数据生成。通过使用现成的 MADLAD 机器翻译系统，采用上下文对齐的弱监督方法，在源和目标转录之间进行词级匹配。推导出的对齐规则（一个词只有在可以从源语言预测时才出现在目标语言中）通过插入静音或使用语音控制、对齐感知的 TTS 合成目标语音来应用。

功能列表

实时语音翻译：在用户讲话的同时，实时生成目标语言的自然语音翻译。
文本翻译：提供与语音同步的文本翻译。
多流架构：同时处理输入语音流并生成目标语音，确保翻译的连贯性和准确性。
高保真度：通过监督训练和合成数据生成技术，确保翻译的高质量。
语音转移：可选的语音转移功能，使翻译语音更自然。

使用帮助

安装流程

PyTorch

安装 moshi 包：
```
pip install -U moshi
```

下载示例文件：

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

运行翻译：
```
python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
```
- 可选参数 --cfg-coef 用于指定分类器自由引导系数，默认值为 1，值越高生成的语音越接近原始语音，推荐值为 3。

MLX

安装 moshi_mlx 包（需要至少 0.2.1 版本）：
```
pip install -U moshi_mlx
```

下载示例文件：

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

运行翻译：
```
python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
```
- 可选参数 --cfg-coef 用于指定分类器自由引导系数，默认值为 1，值越高生成的语音越接近原始语音，推荐值为 3。

MLX-Swift

kyutai-labs/moshi-swift 仓库包含一个可以在 iPhone 上运行的 MLX-Swift 实现，已在 iPhone 16 Pro 上测试。注意，这段代码仍处于实验阶段。

Rust

进入 hibiki-rs 目录：
```
cd hibiki-rs
```

下载示例文件：

wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3

运行翻译：
```
cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
```
- 使用 --features cuda 在 NVIDIA GPU 上运行，或使用 --features metal 在 Mac 上运行。

模型

我们发布了两个用于法语到英语翻译的模型：

Hibiki 2B：适用于 PyTorch 和 MLX，具有 16 个 RVQ 流。
Hibiki 1B：适用于 PyTorch 和 MLX，具有 8 个 RVQ 流，理想用于设备端推理。

模型列表：

Hibiki 2B for PyTorch (bf16)：kyutai/hibiki-2b-pytorch-bf16
Hibiki 1B for PyTorch (bf16)：kyutai/hibiki-1b-pytorch-bf16
Hibiki 2B for MLX (bf16)：kyutai/hibiki-2b-mlx-bf16
Hibiki 1B for MLX (bf16)：kyutai/hibiki-1b-mlx-bf16

所有模型均在 CC-BY 4.0 许可证下发布。

使用流程

启动模型：按照安装流程启动模型。
输入语音：通过麦克风输入源语言的语音。
实时翻译：Hibiki 会实时生成目标语言的语音翻译，并同步显示文本翻译。
调整设置：根据需要调整语音转移等设置，以获得更自然的翻译效果。

主要功能操作

实时语音翻译：启动模型后，直接通过麦克风输入语音，Hibiki 会自动进行翻译。
文本翻译：在语音翻译的同时，Hibiki 会同步生成文本翻译，显示在界面上。
语音转移：在设置中启用语音转移功能，使翻译语音更符合目标语言的自然发音。

详细操作流程

启动模型：按照安装流程启动模型，确保所有依赖已正确安装。
输入语音：通过麦克风输入源语言的语音，Hibiki 会自动开始翻译。
查看翻译结果：在界面上查看实时生成的目标语言语音和文本翻译。
调整设置：根据需要在设置中调整语音转移等功能，以获得最佳翻译效果。

最新AI资源 # AI开源项目 # AI翻译

文章版权归 AI分享圈所有，未经允许请勿转载。

Executive AI Assistant：AI行政助理，提醒阅读邮件并规划工作日程

最新AI资源 # AI开源项目 # AI生活效率助手

1年前

048.5K

Shire Run：共享AI编码智能体辅助工具

最新AI资源 # AI编程 # PROMPTS辅助工具

2年前

061.1K

TurboScribe：快速将音频和视频转为文字的在线工具

最新AI资源 # AI语音转文本

12个月前

085.9K

Midscene.js：用AI驱动浏览器自动化测试的开源插件

最新AI资源 # AI开源项目 # 桌面自动化智能体

1年前

090K

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Hibiki：实时语音翻译模型，保留原声特点的流式翻译

综合介绍

功能列表

使用帮助

安装流程

PyTorch

MLX

MLX-Swift

Rust

模型

使用流程

主要功能操作

详细操作流程

Qwen4Mac：在Mac菜单栏中使用千问（Qwen）大模型随时对话

zChunk：基于Llama-70B的通用语义分块策略

相关文章

Executive AI Assistant：AI行政助理，提醒阅读邮件并规划工作日程

Shire Run：共享AI编码智能体辅助工具

TurboScribe：快速将音频和视频转为文字的在线工具

Midscene.js：用AI驱动浏览器自动化测试的开源插件

暂无评论

最新收录

最新文章

Hibiki：实时语音翻译模型，保留原声特点的流式翻译

综合介绍

功能列表

使用帮助

安装流程

PyTorch

MLX

MLX-Swift

Rust

模型

使用流程

主要功能操作

详细操作流程

Qwen4Mac：在Mac菜单栏中使用千问（Qwen）大模型随时对话

zChunk：基于Llama-70B的通用语义分块策略

相关文章

Executive AI Assistant：AI行政助理，提醒阅读邮件并规划工作日程

Shire Run：共享AI编码智能体辅助工具

TurboScribe：快速将音频和视频转为文字的在线工具

Midscene.js：用AI驱动浏览器自动化测试的开源插件

暂无评论

AI工具精选

最新收录

最新文章