AI个人学习
和实操指南

Hibiki:实时语音翻译模型,提供保留原生特点的流式翻译

综合介绍

Hibiki 是由 Kyutai Labs 开发的一款高保真度实时语音翻译模型。与传统的离线翻译不同,Hibiki 能够在用户讲话的同时,实时生成目标语言的自然语音翻译,并提供文本翻译。该模型采用多流架构,能够同时处理输入语音流并生成目标语音,确保翻译的连贯性和准确性。Hibiki 通过监督训练对齐源语音和目标语音及文本,利用合成数据生成技术,确保在有限的真实数据下仍能实现高质量的翻译效果。

Hibiki 依赖于对齐的源语音和目标语音及文本的监督训练,这些数据来自同一个说话者。由于此类数据量不足,我们依赖于合成数据生成。通过使用现成的 MADLAD 机器翻译系统,采用上下文对齐的弱监督方法,在源和目标转录之间进行词级匹配。推导出的对齐规则(一个词只有在可以从源语言预测时才出现在目标语言中)通过插入静音或使用语音控制、对齐感知的 TTS 合成目标语音来应用。

Hibiki:实时语音翻译模型,保留原声特点的高保真流式翻译-1

 

功能列表

  • 实时语音翻译:在用户讲话的同时,实时生成目标语言的自然语音翻译。
  • 文本翻译:提供与语音同步的文本翻译。
  • 多流架构:同时处理输入语音流并生成目标语音,确保翻译的连贯性和准确性。
  • 高保真度:通过监督训练和合成数据生成技术,确保翻译的高质量。
  • 语音转移:可选的语音转移功能,使翻译语音更自然。

 

使用帮助

安装流程

PyTorch

  1. 安装 moshi 包:
    pip install -U moshi
    
  2. 下载示例文件:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. 运行翻译:
    python -m moshi.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-pytorch-bf16
    
    • 可选参数 --cfg-coef 用于指定分类器自由引导系数,默认值为 1,值越高生成的语音越接近原始语音,推荐值为 3。

MLX

  1. 安装 moshi_mlx 包(需要至少 0.2.1 版本):
    pip install -U moshi_mlx
    
  2. 下载示例文件:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. 运行翻译:
    python -m moshi_mlx.run_inference sample_fr_hibiki_crepes.mp3 out_en.wav --hf-repo kyutai/hibiki-1b-mlx-bf16
    
    • 可选参数 --cfg-coef 用于指定分类器自由引导系数,默认值为 1,值越高生成的语音越接近原始语音,推荐值为 3。

MLX-Swift

  • kyutai-labs/moshi-swift 仓库包含一个可以在 iPhone 上运行的 MLX-Swift 实现,已在 iPhone 16 Pro 上测试。注意,这段代码仍处于实验阶段。

Rust

  1. 进入 hibiki-rs 目录:
    cd hibiki-rs
    
  2. 下载示例文件:
    wget https://github.com/kyutai-labs/moshi/raw/refs/heads/main/data/sample_fr_hibiki_crepes.mp3
    
  3. 运行翻译:
    cargo run --features metal -r -- gen sample_fr_hibiki_crepes.mp3 out_en.wav
    
    • 使用 --features cuda 在 NVIDIA GPU 上运行,或使用 --features metal 在 Mac 上运行。

模型

我们发布了两个用于法语到英语翻译的模型:

  • Hibiki 2B:适用于 PyTorch 和 MLX,具有 16 个 RVQ 流。
  • Hibiki 1B:适用于 PyTorch 和 MLX,具有 8 个 RVQ 流,理想用于设备端推理。

模型列表:

  • Hibiki 2B for PyTorch (bf16):kyutai/hibiki-2b-pytorch-bf16
  • Hibiki 1B for PyTorch (bf16):kyutai/hibiki-1b-pytorch-bf16
  • Hibiki 2B for MLX (bf16):kyutai/hibiki-2b-mlx-bf16
  • Hibiki 1B for MLX (bf16):kyutai/hibiki-1b-mlx-bf16

所有模型均在 CC-BY 4.0 许可证下发布。

使用流程

  1. 启动模型:按照安装流程启动模型。
  2. 输入语音:通过麦克风输入源语言的语音。
  3. 实时翻译:Hibiki 会实时生成目标语言的语音翻译,并同步显示文本翻译。
  4. 调整设置:根据需要调整语音转移等设置,以获得更自然的翻译效果。

主要功能操作

  • 实时语音翻译:启动模型后,直接通过麦克风输入语音,Hibiki 会自动进行翻译。
  • 文本翻译:在语音翻译的同时,Hibiki 会同步生成文本翻译,显示在界面上。
  • 语音转移:在设置中启用语音转移功能,使翻译语音更符合目标语言的自然发音。

详细操作流程

  1. 启动模型:按照安装流程启动模型,确保所有依赖已正确安装。
  2. 输入语音:通过麦克风输入源语言的语音,Hibiki 会自动开始翻译。
  3. 查看翻译结果:在界面上查看实时生成的目标语言语音和文本翻译。
  4. 调整设置:根据需要在设置中调整语音转移等功能,以获得最佳翻译效果。

未经允许不得转载:首席AI分享圈 » Hibiki:实时语音翻译模型,提供保留原生特点的流式翻译

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文