AI个人学习
和实操指南

TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

综合介绍

TransRouter 是一个基于 Google Gemini 大模型的实时语音翻译工具,专门设计用于实现中英文之间的实时语音互译。该工具能够无缝集成到 Zoom 等视频会议软件中,为跨语言交流提供实时翻译支持。TransRouter 采用了流式处理技术,确保翻译过程的低延迟,并具备自动语音合成功能。系统不仅能够实时处理音频信号,还会自动保存原始录音和合成音频,便于后续查阅和记录。项目完全开源,采用 Python 开发,具有良好的可扩展性和定制性。


 

功能列表

  • 实现中英文双向实时语音翻译
  • 支持与 Zoom 等主流会议软件无缝集成
  • 采用 Google Gemini 大模型进行高质量翻译
  • 提供低延迟的流式音频处理
  • 自动进行语音合成输出
  • 支持原始录音和翻译音频的自动保存
  • 提供完整的日志记录系统
  • 支持虚拟音频设备路由
  • 可配置的音频输入输出参数

 

使用帮助

系统环境准备

  1. 基础环境要求:
    • Python 3.8 或更高版本
    • macOS 操作系统
    • 稳定的网络连接
    • Google Gemini API 密钥
  2. 音频设备配置:
    • 安装 BlackHole 虚拟音频设备:
      brew install blackhole-2ch
      
    • 在系统偏好设置中配置音频设备:
      • 打开"系统偏好设置 > 声音"
      • 确认 BlackHole 2ch 设备已正确识别
      • 配置默认输入输出设备

安装步骤

  1. 克隆项目仓库:
    git clone https://github.com/notedit/TransRouter.git
    cd TransRouter
    
  2. 创建并激活虚拟环境:
    python -m venv venv
    source venv/bin/activate  # macOS
    
  3. 安装依赖包:
    pip install -r requirements.txt
    
  4. 配置环境变量:
    • 复制 .env.example 文件为 .env
    • 在 .env 文件中设置 Gemini API 密钥:
      GEMINI_API_KEY=your_gemini_api_key
      

Zoom 配置指南

  1. 打开 Zoom 设置面板
  2. 进入音频设置选项
  3. 将麦克风设置为系统默认设备
  4. 将扬声器设置为 "BlackHole 2ch"

使用说明

  1. 启动程序:
    python transrouter.py
    
  2. 程序运行后会自动:
    • 初始化音频设备
    • 建立与 Google Gemini 的连接
    • 开始音频捕获和处理
  3. 文件管理:
    • 录音文件保存在 recordings 目录
    • 合成的翻译音频保存在 synthesis 目录
    • 运行日志保存在 logs 目录
  4. 运行控制:
    • 程序运行期间会显示实时状态信息
    • 按 Ctrl+C 可以安全停止程序
    • 停止时会自动保存所有音频文件

故障排查

  1. 音频设备问题:
    • 确保 BlackHole 正确安装和配置
    • 检查系统音频设置中的设备识别状态
    • 验证 Zoom 的音频设置配置
  2. 翻译问题:
    • 确认网络连接稳定
    • 验证 API 密钥配置正确
    • 查看日志文件了解详细错误信息
未经允许不得转载:首席AI分享圈 » TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文