Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

61.1K 00

综合介绍

Ultravox是一个创新的多模态大语言模型（LLM），专为实时语音处理而设计。与传统的语音识别系统不同，Ultravox无需单独的音频语音识别（ASR）阶段，能够直接将音频转换为高维空间中的文本。这一特性使得Ultravox在响应速度和处理效率上具有显著优势。Ultravox基于Llama 3、Mistral和Gemma等模型进行训练，能够理解文本和人类语音，并且未来将能够原生理解语音中的时序和情感线索。当前版本的Ultravox在处理音频内容时，首次生成文本的时间约为150毫秒，每秒生成约60个标记。

Ultravox：实时端到端语音对话的音频多模态大模型，GPT-4o语音交互的开源实现

功能列表

实时语音处理：直接将音频转换为文本，无需单独的ASR阶段。
多模态支持：能够理解文本和语音，未来将支持情感和时序线索。
高效响应：首次生成文本的时间约为150毫秒，每秒生成约60个标记。
兼容多种模型：基于Llama 3、Mistral和Gemma等模型进行训练。
开源项目：代码和模型权重可在GitHub和Hugging Face上获取。
演示和API：提供Gradio演示和托管API，便于用户快速上手。

使用帮助

安装流程

环境设置：
- 对于Mac用户，建议使用Homebrew进行安装。运行以下命令安装Homebrew：
```
 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
```
- 更新Homebrew并安装必要工具：
```
 brew update
brew install just
```

克隆项目：

使用以下命令克隆Ultravox项目：

 git clone https://github.com/fixie-ai/ultravox.git
cd ultravox

安装依赖：
- 使用以下命令安装项目依赖： bash pip install -r requirements.txt

使用流程

运行演示：
- Ultravox提供了一个Gradio演示，用户可以通过以下命令运行本地演示：
```
 gradio --voice_mode=True
```
- 访问提供的本地URL，即可体验Ultravox的实时语音处理功能。
使用API：
- Ultravox提供了一组托管API，用户可以通过以下步骤获取访问权限：
  - 访问Ultravox的API页面，注册并获取API密钥。
  - 使用API密钥调用Ultravox的实时语音处理服务。
训练自定义模型：
- 用户可以根据需要训练自己的Ultravox模型。详细的训练步骤和配置文件可以在项目的README文件中找到。