综合介绍
Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中的文本。这一特性使得Ultravox在响应速度和处理效率上具有显著优势。Ultravox基于Llama 3、Mistral和Gemma等模型进行训练,能够理解文本和人类语音,并且未来将能够原生理解语音中的时序和情感线索。当前版本的Ultravox在处理音频内容时,首次生成文本的时间约为150毫秒,每秒生成约60个标记。
功能列表
- 实时语音处理:直接将音频转换为文本,无需单独的ASR阶段。
- 多模态支持:能够理解文本和语音,未来将支持情感和时序线索。
- 高效响应:首次生成文本的时间约为150毫秒,每秒生成约60个标记。
- 兼容多种模型:基于Llama 3、Mistral和Gemma等模型进行训练。
- 开源项目:代码和模型权重可在GitHub和Hugging Face上获取。
- 演示和API:提供Gradio演示和托管API,便于用户快速上手。
使用帮助
安装流程
- 环境设置:
- 对于Mac用户,建议使用Homebrew进行安装。运行以下命令安装Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- 更新Homebrew并安装必要工具:
brew update brew install just
- 克隆项目:
- 使用以下命令克隆Ultravox项目:
git clone https://github.com/fixie-ai/ultravox.git cd ultravox
- 安装依赖:
- 使用以下命令安装项目依赖:
bash
pip install -r requirements.txt
- 使用以下命令安装项目依赖:
使用流程
- 运行演示:
- Ultravox提供了一个Gradio演示,用户可以通过以下命令运行本地演示:
gradio --voice_mode=True
- 访问提供的本地URL,即可体验Ultravox的实时语音处理功能。
- 使用API:
- Ultravox提供了一组托管API,用户可以通过以下步骤获取访问权限:
- 访问Ultravox的API页面,注册并获取API密钥。
- 使用API密钥调用Ultravox的实时语音处理服务。
- Ultravox提供了一组托管API,用户可以通过以下步骤获取访问权限:
- 训练自定义模型:
- 用户可以根据需要训练自己的Ultravox模型。详细的训练步骤和配置文件可以在项目的README文件中找到。
主要功能操作流程
- 实时语音处理:
- 录制或上传音频文件,Ultravox将自动将音频转换为文本。
- 支持流式处理,用户可以实时查看转换结果。
- 多模态支持:
- 输入文本或语音,Ultravox能够理解并处理多种输入形式。
- 未来版本将支持情感和时序线索的原生理解。
- 高效响应:
- Ultravox在处理音频内容时,首次生成文本的时间约为150毫秒,每秒生成约60个标记,确保高效的实时响应。