综合介绍
Weebo 是一个开源的实时语音聊天机器人,利用 Whisper Small 进行语音识别,Llama 3.2 进行自然语言生成,以及 Kokoro-82M 进行语音合成。该项目由 Amanvir Parhar 开发,旨在提供一个能够在本地设备上运行的高效语音对话解决方案。Weebo 支持多种声音,并能够流畅地生成实时响应,适用于各种需要语音交互的应用场景。
功能列表
- 实时语音识别:使用 Whisper Small 模型进行高效的语音转文本处理。
- 自然语言生成:通过 Llama 3.2 模型生成自然语言响应。
- 语音合成:利用 Kokoro-82M 模型将文本转换为语音。
- 多声音支持:提供多种声音选择,增强用户体验。
- 本地运行:无需依赖云服务,所有处理均在本地设备上完成。
- 开源代码:代码公开,允许用户自由修改和扩展功能。
使用帮助
安装流程
- 下载所需模型:
- 下载 Kokoro-82M 模型文件
kokoro-v0_19.onnx
并放置在项目文件夹中。 - 使用 Ollama 工具拉取 Llama 3.2 模型。
- 下载 Kokoro-82M 模型文件
- 克隆 Weebo 项目代码:
git clone https://github.com/amanvirparhar/weebo.git
cd weebo
- 安装依赖:
pip install -r requirements.txt
- 运行聊天机器人:
python main.py
使用说明
- 启动程序后,Weebo 将开始监听语音输入。
- 用户可以自然地说话,Weebo 会在短暂的停顿后生成语音响应。
- 按
Ctrl+C
可以停止程序。
主要功能操作流程
- 语音识别:Weebo 使用 Whisper Small 模型进行语音识别,能够准确地将用户的语音转换为文本。
- 自然语言生成:通过 Llama 3.2 模型,Weebo 能够理解用户的语音输入并生成相应的自然语言响应。
- 语音合成:使用 Kokoro-82M 模型,Weebo 将生成的文本响应转换为语音,并通过扬声器播放。
- 多声音支持:用户可以在配置文件中选择不同的声音模型,以满足不同的应用需求。
详细操作步骤
- 启动 Weebo:运行
python main.py
,程序将开始监听用户的语音输入。 - 语音输入:用户可以直接对着麦克风说话,Weebo 会自动识别并处理语音。
- 生成响应:Weebo 会在识别语音后,使用 Llama 3.2 模型生成自然语言响应,并通过 Kokoro-82M 模型将其转换为语音。
- 播放响应:生成的语音响应将通过扬声器播放,用户可以听到 Weebo 的回答。
- 停止程序:按
Ctrl+C
可以随时停止 Weebo 的运行。
通过以上步骤,用户可以轻松上手使用 Weebo 进行实时语音对话,体验自然流畅的语音交互。