综合介绍
TEN Agent是一个开源的实时多模态智能体框架,集成了OpenAI Realtime API和RTC,支持多种功能如天气查询、网络搜索、视觉处理和RAG(检索增强生成)。该框架旨在提供高性能、低延迟的音视频交互解决方案,适用于复杂的AI应用场景。
目前看到第二成熟的实时互动多模态智能体,语音交流过程非常流畅。
功能列表
- 实时多模态交互:支持音频、视频和文本的实时处理和交互。
- OpenAI Realtime API集成:提供低延迟的语音到语音对话功能。
- RTC AI噪声抑制:通过AI算法消除噪声,提升音频质量。
- 天气查询:集成天气查询功能,提供实时天气信息。
- 网络搜索:支持通过网络搜索获取信息。
- 视觉处理:支持图像识别和处理功能。
- RAG功能:通过检索增强生成技术,利用本地文档提供答案。
- 多语言支持:支持多种编程语言的扩展开发,如C++、Go、Python等。
- 跨平台支持:兼容Windows、Mac、Linux和移动设备。
使用帮助
安装流程
- 准备环境:
- 确保已安装Docker和Docker Compose。
- 获取Agora App ID和App Certificate(如果在Agora控制台中启用了证书)。
- 获取OpenAI API密钥,以及Deepgram ASR和FishAudio TTS的API密钥。
- 配置环境变量:
- 在项目根目录下,使用
cp .env.example .env
命令创建.env
文件。 - 打开
.env
文件,填写所需的API密钥和配置。
- 在项目根目录下,使用
- 启动容器:
- 在项目根目录下运行
docker compose up
命令启动容器。 - 或者使用
docker compose up -d
命令以分离模式启动容器。
- 在项目根目录下运行
- 构建智能体:
- 打开一个新的终端窗口,进入容器并构建智能体。
- 构建完成后,在端口8080上运行服务器:
make run-server
。
- 访问界面:
- 在浏览器中打开
localhost:3000
,开始使用TEN Agent。 - 打开另一个标签页,访问
localhost:3001
,使用Graph Designer创建、连接和编辑扩展。
- 在浏览器中打开
功能操作指南
- 实时多模态交互:
- 通过集成的OpenAI Realtime API,实现低延迟的语音到语音对话。
- 使用RTC的AI噪声抑制功能,确保音频质量清晰稳定。
- 天气查询:
- 在界面中输入所需查询的城市名称,即可获取实时天气信息。
- 网络搜索:
- 在搜索框中输入关键词,系统将通过网络搜索获取相关信息。
- 视觉处理:
- 上传图像文件,系统将自动进行图像识别和处理。
- RAG功能:
- 通过检索增强生成技术,输入问题,系统将利用本地文档提供答案。
- 多语言支持:
- 支持使用C++、Go、Python等多种编程语言进行扩展开发。
- 跨平台支持:
- 兼容Windows、Mac、Linux和移动设备,用户可以在不同平台上无缝使用TEN Agent。