AI个人学习
和实操指南

TEN Agent:实时多模态智能体框架,支持与智能体无延时的语音与视频对话。

综合介绍

TEN Agent是一个开源的实时多模态智能体框架,集成了OpenAI Realtime API和RTC,支持多种功能如天气查询、网络搜索、视觉处理和RAG(检索增强生成)。该框架旨在提供高性能、低延迟的音视频交互解决方案,适用于复杂的AI应用场景。

目前看到第二成熟的实时互动多模态智能体,语音交流过程非常流畅。


TEN Agent:实时多模态智能体框架,集成OpenAI Realtime API和RTC,支持天气查询、网络搜索、视觉和RAG功能-1

在线体验:https://agent.theten.ai/

 

功能列表

  • 实时多模态交互:支持音频、视频和文本的实时处理和交互。
  • OpenAI Realtime API集成:提供低延迟的语音到语音对话功能。
  • RTC AI噪声抑制:通过AI算法消除噪声,提升音频质量。
  • 天气查询:集成天气查询功能,提供实时天气信息。
  • 网络搜索:支持通过网络搜索获取信息。
  • 视觉处理:支持图像识别和处理功能。
  • RAG功能:通过检索增强生成技术,利用本地文档提供答案。
  • 多语言支持:支持多种编程语言的扩展开发,如C++、Go、Python等。
  • 跨平台支持:兼容Windows、Mac、Linux和移动设备。

 

使用帮助

安装流程

  1. 准备环境
    • 确保已安装Docker和Docker Compose。
    • 获取Agora App ID和App Certificate(如果在Agora控制台中启用了证书)。
    • 获取OpenAI API密钥,以及Deepgram ASR和FishAudio TTS的API密钥。
  2. 配置环境变量
    • 在项目根目录下,使用cp .env.example .env命令创建.env文件。
    • 打开.env文件,填写所需的API密钥和配置。
  3. 启动容器
    • 在项目根目录下运行docker compose up命令启动容器。
    • 或者使用docker compose up -d命令以分离模式启动容器。
  4. 构建智能体
    • 打开一个新的终端窗口,进入容器并构建智能体。
    • 构建完成后,在端口8080上运行服务器:make run-server
  5. 访问界面
    • 在浏览器中打开localhost:3000,开始使用TEN Agent。
    • 打开另一个标签页,访问localhost:3001,使用Graph Designer创建、连接和编辑扩展。

功能操作指南

  1. 实时多模态交互
    • 通过集成的OpenAI Realtime API,实现低延迟的语音到语音对话。
    • 使用RTC的AI噪声抑制功能,确保音频质量清晰稳定。
  2. 天气查询
    • 在界面中输入所需查询的城市名称,即可获取实时天气信息。
  3. 网络搜索
    • 在搜索框中输入关键词,系统将通过网络搜索获取相关信息。
  4. 视觉处理
    • 上传图像文件,系统将自动进行图像识别和处理。
  5. RAG功能
    • 通过检索增强生成技术,输入问题,系统将利用本地文档提供答案。
  6. 多语言支持
    • 支持使用C++、Go、Python等多种编程语言进行扩展开发。
  7. 跨平台支持
    • 兼容Windows、Mac、Linux和移动设备,用户可以在不同平台上无缝使用TEN Agent。
未经允许不得转载:首席AI分享圈 » TEN Agent:实时多模态智能体框架,支持与智能体无延时的语音与视频对话。

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文