TEN Agent: un marco multimodal de cuerpos inteligentes en tiempo real que admite el diálogo por voz y vídeo sin latencia con cuerpos inteligentes.
Últimos recursos sobre IAPublicado hace 9 meses Círculo de intercambio de inteligencia artificial 11.4K 00
Introducción general
TEN Agent es un marco de inteligencias multimodales en tiempo real de código abierto que integra OpenAI Realtime API y RTC para dar soporte a múltiples funciones como consultas meteorológicas, búsquedas web, procesamiento visual y RAG (Retrieval Augmented Generation). El objetivo del marco es proporcionar soluciones de interacción de audio y vídeo de alto rendimiento y baja latencia para escenarios de aplicación de IA complejos.
La segunda inteligencia multimodal interactiva en tiempo real más madura vista hasta ahora tiene un proceso de comunicación por voz muy fluido.

Experiencia en línea: https://agent.theten.ai/
Lista de funciones
- Interacción multimodal en tiempo real: Admite el procesamiento y la interacción en tiempo real de audio, vídeo y texto.
- Integración de la API OpenAI en tiempo real: Proporciona capacidades de diálogo voz a voz de baja latencia.
- Supresión de ruido RTC AI: Eliminación de ruidos mediante algoritmos de IA para mejorar la calidad del audio.
- Consulta meteorológicaFunción de consulta meteorológica integrada para proporcionar información meteorológica en tiempo real.
- Búsqueda en Internet: Facilita el acceso a la información mediante búsquedas en Internet.
- procesamiento visual: Admite funciones de reconocimiento y procesamiento de imágenes.
- Funciones RAG: Proporcionar respuestas utilizando documentos locales mediante técnicas de generación mejoradas por recuperación.
- Soporte multilingüe: Soporta el desarrollo extendido en múltiples lenguajes de programación como C++, Go, Python, etc.
- Soporte multiplataformaCompatible con Windows, Mac, Linux y dispositivos móviles.
Utilizar la ayuda
Proceso de instalación
- Preparar el entorno::
- Asegúrese de que Docker y Docker Compose están instalados.
- Obtenga el Agora App ID y el App Certificate (si los certificados están habilitados en la consola de Agora).
- Obtén la clave API de OpenAI, así como las claves API para Deepgram ASR y FishAudio TTS.
- Configuración de variables de entorno::
- En el directorio raíz del proyecto, utilice la función
cp .env.example .env
para crear.env
Documentación. - espectáculo (una entrada)
.env
con la clave de API y la configuración necesarias.
- En el directorio raíz del proyecto, utilice la función
- Contenedor de lanzamiento::
- Ejecútalo en el directorio raíz del proyecto
docker compose up
para iniciar el contenedor. - O utilice
docker compose up -d
para iniciar el contenedor en modo separado.
- Ejecútalo en el directorio raíz del proyecto
- Construir Inteligencia::
- Abre una nueva ventana de terminal, introduce el contenedor y construye las inteligencias.
- Una vez finalizada la compilación, ejecute el servidor en el puerto 8080:
make run-server
.
- interfaz de acceso::
- Abrir en el navegador
localhost:3000
El Agente RTE se utilizará por primera vez en el futuro. - Abra otra pestaña y visite
localhost:3001
Crear, conectar y editar extensiones con Graph Designer.
- Abrir en el navegador
Guía de funcionamiento
- Interacción multimodal en tiempo real::
- Diálogo de voz a voz de baja latencia a través de la API OpenAI Realtime integrada.
- Utiliza la función de supresión de ruido AI del RTC para garantizar una calidad de audio clara y estable.
- Consulta meteorológica::
- Introduzca el nombre de la ciudad que desea buscar en la interfaz para obtener información meteorológica en tiempo real.
- Búsqueda en Internet::
- Introduzca palabras clave en el cuadro de búsqueda y el sistema buscará en la web para obtener información relevante.
- procesamiento visual::
- Cargue archivos de imagen y el sistema realizará automáticamente el reconocimiento y procesamiento de imágenes.
- Funciones RAG::
- Con las técnicas de generación basadas en la recuperación, se introducen las preguntas y el sistema proporcionará las respuestas utilizando documentos locales.
- Soporte multilingüe::
- Admite el desarrollo ampliado mediante C++, Go, Python y otros lenguajes de programación.
- Soporte multiplataforma::
- Compatible con Windows, Mac, Linux y dispositivos móviles, los usuarios pueden utilizar sin problemas TEN Agent en diferentes plataformas.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...