TEN Agent: мультимодальная система интеллектуальных тел в реальном времени, поддерживающая голосовой и видеодиалог с интеллектуальными телами без задержек.
Общее введение
TEN Agent - это мультимодальный интеллект с открытым исходным кодом, который объединяет OpenAI Realtime API и RTC для поддержки множества функций, таких как запрос погоды, веб-поиск, визуальная обработка и RAG (Retrieval Augmented Generation). Фреймворк призван обеспечить высокопроизводительные решения для аудио- и видеовзаимодействия с низкой задержкой для сложных сценариев применения ИИ.
Второй по уровню развития интерактивный мультимодальный интеллект в реальном времени на сегодняшний день имеет очень плавный процесс голосового общения.

Опыт работы в Интернете: https://agent.theten.ai/
Список функций
- Мультимодальное взаимодействие в реальном времени: Поддерживает обработку и взаимодействие аудио, видео и текста в режиме реального времени.
- Интеграция API OpenAI в режиме реального времени: Обеспечивает возможность диалога между голосами с низкой задержкой.
- Подавление шума RTC AI: Устранение шумов с помощью алгоритмов искусственного интеллекта для улучшения качества звука.
- Запрос погоды: Интеграция функции запроса погоды для предоставления информации о погоде в режиме реального времени.
- Поиск в Интернете: Поддерживает доступ к информации через веб-поиск.
- визуальная обработка: Поддерживает функции распознавания и обработки изображений.
- Функции RAG: Предоставление ответов на основе локальных документов с помощью методов генерации с расширенным поиском.
- Поддержка нескольких языков: Поддерживает расширенную разработку на нескольких языках программирования, таких как C++, Go, Python и др.
- Поддержка кросс-платформыСовместимость с Windows, Mac, Linux и мобильными устройствами.
Использование помощи
Процесс установки
- Подготовка среды::
- Убедитесь, что установлены Docker и Docker Compose.
- Получите идентификатор приложения Agora и сертификат приложения (если сертификаты включены в консоли Agora).
- Получите ключ API OpenAI, а также ключи API для Deepgram ASR и FishAudio TTS.
- Настройка переменных среды::
- В корневом каталоге проекта используйте команду
cp .env.example .env
команда для создания.env
Документация. - показать (билет)
.env
файл с необходимым ключом API и конфигурацией.
- В корневом каталоге проекта используйте команду
- Контейнер для запуска::
- Запустите его в корневом каталоге проекта
docker compose up
чтобы запустить контейнер. - Или используйте
docker compose up -d
чтобы запустить контейнер в отсоединенном режиме.
- Запустите его в корневом каталоге проекта
- Интеллект здания::
- Откройте новое окно терминала, введите контейнер и создайте интеллект.
- После завершения сборки запустите сервер на порту 8080:
make run-server
.
- интерфейс доступа::
- Откройте в браузере
localhost:3000
Агент TEN будет впервые использован в будущем. - Откройте другую вкладку и посетите
localhost:3001
Создавайте, подключайте и редактируйте расширения с помощью Graph Designer.
- Откройте в браузере
Руководство по эксплуатации функций
- Мультимодальное взаимодействие в реальном времени::
- Диалог между голосом и речью с низкой задержкой благодаря встроенному OpenAI Realtime API.
- Используйте функцию подавления шума AI в RTC, чтобы обеспечить чистое и стабильное качество звука.
- Запрос погоды::
- Введите название города, который вы хотите проверить в интерфейсе, чтобы получить информацию о погоде в режиме реального времени.
- Поиск в Интернете::
- Введите ключевые слова в поисковую строку, и система будет искать соответствующую информацию в Интернете.
- визуальная обработка::
- Загрузите файлы изображений, и система автоматически выполнит их распознавание и обработку.
- Функции RAG::
- При использовании технологий генерации с расширенным поиском вводятся вопросы, а система предоставляет ответы, используя местные документы.
- Поддержка нескольких языков::
- Поддерживает расширенную разработку с использованием C++, Go, Python и других языков программирования.
- Поддержка кросс-платформы::
- Совместимость с Windows, Mac, Linux и мобильными устройствами позволяет пользователям беспрепятственно использовать TEN Agent на различных платформах.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...