Мультимодальные интерактивные продукты в режиме реального времени

Всего 27 статей
расставлять по порядку
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Чатбот Xiaozhi AI: создайте своего собеседника с искусственным интеллектом, простой голосовой диалог и интеллектуальное взаимодействие

Всеобъемлющее введение Xiaozhi AI Chatbot - это проект с открытым исходным кодом на базе платы разработки ESP32, призванный помочь пользователям создать собственный чат-компаньон с искусственным интеллектом. Проект был разработан компанией Shrimp и в основном используется в учебных целях, чтобы помочь большему количеству людей начать разработку аппаратных средств ИИ и понять, как применять большие языковые модели к реальным...
5 месяцев назад
017.3K
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

xiaozhi-esp32-server: открытый сервис бэкэнд-службы чатбота Xiaozhi AI

Общее введение xiaozhi-esp32-server - это инструмент для обеспечения бэкэнд-сервиса для чатбота Xiaozhi AI (xiaozhi-esp32). Он написан на языке Python и основан на протоколе WebSocket, чтобы помочь пользователям быстро...
5 месяцев назад
015.7K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Мультимодальные модели большого языка с открытым исходным кодом для визуального и речевого взаимодействия в реальном времени

Общие сведения VITA - это ведущий проект интерактивного мультимодального моделирования большого языка с открытым исходным кодом, который является пионером в достижении истинного полного мультимодального взаимодействия. Проект запустил VITA-1.0 в августе 2024 года, став пионером первой интерактивной полностью модальной модели большого языка с открытым исходным кодом.2024...
8 месяцев назад
013.2K

"Всегда включенный" Deepseek AI Assistant: создание интеллектуальной системы голосового взаимодействия на основе Deepseek-V3

Всеобъемлющее введение Always-On AI Assistant - это инновационный проект по созданию мощного, постоянно работающего в режиме онлайн ИИ-ассистента, объединяющего такие передовые технологии, как Deepseek-V3, RealtimeSTT и Typer...
7 месяцев назад
011.1K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Всеобъемлющее введение DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно улучшают производительность своего предшественника DeepSeek-VL. Модели полезны для визуальных вопросов и ответов, оптического распознавания символов,...
7 месяцев назад
010.5K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: интеллектуальный помощник для настольных компьютеров, построенный на базе ИИ Gemini, который может видеть, слышать и говорить

Общее представление Gemini Cursor - это настольный интеллектуальный помощник, основанный на модели Gemini 2.0 Flash (экспериментальной) от Google. Он обеспечивает визуальное, слуховое и голосовое взаимодействие через мультимодальный API, предоставляя возможность использования в реальном времени с низкой задержкой...
7 месяцев назад
010.3K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: инструмент преобразования аудио в реальном времени для перевода с китайского на английский на основе мультимодальной модели Gemini

TransRouter - это инструмент голосового перевода в реальном времени, основанный на модели Gemini от Google, специально разработанный для голосового перевода в реальном времени между английским и китайским языками. Инструмент легко интегрируется в программное обеспечение для видеоконференций, такое как Zoom, предоставляя мощный инструмент для межъязыкового...
8 месяцев назад
010K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: мультимодальный фреймворк для голосового взаимодействия, который распознает речь и общается с помощью клонированной речи, среди прочих возможностей

Всеобъемлющее введение Step-Audio - это фреймворк с открытым исходным кодом для интеллектуального речевого взаимодействия, предназначенный для обеспечения готовых возможностей понимания и генерации речи в производственных средах. Фреймворк поддерживает многоязычные разговоры (например, китайский, английский, японский), эмоциональную речь (например, счастливую, грустную), региональные диалекты (например, кантонский, чечуаньский ...
6 месяцев назад
010K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Всеобъемлющее введение Bailing (Бейлинг) - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект сочетает в себе технологии распознавания речи (ASR), определения голосовой активности (VAD), моделирования большого языка (LLM) и синтеза речи (TTS) для достижения...
7 месяцев назад
09.9K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Всеобъемлющее введение Проект Fish Speech Derivative Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Как полностью сквозная система обработки речевых клонов, ее важнейшей особенностью является использование инновационных безречевых...
8 месяцев назад
09.7K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: сквозная аудиомодель, поддерживающая голосовое взаимодействие в реальном времени

Всеобъемлющее введение Baichuan-Audio - это проект с открытым исходным кодом, разработанный Baichuan Intelligence (baichuan-inc) и размещенный на GitHub, сфокусированный на сквозной технологии голосового взаимодействия. Проект предоставляет полный фреймворк для обработки звука, который обеспечивает речевое ...
6 месяцев назад
09.5K
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat: модульно спроектированный цифровой инструмент для диалога между людьми

Общее представление OpenAvatarChat - это проект с открытым исходным кодом, разработанный командой HumanAIGC-Engineering и размещенный на GitHub. Это модульный инструмент цифрового человеческого диалога, который позволяет пользователям работать на одном компьютере...
5 месяцев назад
09.4K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом

Общее представление Ichigo - это проект речевого ИИ с открытым исходным кодом, цель которого - расширить текстовые языковые модели возможностями "прослушивания". Проект использует методы раннего слияния, вдохновленные работой Мета "Хамелеон".Цель Ichigo - стать...
7 месяцев назад
09.3K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: видео по временной метке, позиционирование контента и проект с открытым исходным кодом Q&A

Общее представление VideoMind - это мультимодальный ИИ-инструмент с открытым исходным кодом, ориентированный на умозаключения, вопросы и ответы и составление резюме для длинных видео. Он был разработан Йе Лю из Гонконгского политехнического университета и командой из Show Lab Национального университета Сингапура. Инструмент имитирует человеческое понимание видео...
2 месяца назад
09.2K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: голосовой чатбот реального времени, обеспечивающий диалог на естественном языке

Общее представление Weebo - это голосовой чатбот с открытым исходным кодом, использующий Whisper Small для распознавания речи, Llama 3.2 для генерации естественного языка и Kokoro-82M для синтеза речи. Проект был разработан Аманом...
7 месяцев назад
09.1K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: естественный разговорный диалог с низким уровнем задержки и искусственным интеллектом

Общее представление RealtimeVoiceChat - это проект с открытым исходным кодом, ориентированный на естественные разговоры в реальном времени с искусственным интеллектом посредством голоса. Пользователи используют микрофон для ввода своего голоса, а система перехватывает аудио через браузер, быстро преобразует его в текст, а большая языковая модель (LLM) генерирует обратную...
4 месяца назад
08.9K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: модель с открытым исходным кодом для речевого диалога в реальном времени и понимания изображений

Общее представление MoshiVis - это проект с открытым исходным кодом, разработанный Kyutai Labs и размещенный на GitHub. Он основан на модели преобразования речи в текст Moshi (7B параметров), с примерно 206 миллионами новых параметров адаптации и замороженными Pal...
5 месяцев назад
08.8K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: модель конечных измерений для мультимодального ввода и речевого взаимодействия в реальном времени

Всеобъемлющее введение Qwen2.5-Omni - это мультимодальная модель ИИ с открытым исходным кодом, разработанная командой Alibaba Cloud Qwen. Она может обрабатывать множество входных данных, таких как текст, изображения, аудио и видео, и генерировать текстовые или естественные речевые ответы в режиме реального времени. Модель была выпущена в 2025 году 3 ...
5 месяцев назад
08.7K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: автоматизация браузера, реализация OpenAI Operator с открытым исходным кодом

Общее представление AI Web Operator - это инструмент оператора браузера AI с открытым исходным кодом, предназначенный для упрощения работы пользователя в браузере путем интеграции нескольких технологий AI и SDK. Инструмент основан на Browserbase и Vercel...
7 месяцев назад
08.7K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: интеллектуальный каркас для создания мультимодальных умных устройств

Всеобъемлющее введение OmAgent - это мультимодальный фреймворк интеллектуального тела, разработанный лабораторией Om AI Lab и нацеленный на предоставление мощных функций умных устройств, основанных на искусственном интеллекте. Интегрируя современные мультимодальные базовые модели и алгоритмы интеллектуального тела, проект позволяет разработчикам создавать эффективные смарт-устройства на различных...
7 месяцев назад
08.7K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: сквозная макромодель антропоморфного речевого диалога для взаимодействия в реальном времени

SpeechGPT 2.0-preview - это первая антропоморфная система взаимодействия в реальном времени, представленная OpenMOSS, которая обучена на основе миллионов часов речевых данных. Система оснащена антропоморфной речевой экспрессией и 100 мс низкой задержкой отклика, поддерживая естественное и плавное взаимодействие в реальном времени...
7 месяцев назад
08.4K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: мультиинтеллектуальное приложение для взаимодействия тела с речью (пример OpenAI)

Общее введение OpenAI Realtime Agents - это проект с открытым исходным кодом, цель которого - показать, как API OpenAI в реальном времени может быть использован для создания мультиинтеллектуальных речевых приложений. Он предоставляет высокоуровневую модель интеллектуального тела (заимствованную из OpenAI Swarm), которая позволяет...
7 месяцев назад
08.3K
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor: интеграция командных панелей ИИ в существующие SaaS-продукты

Stepsailor - это инструмент для разработчиков, в основе которого лежит командная панель с искусственным интеллектом. Разработчики могут использовать ее для того, чтобы их программные продукты понимали, что говорит пользователь, например "добавить новую задачу", и программа автоматически выполняла ее. Он интегрируется с помощью простого SDK в...
5 месяцев назад
07.9K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents: интеллектуальная платформа ИИ для выполнения веб-задач по времени

Общее введение PowerAgents - это платформа искусственного интеллекта, ориентированная на задачи веб-автоматизации, которая позволяет пользователям создавать и развертывать искусственные интеллекты, способные нажимать, вводить и извлекать данные. Платформа поддерживает настройку задач для автоматического выполнения на ежечасной, ежедневной или еженедельной основе, и пользователи также могут наблюдать в режиме реального времени...
6 месяцев назад
07.9K
BrownChat:开源实时语音聊天的AI助手

BrownChat: ИИ-ассистент для голосового чата в реальном времени с открытым исходным кодом

Общее представление BrownChat - это приложение для аудиочата в реальном времени, основанное на технологии Large Language Modelling (LLM). Разработанный пользователем GitHub sugarforever, проект нацелен на улучшение опыта общения пользователей с помощью передовой технологии обработки естественного языка.B...
8 месяцев назад
07.7K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: шаблон Next.js для создания приложений ИИ с голосовым диалогом в реальном времени

Всеобъемлющее представление OpenAI Realtime API Next.js - это проект с открытым исходным кодом, основанный на фреймворке Next.js, призванный помочь разработчикам быстро создавать приложения голосового ИИ в реальном времени. Проект объединяет API реального времени OpenAI и технологию WebRTC...
8 месяцев назад
07.3K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: конечная модель мультимодального понимания, поддерживающая мультимодальное понимание и анализ текста, изображений и аудио

Всеобъемлющее введение Infini-Megrez - это интеллектуальное решение, разработанное компанией unquestioned core dome (Infinigence AI) и направленное на достижение эффективного мультимодального понимания и анализа посредством совместного проектирования аппаратного и программного обеспечения. Ядром проекта является модель Megrez-3B, которая поддерживает граф...
7 месяцев назад
07K