Мультимодальные интерактивные продукты в режиме реального времени

Всего 27 статей
расставлять по порядку
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: естественный разговорный диалог с низким уровнем задержки и искусственным интеллектом

Общее представление RealtimeVoiceChat - это проект с открытым исходным кодом, ориентированный на естественные разговоры в реальном времени с искусственным интеллектом посредством голоса. Пользователи используют микрофон для ввода своего голоса, а система перехватывает аудио через браузер, быстро преобразует его в текст, а большая языковая модель (LLM) генерирует обратную...
6 месяцев назад
027.2K
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor: интеграция командных панелей ИИ в существующие SaaS-продукты

Stepsailor - это инструмент для разработчиков, в основе которого лежит командная панель с искусственным интеллектом. Разработчики могут использовать ее для того, чтобы их программные продукты понимали, что говорит пользователь, например "добавить новую задачу", и программа автоматически выполняла ее. Он интегрируется с помощью простого SDK в...
7 месяцев назад
023.6K
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat: модульно спроектированный цифровой инструмент для диалога между людьми

Общее представление OpenAvatarChat - это проект с открытым исходным кодом, разработанный командой HumanAIGC-Engineering и размещенный на GitHub. Это модульный инструмент цифрового человеческого диалога, который позволяет пользователям работать на одном компьютере...
7 месяцев назад
030.2K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: видео по временной метке, позиционирование контента и проект с открытым исходным кодом Q&A

Общее представление VideoMind - это мультимодальный ИИ-инструмент с открытым исходным кодом, ориентированный на умозаключения, вопросы и ответы и составление резюме для длинных видео. Он был разработан Йе Лю из Гонконгского политехнического университета и командой из Show Lab Национального университета Сингапура. Инструмент имитирует человеческое понимание видео...
5 месяцев назад
026.4K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: модель с открытым исходным кодом для речевого диалога в реальном времени и понимания изображений

Общее представление MoshiVis - это проект с открытым исходным кодом, разработанный Kyutai Labs и размещенный на GitHub. Он основан на модели преобразования речи в текст Moshi (7B параметров), с примерно 206 миллионами новых параметров адаптации и замороженными Pal...
7 месяцев назад
025K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: модель конечных измерений для мультимодального ввода и речевого взаимодействия в реальном времени

Всеобъемлющее введение Qwen2.5-Omni - это мультимодальная модель ИИ с открытым исходным кодом, разработанная командой Alibaba Cloud Qwen. Она может обрабатывать множество входных данных, таких как текст, изображения, аудио и видео, и генерировать текстовые или естественные речевые ответы в режиме реального времени. Модель была выпущена в 2025 году 3 ...
7 месяцев назад
027.8K
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

xiaozhi-esp32-server: открытый сервис бэкэнд-службы чатбота Xiaozhi AI

Общее введение xiaozhi-esp32-server - это инструмент для обеспечения бэкэнд-сервиса для чатбота Xiaozhi AI (xiaozhi-esp32). Он написан на языке Python и основан на протоколе WebSocket, чтобы помочь пользователям быстро...
7 месяцев назад
064K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: сквозная аудиомодель, поддерживающая голосовое взаимодействие в реальном времени

Всеобъемлющее введение Baichuan-Audio - это проект с открытым исходным кодом, разработанный Baichuan Intelligence (baichuan-inc) и размещенный на GitHub, сфокусированный на сквозной технологии голосового взаимодействия. Проект предоставляет полный фреймворк для обработки звука, который обеспечивает речевое ...
8 месяцев назад
029K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents: интеллектуальная платформа ИИ для выполнения веб-задач по времени

Общее введение PowerAgents - это платформа искусственного интеллекта, ориентированная на задачи веб-автоматизации, которая позволяет пользователям создавать и развертывать искусственные интеллекты, способные нажимать, вводить и извлекать данные. Платформа поддерживает настройку задач для автоматического выполнения на ежечасной, ежедневной или еженедельной основе, и пользователи также могут наблюдать в режиме реального времени...
8 месяцев назад
023.5K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: мультимодальный фреймворк для голосового взаимодействия, который распознает речь и общается с помощью клонированной речи, среди прочих возможностей

Всеобъемлющее введение Step-Audio - это фреймворк с открытым исходным кодом для интеллектуального речевого взаимодействия, предназначенный для обеспечения готовых возможностей понимания и генерации речи в производственных средах. Фреймворк поддерживает многоязычные разговоры (например, китайский, английский, японский), эмоциональную речь (например, счастливую, грустную), региональные диалекты (например, кантонский, чечуаньский ...
8 месяцев назад
030.7K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: интеллектуальный помощник для настольных компьютеров, построенный на базе ИИ Gemini, который может видеть, слышать и говорить

Общее представление Gemini Cursor - это настольный интеллектуальный помощник, основанный на модели Gemini 2.0 Flash (экспериментальной) от Google. Он обеспечивает визуальное, слуховое и голосовое взаимодействие через мультимодальный API, предоставляя возможность использования в реальном времени с низкой задержкой...
9 месяцев назад
026.7K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: экспертная модель визуального языка для расширенного мультимодального понимания

Всеобъемлющее введение DeepSeek-VL2 - это серия усовершенствованных визуальных языковых моделей Mixture-of-Experts (MoE), которые значительно улучшают производительность своего предшественника DeepSeek-VL. Модели полезны для визуальных вопросов и ответов, оптического распознавания символов,...
9 месяцев назад
031K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: автоматизация браузера, реализация OpenAI Operator с открытым исходным кодом

Общее представление AI Web Operator - это инструмент оператора браузера AI с открытым исходным кодом, предназначенный для упрощения работы пользователя в браузере путем интеграции нескольких технологий AI и SDK. Инструмент основан на Browserbase и Vercel...
9 месяцев назад
025.2K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: сквозная макромодель антропоморфного речевого диалога для взаимодействия в реальном времени

SpeechGPT 2.0-preview - это первая антропоморфная система взаимодействия в реальном времени, представленная OpenMOSS, которая обучена на основе миллионов часов речевых данных. Система оснащена антропоморфной речевой экспрессией и 100 мс низкой задержкой отклика, поддерживая естественное и плавное взаимодействие в реальном времени...
9 месяцев назад
023.9K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: мультиинтеллектуальное приложение для взаимодействия тела с речью (пример OpenAI)

Общее введение OpenAI Realtime Agents - это проект с открытым исходным кодом, цель которого - показать, как API OpenAI в реальном времени может быть использован для создания мультиинтеллектуальных речевых приложений. Он предоставляет высокоуровневую модель интеллектуального тела (заимствованную из OpenAI Swarm), которая позволяет...
9 месяцев назад
022.4K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: голосовой диалоговый помощник с открытым исходным кодом с низкой задержкой для естественного разговора и общения

Всеобъемлющее введение Bailing (Бейлинг) - это голосовой диалоговый помощник с открытым исходным кодом, предназначенный для ведения естественного диалога с пользователями посредством речи. Проект сочетает в себе технологии распознавания речи (ASR), определения голосовой активности (VAD), моделирования большого языка (LLM) и синтеза речи (TTS) для достижения...
9 месяцев назад
029.4K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: голосовой чатбот реального времени, обеспечивающий диалог на естественном языке

Общее представление Weebo - это голосовой чатбот с открытым исходным кодом, использующий Whisper Small для распознавания речи, Llama 3.2 для генерации естественного языка и Kokoro-82M для синтеза речи. Проект был разработан Аманом...
9 месяцев назад
025.9K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: интеллектуальный каркас для создания мультимодальных умных устройств

Всеобъемлющее введение OmAgent - это мультимодальный фреймворк интеллектуального тела, разработанный лабораторией Om AI Lab и нацеленный на предоставление мощных функций умных устройств, основанных на искусственном интеллекте. Интегрируя современные мультимодальные базовые модели и алгоритмы интеллектуального тела, проект позволяет разработчикам создавать эффективные смарт-устройства на различных...
9 месяцев назад
025.7K

"Всегда включенный" Deepseek AI Assistant: создание интеллектуальной системы голосового взаимодействия на основе Deepseek-V3

Всеобъемлющее введение Always-On AI Assistant - это инновационный проект по созданию мощного, постоянно работающего в режиме онлайн ИИ-ассистента, объединяющего такие передовые технологии, как Deepseek-V3, RealtimeSTT и Typer...
10 месяцев назад
028.2K
BrownChat:开源实时语音聊天的AI助手

BrownChat: ИИ-ассистент для голосового чата в реальном времени с открытым исходным кодом

Общее представление BrownChat - это приложение для аудиочата в реальном времени, основанное на технологии Large Language Modelling (LLM). Разработанный пользователем GitHub sugarforever, проект нацелен на улучшение опыта общения пользователей с помощью передовой технологии обработки естественного языка.B...
10 месяцев назад
023.8K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Чатбот Xiaozhi AI: создайте своего собеседника с искусственным интеллектом, простой голосовой диалог и интеллектуальное взаимодействие

Всеобъемлющее введение Xiaozhi AI Chatbot - это проект с открытым исходным кодом на базе платы разработки ESP32, призванный помочь пользователям создать собственный чат-компаньон с искусственным интеллектом. Проект был разработан компанией Shrimp и в основном используется в учебных целях, чтобы помочь большему количеству людей начать разработку аппаратных средств ИИ и понять, как применять большие языковые модели к реальным...
7 месяцев назад
072.2K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: шаблон Next.js для создания приложений ИИ с голосовым диалогом в реальном времени

Всеобъемлющее представление OpenAI Realtime API Next.js - это проект с открытым исходным кодом, основанный на фреймворке Next.js, призванный помочь разработчикам быстро создавать приложения голосового ИИ в реальном времени. Проект объединяет API реального времени OpenAI и технологию WebRTC...
10 месяцев назад
021.3K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Мультимодальные модели большого языка с открытым исходным кодом для визуального и речевого взаимодействия в реальном времени

Общие сведения VITA - это ведущий проект интерактивного мультимодального моделирования большого языка с открытым исходным кодом, который является пионером в достижении истинного полного мультимодального взаимодействия. Проект запустил VITA-1.0 в августе 2024 года, став пионером первой интерактивной полностью модальной модели большого языка с открытым исходным кодом.2024...
10 месяцев назад
038.1K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: инструмент преобразования аудио в реальном времени для перевода с китайского на английский на основе мультимодальной модели Gemini

TransRouter - это инструмент голосового перевода в реальном времени, основанный на модели Gemini от Google, специально разработанный для голосового перевода в реальном времени между английским и китайским языками. Инструмент легко интегрируется в программное обеспечение для видеоконференций, такое как Zoom, предоставляя мощный инструмент для межъязыкового...
10 месяцев назад
025.9K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: сквозной голосовой помощник с искусственным интеллектом, голосовой помощник для ведения диалога в реальном времени, спин-офф проект Fish Speech

Всеобъемлющее введение Проект Fish Speech Derivative Project Fish Agent - это революционная сквозная система клонирования речи AI, разработанная на основе архитектуры модели V0.1 3B. Как полностью сквозная система обработки речевых клонов, ее важнейшей особенностью является использование инновационных безречевых...
10 месяцев назад
029.6K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: конечная модель мультимодального понимания, поддерживающая мультимодальное понимание и анализ текста, изображений и аудио

Всеобъемлющее введение Infini-Megrez - это интеллектуальное решение, разработанное компанией unquestioned core dome (Infinigence AI) и направленное на достижение эффективного мультимодального понимания и анализа посредством совместного проектирования аппаратного и программного обеспечения. Ядром проекта является модель Megrez-3B, которая поддерживает граф...
9 месяцев назад
020.5K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): локальный голосовой ИИ-помощник в реальном времени, версия Siri с открытым исходным кодом

Общее представление Ichigo - это проект речевого ИИ с открытым исходным кодом, цель которого - расширить текстовые языковые модели возможностями "прослушивания". Проект использует методы раннего слияния, вдохновленные работой Мета "Хамелеон".Цель Ichigo - стать...
10 месяцев назад
026.8K