多模态实时互动产品

共 27 篇文章

排序

RealtimeVoiceChat：低延迟与AI进行自然口语对话

RealtimeVoiceChat：低延迟与AI进行自然口语对话

综合介绍 RealtimeVoiceChat 是一个开源项目，专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音，系统通过浏览器捕获音频，快速转为文字，由大型语言模型（LLM）生成回...

最新AI资源 # AI开源项目 # 多模态实时互动产品

11个月前

081.3K

Stepsailor：在现有SaaS产品中集成AI命令栏

Stepsailor：在现有SaaS产品中集成AI命令栏

综合介绍 Stepsailor 是一个专为开发者打造的工具，核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话，比如用户说“添加新任务”，软件就自动执行。它通过简单的 SDK 集成到...

最新AI资源 # 专业生产力工具 # 多模态实时互动产品

12个月前

048.7K

OpenAvatarChat：模块化设计的数字人对话工具

OpenAvatarChat：模块化设计的数字人对话工具

综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目，托管在 GitHub 上。它是一个模块化的数字人对话工具，用户可以在单台 PC 上运行...

最新AI资源 # AI开源项目 # 多模态实时互动产品

12个月前

068.4K

VideoMind：视频按时间戳定位内容与问答的开源项目

VideoMind：视频按时间戳定位内容与问答的开源项目

综合介绍 VideoMind 是一个开源的多模态AI工具，专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔（Ye Liu）和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频...

最新AI资源 # AI开源项目 # AI文本与音频/视频总结工具 # AI音视频编辑

10个月前

056.8K

MoshiVis：实时语音对话和图像理解的开源模型

MoshiVis：实时语音对话和图像理解的开源模型

综合介绍 MoshiVis 是 Kyutai Labs 开发的一个开源项目，托管在 GitHub 上。它基于 Moshi 语音-文本模型（7B 参数），新增了约 2.06 亿个适配参数和冻结的 Pal...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

055.4K

Qwen2.5-Omni：多模态输入和实时语音交互的端测模型

Qwen2.5-Omni：多模态输入和实时语音交互的端测模型

综合介绍 Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入，并实时生成文本或自然语音响应。这款模型于 2025 年 3 ...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

066.2K

xiaozhi-esp32-server：小智AI聊天机器人开源后端服务

xiaozhi-esp32-server：小智AI聊天机器人开源后端服务

综合介绍 xiaozhi-esp32-server 是一个为小智AI聊天机器人（xiaozhi-esp32）提供后端服务的工具。它用 Python 编写，基于 WebSocket 协议，帮助用户快速...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

0164.7K

Baichuan-Audio：支持实时语音交互的端到端音频模型

Baichuan-Audio：支持实时语音交互的端到端音频模型

综合介绍 Baichuan-Audio 是由百川智能（baichuan-inc）开发的一个开源项目，托管于 GitHub 上，专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架，能够将语音...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

066.4K

PowerAgents：定时执行网页任务的AI智能体平台

PowerAgents：定时执行网页任务的AI智能体平台

综合介绍 PowerAgents 是一个专注于网页自动化任务的AI智能体平台，用户可以通过它创建并部署能够点击、输入和提取数据的AI智能体。该平台支持将任务设置为按小时、天或周自动运行，用户还能实时观...

最新AI资源 # 多模态实时互动产品

1年前

052.7K

Step-Audio：多模态语音交互框架，识别语音并使用克隆语音交流等功能

Step-Audio：多模态语音交互框架，识别语音并使用克隆语音交流等功能

综合介绍 Step-Audio 是一个开源的智能语音交互框架，旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话（如中文、英文、日语）、情感语音（如快乐、悲伤）、区域方言（如粤语、四川...

最新AI资源 # AI开源项目 # AI语音克隆 # 多模态实时互动产品

1年前

071.3K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

综合介绍 Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash（实验性）模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互，提供实时低延迟的用...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

063.2K

DeepSeek-VL2：高级多模态理解的专家级视觉语言模型

DeepSeek-VL2：高级多模态理解的专家级视觉语言模型

综合介绍 DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型，显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

075.5K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

综合介绍 AI Web Operator 是一个开源的 AI 浏览器操作工具，旨在通过集成多种 AI 技术和 SDK，简化用户在浏览器中的操作体验。该工具基于 Browserbase 和 Vercel...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

054.1K

SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型

综合介绍 SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统，基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应，支持自然流畅的实...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

052.2K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

综合介绍 OpenAI Realtime Agents是一个开源项目，旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式（借鉴 OpenAI Swarm），允许...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

051.4K

百聆 (Bailing)：低延时的开源语音对话助手，轻松实现自然对话交流

百聆 (Bailing)：低延时的开源语音对话助手，轻松实现自然对话交流

综合介绍百聆（Bailing）是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现了...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

068.7K

Weebo：实时语音聊天机器人，提供自然语言对话体验

Weebo：实时语音聊天机器人，提供自然语言对话体验

综合介绍 Weebo 是一个开源的实时语音聊天机器人，利用 Whisper Small 进行语音识别，Llama 3.2 进行自然语言生成，以及 Kokoro-82M 进行语音合成。该项目由 Aman...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

061.8K

OmAgent：构建多模态智能设备的智能体框架

OmAgent：构建多模态智能设备的智能体框架

综合介绍 OmAgent是由Om AI Lab开发的一个多模态智能体框架，旨在为智能设备提供强大的AI驱动功能。该项目通过整合最先进的多模态基础模型和智能体算法，使开发者能够在各种智能设备上创建高效...

最新AI资源 # AI开源项目 # 多模态实时互动产品 # 智能体开发框架

1年前

054.6K

"Always-On" Deepseek AI Assistant：基于Deepseek-V3打造智能语音交互系统

综合介绍 Always-On AI Assistant是一个创新的AI助手项目，它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术，打造了一个功能强大的永久在线AI助理系统...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

060.1K

BrownChat：开源实时语音聊天的AI助手

BrownChat：开源实时语音聊天的AI助手

综合介绍 BrownChat 是一个基于大型语言模型（LLM）技术的实时音频聊天应用。该项目由 GitHub 用户 sugarforever 开发，旨在通过先进的自然语言处理技术提升用户的沟通体验。B...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

055.4K

小智 AI 聊天机器人：打造你的AI聊天伴侣，轻松实现语音对话和智能互动

小智 AI 聊天机器人：打造你的AI聊天伴侣，轻松实现语音对话和智能互动

综合介绍小智 AI 聊天机器人是一个基于ESP32开发板的开源项目，旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发，主要用于教学目的，帮助更多人入门AI硬件开发，并了解如何将大语言模型应用到实...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

0214K

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js：构建实时语音对话AI应用的Next.js模板

综合介绍 OpenAI Realtime API Next.js 是一个基于Next.js框架的开源项目，旨在帮助开发者快速构建实时语音AI应用。该项目集成了OpenAI的实时API和WebRTC技术...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

048.5K

VITA：开源视觉与语音实时交互的多模态大语言模型

VITA：开源视觉与语音实时交互的多模态大语言模型

综合介绍 VITA是一个领先的开源交互式多模态大语言模型项目，率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本，开创了首个开源交互式全模态大语言模型的先河。2024...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

088K

TransRouter：基于Gemini多模态模型，实时中英互译的音频转换工具

TransRouter：基于Gemini多模态模型，实时中英互译的音频转换工具

综合介绍 TransRouter 是一个基于 Google Gemini 大模型的实时语音翻译工具，专门设计用于实现中英文之间的实时语音互译。该工具能够无缝集成到 Zoom 等视频会议软件中，为跨语言...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

056.9K

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

Fish Agent：端到端AI语音克隆助手，实时语音对话助理，Fish Speech衍生项目

综合介绍 Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统，基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统，其最大特点是采用创新的无语...

最新AI资源 # AI开源项目 # AI语音克隆 # 多模态实时互动产品

1年前

069.2K

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

综合介绍 Infini-Megrez是由无问芯穹（Infinigence AI）开发的边缘智能解决方案，旨在通过软硬件协同设计，实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型，支持图...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

041.8K

Ichigo（llama3-s）：本地实时语音AI助手，开源版Siri

Ichigo（llama3-s）：本地实时语音AI助手，开源版Siri

综合介绍 Ichigo是一个开源的实时语音AI项目，旨在扩展基于文本的语言模型，使其具备原生的“听力”能力。该项目采用了早期融合技术，灵感来自Meta的Chameleon论文。Ichigo的目标是成为...

最新AI资源 # AI开源项目 # 多模态实时互动产品

1年前

059.2K