메소-(화학)FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架
FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0.5秒一小段接力处理,配合结构化...
메소-(화학)VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型
VibeVoice-ASR是微软开源的统一语音转文本(ASR)模型,专为处理长音频设计,可一次性处理长达60分钟的连续音频,确保语义连贯性和说话人追踪的一致性。支持自定义热词功能,用户可输入特定词汇或...
Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列
Qwen3-TTS是阿里云千问团队开源的语音合成模型系列,支持10种主流语言及方言的音色克隆、创造和拟人化语音生成。模型采用创新的双轨流式架构,首包延迟仅97毫秒,具备自然语言指令控制音色、情感和语调...
Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型
Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略...
AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具
AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇...
EmbodiChain - 跨维智能推出的开源具身智能开发平台
EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上...
Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型
Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1.2T多模态令牌数据)和创新的并行协同推理技术(PACORE...
PersonaPlex - 英伟达开源的全双工语音对话模型
PersonaPlex是英伟达开源的全双工语音对话模型,拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程,采用统一的Transformer架构,能同步处理语音理解与生成。模型支持全...
GLM-4.7-Flash - 智谱开源的混合专家架构语言模型
GLM-4.7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59.2...
NovaSR - 开源的音频超分辨率模型,提升音频采样率
NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资...









