AI 공유 서클

AI가 세상을 바꾸고 있습니다!
FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

메소-(화학)FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0.5秒一小段接力处理,配合结构化...
2 일 전
05.7K
VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型

메소-(화학)VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型

VibeVoice-ASR是微软开源的统一语音转文本(ASR)模型,专为处理长音频设计,可一次性处理长达60分钟的连续音频,确保语义连贯性和说话人追踪的一致性。支持自定义热词功能,用户可输入特定词汇或...
2 일 전
03.6K
Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列

Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列

Qwen3-TTS是阿里云千问团队开源的语音合成模型系列,支持10种主流语言及方言的音色克隆、创造和拟人化语音生成。模型采用创新的双轨流式架构,首包延迟仅97毫秒,具备自然语言指令控制音色、情感和语调...
2 일 전
03.4K
Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略...
3일 전
05.5K
AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇...
3일 전
04.8K
EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上...
5일 전
021.3K
Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1.2T多模态令牌数据)和创新的并行协同推理技术(PACORE...
5일 전
07.7K
PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型,拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程,采用统一的Transformer架构,能同步处理语音理解与生成。模型支持全...
6일 전
011.3K
GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59.2...
6일 전
09.2K
NovaSR - 开源的音频超分辨率模型,提升音频采样率

NovaSR - 开源的音频超分辨率模型,提升音频采样率

NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资...
6일 전
08.6K