AI分享圈

每日分享最新AI产品、项目、框架、论文解读等~
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - 谷歌推出的通用世界模型

Genie 3 是谷歌 DeepMind 推出的新一代通用世界模型,支持实时生成高度动态且连贯的虚拟世界。Genie 3 能模拟物理现象、自然生态系统,还支持创建奇幻场景和历史场景。用文本提示,用户能...
5天前
01.1K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 是 Anthropic 公司推出的先进大型语言模型,专为高效处理复杂任务而设计。模型在编程领域表现出色,能生成高质量代码,支持长达 32k 的单次输出,适应多种编程风格...
5天前
01.5K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss是 OpenAI 推出的开源推理模型系列,支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本,gpt-oss-120B 拥有 1170 亿参数,支持在 8...
5天前
01.5K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM - 小米开源的声音理解模型

MiDashengLM 是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B ,专注于音频处理与理解。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omn...
5天前
01.1K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD 是清华大学语音与语言实验室开发的开源口语对话语音生成模型。模型能将文本对话脚本转化为自然流畅且富有表现力的对话语音,支持中英文双语生成。
5天前
01.5K
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni 是快手推出的多模态音频生成模型,能基于视频、文本等输入生成高质量的音频、语音和歌曲。AudioGen-Omni 基于先进的技术,如多模态扩散Transformer和相位对齐...
5天前
01.3K
RedOne - 小红书最新推出的社交大模型

RedOne - 小红书最新推出的社交大模型

RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...
7天前
02.5K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy 是百度推出的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 基于飞桨(PaddlePaddle)框架开发,支持多种硬件平台...
7天前
01.8K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS是群核科技推出的高质量3D高斯语义数据集。数据集包含1000个3D场景,涵盖80多种室内环境,如家庭、便利店、婚宴厅和博物馆等。数据集中有755个类别的554,000多个对象实例...
7天前
01.1K
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 是微软推出的先进的零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示能生成自然、富有表现力的语音。
7天前
01.6K