StepAudio 2.5 TTS - 阶跃星辰发布的全新语音合成模型
StepAudio 2.5 TTS 是阶跃星辰发布的全新语音合成模型,首次将语境理解能力深度融入语音生成全流程。模型突破传统TTS依赖固定标签的局限,支持通过自然语言描述实现全局语境控制
ERNIE-Image - 百度文心大模型开源的文本生成图像模型
ERNIE-Image 是百度文心大模型开源的文本生成图像模型,采用单流 Diffusion Transformer 架构,仅 80 亿参数即可在消费级显卡(RTX 4090,24GB 显存)上流畅运...
Gemini 3.1 Flash TTS - Google DeepMind发布的全新文本转语音模型
Gemini 3.1 Flash TTS是Google DeepMind发布的全新文本转语音模型,支持70+种语言和丰富口音选择。核心创新在于"音频标签"技术,用户可通过自然语言指令精确控制语速、语调...
GenieAI - CodeBuddy 推出的 AI 生成应用展示平台
GenieAI 是 CodeBuddy 推出的 AI 生成应用展示平台,让用户通过自然语言交互快速构建和发布各类创意 Web 应用。平台支持生成多样化的数字产品,涵盖情感记录如心情日记、情侣共享空间...
HY-World 2.0 - 腾讯混元开源的多模态世界模型
HY-World 2.0(混元3D世界模型2.0)是腾讯混元开源的多模态世界模型,能理解文字、图片、视频等不同类型输入,自动生成、重建和模拟包含人、物、景的完整3D世界。
Spark 2.0 - 李飞飞 World Labs 开源的动态3D高斯泼溅渲染引擎
Spark 2.0 是AI教母李飞飞创立的World Labs公司开源的动态3D高斯泼溅(3DGS)渲染引擎。引擎专为网页端构建,基于Three.js与WebGL2技术,突破了超大规模3D场景在移动端...
QinyanClaw - 沁言学术推出的学术场景深度优化 AI Agent
QinyanClaw 是沁言学术推出的全球首个专为学术场景深度优化的云端 AI Agent,基于 OpenClaw 框架构建。与传统对话式 AI 不同,运行在独立的 K8s 容器中,支持 7×24 小...
LPM 1.0 - 蔡浩宇 AI 公司 Anuttacon 推出的视频角色表演生成模型
LPM 1.0(Large Performance Model)是米哈游创始人蔡浩宇创立的AI公司Anuttacon发布的首个视频角色表演生成模型,采用17亿参数扩散Transformer架构,专注于...
JoyAI-Image-Edit - 京东探索研究院开源的多模态基础模型
JoyAI-Image-Edit是京东探索研究院开源的多模态基础模型,业内首个将空间智能深度融入统一框架的图像编辑系统。模型突破传统"平面修图"局限,通过空间位置关系、多视角一致性、相机感知等维度建模...
Muse Spark - Meta 发布的全新旗舰 AI 模型
Muse Spark 是 Meta 发布的全新旗舰 AI 模型,由 Meta Superintelligence Labs(MSL)历时 9 个月打造,内部代号"Avocado"。作为 Muse 系列...









