AudioGen-Omni - 快手推出的多模态音频生成模型
AudioGen-Omni 是快手推出的多模态音频生成模型,能基于视频、文本等输入生成高质量的音频、语音和歌曲。AudioGen-Omni 基于先进的技术,如多模态扩散Transformer和相位对齐...
RedOne - 小红书最新推出的社交大模型
RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...
FastDeploy - 百度推出的高性能大模型推理与部署工具
FastDeploy 是百度推出的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 基于飞桨(PaddlePaddle)框架开发,支持多种硬件平台...
InteriorGS - 群核科技推出的3D高斯语义数据集
InteriorGS是群核科技推出的高质量3D高斯语义数据集。数据集包含1000个3D场景,涵盖80多种室内环境,如家庭、便利店、婚宴厅和博物馆等。数据集中有755个类别的554,000多个对象实例...
DragonV2.1 - 微软推出的零样本语音合成模型
DragonV2.1 是微软推出的先进的零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示能生成自然、富有表现力的语音。
ScreenCoder – 开源的UI截图生成前端代码工具
ScreenCoder 是开源的智能工具,能将 UI 设计截图快速转换为高质量的 HTML/CSS 代码。工具基于模块化多智能体架构,结合视觉理解、布局规划和代码合成技术,支持生成高精度且语义化的前端...
Kimi K2 高速版 - 月之暗面Kimi推出的高速版语言模型
Kimi K2 高速版(kimi-k2-turbo-preview)是月之暗面Kimi推出的高性能语言模型。模型在 Kimi K2 的基础上进行优化,输出速度大幅提升,每秒可生成 40 个 Token...
dots.ocr - 小红书hi lab推出的开源多语言文档解析模型
dots.ocr是小红书hi lab开源的多语言文档解析模型,基于17亿参数的视觉语言模型(VLM),能高效地进行文档布局检测和内容识别,同时保持良好的阅读顺序。
HYPIR - 中国科学院团队推出的新型图像复原大模型
HYPIR 是中国科学院深圳先进技术研究院董超团队推出的图像复原大模型。模型结合扩散模型的分数先验与对抗生成网络,实现高效、高质量的图像复原。HYPIR 能快速修复老照片、提升分辨率,同时保持文字清晰...
FLUX.1 Krea [dev] - 黑森林和Krea AI联合推出的文生图模型
FLUX.1 Krea [dev] 是 Black Forest Labs 和 Krea AI 联合推出的文生图模型。模型根据输入的文本描述,能生成高质量、逼真的图像,具有独特的美学风格,避免传统 A...









![FLUX.1 Krea [dev] - 黑森林和Krea AI联合推出的文生图模型](https://aisharenet.com/wp-content/uploads/2025/08/1754032748-1754032748-FLUX.1-Krea-dev-website-2.png)