AI分享圈

每日分享最新AI产品、项目、框架、论文解读等~
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni 是快手推出的多模态音频生成模型,能基于视频、文本等输入生成高质量的音频、语音和歌曲。AudioGen-Omni 基于先进的技术,如多模态扩散Transformer和相位对齐...
8个月前
047.6K
RedOne - 小红书最新推出的社交大模型

RedOne - 小红书最新推出的社交大模型

RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...
8个月前
044.7K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy 是百度推出的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 基于飞桨(PaddlePaddle)框架开发,支持多种硬件平台...
8个月前
045.7K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS是群核科技推出的高质量3D高斯语义数据集。数据集包含1000个3D场景,涵盖80多种室内环境,如家庭、便利店、婚宴厅和博物馆等。数据集中有755个类别的554,000多个对象实例...
8个月前
045K
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 是微软推出的先进的零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语音提示能生成自然、富有表现力的语音。
8个月前
043.1K
ScreenCoder – 开源的UI截图生成前端代码工具

ScreenCoder – 开源的UI截图生成前端代码工具

ScreenCoder 是开源的智能工具,能将 UI 设计截图快速转换为高质量的 HTML/CSS 代码。工具基于模块化多智能体架构,结合视觉理解、布局规划和代码合成技术,支持生成高精度且语义化的前端...
8个月前
054.6K
Kimi K2 高速版 - 月之暗面Kimi推出的高速版语言模型

Kimi K2 高速版 - 月之暗面Kimi推出的高速版语言模型

Kimi K2 高速版(kimi-k2-turbo-preview)是月之暗面Kimi推出的高性能语言模型。模型在 Kimi K2 的基础上进行优化,输出速度大幅提升,每秒可生成 40 个 Token...
8个月前
060.7K
dots.ocr - 小红书hi lab推出的开源多语言文档解析模型

dots.ocr - 小红书hi lab推出的开源多语言文档解析模型

dots.ocr是小红书hi lab开源的多语言文档解析模型,基于17亿参数的视觉语言模型(VLM),能高效地进行文档布局检测和内容识别,同时保持良好的阅读顺序。
8个月前
066.7K
HYPIR - 中国科学院团队推出的新型图像复原大模型

HYPIR - 中国科学院团队推出的新型图像复原大模型

HYPIR 是中国科学院深圳先进技术研究院董超团队推出的图像复原大模型。模型结合扩散模型的分数先验与对抗生成网络,实现高效、高质量的图像复原。HYPIR 能快速修复老照片、提升分辨率,同时保持文字清晰...
8个月前
055.8K
FLUX.1 Krea [dev] - 黑森林和Krea AI联合推出的文生图模型

FLUX.1 Krea [dev] - 黑森林和Krea AI联合推出的文生图模型

FLUX.1 Krea [dev] 是 Black Forest Labs 和 Krea AI 联合推出的文生图模型。模型根据输入的文本描述,能生成高质量、逼真的图像,具有独特的美学风格,避免传统 A...
8个月前
050.8K