Круг обмена ИИ

ИИ меняет мир!
Code2Video - Show Lab开源的AI教学视频生成框架

мезо- (химия)Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...
39 минут назад
0157
SceneGen - 上海交大开源的单图像生成3D场景框架

мезо- (химия)SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen是上海交通大学开源的单图像生成3D场景的方法,从单张场景图像及目标资源蒙版中,高效生成包含多个3D资源的完整场景,包括资源的几何结构、纹理及相对空间位置。
53 минуты назад
087
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

мезо- (химия)Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio是蚂蚁集团开源的统一音频多模态生成模型,支持文本、音频、图像和视频的混合输入与输出。采用多尺度Transformer和混合专家(MoE)架构,通过模态感知路由机制高效处理跨模...
21 час назад
01.8K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

мезо- (химия)AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...
2 дня назад
03.4K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。
3 дня назад
05.1K
Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...
5 дней назад
07.4K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,并通过自研强化学习系统 ASystem 进行推理能力训练。在自然语言推理...
6 дней назад
07.9K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...
6 дней назад
06.3K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - 字节跳动开源的高保真视频生成模型

Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...
1 неделя назад
09.5K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...
1 неделя назад
010.2K