新ViMax - 香港大学开源的多智能体视频生成框架ViMax是香港大学数据科学实验室开源的多智能体视频生成框架,能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能,支持用户通过自然语言描述生成连贯的影视级视频...最新AI资源1天前08.3K
新FLUX.2 - 黑森林开源的图像生成与编辑模型FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源...最新AI资源1天前02.6K
新Fara-7B - 微软开源的计算机操作Agent助手模型Fara-7B是微软开源发布的70亿参数规模的计算机操作代理(CUA)模型,基于Qwen2.5-VL-7B架构。通过视觉解析网页截图,在屏幕上执行点击、输入等操作,无需依赖额外的可访问性树或多个大模型...最新AI资源2天前04.6K
新HunyuanOCR - 腾讯混元开源的光学字符识别专家模型HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型,参数量仅10亿。基于混元多模态架构开发,采用端到端设计,能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分,超越...最新AI资源2天前04.6K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行Supertonic是开源的高性能的文本转语音(TTS)系统,专注于在本地设备上快速生成语音。采用ONNX Runtime技术,可在手机、电脑甚至树莓派等设备上运行,支持23种语言和语音克隆,无需网络...最新AI资源3天前04.4K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型MiMo-Embodied是小米集团开源的全球首个成功融合具身智能(Embodied AI)与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题,实现两大领域的任务统一建模。最新AI资源5天前08.6K
MOSS-Speech - 复旦大学开源的语音到语音大模型MOSS-Speech是复旦大学邱锡鹏教授团队开源的语音到语音(Speech-to-Speech)大模型。突破传统语音处理方式,无需文本引导,直接对语音进行理解和生成,能捕捉语调、情绪等非文字要素,使...最新AI资源6天前08.1K
Parallax - Gradient开源的全球首个全自主AI操作系统Parallax是分布式AI实验室Gradient开源的全球首个“全自主AI操作系统”。支持在Mac、Windows等异构设备上跨平台部署大模型,让用户完全掌控模型、数据与AI记忆。系统内置网络感知分...最新AI资源6天前09.1K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型HunyuanVideo 1.5 是腾讯混元大模型团队开源的轻量级视频生成模型,基于 Diffusion Transformer(DiT)架构,参数量为 8.3B。支持生成 5-10 秒的高清视频,分...最新AI资源6天前010K
Awex - 蚂蚁集团开源的高性能权重交换框架Awex是蚂蚁集团开源的高性能权重交换框架,专为强化学习中的大规模参数同步设计。能在秒级完成TB级参数交换,显著提升训练推理效率。Awex具备极速同步性能,在千卡集群上,万亿参数模型可在6秒内完成全量...最新AI资源7天前08.3K
Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库Seekdb(OceanBase Seekdb)是蚂蚁OceanBase开源的 AI 原生混合搜索数据库,支持向量、全文、标量及地理空间数据的统一混合搜索,采用多阶段检索机制,实现低延迟下的高精度搜索...最新AI资源7天前09.2K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架LoopTool是上海交通大学与小红书团队开源的自动化的工具调用数据进化框架,专为提升大语言模型的工具调用能力设计。通过闭环迭代优化数据生成与模型训练,利用开源模型(如Qwen3-32B)作为数据生成...最新AI资源1周前08.5K
SAM 3D - Meta开源的3D重建模型系列SAM 3D是Meta公司推出的基于SAM系列的3D重建模型,包含SAM 3D Objects和SAM 3D Body两个分支。其中SAM 3D Objects能从单张照片生成可交互的3D物体模型,支...最新AI资源1周前09.8K
AgentEvolver - 阿里通义实验室开源的智能体进化系统AgentEvolver是阿里巴巴通义实验室开源的智能体进化系统。通过自我提问、自我导航和自我归因三种机制,实现智能体的自主学习与进化。AgentEvolver采用服务导向架构,将环境沙盒、LLM和经...最新AI资源1周前012.3K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆MemOS是MemTensor等开源的面向大语言模型(LLM)的记忆管理与调度框架。将记忆视为与算力同等重要的资源,通过标准化的MemCube记忆单元,统一管理明文、激活状态和参数记忆。最新AI资源1周前08K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型WithAnyone 是复旦大学和阶跃星辰联合开发的 AI 合照生成模型,解决传统 AI 图像生成中常见的“复制粘贴”问题,实现更自然、可控的多人图像生成。模型通过大规模数据集 MultiID-2M ...最新AI资源1周前08.9K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习ChatTutor是开源的AI教学辅助工具,专注于STEM学科的可视化互动学习。通过多智能体架构实现对话式答疑和动态绘图功能,能在电子白板上实时绘制数学图形、物理电路或思维导图,帮助用户直观理解抽象概...最新AI资源1周前07.2K
DPAI Arena - JetBrains开源的AI编程基准测试平台DPAI Arena(Developer Productivity AI Arena)是JetBrains创建的开放基准测试平台,衡量AI辅助开发工具在真实世界软件工程任务中的有效性。通过透明的评估流...最新AI资源1周前08.6K
EverMemOS - 盛大团队推出的开源长期记忆操作系统EverMemOS是陈天桥领导的盛大团队推出的开源长期记忆操作系统,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层...最新AI资源1周前09.8K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台Astron Agent是科大讯飞开源的企业级智能工作流开发平台,专注于帮助企业快速构建可落地的AI代理应用。采用Java+Spring Boot技术栈,支持轻量化私有化部署(最低2核4G配置),内置...最新AI资源2周前09.2K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目Bee是腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案,通过提升数据质量缩小开源模型与闭源模型的性能差距。项目包含三大核心成果:1500万规模的高质量双层CoT数据集Honey-Data...最新AI资源2周前09.3K
InfinityStar - 字节开源的统一时空自回归视频生成框架InfinityStar是字节跳动开源的统一时空自回归框架,专为高分辨率图像和视频生成设计。采用离散自回归方法,能在单一模型中同时处理文本到图像、文本到视频、图像到视频等任务。框架在VBench基准测...最新AI资源2周前08.5K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台Koina是开源的去中心化机器学习平台,专注于简化蛋白质组学数据分析。由德国慕尼黑工业大学和美国密歇根大学团队开发。平台通过标准化接口整合了30多个主流模型(如ProSIT、MS²PIP),支持肽段质...最新AI资源2周前09.8K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型VibeThinker-1.5B是微博AI开源的15亿参数的大型语言模型。基于阿里巴巴的Qwen2.5-Math-1.5B进行精细调整,专为数学和代码任务优化,表现出色,推理性能在行业内处于领先水平。最新AI资源2周前014.7K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容BestBlogs 是专注于为技术从业者、创业者和产品经理等提供高质量内容的平台。通过 RSS 订阅和爬虫技术,从 400 多个优质博客中收集文章、播客、视频等多形式内容。核心优势在于利用 AI 大语...最新AI资源2周前09.9K
Egocentric-10K - Build AI开源的第一人称视角机器人数据集Egocentric-10K 是大规模的第一人称视角(egocentric)工厂操作视频数据集,由 build.ai 团队开源。数据集包含 10,000 小时的视频,总帧数达 10.8 亿帧,涉及 2...最新AI资源2周前09K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建LazyCraft 是商汤基于开源框架 LazyLLM 构建的开源 AI Agent 应用开发与管理平台,为企业和开发者提供一站式AI应用开发解决方案。帮助开发者以低门槛、低成本快速构建和发布大模型应...最新AI资源2周前012.3K
Kosong - Moonshot AI开源的全新AI Agent开发框架Kosong 是月之暗面(Moonshot AI)开源的全新AI Agent开发框架,为开发者提供一个轻量、灵活且高度可扩展的底层支持,以构建下一代智能体应用。通过异步工具编排引擎,能高效调度多个工具...最新AI资源2周前011K
SenseNova-SI - 商汤科技开源的空间智能大模型系列SenseNova-SI是商汤科技发布的开源空间智能大模型,专注于提升AI在空间理解与推理方面的能力。模型在空间测量、重构、关系判断、视角转换、形变分析和空间推理等六个核心维度上表现出色,显著优于其他...最新AI资源2周前09.8K
Omnilingual ASR - Meta推出的多语言语音识别框架Omnilingual ASR是Meta推出的多语语音识别框架,覆盖1600+语言,78%语言字符错误率低于10%。其70亿参数wav2vec 2.0编码器结合CTC与Transformer解码器,支...最新AI资源2周前011.9K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建Frappe Builder是开源的低代码建站工具,由Frappe公司开发,核心特点是提供类似Figma的可视化编辑器,支持拖拽组件快速搭建网站。属于Frappe生态(Frappeverse)的一部分...最新AI资源2周前08.3K
DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目DeepOCR 是开源复刻项目,实现 DeepSeek-OCR 的核心架构,通过光学压缩技术高效处理文本信息。核心是 DeepEncoder,由 SAM-base(处理高分辨率图像)、16×卷积压缩器...最新AI资源2周前09.9K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件Glow 是开源的命令行工具,用于在终端中优雅地渲染 Markdown 文件。工具支持高亮代码块、数学公式等复杂元素,提供丰富的功能,如自定义样式、分页显示、鼠标支持等。最新AI资源2周前09.2K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用NocoBase是基于AI驱动的开源无代码开发平台,支持快速搭建业务系统,无需编程即可通过配置完成应用开发。项目采用Apache-2.0协议,提供私有化部署和灵活扩展能力,适用于企业管理、协作平台等场...最新AI资源2周前07.6K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型UniWorld V2是兔展智能与北京大学UniWorld团队联合推出的新一代图像编辑模型。在图像编辑领域具有显著优势,特别是在中文理解和复杂指令执行方面表现出色。模型能精准渲染艺术中文字体,支持精细...最新AI资源3周前011.5K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具SmartResume 是阿里巴巴开源的智能简历解析与优化工具,能高效地从 PDF、图片或 Office 文档中提取结构化信息,如基本资料、教育经历和工作经验等。通过融合 OCR 技术和 PDF 元数...最新AI资源3周前011.8K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型Step-Audio-EditX是开源的音频编辑大模型,由阶跃星辰团队研发,专注于通过人工智能技术实现音频内容的精细操控。模型能动态调整音频的情绪、说话风格(如撒娇、老人腔等)和副语言元素(如笑声、叹...最新AI资源3周前010.5K
Open-o3 Video - 北大联合字节开源的视频推理模型Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,专注于通过时间和空间证据增强视频推理能力。通过明确标注关键证据的时间戳和边界框,帮助模型更好地理解和解释视频内容。最新AI资源3周前011K
Handy - 开源免费的本地AI语音转文字工具Handy是开源免费的本地语音转文字工具,支持Windows、MacOS和Linux系统,由Rust和React开发。通过本地处理语音数据,无需上传云端,保障隐私安全,适合快速转录和文字输入。最新AI资源3周前013.2K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型FG-CLIP 2是360人工智能研究院推出的全球领先的图文跨模态视觉语言模型(VL-M),在29项权威基准测试中超越Google和Meta的同类模型,成为目前性能最强的VL-M。能精准识别图像中的毛...最新AI资源3周前010.9K
微舆BettaFish - 开源的多智能体舆情分析系统微舆(BettaFish)是开源的多智能体舆情分析系统。采用多智能体架构,通过Query、Media、Insight、Report等Agent协同工作,实现检索、抽取与报告闭环。系统支持AI驱动的全域...最新AI资源3周前025.8K
Ouro - 字节跳动Seed团队开源的新型循环语言模型Ouro是字节跳动Seed团队开发的新型循环语言模型(Looped Language Models),核心创新在于通过参数共享的循环计算结构,在预训练阶段直接构建推理能力。模型采用24层作为基础块,通...最新AI资源3周前016.5K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架,将图像编辑任务重新定义为视频生成任务,以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的预训练视频生成模型中蒸馏出...最新AI资源3周前015.4K
LongCat-Flash-Omni - 美团开源的全模态大语言模型LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同时,实现了毫秒级的实时音视频交互能力。最新AI资源3周前014.6K
Petri - Anthropic开源的 AI 安全审计框架Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代理对模型的行为进...最新AI资源3周前011.2K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显著提升了硬件效率和内存控制能...最新AI资源4周前021.9K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型FIBO 是 Bria AI 开发的全球首个开源的原生支持 JSON 的文本生成图像模型。基于 8B 参数的 DiT(扩散 Transformer)架构,采用流匹配(Flow Matching)训练方...最新AI资源4周前014.2K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型SoulX-Podcast 是 Soul AI Lab 开源的先进多说话者对话式语音合成模型,专为生成高质量播客内容设计。具备多轮对话生成能力,能模拟真实播客场景中的流畅对话,支持普通话、英语及多种中...最新AI资源4周前020.5K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动GigaBrain-0是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作(VLA)具身基础模型,由极佳视界与湖北人形机器人创新中心联合发布开源。采用混合Transformer架构,融合...最新AI资源4周前012.5K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成...最新AI资源4周前014K
OmniVinci - NVIDIA开源的全模态大语言模型OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉...最新AI资源4周前015.7K
olmOCR 2 - AI2开源的多模态文档解析模型olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高...最新AI资源1个月前018.3K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作ValueCell是开源的多智能体金融应用平台,通过AI技术提升金融分析和投资管理的效率。模拟专业投资团队,多个AI智能体分工协作,涵盖市场分析、情绪分析、基本面研究、自动交易等功能,为用户提供全面的...最新AI资源1个月前027.7K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台Dexbotic是原力灵机(Dexmal)开源的具身智能视觉-语言-动作(VLA)模型一站式科研服务平台,解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础,为具身智能领域的研究和开...最新AI资源1个月前013.3K
LongCat-Video - 美团LongCat开源的视频生成模型LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分...最新AI资源1个月前024.4K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型DreamOmni2是港科大贾佳亚团队开源的多模态AI图像编辑与生成模型。能同时处理文本和图像指令,支持多张参考图,为创作者提供更灵活的创作方式。模型采用三阶段数据合成流程进行训练,联合训练生成/编辑...最新AI资源1个月前017.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型混元世界模型1.1(WorldMirror)是腾讯混元团队发布的开源3D重建大模型,是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入,突破了传统3D重建仅依...最新AI资源1个月前018.4K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。最新AI资源1个月前020.7K
VitaBench - 美团LongCat开源的交互式Agent评测基准VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准,评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建包...最新AI资源1个月前017K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型MinerU2.5是上海人工智能实验室与北京大学团队联合研发的解耦式视觉语言模型,专注于高效处理高分辨率文档图像解析。核心创新在于采用"先全局版面检测后局部内容识别"的两阶段设计:第一阶段通过低分辨率...最新AI资源1个月前023.6K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案LongCat-Audio-Codec是美团LongCat团队开源的语音编解码方案。方案专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征...最新AI资源1个月前015.7K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型PaddleOCR-VL是百度开源的超轻量级视觉-语言模型,专为文档解析场景优化。模型仅含0.9B参数,通过融合动态高分辨率视觉编码器与轻量级ERNIE语言模型,在保持高精度的同时显著降低计算开销。最新AI资源1个月前017.8K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及Pi...最新AI资源1个月前019.3K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差...最新AI资源1个月前019.6K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列Kandinsky 5.0是俄罗斯AI团队开发的最新视频生成模型系列,主打轻量化设计与高性能表现。系列首款模型Kandinsky 5.0 Video Lite仅20亿参数却超越了同类14B大模型,尤其...最新AI资源1个月前021.9K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可...最新AI资源1个月前017.9K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具Pyscn是专为Python开发者设计的智能代码质量分析工具,主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码,计算模块耦合度和圈复杂度等指标...最新AI资源1个月前013.1K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型,专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近,实现精准的语义检索。最新AI资源1个月前017.7K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型SAIL-VL2是字节跳动团队开源的多模态视觉语言模型,专注于图像、文本等多模态输入的联合建模。采用稀疏混合专家(MoE)架构和渐进式训练策略,在2B至8B参数规模下实现了高性能,尤其在图文理解、数学...最新AI资源1个月前013.6K
MineContext - 字节开源的主动式上下文感知AI伙伴MineContext是字节跳动Viking团队开源的主动式上下文感知AI伙伴,帮助用户高效管理海量信息,提升知识工作效率。过屏幕截图和内容理解技术,自动记录用户日常操作(如浏览网页、编辑文档等),支...最新AI资源1个月前022.3K
nanochat - Karpathy免费开源的低成本模型训练项目nanochat是AI领域传奇人物、前特斯拉AI总监Andrej Karpathy发布的开源项目,以极低的成本和简单的操作,让个人能快速训练出一个类似ChatGPT的小型语言模型。整个项目仅用约800...最新AI资源1个月前017.9K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型,采用8B参数规模,通过紧凑三阶段训练流程(语言-图像对齐、概念均衡与知识注入、指令微调)在128张A800...最新AI资源1个月前015.3K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目Paper2Video 是新加坡国立大学 Show Lab 开源的学术论文自动生成演示视频项目。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频...最新AI资源1个月前015.9K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型NeuTTS Air是开源的轻量级语音合成模型,由Neuphonic团队开发,可在本地设备(如手机、笔记本、树莓派)上实时运行,无需依赖云端。采用0.5B参数的Qwen架构和自研NeuCodec编解码...最新AI资源1个月前020K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型KAT-Dev-72B-Exp是快手团队推出的开源编程专用大语言模型,基于强化学习技术优化,在SWE-Bench Verified基准测试中取得74.6%的准确率,目前开源模型中表现最佳。模型采用创新...最新AI资源2个月前015.9K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型Jamba Reasoning 3B 是以色列 AI 创企 AI21 Labs 开源的轻量级推理模型,具有强大的性能和广泛的应用潜力。采用 SSM-Transformer 混合架构,结合了 Trans...最新AI资源2个月前013.5K
吴恩达的《Agentic AI》最新智能体免费课程《Agentic AI》是吴恩达推出的最新智能体课程,课程聚焦于智能体的设计与构建,涵盖反思、工具使用、规划和多智能体协作四大设计模式。学习者将通过理论讲解和代码实践,掌握如何让智能体检查输出、自主调...最新AI资源课程资料2个月前021.8K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目OpenAgents 是开源项目,创建 AI 代理网络并促进代理之间的开放协作。提供了一个基础的网络基础设施,使 AI 代理能无缝连接和协作。用户可以快速启动自己的代理网络,通过模块化架构扩展功能,支...最新AI资源2个月前015.8K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源Androidify 是谷歌开源的帮助开发者学习如何在 Android 上构建 AI 驱动的应用项目。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Fire...最新AI资源2个月前016.6K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型Ling-1T是蚂蚁集团开源的万亿参数通用语言模型,属于百灵大模型Ling 2.0系列的旗舰产品。模型采用高效MoE架构,支持128K上下文窗口,在代码生成、数学推理、逻辑测试等7项基准中超越GPT...最新AI资源2个月前031.2K
聆音EchoCare - 香港科学院开源的超声基座大模型聆音EchoCare是中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)研发的超声基座大模型,基于全球最大的超声影像数据集(超450万张图像)训练而成,覆盖多中心、多地区、多人种及50余个人...最新AI资源2个月前015.6K
Code2Video - Show Lab开源的AI教学视频生成框架Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...最新AI资源2个月前019.7K
SceneGen - 上海交大开源的单图像生成3D场景框架SceneGen是上海交通大学开源的单图像生成3D场景的方法,从单张场景图像及目标资源蒙版中,高效生成包含多个3D资源的完整场景,包括资源的几何结构、纹理及相对空间位置。最新AI资源2个月前015.1K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型Ming-UniAudio是蚂蚁集团开源的统一音频多模态生成模型,支持文本、音频、图像和视频的混合输入与输出。采用多尺度Transformer和混合专家(MoE)架构,通过模态感知路由机制高效处理跨模...最新AI资源2个月前017.8K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...最新AI资源2个月前020.4K
FireRedChat - 小红书开源的全双工语音交互系统FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。最新AI资源2个月前022.2K
Logics-Parsing - 阿里开源的文档解析模型Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...最新AI资源2个月前021.3K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,并通过自研强化学习系统 ASystem 进行推理能力训练。在自然语言推理...最新AI资源2个月前030K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...最新AI资源2个月前017.6K
Lynx - 字节跳动开源的高保真视频生成模型Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...最新AI资源2个月前018.2K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型,专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色,支持从初始规划...最新AI资源2个月前021.2K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...最新AI资源2个月前020.3K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型HunyuanImage 3.0(混元图像3.0)是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能,用户可边...最新AI资源2个月前028.7K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型Hunyuan3D-Part(混元3D-Part)是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用...最新AI资源2个月前025.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...最新AI资源2个月前021.5K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队开源的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点...最新AI资源2个月前024.5K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...最新AI资源2个月前019.6K
CWM - Meta FAIR开源的代码世界语言模型CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...最新AI资源2个月前019.7K
Neovate Code - 蚂蚁开源的智能编程助手Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...最新AI资源2个月前021.7K