GLM-4.6V - 智谱AI开源的多模态大语言模型系列GLM-4.6V是智谱AI开源的多模态大语言模型系列,系列包含两个版本:GLM-4.6V(106B-A12B),面向云端与高性能集群场景的基础版,采用混合专家(MoE)架构,总参数量约1060亿,激活...最新AI资源1个月前014.9K
吴恩达的LangChain for LLM应用开发免费课程LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程,由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。最新AI资源课程资料4个月前042K
吴恩达的Transformer LLMs工作原理免费课程Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...最新AI资源课程资料4个月前038K
Kimi K2-0905 - 月之暗面推出的最新模型版本Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型,在编程辅助方面表现出色,能高效生成代码,支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K,能处理复杂任务。最新AI资源4个月前061.2K
Nano Banana - 谷歌推出的AI图像编辑模型Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号,能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。最新AI资源5个月前058.5K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过预训练、渐进式双任务强化策略和联合训练,实...最新AI资源5个月前035.4K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型MiniMax Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得了显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上实现了飞跃。模型支持 40 种语言...最新AI资源5个月前038.1K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统GPT-5是OpenAI最新发布的语言模型,具有多项升级。是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5拥有多个版本,包括面向普...最新AI资源5个月前035.9K
Qwen-Image - 通义千问推出开源的文生图基础模型Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数,采用多模态扩散变换器架构(MMDiT),融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的...最新AI资源5个月前035.3K
RedOne - 小红书最新推出的社交大模型RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...最新AI资源5个月前035.2K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手TRAE SOLO 是字节跳动推出的AI编程助手TRAE 推出的AI 自动化开发助手,用AI技术简化软件开发流程。TRAE SOLO能理解用户的需求,支持文字描述、语音指令和文件上传输入需求,自动规划...最新AI资源6个月前055.9K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话综合介绍 LiveTalking是一个开源的实时互动数字人系统,致力于构建高质量的数字人直播解决方案。该项目采用Apache 2.0开源协议,集成了多项前沿技术,包括ER-NeRF渲染、实时音视频流处...最新AI资源# AI开源项目# AI数字人1年前094.8K
新女娲智能体OS - 西南财经开源的通用智能体操作系统女娲智能体OS(Nuwax Agent OS)是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎,可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...最新AI资源4小时前0832
新Nemotron Speech ASR - 英伟达开源的实时语音识别模型Nemotron Speech ASR是英伟达开源的实时语音识别模型,专为低延迟场景优化,支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构,通过固定状态缓...最新AI资源6小时前0917
Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型,专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作:前者负责快速召回候选结果,后者通过深度跨模态交互(如...最新AI资源2天前04.6K
Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型,属于Qwen3-VL系列,主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间,通过双塔架构生成向量表...最新AI资源4天前08.2K
AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型AntAngelMed(蚂蚁·安诊儿医疗大模型)是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构(MoE),总参数量达1000亿...最新AI资源4天前08.7K
VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型,基于 LLaSA-3B 和 CosyVoice2 开发,专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...最新AI资源4天前05.9K
10Kh RealOmni-Open - 简智机器人开源的具身智能数据集10Kh RealOmni-Open是简智机器人开源的具身智能数据集,是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段,覆盖10大场景任务、超过30项技能。数据...最新AI资源5天前09K
Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。最新AI资源5天前07.7K
Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建,融合三维重建、视觉生成技术与物理引擎,实现毫米级精准复刻真实环境,通过自然语言指...最新AI资源5天前07.2K
LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作LandPPT是基于大语言模型的开源AI PPT生成工具,支持通过主题或上传文档(PDF/Word/Excel)一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能,提供丰富的模板和场景...最新AI资源6天前013.5K
TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面TuriX-CUA 是开源的 AI 桌面自动化工具,能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统,通过先进的计算机...最新AI资源1周前014K
MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型,基于 Qwen3 系列开发,包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术,支持 256K 上下文...最新AI资源1周前017.8K
UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架,最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题,提供一键复现热门模型(如Vo...最新AI资源1周前08.6K
openPangu-VL-7B - 华为开源的7B参数多模态模型openPangu-VL-7B是华为开源的7B参数规模的多模态模型,专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色,支持实时推理(5FPS),单卡延迟仅160毫秒。最新AI资源1周前09.8K
New API - 开源的AI模型接口管理与分发系统,统一为标准化接口New API是基于Go语言开发的开源AI聚合网关工具,可统一管理30+种主流大模型(如OpenAI、Claude、Midjourney等),将不同模型接口转换为标准化OpenAI格式。最新AI资源1周前08.5K
Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台Paper2Any是北京大学DCAI课题组开源的多模态辅助平台,专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能,能从多种输入源生成模型架构图、技术路线图和实验数据图等...最新AI资源1周前010.5K
StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统,专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术,自动存储关键帧并在后续生成时参考,确保人物外貌、服装、场景元素...最新AI资源1周前08.4K
XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型,包含中英文双版本,支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化,能在虚拟角色人设稳定性、复杂故...最新AI资源1周前011.2K
Vibe Kanban - 开源的免费AI编程代理任务管理工具Vibe Kanban是开源的AI编程代理任务管理工具,专为同时使用多个AI编程助手(如Claude Code、Gemini CLI、Codex等)的开发者设计。通过看板形式统一管理任务进度,支持并行...最新AI资源1周前09.9K
Chatterbox-Turbo - Resemble AI开源的文本到语音模型Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音(TTS)模型,专为高效、低延迟的语音合成而设计。基于350M参数的精简架构,单步推理生成音频,时间延迟极低,在150...最新AI资源1周前014.6K
IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化...最新AI资源2周前018.4K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型混元Motion1.0(HY-Motion1.0)是腾讯混元团队开源的文本生成3D动作模型,采用10亿参数Diffusion Transformer架构,能通过自然语言描述直接生成高质量3D角色动画。最新AI资源2周前017.8K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型Yume1.5是开源的交互式世界生成模型,由上海人工智能实验室、复旦大学、上海创新研究院联合开发,能实现实时交互渲染(单卡12 FPS)。采用了联合时空通道建模(TSCM)技术,即使上下文长度增加也能...最新AI资源2周前012.3K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统AutoMV是M-A-P团队联合多所高校研发的开源音乐视频生成系统,能在无需训练的情况下根据完整歌曲自动生成连贯的MV。采用多智能体协作模式,包含音乐分析、编剧、导演和质检等模块,能精准解析歌词、节拍...最新AI资源2周前013.8K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列Tencent-HY-MT1.5是腾讯混元开源的翻译模型1.5版本,包含1.8B和7B两个模型,支持33种国际语言及5种民汉/方言互译。1.8B模型专为手机等消费级设备优化,仅需1GB内存即可实现端侧...最新AI资源2周前019.2K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架PersonaLive是开源的实时AI换脸直播框架,由澳门大学、dzine.ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡(12GB显存)上实现低延迟、高帧率的数字人驱动,支持通过摄像头实时...最新AI资源2周前012.8K
Computer Use Preview - Google开源的AI浏览器自动化工具Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具,通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程,支持Playwrigh...最新AI资源2周前014.5K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书ClipSketch AI是开源的视频转手绘分镜工具,专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板,支持标记关键帧、自动生成分镜和社交文案,能融合用户自定义角色。最新AI资源2周前016K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型MAI-UI是阿里巴巴通义实验室开源的通用GUI智能体基座模型,具备跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调四大能力。采用端云协同架构,轻量模型驻守设备处理日常任务,复杂任务可调用云端大...最新AI资源2周前019.5K
MiniMax M2.1 - MiniMax开源的编码和代理模型MiniMax M2.1 是MiniMax开源的编码和代理模型,拥有100亿激活量,支持多种主流编程语言,如 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...最新AI资源2周前09.6K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术InstanceAssemble是小红书和复旦大学联合开源的布局控制生成技术,通过“实例组装注意力”机制,实现了从简单到复杂、从稀疏到密集布局的精准图像生成。采用两阶段级联架构,先生成图像背景,再逐个...最新AI资源2周前07.9K
Zen Browser - 基于Firefox内核的开源AI网页浏览器Zen Browser是基于Firefox内核的开源浏览器,主打简洁高效的浏览体验,核心特色是垂直标签栏和工作区隔离功能。采用侧边栏设计,能清晰展示50+个标签页的完整标题,支持多窗口分屏浏览。最新AI资源2周前013.5K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型QwenLong-L1.5是阿里巴巴通义实验室开源的长文本推理模型,专注于解决超长上下文(如1M-4M tokens)的复杂推理问题。核心突破在于后训练阶段的三大创新:通过知识图谱、SQL解析和多智能...最新AI资源3周前012.7K
Infographic - 阿里AntV团队开源的信息图生成框架Infographic是阿里AntV团队开源的新一代框架,基于G2和Ant Design开发,专注于快速生成高质量信息图,提供30+布局模板、120+预设主题及AI智能生成功能。最新AI资源3周前012.6K
opcode - 专为Claude Code设计的开源图形化桌面应用opcode是专为Claude Code设计的开源图形化桌面应用,开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目,支持创建...最新AI资源3周前013.2K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架TurboDiffusion是清华大学、生数科技和加州大学伯克利分校联合开源的视频生成加速框架,能在保持画质几乎无损的情况下,将视频生成速度提升100-200倍。通过稀疏线性注意力、采样步数蒸馏和8位...最新AI资源3周前015.7K
MedASR - 谷歌开源的医疗语音识别模型MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...最新AI资源3周前012K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型,直接语音进语音出,无需ASR+LLM+TTS拼接,中文英文双语流利,延迟低、音色自然。采用双分辨率共享LLM与25Hz...最新AI资源3周前012.2K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计PromptFill是专为AI绘画设计的结构化提示词生成工具,通过可视化的“填空”交互方式,帮助用户快速构建、管理和迭代复杂的Prompt,提升AI图像生成的效率与质量。PromptFill的核心功能...最新AI资源3周前011.6K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型GLM-4.7是智谱AI发布并开源的最新一代旗舰大模型,主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出,具备多语言编码、长程任务规划和工具协同能力...最新AI资源3周前020.9K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型NitroGen是英伟达联合斯坦福大学、加州理工学院等机构研发的开源游戏AI模型,能玩转超1000款不同类型游戏。模型基于GROOT N1.5架构,通过分析4万小时游戏视频数据(含手柄操作标注),实现...最新AI资源3周前017.5K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型Qwen-Image-Layered是阿里团队开源的AI图像编辑模型,能将普通图片智能分解为独立的透明图层,实现类似Photoshop的精准编辑。模型采用Apache 2.0协议开源,支持灵活控制图层...最新AI资源3周前019.6K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术VTP(Visual Tokenizer Pre-training)是MiniMax海螺视频团队提出的视觉生成模型关键技术,通过改进视觉分词器(tokenizer)的预训练方法提升生成系统性能。传统方...最新AI资源3周前014.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型T5Gemma 2 是谷歌开源的新一代编码器 - 解码器模型,基于 Gemma 3 架构升级而来,具备多模态和长上下文处理能力。支持文本和图像等多种数据类型,能处理超长上下文(最高 128K),在生成...最新AI资源3周前015.1K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型FunctionGemma是谷歌推出的专为函数调用优化的轻量级AI模型,基于2.7亿参数的Gemma 3基础模型开发,可在手机、浏览器等设备上实时将自然语言转换为可执行API指令。核心特点是支持本地离...最新AI资源3周前013.5K
SHARP - 苹果开源的单目视图3D场景合成技术SHARP(Sharp Monocular View Synthesis in Less Than a Second)是苹果开源的单目视图合成技术。能从单张照片快速生成逼真的3D场景表示,仅需不到一秒...最新AI资源3周前014.4K
TRELLIS.2 - 微软开源的大型3D生成模型TRELLIS.2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资...最新AI资源3周前017.2K
Step-GUI - 阶跃星辰开源的AI Agent系列模型Step-GUI是阶跃星辰公司开源的AI Agent系列模型,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议,以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专...最新AI资源4周前018.9K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议A2UI(Agent-to-User Interface)是谷歌开源的Agent驱动型界面协议,解决AI代理生成复杂交互界面的难题。通过一种声明式JSON格式,让AI代理描述用户界面的结构,客户端应用...最新AI资源4周前022.7K
SAM Audio - Meta推出的开源多模态音频分割模型SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...最新AI资源4周前013.7K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架混元世界模型1.5(Tencent HY WorldPlay)是腾讯发布的业界首个开源的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路。核心是WorldPlay自回归扩散模型,采用Next-F...最新AI资源4周前013K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列Molmo 2是Allen Institute for AI(Ai2)发布的开源多模态模型,提升视频和多图像理解能力。包含三个变体:Molmo 2(8B)、Molmo 2(4B)和Molmo 2-O...最新AI资源4周前014.9K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型,专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。最新AI资源4周前017K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型MiMo-V2-Flash是小米发布的开源MoE架构大模型,总参数3090亿,活跃参数150亿,主打高效推理和智能体应用。模型采用混合注意力架构与多词元预测技术,推理速度达150 tokens/秒,成...最新AI资源4周前017.1K
Nemotron 3 - 英伟达发布的开源 AI 模型系列Nemotron 3 是英伟达发布的开源 AI 模型系列,包含 Nano、Super 和 Ultra 三种规格。采用混合潜在专家混合(latent MoE)架构,显著提升推理效率并降低运行成本。其中...最新AI资源4周前014.3K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架Wan-Move是阿里通义实验室、清华大学等机构联合开发的开源AI视频生成框架,专注于通过精准运动控制技术实现高质量视频合成。核心技术是"潜在轨迹引导",能在现有图像到视频模型基础上无缝添加点级运动控...最新AI资源4周前013.4K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架PaCoRe(Parallel Coordinated Reasoning)是阶跃星辰(StepFun)开源的创新的并行协同推理框架,通过大规模并行思考机制,从多个角度同时探索问题解决方案,突破了传统...最新AI资源4周前014K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具Banana Slides是基于Nano Banana Pro AI模型的开源智能PPT生成工具,支持通过自然语言指令快速创建专业演示文稿。允许用户用一句话描述主题(如“人类对生态环境的影响”),可自...最新AI资源4周前016.1K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频,解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据...最新AI资源4周前012.1K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具Paper2Slides是香港大学数据智能实验室开源的AI工具,可一键将学术论文转换为专业幻灯片或海报。采用RAG(检索增强生成)技术,直接解析文档内容而非依赖网络信息,确保生成的PPT与原文高度一致...最新AI资源4周前012.5K
RealVideo - 智谱 AI 开源的实时流式视频生成系统RealVideo 是智谱 AI 开源的实时流式视频生成系统,能在 2 至 3 秒内快速生成自然流畅的视频回应。用户只需上传一张照片并输入文字,系统能生成对应的语音和视频,实现与 AI 角色的实时对话...最新AI资源4周前011.1K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统OpenScreen 是开源免费的屏幕录制工具,为用户提供一个简单易用且功能完善的 Screen Studio 替代品。支持 Mac 和 Windows 双系统,完全免费且遵循 MIT 协议,可用于个...最新AI资源4周前015.4K
SCAIL - 智谱联合清华开源的影视级角色动画生成框架SCAIL(Studio-Grade Character Animation via In-Context Learning)是智谱与清华大学刘永进教授课题组合作提出的一种影视级角色动画生成框架。通过...最新AI资源4周前012.3K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准DeepSearchQA是谷歌开源的AI研究Agent测试基准,专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务,覆盖17个领域,要求AI像人类研究员一样通过多步骤推...最新AI资源4周前012.4K
Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆Claude-Mem 是为 Claude Code 设计的开源插件,解决 AI 在跨会话中记忆丢失的问题。通过自动捕获工具使用观察结果、生成语义摘要,在后续会话中注入相关上下文,帮助 Claude 在...最新AI资源1个月前019.7K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台KoalaQA 是开源的智能售后服务系统,由 Chaitin 团队开发。基于 AI 大模型,提供 AI 客服、AI 搜索和知识库管理等功能,帮助企业快速搭建智能问答平台。系统支持 24/7 实时应答...最新AI资源1个月前012.8K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型VoxCPM 1.5 是面壁智能发布的开源语音生成模型,基于无需分词器的文本到语音(TTS)技术,具有多项创新和改进。采用端到端的扩散自回归架构,直接从文本生成连续的语音波形,避免了传统分词方法的局限...最新AI资源1个月前017.1K
Mistral Vibe - Mistral AI推出的开源命令行编码助手Mistral Vibe是Mistral AI推出的开源命令行编码助手,基于Devstral模型开发,支持自然语言交互完成代码搜索、文件操作、版本控制等任务。能自动扫描项目结构和Git状态,通过@符号...最新AI资源1个月前011.8K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统GLM-TTS 是智谱推出的开源工业级语音合成系统,具备强大的语音合成能力。采用两阶段生成架构:第一阶段将文本转换为语音令牌序列,第二阶段将令牌序列转换为高质量音频。系统支持仅用3秒语音样本即可完成音...最新AI资源1个月前014.6K
Devstral 2 - Mistral AI 推出的新一代编程模型家族Devstral 2是Mistral AI 推出的针对软件工程任务设计的新一代编程模型家族,包含 Devstral 2(123B 参数)和 Devstral Small 2(24B 参数)两个版本。D...最新AI资源1个月前014.8K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列GLM-ASR是智谱AI开源的高性能语音识别模型系列,包含云端模型GLM-ASR-2512和开源端侧模型GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多...最新AI资源1个月前017.6K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求,如“打开美团搜索附近的火锅...最新AI资源1个月前019.6K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替SurfSense 是开源的 AI 研究与知识管理工具。高度可定制,能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源,方便用户整合信息。用户可上传多种...最新AI资源1个月前014.8K
InkSight - Google开源的AI手写识别工具InkSight是Google开源的AI手写识别工具,能将纸质手写笔记转换为可编辑的数字墨迹文件(如SVG格式)。与传统OCR不同,能识别文字内容,能还原笔迹样式、段落结构和重点标记,支持多语言处理。最新AI资源1个月前012.8K
NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型,采用3.5B参数的Next-DiT架构,专为二次元风格优化。模型通过双文本编码器(GEMMA3-4B...最新AI资源1个月前015.9K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型LongCat-Image是美团LongCat团队发布的开源图像生成与编辑模型。采用混合骨干架构(MM-DiT+Single-DiT),结合视觉语言模型(VLM)条件编码器,能实现文生图和多轮图像编辑...最新AI资源1个月前012K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型VibeVoice-Realtime 是微软开源的轻量级实时文本转语音(TTS)模型,专为低延迟和实时交互设计。支持流式文本输入,从第一个文本 token 开始就能发声,延迟仅约300毫秒,适合动态数...最新AI资源1个月前014.7K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具Flowra 是 ModelScope 联合呜哩 WULI 团队开源图执行引擎和节点包开发工具,是 FlowBench 的核心组件。通过有向无环图(DAG)组织工作流,具备智能缓存、并行调度、分布式支...最新AI资源1个月前015.1K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集RoboCOIN是北京智源人工智能研究院联合多家企业和高校开源的全球首个大规模双臂机器人真机数据集,包含15种机器人平台、18万条真实操作轨迹和421种任务场景。最大特点是采用分层标注体系,将任务拆解...最新AI资源1个月前012.3K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务TalkCody是免费开源的AI编程助手桌面应用,基于Rust + Tauri 2构建,支持Windows、macOS和Linux三大平台,具有原生性能、快速启动和低资源占用的优势。支持50多种主流A...最新AI资源1个月前019K
MemMachine - MemVerge推出的开源AI记忆系统MemMachine是MemVerge公司开发的开源AI记忆系统,专为AI大模型和智能体设计,能像人脑一样存储和回忆交互数据,解决AI“无状态失忆”问题。采用分层架构(短期记忆、长期记忆、用户画像...最新AI资源1个月前019.1K
PartCrafter - 北大联合字节开源的单图3D生成模型PartCrafter 是先进的 3D 生成模型,由北京大学、字节跳动和卡耐基梅隆大学联合提出。能从单张 RGB 图像中一次性生成多个语义明确且几何形态各异的 3D 网格部件。模型通过组合式潜在空间和...最新AI资源1个月前014.7K
GigaWorld-0 - 极佳视界开源的世界模型框架GigaWorld-0是国内具身智能创业公司极佳视界(GigaAI)开源的世界模型框架,主要用于解决具身智能(Embodied AI)领域的数据瓶颈问题。高效生成高质量、多样化且物理真实的训练数据,推...最新AI资源1个月前014.4K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列Mistral 3是Mistral AI发布开源的最新多模态大模型系列,包含旗舰模型Mistral Large 3(675B总参数)和轻量版Ministral系列(3B/8B/14B),均支持图像理解...最新AI资源1个月前013.6K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型,专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入,能同时理解画面内容、声音信息以及自然语言指令,实现跨模态的交互与推...最新AI资源1个月前015.2K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型Alpamayo-R1是英伟达研发的具有推理能力的视觉-语言-行动(VLA)模型,专为提升自动驾驶在复杂场景中的决策能力设计。通过引入因果链推理机制,让车辆能像人类驾驶员一样分析场景因果关系(如“因前...最新AI资源1个月前022.4K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型Ovis-Image 是阿里巴巴国际数字商务集团 AIDC-AI 团队开源的 70 亿参数文生图模型,专注于高质量文本渲染。基于 Ovis-U1 架构,继承了先进的视觉解码器和双向 Token 精炼器...最新AI资源1个月前014.7K