吴恩达的LangChain for LLM应用开发免费课程LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程,由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。最新AI资源课程资料1个月前017.9K
吴恩达的Transformer LLMs工作原理免费课程Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...最新AI资源课程资料1个月前015.8K
Kimi K2-0905 - 月之暗面推出的最新模型版本Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型,在编程辅助方面表现出色,能高效生成代码,支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K,能处理复杂任务。最新AI资源1个月前019.6K
Nano Banana - 谷歌推出的AI图像编辑模型Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号,能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。最新AI资源2个月前038.5K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过预训练、渐进式双任务强化策略和联合训练,实...最新AI资源2个月前022.6K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型MiniMax Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得了显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上实现了飞跃。模型支持 40 种语言...最新AI资源2个月前025.6K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统GPT-5是OpenAI最新发布的语言模型,具有多项升级。是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5拥有多个版本,包括面向普...最新AI资源2个月前020.1K
Qwen-Image - 通义千问推出开源的文生图基础模型Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数,采用多模态扩散变换器架构(MMDiT),融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的...最新AI资源2个月前020.7K
RedOne - 小红书最新推出的社交大模型RedOne 是小红书推出的专为社交网络定制的大语言模型。模型通过三阶段训练策略,融入社交文化知识,强化多任务能力,并对齐人类偏好。RedOne 在社交任务性能上显著优于基础模型,在有害内容检测和浏览...最新AI资源2个月前021.1K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手TRAE SOLO 是字节跳动推出的AI编程助手TRAE 推出的AI 自动化开发助手,用AI技术简化软件开发流程。TRAE SOLO能理解用户的需求,支持文字描述、语音指令和文件上传输入需求,自动规划...最新AI资源3个月前030.3K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话综合介绍 LiveTalking是一个开源的实时互动数字人系统,致力于构建高质量的数字人直播解决方案。该项目采用Apache 2.0开源协议,集成了多项前沿技术,包括ER-NeRF渲染、实时音视频流处...最新AI资源# AI开源项目# AI数字人9个月前039.7K
新Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目Paper2Video 是新加坡国立大学 Show Lab 开源的学术论文自动生成演示视频项目。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频...最新AI资源12小时前01.3K
新NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型NeuTTS Air是开源的轻量级语音合成模型,由Neuphonic团队开发,可在本地设备(如手机、笔记本、树莓派)上实时运行,无需依赖云端。采用0.5B参数的Qwen架构和自研NeuCodec编解码...最新AI资源12小时前01.4K
新KAT-Dev-72B-Exp - 快手开源的免费编程专用模型KAT-Dev-72B-Exp是快手团队推出的开源编程专用大语言模型,基于强化学习技术优化,在SWE-Bench Verified基准测试中取得74.6%的准确率,目前开源模型中表现最佳。模型采用创新...最新AI资源17小时前01.6K
新Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型Jamba Reasoning 3B 是以色列 AI 创企 AI21 Labs 开源的轻量级推理模型,具有强大的性能和广泛的应用潜力。采用 SSM-Transformer 混合架构,结合了 Trans...最新AI资源17小时前01.3K
吴恩达的《Agentic AI》最新智能体免费课程《Agentic AI》是吴恩达推出的最新智能体课程,课程聚焦于智能体的设计与构建,涵盖反思、工具使用、规划和多智能体协作四大设计模式。学习者将通过理论讲解和代码实践,掌握如何让智能体检查输出、自主调...最新AI资源课程资料3天前05.4K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目OpenAgents 是开源项目,创建 AI 代理网络并促进代理之间的开放协作。提供了一个基础的网络基础设施,使 AI 代理能无缝连接和协作。用户可以快速启动自己的代理网络,通过模块化架构扩展功能,支...最新AI资源3天前04.2K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源Androidify 是谷歌开源的帮助开发者学习如何在 Android 上构建 AI 驱动的应用项目。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Fire...最新AI资源3天前03.9K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型Ling-1T是蚂蚁集团开源的万亿参数通用语言模型,属于百灵大模型Ling 2.0系列的旗舰产品。模型采用高效MoE架构,支持128K上下文窗口,在代码生成、数学推理、逻辑测试等7项基准中超越GPT...最新AI资源4天前012.4K
聆音EchoCare - 香港科学院开源的超声基座大模型聆音EchoCare是中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)研发的超声基座大模型,基于全球最大的超声影像数据集(超450万张图像)训练而成,覆盖多中心、多地区、多人种及50余个人...最新AI资源4天前05.9K
Code2Video - Show Lab开源的AI教学视频生成框架Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...最新AI资源6天前07.6K
SceneGen - 上海交大开源的单图像生成3D场景框架SceneGen是上海交通大学开源的单图像生成3D场景的方法,从单张场景图像及目标资源蒙版中,高效生成包含多个3D资源的完整场景,包括资源的几何结构、纹理及相对空间位置。最新AI资源6天前06.7K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型Ming-UniAudio是蚂蚁集团开源的统一音频多模态生成模型,支持文本、音频、图像和视频的混合输入与输出。采用多尺度Transformer和混合专家(MoE)架构,通过模态感知路由机制高效处理跨模...最新AI资源6天前08.9K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...最新AI资源1周前010.9K
FireRedChat - 小红书开源的全双工语音交互系统FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。最新AI资源1周前011.6K
Logics-Parsing - 阿里开源的文档解析模型Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...最新AI资源1周前012.3K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,并通过自研强化学习系统 ASystem 进行推理能力训练。在自然语言推理...最新AI资源2周前012.3K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...最新AI资源2周前010K
Lynx - 字节跳动开源的高保真视频生成模型Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...最新AI资源2周前011K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型,专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色,支持从初始规划...最新AI资源2周前011.6K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...最新AI资源2周前011.6K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型HunyuanImage 3.0(混元图像3.0)是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能,用户可边...最新AI资源2周前015.9K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型Hunyuan3D-Part(混元3D-Part)是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用...最新AI资源2周前013.7K
AudioFly - 科大讯飞开源的文本生成音效AI模型AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...最新AI资源2周前013.2K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队开源的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点...最新AI资源2周前013K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...最新AI资源3周前012.1K
CWM - Meta FAIR开源的代码世界语言模型CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...最新AI资源3周前012.2K
Neovate Code - 蚂蚁开源的智能编程助手Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...最新AI资源3周前012.7K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。最新AI资源3周前011K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型Qwen3-VL是阿里云通义千问团队开源的多模态视觉语言大模型,参数量达2350亿,模型文件约471GB。包含指令版和思考版,采用增强的MRope交错布局、DeepStack等技术,可有效利用视觉变换...最新AI资源3周前013.9K
Qwen3Guard - 阿里Qwen开源的安全模型Qwen3Guard 是基于 Qwen3 基础模型微调的安全防护模型,专为安全检测而设计。能对提示词和响应进行精确的安全分类,提供风险等级,支持英语、中文和多语言环境。Qwen3Guard 有两个专业...最新AI资源3周前014.4K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型Qwen3-TTS-Flash 是阿里通义推出的先进语音合成模型,支持 17 种音色和 10 种语言,涵盖普通话、英语、方言等,具备卓越的中英文语音稳定性与高表现力,模型能自动调节语气,让语音更生动。最新AI资源3周前014.5K
Qwen3-Omni - 阿里通义推出的全模态AI模型Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型,能处理文本、图像、音频和视频等多种数据类型,支持 119 种语言的文本交互,具备低延迟和高度可控的特点。最新AI资源3周前010.9K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型,是 DeepSeek-V3.1 的升级版本。模型在语言一致性、代码生成和搜索能力等方面进行优化,能更准确...最新AI资源3周前010.5K
Granite-Docling-258M - IBM开源的视觉语言模型Granite-Docling-258M 是 IBM 推出的超紧凑开源视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。最新AI资源3周前010.5K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑Lucy Edit 是开源的 AI 视频编辑工具,由 Decart AI 开发。允许用户通过简单的自然语言描述来编辑视频,例如“将人物换成北极熊”或“把场景变成2D卡通风格”,无需复杂的微调或使用遮罩...最新AI资源3周前011.2K
LongCat-Flash-Thinking - 美团开源的高效推理模型LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型,在保持 LongCat-Flash-Chat 极速的同时,变得更强大、更专业。模型在逻辑、数学、代码、智能...最新AI资源3周前08.1K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。最新AI资源3周前06.4K
Kronos - 清华和微软联合开源的金融K线图基础模型Kronos 是清华大学与微软亚洲研究院联合开源的首个面向金融市场的 K 线图基础模型。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。最新AI资源3周前011.9K
Wan2.2-Animate - 通义万相开源的动作生成模型Wan2.2-Animate是通义万相开源的动作生成模型,支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频,模型能将视频中角色的动作、表情迁移到图片角色中,赋予图片角色动态表现力...最新AI资源4周前013.6K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型,具备多语言对话、语音续写、少样本泛化和音频理解等强大功能,能在语音智能和音频理解基准测试中达到SOTA水平,超越谷歌Gemi...最新AI资源4周前011.7K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型融合了真实和模拟的操作数据,通过大规模虚实混合场景资产,自动化构建海量多模态...最新AI资源4周前011.6K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开源的语音生成模型。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化...最新AI资源4周前014.1K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字...最新AI资源4周前09.9K
WebWeaver - 阿里通义开源的新型双智能体框架WebWeaver是阿里巴巴通义团队推出的新型双智能体框架,主要用在开放性深度研究,能模拟人类研究过程,分为规划和写作两个智能体。最新AI资源4周前011.1K
MCP Registry - GitHub推出的官方MCP服务器管理平台MCP Registry 是 GitHub 推出的集中化平台,能帮助开发者更便捷地发现和安装 MCP 服务器。MCP Registry 的出现,让开发者能在一个地方快速找到所需的 AI 工具,极大地简...最新AI资源4周前011.2K
VLAC - 上海AI Lab开源的具身奖励大模型VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...最新AI资源4周前09.6K
通义DeepResearch - 阿里通义开源的深度研究智能体通义DeepResearch(Tongyi DeepResearch)是阿里巴巴推出的开源智能体,专为深度信息检索和复杂任务推理设计,具备300亿参数,支持多种推理模式,包括ReAct模式和深度模式...最新AI资源4周前014K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策...最新AI资源4周前011.1K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,助力企业领导者在AI时代保持竞争优势。指南指出AI发展迅猛,模型发布速度加快、成本降低,企业采用速度...最新AI资源课程资料4周前011.7K
浙江大学免费PDF资料《大模型基础》 - 附下载链接《大模型基础》深入剖析大语言模型(LLMs)的核心技术与实践路径。从语言模型的基础理论入手,系统讲解基于统计、循环神经网络(RNN)和Transformer架构的模型设计原理,重点探讨大语言模型的三大...最新AI资源课程资料4周前010.1K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具PromptEnhancer 是腾讯混元团队开源的提示词增强工具,提升文本到图像(Text-to-Image,T2I)模型的生成效果。通过链式推理(Chain-of-Thought,CoT)的方式对用...最新AI资源4周前010.1K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型LLaSO是北京深度逻辑智能科技有限公司推出的开源语音模型,通过整合语音与文本数据,提供对齐数据集、指令微调数据集和评估基准,解决了大型语音语言模型领域数据分散、任务覆盖不足等问题。最新AI资源4周前08.7K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模混元3D 3.0是腾讯推出的先进3D生成模型,基于3D-DiT分级雕刻技术,几何分辨率高达1536³,能生成超高清、细节丰富的3D模型,在人物建模方面表现出色,能精准塑造五官和体态。最新AI资源4周前011.5K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计。由世界模型和动作架构组成,世界模型能理解机器人与环境的交互物理规律,动作架构则负责具体的...最新AI资源4周前011.7K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具InfiniteTalk 是 MeiGen-AI 团队开发的音频驱动的视频生成工具,能根据输入的音频生成无限长度的会说话的视频。核心优势在于精准的唇形同步技术,能将音频与人物口型完美匹配,生成自然流畅...最新AI资源4周前015.5K
Mini-o3 - 字节、港大联合开源的视觉推理模型Mini-o3是字节跳动和香港大学联合推出的开源模型,专注于解决复杂视觉搜索问题。模型具备强大的多轮交互推理能力,能通过深度探索和试错定位目标。最新AI资源4周前09.5K
GPT-5-Codex - OpenAI推出的最强编程模型GPT-5-Codex 是 OpenAI 推出的强大的编程优化模型,基于 GPT-5 进一步强化,专为软件工程师设计。模型能快速生成高质量代码,支持多种编程语言,且能优化现有代码提升性能。最新AI资源4周前09.2K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理ROMA(Recursive-Open-Meta-Agent)是Sentient AGI开发的开源元代理框架,通过递归任务分解和并行处理来高效解决复杂问题。支持Python 3.12+、Docker和...最新AI资源4周前013.1K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件,完成了...最新AI资源4周前010.5K
Hyprnote - 开源的本地优先AI会议笔记工具Hyprnote 是开源的本地优先 AI 会议笔记工具,专为专业人士设计,保护用户隐私并提升会议效率。采用“本地优先”原则,所有数据存储和处理均在用户本地设备上完成,确保数据安全,支持离线运行。最新AI资源4周前08.8K
MobileLLM-R1 - Meta开源的专项高效推理模型系列MobileLLM-R1是Meta开源的系列高效推理模型,专为数学、编程和科学推理设计。包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型,是经过监督微调(SFT...最新AI资源4周前09.4K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型ERNIE-4.5-21B-A3B-Thinking 是百度开源的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口...最新AI资源4周前09.7K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架MobiAgent 是上海交通大学 IPADS 实验室开源的移动端智能体工具链,帮助用户构建专属的手机智能助手。通过记录用户操作轨迹并生成高质量数据,训练出能理解自然语言指令的智能体。核心特点包括高效...最新AI资源4周前010K
ZipVoice - 小米开源的语音合成系列模型ZipVoice是小米发布的基于 Flow Matching 架构的系列语音合成(TTS)模型,包括 ZipVoice(零样本单说话人语音合成模型)和 ZipVoice-Dialog(零样本对话语音合...最新AI资源4周前011.3K
PP-OCRv5 - 百度开源的新一代文字识别AI模型PP-OCRv5是百度发布的最新一代文字识别AI模型。具有轻量级设计,参数量仅0.07B,适合在CPU和边缘设备上高效运行,每秒可处理超过370个字符。模型支持简体中文、繁体中文、英文、日文和拼音等五...最新AI资源4周前014.3K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架Youtu-GraphRAG 是腾讯优图实验室开源的图检索增强生成框架,帮助大语言模型更精准地处理复杂问答任务。通过构建四层知识树,将知识拆解为属性、关系、关键词和社区四个层次,实现跨领域知识的自主演...最新AI资源4周前010.5K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架Stand-In 是腾讯微信视觉团队推出的轻量级、即插即用的身份保留视频生成框架。专注于在视频生成中保留特定身份特征,仅需训练基础模型1%的额外参数,能在人脸相似度和自然度方面取得优异效果。最新AI资源4周前09K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制IndexTTS2是B站语音团队开源的新型免费文本转语音(TTS)模型,在情感表达和时长控制方面实现了重大突破,首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,只需一个音频文件可精准复制音...最新AI资源1个月前024.7K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型MiniMax Music 1.5 是先进的 AI 音乐生成工具,支持根据用户的自然语言描述,生成长达4分钟的音乐作品。模型支持多种音乐风格和情绪定制,生成的人声音色自然饱满,转音顺畅,编曲层次丰富...最新AI资源1个月前013.4K
HuMo - 清华大学联合字节开源的多模态视频生成框架HuMo是清华大学和字节跳动智能创作实验室联合开源的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能...最新AI资源1个月前016.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架,支持将静态的条件图像(如网格、点云等)转化为动态视频,无需复杂的训练过程和大量数据。最新AI资源1个月前011.3K
SRPO - 腾讯混元推出的文本到图像生成模型SRPO(Semantic Relative Preference Optimization)是腾讯混元推出的文本到图像生成模型,通过文本条件信号优化奖励机制,实现在线调整奖励,减少离线微调依赖。最新AI资源1个月前020.4K
Qwen3-Next - 阿里通义推出的最新基础模型Qwen3-Next是阿里通义开源的新一代混合架构大模型,结合了Gated DeltaNet和Gated Attention技术,擅长处理长文本,推理速度快且节省计算资源。最新AI资源1个月前012.3K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强文心大模型X1.1是百度推出的深度思考模型,基于混合强化学习框架,专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色,能准确地提供知识性答案和高质量的文本内容。最新AI资源1个月前013.2K
混元图像2.1 - 腾讯推出的开源文生图模型混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,专为高质量图像生成设计。模型支持原生2K分辨率,能精准呈现复杂场景和细节,使人物表情和动作能生动还原。最新AI资源1个月前013.9K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整AntSK FileChunk 是免费的智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切片大小,确保上下文连贯性。最新AI资源1个月前013.3K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控UnifiedTTS 是一站式文本转语音(TTS)服务的平台。支持多种语言,包括中文、英文、日文和韩文等,能满足全球业务的需求。通过统一的 API 接口,整合多种主流的 TTS 服务,包括 Micro...最新AI资源1个月前014.7K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长文本场景下...最新AI资源1个月前013.9K
WeKnora - 腾讯微信开源的文档理解与语义检索框架WeKnora 是腾讯微信团队开源的基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而设计,采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理...最新AI资源1个月前018K
XTuner V1 - 上海AI Lab开源的大模型训练引擎XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、通信和负载等多维度优化,实现了高性能...最新AI资源1个月前013.6K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型,基于 Qwen3 基座模型,经海量多模态数据训练而成。支持 11 种语言和多种口音,包括普通话、四川话、闽南语、吴语、粤语等方言...最新AI资源1个月前016.3K
Seedream 4.0 - 字节推出的最新一代图像创作模型Seedream 4.0 是字节跳动推出的先进图像生成与编辑工具,以生成与编辑一体化为核心,具备精准指令编辑、高度特征保持、深度意图理解等强大功能。最新AI资源1个月前043.5K
rStar2-Agent - 微软开源的高效AI推理模型rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到...最新AI资源1个月前014K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...最新AI资源1个月前017.1K
OneCAT - 美团联合上海交大开源的多模态模型OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...最新AI资源1个月前013.4K
Claudable - 开源AI Web应用构建器,自然语言生成代码Claudable 是基于 Next.js 的开源 Web 应用构建器,结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力,以及 Lovable 简单直观的应用构建体验...最新AI资源1个月前015.3K
FineVision - Hugging Face推出的开源视觉语言数据集FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...最新AI资源1个月前013.5K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动,能生成高分辨率、长时长且视觉一致的人物视频。最新AI资源1个月前012.3K