Audio2Face - NVIDIA开源的AI 3D面部动画生成模型Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。最新AI资源2个月前021.3K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型Qwen3-VL是阿里云通义千问团队开源的多模态视觉语言大模型,参数量达2350亿,模型文件约471GB。包含指令版和思考版,采用增强的MRope交错布局、DeepStack等技术,可有效利用视觉变换...最新AI资源2个月前024.8K
Qwen3Guard - 阿里Qwen开源的安全模型Qwen3Guard 是基于 Qwen3 基础模型微调的安全防护模型,专为安全检测而设计。能对提示词和响应进行精确的安全分类,提供风险等级,支持英语、中文和多语言环境。Qwen3Guard 有两个专业...最新AI资源2个月前024K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型Qwen3-TTS-Flash 是阿里通义推出的先进语音合成模型,支持 17 种音色和 10 种语言,涵盖普通话、英语、方言等,具备卓越的中英文语音稳定性与高表现力,模型能自动调节语气,让语音更生动。最新AI资源2个月前023.7K
Qwen3-Omni - 阿里通义推出的全模态AI模型Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型,能处理文本、图像、音频和视频等多种数据类型,支持 119 种语言的文本交互,具备低延迟和高度可控的特点。最新AI资源2个月前018.2K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型,是 DeepSeek-V3.1 的升级版本。模型在语言一致性、代码生成和搜索能力等方面进行优化,能更准确...最新AI资源2个月前018.5K
Granite-Docling-258M - IBM开源的视觉语言模型Granite-Docling-258M 是 IBM 推出的超紧凑开源视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。最新AI资源2个月前018.1K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑Lucy Edit 是开源的 AI 视频编辑工具,由 Decart AI 开发。允许用户通过简单的自然语言描述来编辑视频,例如“将人物换成北极熊”或“把场景变成2D卡通风格”,无需复杂的微调或使用遮罩...最新AI资源2个月前022.8K
LongCat-Flash-Thinking - 美团开源的高效推理模型LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型,在保持 LongCat-Flash-Chat 极速的同时,变得更强大、更专业。模型在逻辑、数学、代码、智能...最新AI资源2个月前018.3K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。最新AI资源2个月前014.6K
Kronos - 清华和微软联合开源的金融K线图基础模型Kronos 是清华大学与微软亚洲研究院联合开源的首个面向金融市场的 K 线图基础模型。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。最新AI资源2个月前030.5K
Wan2.2-Animate - 通义万相开源的动作生成模型Wan2.2-Animate是通义万相开源的动作生成模型,支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频,模型能将视频中角色的动作、表情迁移到图片角色中,赋予图片角色动态表现力...最新AI资源2个月前022.2K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型,具备多语言对话、语音续写、少样本泛化和音频理解等强大功能,能在语音智能和音频理解基准测试中达到SOTA水平,超越谷歌Gemi...最新AI资源2个月前019.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型融合了真实和模拟的操作数据,通过大规模虚实混合场景资产,自动化构建海量多模态...最新AI资源2个月前018.9K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开源的语音生成模型。VoxCPM 采用端到端的扩散自回归架构,直接从文本生成连续语音表示,突破了传统离散分词的局限。通过分层语言建模和有限状态量化...最新AI资源2个月前023K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字...最新AI资源2个月前018.4K
WebWeaver - 阿里通义开源的新型双智能体框架WebWeaver是阿里巴巴通义团队推出的新型双智能体框架,主要用在开放性深度研究,能模拟人类研究过程,分为规划和写作两个智能体。最新AI资源2个月前019.1K
MCP Registry - GitHub推出的官方MCP服务器管理平台MCP Registry 是 GitHub 推出的集中化平台,能帮助开发者更便捷地发现和安装 MCP 服务器。MCP Registry 的出现,让开发者能在一个地方快速找到所需的 AI 工具,极大地简...最新AI资源2个月前021K
VLAC - 上海AI Lab开源的具身奖励大模型VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...最新AI资源2个月前016.4K
通义DeepResearch - 阿里通义开源的深度研究智能体通义DeepResearch(Tongyi DeepResearch)是阿里巴巴推出的开源智能体,专为深度信息检索和复杂任务推理设计,具备300亿参数,支持多种推理模式,包括ReAct模式和深度模式...最新AI资源2个月前024.4K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策...最新AI资源2个月前017.9K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,助力企业领导者在AI时代保持竞争优势。指南指出AI发展迅猛,模型发布速度加快、成本降低,企业采用速度...最新AI资源课程资料2个月前020.9K
浙江大学免费PDF资料《大模型基础》 - 附下载链接《大模型基础》深入剖析大语言模型(LLMs)的核心技术与实践路径。从语言模型的基础理论入手,系统讲解基于统计、循环神经网络(RNN)和Transformer架构的模型设计原理,重点探讨大语言模型的三大...最新AI资源课程资料2个月前021.7K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具PromptEnhancer 是腾讯混元团队开源的提示词增强工具,提升文本到图像(Text-to-Image,T2I)模型的生成效果。通过链式推理(Chain-of-Thought,CoT)的方式对用...最新AI资源2个月前021.4K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型LLaSO是北京深度逻辑智能科技有限公司推出的开源语音模型,通过整合语音与文本数据,提供对齐数据集、指令微调数据集和评估基准,解决了大型语音语言模型领域数据分散、任务覆盖不足等问题。最新AI资源2个月前014.2K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模混元3D 3.0是腾讯推出的先进3D生成模型,基于3D-DiT分级雕刻技术,几何分辨率高达1536³,能生成超高清、细节丰富的3D模型,在人物建模方面表现出色,能精准塑造五官和体态。最新AI资源2个月前024.7K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的开源世界模型-动作架构,专为通用机器人学习而设计。由世界模型和动作架构组成,世界模型能理解机器人与环境的交互物理规律,动作架构则负责具体的...最新AI资源2个月前023.5K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具InfiniteTalk 是 MeiGen-AI 团队开发的音频驱动的视频生成工具,能根据输入的音频生成无限长度的会说话的视频。核心优势在于精准的唇形同步技术,能将音频与人物口型完美匹配,生成自然流畅...最新AI资源2个月前029.1K
Mini-o3 - 字节、港大联合开源的视觉推理模型Mini-o3是字节跳动和香港大学联合推出的开源模型,专注于解决复杂视觉搜索问题。模型具备强大的多轮交互推理能力,能通过深度探索和试错定位目标。最新AI资源2个月前018.3K
GPT-5-Codex - OpenAI推出的最强编程模型GPT-5-Codex 是 OpenAI 推出的强大的编程优化模型,基于 GPT-5 进一步强化,专为软件工程师设计。模型能快速生成高质量代码,支持多种编程语言,且能优化现有代码提升性能。最新AI资源2个月前016.1K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理ROMA(Recursive-Open-Meta-Agent)是Sentient AGI开发的开源元代理框架,通过递归任务分解和并行处理来高效解决复杂问题。支持Python 3.12+、Docker和...最新AI资源2个月前024.2K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件,完成了...最新AI资源2个月前020.1K
Hyprnote - 开源的本地优先AI会议笔记工具Hyprnote 是开源的本地优先 AI 会议笔记工具,专为专业人士设计,保护用户隐私并提升会议效率。采用“本地优先”原则,所有数据存储和处理均在用户本地设备上完成,确保数据安全,支持离线运行。最新AI资源2个月前018.5K
MobileLLM-R1 - Meta开源的专项高效推理模型系列MobileLLM-R1是Meta开源的系列高效推理模型,专为数学、编程和科学推理设计。包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型,是经过监督微调(SFT...最新AI资源2个月前017.8K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型ERNIE-4.5-21B-A3B-Thinking 是百度开源的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口...最新AI资源2个月前016.3K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架MobiAgent 是上海交通大学 IPADS 实验室开源的移动端智能体工具链,帮助用户构建专属的手机智能助手。通过记录用户操作轨迹并生成高质量数据,训练出能理解自然语言指令的智能体。核心特点包括高效...最新AI资源2个月前017.4K
ZipVoice - 小米开源的语音合成系列模型ZipVoice是小米发布的基于 Flow Matching 架构的系列语音合成(TTS)模型,包括 ZipVoice(零样本单说话人语音合成模型)和 ZipVoice-Dialog(零样本对话语音合...最新AI资源2个月前022.8K
PP-OCRv5 - 百度开源的新一代文字识别AI模型PP-OCRv5是百度发布的最新一代文字识别AI模型。具有轻量级设计,参数量仅0.07B,适合在CPU和边缘设备上高效运行,每秒可处理超过370个字符。模型支持简体中文、繁体中文、英文、日文和拼音等五...最新AI资源2个月前029.4K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架Youtu-GraphRAG 是腾讯优图实验室开源的图检索增强生成框架,帮助大语言模型更精准地处理复杂问答任务。通过构建四层知识树,将知识拆解为属性、关系、关键词和社区四个层次,实现跨领域知识的自主演...最新AI资源2个月前018K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架Stand-In 是腾讯微信视觉团队推出的轻量级、即插即用的身份保留视频生成框架。专注于在视频生成中保留特定身份特征,仅需训练基础模型1%的额外参数,能在人脸相似度和自然度方面取得优异效果。最新AI资源2个月前015.7K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制IndexTTS2是B站语音团队开源的新型免费文本转语音(TTS)模型,在情感表达和时长控制方面实现了重大突破,首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆,只需一个音频文件可精准复制音...最新AI资源2个月前051.2K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型MiniMax Music 1.5 是先进的 AI 音乐生成工具,支持根据用户的自然语言描述,生成长达4分钟的音乐作品。模型支持多种音乐风格和情绪定制,生成的人声音色自然饱满,转音顺畅,编曲层次丰富...最新AI资源3个月前019.4K
HuMo - 清华大学联合字节开源的多模态视频生成框架HuMo是清华大学和字节跳动智能创作实验室联合开源的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能...最新AI资源3个月前039.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架,支持将静态的条件图像(如网格、点云等)转化为动态视频,无需复杂的训练过程和大量数据。最新AI资源3个月前017K
SRPO - 腾讯混元推出的文本到图像生成模型SRPO(Semantic Relative Preference Optimization)是腾讯混元推出的文本到图像生成模型,通过文本条件信号优化奖励机制,实现在线调整奖励,减少离线微调依赖。最新AI资源3个月前028.9K
Qwen3-Next - 阿里通义推出的最新基础模型Qwen3-Next是阿里通义开源的新一代混合架构大模型,结合了Gated DeltaNet和Gated Attention技术,擅长处理长文本,推理速度快且节省计算资源。最新AI资源3个月前018.1K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强文心大模型X1.1是百度推出的深度思考模型,基于混合强化学习框架,专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色,能准确地提供知识性答案和高质量的文本内容。最新AI资源3个月前021.6K
混元图像2.1 - 腾讯推出的开源文生图模型混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,专为高质量图像生成设计。模型支持原生2K分辨率,能精准呈现复杂场景和细节,使人物表情和动作能生动还原。最新AI资源3个月前019.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整AntSK FileChunk 是免费的智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切片大小,确保上下文连贯性。最新AI资源3个月前022K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控UnifiedTTS 是一站式文本转语音(TTS)服务的平台。支持多种语言,包括中文、英文、日文和韩文等,能满足全球业务的需求。通过统一的 API 接口,整合多种主流的 TTS 服务,包括 Micro...最新AI资源3个月前023.8K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长文本场景下...最新AI资源3个月前019.7K
WeKnora - 腾讯微信开源的文档理解与语义检索框架WeKnora 是腾讯微信团队开源的基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而设计,采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理...最新AI资源3个月前029.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、通信和负载等多维度优化,实现了高性能...最新AI资源3个月前018.9K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型,基于 Qwen3 基座模型,经海量多模态数据训练而成。支持 11 种语言和多种口音,包括普通话、四川话、闽南语、吴语、粤语等方言...最新AI资源3个月前028.6K
吴恩达的LangChain for LLM应用开发免费课程LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程,由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。最新AI资源课程资料3个月前029.5K
吴恩达的Transformer LLMs工作原理免费课程Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...最新AI资源课程资料3个月前026.8K
Seedream 4.0 - 字节推出的最新一代图像创作模型Seedream 4.0 是字节跳动推出的先进图像生成与编辑工具,以生成与编辑一体化为核心,具备精准指令编辑、高度特征保持、深度意图理解等强大功能。最新AI资源3个月前056.3K
rStar2-Agent - 微软开源的高效AI推理模型rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到...最新AI资源3个月前020K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...最新AI资源3个月前024K
OneCAT - 美团联合上海交大开源的多模态模型OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...最新AI资源3个月前019.8K
Claudable - 开源AI Web应用构建器,自然语言生成代码Claudable 是基于 Next.js 的开源 Web 应用构建器,结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力,以及 Lovable 简单直观的应用构建体验...最新AI资源3个月前024.7K
FineVision - Hugging Face推出的开源视觉语言数据集FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...最新AI资源3个月前023.1K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动,能生成高分辨率、长时长且视觉一致的人物视频。最新AI资源3个月前020.2K
Kimi K2-0905 - 月之暗面推出的最新模型版本Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型,在编程辅助方面表现出色,能高效生成代码,支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K,能处理复杂任务。最新AI资源3个月前031K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持...最新AI资源3个月前024K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型Hunyuan-MT-7B 是腾讯混元团队推出的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。在国际计算语言学协会(ACL)WMT2025比赛中...最新AI资源3个月前023.6K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型Step-Audio 2 mini 是阶跃星辰开源的端到端语音大模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延更低,能理解副语言信息与非人声信号。最新AI资源3个月前029.1K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型MobileCLIP2是苹果公司研究人员推出的高效端侧多模态模型,是MobileCLIP的升级版本。在多模态强化训练方面进行了优化,通过在DFN数据集上训练性能更优的CLIP教师模型集成和改进的图文生...最新AI资源3个月前027.9K
InternVL3.5 - 上海AI实验室开源的多模态大模型InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版本,覆盖不同资源需求场景,包含稠...最新AI资源3个月前029.3K
FastVLM - 苹果公司推出的视觉语言模型FastVLM(Fast Vision Language Model)是苹果公司推出的高效视觉语言模型。以FastViTHD混合视觉编码器为核心,融合了卷积和Transformer架构,可显著减少视觉...最新AI资源3个月前025.6K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集Meeseeks 是美团 M17 团队开源的大模型评测集,用在评估模型的指令遵循能力。Meeseeks 通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生成回答,不评估回答内容的知识正...最新AI资源3个月前025.2K
gpt-realtime - OpenAI最新推出的AI语音模型gpt-realtime 是 OpenAI 推出的先进语音模型,支持直接处理音频,生成自然流畅的语音。模型支持多种语言和风格,能理解非语言线索,如笑声,能在不同语言间切换。最新AI资源3个月前026.8K
Youtu-agent - 腾讯开源的高效智能体框架Youtu-agent 是腾讯优图实验室开源的智能体框架,用在构建和运行自主智能体。框架在 WebWalkerQA 和 GAIA 基准测试中表现出色,准确率分别达到 71.47% 和 72.8%。框架...最新AI资源3个月前031.2K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型HunyuanVideo-Foley 是腾讯混元团队开源的视频音效生成模型,支持为无声视频添加精准匹配的音效。模型基于大规模数据集训练,用多模态扩散变换器架构,结合表征对齐损失函数和音频VAE优化技术...最新AI资源3个月前032K
PixVerse V5 - 爱诗科技推出的自研AI视频模型PixVerse V5是爱诗科技推出的AI视频生成大模型。模型能根据用户输入的文字描述或图片生成高质量的视频内容,且支持多种风格,如动漫、科幻、国风等。最新AI资源3个月前029.3K
问小白5 - 问小白推出的全能AI模型问小白5是“All in One”旗舰大模型,智能水平极高。模型在多项评测中表现卓越,如AA - Index综合评估得分64.7分,STEM能力评测86分,接近全球领先的GPT - 5。最新AI资源3个月前027K
MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型MiniCPM-V 4.5 是面壁智能开源的 8B 参数多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 ...最新AI资源3个月前031.5K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)是谷歌推出的先进图像生成与编辑模型,能保持角色在不同场景中的一致性,支持通过自然语言进行精准图像编辑,如模糊背景、消除污渍等。最新AI资源3个月前029.8K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,只需一张静态图片和一段音频,能生成高质量的数字人视频,且支持多种图片类型和画幅。最新AI资源3个月前028.8K
吴恩达面向开发者的ChatGPT提示工程免费课程面向开发者的ChatGPT提示工程是DeepLearning.AI与OpenAI联合推出的课程,专为开发者设计,由Isa Fulford, 吴恩达Andrew Ng主讲,教授如何用大型语言模型(LLM...最新AI资源课程资料3个月前029.6K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径问小白o4是创新的并行思考模型,能同时开启8条思考路径,从多角度分析问题并自动筛选出最优解。模型融合先进的Long-CoT强化学习和过程奖励学习技术,具备强大的深度推理能力,且在复杂任务中表现出色。最新AI资源3个月前025.8K
VibeVoice - 微软推出的文本到语音模型VibeVoice 是微软推出的新型文本到语音(TTS)模型。模型能生成多达 4 位不同说话者的对话式音频,支持长达 90 分钟的连续语音输出,突破传统 TTS 系统的长度限制。最新AI资源3个月前034.6K
SpatialGen - 群核科技推出的开源3D场景生成模型SpatialGen 是群核科技开源的 3D 场景生成模型,基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局生成时空一致的多视角图像,并进一步生成 3D 高斯场景,渲染出漫游视频。最新AI资源3个月前026.8K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型EchoMimicV3是蚂蚁集团推出的多模态数字人视频生成模型,拥有13亿参数,能处理音频、文本、图像等多种输入,生成高质量的数字人动画。最新AI资源3个月前025.9K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型Fun-ASR是钉钉与通义实验室联合推出的语音识别大模型。模型经过海量音频数据训练,能精准识别多行业专业术语,如互联网、科技、家装等,显著提升识别准确率。模型结合钉钉企业信息进行推理优化,减少幻觉问题...最新AI资源3个月前048.4K
Squibler - AI小说辅助写作平台,助力构思到创作全过程Squibler 是强大的 AI 辅助写作平台,专为作家设计,能帮助用户从构思到创作再到出版的全过程。平台提供多种故事模板,涵盖小说、剧本、短篇故事等,用户只需输入初始概念,AI 能生成大纲、角色、场...最新AI资源3个月前027.4K
91写作 - 开源的AI智能小说创作平台91写作是全开源的AI小说创作工具,基于Vue 3和Element Plus开发,集成多种先进AI模型,如GPT、Claude、Gemini等。工具为创作者提供从构思到成文的完整创作工具链,包括项目创...最新AI资源3个月前027.5K
Aivilization - 港科大推出的多Agent社会模拟平台Aivilization 是香港科技大学开发的全球首创人工智能多智能体社会模拟平台。构建了一个可视化的数字沙盒,用户可创建和引导成千上万个 AI 智能体,观察未来人类与 AI 共存的社会演变。平台支持...最新AI资源3个月前048.2K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型Grok 2.5是埃隆·马斯克旗下的xAI公司开源的人工智能模型。拥有2690亿参数,基于混合专家(MoE)架构,具有强大的性能和推理能力。模型在研究生级科学知识(GPQA)、通用知识(MMLU、MM...最新AI资源3个月前030.2K
Draw A Fish - 免费的在线AI画鱼网站,共享虚拟鱼缸Draw A Fish 是简单而有趣的在线AI画鱼网站,用户可以在上面绘制鱼的图案,将其放入一个全球共享的虚拟鱼缸中。Draw A Fish无需注册,操作简单,只需几秒钟就能完成创作并分享。最新AI资源3个月前033.2K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》MIT最新推出的《生成式AI鸿沟:2025年商业人工智能现状》报告,通过深入调研300多个AI项目、与52个组织进行访谈及对153位高管开展调查,揭示企业在生成式AI(GenAI)应用过程中遭遇的核心...最新AI资源课程资料3个月前046.1K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集AutoClip是开源的AI视频剪辑工具,基于先进的AI技术实现全流程自动化视频处理。工具能自动识别视频中的高光片段,精准提取有价值内容,能根据主题相似度进行智能聚类,生成内容合集。AutoClip支...最新AI资源3个月前033.5K
ToonComposer - 腾讯开源的生成式AI动画制作工具ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学共同推出的生成式 AI 动画制作工具。通过生成式后关键帧技术,将中间帧生成和上色环节整合为自动化流程,仅需一个草图和一个...最新AI资源3个月前032.7K
Seed-OSS - 字节跳动团队开源的全新AI模型Seed-OSS是字节跳动Seed团队开源的大型语言模型系列,专注于长文本和推理任务。模型在复杂逻辑推理和多步推理中表现出色,准确率高,能高效解决难题。Seed-OSS支持长达512K的长文本上下文...最新AI资源3个月前031.8K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型Intern-S1-mini 是上海人工智能实验室推出的轻量化科学多模态大模型,参数规模为 8B。继承了 Intern-S1 的强大能力,兼具通用与专业科学能力,适合快速部署和二次开发。在性能方面,I...最新AI资源3个月前027.1K
Nano Banana - 谷歌推出的AI图像编辑模型Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号,能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。最新AI资源3个月前050.7K
Klear-Reasoner - 快手推出的全新推理模型Klear-Reasoner 是快手推出的高性能推理模型,基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练,在数学和代码推理方面表现出色。Klear-Reasoner...最新AI资源3个月前025.6K
CombatVLA - 淘天集团推出的高效VLA模型CombatVLA是淘天集团未来生活实验室团队推出的创新3D动作角色扮演游戏(ARPG)专用模型。CombatVLA是视觉-语言-动作(VLA)模型,基于3B参数规模构建,通过动作追踪器收集人类玩家的...最新AI资源3个月前028.4K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型DeepSeek V3.1是DeepSeek推出的新一代AI模型,在前代V3模型的基础上进行重要升级。DeepSeek V3.1引入混合推理架构,让模型在思考模式和非思考模式之间灵活切换,显著提高思考...最新AI资源3个月前030.5K