精选AI工具列表 | 第5页 | AI分享圈

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型，具有重要的行业意义。能在无需微调的情况下，驱动多种不同构造的真实机器人完成基础操作任务，在少量样本微调后展现出对复...

9个月前

042.6K

扩散模型（Diffusion Model）是什么，一文看懂

扩散模型（Diffusion Model）是什么，一文看懂

扩散模型（Diffusion Model）是一种生成模型，专门用于创建新的数据样本，例如图像、音频或文本。模型的核心灵感来源于物理学中的扩散过程，模拟粒子从高浓度区域向低浓度区域自然扩散的现象。在机器...

9个月前

052.2K

模型微调（Fine-tuning）是什么，一文看懂

模型微调（Fine-tuning）是什么，一文看懂

模型微调（Fine-tuning）是机器学习中迁移学习的一种具体实现方式。核心流程以预训练模型为基础，预训练模型利用大规模数据集学习通用模式，形成广泛的特征提取能力。微调阶段则引入特定任务的数据集，对...

9个月前

043.4K

Lynx - 字节跳动开源的高保真视频生成模型

Lynx - 字节跳动开源的高保真视频生成模型

Lynx 是字节跳动开源的高保真个性化视频生成模型，仅需单张人像照片，能生成身份一致的视频。基于扩散 Transformer（DiT）基础模型构建，引入 ID-adapter 和 Ref-adapte...

9个月前

045.1K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型，专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色，支持从初始规划...

9个月前

049.8K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型，通过引入DeepSeek Sparse Attention（DSA）机制，显著提升长文本处理的效率。模型基于DeepSeek...

9个月前

045.3K

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0（混元图像3.0）是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B，是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能，用户可边...

9个月前

056.1K

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part（混元3D-Part）是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成，首次实现高精度、可控的组件式3D生成，支持50 + 组件自动生成。用户可先用...

9个月前

059.4K

AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构，拥有10亿个参数，经过大规模、多样化的音频文本数据集训练，涵盖AudioSet、AudioCaps、TUT等公开数据集及内...

9个月前

054.1K

Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni（混元3D-Omni）是腾讯混元3D团队开源的3D资产生成框架，通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构，引入了统一的控制编码器，可处理点...

9个月前

054.2K

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型，支持中文和英文。采用原生全双工架构，可在每个时间步合并听觉、说话和独白...

9个月前

048.4K

注意力机制（Attention Mechanism）是什么，一文看懂

注意力机制（Attention Mechanism）是什么，一文看懂

注意力机制（Attention Mechanism）是模仿人类认知过程的计算技术，最初应用于机器翻译领域，后成为深度学习的重要组成部分。

9个月前

049.7K

Transformer 架构（Transformer Architecture）是什么，一文看懂

Transformer 架构（Transformer Architecture）是什么，一文看懂

Transformer 架构是一种深度学习模型，专为处理序列到序列的任务设计，例如机器翻译或文本摘要。核心创新在于完全依赖自注意力机制，摒弃了传统的循环或卷积结构。允许模型并行处理序列中的所有元素，大...

9个月前

047.9K

预训练模型（Pre-trained Model）是什么，一文看懂

预训练模型（Pre-trained Model）是什么，一文看懂

预训练模型（Pre-trained Model）是人工智能领域一项基础而强大的技术，代表在大规模数据集上预先进行训练的机器学习模型。模型通过处理海量信息，学习数据中的通用模式和特征，形成广泛的知识基础...

9个月前

045.6K

大语言模型（Large Language Model）是什么，一文看懂

大语言模型（Large Language Model）是什么，一文看懂

大语言模型（Large Language Model, LLM）是基于海量文本数据训练的深度学习系统，核心是Transformer架构。该架构的自注意力机制能有效捕捉语言中的长距离依赖关系。模型的“大...

9个月前

045.6K

长短期记忆网络（Long Short-Term Memory）是什么，一文看懂

长短期记忆网络（Long Short-Term Memory）是什么，一文看懂

长短期记忆网络（Long Short-Term Memory，LSTM）是专门用于处理序列数据的循环神经网络变体。在人工智能领域，序列数据广泛存在于时间序列预测、自然语言处理和语音识别等任务中。

9个月前

040.2K

CWM - Meta FAIR开源的代码世界语言模型

CWM - Meta FAIR开源的代码世界语言模型

CWM（Code World Model）是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型，专为代码生成和推理设计。引入“世界模型”概念，能模拟代码执行过程，预测变量状态变化，提前...

9个月前

044.5K

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手，通过人工智能技术提升开发效率。具备对话式开发功能，开发者可以通过自然语言描述需求，Neovate Code 能理解并生成相应的代...

9个月前

047.1K

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征，如音素和语调，生成精确的唇部同步和细腻的情感表达，为虚拟角色赋予生动的人类表情。

9个月前

048.9K

Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL是阿里云通义千问团队开源的多模态视觉语言大模型，参数量达2350亿，模型文件约471GB。包含指令版和思考版，采用增强的MRope交错布局、DeepStack等技术，可有效利用视觉变换...

9个月前

064.2K

Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard 是基于 Qwen3 基础模型微调的安全防护模型，专为安全检测而设计。能对提示词和响应进行精确的安全分类，提供风险等级，支持英语、中文和多语言环境。Qwen3Guard 有两个专业...

9个月前

052.1K

Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash 是阿里通义推出的先进语音合成模型，支持 17 种音色和 10 种语言，涵盖普通话、英语、方言等，具备卓越的中英文语音稳定性与高表现力，模型能自动调节语气，让语音更生动。

9个月前

061.5K

Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型，能处理文本、图像、音频和视频等多种数据类型，支持 119 种语言的文本交互，具备低延迟和高度可控的特点。

9个月前

048.1K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型，是 DeepSeek-V3.1 的升级版本。模型在语言一致性、代码生成和搜索能力等方面进行优化，能更准确...

9个月前

045K

联邦学习（Federated Learning）是什么，一文看懂

联邦学习（Federated Learning）是什么，一文看懂

联邦学习（Federated Learning）是一种创新的机器学习方法，由谷歌研究团队在2016年首次提出，旨在解决数据隐私和分布式计算中的挑战。

9个月前

046K

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M 是 IBM 推出的超紧凑开源视觉语言模型，专为高效文档转换设计。模型能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素。

9个月前

042.9K

Lucy Edit - 开源的AI视频编辑工具，自然语言描述编辑

Lucy Edit - 开源的AI视频编辑工具，自然语言描述编辑

Lucy Edit 是开源的 AI 视频编辑工具，由 Decart AI 开发。允许用户通过简单的自然语言描述来编辑视频，例如“将人物换成北极熊”或“把场景变成2D卡通风格”，无需复杂的微调或使用遮罩...

9个月前

053.6K

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型，在保持 LongCat-Flash-Chat 极速的同时，变得更强大、更专业。模型在逻辑、数学、代码、智能...

9个月前

041.9K

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族，首个版本 Ling-mini-2.0 拥有 160 亿总参数，每个输入标记仅激活 14 亿参数。

9个月前

043.1K

Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos 是清华大学与微软亚洲研究院联合开源的首个面向金融市场的 K 线图基础模型。通过分析股票、加密货币等资产的 K 线数据，包括开盘价、最高价、最低价、收盘价及成交量，来预测未来价格走势。

9个月前

070.5K

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate是通义万相开源的动作生成模型，支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频，模型能将视频中角色的动作、表情迁移到图片角色中，赋予图片角色动态表现力...

9个月前

045.4K

Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型，具备多语言对话、语音续写、少样本泛化和音频理解等强大功能，能在语音智能和音频理解基准测试中达到SOTA水平，超越谷歌Gemi...

9个月前

050.4K

InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力，能精准地完成任务。模型融合了真实和模拟的操作数据，通过大规模虚实混合场景资产，自动化构建海量多模态...

9个月前

052.7K

VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开源的语音生成模型。VoxCPM 采用端到端的扩散自回归架构，直接从文本生成连续语音表示，突破了传统离散分词的局限。通过分层语言建模和有限状态量化...

9个月前

054.5K

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构，系统2负责理解语言指令并规划长程路径，系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练，通过大规模数字...

9个月前

051.2K

WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver是阿里巴巴通义团队推出的新型双智能体框架，主要用在开放性深度研究，能模拟人类研究过程，分为规划和写作两个智能体。

9个月前

049.7K

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry 是 GitHub 推出的集中化平台，能帮助开发者更便捷地发现和安装 MCP 服务器。MCP Registry 的出现，让开发者能在一个地方快速找到所需的 AI 工具，极大地简...

9个月前

047.3K

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础，融合互联网视频数据和机器人操作数据，为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...

9个月前

044.2K

通义DeepResearch - 阿里通义开源的深度研究智能体

通义DeepResearch - 阿里通义开源的深度研究智能体

通义DeepResearch（Tongyi DeepResearch）是阿里巴巴推出的开源智能体，专为深度信息检索和复杂任务推理设计，具备300亿参数，支持多种推理模式，包括ReAct模式和深度模式...

9个月前

051.5K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”，是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环，负责高阶的空间推理与任务规划。模型采用两阶段训练策...

9个月前

041.1K

OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南，助力企业领导者在AI时代保持竞争优势。指南指出AI发展迅猛，模型发布速度加快、成本降低，企业采用速度...

最新AI资源课程资料

9个月前

052.4K

浙江大学免费PDF资料《大模型基础》 - 附下载链接

浙江大学免费PDF资料《大模型基础》 - 附下载链接

《大模型基础》深入剖析大语言模型（LLMs）的核心技术与实践路径。从语言模型的基础理论入手，系统讲解基于统计、循环神经网络（RNN）和Transformer架构的模型设计原理，重点探讨大语言模型的三大...

最新AI资源课程资料

9个月前

053.7K

循环神经网络（Recurrent Neural Network）是什么，一文看懂

循环神经网络（Recurrent Neural Network）是什么，一文看懂

循环神经网络（Recurrent Neural Network，RNN）是专为处理序列数据而设计的神经网络架构。序列数据指具有时序或依赖关系的数据集合，如语言文本、语音信号或时间序列。

9个月前

048.7K

神经网络（Neural Network）是什么，一文看懂

神经网络（Neural Network）是什么，一文看懂

神经网络（Neural Network）是一种计算模型，设计灵感来源于生物大脑中神经元的工作方式。

9个月前

041.1K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer 是腾讯混元团队开源的提示词增强工具，提升文本到图像（Text-to-Image，T2I）模型的生成效果。通过链式推理（Chain-of-Thought，CoT）的方式对用...

9个月前

047.3K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO是北京深度逻辑智能科技有限公司推出的开源语音模型，通过整合语音与文本数据，提供对齐数据集、指令微调数据集和评估基准，解决了大型语音语言模型领域数据分散、任务覆盖不足等问题。

9个月前

038.3K

混元3D 3.0 - 腾讯推出的3D生成模型，支持超高清建模

混元3D 3.0 - 腾讯推出的3D生成模型，支持超高清建模

混元3D 3.0是腾讯推出的先进3D生成模型，基于3D-DiT分级雕刻技术，几何分辨率高达1536³，能生成超高清、细节丰富的3D模型，在人物建模方面表现出色，能精准塑造五官和体态。

9个月前

056.8K

UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 是宇树科技开源的跨多类机器人本体的开源世界模型-动作架构，专为通用机器人学习而设计。由世界模型和动作架构组成，世界模型能理解机器人与环境的交互物理规律，动作架构则负责具体的...

9个月前

058.7K

InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk 是 MeiGen-AI 团队开发的音频驱动的视频生成工具，能根据输入的音频生成无限长度的会说话的视频。核心优势在于精准的唇形同步技术，能将音频与人物口型完美匹配，生成自然流畅...

9个月前

069.6K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3是字节跳动和香港大学联合推出的开源模型，专注于解决复杂视觉搜索问题。模型具备强大的多轮交互推理能力，能通过深度探索和试错定位目标。

9个月前

043.6K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex 是 OpenAI 推出的强大的编程优化模型，基于 GPT-5 进一步强化，专为软件工程师设计。模型能快速生成高质量代码，支持多种编程语言，且能优化现有代码提升性能。

9个月前

040.8K

ROMA - 开源的元Agent框架，自动分解复杂任务并行处理

ROMA - 开源的元Agent框架，自动分解复杂任务并行处理

ROMA（Recursive-Open-Meta-Agent）是Sentient AGI开发的开源元代理框架，通过递归任务分解和并行处理来高效解决复杂问题。支持Python 3.12+、Docker和...

9个月前

055.7K

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件，完成了...

9个月前

049.8K

Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote 是开源的本地优先 AI 会议笔记工具，专为专业人士设计，保护用户隐私并提升会议效率。采用“本地优先”原则，所有数据存储和处理均在用户本地设备上完成，确保数据安全，支持离线运行。

9个月前

049.5K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1是Meta开源的系列高效推理模型，专为数学、编程和科学推理设计。包含基础模型和最终模型，分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型，是经过监督微调（SFT...

9个月前

041.2K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking 是百度开源的专注于推理任务的大型语言模型。采用混合专家（MoE）架构，总参数量达210亿，每个token激活30亿参数，支持128K的长上下文窗口...

9个月前

037.8K

人工智能公平性（AI Fairness）是什么，一文看懂

人工智能公平性（AI Fairness）是什么，一文看懂

人工智能公平性是确保人工智能系统在设计、开发、部署和运行的整个生命周期中，能以公正、无偏见的方式对待所有个体和群体的跨学科领域。

9个月前

046.4K

元学习（Meta-Learning）是什么，一文看懂

元学习（Meta-Learning）是什么，一文看懂

元学习（Meta-Learning），或称为学习如何学习，是机器学习领域的重要分支，专注于开发能快速适应新任务的学习算法。

9个月前

051.8K

MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent 是上海交通大学 IPADS 实验室开源的移动端智能体工具链，帮助用户构建专属的手机智能助手。通过记录用户操作轨迹并生成高质量数据，训练出能理解自然语言指令的智能体。核心特点包括高效...

9个月前

046.5K

ZipVoice - 小米开源的语音合成系列模型

ZipVoice - 小米开源的语音合成系列模型

ZipVoice是小米发布的基于 Flow Matching 架构的系列语音合成（TTS）模型，包括 ZipVoice（零样本单说话人语音合成模型）和 ZipVoice-Dialog（零样本对话语音合...

9个月前

057.6K

PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5是百度发布的最新一代文字识别AI模型。具有轻量级设计，参数量仅0.07B，适合在CPU和边缘设备上高效运行，每秒可处理超过370个字符。模型支持简体中文、繁体中文、英文、日文和拼音等五...

9个月前

071.4K

Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG 是腾讯优图实验室开源的图检索增强生成框架，帮助大语言模型更精准地处理复杂问答任务。通过构建四层知识树，将知识拆解为属性、关系、关键词和社区四个层次，实现跨领域知识的自主演...

9个月前

048.5K

Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In 是腾讯微信视觉团队推出的轻量级、即插即用的身份保留视频生成框架。专注于在视频生成中保留特定身份特征，仅需训练基础模型1%的额外参数，能在人脸相似度和自然度方面取得优异效果。

9个月前

047.4K

IndexTTS2 - B站开源的免费TTS模型，首个支持精确时长控制

IndexTTS2 - B站开源的免费TTS模型，首个支持精确时长控制

IndexTTS2是B站语音团队开源的新型免费文本转语音（TTS）模型，在情感表达和时长控制方面实现了重大突破，首个支持精确时长控制的自回归TTS模型。支持零样本声音克隆，只需一个音频文件可精准复制音...

9个月前

0110.8K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 是先进的 AI 音乐生成工具，支持根据用户的自然语言描述，生成长达4分钟的音乐作品。模型支持多种音乐风格和情绪定制，生成的人声音色自然饱满，转音顺畅，编曲层次丰富...

10个月前

048.6K

人工智能安全（AI Safety）是什么，一文看懂

人工智能安全（AI Safety）是什么，一文看懂

人工智能安全（AI Safety）是确保人工智能系统，尤其是那些日益强大和自主的系统，在整个生命周期内都能可靠、可预测地按照人类意图行事，不会产生有害后果的前沿交叉学科领域。

10个月前

045.7K

自监督学习（Self-Supervised Learning）是什么，一文看懂

自监督学习（Self-Supervised Learning）是什么，一文看懂

自监督学习（Self-Supervised Learning）是机器学习领域新兴的学习范式，核心思想是从无标签数据中自动生成监督信号，训练模型学习数据的有用表示。

10个月前

046K

超人工智能 ASI（Artificial Super Intelligence）是什么，一文看懂

超人工智能 ASI（Artificial Super Intelligence）是什么，一文看懂

超人工智能（Artificial Super Intelligence, ASI）是超越人类智能的智能系统，能力在所有领域均超越人类，包括认知、创造力、问题解决和决策能力。

10个月前

059.5K

迁移学习（Transfer Learning）是什么，一文看懂

迁移学习（Transfer Learning）是什么，一文看懂

迁移学习（Transfer Learning）是机器学习领域中的重要分支，核心思想在于将从一个任务或领域中学到的知识应用到另一个相关但不同的任务或领域中。

10个月前

045.4K

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo是清华大学和字节跳动智能创作实验室联合开源的多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能...

10个月前

0129.9K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架，支持将静态的条件图像（如网格、点云等）转化为动态视频，无需复杂的训练过程和大量数据。

10个月前

043K

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO（Semantic Relative Preference Optimization）是腾讯混元推出的文本到图像生成模型，通过文本条件信号优化奖励机制，实现在线调整奖励，减少离线微调依赖。

10个月前

057.3K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next是阿里通义开源的新一代混合架构大模型，结合了Gated DeltaNet和Gated Attention技术，擅长处理长文本，推理速度快且节省计算资源。

10个月前

043.5K

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

文心大模型X1.1是百度推出的深度思考模型，基于混合强化学习框架，专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色，能准确地提供知识性答案和高质量的文本内容。

10个月前

049.4K

混元图像2.1 - 腾讯推出的开源文生图模型

混元图像2.1 - 腾讯推出的开源文生图模型

混元图像2.1（HunyuanImage 2.1）是腾讯推出的开源文生图模型，专为高质量图像生成设计。模型支持原生2K分辨率，能精准呈现复杂场景和细节，使人物表情和动作能生动还原。

10个月前

044.6K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk 是免费的智能文档切片工具，专为 RAG（检索增强生成）应用设计。以语义为核心，将文档智能切分为语义完整、连贯的片段，支持多语言，可动态调整切片大小，确保上下文连贯性。

10个月前

051.5K

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS 是一站式文本转语音（TTS）服务的平台。支持多种语言，包括中文、英文、日文和韩文等，能满足全球业务的需求。通过统一的 API 接口，整合多种主流的 TTS 服务，包括 Micro...

10个月前

055.2K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构，每个词元仅需计算与少于 5% 词元的相关性，显著降低长文本处理开销。在 128K 长文本场景下...

10个月前

045.1K

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora 是腾讯微信团队开源的基于大语言模型（LLM）的文档理解与语义检索框架，专为结构复杂、内容异构的文档场景而设计，采用模块化架构，融合多模态预处理、语义向量索引、智能召回与大模型生成推理...

10个月前

090.2K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎，专为超大规模稀疏混合专家（MoE）模型训练设计。基于 PyTorch FSDP 开发，通过显存、通信和负载等多维度优化，实现了高性能...

10个月前

046.4K

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型，基于 Qwen3 基座模型，经海量多模态数据训练而成。支持 11 种语言和多种口音，包括普通话、四川话、闽南语、吴语、粤语等方言...

10个月前

059.3K

人工智能治理（AI Governance）是什么，一文看懂

人工智能治理（AI Governance）是什么，一文看懂

人工智能治理是涵盖技术、伦理、法律和社会的综合性框架，对人工智能系统的整个生命周期——从设计、开发、部署到最终使用——进行有效的引导、管理和监督。核心目标不是阻碍技术创新，是确保AI技术的发展与应用始...

10个月前

053.5K

吴恩达的LangChain for LLM应用开发免费课程

吴恩达的LangChain for LLM应用开发免费课程

LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程，由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。

最新AI资源课程资料

10个月前

068.2K

吴恩达的Transformer LLMs工作原理免费课程

吴恩达的Transformer LLMs工作原理免费课程

Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...

最新AI资源课程资料

10个月前

063.1K

半监督学习（Semi-Supervised Learning）是什么，一文看懂

半监督学习（Semi-Supervised Learning）是什么，一文看懂

半监督学习是机器学习领域中的重要分支，利用少量标注数据和大量未标注数据共同训练模型，提升学习效果和泛化能力。

10个月前

052.8K

无监督学习（Unsupervised Learning）是什么，一文看懂

无监督学习（Unsupervised Learning）是什么，一文看懂

无监督学习（Unsupervised Learning）是机器学习的重要分支，专注于处理没有预先标注标签的数据集。

10个月前

044.7K

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 是字节跳动推出的先进图像生成与编辑工具，以生成与编辑一体化为核心，具备精准指令编辑、高度特征保持、深度意图理解等强大功能。

10个月前

091.8K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent是微软开源的先进的人工智能数学推理模型，在AIME24测试中达到80.6%的准确率，展现出强大的数学问题解决能力。模型具备科学推理能力，在GPQA-Diamond基准测试中达到...

10个月前

046.1K

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型，参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...

10个月前

049.6K

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT是美团联合上海交大推出的新型统一多模态模型，采用纯解码器架构，能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计，通过特定模态的...

10个月前

048.1K

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable 是基于 Next.js 的开源 Web 应用构建器，结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力，以及 Lovable 简单直观的应用构建体验...

10个月前

053K

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision 是 Hugging Face 开源的视觉语言数据集，为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...

10个月前

051.1K

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动，能生成高分辨率、长时长且视觉一致的人物视频。

10个月前

048.4K

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型，在编程辅助方面表现出色，能高效生成代码，支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K，能处理复杂任务。

10个月前

085.6K

强化学习（Reinforcement Learning）是什么，一文看懂

强化学习（Reinforcement Learning）是什么，一文看懂

强化学习是机器学习的重要分支，核心在于让智能体通过与环境之间的持续交互，自主学习如何做出最优决策以获取最大的长期累积奖励。

10个月前

044.2K

监督学习（Supervised Learning）是什么，一文看懂

监督学习（Supervised Learning）是什么，一文看懂

监督学习是机器学习中一种最为常见和基础的方法，核心思想是通过已有的、带有“正确答案”的数据集，教会计算机模型如何做出预测或判断。

10个月前

047.4K

深度学习（Deep Learning）是什么，一文看懂

深度学习（Deep Learning）是什么，一文看懂

深度学习（Deep Learning）是机器学习的分支，核心在于使用多层人工神经网络来学习和表示数据中的复杂模式。

10个月前

047.5K

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager（简称混元Voyager）是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架，能从单张图片生成用户定义相机路径的3D点云序列，支持...

10个月前

050.2K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B 是腾讯混元团队推出的轻量级翻译模型，参数量为70亿，支持33个语种及5种民汉语言/方言的互译，包括粤语、维吾尔语、藏语等。在国际计算语言学协会（ACL）WMT2025比赛中...

10个月前

046.7K