精选AI工具列表 | 第5页 | AI分享圈

超人工智能 ASI（Artificial Super Intelligence）是什么，一文看懂

超人工智能 ASI（Artificial Super Intelligence）是什么，一文看懂

超人工智能（Artificial Super Intelligence, ASI）是超越人类智能的智能系统，能力在所有领域均超越人类，包括认知、创造力、问题解决和决策能力。

7个月前

050.3K

迁移学习（Transfer Learning）是什么，一文看懂

迁移学习（Transfer Learning）是什么，一文看懂

迁移学习（Transfer Learning）是机器学习领域中的重要分支，核心思想在于将从一个任务或领域中学到的知识应用到另一个相关但不同的任务或领域中。

7个月前

036.7K

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo是清华大学和字节跳动智能创作实验室联合开源的多模态视频生成框架，专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能...

7个月前

0119.8K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架，支持将静态的条件图像（如网格、点云等）转化为动态视频，无需复杂的训练过程和大量数据。

7个月前

034.5K

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO（Semantic Relative Preference Optimization）是腾讯混元推出的文本到图像生成模型，通过文本条件信号优化奖励机制，实现在线调整奖励，减少离线微调依赖。

7个月前

047.9K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next是阿里通义开源的新一代混合架构大模型，结合了Gated DeltaNet和Gated Attention技术，擅长处理长文本，推理速度快且节省计算资源。

7个月前

033K

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

文心大模型X1.1是百度推出的深度思考模型，基于混合强化学习框架，专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色，能准确地提供知识性答案和高质量的文本内容。

7个月前

040.3K

混元图像2.1 - 腾讯推出的开源文生图模型

混元图像2.1 - 腾讯推出的开源文生图模型

混元图像2.1（HunyuanImage 2.1）是腾讯推出的开源文生图模型，专为高质量图像生成设计。模型支持原生2K分辨率，能精准呈现复杂场景和细节，使人物表情和动作能生动还原。

7个月前

036.5K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk 是免费的智能文档切片工具，专为 RAG（检索增强生成）应用设计。以语义为核心，将文档智能切分为语义完整、连贯的片段，支持多语言，可动态调整切片大小，确保上下文连贯性。

7个月前

040.6K

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS 是一站式文本转语音（TTS）服务的平台。支持多种语言，包括中文、英文、日文和韩文等，能满足全球业务的需求。通过统一的 API 接口，整合多种主流的 TTS 服务，包括 Micro...

7个月前

044.3K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构，每个词元仅需计算与少于 5% 词元的相关性，显著降低长文本处理开销。在 128K 长文本场景下...

7个月前

035.6K

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora 是腾讯微信团队开源的基于大语言模型（LLM）的文档理解与语义检索框架，专为结构复杂、内容异构的文档场景而设计，采用模块化架构，融合多模态预处理、语义向量索引、智能召回与大模型生成推理...

7个月前

077.3K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎，专为超大规模稀疏混合专家（MoE）模型训练设计。基于 PyTorch FSDP 开发，通过显存、通信和负载等多维度优化，实现了高性能...

7个月前

036.2K

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型，基于 Qwen3 基座模型，经海量多模态数据训练而成。支持 11 种语言和多种口音，包括普通话、四川话、闽南语、吴语、粤语等方言...

7个月前

049.2K

人工智能治理（AI Governance）是什么，一文看懂

人工智能治理（AI Governance）是什么，一文看懂

人工智能治理是涵盖技术、伦理、法律和社会的综合性框架，对人工智能系统的整个生命周期——从设计、开发、部署到最终使用——进行有效的引导、管理和监督。核心目标不是阻碍技术创新，是确保AI技术的发展与应用始...

7个月前

044.4K

吴恩达的LangChain for LLM应用开发免费课程

吴恩达的LangChain for LLM应用开发免费课程

LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程，由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。

最新AI资源课程资料

7个月前

058K

吴恩达的Transformer LLMs工作原理免费课程

吴恩达的Transformer LLMs工作原理免费课程

Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...

最新AI资源课程资料

7个月前

051.9K

半监督学习（Semi-Supervised Learning）是什么，一文看懂

半监督学习（Semi-Supervised Learning）是什么，一文看懂

半监督学习是机器学习领域中的重要分支，利用少量标注数据和大量未标注数据共同训练模型，提升学习效果和泛化能力。

7个月前

042.6K

无监督学习（Unsupervised Learning）是什么，一文看懂

无监督学习（Unsupervised Learning）是什么，一文看懂

无监督学习（Unsupervised Learning）是机器学习的重要分支，专注于处理没有预先标注标签的数据集。

7个月前

035.3K

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 是字节跳动推出的先进图像生成与编辑工具，以生成与编辑一体化为核心，具备精准指令编辑、高度特征保持、深度意图理解等强大功能。

7个月前

080.3K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent是微软开源的先进的人工智能数学推理模型，在AIME24测试中达到80.6%的准确率，展现出强大的数学问题解决能力。模型具备科学推理能力，在GPQA-Diamond基准测试中达到...

7个月前

037.5K

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型，参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...

7个月前

040.8K

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT是美团联合上海交大推出的新型统一多模态模型，采用纯解码器架构，能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计，通过特定模态的...

7个月前

039.2K

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable 是基于 Next.js 的开源 Web 应用构建器，结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力，以及 Lovable 简单直观的应用构建体验...

7个月前

043.2K

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision 是 Hugging Face 开源的视觉语言数据集，为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...

7个月前

041.2K

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动，能生成高分辨率、长时长且视觉一致的人物视频。

7个月前

037.3K

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型，在编程辅助方面表现出色，能高效生成代码，支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K，能处理复杂任务。

7个月前

074.7K

强化学习（Reinforcement Learning）是什么，一文看懂

强化学习（Reinforcement Learning）是什么，一文看懂

强化学习是机器学习的重要分支，核心在于让智能体通过与环境之间的持续交互，自主学习如何做出最优决策以获取最大的长期累积奖励。

7个月前

036K

监督学习（Supervised Learning）是什么，一文看懂

监督学习（Supervised Learning）是什么，一文看懂

监督学习是机器学习中一种最为常见和基础的方法，核心思想是通过已有的、带有“正确答案”的数据集，教会计算机模型如何做出预测或判断。

7个月前

038.2K

深度学习（Deep Learning）是什么，一文看懂

深度学习（Deep Learning）是什么，一文看懂

深度学习（Deep Learning）是机器学习的分支，核心在于使用多层人工神经网络来学习和表示数据中的复杂模式。

7个月前

039.3K

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager（简称混元Voyager）是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架，能从单张图片生成用户定义相机路径的3D点云序列，支持...

7个月前

040.3K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B 是腾讯混元团队推出的轻量级翻译模型，参数量为70亿，支持33个语种及5种民汉语言/方言的互译，包括粤语、维吾尔语、藏语等。在国际计算语言学协会（ACL）WMT2025比赛中...

7个月前

037.4K

Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini 是阶跃星辰开源的端到端语音大模型。突破传统语音模型结构，采用真端到端多模态架构，直接将原始音频输入转化为语音响应输出，时延更低，能理解副语言信息与非人声信号。

7个月前

046.3K

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2是苹果公司研究人员推出的高效端侧多模态模型，是MobileCLIP的升级版本。在多模态强化训练方面进行了优化，通过在DFN数据集上训练性能更优的CLIP教师模型集成和改进的图文生...

7个月前

050.1K

InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5（书生·万象3.5）是上海人工智能实验室开源的多模态大模型，模型在通用能力、推理能力和部署效率上全面升级，提供从10亿到2410亿参数的九种尺寸版本，覆盖不同资源需求场景，包含稠...

7个月前

048.7K

FastVLM - 苹果公司推出的视觉语言模型

FastVLM - 苹果公司推出的视觉语言模型

FastVLM（Fast Vision Language Model）是苹果公司推出的高效视觉语言模型。以FastViTHD混合视觉编码器为核心，融合了卷积和Transformer架构，可显著减少视觉...

7个月前

046.4K

Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks 是美团 M17 团队开源的大模型评测集，用在评估模型的指令遵循能力。Meeseeks 通过三级评测框架，从宏观到微观全面衡量模型是否能严格按照用户指令生成回答，不评估回答内容的知识正...

7个月前

041.1K

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime 是 OpenAI 推出的先进语音模型，支持直接处理音频，生成自然流畅的语音。模型支持多种语言和风格，能理解非语言线索，如笑声，能在不同语言间切换。

7个月前

042.7K

Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent 是腾讯优图实验室开源的智能体框架，用在构建和运行自主智能体。框架在 WebWalkerQA 和 GAIA 基准测试中表现出色，准确率分别达到 71.47% 和 72.8%。框架...

7个月前

052.6K

HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley 是腾讯混元团队开源的视频音效生成模型，支持为无声视频添加精准匹配的音效。模型基于大规模数据集训练，用多模态扩散变换器架构，结合表征对齐损失函数和音频VAE优化技术...

7个月前

052K

PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5是爱诗科技推出的AI视频生成大模型。模型能根据用户输入的文字描述或图片生成高质量的视频内容，且支持多种风格，如动漫、科幻、国风等。

7个月前

046.2K

问小白5 - 问小白推出的全能AI模型

问小白5 - 问小白推出的全能AI模型

问小白5是“All in One”旗舰大模型，智能水平极高。模型在多项评测中表现卓越，如AA - Index综合评估得分64.7分，STEM能力评测86分，接近全球领先的GPT - 5。

7个月前

042.1K

MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 是面壁智能开源的 8B 参数多模态模型，基于 Qwen3-8B 和 SigLIP2-400M 构建，具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色，处理 ...

7个月前

052.4K

Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image（代号nano banana）是谷歌推出的先进图像生成与编辑模型，能保持角色在不同场景中的一致性，支持通过自然语言进行精准图像编辑，如模糊背景、消除污渍等。

7个月前

043.8K

Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V 是阿里通义开源的多模态视频生成模型，只需一张静态图片和一段音频，能生成高质量的数字人视频，且支持多种图片类型和画幅。

7个月前

044.8K

吴恩达面向开发者的ChatGPT提示工程免费课程

吴恩达面向开发者的ChatGPT提示工程免费课程

面向开发者的ChatGPT提示工程是DeepLearning.AI与OpenAI联合推出的课程，专为开发者设计，由Isa Fulford, 吴恩达Andrew Ng主讲，教授如何用大型语言模型（LLM...

最新AI资源课程资料

7个月前

046.8K

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

问小白o4是创新的并行思考模型，能同时开启8条思考路径，从多角度分析问题并自动筛选出最优解。模型融合先进的Long-CoT强化学习和过程奖励学习技术，具备强大的深度推理能力，且在复杂任务中表现出色。

7个月前

037.5K

VibeVoice - 微软推出的文本到语音模型

VibeVoice - 微软推出的文本到语音模型

VibeVoice 是微软推出的新型文本到语音（TTS）模型。模型能生成多达 4 位不同说话者的对话式音频，支持长达 90 分钟的连续语音输出，突破传统 TTS 系统的长度限制。

7个月前

065K

SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen 是群核科技开源的 3D 场景生成模型，基于扩散模型架构，支持根据文字描述、参考图像和 3D 空间布局生成时空一致的多视角图像，并进一步生成 3D 高斯场景，渲染出漫游视频。

7个月前

043.2K

EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3是蚂蚁集团推出的多模态数字人视频生成模型，拥有13亿参数，能处理音频、文本、图像等多种输入，生成高质量的数字人动画。

7个月前

042.7K

人工智能伦理（AI Ethics）是什么，一文看懂

人工智能伦理（AI Ethics）是什么，一文看懂

人工智能伦理（AI Ethics）是研究人工智能系统在研发、部署与使用过程中所应遵循的道德原则、价值规范与社会责任的交叉学科领域。

7个月前

040.5K

AI论文写作工具有哪些？推荐15个免费AI学术论文助手

AI论文写作工具有哪些？推荐15个免费AI学术论文助手

在人工智能蓬勃发展的时代，AI 工具改变了我们的生活，极大地助力了学术研究与论文写作。为帮助用户更高效地开展工作和学习，本文合集精心挑选介绍 15 个前沿的免费AI学术论文助手。

7个月前

047.4K

Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR是钉钉与通义实验室联合推出的语音识别大模型。模型经过海量音频数据训练，能精准识别多行业专业术语，如互联网、科技、家装等，显著提升识别准确率。模型结合钉钉企业信息进行推理优化，减少幻觉问题...

7个月前

065.7K

Squibler - AI小说辅助写作平台，助力构思到创作全过程

Squibler - AI小说辅助写作平台，助力构思到创作全过程

Squibler 是强大的 AI 辅助写作平台，专为作家设计，能帮助用户从构思到创作再到出版的全过程。平台提供多种故事模板，涵盖小说、剧本、短篇故事等，用户只需输入初始概念，AI 能生成大纲、角色、场...

7个月前

045.9K

91写作 - 开源的AI智能小说创作平台

91写作 - 开源的AI智能小说创作平台

91写作是全开源的AI小说创作工具，基于Vue 3和Element Plus开发，集成多种先进AI模型，如GPT、Claude、Gemini等。工具为创作者提供从构思到成文的完整创作工具链，包括项目创...

7个月前

046.6K

Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization 是香港科技大学开发的全球首创人工智能多智能体社会模拟平台。构建了一个可视化的数字沙盒，用户可创建和引导成千上万个 AI 智能体，观察未来人类与 AI 共存的社会演变。平台支持...

7个月前

081.6K

弱人工智能（Narrow AI）是什么，一文看懂

弱人工智能（Narrow AI）是什么，一文看懂

弱人工智能（Narrow AI）是目前我们现实世界中人工智能技术发展的主流形态。弱人工智能被设计和训练用于执行一项特定的、明确定义的任务，其智能水平在该特定领域内可能超越人类。

7个月前

045.5K

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5是埃隆·马斯克旗下的xAI公司开源的人工智能模型。拥有2690亿参数，基于混合专家（MoE）架构，具有强大的性能和推理能力。模型在研究生级科学知识（GPQA）、通用知识（MMLU、MM...

7个月前

047.2K

Draw A Fish - 免费的在线AI画鱼网站，共享虚拟鱼缸

Draw A Fish - 免费的在线AI画鱼网站，共享虚拟鱼缸

Draw A Fish 是简单而有趣的在线AI画鱼网站，用户可以在上面绘制鱼的图案，将其放入一个全球共享的虚拟鱼缸中。Draw A Fish无需注册，操作简单，只需几秒钟就能完成创作并分享。

8个月前

066.7K

MIT最新报告《生成式AI鸿沟：2025年商业人工智能现状》

MIT最新报告《生成式AI鸿沟：2025年商业人工智能现状》

MIT最新推出的《生成式AI鸿沟：2025年商业人工智能现状》报告，通过深入调研300多个AI项目、与52个组织进行访谈及对153位高管开展调查，揭示企业在生成式AI（GenAI）应用过程中遭遇的核心...

最新AI资源课程资料

8个月前

080.1K

AutoClip - 开源的AI视频切片工具，一键生成专题视频合集

AutoClip - 开源的AI视频切片工具，一键生成专题视频合集

AutoClip是开源的AI视频剪辑工具，基于先进的AI技术实现全流程自动化视频处理。工具能自动识别视频中的高光片段，精准提取有价值内容，能根据主题相似度进行智能聚类，生成内容合集。AutoClip支...

8个月前

063.1K

《动手学AI：人工智能通识与实践》 - 阿里云推出的免费AI通识课程

《动手学AI：人工智能通识与实践》 - 阿里云推出的免费AI通识课程

《动手学AI：人工智能通识与实践》的阿里云联合超星尔雅为不同专业背景的学习者推出的系统学习AI的课程。课程由五所顶尖高校的名师讲授，内容全面，从AI的发展历程、核心技术到伦理安全等，构建起完整的知识体...

8个月前

043.9K

ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学共同推出的生成式 AI 动画制作工具。通过生成式后关键帧技术，将中间帧生成和上色环节整合为自动化流程，仅需一个草图和一个...

8个月前

053.3K

Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS是字节跳动Seed团队开源的大型语言模型系列，专注于长文本和推理任务。模型在复杂逻辑推理和多步推理中表现出色，准确率高，能高效解决难题。Seed-OSS支持长达512K的长文本上下文...

8个月前

050.2K

Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini 是上海人工智能实验室推出的轻量化科学多模态大模型，参数规模为 8B。继承了 Intern-S1 的强大能力，兼具通用与专业科学能力，适合快速部署和二次开发。在性能方面，I...

8个月前

043.9K

人工智能 AI（Artificial Intelligence）是什么，一文看懂

人工智能 AI（Artificial Intelligence）是什么，一文看懂

人工智能（Artificial Intelligence，简称AI）是计算机科学的核心分支，旨在构建能够模拟、延伸乃至超越人类智能的理论与技术系统，让机器具备学习、推理、感知和决策等通常需要人类智慧才...

7个月前

057.6K

Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号，能根据简单的文本提示生成细节丰富、光影真实的图像，对现有图像进行高质量的修改。

7个月前

069.7K

Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner 是快手推出的高性能推理模型，基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练，在数学和代码推理方面表现出色。Klear-Reasoner...

8个月前

040.2K

CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA是淘天集团未来生活实验室团队推出的创新3D动作角色扮演游戏（ARPG）专用模型。CombatVLA是视觉-语言-动作（VLA）模型，基于3B参数规模构建，通过动作追踪器收集人类玩家的...

8个月前

044.3K

DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1是DeepSeek推出的新一代AI模型，在前代V3模型的基础上进行重要升级。DeepSeek V3.1引入混合推理架构，让模型在思考模式和非思考模式之间灵活切换，显著提高思考...

8个月前

047.3K

Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit 是阿里通义推出的全能图像编辑模型，基于 200 亿参数的 Qwen-Image 架构构建。模型融合语义与外观的双重编辑能力，能对图像进行低层次的视觉外观编辑（如添加、删...

8个月前

044.6K

MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS 是昆仑万维推出的语音合成框架，基于混合专家（MoE）架构，将预训练的大型语言模型（LLM）与语音专家模块结合。MoE-TTS 通过冻结文本模块参数、仅更新语音模块参数，保留强大的文本理...

8个月前

043.8K

Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner（GE）是智元机器人团队联合新加坡国立大学、北京航空航天大学等机构开发的机器人操作统一平台。通过“先想象，后行动”的方式，让机器人更好地理解和执行任务。

8个月前

044.8K

DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 是 Meta AI 推出的新一代自监督视觉基础模型，采用自监督学习范式，无需标注数据即可学习图像特征。通过改进数据准备和引入 Gram anchoring 解决了特征退化问题，提升了泛化...

8个月前

054.9K

Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 是昆仑万维推出的先进 AI 音乐生成模型，专注于中文歌曲创作。模型能精准还原音色与演奏技法，生成自然流畅且富有情感的歌声。基于优化的自动语音识别（ASR）技术，Mureka V...

8个月前

044.2K

Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版

Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版

Skywork Deep Research Agent v2 是昆仑万维推出的深度研究智能体，专注于多模态信息的整合与分析。Skywork Deep Research Agent v2 能处理文本、图...

8个月前

043.6K

Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft 是腾讯 Hunyuan 团队开源的交互式游戏视频生成框架。框架能从单张图片和提示生成高动态的游戏视频，支持用户通过键盘和鼠标实时控制视频内容。

8个月前

047.6K

Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型，专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构，通过预训练、渐进式双任务强化策略和联合训练，实...

8个月前

044.8K

RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP 是阿里达摩院开源的机器人上下文协议，能降低具身智能开发门槛并打通开发全流程。RynnRCP 包含 RCP 框架和 RobotMotion 模块。RCP 框架通过能力抽象和多协议支持，将...

8个月前

049.7K

RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - 阿里达摩院开源的世界理解模型

RynnEC是阿里巴巴达摩院推出的世界理解模型，专注于具身智能任务。模型基于多模态融合技术，结合视频数据和自然语言，能从多个维度解析场景中的物体，支持物体理解、空间感知和视频目标分割等功能。

8个月前

050.2K

Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D 是昆仑万维 Skywork AI 团队推出的开源框架，专注于生成可探索的全景 3D 世界。框架结合全景视频生成与 3D 重建技术，能从单张图像或文本提示出发，生成高质量、全向可探索...

8个月前

051.3K

GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V是智谱推出的全球领先的开源视觉推理模型，总参数达1060亿，激活参数120亿。模型基于新一代文本基座模型GLM-4.5-Air训练而成，具备强大的视觉理解与推理能力，能处理图像、视频...

8个月前

050.3K

Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研交互式世界模型。是业内首个开源的通用场景实时长序列交互式生成模型，模型通过视觉驱动的交互方案，能以 25 FPS 的速度在多...

8个月前

050.2K

Baichuan-M2 - 百川智能推出开源的医疗增强大模型

Baichuan-M2 - 百川智能推出开源的医疗增强大模型

Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现出色，特别是在HealthBench评测中以60.1分的成绩超越了OpenAI的gpt-oss120b等众多开源模型，成为全球...

8个月前

050.5K

Qwen-Flash - 通义千问推出的高性能、低成本语言模型

Qwen-Flash - 通义千问推出的高性能、低成本语言模型

Qwen-Flash 是阿里巴巴通义千问系列推出的高性能、低成本的语言模型，专为快速响应和高效处理简单任务设计。基于先进的 Mixture-of-Experts (MoE) 架构，通过稀疏专家网络实现...

8个月前

046.4K

SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 是昆仑万维集团推出的音频驱动数字人创作工具。能通过简单的输入（如人像图片和语音）生成高质量的动态视频内容，让静态照片“活”起来，可以为现有视频更换台词，人物会自动对上新的口型...

8个月前

041.9K

通用人工智能 AGI（Artificial General Intelligence）是什么，一文看懂

通用人工智能 AGI（Artificial General Intelligence）是什么，一文看懂

通用人工智能（AGI）是能在任何认知任务上像人类一样甚至超越人类地理解、学习、推理、适应和创造的智能系统。

7个月前

043.4K

MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得了显著进步，尤其在多语种表现力、音色复刻精度和语种覆盖范围上实现了飞跃。模型支持 40 种语言...

8个月前

049.1K

GPT-5 - OpenAI推出的最强语言模型，统一智能系统

GPT-5 - OpenAI推出的最强语言模型，统一智能系统

GPT-5是OpenAI最新发布的语言模型，具有多项升级。是一个统一智能系统，内置实时路由器，能根据问题复杂度自动切换高效模式与深度思考模式，实现快速响应与精准解答。GPT-5拥有多个版本，包括面向普...

8个月前

046.8K

dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1 - 小红书hi lab开源的多模态大模型

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型（LLM），具备强大的视觉感知和文本推理能...

8个月前

045.8K

Genie 3 - 谷歌推出的通用世界模型

Genie 3 - 谷歌推出的通用世界模型

Genie 3 是谷歌 DeepMind 推出的新一代通用世界模型，支持实时生成高度动态且连贯的虚拟世界。Genie 3 能模拟物理现象、自然生态系统，还支持创建奇幻场景和历史场景。用文本提示，用户能...

8个月前

044.9K

Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 是 Anthropic 公司推出的先进大型语言模型，专为高效处理复杂任务而设计。模型在编程领域表现出色，能生成高质量代码，支持长达 32k 的单次输出，适应多种编程风格...

8个月前

044.6K

gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss是 OpenAI 推出的开源推理模型系列，支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本，gpt-oss-120B 拥有 1170 亿参数，支持在 8...

8个月前

042.6K

MiDashengLM - 小米开源的声音理解模型

MiDashengLM - 小米开源的声音理解模型

MiDashengLM 是小米开源的高效声音理解大模型，具体参数版本为MiDashengLM-7B ，专注于音频处理与理解。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omn...

8个月前

044.6K

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD 是清华大学语音与语言实验室开发的开源口语对话语音生成模型。模型能将文本对话脚本转化为自然流畅且富有表现力的对话语音，支持中英文双语生成。

8个月前

047.7K

可解释性人工智能（Explainable AI）是什么，一文看懂

可解释性人工智能（Explainable AI）是什么，一文看懂

可解释性人工智能（Explainable AI，简称XAI）是一套涵盖理念方法技术与治理框架的总体方案。

7个月前

037.5K

AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni 是快手推出的多模态音频生成模型，能基于视频、文本等输入生成高质量的音频、语音和歌曲。AudioGen-Omni 基于先进的技术，如多模态扩散Transformer和相位对齐...

8个月前

047.1K

LangExtract - 谷歌开源的Python库，提取结构化信息

LangExtract - 谷歌开源的Python库，提取结构化信息

LangExtract 是 Google 开源的 Python 库，利用大型语言模型（LLMs）从非结构化文本中提取结构化信息。通过用户定义的指令和少量示例，能高效地识别并组织关键细节，例如从临床笔记...

8个月前

052.3K

Qwen-Image - 通义千问推出开源的文生图基础模型

Qwen-Image - 通义千问推出开源的文生图基础模型

Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数，采用多模态扩散变换器架构（MMDiT），融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的...

8个月前

046.8K