超人工智能 ASI(Artificial Super Intelligence)是什么,一文看懂超人工智能(Artificial Super Intelligence, ASI)是超越人类智能的智能系统,能力在所有领域均超越人类,包括认知、创造力、问题解决和决策能力。AI答疑7个月前050.3K
迁移学习(Transfer Learning)是什么,一文看懂迁移学习(Transfer Learning)是机器学习领域中的重要分支,核心思想在于将从一个任务或领域中学到的知识应用到另一个相关但不同的任务或领域中。AI答疑7个月前036.7K
HuMo - 清华大学联合字节开源的多模态视频生成框架HuMo是清华大学和字节跳动智能创作实验室联合开源的多模态视频生成框架,专注于人类中心的视频生成。能从文本、图像和音频等多种模态输入中生成高质量、精细且可控的人类视频。HuMo支持强大的文本提示跟随能...最新AI资源7个月前0119.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架,支持将静态的条件图像(如网格、点云等)转化为动态视频,无需复杂的训练过程和大量数据。最新AI资源7个月前034.5K
SRPO - 腾讯混元推出的文本到图像生成模型SRPO(Semantic Relative Preference Optimization)是腾讯混元推出的文本到图像生成模型,通过文本条件信号优化奖励机制,实现在线调整奖励,减少离线微调依赖。最新AI资源7个月前047.9K
Qwen3-Next - 阿里通义推出的最新基础模型Qwen3-Next是阿里通义开源的新一代混合架构大模型,结合了Gated DeltaNet和Gated Attention技术,擅长处理长文本,推理速度快且节省计算资源。最新AI资源7个月前033K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强文心大模型X1.1是百度推出的深度思考模型,基于混合强化学习框架,专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色,能准确地提供知识性答案和高质量的文本内容。最新AI资源7个月前040.3K
混元图像2.1 - 腾讯推出的开源文生图模型混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,专为高质量图像生成设计。模型支持原生2K分辨率,能精准呈现复杂场景和细节,使人物表情和动作能生动还原。最新AI资源7个月前036.5K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整AntSK FileChunk 是免费的智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切片大小,确保上下文连贯性。最新AI资源7个月前040.6K
UnifiedTTS - 一站式TTS API服务平台,实时性能监控UnifiedTTS 是一站式文本转语音(TTS)服务的平台。支持多种语言,包括中文、英文、日文和韩文等,能满足全球业务的需求。通过统一的 API 接口,整合多种主流的 TTS 服务,包括 Micro...最新AI资源7个月前044.3K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长文本场景下...最新AI资源7个月前035.6K
WeKnora - 腾讯微信开源的文档理解与语义检索框架WeKnora 是腾讯微信团队开源的基于大语言模型(LLM)的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而设计,采用模块化架构,融合多模态预处理、语义向量索引、智能召回与大模型生成推理...最新AI资源7个月前077.3K
XTuner V1 - 上海AI Lab开源的大模型训练引擎XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、通信和负载等多维度优化,实现了高性能...最新AI资源7个月前036.2K
Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型Qwen3-ASR-Flash 是阿里巴巴最新推出的高精度语音识别模型,基于 Qwen3 基座模型,经海量多模态数据训练而成。支持 11 种语言和多种口音,包括普通话、四川话、闽南语、吴语、粤语等方言...最新AI资源7个月前049.2K
人工智能治理(AI Governance)是什么,一文看懂人工智能治理是涵盖技术、伦理、法律和社会的综合性框架,对人工智能系统的整个生命周期——从设计、开发、部署到最终使用——进行有效的引导、管理和监督。核心目标不是阻碍技术创新,是确保AI技术的发展与应用始...AI答疑7个月前044.4K
吴恩达的LangChain for LLM应用开发免费课程LangChain for LLM 应用开发是DeepLearning.AI推出的在线课程,由LangChain创始人Harrison Chase和吴恩达Andrew Ng主讲。最新AI资源课程资料7个月前058K
吴恩达的Transformer LLMs工作原理免费课程Transformer LLMs工作原理是DeepLearning.AI与《Hands-On Large Language Models》的作者Jay Alammar和Maarten Grootend...最新AI资源课程资料7个月前051.9K
半监督学习(Semi-Supervised Learning)是什么,一文看懂半监督学习是机器学习领域中的重要分支,利用少量标注数据和大量未标注数据共同训练模型,提升学习效果和泛化能力。AI答疑7个月前042.6K
无监督学习(Unsupervised Learning)是什么,一文看懂无监督学习(Unsupervised Learning)是机器学习的重要分支,专注于处理没有预先标注标签的数据集。AI答疑7个月前035.3K
Seedream 4.0 - 字节推出的最新一代图像创作模型Seedream 4.0 是字节跳动推出的先进图像生成与编辑工具,以生成与编辑一体化为核心,具备精准指令编辑、高度特征保持、深度意图理解等强大功能。最新AI资源7个月前080.3K
rStar2-Agent - 微软开源的高效AI推理模型rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到...最新AI资源7个月前037.5K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...最新AI资源7个月前040.8K
OneCAT - 美团联合上海交大开源的多模态模型OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...最新AI资源7个月前039.2K
Claudable - 开源AI Web应用构建器,自然语言生成代码Claudable 是基于 Next.js 的开源 Web 应用构建器,结合了 Claude Code 和 Cursor CLI 的先进 AI 代理能力,以及 Lovable 简单直观的应用构建体验...最新AI资源7个月前043.2K
FineVision - Hugging Face推出的开源视觉语言数据集FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...最新AI资源7个月前041.2K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动,能生成高分辨率、长时长且视觉一致的人物视频。最新AI资源7个月前037.3K
Kimi K2-0905 - 月之暗面推出的最新模型版本Kimi K2-0905 是月之暗面科技有限公司推出的先进 AI 模型,在编程辅助方面表现出色,能高效生成代码,支持在前端开发中生成整洁规范的代码。模型上下文长度扩展至 256K,能处理复杂任务。最新AI资源7个月前074.7K
强化学习 (Reinforcement Learning)是什么,一文看懂强化学习是机器学习的重要分支,核心在于让智能体通过与环境之间的持续交互,自主学习如何做出最优决策以获取最大的长期累积奖励。AI答疑7个月前036K
监督学习(Supervised Learning)是什么,一文看懂监督学习是机器学习中一种最为常见和基础的方法,核心思想是通过已有的、带有“正确答案”的数据集,教会计算机模型如何做出预测或判断。AI答疑7个月前038.2K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持...最新AI资源7个月前040.3K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型Hunyuan-MT-7B 是腾讯混元团队推出的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。在国际计算语言学协会(ACL)WMT2025比赛中...最新AI资源7个月前037.4K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型Step-Audio 2 mini 是阶跃星辰开源的端到端语音大模型。突破传统语音模型结构,采用真端到端多模态架构,直接将原始音频输入转化为语音响应输出,时延更低,能理解副语言信息与非人声信号。最新AI资源7个月前046.3K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型MobileCLIP2是苹果公司研究人员推出的高效端侧多模态模型,是MobileCLIP的升级版本。在多模态强化训练方面进行了优化,通过在DFN数据集上训练性能更优的CLIP教师模型集成和改进的图文生...最新AI资源7个月前050.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版本,覆盖不同资源需求场景,包含稠...最新AI资源7个月前048.7K
FastVLM - 苹果公司推出的视觉语言模型FastVLM(Fast Vision Language Model)是苹果公司推出的高效视觉语言模型。以FastViTHD混合视觉编码器为核心,融合了卷积和Transformer架构,可显著减少视觉...最新AI资源7个月前046.4K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集Meeseeks 是美团 M17 团队开源的大模型评测集,用在评估模型的指令遵循能力。Meeseeks 通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生成回答,不评估回答内容的知识正...最新AI资源7个月前041.1K
gpt-realtime - OpenAI最新推出的AI语音模型gpt-realtime 是 OpenAI 推出的先进语音模型,支持直接处理音频,生成自然流畅的语音。模型支持多种语言和风格,能理解非语言线索,如笑声,能在不同语言间切换。最新AI资源7个月前042.7K
Youtu-agent - 腾讯开源的高效智能体框架Youtu-agent 是腾讯优图实验室开源的智能体框架,用在构建和运行自主智能体。框架在 WebWalkerQA 和 GAIA 基准测试中表现出色,准确率分别达到 71.47% 和 72.8%。框架...最新AI资源7个月前052.6K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型HunyuanVideo-Foley 是腾讯混元团队开源的视频音效生成模型,支持为无声视频添加精准匹配的音效。模型基于大规模数据集训练,用多模态扩散变换器架构,结合表征对齐损失函数和音频VAE优化技术...最新AI资源7个月前052K
PixVerse V5 - 爱诗科技推出的自研AI视频模型PixVerse V5是爱诗科技推出的AI视频生成大模型。模型能根据用户输入的文字描述或图片生成高质量的视频内容,且支持多种风格,如动漫、科幻、国风等。最新AI资源7个月前046.2K
问小白5 - 问小白推出的全能AI模型问小白5是“All in One”旗舰大模型,智能水平极高。模型在多项评测中表现卓越,如AA - Index综合评估得分64.7分,STEM能力评测86分,接近全球领先的GPT - 5。最新AI资源7个月前042.1K
MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型MiniCPM-V 4.5 是面壁智能开源的 8B 参数多模态模型,基于 Qwen3-8B 和 SigLIP2-400M 构建,具备高效处理图像和视频的能力。在视觉 Token 消耗上表现出色,处理 ...最新AI资源7个月前052.4K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)是谷歌推出的先进图像生成与编辑模型,能保持角色在不同场景中的一致性,支持通过自然语言进行精准图像编辑,如模糊背景、消除污渍等。最新AI资源7个月前043.8K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型Wan2.2-S2V 是阿里通义开源的多模态视频生成模型,只需一张静态图片和一段音频,能生成高质量的数字人视频,且支持多种图片类型和画幅。最新AI资源7个月前044.8K
吴恩达面向开发者的ChatGPT提示工程免费课程面向开发者的ChatGPT提示工程是DeepLearning.AI与OpenAI联合推出的课程,专为开发者设计,由Isa Fulford, 吴恩达Andrew Ng主讲,教授如何用大型语言模型(LLM...最新AI资源课程资料7个月前046.8K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径问小白o4是创新的并行思考模型,能同时开启8条思考路径,从多角度分析问题并自动筛选出最优解。模型融合先进的Long-CoT强化学习和过程奖励学习技术,具备强大的深度推理能力,且在复杂任务中表现出色。最新AI资源7个月前037.5K
VibeVoice - 微软推出的文本到语音模型VibeVoice 是微软推出的新型文本到语音(TTS)模型。模型能生成多达 4 位不同说话者的对话式音频,支持长达 90 分钟的连续语音输出,突破传统 TTS 系统的长度限制。最新AI资源7个月前065K
SpatialGen - 群核科技推出的开源3D场景生成模型SpatialGen 是群核科技开源的 3D 场景生成模型,基于扩散模型架构,支持根据文字描述、参考图像和 3D 空间布局生成时空一致的多视角图像,并进一步生成 3D 高斯场景,渲染出漫游视频。最新AI资源7个月前043.2K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型EchoMimicV3是蚂蚁集团推出的多模态数字人视频生成模型,拥有13亿参数,能处理音频、文本、图像等多种输入,生成高质量的数字人动画。最新AI资源7个月前042.7K
人工智能伦理 (AI Ethics)是什么,一文看懂人工智能伦理(AI Ethics)是研究人工智能系统在研发、部署与使用过程中所应遵循的道德原则、价值规范与社会责任的交叉学科领域。AI答疑7个月前040.5K
AI论文写作工具有哪些?推荐15个免费AI学术论文助手在人工智能蓬勃发展的时代,AI 工具改变了我们的生活,极大地助力了学术研究与论文写作。为帮助用户更高效地开展工作和学习,本文合集精心挑选介绍 15 个前沿的免费AI学术论文助手。AI答疑7个月前047.4K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型Fun-ASR是钉钉与通义实验室联合推出的语音识别大模型。模型经过海量音频数据训练,能精准识别多行业专业术语,如互联网、科技、家装等,显著提升识别准确率。模型结合钉钉企业信息进行推理优化,减少幻觉问题...最新AI资源7个月前065.7K
Squibler - AI小说辅助写作平台,助力构思到创作全过程Squibler 是强大的 AI 辅助写作平台,专为作家设计,能帮助用户从构思到创作再到出版的全过程。平台提供多种故事模板,涵盖小说、剧本、短篇故事等,用户只需输入初始概念,AI 能生成大纲、角色、场...最新AI资源7个月前045.9K
91写作 - 开源的AI智能小说创作平台91写作是全开源的AI小说创作工具,基于Vue 3和Element Plus开发,集成多种先进AI模型,如GPT、Claude、Gemini等。工具为创作者提供从构思到成文的完整创作工具链,包括项目创...最新AI资源7个月前046.6K
Aivilization - 港科大推出的多Agent社会模拟平台Aivilization 是香港科技大学开发的全球首创人工智能多智能体社会模拟平台。构建了一个可视化的数字沙盒,用户可创建和引导成千上万个 AI 智能体,观察未来人类与 AI 共存的社会演变。平台支持...最新AI资源7个月前081.6K
弱人工智能(Narrow AI)是什么,一文看懂弱人工智能(Narrow AI)是目前我们现实世界中人工智能技术发展的主流形态。弱人工智能被设计和训练用于执行一项特定的、明确定义的任务,其智能水平在该特定领域内可能超越人类。AI答疑7个月前045.5K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型Grok 2.5是埃隆·马斯克旗下的xAI公司开源的人工智能模型。拥有2690亿参数,基于混合专家(MoE)架构,具有强大的性能和推理能力。模型在研究生级科学知识(GPQA)、通用知识(MMLU、MM...最新AI资源7个月前047.2K
Draw A Fish - 免费的在线AI画鱼网站,共享虚拟鱼缸Draw A Fish 是简单而有趣的在线AI画鱼网站,用户可以在上面绘制鱼的图案,将其放入一个全球共享的虚拟鱼缸中。Draw A Fish无需注册,操作简单,只需几秒钟就能完成创作并分享。最新AI资源8个月前066.7K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》MIT最新推出的《生成式AI鸿沟:2025年商业人工智能现状》报告,通过深入调研300多个AI项目、与52个组织进行访谈及对153位高管开展调查,揭示企业在生成式AI(GenAI)应用过程中遭遇的核心...最新AI资源课程资料8个月前080.1K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集AutoClip是开源的AI视频剪辑工具,基于先进的AI技术实现全流程自动化视频处理。工具能自动识别视频中的高光片段,精准提取有价值内容,能根据主题相似度进行智能聚类,生成内容合集。AutoClip支...最新AI资源8个月前063.1K
《动手学AI:人工智能通识与实践》 - 阿里云推出的免费AI通识课程《动手学AI:人工智能通识与实践》的阿里云联合超星尔雅为不同专业背景的学习者推出的系统学习AI的课程。课程由五所顶尖高校的名师讲授,内容全面,从AI的发展历程、核心技术到伦理安全等,构建起完整的知识体...课程资料8个月前043.9K
ToonComposer - 腾讯开源的生成式AI动画制作工具ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学共同推出的生成式 AI 动画制作工具。通过生成式后关键帧技术,将中间帧生成和上色环节整合为自动化流程,仅需一个草图和一个...最新AI资源8个月前053.3K
Seed-OSS - 字节跳动团队开源的全新AI模型Seed-OSS是字节跳动Seed团队开源的大型语言模型系列,专注于长文本和推理任务。模型在复杂逻辑推理和多步推理中表现出色,准确率高,能高效解决难题。Seed-OSS支持长达512K的长文本上下文...最新AI资源8个月前050.2K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型Intern-S1-mini 是上海人工智能实验室推出的轻量化科学多模态大模型,参数规模为 8B。继承了 Intern-S1 的强大能力,兼具通用与专业科学能力,适合快速部署和二次开发。在性能方面,I...最新AI资源8个月前043.9K
人工智能 AI(Artificial Intelligence)是什么,一文看懂人工智能(Artificial Intelligence,简称AI)是计算机科学的核心分支,旨在构建能够模拟、延伸乃至超越人类智能的理论与技术系统,让机器具备学习、推理、感知和决策等通常需要人类智慧才...AI答疑7个月前057.6K
Nano Banana - 谷歌推出的AI图像编辑模型Nano Banana 是谷歌推出的 AI 图像生成与编辑模型Gemini 2.5 Flash Image代号,能根据简单的文本提示生成细节丰富、光影真实的图像,对现有图像进行高质量的修改。最新AI资源7个月前069.7K
Klear-Reasoner - 快手推出的全新推理模型Klear-Reasoner 是快手推出的高性能推理模型,基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练,在数学和代码推理方面表现出色。Klear-Reasoner...最新AI资源8个月前040.2K
CombatVLA - 淘天集团推出的高效VLA模型CombatVLA是淘天集团未来生活实验室团队推出的创新3D动作角色扮演游戏(ARPG)专用模型。CombatVLA是视觉-语言-动作(VLA)模型,基于3B参数规模构建,通过动作追踪器收集人类玩家的...最新AI资源8个月前044.3K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型DeepSeek V3.1是DeepSeek推出的新一代AI模型,在前代V3模型的基础上进行重要升级。DeepSeek V3.1引入混合推理架构,让模型在思考模式和非思考模式之间灵活切换,显著提高思考...最新AI资源8个月前047.3K
Qwen-Image-Edit - 阿里通义开源的图像编辑模型Qwen-Image-Edit 是阿里通义推出的全能图像编辑模型,基于 200 亿参数的 Qwen-Image 架构构建。模型融合语义与外观的双重编辑能力,能对图像进行低层次的视觉外观编辑(如添加、删...最新AI资源8个月前044.6K
MoE-TTS - 昆仑万维推出的最新语音生成框架MoE-TTS 是昆仑万维推出的语音合成框架,基于混合专家(MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块结合。MoE-TTS 通过冻结文本模块参数、仅更新语音模块参数,保留强大的文本理...最新AI资源8个月前043.8K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台Genie Envisioner(GE)是智元机器人团队联合新加坡国立大学、北京航空航天大学等机构开发的机器人操作统一平台。通过“先想象,后行动”的方式,让机器人更好地理解和执行任务。最新AI资源8个月前044.8K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型DINOv3 是 Meta AI 推出的新一代自监督视觉基础模型,采用自监督学习范式,无需标注数据即可学习图像特征。通过改进数据准备和引入 Gram anchoring 解决了特征退化问题,提升了泛化...最新AI资源8个月前054.9K
Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型Mureka V7.5 是昆仑万维推出的先进 AI 音乐生成模型,专注于中文歌曲创作。模型能精准还原音色与演奏技法,生成自然流畅且富有情感的歌声。基于优化的自动语音识别(ASR)技术,Mureka V...最新AI资源8个月前044.2K
Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版Skywork Deep Research Agent v2 是昆仑万维推出的深度研究智能体,专注于多模态信息的整合与分析。Skywork Deep Research Agent v2 能处理文本、图...最新AI资源8个月前043.6K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架Hunyuan-GameCraft 是腾讯 Hunyuan 团队开源的交互式游戏视频生成框架。框架能从单张图片和提示生成高动态的游戏视频,支持用户通过键盘和鼠标实时控制视频内容。最新AI资源8个月前047.6K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型,专注于图像生成、编辑与理解。模型基于 2B 参数的 SD3.5-Medium 架构,通过预训练、渐进式双任务强化策略和联合训练,实...最新AI资源8个月前044.8K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议RynnRCP 是阿里达摩院开源的机器人上下文协议,能降低具身智能开发门槛并打通开发全流程。RynnRCP 包含 RCP 框架和 RobotMotion 模块。RCP 框架通过能力抽象和多协议支持,将...最新AI资源8个月前049.7K
RynnEC - 阿里达摩院开源的世界理解模型RynnEC是阿里巴巴达摩院推出的世界理解模型,专注于具身智能任务。模型基于多模态融合技术,结合视频数据和自然语言,能从多个维度解析场景中的物体,支持物体理解、空间感知和视频目标分割等功能。最新AI资源8个月前050.2K
Matrix-3D - 昆仑万维开源的3D世界生成框架Matrix-3D 是昆仑万维 Skywork AI 团队推出的开源框架,专注于生成可探索的全景 3D 世界。框架结合全景视频生成与 3D 重建技术,能从单张图像或文本提示出发,生成高质量、全向可探索...最新AI资源8个月前051.3K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型GLM-4.5V是智谱推出的全球领先的开源视觉推理模型,总参数达1060亿,激活参数120亿。模型基于新一代文本基座模型GLM-4.5-Air训练而成,具备强大的视觉理解与推理能力,能处理图像、视频...最新AI资源8个月前050.3K
Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研交互式世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,模型通过视觉驱动的交互方案,能以 25 FPS 的速度在多...最新AI资源8个月前050.2K
Baichuan-M2 - 百川智能推出开源的医疗增强大模型Baichuan-M2 是百川智能推出的开源医疗增强大模型。在医疗领域表现出色,特别是在HealthBench评测中以60.1分的成绩超越了OpenAI的gpt-oss120b等众多开源模型,成为全球...最新AI资源8个月前050.5K
Qwen-Flash - 通义千问推出的高性能、低成本语言模型Qwen-Flash 是阿里巴巴通义千问系列推出的高性能、低成本的语言模型,专为快速响应和高效处理简单任务设计。基于先进的 Mixture-of-Experts (MoE) 架构,通过稀疏专家网络实现...最新AI资源8个月前046.4K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具SkyReels-A3 是昆仑万维集团推出的音频驱动数字人创作工具。能通过简单的输入(如人像图片和语音)生成高质量的动态视频内容,让静态照片“活”起来,可以为现有视频更换台词,人物会自动对上新的口型...最新AI资源8个月前041.9K
通用人工智能 AGI(Artificial General Intelligence)是什么,一文看懂通用人工智能(AGI)是能在任何认知任务上像人类一样甚至超越人类地理解、学习、推理、适应和创造的智能系统。AI答疑7个月前043.4K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型MiniMax Speech 2.5 是 MiniMax 团队开发的先进语音生成模型。在语音合成领域取得了显著进步,尤其在多语种表现力、音色复刻精度和语种覆盖范围上实现了飞跃。模型支持 40 种语言...最新AI资源8个月前049.1K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统GPT-5是OpenAI最新发布的语言模型,具有多项升级。是一个统一智能系统,内置实时路由器,能根据问题复杂度自动切换高效模式与深度思考模式,实现快速响应与精准解答。GPT-5拥有多个版本,包括面向普...最新AI资源8个月前046.8K
dots.vlm1 - 小红书hi lab开源的多模态大模型dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知和文本推理能...最新AI资源8个月前045.8K
Genie 3 - 谷歌推出的通用世界模型Genie 3 是谷歌 DeepMind 推出的新一代通用世界模型,支持实时生成高度动态且连贯的虚拟世界。Genie 3 能模拟物理现象、自然生态系统,还支持创建奇幻场景和历史场景。用文本提示,用户能...最新AI资源8个月前044.9K
Claude Opus 4.1 - Anthropic推出的最强编程模型Claude Opus 4.1 是 Anthropic 公司推出的先进大型语言模型,专为高效处理复杂任务而设计。模型在编程领域表现出色,能生成高质量代码,支持长达 32k 的单次输出,适应多种编程风格...最新AI资源8个月前044.6K
gpt-oss - OpenAI推出的开源推理模型系列gpt-oss是 OpenAI 推出的开源推理模型系列,支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本,gpt-oss-120B 拥有 1170 亿参数,支持在 8...最新AI资源8个月前042.6K
MiDashengLM - 小米开源的声音理解模型MiDashengLM 是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B ,专注于音频处理与理解。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omn...最新AI资源8个月前044.6K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型MOSS-TTSD 是清华大学语音与语言实验室开发的开源口语对话语音生成模型。模型能将文本对话脚本转化为自然流畅且富有表现力的对话语音,支持中英文双语生成。最新AI资源8个月前047.7K
AudioGen-Omni - 快手推出的多模态音频生成模型AudioGen-Omni 是快手推出的多模态音频生成模型,能基于视频、文本等输入生成高质量的音频、语音和歌曲。AudioGen-Omni 基于先进的技术,如多模态扩散Transformer和相位对齐...最新AI资源8个月前047.1K
LangExtract - 谷歌开源的Python库,提取结构化信息LangExtract 是 Google 开源的 Python 库,利用大型语言模型(LLMs)从非结构化文本中提取结构化信息。通过用户定义的指令和少量示例,能高效地识别并组织关键细节,例如从临床笔记...最新AI资源8个月前052.3K
Qwen-Image - 通义千问推出开源的文生图基础模型Qwen-Image是阿里巴巴通义千问团队发布的开源图像生成基础模型。拥有200亿参数,采用多模态扩散变换器架构(MMDiT),融合了多模态理解、高分辨率编码和扩散模型三大模块。Qwen-Image的...最新AI资源8个月前046.8K