Open-o3 Video - 北大联合字节开源的视频推理模型Open-o3 Video 是北京大学和字节跳动联合开发的开源视频推理模型,专注于通过时间和空间证据增强视频推理能力。通过明确标注关键证据的时间戳和边界框,帮助模型更好地理解和解释视频内容。最新AI资源4个月前024.5K
Handy - 开源免费的本地AI语音转文字工具Handy是开源免费的本地语音转文字工具,支持Windows、MacOS和Linux系统,由Rust和React开发。通过本地处理语音数据,无需上传云端,保障隐私安全,适合快速转录和文字输入。最新AI资源4个月前050.5K
FG-CLIP 2 - 360开源的图文跨模态视觉语言模型FG-CLIP 2是360人工智能研究院推出的全球领先的图文跨模态视觉语言模型(VL-M),在29项权威基准测试中超越Google和Meta的同类模型,成为目前性能最强的VL-M。能精准识别图像中的毛...最新AI资源4个月前025.1K
朴素贝叶斯(Naive Bayes)是什么,一文看懂朴素贝叶斯(Naive Bayes)算法是基于贝叶斯定理的监督学习算法。“朴素”之处在于假设特征之间相互条件独立。简化假设大大降低计算复杂度,使算法在实际应用中表现出高效性。AI答疑4个月前030K
K均值聚类(K-Means Clustering)是什么,一文看懂K均值聚类(K-Means Clustering)是经典的无监督机器学习算法。主要用于将数据集划分为K个互不相交的簇。算法目标是将n个数据点分配到K个簇中,使每个数据点都属于离其最近的簇中心对应的簇。AI答疑4个月前024.1K
微舆BettaFish - 开源的多智能体舆情分析系统微舆(BettaFish)是开源的多智能体舆情分析系统。采用多智能体架构,通过Query、Media、Insight、Report等Agent协同工作,实现检索、抽取与报告闭环。系统支持AI驱动的全域...最新AI资源4个月前055.1K
Ouro - 字节跳动Seed团队开源的新型循环语言模型Ouro是字节跳动Seed团队开发的新型循环语言模型(Looped Language Models),核心创新在于通过参数共享的循环计算结构,在预训练阶段直接构建推理能力。模型采用24层作为基础块,通...最新AI资源4个月前033.5K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架,将图像编辑任务重新定义为视频生成任务,以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的预训练视频生成模型中蒸馏出...最新AI资源4个月前029.9K
LongCat-Flash-Omni - 美团开源的全模态大语言模型LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同时,实现了毫秒级的实时音视频交互能力。最新AI资源4个月前027.9K
Petri - Anthropic开源的 AI 安全审计框架Petri 是 Anthropic 开发的开源 AI 安全审计框架,系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景,让自动化审计员与目标模型进行多轮对话,然后由法官代理对模型的行为进...最新AI资源4个月前024.5K
前馈神经网络(Feedforward Neural Network)是什么,一文看懂前馈神经网络(Feedforward Neural Network,FNN)是基础且广泛使用的人工神经网络模型。核心特征在于网络中的连接不形成任何循环或反馈路径,信息严格从输入层单向流动到输出层,经一...AI答疑4个月前026.9K
卷积神经网络(Convolutional Neural Network)是什么,一文看懂卷积神经网络(Convolutional Neural Network,简称CNN),是专门设计用于处理具有网格结构数据的人工神经网络,在图像和视频分析领域表现卓越。AI答疑4个月前024.8K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显著提升了硬件效率和内存控制能...最新AI资源4个月前036.4K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型FIBO 是 Bria AI 开发的全球首个开源的原生支持 JSON 的文本生成图像模型。基于 8B 参数的 DiT(扩散 Transformer)架构,采用流匹配(Flow Matching)训练方...最新AI资源4个月前028.6K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型SoulX-Podcast 是 Soul AI Lab 开源的先进多说话者对话式语音合成模型,专为生成高质量播客内容设计。具备多轮对话生成能力,能模拟真实播客场景中的流畅对话,支持普通话、英语及多种中...最新AI资源4个月前037.2K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动GigaBrain-0是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作(VLA)具身基础模型,由极佳视界与湖北人形机器人创新中心联合发布开源。采用混合Transformer架构,融合...最新AI资源4个月前024.2K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成...最新AI资源4个月前029.8K
OmniVinci - NVIDIA开源的全模态大语言模型OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉...最新AI资源5个月前029.1K
olmOCR 2 - AI2开源的多模态文档解析模型olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高...最新AI资源5个月前035.7K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作ValueCell是开源的多智能体金融应用平台,通过AI技术提升金融分析和投资管理的效率。模拟专业投资团队,多个AI智能体分工协作,涵盖市场分析、情绪分析、基本面研究、自动交易等功能,为用户提供全面的...最新AI资源5个月前054.2K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台Dexbotic是原力灵机(Dexmal)开源的具身智能视觉-语言-动作(VLA)模型一站式科研服务平台,解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础,为具身智能领域的研究和开...最新AI资源5个月前026.3K
LongCat-Video - 美团LongCat开源的视频生成模型LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分...最新AI资源5个月前048.4K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型DreamOmni2是港科大贾佳亚团队开源的多模态AI图像编辑与生成模型。能同时处理文本和图像指令,支持多张参考图,为创作者提供更灵活的创作方式。模型采用三阶段数据合成流程进行训练,联合训练生成/编辑...最新AI资源5个月前033.4K
交叉验证(Cross-Validation)是什么,一文看懂交叉验证(Cross-Validation)是机器学习中评估模型泛化能力的核心方法,基本思想是将原始数据分割为训练集和测试集,通过轮换使用不同数据子集进行训练和验证,获得更可靠的性能估计。这种方法模拟...AI答疑5个月前028.2K
随机森林(Random Forest)是什么,一文看懂随机森林(Random Forest)是一种集成学习算法,通过构建多个决策树并综合其预测结果来完成机器学习任务。该算法基于Bootstrap聚合思想,从原始数据集中有放回地随机抽取多个样本子集,为每棵...AI答疑5个月前025.8K
损失函数(Loss Function)是什么,一文看懂损失函数(Loss Function)是机器学习中的核心概念,承担着量化模型预测误差的重要任务。这个函数通过数学方式衡量模型预测值与真实值之间的差异程度,为模型优化提供明确的方向指引。AI答疑5个月前024.7K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型混元世界模型1.1(WorldMirror)是腾讯混元团队发布的开源3D重建大模型,是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入,突破了传统3D重建仅依...最新AI资源5个月前032.4K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。最新AI资源5个月前037.5K
VitaBench - 美团LongCat开源的交互式Agent评测基准VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准,评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建包...最新AI资源5个月前029.3K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型MinerU2.5是上海人工智能实验室与北京大学团队联合研发的解耦式视觉语言模型,专注于高效处理高分辨率文档图像解析。核心创新在于采用"先全局版面检测后局部内容识别"的两阶段设计:第一阶段通过低分辨率...最新AI资源5个月前042.1K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案LongCat-Audio-Codec是美团LongCat团队开源的语音编解码方案。方案专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征...最新AI资源5个月前027.5K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型PaddleOCR-VL是百度开源的超轻量级视觉-语言模型,专为文档解析场景优化。模型仅含0.9B参数,通过融合动态高分辨率视觉编码器与轻量级ERNIE语言模型,在保持高精度的同时显著降低计算开销。最新AI资源5个月前043.6K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及Pi...最新AI资源5个月前032.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差...最新AI资源5个月前034.2K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列Kandinsky 5.0是俄罗斯AI团队开发的最新视频生成模型系列,主打轻量化设计与高性能表现。系列首款模型Kandinsky 5.0 Video Lite仅20亿参数却超越了同类14B大模型,尤其...最新AI资源5个月前041.7K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可...最新AI资源5个月前033.7K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具Pyscn是专为Python开发者设计的智能代码质量分析工具,主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码,计算模块耦合度和圈复杂度等指标...最新AI资源5个月前025.9K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型,专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近,实现精准的语义检索。最新AI资源5个月前031.6K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型SAIL-VL2是字节跳动团队开源的多模态视觉语言模型,专注于图像、文本等多模态输入的联合建模。采用稀疏混合专家(MoE)架构和渐进式训练策略,在2B至8B参数规模下实现了高性能,尤其在图文理解、数学...最新AI资源5个月前024.2K
超参数(Hyperparameter)是什么,一文看懂在机器学习中,超参数(Hyperparameter)是模型训练开始前由人工预设的配置选项,而非从数据中学习得到。核心作用在于控制学习过程本身,如同为算法设定一套运行规则。例如,学习率(Learning...AI答疑5个月前027.8K
决策树(Decision Tree)是什么,一文看懂决策树(Decision Tree)是模拟人类决策过程的树形预测模型,通过一系列规则对数据进行分类或预测。每个内部节点代表一个特征测试,分支对应测试结果,叶节点存储最终决策。这种算法采用分而治之策略...AI答疑5个月前025.9K
梯度下降(Gradient Descent)是什么,一文看懂梯度下降(Gradient Descent)是求解函数最小值的核心优化算法。算法通过计算函数的梯度(各偏导数组成的向量)确定下降方向,按θ=θ-η·∇J(θ)的规则迭代更新参数。AI答疑5个月前026.1K
MineContext - 字节开源的主动式上下文感知AI伙伴MineContext是字节跳动Viking团队开源的主动式上下文感知AI伙伴,帮助用户高效管理海量信息,提升知识工作效率。过屏幕截图和内容理解技术,自动记录用户日常操作(如浏览网页、编辑文档等),支...最新AI资源5个月前042.9K
nanochat - Karpathy免费开源的低成本模型训练项目nanochat是AI领域传奇人物、前特斯拉AI总监Andrej Karpathy发布的开源项目,以极低的成本和简单的操作,让个人能快速训练出一个类似ChatGPT的小型语言模型。整个项目仅用约800...最新AI资源5个月前030.8K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型,采用8B参数规模,通过紧凑三阶段训练流程(语言-图像对齐、概念均衡与知识注入、指令微调)在128张A800...最新AI资源5个月前029.5K
逻辑回归(Logistic Regression)是什么,一文看懂逻辑回归(Logistic Regression)是用于解决二分类问题的统计学习方法。核心目标是根据输入特征预测样本属于特定类别的概率。模型通过线性组合特征值,利用S形函数将线性输出映射到0到1之间的...AI答疑5个月前025.1K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目Paper2Video 是新加坡国立大学 Show Lab 开源的学术论文自动生成演示视频项目。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频...最新AI资源5个月前031.9K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型NeuTTS Air是开源的轻量级语音合成模型,由Neuphonic团队开发,可在本地设备(如手机、笔记本、树莓派)上实时运行,无需依赖云端。采用0.5B参数的Qwen架构和自研NeuCodec编解码...最新AI资源5个月前036.7K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型KAT-Dev-72B-Exp是快手团队推出的开源编程专用大语言模型,基于强化学习技术优化,在SWE-Bench Verified基准测试中取得74.6%的准确率,目前开源模型中表现最佳。模型采用创新...最新AI资源5个月前029.2K
Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型Jamba Reasoning 3B 是以色列 AI 创企 AI21 Labs 开源的轻量级推理模型,具有强大的性能和广泛的应用潜力。采用 SSM-Transformer 混合架构,结合了 Trans...最新AI资源5个月前026.2K
吴恩达的《Agentic AI》最新智能体免费课程《Agentic AI》是吴恩达推出的最新智能体课程,课程聚焦于智能体的设计与构建,涵盖反思、工具使用、规划和多智能体协作四大设计模式。学习者将通过理论讲解和代码实践,掌握如何让智能体检查输出、自主调...最新AI资源课程资料5个月前047.1K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目OpenAgents 是开源项目,创建 AI 代理网络并促进代理之间的开放协作。提供了一个基础的网络基础设施,使 AI 代理能无缝连接和协作。用户可以快速启动自己的代理网络,通过模块化架构扩展功能,支...最新AI资源5个月前027.9K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源Androidify 是谷歌开源的帮助开发者学习如何在 Android 上构建 AI 驱动的应用项目。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Fire...最新AI资源5个月前029.6K
正则化(Regularization)是什么,一文看懂正则化(Regularization)是机器学习与统计学中防止模型过拟合的核心技术。正则化通过在目标函数中添加与模型复杂度相关的惩罚项,控制拟合程度。常见形式包括L1和L2正则化:L1产生稀疏解,适用...AI答疑5个月前028.8K
生成对抗网络(Generative Adversarial Network)是什么,一文看懂生成对抗网络(Generative Adversarial Network,GAN)是一种深度学习模型,由Ian Goodfellow等人于2014年提出。框架通过两个神经网络的对抗训练来实现生成模型...AI答疑5个月前028K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型Ling-1T是蚂蚁集团开源的万亿参数通用语言模型,属于百灵大模型Ling 2.0系列的旗舰产品。模型采用高效MoE架构,支持128K上下文窗口,在代码生成、数学推理、逻辑测试等7项基准中超越GPT...最新AI资源5个月前053.1K
聆音EchoCare - 香港科学院开源的超声基座大模型聆音EchoCare是中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)研发的超声基座大模型,基于全球最大的超声影像数据集(超450万张图像)训练而成,覆盖多中心、多地区、多人种及50余个人...最新AI资源5个月前030.3K
自注意力(Self-Attention)是什么,一文看懂自注意力(Self-Attention)是深度学习中的一种关键机制,最初在Transformer架构中被提出并广泛应用。核心思想是让模型能同时关注输入序列中的所有位置,通过加权汇总的方式计算每个位置的...AI答疑5个月前037.7K
多任务学习(Multi-Task Learning)是什么,一文看懂多任务学习(Multi-Task Learning, MTL)并非孤立的算法,而是一种富有智慧的机器学习范式。AI答疑5个月前029.3K
Code2Video - Show Lab开源的AI教学视频生成框架Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...最新AI资源5个月前035.7K
SceneGen - 上海交大开源的单图像生成3D场景框架SceneGen是上海交通大学开源的单图像生成3D场景的方法,从单张场景图像及目标资源蒙版中,高效生成包含多个3D资源的完整场景,包括资源的几何结构、纹理及相对空间位置。最新AI资源5个月前026.6K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型Ming-UniAudio是蚂蚁集团开源的统一音频多模态生成模型,支持文本、音频、图像和视频的混合输入与输出。采用多尺度Transformer和混合专家(MoE)架构,通过模态感知路由机制高效处理跨模...最新AI资源5个月前033.2K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...最新AI资源5个月前039.2K
FireRedChat - 小红书开源的全双工语音交互系统FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。最新AI资源5个月前039.1K
Logics-Parsing - 阿里开源的文档解析模型Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...最新AI资源5个月前038.6K
Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,并通过自研强化学习系统 ASystem 进行推理能力训练。在自然语言推理...最新AI资源5个月前046.2K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...最新AI资源5个月前031.1K
扩散模型(Diffusion Model)是什么,一文看懂扩散模型(Diffusion Model)是一种生成模型,专门用于创建新的数据样本,例如图像、音频或文本。模型的核心灵感来源于物理学中的扩散过程,模拟粒子从高浓度区域向低浓度区域自然扩散的现象。在机器...AI答疑5个月前038.7K
模型微调(Fine-tuning)是什么,一文看懂模型微调(Fine-tuning)是机器学习中迁移学习的一种具体实现方式。核心流程以预训练模型为基础,预训练模型利用大规模数据集学习通用模式,形成广泛的特征提取能力。微调阶段则引入特定任务的数据集,对...AI答疑5个月前031.1K
Lynx - 字节跳动开源的高保真视频生成模型Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...最新AI资源5个月前033.7K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型,专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色,支持从初始规划...最新AI资源5个月前038.7K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...最新AI资源5个月前035.3K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型HunyuanImage 3.0(混元图像3.0)是腾讯发布并开源的原生多模态图像生成模型。模型参数规模达80B,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0支持实时生图功能,用户可边...最新AI资源6个月前044.9K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型Hunyuan3D-Part(混元3D-Part)是腾讯发布并开源的3D生成模型。由P3 - SAM和X - Part组成,首次实现高精度、可控的组件式3D生成,支持50 + 组件自动生成。用户可先用...最新AI资源6个月前044.6K
AudioFly - 科大讯飞开源的文本生成音效AI模型AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...最新AI资源6个月前038.9K
Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架Hunyuan3D-Omni(混元3D-Omni)是腾讯混元3D团队开源的3D资产生成框架,通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构,引入了统一的控制编码器,可处理点...最新AI资源6个月前042.9K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...最新AI资源6个月前035.9K
注意力机制(Attention Mechanism)是什么,一文看懂注意力机制(Attention Mechanism)是模仿人类认知过程的计算技术,最初应用于机器翻译领域,后成为深度学习的重要组成部分。AI答疑6个月前037K
Transformer 架构(Transformer Architecture)是什么,一文看懂Transformer 架构是一种深度学习模型,专为处理序列到序列的任务设计,例如机器翻译或文本摘要。核心创新在于完全依赖自注意力机制,摒弃了传统的循环或卷积结构。允许模型并行处理序列中的所有元素,大...AI答疑6个月前035.7K
预训练模型(Pre-trained Model)是什么,一文看懂预训练模型(Pre-trained Model)是人工智能领域一项基础而强大的技术,代表在大规模数据集上预先进行训练的机器学习模型。模型通过处理海量信息,学习数据中的通用模式和特征,形成广泛的知识基础...AI答疑6个月前034.1K
大语言模型(Large Language Model)是什么,一文看懂大语言模型(Large Language Model, LLM)是基于海量文本数据训练的深度学习系统,核心是Transformer架构。该架构的自注意力机制能有效捕捉语言中的长距离依赖关系。模型的“大...AI答疑6个月前033.9K
长短期记忆网络(Long Short-Term Memory)是什么,一文看懂长短期记忆网络(Long Short-Term Memory,LSTM)是专门用于处理序列数据的循环神经网络变体。在人工智能领域,序列数据广泛存在于时间序列预测、自然语言处理和语音识别等任务中。AI答疑6个月前028.9K
CWM - Meta FAIR开源的代码世界语言模型CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...最新AI资源6个月前032.5K
Neovate Code - 蚂蚁开源的智能编程助手Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...最新AI资源6个月前036.1K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。最新AI资源6个月前038K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型Qwen3-VL是阿里云通义千问团队开源的多模态视觉语言大模型,参数量达2350亿,模型文件约471GB。包含指令版和思考版,采用增强的MRope交错布局、DeepStack等技术,可有效利用视觉变换...最新AI资源6个月前049.8K
Qwen3Guard - 阿里Qwen开源的安全模型Qwen3Guard 是基于 Qwen3 基础模型微调的安全防护模型,专为安全检测而设计。能对提示词和响应进行精确的安全分类,提供风险等级,支持英语、中文和多语言环境。Qwen3Guard 有两个专业...最新AI资源6个月前040.3K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型Qwen3-TTS-Flash 是阿里通义推出的先进语音合成模型,支持 17 种音色和 10 种语言,涵盖普通话、英语、方言等,具备卓越的中英文语音稳定性与高表现力,模型能自动调节语气,让语音更生动。最新AI资源6个月前050.1K
Qwen3-Omni - 阿里通义推出的全模态AI模型Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型,能处理文本、图像、音频和视频等多种数据类型,支持 119 种语言的文本交互,具备低延迟和高度可控的特点。最新AI资源6个月前035.3K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型,是 DeepSeek-V3.1 的升级版本。模型在语言一致性、代码生成和搜索能力等方面进行优化,能更准确...最新AI资源6个月前034.1K
联邦学习(Federated Learning)是什么,一文看懂联邦学习(Federated Learning)是一种创新的机器学习方法,由谷歌研究团队在2016年首次提出,旨在解决数据隐私和分布式计算中的挑战。AI答疑6个月前034.5K
Granite-Docling-258M - IBM开源的视觉语言模型Granite-Docling-258M 是 IBM 推出的超紧凑开源视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。最新AI资源6个月前031.6K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑Lucy Edit 是开源的 AI 视频编辑工具,由 Decart AI 开发。允许用户通过简单的自然语言描述来编辑视频,例如“将人物换成北极熊”或“把场景变成2D卡通风格”,无需复杂的微调或使用遮罩...最新AI资源6个月前041.4K
LongCat-Flash-Thinking - 美团开源的高效推理模型LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型,在保持 LongCat-Flash-Chat 极速的同时,变得更强大、更专业。模型在逻辑、数学、代码、智能...最新AI资源6个月前031.5K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。最新AI资源6个月前032.6K
Kronos - 清华和微软联合开源的金融K线图基础模型Kronos 是清华大学与微软亚洲研究院联合开源的首个面向金融市场的 K 线图基础模型。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价、收盘价及成交量,来预测未来价格走势。最新AI资源6个月前053.6K
Wan2.2-Animate - 通义万相开源的动作生成模型Wan2.2-Animate是通义万相开源的动作生成模型,支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频,模型能将视频中角色的动作、表情迁移到图片角色中,赋予图片角色动态表现力...最新AI资源6个月前034.7K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型,具备多语言对话、语音续写、少样本泛化和音频理解等强大功能,能在语音智能和音频理解基准测试中达到SOTA水平,超越谷歌Gemi...最新AI资源6个月前037.2K