浙江大学免费PDF资料《大模型基础》 - 附下载链接《大模型基础》深入剖析大语言模型(LLMs)的核心技术与实践路径。从语言模型的基础理论入手,系统讲解基于统计、循环神经网络(RNN)和Transformer架构的模型设计原理,重点探讨大语言模型的三大...最新AI资源课程资料6个月前040K
AnimaTensor - 吐司AI等机构推出的二次元图像生成模型AnimaTensor 是 CagliostroLab 团队与 TensorArt 联合推出的二次元图像生成模型,基于创新的 V-Prediction 技术,用预测图像生成过程中的“速度”优化噪声调度...最新AI资源9个月前039.9K
QVQ-Max - 阿里通义推出视觉推理模型QVQ-Max是阿里通义推出的先进的视觉推理模型,是QVQ-72B-Preview的升级版。模型能“看懂”图片和视频内容,结合信息进行分析、推理和问题解决。QVQ-Max主要功能包括图像解析、视频分析...最新AI资源9个月前039.8K
EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型EchoMimicV3是蚂蚁集团推出的多模态数字人视频生成模型,拥有13亿参数,能处理音频、文本、图像等多种输入,生成高质量的数字人动画。最新AI资源7个月前039.8K
Ovis-U1 - 阿里推出的多模态统一AI模型Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,参数规模达到30亿。模型具备多模态理解、文本到图像生成以及图像编辑等三大核心能力,凭借先进的架构设计和协同统一训练方法,支持实现高保真图像...最新AI资源9个月前039.7K
gpt-oss - OpenAI推出的开源推理模型系列gpt-oss是 OpenAI 推出的开源推理模型系列,支持为开发者提供高效、灵活且易于部署的 AI 解决方案。gpt-oss包含两个版本,gpt-oss-120B 拥有 1170 亿参数,支持在 8...最新AI资源7个月前039.7K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。最新AI资源9个月前039.7K
剪影专业版6.0.x,新年快乐版无需会员就可以使用所有vip功能,解压即用,千万别升级!千万别升级!千万别升级! 链接:https://pan.quark.cn/s/a120ee707f47 提取码:jHDN最新AI资源1年前039.6K
Mistral Code - Mistral AI推出面向企业的AI编程助手Mistral Code是Mistral AI推出的面向企业开发团队的AI编程助手,集成Codestral、Codestral Embed、Devstral 和Mistral Medium四大模型,支...最新AI资源9个月前039.6K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型GLM-4.7是智谱AI发布并开源的最新一代旗舰大模型,主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出,具备多语言编码、长程任务规划和工具协同能力...最新AI资源3个月前039.5K
通义DeepResearch - 阿里通义开源的深度研究智能体通义DeepResearch(Tongyi DeepResearch)是阿里巴巴推出的开源智能体,专为深度信息检索和复杂任务推理设计,具备300亿参数,支持多种推理模式,包括ReAct模式和深度模式...最新AI资源6个月前039.5K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具综合介绍 “Why My Wife Yelling At Me”是一个独特的婚姻关系模拟网站,旨在通过人工智能帮助用户理解伴侣的情感反应和沟通模式。用户可以输入不同场景,体验虚拟伴侣的反应,模拟真实的...最新AI资源11个月前039.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程AIMangaStudio是免费的AI漫画创作工具,为创作者提供完整的漫画创作流水线,包括剧情生成、分镜设计、角色设定等功能,能简化从脚本到漫画页面的制作流程。支持自然语言生成漫画脚本,包括剧情、对白...最新AI资源5个月前039.5K
FireRedChat - 小红书开源的全双工语音交互系统FireRedChat 是小红书开源的全双工语音交互系统,具有实时双向对话能力,支持可控打断功能。采用模块化设计,包括转录控制模块、交互模块和对话管理器等,支持级联和半级联架构,可灵活部署。最新AI资源5个月前039.4K
Seed LiveInterpret 2.0 - 字节跳动推出的同声传译模型Seed LiveInterpret 2.0 是字节跳动 Seed 团队推出的先进同声传译模型,支持中英双向翻译。模型具备接近真人水平的翻译准确率和极低延迟,平均语音到语音延迟仅 2 - 3 秒,较传...最新AI资源8个月前039.3K
万兴天幕 – 万兴科技推出AIGC视频创作平台万兴天幕是万兴科技推出的AIGC视频创作平台,覆盖视频、图片及音频生成三大创作领域,专为传媒和文化产业工作者、影视/后期工作者、艺术与设计工作者、广告和营销从业者等打造,提供一站式专业创作解决方案。最新AI资源9个月前039.3K
全球首个量子 AI 模型问世!SECQAI 发布 QLLM 即将进入 Beta 测试英国超安全软硬件公司 SECQAI 宣布推出全球首个量子大语言模型 (QLLM),将量子计算技术整合至传统 AI 模型中,以提升运算效率和问题解决能力。 量子力学 + AI = 更强大的 AI? ...最新AI资源1年前039.3K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台优雅YOYA是中科闻歌推出的多模态文生视频平台,平台基于AI多模态技术赋能视频内容创作全链路。用户只需输入主题要求,平台能快速生成脚本、图像、视频,且能完成智能剪辑、语音合成和人物口型驱动等操作,输出...最新AI资源9个月前039.2K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型Confucius3-Math是网易有道开源的国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在单块消费级GPU(如RTX 4090D)上高效运行,推理性能约为...最新AI资源9个月前039.2K
Higress MCP - 今日投资推出的MCP服务平台Higress MCP 是今日投资推出的创新型平台,支持将传统金融数据API快速转化为现代化的MCP服务。Higress MCP基于简单配置即可实现REST API到MCP Server的转换,无需编...最新AI资源8个月前039.2K
FLUX.1 Kontext - 黑森林推出的图像生成与编辑模型FLUX.1 Kontext是Black Forest Labs推出的图像生成与编辑模型,提供上下文感知的图像处理技术。模型能理解响应文本和图像提示,执行对象修改、风格转换、背景替换等任务,同时保持角...最新AI资源9个月前039.1K
AudioFly - 科大讯飞开源的文本生成音效AI模型AudioFly是科大讯飞开源的文本生成音效的AI模型。基于潜在扩散模型架构,拥有10亿个参数,经过大规模、多样化的音频文本数据集训练,涵盖AudioSet、AudioCaps、TUT等公开数据集及内...最新AI资源6个月前039.1K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型Gemini 2.5 Deep Think 是谷歌推出的 AI 推理模型,专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛(IMO)金牌的模型的变体,通过并行思考技术(Parallel ...最新AI资源7个月前039.1K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集Meeseeks 是美团 M17 团队开源的大模型评测集,用在评估模型的指令遵循能力。Meeseeks 通过三级评测框架,从宏观到微观全面衡量模型是否能严格按照用户指令生成回答,不评估回答内容的知识正...最新AI资源7个月前039.1K
用语音和文字控制macOS操作的开源工具综合介绍 MacOS LLM Controller 是一个开源桌面应用,托管在 GitHub 上,允许用户通过语音或文字输入自然语言指令来执行 macOS 系统命令。它基于 Llama-3.2-3B...最新AI资源11个月前039K
Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型Claude Sonnet 4.5 是 Anthropic 公司推出的人工智能模型,专为编程、计算机操作和复杂任务自动化设计。模型在代码生成、长时间任务处理、推理和数学计算方面表现出色,支持从初始规划...最新AI资源6个月前039K
FineVision - Hugging Face推出的开源视觉语言数据集FineVision 是 Hugging Face 开源的视觉语言数据集,为训练先进的视觉语言模型。包含 1730 万张图像、2430 万个样本、8890 万轮对话和 95 亿个答案标记。数据集聚合了...最新AI资源6个月前038.9K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议职达AI简历是高效便捷的智能简历生成与优化平台。平台基于AI技术,帮助用户快速生成专业个性化的简历。用户只需输入基本信息和经历,平台能在短时间内生成优质简历,提供2800+精美模板,覆盖多种岗位。最新AI资源9个月前038.7K
Logics-Parsing - 阿里开源的文档解析模型Logics-Parsing 是阿里开源的端到端文档解析模型,基于 Qwen2.5-VL-7B。通过强化学习优化文档布局分析和阅读顺序推断,能将 PDF 图像转换为结构化 HTML 输出,支持多种内容...最新AI资源5个月前038.7K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具SkyReels-A3 是昆仑万维集团推出的音频驱动数字人创作工具。能通过简单的输入(如人像图片和语音)生成高质量的动态视频内容,让静态照片“活”起来,可以为现有视频更换台词,人物会自动对上新的口型...最新AI资源7个月前038.7K
MindLink - 昆仑万维推出的开源推理大模型MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制,可根据任务复杂度灵活切换推理模式,简单任务快速生成,复杂任务深度推理,兼顾效率与准确性。计划驱动推理范式去掉了“think”标签,降...最新AI资源7个月前038.7K
有道小P - 网易有道推出的新一代AI全科学习助手有道小P是网易有道推出的AI全科学习助手,专为K12学生设计,搭载有道子曰教育大模型,覆盖小学、初中、高中全学科答疑,提供个性化学习建议。有道小P具备AI查词、AI翻译功能,帮助学生快速解决语言难题...最新AI资源9个月前038.6K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿DeckSpeed是AI演示文稿制作工具,基于对话式交互,用户基于自然语言表达需求,快速生成个性化幻灯片,无需依赖传统模板。工具支持实时反馈调整,用户能随时修改幻灯片的颜色、风格和内容,确保演示文稿完...最新AI资源9个月前038.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型HunyuanWorld-Voyager(简称混元Voyager)是腾讯发布的业界首个支持原生3D重建的超长漫游世界模型。是一种新颖的视频扩散框架,能从单张图片生成用户定义相机路径的3D点云序列,支持...最新AI资源6个月前038.5K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型InternVLA-A1 是上海人工智能实验室开源的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型融合了真实和模拟的操作数据,通过大规模虚实混合场景资产,自动化构建海量多模态...最新AI资源6个月前038.5K
OpenAI《在AI时代保持领先》PDF指南 - 附下载链接《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,助力企业领导者在AI时代保持竞争优势。指南指出AI发展迅猛,模型发布速度加快、成本降低,企业采用速度...最新AI资源课程资料6个月前038.4K
MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型,基于 Qwen3 系列开发,包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术,支持 256K 上下文...最新AI资源2个月前038.4K
OpenReasoning-Nemotron - 英伟达推出的开源系列推理模型OpenReasoning-Nemotron 是英伟达开源的一系列大型语言模型,支持处理数学、科学和代码领域的推理任务。模型基于 DeepSeek R1 0528 模型蒸馏而成,参数规模有 1.5B...最新AI资源8个月前038.4K
FactSnap - 新一代AI信息核查工具FactSnap是新一代AI信息核查工具,帮助用户快速验证网页信息的真实性。通过集成多种模型和搜索引擎,在用户浏览网页时对选中的文字进行实时核查。最新AI资源9个月前038.4K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型Audio2Face是NVIDIA开源的能将音频输入转化为逼真的3D面部动画AI工具。通过分析音频中的语音特征,如音素和语调,生成精确的唇部同步和细腻的情感表达,为虚拟角色赋予生动的人类表情。最新AI资源6个月前038.3K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型Qwen3-Max-Preview 是通义千问发布的最新旗舰大语言模型。是 Qwen3 系列中参数量最大的模型,参数规模超过 1 万亿。模型在推理、指令跟随、多语言支持和长尾知识覆盖等方面有重大改进...最新AI资源6个月前038.3K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型Skywork-SWE-32B是昆仑万维推出的开源的32B规模的软件工程(SWE)自主代码智能体基座模型。模型专注于软件工程任务,具备强大的仓库级代码修复能力,能在多轮交互和长文本处理的复杂场景中表现...最新AI资源9个月前038.2K
Midjourney V1- Midjourney推出的首个图生视频模型Midjourney V1 是Midjourney公司推出的首个 AI 视频生成模型,借助先进的AI技术,支持将静态图片转化为生动的动态视频。用户只需上传图片或用 Midjourney 生成的图像,点...最新AI资源9个月前038.1K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型Gemini Robotics On-Device 是谷歌 DeepMind 推出的支持在机器人本地运行的视觉-语言-动作模型。模型能离线执行任务,依据自然语言指令完成精细动作,如叠衣服、拉开袋子等...最新AI资源9个月前038K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI AgentCRIC深度智联是克而瑞自主研发的中国房地产首个AI智能体,基于克而瑞20年房地产行业经验和数据积累与多模态大模型技术,打通数据整合、智能分析到内容生成全链路。最新AI资源9个月前037.9K
Hyprnote - 开源的本地优先AI会议笔记工具Hyprnote 是开源的本地优先 AI 会议笔记工具,专为专业人士设计,保护用户隐私并提升会议效率。采用“本地优先”原则,所有数据存储和处理均在用户本地设备上完成,确保数据安全,支持离线运行。最新AI资源6个月前037.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整AntSK FileChunk 是免费的智能文档切片工具,专为 RAG(检索增强生成)应用设计。以语义为核心,将文档智能切分为语义完整、连贯的片段,支持多语言,可动态调整切片大小,确保上下文连贯性。最新AI资源6个月前037.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强文心大模型X1.1是百度推出的深度思考模型,基于混合强化学习框架,专注于提升语言理解和生成能力。模型在处理复杂问题、遵循指令和模拟智能体行为方面表现出色,能准确地提供知识性答案和高质量的文本内容。最新AI资源6个月前037.7K
Klear-Reasoner - 快手推出的全新推理模型Klear-Reasoner 是快手推出的高性能推理模型,基于 Qwen3-8B-Base 进行开发。模型通过长思维链监督微调和强化学习训练,在数学和代码推理方面表现出色。Klear-Reasoner...最新AI资源7个月前037.7K
DeepSeek-OCR - DeepSeek开源的光学字符识别模型DeepSeek-OCR 是 DeepSeek 团队开源的先进光学字符识别(OCR)模型,通过“上下文光学压缩”技术,将文本转换为图像,利用视觉 token 进行压缩和解码,实现高效长文本处理。最新AI资源5个月前037.6K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型Xiaomi-MiMo-Audio 是小米开源的70亿参数端到端语音大模型,具备多语言对话、语音续写、少样本泛化和音频理解等强大功能,能在语音智能和音频理解基准测试中达到SOTA水平,超越谷歌Gemi...最新AI资源6个月前037.5K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型Lumina-DiMOO是上海人工智能实验室联合华为昇腾在2025年世界人工智能大会上推出的新一代多模态生成与理解统一模型。基于昇腾AI基础软硬件平台与MindSpeed MM多模态大模型套件,完成了...最新AI资源6个月前037.4K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型SoulX-Podcast 是 Soul AI Lab 开源的先进多说话者对话式语音合成模型,专为生成高质量播客内容设计。具备多轮对话生成能力,能模拟真实播客场景中的流畅对话,支持普通话、英语及多种中...最新AI资源5个月前037.4K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型NeuTTS Air是开源的轻量级语音合成模型,由Neuphonic团队开发,可在本地设备(如手机、笔记本、树莓派)上实时运行,无需依赖云端。采用0.5B参数的Qwen架构和自研NeuCodec编解码...最新AI资源5个月前037.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型InternVLA·N1是上海人工智能实验室开源的端到端双系统导航大模型。采用双系统架构,系统2负责理解语言指令并规划长程路径,系统1专注于高频响应和敏捷避障。模型完全基于合成数据训练,通过大规模数字...最新AI资源6个月前037.1K
Wide Research - Manus平台推出的多智能体协同功能Wide Research 是 Manus 平台推出的强大功能,专为处理复杂且大规模的任务而设计。平台通过系统级的并行处理机制和智能体协作协议,能支持上百个通用智能体同时工作。最新AI资源8个月前037K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发飞算JavaAI是飞算科技推出的智能Java开发助手。平台支持自然语言输入,实现从需求分析到代码生成的全流程智能化开发。开发者只需输入需求描述,飞算JavaAI能精准理解、生成完整的工程代码框架,平台...最新AI资源9个月前037K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架Youtu-GraphRAG 是腾讯优图实验室开源的图检索增强生成框架,帮助大语言模型更精准地处理复杂问答任务。通过构建四层知识树,将知识拆解为属性、关系、关键词和社区四个层次,实现跨领域知识的自主演...最新AI资源6个月前036.8K
WebWeaver - 阿里通义开源的新型双智能体框架WebWeaver是阿里巴巴通义团队推出的新型双智能体框架,主要用在开放性深度研究,能模拟人类研究过程,分为规划和写作两个智能体。最新AI资源6个月前036.6K
2024年自动化流程执行创作工作的14款出色AI工具如果您希望利用人工智能的力量来协助日常事务,并在个人和工作生活中实现工作流程自动化,那么您可能会对现有的多款 AI 工具感兴趣。 AssemblyAI 制作了一段五分钟的视频,详细介绍了您可以用来自动...最新AI资源1年前036.6K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架ZeroSearch是阿里巴巴通义实验室开源的创新大模型搜索引擎框架。框架无需与真实搜索引擎交互,基于模拟搜索引擎的方式,用大模型自身的预训练知识生成相关或噪声文档,大幅降低训练成本(降低80%以上...最新AI资源9个月前036.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构Kimi Linear 是月之暗面开源的新型混合线性注意力架构,以 Kimi Delta Attention(KDA)为核心,通过更细粒度的门控机制优化了传统注意力模型,显著提升了硬件效率和内存控制能...最新AI资源5个月前036.5K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱综合介绍 美间 是一个专注于家居设计和营销谈单的在线平台。该网站提供丰富的设计素材、软装和提案PPT模板、海报模板等,帮助设计师和业主快速生成高质量的设计方案。美间的在线软装设计工具可以在短短10秒内...最新AI资源# AI图像编辑# AI生成演示文稿/PPT9个月前036.5K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具PromptEnhancer 是腾讯混元团队开源的提示词增强工具,提升文本到图像(Text-to-Image,T2I)模型的生成效果。通过链式推理(Chain-of-Thought,CoT)的方式对用...最新AI资源6个月前036.4K
Neovate Code - 蚂蚁开源的智能编程助手Neovate Code 是蚂蚁集团支付宝体验技术部开源的智能编程助手,通过人工智能技术提升开发效率。具备对话式开发功能,开发者可以通过自然语言描述需求,Neovate Code 能理解并生成相应的代...最新AI资源6个月前036.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型,支持中文和英文。采用原生全双工架构,可在每个时间步合并听觉、说话和独白...最新AI资源6个月前036.1K
Code2Video - Show Lab开源的AI教学视频生成框架Code2Video是创新的开源项目,能将代码片段自动转换为高质量的视频内容(mp4格式)。项目通过独特的代码中心范式,使用carbon-now-cli工具将代码生成精美的图片,利用ffmpeg将这些...最新AI资源5个月前036K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型MiniMax Music 1.5 是先进的 AI 音乐生成工具,支持根据用户的自然语言描述,生成长达4分钟的音乐作品。模型支持多种音乐风格和情绪定制,生成的人声音色自然饱满,转音顺畅,编曲层次丰富...最新AI资源6个月前035.8K
Qwen3-Omni - 阿里通义推出的全模态AI模型Qwen3-Omni 是阿里通义团队推出的全模态 AI 模型,能处理文本、图像、音频和视频等多种数据类型,支持 119 种语言的文本交互,具备低延迟和高度可控的特点。最新AI资源6个月前035.8K
Moltbot - 开源的本地优先AI助手,支持多渠道与用户交互Moltbot(原名Clawdbot)是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手,WhatsApp、Telegram、Discord、Slack、iMessage...最新AI资源2个月前035.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架MobiAgent 是上海交通大学 IPADS 实验室开源的移动端智能体工具链,帮助用户构建专属的手机智能助手。通过记录用户操作轨迹并生成高质量数据,训练出能理解自然语言指令的智能体。核心特点包括高效...最新AI资源6个月前035.8K
olmOCR 2 - AI2开源的多模态文档解析模型olmOCR 2是Allen Institute for Artificial Intelligence(AI2)开源的多模态文档解析模型,是olmOCR的升级版本。将数字化的打印文档(如 PDF)高...最新AI资源5个月前035.7K
OneCAT - 美团联合上海交大开源的多模态模型OneCAT是美团联合上海交大推出的新型统一多模态模型,采用纯解码器架构,能无缝集成多模态理解、文本到图像生成和图像编辑功能。模型摒弃了传统多模态模型中依赖外部视觉编码器和分词器的设计,通过特定模态的...最新AI资源6个月前035.6K
DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型DeepSeek-V3.2-Exp是DeepSeek开源的实验性AI模型,通过引入DeepSeek Sparse Attention(DSA)机制,显著提升长文本处理的效率。模型基于DeepSeek...最新AI资源6个月前035.6K
EmbodiChain - 跨维智能推出的开源具身智能开发平台EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上...最新AI资源2个月前035.6K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型Hunyuan-MT-7B 是腾讯混元团队推出的轻量级翻译模型,参数量为70亿,支持33个语种及5种民汉语言/方言的互译,包括粤语、维吾尔语、藏语等。在国际计算语言学协会(ACL)WMT2025比赛中...最新AI资源6个月前035.5K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径问小白o4是创新的并行思考模型,能同时开启8条思考路径,从多角度分析问题并自动筛选出最优解。模型融合先进的Long-CoT强化学习和过程奖励学习技术,具备强大的深度推理能力,且在复杂任务中表现出色。最新AI资源7个月前035.4K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具Banana Slides是基于Nano Banana Pro AI模型的开源智能PPT生成工具,支持通过自然语言指令快速创建专业演示文稿。允许用户用一句话描述主题(如“人类对生态环境的影响”),可自...最新AI资源3个月前035.2K
TRELLIS.2 - 微软开源的大型3D生成模型TRELLIS.2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资...最新AI资源3个月前035K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列Tencent-HY-MT1.5是腾讯混元开源的翻译模型1.5版本,包含1.8B和7B两个模型,支持33种国际语言及5种民汉/方言互译。1.8B模型专为手机等消费级设备优化,仅需1GB内存即可实现端侧...最新AI资源3个月前034.9K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型InfinityHuman 是字节跳动与浙江大学联合推出的商用级长时序音频驱动人物视频生成模型。模型通过音频驱动,能生成高分辨率、长时长且视觉一致的人物视频。最新AI资源6个月前034.9K
rStar2-Agent - 微软开源的高效AI推理模型rStar2-Agent是微软开源的先进的人工智能数学推理模型,在AIME24测试中达到80.6%的准确率,展现出强大的数学问题解决能力。模型具备科学推理能力,在GPQA-Diamond基准测试中达到...最新AI资源6个月前034.8K
MCP Registry - GitHub推出的官方MCP服务器管理平台MCP Registry 是 GitHub 推出的集中化平台,能帮助开发者更便捷地发现和安装 MCP 服务器。MCP Registry 的出现,让开发者能在一个地方快速找到所需的 AI 工具,极大地简...最新AI资源6个月前034.8K
阶跃深研 - 阶跃星辰推出的AI深入研究工具阶跃深研是阶跃星辰推出的高效AI研究工具,能在短时间内自主完成复杂问题的研究并生成专业报告。工具专为金融、咨询、医疗、法律等领域设计,凭借深度搜索与信息整合能力,在行业评测中表现优异。最新AI资源7个月前034.8K
Wan2.2-Animate - 通义万相开源的动作生成模型Wan2.2-Animate是通义万相开源的动作生成模型,支持动作模仿和角色扮演两种模式。用户只需输入一张角色图片和一段参考视频,模型能将视频中角色的动作、表情迁移到图片角色中,赋予图片角色动态表现力...最新AI资源6个月前034.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架DiaMoE-TTS 是清华大学和巨人网络联合开源的多方言语音合成框架,基于国际音标(IPA),解决方言数据稀缺、正字法不一致和音系变化复杂等问题。通过统一的 IPA 前端标准化音素表示,消除跨方言差...最新AI资源5个月前034.3K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架Stand-In 是腾讯微信视觉团队推出的轻量级、即插即用的身份保留视频生成框架。专注于在视频生成中保留特定身份特征,仅需训练基础模型1%的额外参数,能在人脸相似度和自然度方面取得优异效果。最新AI资源6个月前034.2K
DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型DeepSeek-V3.1-Terminus 是 DeepSeek 团队推出的人工智能语言模型,是 DeepSeek-V3.1 的升级版本。模型在语言一致性、代码生成和搜索能力等方面进行优化,能更准确...最新AI资源6个月前034.2K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型Qwen-Image-Layered是阿里团队开源的AI图像编辑模型,能将普通图片智能分解为独立的透明图层,实现类似Photoshop的精准编辑。模型采用Apache 2.0协议开源,支持灵活控制图层...最新AI资源3个月前034K
Ouro - 字节跳动Seed团队开源的新型循环语言模型Ouro是字节跳动Seed团队开发的新型循环语言模型(Looped Language Models),核心创新在于通过参数共享的循环计算结构,在预训练阶段直接构建推理能力。模型采用24层作为基础块,通...最新AI资源4个月前034K
Lynx - 字节跳动开源的高保真视频生成模型Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapte...最新AI资源6个月前033.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎XTuner V1 是上海人工智能实验室开源的新一代大模型训练引擎,专为超大规模稀疏混合专家(MoE)模型训练设计。基于 PyTorch FSDP 开发,通过显存、通信和负载等多维度优化,实现了高性能...最新AI资源6个月前033.9K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型SongBloom是腾讯AI Lab联合香港中文大学(深圳)与南京大学研发的开源歌曲生成模型,解决AI音乐生成中的“塑料感”问题,实现高质量、结构完整的歌曲生成。只需输入10秒参考音频和对应歌词,即可...最新AI资源5个月前033.8K
Step-GUI - 阶跃星辰开源的AI Agent系列模型Step-GUI是阶跃星辰公司开源的AI Agent系列模型,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议,以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专...最新AI资源3个月前033.6K
LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型,专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。最新AI资源3个月前033.6K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型Ming-UniAudio是蚂蚁集团开源的统一音频多模态生成模型,支持文本、音频、图像和视频的混合输入与输出。采用多尺度Transformer和混合专家(MoE)架构,通过模态感知路由机制高效处理跨模...最新AI资源5个月前033.6K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型DreamOmni2是港科大贾佳亚团队开源的多模态AI图像编辑与生成模型。能同时处理文本和图像指令,支持多张参考图,为创作者提供更灵活的创作方式。模型采用三阶段数据合成流程进行训练,联合训练生成/编辑...最新AI资源5个月前033.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型VoxCPM 1.5 是面壁智能发布的开源语音生成模型,基于无需分词器的文本到语音(TTS)技术,具有多项创新和改进。采用端到端的扩散自回归架构,直接从文本生成连续的语音波形,避免了传统分词方法的局限...最新AI资源3个月前033.4K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型MiniCPM 4.1 是面壁智能推出的超高效端侧大语言模型。采用 InfLLM v2 稀疏注意力架构,每个词元仅需计算与少于 5% 词元的相关性,显著降低长文本处理开销。在 128K 长文本场景下...最新AI资源6个月前033.3K