最新AI资源

共 3045 篇文章

课程资料最新AI资源 AI知识库 AI新闻

排序

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

2个月前

026.9K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

2个月前

027K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

2个月前

026.9K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

2个月前

034.3K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

2个月前

030.6K

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot（原名Clawdbot）是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手，WhatsApp、Telegram、Discord、Slack、iMessage...

2个月前

039.9K

json-render - Vercel Labs开源的AI生成UI的工具

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

2个月前

032.9K

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架，能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术，将视频拆解为0.5秒一小段接力处理，配合结构化...

2个月前

035.6K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

2个月前

030.9K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

2个月前

029K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

2个月前

026.9K

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台，专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增，从根本上...

3个月前

039.7K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

3个月前

027.5K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

3个月前

030.3K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

3个月前

026.8K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

3个月前

025.5K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

3个月前

034.7K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

3个月前

021.9K

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork是开源的智能代理工作流桌面应用，作为Claude Cowork的免费替代品，提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈，支持技能插件扩展和模...

3个月前

070.8K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

3个月前

020K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

3个月前

032.4K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

3个月前

021.4K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

3个月前

025.1K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

3个月前

024.1K

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎，可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...

3个月前

037.4K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

3个月前

026K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

3个月前

028.8K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

3个月前

031.7K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

3个月前

034.5K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

3个月前

026K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

3个月前

031K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

3个月前

026.1K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

3个月前

025K

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT是基于大语言模型的开源AI PPT生成工具，支持通过主题或上传文档（PDF/Word/Excel）一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能，提供丰富的模板和场景...

3个月前

038.7K

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA 是开源的 AI 桌面自动化工具，能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统，通过先进的计算机...

3个月前

037.7K

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型，基于 Qwen3 系列开发，包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术，支持 256K 上下文...

3个月前

044K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

3个月前

028.5K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

3个月前

028.3K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

3个月前

027.3K

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any是北京大学DCAI课题组开源的多模态辅助平台，专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能，能从多种输入源生成模型架构图、技术路线图和实验数据图等...

3个月前

037.5K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

3个月前

027.1K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

3个月前

030.2K

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban是开源的AI编程代理任务管理工具，专为同时使用多个AI编程助手（如Claude Code、Gemini CLI、Codex等）的开发者设计。通过看板形式统一管理任务进度，支持并行...

3个月前

030K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

3个月前

030.5K

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列，专注于代码智能领域，具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式，从代码库演化...

3个月前

036.4K

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

混元Motion1.0（HY-Motion1.0）是腾讯混元团队开源的文本生成3D动作模型，采用10亿参数Diffusion Transformer架构，能通过自然语言描述直接生成高质量3D角色动画。

3个月前

035K

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5是开源的交互式世界生成模型，由上海人工智能实验室、复旦大学、上海创新研究院联合开发，能实现实时交互渲染（单卡12 FPS）。采用了联合时空通道建模（TSCM）技术，即使上下文长度增加也能...

3个月前

029.4K

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV是M-A-P团队联合多所高校研发的开源音乐视频生成系统，能在无需训练的情况下根据完整歌曲自动生成连贯的MV。采用多智能体协作模式，包含音乐分析、编剧、导演和质检等模块，能精准解析歌词、节拍...

3个月前

031.9K

Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5是腾讯混元开源的翻译模型1.5版本，包含1.8B和7B两个模型，支持33种国际语言及5种民汉/方言互译。1.8B模型专为手机等消费级设备优化，仅需1GB内存即可实现端侧...

3个月前

038.2K

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive是开源的实时AI换脸直播框架，由澳门大学、dzine.ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡（12GB显存）上实现低延迟、高帧率的数字人驱动，支持通过摄像头实时...

3个月前

030.7K

Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具，通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程，支持Playwrigh...

3个月前

025.9K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI是开源的视频转手绘分镜工具，专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板，支持标记关键帧、自动生成分镜和社交文案，能融合用户自定义角色。

3个月前

031.3K

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI是阿里巴巴通义实验室开源的通用GUI智能体基座模型，具备跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调四大能力。采用端云协同架构，轻量模型驻守设备处理日常任务，复杂任务可调用云端大...

3个月前

035.1K

MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 - MiniMax开源的编码和代理模型

MiniMax M2.1 是MiniMax开源的编码和代理模型，拥有100亿激活量，支持多种主流编程语言，如 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...

3个月前

022.7K

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble是小红书和复旦大学联合开源的布局控制生成技术，通过“实例组装注意力”机制，实现了从简单到复杂、从稀疏到密集布局的精准图像生成。采用两阶段级联架构，先生成图像背景，再逐个...

3个月前

019.5K

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser是基于Firefox内核的开源浏览器，主打简洁高效的浏览体验，核心特色是垂直标签栏和工作区隔离功能。采用侧边栏设计，能清晰展示50+个标签页的完整标题，支持多窗口分屏浏览。

3个月前

031K

QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5是阿里巴巴通义实验室开源的长文本推理模型，专注于解决超长上下文（如1M-4M tokens）的复杂推理问题。核心突破在于后训练阶段的三大创新：通过知识图谱、SQL解析和多智能...

3个月前

024.2K

Infographic - 阿里AntV团队开源的信息图生成框架

Infographic - 阿里AntV团队开源的信息图生成框架

Infographic是阿里AntV团队开源的新一代框架，基于G2和Ant Design开发，专注于快速生成高质量信息图，提供30+布局模板、120+预设主题及AI智能生成功能。

3个月前

029.1K

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode是专为Claude Code设计的开源图形化桌面应用，开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目，支持创建...

3个月前

026.4K

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion是清华大学、生数科技和加州大学伯克利分校联合开源的视频生成加速框架，能在保持画质几乎无损的情况下，将视频生成速度提升100-200倍。通过稀疏线性注意力、采样步数蒸馏和8位...

3个月前

030.6K

MedASR - 谷歌开源的医疗语音识别模型

MedASR - 谷歌开源的医疗语音识别模型

MedASR是谷歌开源的1.05亿参数医疗语音识别模型，在5000小时脱敏临床语料上微调，针对药品、剂量、解剖术语优化，内置6-gram医学语言模型，在私有放射科数据集RAD-DICT上词错率仅4.6...

3个月前

031.1K

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型，直接语音进语音出，无需ASR+LLM+TTS拼接，中文英文双语流利，延迟低、音色自然。采用双分辨率共享LLM与25Hz...

3个月前

027.6K

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill - 开源的结构化提示词生成AI工具，专为AI绘画设计

PromptFill是专为AI绘画设计的结构化提示词生成工具，通过可视化的“填空”交互方式，帮助用户快速构建、管理和迭代复杂的Prompt，提升AI图像生成的效率与质量。PromptFill的核心功能...

3个月前

027.4K

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7是智谱AI发布并开源的最新一代旗舰大模型，主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出，具备多语言编码、长程任务规划和工具协同能力...

4个月前

043.4K

NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen是英伟达联合斯坦福大学、加州理工学院等机构研发的开源游戏AI模型，能玩转超1000款不同类型游戏。模型基于GROOT N1.5架构，通过分析4万小时游戏视频数据（含手柄操作标注），实现...

4个月前

036.2K

Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered是阿里团队开源的AI图像编辑模型，能将普通图片智能分解为独立的透明图层，实现类似Photoshop的精准编辑。模型采用Apache 2.0协议开源，支持灵活控制图层...

4个月前

038.8K

VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP（Visual Tokenizer Pre-training）是MiniMax海螺视频团队提出的视觉生成模型关键技术，通过改进视觉分词器（tokenizer）的预训练方法提升生成系统性能。传统方...

4个月前

031.2K

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 是谷歌开源的新一代编码器 - 解码器模型，基于 Gemma 3 架构升级而来，具备多模态和长上下文处理能力。支持文本和图像等多种数据类型，能处理超长上下文（最高 128K），在生成...

4个月前

029.9K

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma是谷歌推出的专为函数调用优化的轻量级AI模型，基于2.7亿参数的Gemma 3基础模型开发，可在手机、浏览器等设备上实时将自然语言转换为可执行API指令。核心特点是支持本地离...

4个月前

029.5K

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - 苹果开源的单目视图3D场景合成技术

SHARP（Sharp Monocular View Synthesis in Less Than a Second）是苹果开源的单目视图合成技术。能从单张照片快速生成逼真的3D场景表示，仅需不到一秒...

4个月前

033.2K

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2是微软开源的大型3D生成模型，拥有40亿参数，专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构，能高效处理复杂拓扑和锐利特征，生成具有全PBR材质的高质量3D资...

4个月前

039.7K

Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI是阶跃星辰公司开源的AI Agent系列模型，包括云端模型Step-GUI、首个面向GUI Agent的MCP协议，以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专...

4个月前

037.3K

A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI（Agent-to-User Interface）是谷歌开源的Agent驱动型界面协议，解决AI代理生成复杂交互界面的难题。通过一种声明式JSON格式，让AI代理描述用户界面的结构，客户端应用...

4个月前

044K

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio是Meta推出的开源多模态音频分割模型，从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示，实现灵活、高效的音频处理，为音频编辑、去噪、声音提取等任务提供了...

4个月前

032.1K

混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

混元世界模型1.5（Tencent HY WorldPlay）是腾讯发布的业界首个开源的实时世界模型框架，涵盖数据、训练、流式推理部署等全链路。核心是WorldPlay自回归扩散模型，采用Next-F...

4个月前

033.2K

Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2是Allen Institute for AI（Ai2）发布的开源多模态模型，提升视频和多图像理解能力。包含三个变体：Molmo 2（8B）、Molmo 2（4B）和Molmo 2-O...

4个月前

037.9K

LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型

LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型，专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。

4个月前

038.7K

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash是小米发布的开源MoE架构大模型，总参数3090亿，活跃参数150亿，主打高效推理和智能体应用。模型采用混合注意力架构与多词元预测技术，推理速度达150 tokens/秒，成...

4个月前

035K

Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 - 英伟达发布的开源 AI 模型系列

Nemotron 3 是英伟达发布的开源 AI 模型系列，包含 Nano、Super 和 Ultra 三种规格。采用混合潜在专家混合（latent MoE）架构，显著提升推理效率并降低运行成本。其中...

4个月前

031.7K

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move是阿里通义实验室、清华大学等机构联合开发的开源AI视频生成框架，专注于通过精准运动控制技术实现高质量视频合成。核心技术是"潜在轨迹引导"，能在现有图像到视频模型基础上无缝添加点级运动控...

4个月前

031.8K

PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe - 阶跃星辰开源的并行协同AI推理框架

PaCoRe（Parallel Coordinated Reasoning）是阶跃星辰（StepFun）开源的创新的并行协同推理框架，通过大规模并行思考机制，从多个角度同时探索问题解决方案，突破了传统...

4个月前

035.1K

Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides是基于Nano Banana Pro AI模型的开源智能PPT生成工具，支持通过自然语言指令快速创建专业演示文稿。允许用户用一句话描述主题（如“人类对生态环境的影响”），可自...

4个月前

040.4K

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频，解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据...

4个月前

030.7K

Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides是香港大学数据智能实验室开源的AI工具，可一键将学术论文转换为专业幻灯片或海报。采用RAG（检索增强生成）技术，直接解析文档内容而非依赖网络信息，确保生成的PPT与原文高度一致...

4个月前

032.6K

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo 是智谱 AI 开源的实时流式视频生成系统，能在 2 至 3 秒内快速生成自然流畅的视频回应。用户只需上传一张照片并输入文字，系统能生成对应的语音和视频，实现与 AI 角色的实时对话...

4个月前

029.5K

OpenScreen - 开源免费的屏幕录制工具，支持Mac和Windows双系统

OpenScreen - 开源免费的屏幕录制工具，支持Mac和Windows双系统

OpenScreen 是开源免费的屏幕录制工具，为用户提供一个简单易用且功能完善的 Screen Studio 替代品。支持 Mac 和 Windows 双系统，完全免费且遵循 MIT 协议，可用于个...

4个月前

036.7K

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL - 智谱联合清华开源的影视级角色动画生成框架

SCAIL（Studio-Grade Character Animation via In-Context Learning）是智谱与清华大学刘永进教授课题组合作提出的一种影视级角色动画生成框架。通过...

4个月前

032K

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA是谷歌开源的AI研究Agent测试基准，专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务，覆盖17个领域，要求AI像人类研究员一样通过多步骤推...

4个月前

032.2K

Claude-Mem - 开源Claude Code记忆插件，支持跨会话持久化记忆

Claude-Mem - 开源Claude Code记忆插件，支持跨会话持久化记忆

Claude-Mem 是为 Claude Code 设计的开源插件，解决 AI 在跨会话中记忆丢失的问题。通过自动捕获工具使用观察结果、生成语义摘要，在后续会话中注入相关上下文，帮助 Claude 在...

4个月前

050.9K

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA 是开源的智能售后服务系统，由 Chaitin 团队开发。基于 AI 大模型，提供 AI 客服、AI 搜索和知识库管理等功能，帮助企业快速搭建智能问答平台。系统支持 24/7 实时应答...

4个月前

027.8K

VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 是面壁智能发布的开源语音生成模型，基于无需分词器的文本到语音（TTS）技术，具有多项创新和改进。采用端到端的扩散自回归架构，直接从文本生成连续的语音波形，避免了传统分词方法的局限...

4个月前

038.7K

Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe是Mistral AI推出的开源命令行编码助手，基于Devstral模型开发，支持自然语言交互完成代码搜索、文件操作、版本控制等任务。能自动扫描项目结构和Git状态，通过@符号...

4个月前

029.8K

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS 是智谱推出的开源工业级语音合成系统，具备强大的语音合成能力。采用两阶段生成架构：第一阶段将文本转换为语音令牌序列，第二阶段将令牌序列转换为高质量音频。系统支持仅用3秒语音样本即可完成音...

4个月前

029.4K

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2是Mistral AI 推出的针对软件工程任务设计的新一代编程模型家族，包含 Devstral 2（123B 参数）和 Devstral Small 2（24B 参数）两个版本。D...

4个月前

028.9K

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR - 智谱AI开源的高性能语音识别模型系列

GLM-ASR是智谱AI开源的高性能语音识别模型系列，包含云端模型GLM-ASR-2512和开源端侧模型GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型，支持多...

4个月前

035.5K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型，能通过多模态感知理解手机屏幕内容，自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求，如“打开美团搜索附近的火锅...

4个月前

031.9K

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense 是开源的 AI 研究与知识管理工具。高度可定制，能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源，方便用户整合信息。用户可上传多种...

4个月前

029.6K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V是智谱AI开源的多模态大语言模型系列，系列包含两个版本：GLM-4.6V（106B-A12B），面向云端与高性能集群场景的基础版，采用混合专家（MoE）架构，总参数量约1060亿，激活...

4个月前

026.8K

InkSight - Google开源的AI手写识别工具

InkSight - Google开源的AI手写识别工具

InkSight是Google开源的AI手写识别工具，能将纸质手写笔记转换为可编辑的数字墨迹文件（如SVG格式）。与传统OCR不同，能识别文字内容，能还原笔迹样式、段落结构和重点标记，支持多语言处理。

4个月前

025.7K