混元图像2.1 - 腾讯推出的开源文生图模型混元图像2.1(HunyuanImage 2.1)是腾讯推出的开源文生图模型,专为高质量图像生成设计。模型支持原生2K分辨率,能精准呈现复杂场景和细节,使人物表情和动作能生动还原。最新AI资源6个月前033K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列Molmo 2是Allen Institute for AI(Ai2)发布的开源多模态模型,提升视频和多图像理解能力。包含三个变体:Molmo 2(8B)、Molmo 2(4B)和Molmo 2-O...最新AI资源3个月前033K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型UniPixel是香港理工大学、腾讯、中国科学院和vivo等机构联合提出的新型多模态模型,实现像素级视觉语言理解。通过统一对象指代和分割能力,支持多种细粒度任务,如图像分割、视频分割、区域理解以及Pi...最新AI资源5个月前032.9K
CWM - Meta FAIR开源的代码世界语言模型CWM(Code World Model)是Meta FAIR团队发布的一款320亿参数的开源代码世界语言模型,专为代码生成和推理设计。引入“世界模型”概念,能模拟代码执行过程,预测变量状态变化,提前...最新AI资源6个月前032.9K
LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作LandPPT是基于大语言模型的开源AI PPT生成工具,支持通过主题或上传文档(PDF/Word/Excel)一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能,提供丰富的模板和场景...最新AI资源2个月前032.7K
Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。最新AI资源6个月前032.7K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型Depth Anything 3(DA3)是字节跳动Seed团队研发开源的3D视觉重建模型。通过单一Transformer架构实现任意视角下的空间几何重建,仅需预测深度图和射线图即可还原三维场景,相比...最新AI资源4个月前032.6K
IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化...最新AI资源2个月前032.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型混元世界模型1.1(WorldMirror)是腾讯混元团队发布的开源3D重建大模型,是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入,突破了传统3D重建仅依...最新AI资源5个月前032.5K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型Alpamayo-R1是英伟达研发的具有推理能力的视觉-语言-行动(VLA)模型,专为提升自动驾驶在复杂场景中的决策能力设计。通过引入因果链推理机制,让车辆能像人类驾驶员一样分析场景因果关系(如“因前...最新AI资源3个月前032.5K
nanobot - HKUDS开源的超轻量级个人AI助手框架nanobot 是香港大学数据智能实验室(HKUDS)开源的超轻量级个人AI助手框架,仅用约 4,000行Python代码实现了完整的多通道AI助手功能。作为 OpenClaw 的轻量替代品,nano...最新AI资源1个月前032.3K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目Paper2Video 是新加坡国立大学 Show Lab 开源的学术论文自动生成演示视频项目。通过 PaperTalker 多智能体框架,将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频...最新AI资源5个月前032.2K
HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型HunyuanVideo 1.5 是腾讯混元大模型团队开源的轻量级视频生成模型,基于 Diffusion Transformer(DiT)架构,参数量为 8.3B。支持生成 5-10 秒的高清视频,分...最新AI资源4个月前032.2K
EverMemOS - 盛大团队推出的开源长期记忆操作系统EverMemOS是陈天桥领导的盛大团队推出的开源长期记忆操作系统,专为AI智能体设计,解决大语言模型因固定上下文窗口导致的记忆断裂问题。系统基于人类大脑记忆机制,采用四层架构(代理层、记忆层、索引层...最新AI资源4个月前032.2K
Mini-o3 - 字节、港大联合开源的视觉推理模型Mini-o3是字节跳动和香港大学联合推出的开源模型,专注于解决复杂视觉搜索问题。模型具备强大的多轮交互推理能力,能通过深度探索和试错定位目标。最新AI资源6个月前032.2K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型,专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近,实现精准的语义检索。最新AI资源5个月前032.1K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型MAI-UI是阿里巴巴通义实验室开源的通用GUI智能体基座模型,具备跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调四大能力。采用端云协同架构,轻量模型驻守设备处理日常任务,复杂任务可调用云端大...最新AI资源3个月前032.1K
女娲智能体OS - 西南财经开源的通用智能体操作系统女娲智能体OS(Nuwax Agent OS)是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎,可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...最新AI资源2个月前032K
Granite-Docling-258M - IBM开源的视觉语言模型Granite-Docling-258M 是 IBM 推出的超紧凑开源视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。最新AI资源6个月前031.9K
TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面TuriX-CUA 是开源的 AI 桌面自动化工具,能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统,通过先进的计算机...最新AI资源2个月前031.8K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型NitroGen是英伟达联合斯坦福大学、加州理工学院等机构研发的开源游戏AI模型,能玩转超1000款不同类型游戏。模型基于GROOT N1.5架构,通过分析4万小时游戏视频数据(含手柄操作标注),实现...最新AI资源3个月前031.7K
LongCat-Flash-Thinking - 美团开源的高效推理模型LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型,在保持 LongCat-Flash-Chat 极速的同时,变得更强大、更专业。模型在逻辑、数学、代码、智能...最新AI资源6个月前031.7K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架AnyI2V是复旦大学、阿里巴巴达摩院等联合推出的图像动画生成框架,支持将静态的条件图像(如网格、点云等)转化为动态视频,无需复杂的训练过程和大量数据。最新AI资源6个月前031.6K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型GELab-Zero是阶跃团队开源的端侧多模态GUI Agent模型,基于Qwen3-VL-4B-Instruct基座模型构建,参数量为4B。能识别UI元素并执行点击、滑动等操作,支持跨应用任务处理...最新AI资源3个月前031.5K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型,具有重要的行业意义。能在无需微调的情况下,驱动多种不同构造的真实机器人完成基础操作任务,在少量样本微调后展现出对复...最新AI资源5个月前031.4K
VLAC - 上海AI Lab开源的具身奖励大模型VLAC是上海人工智能实验室开源的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效...最新AI资源6个月前031.4K
AionUi - 免费开源的多AI Agent桌面应用AionUi是一个免费开源的多AI Agent桌面应用,支持将Gemini CLI、Claude Code等命令行AI工具整合到图形界面,提供本地文件操作、多会话管理、跨平台运行等功能。支持macOS...最新AI资源4周前031.3K
GLM-ASR - 智谱AI开源的高性能语音识别模型系列GLM-ASR是智谱AI开源的高性能语音识别模型系列,包含云端模型GLM-ASR-2512和开源端侧模型GLM-ASR-Nano-2512。GLM-ASR-2512是全球领先的云端语音识别模型,支持多...最新AI资源3个月前031.1K
nanochat - Karpathy免费开源的低成本模型训练项目nanochat是AI领域传奇人物、前特斯拉AI总监Andrej Karpathy发布的开源项目,以极低的成本和简单的操作,让个人能快速训练出一个类似ChatGPT的小型语言模型。整个项目仅用约800...最新AI资源5个月前031.1K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型混元Motion1.0(HY-Motion1.0)是腾讯混元团队开源的文本生成3D动作模型,采用10亿参数Diffusion Transformer架构,能通过自然语言描述直接生成高质量3D角色动画。最新AI资源2个月前031K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型MiMo-Embodied是小米集团开源的全球首个成功融合具身智能(Embodied AI)与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题,实现两大领域的任务统一建模。最新AI资源4个月前031K
Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台Paper2Any是北京大学DCAI课题组开源的多模态辅助平台,专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能,能从多种输入源生成模型架构图、技术路线图和实验数据图等...最新AI资源2个月前031K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型,参数量仅10亿。基于混元多模态架构开发,采用端到端设计,能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分,超越...最新AI资源4个月前030.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建LazyCraft 是商汤基于开源框架 LazyLLM 构建的开源 AI Agent 应用开发与管理平台,为企业和开发者提供一站式AI应用开发解决方案。帮助开发者以低门槛、低成本快速构建和发布大模型应...最新AI资源4个月前030.9K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策...最新AI资源6个月前030.8K
PaCoRe - 阶跃星辰开源的并行协同AI推理框架PaCoRe(Parallel Coordinated Reasoning)是阶跃星辰(StepFun)开源的创新的并行协同推理框架,通过大规模并行思考机制,从多个角度同时探索问题解决方案,突破了传统...最新AI资源3个月前030.6K
OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统OpenScreen 是开源免费的屏幕录制工具,为用户提供一个简单易用且功能完善的 Screen Studio 替代品。支持 Mac 和 Windows 双系统,完全免费且遵循 MIT 协议,可用于个...最新AI资源3个月前030.6K
聆音EchoCare - 香港科学院开源的超声基座大模型聆音EchoCare是中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)研发的超声基座大模型,基于全球最大的超声影像数据集(超450万张图像)训练而成,覆盖多中心、多地区、多人种及50余个人...最新AI资源5个月前030.5K
FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0.5秒一小段接力处理,配合结构化...最新AI资源2个月前030.4K
Qwen3-Next - 阿里通义推出的最新基础模型Qwen3-Next是阿里通义开源的新一代混合架构大模型,结合了Gated DeltaNet和Gated Attention技术,擅长处理长文本,推理速度快且节省计算资源。最新AI资源6个月前030.4K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架,将图像编辑任务重新定义为视频生成任务,以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的预训练视频生成模型中蒸馏出...最新AI资源4个月前030.1K
MobileLLM-R1 - Meta开源的专项高效推理模型系列MobileLLM-R1是Meta开源的系列高效推理模型,专为数学、编程和科学推理设计。包含基础模型和最终模型,分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型,是经过监督微调(SFT...最新AI资源6个月前030.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型MiMo-V2-Flash是小米发布的开源MoE架构大模型,总参数3090亿,活跃参数150亿,主打高效推理和智能体应用。模型采用混合注意力架构与多词元预测技术,推理速度达150 tokens/秒,成...最新AI资源3个月前030K
Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型,参数规模达千亿,基于Ling 2.0的稀疏MoE架构,总参数103B,激活9B。在全模态理解和生成...最新AI资源5个月前029.9K
AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型AntAngelMed(蚂蚁·安诊儿医疗大模型)是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构(MoE),总参数量达1000亿...最新AI资源2个月前029.8K
Androidify - 谷歌开源如何在Android上构建AI应用的免费资源Androidify 是谷歌开源的帮助开发者学习如何在 Android 上构建 AI 驱动的应用项目。项目使用了谷歌最新的技术,如 Jetpack Compose、Gemini API(通过 Fire...最新AI资源5个月前029.8K
SHARP - 苹果开源的单目视图3D场景合成技术SHARP(Sharp Monocular View Synthesis in Less Than a Second)是苹果开源的单目视图合成技术。能从单张照片快速生成逼真的3D场景表示,仅需不到一秒...最新AI资源3个月前029.8K
FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型,专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成,能在不到1秒内...最新AI资源2个月前029.8K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型,采用8B参数规模,通过紧凑三阶段训练流程(语言-图像对齐、概念均衡与知识注入、指令微调)在128张A800...最新AI资源5个月前029.6K
DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型,核心创新在于采用DeepEncoder V2架构,将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...最新AI资源2个月前029.4K
VitaBench - 美团LongCat开源的交互式Agent评测基准VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准,评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体,构建包...最新AI资源5个月前029.4K
OmniVinci - NVIDIA开源的全模态大语言模型OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型,通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐,利用时间嵌入分组捕捉...最新AI资源5个月前029.3K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型KAT-Dev-72B-Exp是快手团队推出的开源编程专用大语言模型,基于强化学习技术优化,在SWE-Bench Verified基准测试中取得74.6%的准确率,目前开源模型中表现最佳。模型采用创新...最新AI资源5个月前029.3K
FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型,基于扩散 Transformer 架构,在 GEdit、ImgEdit 等多个权威评测...最新AI资源3周前029.2K
VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型VibeThinker-1.5B是微博AI开源的15亿参数的大型语言模型。基于阿里巴巴的Qwen2.5-Math-1.5B进行精细调整,专为数学和代码任务优化,表现出色,推理性能在行业内处于领先水平。最新AI资源4个月前029.2K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件Glow 是开源的命令行工具,用于在终端中优雅地渲染 Markdown 文件。工具支持高亮代码块、数学公式等复杂元素,提供丰富的功能,如自定义样式、分页显示、鼠标支持等。最新AI资源4个月前029.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具SmartResume 是阿里巴巴开源的智能简历解析与优化工具,能高效地从 PDF、图片或 Office 文档中提取结构化信息,如基本资料、教育经历和工作经验等。通过融合 OCR 技术和 PDF 元数...最新AI资源4个月前029.1K
GPT-5-Codex - OpenAI推出的最强编程模型GPT-5-Codex 是 OpenAI 推出的强大的编程优化模型,基于 GPT-5 进一步强化,专为软件工程师设计。模型能快速生成高质量代码,支持多种编程语言,且能优化现有代码提升性能。最新AI资源6个月前028.9K
FIBO - 全球首个开源原生支持JSON的文本生成图像模型FIBO 是 Bria AI 开发的全球首个开源的原生支持 JSON 的文本生成图像模型。基于 8B 参数的 DiT(扩散 Transformer)架构,采用流匹配(Flow Matching)训练方...最新AI资源5个月前028.7K
SAM 3D - Meta开源的3D重建模型系列SAM 3D是Meta公司推出的基于SAM系列的3D重建模型,包含SAM 3D Objects和SAM 3D Body两个分支。其中SAM 3D Objects能从单张照片生成可交互的3D物体模型,支...最新AI资源4个月前028.6K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架混元世界模型1.5(Tencent HY WorldPlay)是腾讯发布的业界首个开源的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路。核心是WorldPlay自回归扩散模型,采用Next-F...最新AI资源3个月前028.6K
Fara-7B - 微软开源的计算机操作Agent助手模型Fara-7B是微软开源发布的70亿参数规模的计算机操作代理(CUA)模型,基于Qwen2.5-VL-7B架构。通过视觉解析网页截图,在屏幕上执行点击、输入等操作,无需依赖额外的可访问性树或多个大模型...最新AI资源4个月前028.5K
MedASR - 谷歌开源的医疗语音识别模型MedASR是谷歌开源的1.05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4.6...最新AI资源3个月前028.4K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建Frappe Builder是开源的低代码建站工具,由Frappe公司开发,核心特点是提供类似Figma的可视化编辑器,支持拖拽组件快速搭建网站。属于Frappe生态(Frappeverse)的一部分...最新AI资源4个月前028.4K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型,能通过多模态感知理解手机屏幕内容,自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求,如“打开美团搜索附近的火锅...最新AI资源3个月前028.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具Paper2Slides是香港大学数据智能实验室开源的AI工具,可一键将学术论文转换为专业幻灯片或海报。采用RAG(检索增强生成)技术,直接解析文档内容而非依赖网络信息,确保生成的PPT与原文高度一致...最新AI资源3个月前028.3K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书ClipSketch AI是开源的视频转手绘分镜工具,专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板,支持标记关键帧、自动生成分镜和社交文案,能融合用户自定义角色。最新AI资源3个月前028.2K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型Step-Audio-EditX是开源的音频编辑大模型,由阶跃星辰团队研发,专注于通过人工智能技术实现音频内容的精细操控。模型能动态调整音频的情绪、说话风格(如撒娇、老人腔等)和副语言元素(如笑声、叹...最新AI资源4个月前028.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目OpenAgents 是开源项目,创建 AI 代理网络并促进代理之间的开放协作。提供了一个基础的网络基础设施,使 AI 代理能无缝连接和协作。用户可以快速启动自己的代理网络,通过模块化架构扩展功能,支...最新AI资源5个月前028K
LongCat-Flash-Omni - 美团开源的全模态大语言模型LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模(激活参数270亿),在保持庞大参数量的同时,实现了毫秒级的实时音视频交互能力。最新AI资源4个月前027.9K
SAM Audio - Meta推出的开源多模态音频分割模型SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了...最新AI资源3个月前027.9K
OpenAkita - 开源的自进化AI助手框架,多平台无缝协作OpenAkita是开源的自进化AI助手框架,提供智能、灵活且易于使用的AI辅助工具。每日自动执行内存整合、错误自检与修复、任务复盘,遇到卡壳时自动生成新技能并安装依赖,越用越聪明。支持Windows...最新AI资源3周前027.9K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型ERNIE-4.5-21B-A3B-Thinking 是百度开源的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口...最新AI资源6个月前027.7K
ClawFeed - 开源AI新闻摘要工具,一站式聚合任意网站内容ClawFeed是开发者Kevin He推出的开源AI新闻摘要工具,解决信息过载问题。通过聚合Twitter、RSS、GitHub等多平台信息源,利用AI自动生成4小时、每日、每周和每月的结构化摘要...最新AI资源2周前027.6K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案LongCat-Audio-Codec是美团LongCat团队开源的语音编解码方案。方案专为语音大语言模型(Speech LLM)设计,通过语义与声学双Token并行提取机制,兼顾语音的语义和声学特征...最新AI资源5个月前027.6K
Zen Browser - 基于Firefox内核的开源AI网页浏览器Zen Browser是基于Firefox内核的开源浏览器,主打简洁高效的浏览体验,核心特色是垂直标签栏和工作区隔离功能。采用侧边栏设计,能清晰展示50+个标签页的完整标题,支持多窗口分屏浏览。最新AI资源3个月前027.6K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架Wan-Move是阿里通义实验室、清华大学等机构联合开发的开源AI视频生成框架,专注于通过精准运动控制技术实现高质量视频合成。核心技术是"潜在轨迹引导",能在现有图像到视频模型基础上无缝添加点级运动控...最新AI资源3个月前027.5K
Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型,最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...最新AI资源2个月前027.5K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统AutoMV是M-A-P团队联合多所高校研发的开源音乐视频生成系统,能在无需训练的情况下根据完整歌曲自动生成连贯的MV。采用多智能体协作模式,包含音乐分析、编剧、导演和质检等模块,能精准解析歌词、节拍...最新AI资源2个月前027.5K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准DeepSearchQA是谷歌开源的AI研究Agent测试基准,专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务,覆盖17个领域,要求AI像人类研究员一样通过多步骤推...最新AI资源3个月前027.5K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架PersonaLive是开源的实时AI换脸直播框架,由澳门大学、dzine.ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡(12GB显存)上实现低延迟、高帧率的数字人驱动,支持通过摄像头实时...最新AI资源3个月前027.4K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型LLaSO是北京深度逻辑智能科技有限公司推出的开源语音模型,通过整合语音与文本数据,提供对齐数据集、指令微调数据集和评估基准,解决了大型语音语言模型领域数据分散、任务覆盖不足等问题。最新AI资源6个月前027.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频,解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据...最新AI资源3个月前027.4K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术VTP(Visual Tokenizer Pre-training)是MiniMax海螺视频团队提出的视觉生成模型关键技术,通过改进视觉分词器(tokenizer)的预训练方法提升生成系统性能。传统方...最新AI资源3个月前027.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型UniWorld V2是兔展智能与北京大学UniWorld团队联合推出的新一代图像编辑模型。在图像编辑领域具有显著优势,特别是在中文理解和复杂指令执行方面表现出色。模型能精准渲染艺术中文字体,支持精细...最新AI资源4个月前027.3K
GLM-5 - 智谱AI推出的旗舰级开源大模型GLM-5是智谱AI推出的旗舰级开源大模型,采用744B参数规模(激活40B),专为Agentic Engineering智能体工程打造。模型在编程与Agent能力上取得开源SOTA表现,SWE-be...最新AI资源1个月前027.3K
Nemotron 3 - 英伟达发布的开源 AI 模型系列Nemotron 3 是英伟达发布的开源 AI 模型系列,包含 Nano、Super 和 Ultra 三种规格。采用混合潜在专家混合(latent MoE)架构,显著提升推理效率并降低运行成本。其中...最新AI资源3个月前027.3K
json-render - Vercel Labs开源的AI生成UI的工具json-render是Vercel Labs开源的AI生成UI的工具,通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据,前端再...最新AI资源2个月前027.1K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替SurfSense 是开源的 AI 研究与知识管理工具。高度可定制,能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源,方便用户整合信息。用户可上传多种...最新AI资源3个月前027.1K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型T5Gemma 2 是谷歌开源的新一代编码器 - 解码器模型,基于 Gemma 3 架构升级而来,具备多模态和长上下文处理能力。支持文本和图像等多种数据类型,能处理超长上下文(最高 128K),在生成...最新AI资源3个月前027K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务TalkCody是免费开源的AI编程助手桌面应用,基于Rust + Tauri 2构建,支持Windows、macOS和Linux三大平台,具有原生性能、快速启动和低资源占用的优势。支持50多种主流A...最新AI资源3个月前026.9K
Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型Qwen3-Coder-Next是阿里巴巴通义千问团队开源的专为编程智能体设计的高效混合模型,基于80B总参数的Qwen3-Next架构,推理时仅激活3B参数。核心创新在于采用环境交互和强化学习训练方...最新AI资源1个月前026.9K
SceneGen - 上海交大开源的单图像生成3D场景框架SceneGen是上海交通大学开源的单图像生成3D场景的方法,从单张场景图像及目标资源蒙版中,高效生成包含多个3D资源的完整场景,包括资源的几何结构、纹理及相对空间位置。最新AI资源5个月前026.8K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台Astron Agent是科大讯飞开源的企业级智能工作流开发平台,专注于帮助企业快速构建可落地的AI代理应用。采用Java+Spring Boot技术栈,支持轻量化私有化部署(最低2核4G配置),内置...最新AI资源4个月前026.8K
Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型,属于Qwen3-VL系列,主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间,通过双塔架构生成向量表...最新AI资源2个月前026.7K
Omnilingual ASR - Meta推出的多语言语音识别框架Omnilingual ASR是Meta推出的多语语音识别框架,覆盖1600+语言,78%语言字符错误率低于10%。其70亿参数wav2vec 2.0编码器结合CTC与Transformer解码器,支...最新AI资源4个月前026.6K
MemMachine - MemVerge推出的开源AI记忆系统MemMachine是MemVerge公司开发的开源AI记忆系统,专为AI大模型和智能体设计,能像人脑一样存储和回忆交互数据,解决AI“无状态失忆”问题。采用分层架构(短期记忆、长期记忆、用户画像...最新AI资源3个月前026.5K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型DeepSeek-Math-V2是幻方旗下AI公司DeepSeek开源的数学推理模型,最新版本基于DeepSeek-V3.2-Exp-Base改进,性能超越Gemini DeepThink,达到国际数...最新AI资源4个月前026.5K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架TurboDiffusion是清华大学、生数科技和加州大学伯克利分校联合开源的视频生成加速框架,能在保持画质几乎无损的情况下,将视频生成速度提升100-200倍。通过稀疏线性注意力、采样步数蒸馏和8位...最新AI资源3个月前026.5K