最新AI资源

共 3143 篇文章

课程资料最新AI资源 AI知识库 AI新闻

排序

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0是智源研究院开源的全球首个支持零样本跨本体泛化的开源具身模型，具有重要的行业意义。能在无需微调的情况下，驱动多种不同构造的真实机器人完成基础操作任务，在少量样本微调后展现出对复...

10个月前

049.9K

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 是腾讯混元大模型团队开源的轻量级视频生成模型，基于 Diffusion Transformer（DiT）架构，参数量为 8.3B。支持生成 5-10 秒的高清视频，分...

8个月前

049.8K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

7个月前

049.7K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR是腾讯混元团队开源的高性能光学字符识别模型，参数量仅10亿。基于混元多模态架构开发，采用端到端设计，能高效处理文字检测、识别及文档解析任务。模型在复杂文档测试中得分94.1分，超越...

8个月前

049.7K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

6个月前

049.6K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

7个月前

049.5K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

7个月前

049.3K

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2 - Mistral AI 推出的新一代编程模型家族

Devstral 2是Mistral AI 推出的针对软件工程任务设计的新一代编程模型家族，包含 Devstral 2（123B 参数）和 Devstral Small 2（24B 参数）两个版本。D...

8个月前

049.3K

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat是AI领域传奇人物、前特斯拉AI总监Andrej Karpathy发布的开源项目，以极低的成本和简单的操作，让个人能快速训练出一个类似ChatGPT的小型语言模型。整个项目仅用约800...

10个月前

049.2K

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1是英伟达研发的具有推理能力的视觉-语言-行动（VLA）模型，专为提升自动驾驶在复杂场景中的决策能力设计。通过引入因果链推理机制，让车辆能像人类驾驶员一样分析场景因果关系（如“因前...

8个月前

049.1K

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench是美团LongCat团队发布的首个面向复杂生活场景的交互式Agent评测基准，评估大模型智能体在真实生活场景中的综合能力。以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为载体，构建包...

9个月前

049K

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型，突破传统视觉语言模型（VLM）仅能理解图像文字的局限，通过在机器人操作数据上的持续预训练，实现从"图文理解"向具备物理常...

6个月前

049K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO是北京深度逻辑智能科技有限公司推出的开源语音模型，通过整合语音与文本数据，提供对齐数据集、指令微调数据集和评估基准，解决了大型语音语言模型领域数据分散、任务覆盖不足等问题。

11个月前

048.9K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video 是新加坡国立大学 Show Lab 开源的学术论文自动生成演示视频项目。通过 PaperTalker 多智能体框架，将论文转化为包含幻灯片、字幕、语音和演讲者头像的完整演示视频...

10个月前

048.8K

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA - 开源的AI售后服务系统，帮企业快速搭建问答平台

KoalaQA 是开源的智能售后服务系统，由 Chaitin 团队开发。基于 AI 大模型，提供 AI 客服、AI 搜索和知识库管理等功能，帮助企业快速搭建智能问答平台。系统支持 24/7 实时应答...

8个月前

048.6K

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn是专为Python开发者设计的智能代码质量分析工具，主要用于检测代码中的潜在问题以提升可维护性。通过控制流图分析死代码、利用APTED+LSH算法识别重复代码，计算模块耦合度和圈复杂度等指标...

10个月前

048.5K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1是Meta开源的系列高效推理模型，专为数学、编程和科学推理设计。包含基础模型和最终模型，分别有1.4亿、3.6亿和9.5亿参数版本。模型并非通用聊天模型，是经过监督微调（SFT...

11个月前

048.4K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied是小米集团开源的全球首个成功融合具身智能（Embodied AI）与自动驾驶的跨具身基础模型。解决具身智能与自动驾驶之间的知识迁移难题，实现两大领域的任务统一建模。

8个月前

048.4K

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci 是 NVIDIA 开发的开源全模态大型语言模型，通过架构革新和数据优化解决多模态模型中的模态割裂问题。通过 OmniAlignNet 加强视觉和音频嵌入的对齐，利用时间嵌入分组捕捉...

9个月前

048.4K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA·M1 是上海人工智能实验室开源的具身操作“大脑”，是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环，负责高阶的空间推理与任务规划。模型采用两阶段训练策...

11个月前

048.3K

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding 是腾讯优图实验室开源的通用文本表示模型，专为企业级应用设计。通过深度神经网络将文本映射到高维向量空间，使语义相似的句子在该空间中距离更近，实现精准的语义检索。

10个月前

048.1K

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型，直接语音进语音出，无需ASR+LLM+TTS拼接，中文英文双语流利，延迟低、音色自然。采用双分辨率共享LLM与25Hz...

7个月前

047.9K

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO 是 Bria AI 开发的全球首个开源的原生支持 JSON 的文本生成图像模型。基于 8B 参数的 DiT（扩散 Transformer）架构，采用流匹配（Flow Matching）训练方...

9个月前

047.9K

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-Flash-Thinking 是美团 LongCat 团队发布的高效推理模型，在保持 LongCat-Flash-Chat 极速的同时，变得更强大、更专业。模型在逻辑、数学、代码、智能...

10个月前

047.8K

Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型

Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型

Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构，激活仅8专家22B参数，兼顾性能与效率。模型基于SAGE架构，引入傅里叶位置编码，统一...

6个月前

047.8K

DeepSeek-TUI - 开源终端 AI 编程智能体，终端原生 TUI 界面

DeepSeek-TUI - 开源终端 AI 编程智能体，终端原生 TUI 界面

DeepSeek-TUI 是美国独立开发者 Hunter Bown（GitHub: Hmbown）用 Rust 语言编写的开源终端 AI 编程智能体，专为 DeepSeek V4 系列模型（Pro/F...

3个月前

047.7K

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混元世界模型1.1（WorldMirror）是腾讯混元团队发布的开源3D重建大模型，是混元世界模型系列的升级版本。支持多视图图像、视频以及相机位姿、内参、深度图等多模态先验输入，突破了传统3D重建仅依...

9个月前

047.7K

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI - 开源的AI视频转手绘分镜工具，支持B站、小红书

ClipSketch AI是开源的视频转手绘分镜工具，专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板，支持标记关键帧、自动生成分镜和社交文案，能融合用户自定义角色。

7个月前

047.7K

RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型

RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型

RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型，为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...

6个月前

047.6K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking 是百度开源的专注于推理任务的大型语言模型。采用混合专家（MoE）架构，总参数量达210亿，每个token激活30亿参数，支持128K的长上下文窗口...

11个月前

047.6K

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM 是智谱AI开源的具有“手机使用”能力的智能体模型，能通过多模态感知理解手机屏幕内容，自动生成操作流程来完成用户指定的任务。用户只需用自然语言描述需求，如“打开美团搜索附近的火锅...

8个月前

047.4K

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架，将图像编辑任务重新定义为视频生成任务，以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的预训练视频生成模型中蒸馏出...

9个月前

047.3K

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow 是开源的命令行工具，用于在终端中优雅地渲染 Markdown 文件。工具支持高亮代码块、数学公式等复杂元素，提供丰富的功能，如自定义样式、分页显示、鼠标支持等。

9个月前

047.3K

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive是开源的实时AI换脸直播框架，由澳门大学、dzine.ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡（12GB显存）上实现低延迟、高帧率的数字人驱动，支持通过摄像头实时...

7个月前

047.2K

Infographic - 阿里AntV团队开源的信息图生成框架

Infographic - 阿里AntV团队开源的信息图生成框架

Infographic是阿里AntV团队开源的新一代框架，基于G2和Ant Design开发，专注于快速生成高质量信息图，提供30+布局模板、120+预设主题及AI智能生成功能。

7个月前

047.1K

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder是开源的低代码建站工具，由Frappe公司开发，核心特点是提供类似Figma的可视化编辑器，支持拖拽组件快速搭建网站。属于Frappe生态（Frappeverse）的一部分...

9个月前

047.1K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

7个月前

047K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B是微软开源发布的70亿参数规模的计算机操作代理（CUA）模型，基于Qwen2.5-VL-7B架构。通过视觉解析网页截图，在屏幕上执行点击、输入等操作，无需依赖额外的可访问性树或多个大模型...

8个月前

047K

Kimi Work - 月之暗面 Kimi 推出的桌面端产品

Kimi Work - 月之暗面 Kimi 推出的桌面端产品

Kimi Work 是月之暗面（Moonshot AI）公测的桌面端产品，为面向知识工作者的通用型本地 Agent。将 Kimi Code 在工程场景中验证过的本地 Agent 能力，迁移到普通知识工...

2个月前

046.8K

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume 是阿里巴巴开源的智能简历解析与优化工具，能高效地从 PDF、图片或 Office 文档中提取结构化信息，如基本资料、教育经历和工作经验等。通过融合 OCR 技术和 PDF 元数...

9个月前

046.8K

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如...

6个月前

046.7K

觅游 - 美团推出的 AI 原生共生社区

觅游 - 美团推出的 AI 原生共生社区

觅游（Meyo）是美团基础研发 AI 创新产品团队推出的 AI 原生共生社区，目前已进入公测阶段。产品以"养虾"为核心隐喻，将 AI Agent 升级为拥有身份、MBTI 人格、社交关系与成长属性的...

3个月前

046.7K

Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K 是大规模的第一人称视角（egocentric）工厂操作视频数据集，由 build.ai 团队开源。数据集包含 10,000 小时的视频，总帧数达 10.8 亿帧，涉及 2...

9个月前

046.6K

MoMA - 中国移动发布的一站式AI模型服务平台

MoMA - 中国移动发布的一站式AI模型服务平台

MoMA（Mobile Model Access）是中国移动发布的一站式AI模型服务平台。平台接入超300款业界主流AI模型，包括自研"九天"基座大模型及DeepSeek、通义千问、豆包、Kimi...

3个月前

046.5K

Clawith - DataElem 团队开源的多智能体协作平台

Clawith - DataElem 团队开源的多智能体协作平台

Clawith 是 DataElem 团队开源的"OpenClaw for Teams"——面向团队的多智能体协作平台。在保留 OpenClaw 灵魂与记忆能力的基础上，升级为 Aware 自主感知系...

5个月前

046.4K

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX是开源的音频编辑大模型，由阶跃星辰团队研发，专注于通过人工智能技术实现音频内容的精细操控。模型能动态调整音频的情绪、说话风格（如撒娇、老人腔等）和副语言元素（如笑声、叹...

9个月前

046.2K

OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents 是开源项目，创建 AI 代理网络并促进代理之间的开放协作。提供了一个基础的网络基础设施，使 AI 代理能无缝连接和协作。用户可以快速启动自己的代理网络，通过模块化架构扩展功能，支...

10个月前

046.1K

Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent是科大讯飞开源的企业级智能工作流开发平台，专注于帮助企业快速构建可落地的AI代理应用。采用Java+Spring Boot技术栈，支持轻量化私有化部署（最低2核4G配置），内置...

9个月前

046.1K

SAM 3D - Meta开源的3D重建模型系列

SAM 3D - Meta开源的3D重建模型系列

SAM 3D是Meta公司推出的基于SAM系列的3D重建模型，包含SAM 3D Objects和SAM 3D Body两个分支。其中SAM 3D Objects能从单张照片生成可交互的3D物体模型，支...

8个月前

046K

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense 是开源的 AI 研究与知识管理工具。高度可定制，能连接搜索引擎、Slack、Jira、Notion、YouTube、GitHub 等众多外部数据源，方便用户整合信息。用户可上传多种...

8个月前

046K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5是EvolvingLMMS-Lab团队开源的多模态模型，采用8B参数规模，通过紧凑三阶段训练流程（语言-图像对齐、概念均衡与知识注入、指令微调）在128张A800...

10个月前

045.7K

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型，每 token 仅激活 110 亿参数，能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...

6个月前

045.5K

Mamoda2.5 - 字节跳动 Mamoda Team 推出的统一多模态生成模型

Mamoda2.5 - 字节跳动 Mamoda Team 推出的统一多模态生成模型

Mamoda2.5 是字节跳动 Mamoda Team 研发的全球首个 25B 级统一多模态生成模型，模型基于自回归-扩散（AR-Diffusion）框架，采用 Qwen3-VL-8B 理解模块与 D...

3个月前

045.5K

VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B是微博AI开源的15亿参数的大型语言模型。基于阿里巴巴的Qwen2.5-Math-1.5B进行精细调整，专为数学和代码任务优化，表现出色，推理性能在行业内处于领先水平。

9个月前

045.4K

SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen是上海交通大学开源的单图像生成3D场景的方法，从单张场景图像及目标资源蒙版中，高效生成包含多个3D资源的完整场景，包括资源的几何结构、纹理及相对空间位置。

10个月前

045.4K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

7个月前

045.4K

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify 是谷歌开源的帮助开发者学习如何在 Android 上构建 AI 驱动的应用项目。项目使用了谷歌最新的技术，如 Jetpack Compose、Gemini API（通过 Fire...

10个月前

045.4K

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - 专为Claude Code设计的开源图形化桌面应用

opcode是专为Claude Code设计的开源图形化桌面应用，开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目，支持创建...

7个月前

045.3K

LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模（激活参数270亿），在保持庞大参数量的同时，实现了毫秒级的实时音视频交互能力。

9个月前

045.1K

ArkClaw - 火山引擎推出的云端AI助手，零门槛部署OpenClaw

ArkClaw - 火山引擎推出的云端AI助手，零门槛部署OpenClaw

ArkClaw是火山引擎推出的云端智能助手平台，基于OpenClaw架构构建，让用户无需繁琐配置可快速部署专属AI Agent。

5个月前

045K

OpenCLI - 开源 AI 命令行工具框架，任何网站变成命令行

OpenCLI - 开源 AI 命令行工具框架，任何网站变成命令行

OpenCLI是开源的命令行工具框架，将网站、Electron应用和本地命令行工具统一转化为可通过命令行操作的接口，将网站（如B站、知乎、Twitter等）和Electron应用（如Cursor、No...

4个月前

044.9K

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview是蚂蚁集团inclusionAI发布的开源全模态大模型，参数规模达千亿，基于Ling 2.0的稀疏MoE架构，总参数103B，激活9B。在全模态理解和生成...

9个月前

044.6K

NocoBase - 免费开源的AI无代码开发平台，可视化构建应用

NocoBase - 免费开源的AI无代码开发平台，可视化构建应用

NocoBase是基于AI驱动的开源无代码开发平台，支持快速搭建业务系统，无需编程即可通过配置完成应用开发。项目采用Apache-2.0协议，提供私有化部署和灵活扩展能力，适用于企业管理、协作平台等场...

9个月前

044.6K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp是快手团队推出的开源编程专用大语言模型，基于强化学习技术优化，在SWE-Bench Verified基准测试中取得74.6%的准确率，目前开源模型中表现最佳。模型采用创新...

10个月前

044.6K

TalkCody - 免费开源的AI编程桌面助手，支持复杂任务

TalkCody - 免费开源的AI编程桌面助手，支持复杂任务

TalkCody是免费开源的AI编程助手桌面应用，基于Rust + Tauri 2构建，支持Windows、macOS和Linux三大平台，具有原生性能、快速启动和低资源占用的优势。支持50多种主流A...

8个月前

044.6K

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine是MemVerge公司开发的开源AI记忆系统，专为AI大模型和智能体设计，能像人脑一样存储和回忆交互数据，解决AI“无状态失忆”问题。采用分层架构（短期记忆、长期记忆、用户画像...

8个月前

044.3K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

6个月前

044.2K

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK（Reinforcement Open Construction Kit）是阿里巴巴开源的智能体训练环境沙箱，解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务...

8个月前

044.2K

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech是复旦大学邱锡鹏教授团队开源的语音到语音（Speech-to-Speech）大模型。突破传统语音处理方式，无需文本引导，直接对语音进行理解和生成，能捕捉语调、情绪等非文字要素，使...

8个月前

044.1K

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0是国内首个利用世界模型生成数据实现真机泛化的端到端视觉-语言-动作（VLA）具身基础模型，由极佳视界与湖北人形机器人创新中心联合发布开源。采用混合Transformer架构，融合...

9个月前

044K

Anijam - Dzine 推出的端到端一体化 AI 动画创作平台

Anijam - Dzine 推出的端到端一体化 AI 动画创作平台

Anijam 是 Dzine 推出的 AI 驱动动画创作平台，用 AI Agent 为任何故事制作动画。并非简单的单片段视频生成工具，是一个端到端的一体化动画工作室。

3个月前

043.9K

小艺Claw - 华为推出的个人手机AI助理，一键接入OpenClaw

小艺Claw - 华为推出的个人手机AI助理，一键接入OpenClaw

小艺Claw是华为基于OpenClaw开源框架推出的AI智能体，集成于小艺App中。小艺Claw打破传统语音助手"被动应答"的交互逻辑，具备自主规划与任务执行能力，可独立完成办公文档处理、信息检索、服...

5个月前

043.6K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

7个月前

043.6K

Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR是Meta推出的多语语音识别框架，覆盖1600+语言，78%语言字符错误率低于10%。其70亿参数wav2vec 2.0编码器结合CTC与Transformer解码器，支...

9个月前

043.6K

Paperclip - 开源的AI Agent编排平台，管理和协调多个AI智能体

Paperclip - 开源的AI Agent编排平台，管理和协调多个AI智能体

Paperclip是开源的AI代理编排平台，定位为“零人工公司操作系统”，用于管理和协调多个AI代理（如OpenClaw、Claude Code等）协同工作。提供组织架构、目标对齐、预算控制、任务追踪...

5个月前

043.6K

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic是原力灵机（Dexmal）开源的具身智能视觉-语言-动作（VLA）模型一站式科研服务平台，解决具身智能领域研究碎片化、效率低等问题。以 PyTorch 为基础，为具身智能领域的研究和开...

9个月前

043.5K

Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina是开源的去中心化机器学习平台，专注于简化蛋白质组学数据分析。由德国慕尼黑工业大学和美国密歇根大学团队开发。平台通过标准化接口整合了30多个主流模型（如ProSIT、MS²PIP），支持肽段质...

9个月前

043.4K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec是美团LongCat团队开源的语音编解码方案。方案专为语音大语言模型（Speech LLM）设计，通过语义与声学双Token并行提取机制，兼顾语音的语义和声学特征...

9个月前

043.4K

DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena（Developer Productivity AI Arena）是JetBrains创建的开放基准测试平台，衡量AI辅助开发工具在真实世界软件工程任务中的有效性。通过透明的评估流...

9个月前

043.4K

NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1是NewBieAI-Lab团队开源的首个实验性动漫文生图模型，采用3.5B参数的Next-DiT架构，专为二次元风格优化。模型通过双文本编码器（GEMMA3-4B...

8个月前

043.3K

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic是开源的高性能的文本转语音（TTS）系统，专注于在本地设备上快速生成语音。采用ONNX Runtime技术，可在手机、电脑甚至树莓派等设备上运行，支持23种语言和语音克隆，无需网络...

8个月前

043.3K

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong 是月之暗面（Moonshot AI）开源的全新AI Agent开发框架，为开发者提供一个轻量、灵活且高度可扩展的底层支持，以构建下一代智能体应用。通过异步工具编排引擎，能高效调度多个工具...

9个月前

042.9K

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR 是开源复刻项目，实现 DeepSeek-OCR 的核心架构，通过光学压缩技术高效处理文本信息。核心是 DeepEncoder，由 SAM-base（处理高分辨率图像）、16×卷积压缩器...

9个月前

042.8K

InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar是字节跳动开源的统一时空自回归框架，专为高分辨率图像和视频生成设计。采用离散自回归方法，能在单一模型中同时处理文本到图像、文本到视频、图像到视频等任务。框架在VBench基准测...

9个月前

042.7K

UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2是兔展智能与北京大学UniWorld团队联合推出的新一代图像编辑模型。在图像编辑领域具有显著优势，特别是在中文理解和复杂指令执行方面表现出色。模型能精准渲染艺术中文字体，支持精细...

9个月前

042.6K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V是智谱AI开源的多模态大语言模型系列，系列包含两个版本：GLM-4.6V（106B-A12B），面向云端与高性能集群场景的基础版，采用混合专家（MoE）架构，总参数量约1060亿，激活...

8个月前

042.5K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

6个月前

042.4K

MiroFish - 开源的AI预测引擎，智能体进行自由交互与社会演化

MiroFish - 开源的AI预测引擎，智能体进行自由交互与社会演化

MiroFish是中科大20岁学生BaiFu开源的AI预测引擎，基于多智能体技术，能从新闻、小说等种子信息自动构建高保真平行数字世界。

5个月前

042.4K

Gemma 4 12B - 谷歌开源的多模态 AI 模型

Gemma 4 12B - 谷歌开源的多模态 AI 模型

Gemma 4 12B是谷歌开源的多模态AI模型，采用无编码器架构，仅需16GB显存即可在消费级设备运行。取消传统视觉和音频编码器，通过轻量级嵌入模块直接处理原始数据，实现9GB显存占用下接近26B参...

2个月前

042.3K

HiClaw - 阿里云开源的多智能体团队协作系统

HiClaw - 阿里云开源的多智能体团队协作系统

HiClaw 是阿里云开源的多 Agent 协作框架，让单个用户能像指挥团队一样调度多个 AI 员工。系统设置一位 Manager 管家负责拆解任务、分配工作，各 Worker 专精不同领域且相互隔离...

4个月前

042.3K

MiniCPM-V 4.6 - 面壁智能联合清华开源的端侧多模态大模型

MiniCPM-V 4.6 - 面壁智能联合清华开源的端侧多模态大模型

MiniCPM-V 4.6 是面壁智能（OpenBMB）联合清华大学发布并开源的端侧多模态大模型。模型总参数量仅 1.3B，是 MiniCPM-V 系列有史以来最小的模型，在多模态综合能力上超越了阿里...

3个月前

042.2K

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型，专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入，能同时理解画面内容、声音信息以及自然语言指令，实现跨模态的交互与推...

8个月前

042.1K

OpenHuman - 开源桌面个人 AI 助手，能主动理解用户的数字同事

OpenHuman - 开源桌面个人 AI 助手，能主动理解用户的数字同事

OpenHuman是开源的个人AI助手项目，由Tiny Humans AI团队开发，解决传统AI助手缺乏长期记忆和上下文理解能力的问题。定位为“个人AI操作系统”或“数字分身”，目标是让AI从被动响应...

2个月前

042K

PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter 是先进的 3D 生成模型，由北京大学、字节跳动和卡耐基梅隆大学联合提出。能从单张 RGB 图像中一次性生成多个语义明确且几何形态各异的 3D 网格部件。模型通过组合式潜在空间和...

8个月前

042K

灵珠 - 零门槛 AI 应用创作平台，精准解析需求

灵珠 - 零门槛 AI 应用创作平台，精准解析需求

灵珠是上海灵感菇智能科技有限公司打造的零门槛AI应用创作平台，由语生科学AI孵化平台推出。用户无需编写任何代码，只需在网页中输入创意想法，系统即可自动生成可实际运行的产品

3个月前

042K

FireRed-OCR - 小红书团队开源的端到端文档解析模型

FireRed-OCR - 小红书团队开源的端到端文档解析模型

FireRed-OCR 是小红书 Super Intelligence 团队开源的端到端文档解析模型，基于 Qwen3-VL-2B 架构打造，仅用 2B 参数就在 OmniDocBench v1.5 ...

5个月前

041.9K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B 是以色列 AI 创企 AI21 Labs 开源的轻量级推理模型，具有强大的性能和广泛的应用潜力。采用 SSM-Transformer 混合架构，结合了 Trans...

10个月前

041.9K

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee是腾讯混元团队与清华大学联合推出的全栈开源多模态大模型解决方案，通过提升数据质量缩小开源模型与闭源模型的性能差距。项目包含三大核心成果：1500万规模的高质量双层CoT数据集Honey-Data...

9个月前

041.8K

omp - 开源的终端 AI Coding Agent

omp - 开源的终端 AI Coding Agent

omp（oh-my-pi）是开源的终端 AI Coding Agent，由 can1357 基于 Mario Zechner 的 Pi 项目扩展而来。不是简单的聊天式代码助手，是将终端、代码仓库、L...

2个月前

041.8K