Lista de herramientas de IA destacadas | Página 2

MAI-Image-2 - 微软推出的第二代自研图像生成模型

MAI-Image-2 是微软推出的第二代自研图像生成模型，模型在权威评测平台 LMArena 中跃升至全球第三位，仅次于谷歌和 OpenAI，标志着微软在图像生成领域实现从"追赶者"到"第一梯队"的...

Últimos recursos sobre IA

hace 3 meses

023.7K

NineClaw - 好未来推出的教师专属 AI 原生桌面超级智能体

NineClaw（九章龙虾）是好未来（TAL）推出的行业首款教师专属AI原生桌面超级智能体，昵称"九龙"。深度融合好未来20年教研积累与海量题库资源，采用本地化运行架构，支持Windows和MacO...

Últimos recursos sobre IA

hace 3 meses

026.9K

EdgeClaw - 面壁智能联合清华等开源的端云协同 AI 智能体框架

EdgeClaw 是面壁智能联合清华大学等机构开源的端云协同 AI 智能体框架，主打安全可控与本地部署。首创三层数据安全协议（S1/S2/S3），通过规则检测器与本地 LLM 语义检测器实时分类请求敏...

Últimos recursos sobre IA

hace 3 meses

025.3K

Qwen3.5-Max-Preview - 阿里通义千问推出的旗舰大模型预览版

Qwen3.5-Max-Preview 是阿里通义千问团队推出的旗舰大模型预览版，在 LM Arena 国际大模型竞技场以1464分跻身全球前五、国内第一，标志着国产大模型首次进入全球第一梯队。

Últimos recursos sobre IA

hace 3 meses

022.8K

微信ClawBot - 微信官方推出连接 OpenClaw 的 AI 插件

微信ClawBot是微信官方推出的AI插件，核心定位是连接OpenClaw（开源AI智能体框架）与微信的消息通道。用户只需在部署OpenClaw的设备上执行一条命令完成安装，可通过微信聊天界面直接发送...

Últimos recursos sobre IA

hace 3 meses

030.9K

YouClaw - Chat2DB 开源的极简 AI Agent 桌面客户端

YouClaw 是 Chat2DB 团队推出的极简 AI Agent 桌面客户端，主打"最懂你的 AI 个人助理"定位。基于 Tauri 2 + React 构建，安装包仅约 30MB，支持 Wind...

Últimos recursos sobre IA

hace 3 meses

029.1K

Xiaomi MiMo-V2-Omni - 小米推出的Agent全模态基座模型

Xiaomi MiMo-V2-Omni 是小米推出的面向Agent时代的全模态基座模型，专为现实世界中复杂的多模态交互与执行场景打造。模型从底层构建了融合文本、视觉、语音的统一架构，将"感知"与"行动...

Últimos recursos sobre IA

hace 3 meses

024K

Vidu Claw - Vidu AI 推出的 AI 视频创意Agent

Vidu Claw（代号"V龙"）是生数科技旗下 Vidu AI 平台推出的 AI 创意智能体，定位为"你的第一个 AI 创意员工"。基于 Vidu 视频大模型构建，能自动完成从创意理解、脚本撰写、分...

Últimos recursos sobre IA

hace 3 meses

024.1K

Composer 2 - Cursor 推出的专有代码大模型

Composer 2 是 AI 编程平台 Cursor 推出的专有代码大模型，主打"长周期智能体编程"。模型支持 20 万 Token 上下文窗口，能自主处理包含数百个操作的复杂开发任务，在 Term...

Últimos recursos sobre IA

hace 3 meses

021.7K

MiMo-V2-TTS - 小米推出的自研语音合成大模型

MiMo-V2-TTS是小米推出的自研语音合成大模型，与MiMo-V2-Pro、MiMo-V2-Omni共同构成小米面向"Agent时代"的三大基础模型矩阵。模型基于自研Audio Tokenizer...

Últimos recursos sobre IA

hace 3 meses

023.5K

MiniMax M2.7 - MiniMax 推出的旗舰级 Agent 推理大模型

MiniMax M2.7 是 MiniMax 推出的旗舰级 Agent 推理大模型，主打"模型自我进化"能力。模型通过构建 Agent Harness 体系，深度参与自身训练与优化流程，在部分研发场景...

Últimos recursos sobre IA

hace 3 meses

028.7K

Xiaomi MiMo-V2-Pro - 小米推出的旗舰级MoE大模型

Xiaomi MiMo-V2-Pro 是小米推出的旗舰级MoE大模型，采用1万亿总参数、420亿激活参数的混合专家架构，支持最高100万token超长上下文。模型以代号"Hunter Alpha"匿名...

Últimos recursos sobre IA

hace 3 meses

023.5K

Seedance 2.0 - 字节Seed团队推出的第二代多模态AI视频生成模型

Seedance 2.0 是字节跳动（TikTok母公司）Seed团队开发的第二代多模态AI视频生成模型，代表了从单纯文本/图像转视频工具向专业级电影制作平台的重大升级，支持文本、图像、视频片段和音频...

Últimos recursos sobre IA

hace 3 meses

026K

GPT-5.4 mini - OpenAI 推出的轻量级 AI 模型

GPT-5.4 mini 是 OpenAI 发布的轻量级模型，定位为"迄今能力最强的小型模型"。在保留 GPT-5.4 核心能力的同时，实现了速度提升 2 倍以上，成本大幅降低，专为对延迟敏感的高频工...

Últimos recursos sobre IA

hace 3 meses

023.2K

SkyClaw - Skywork AI 推出的云端AI Agent工作空间

SkyClaw 是 Skywork AI 推出的云端持久化智能工作空间，定位超越传统对话机器人的"主动执行型代理"。支持在 Slack、Discord、WhatsApp 等主流平台原生集成，能基于用户...

Últimos recursos sobre IA

hace 3 meses

027.7K

Mistral Small 4 - Mistral AI 开源的多模态大模型

Mistral Small 4 是 Mistral AI 开源的多模态大模型，采用 1190 亿参数 MoE 架构（每 token 激活 60 亿参数），支持 256K 超长上下文。核心突破在于三合一...

Últimos recursos sobre IA

hace 3 meses

023.6K

肉包 - 开源AI手机自动化助手，能看懂屏幕自动执行

肉包（Roubao）是开源的AI手机助手，让用户用现有Android手机能体验类似"豆包手机"的智能自动化功能。肉包基于视觉语言模型，能看懂屏幕内容并自动执行复杂任务，从点外卖、发微信到跨App操作...

Últimos recursos sobre IA

hace 3 meses

029.3K

HiClaw - 阿里云开源的多智能体团队协作系统

HiClaw 是阿里云开源的多 Agent 协作框架，让单个用户能像指挥团队一样调度多个 AI 员工。系统设置一位 Manager 管家负责拆解任务、分配工作，各 Worker 专精不同领域且相互隔离...

Últimos recursos sobre IA

hace 3 meses

028.7K

NemoClaw - NVIDIA 推出的开源企业级 AI Agent 安全增强平台

NemoClaw 是 NVIDIA 推出的开源企业级 AI Agent 安全增强平台。作为 OpenClaw 的"安全插件"和运行时沙箱层，通过 OpenShell 为自主 AI 代理添加企业级的隐私...

Últimos recursos sobre IA

hace 3 meses

027.4K

OpenMAIC - 清华大学开源的多智能体AI课堂系统

OpenMAIC是清华大学研发的开源多智能体AI课堂系统，由教育学院与计算机系联合开发。系统基于大语言模型构建全智能辅助教学环境，支持AI生成课件、语音讲解、互动讨论及作业批改，实现全流程自动化教学。

Últimos recursos sobre IA

hace 3 meses

063.2K

Clawith - DataElem 团队开源的多智能体协作平台

Clawith 是 DataElem 团队开源的"OpenClaw for Teams"——面向团队的多智能体协作平台。在保留 OpenClaw 灵魂与记忆能力的基础上，升级为 Aware 自主感知系...

Últimos recursos sobre IA

hace 3 meses

034.3K

Fun-CineForge - 阿里通义实验室开源的影视级配音多模态大模型

Fun-CineForge 是阿里通义实验室开源的首个支持影视级多场景配音的多模态大模型，基于 CosyVoice3 打造。通过"数据+模型"一体化设计，创新性地解决音画同步、情感表达、音色一致与时间...

Últimos recursos sobre IA

hace 3 meses

026.3K

MiniMax Music 2.5+ - MiniMax推出的AI音乐生成模型

MiniMax Music 2.5+是MiniMax推出的AI音乐生成模型，专注器乐创作。模型精通古典管弦、电子氛围、自然声景等多元风格，擅长将东方传统乐器与西方现代编曲融合，实现跨风格创新。

Últimos recursos sobre IA

hace 3 meses

024K

GLM-5-Turbo - 智谱 AI 推出专为 OpenClaw 场景深度优化的基座模型

GLM-5-Turbo 是智谱 AI 发布的全球首款专为 OpenClaw（龙虾）场景深度优化的基座模型，也是 GLM-5 系列的高速增强版本。模型从训练阶段就针对 Agent 任务的核心需求进行专...

Últimos recursos sobre IA

hace 3 meses

028.9K

Fun-AudioGen-VD - 阿里通义实验室推出的声音设计系统

Fun-AudioGen-VD 是阿里通义实验室推出的创新语音大模型，专注于声音设计与场景化音频生成。模型支持通过自然语言指令直接生成包含特定音色、情绪表达和完整听觉场景的高质量音频，无需参考音频即可...

Últimos recursos sobre IA

hace 3 meses

022.6K

Gemini Embedding 2 - Google推出的首个原生五模态 Embedding 模型

企业知识库管理员：需要统一检索文档、会议录音、培训视频、产品图片等多模态资料的企业用户 RAG 应用开发者：为多模态内容提供语义检索能力，提升生成质量的 AI 应用开发者法律/医疗行业从业者：如 E...

Últimos recursos sobre IA

hace 3 meses

026.4K

Nemotron 3 Super - NVIDIA开源的大语言模型，专为AI Agent推理设计

Nemotron 3 Super是NVIDIA 发布的Nemotron 3 系列中目前最强大的开源权重 AI 模型。模型采用 1200 亿参数的混合专家（MoE）架构，推理时仅激活 120 亿参数，实...

Últimos recursos sobre IA

hace 3 meses

022.7K

Paperclip - 开源的AI Agent编排平台，管理和协调多个AI智能体

Paperclip是开源的AI代理编排平台，定位为“零人工公司操作系统”，用于管理和协调多个AI代理（如OpenClaw、Claude Code等）协同工作。提供组织架构、目标对齐、预算控制、任务追踪...

Últimos recursos sobre IA

hace 3 meses

031.1K

AlphaClaw - 熵简科技推出的金融投研 AI Agent 工具

AlphaClaw 是熵简科技推出的金融投研 AI 工具，搭载于 AlphaEngine 平台，被誉为"投研小龙虾"。完成了从"有问必答的 AI 助手"向"自主执行的 AI 分析师"的进化，能独立跑通...

Últimos recursos sobre IA

hace 3 meses

027.9K

ArkClaw - 火山引擎推出的云端AI助手，零门槛部署OpenClaw

ArkClaw是火山引擎推出的云端智能助手平台，基于OpenClaw架构构建，让用户无需繁琐配置可快速部署专属AI Agent。

Últimos recursos sobre IA

hace 3 meses

033.4K

GPT-5.3 Instant - OpenAI推出的GPT-5系列快速响应版本模型

GPT-5.3 Instant 是 OpenAI 发布的 ChatGPT 主力模型升级版，主打"体验优化"而非参数堆叠。精准解决了用户长期诟病的"说教感"和机械回复问题，对话语气更自然直接，大幅减少了...

Últimos recursos sobre IA

hace 3 meses

021.6K

Fun-CosyVoice3.5 - 阿里通义实验室推出的第三代语音合成大模型

Fun-CosyVoice3.5是阿里通义实验室推出的第三代语音合成大模型，主打"自然语言指令控制"能力，用户可直接用口语化描述（如"语气坚定一点""语速慢一点"）来调节合成语音的情绪、语速和风格，无...

Últimos recursos sobre IA

hace 3 meses

022.2K

Gemini 3.1 Flash-Lite - Google推出的最轻量、最具性价比的模型

Gemini 3.1 Flash-Lite 是 Google 发布的 Gemini 3 系列中最轻量、最具性价比的模型，主打极致速度与低成本。模型从 Gemini 3 Pro 蒸馏而来，输入价格仅 ...

Últimos recursos sobre IA

hace 3 meses

031.4K

FireRed-OCR - 小红书团队开源的端到端文档解析模型

FireRed-OCR 是小红书 Super Intelligence 团队开源的端到端文档解析模型，基于 Qwen3-VL-2B 架构打造，仅用 2B 参数就在 OmniDocBench v1.5 ...

Últimos recursos sobre IA

hace 3 meses

030.7K

DuClaw - 百度智能云推出的OpenClaw云部署服务

DuClaw是百度智能云推出的托管式OpenClaw服务，专为无技术背景用户设计。DuClaw免除了服务器配置、镜像选择和API密钥管理的繁琐步骤，用户订阅后可在网页端直接调用完整的智能体功能。

Últimos recursos sobre IA

hace 3 meses

028.7K

小艺Claw - 华为推出的个人手机AI助理，一键接入OpenClaw

小艺Claw是华为基于OpenClaw开源框架推出的AI智能体，集成于小艺App中。小艺Claw打破传统语音助手"被动应答"的交互逻辑，具备自主规划与任务执行能力，可独立完成办公文档处理、信息检索、服...

Últimos recursos sobre IA

hace 3 meses

030.9K

GPT‑5.4 - OpenAI推出的全能旗舰AI模型

GPT-5.4是OpenAI推出的旗舰AI模型，专为复杂专业场景设计。模型突破性融合推理、编程、原生计算机操控与深度搜索四大能力，在OSWorld测试中首次超越人类操作水平，知识工作任务表现达专家级标...

Últimos recursos sobre IA

hace 3 meses

023.2K

Mobile-Agent-v3.5 - 阿里通义开源的原生GUI Agent框架

Mobile-Agent-v3.5是阿里巴巴通义实验室开源的新一代多平台GUI Agent框架，支持桌面、手机、浏览器三大平台，可跨Android、Ubuntu、macOS、Windows实现自动化操...

Últimos recursos sobre IA

hace 4 meses

028.9K

gws - 谷歌开源的CLI工具，支持接入各类AI Agent系统

gws 是 Google Workspace 团队推出的命令行工具，采用 Rust 构建。工具支持运行时动态生成命令，通过读取 Google Discovery Service 实时适配所有 Work...

Últimos recursos sobre IA

hace 4 meses

025.8K

HY-WU - 腾讯混元开源的实时神经参数生成框架

HY-WU（混元无相）是腾讯混元推出的功能性神经记忆框架，能在AI推理时即时创建个性化适配参数。框架为每个任务"临时定制"专属技能，无需重新训练模型。

Últimos recursos sobre IA

hace 4 meses

026.9K

MiroFish - 开源的AI预测引擎，智能体进行自由交互与社会演化

MiroFish是中科大20岁学生BaiFu开源的AI预测引擎，基于多智能体技术，能从新闻、小说等种子信息自动构建高保真平行数字世界。

Últimos recursos sobre IA

hace 4 meses

031K

ClawFeed - 开源AI新闻摘要工具，一站式聚合任意网站内容

ClawFeed是开发者Kevin He推出的开源AI新闻摘要工具，解决信息过载问题。通过聚合Twitter、RSS、GitHub等多平台信息源，利用AI自动生成4小时、每日、每周和每月的结构化摘要...

Últimos recursos sobre IA

hace 4 meses

048K

FireRed-Image-Edit - 小红书团队开源的通用图像编辑模型

FireRed-Image-Edit 是小红书 Super Intelligence 团队开源的通用图像编辑模型，基于扩散 Transformer 架构，在 GEdit、ImgEdit 等多个权威评测...

Últimos recursos sobre IA

hace 4 meses

052K

OpenAkita - 开源的自进化AI助手框架，多平台无缝协作

OpenAkita是开源的自进化AI助手框架，提供智能、灵活且易于使用的AI辅助工具。每日自动执行内存整合、错误自检与修复、任务复盘，遇到卡壳时自动生成新技能并安装依赖，越用越聪明。支持Windows...

Últimos recursos sobre IA

hace 4 meses

055.6K

ClawWork - 香港大学数据科学实验室开源的AI经济压力测试框架

ClawWork是香港大学数据科学实验室开发的AI经济压力测试框架，允许AI在模拟经济环境中完成真实工作任务并获得报酬。核心逻辑是让初始资金仅10美元的AI通过完成220个专业任务（覆盖制造、金融、医...

Últimos recursos sobre IA

hace 4 meses

043.5K

Ming-Omni-tts - 蚂蚁联合Inclusion AI开源的多模态音频生成模型

Ming-Omni-tts 是蚂蚁集团与Inclusion AI联合开源的多模态音频生成模型，包含0.5B和16.8B-A3B两个版本。模型首次实现了语音、环境音和音乐的统一自回归生成，支持语速、音量...

Últimos recursos sobre IA

hace 4 meses

044.5K

Qwen3.5 - 阿里通义千问团队开源的最新一代大语言模型

Qwen3.5是阿里巴巴通义千问团队开源的最新一代大语言模型，属于千问（Qwen）系列的升级版本。Qwen3.5突破了传统文本模型的限制，实现了真正的原生多模态理解，可直接处理文本、图像、视频等多种模...

Últimos recursos sobre IA

hace 4 meses

045.9K

Ring-2.5-1T - 蚂蚁百灵开源的万亿参数混合线性架构思考模型

Ring-2.5-1T 是蚂蚁集团百灵大模型团队开源的全球首个万亿参数混合线性架构思考模型，采用1:7 MLA与Lightning Linear Attention混合设计，激活参数量达63B。模型在...

Últimos recursos sobre IA

hace 4 meses

043.9K

Xiaomi-Robotics-0 - 小米开源的首代具身智能大模型

Xiaomi-Robotics-0 是小米开源的首代具身智能大模型，拥有47亿参数，采用"大脑+小脑"混合架构设计。视觉语言大脑基于多模态大模型，负责理解人类模糊指令与空间推理；动作执行小脑则通过Di...

Últimos recursos sobre IA

hace 4 meses

043.9K

AionUi - 免费开源的多AI Agent桌面应用

AionUi是一个免费开源的多AI Agent桌面应用，支持将Gemini CLI、Claude Code等命令行AI工具整合到图形界面，提供本地文件操作、多会话管理、跨平台运行等功能。支持macOS...

Últimos recursos sobre IA

hace 4 meses

054.2K

Ming-flash-omni 2.0 - 蚂蚁集团开源的全模态大模型

Ming-flash-omni 2.0是蚂蚁集团开源的全模态大模型，集成了视觉、语音和生成能力的AI模型，在多项基准测试中性能领先。支持同时生成语音、环境音效和音乐，能通过自然语言指令精细控制音色、语...

Últimos recursos sobre IA

hace 4 meses

045.1K

Protenix-v1 - 字节Seed团队推出的首个开源蛋白质结构预测模型

Protenix-v1是字节跳动ByteDance Seed团队推出的首个开源蛋白质结构预测模型，性能在严格对齐训练数据和模型规模后超越AlphaFold 3。模型具备显著的推理时扩展特性：通过增加采...

Últimos recursos sobre IA

hace 4 meses

044.6K

Clawra - 基于OpenClaw框架开源的AI女友程序

Clawra是一个基于OpenClaw框架开发的AI女友程序，由韩国开发者David Im制作，具有完整人设和交互功能。通过Persona Engineering技术赋予AI“18岁亚裔女性练习生”的...

Últimos recursos sobre IA

hace 4 meses

045.1K

GLM-5 - 智谱AI推出的旗舰级开源大模型

GLM-5是智谱AI推出的旗舰级开源大模型，采用744B参数规模（激活40B），专为Agentic Engineering智能体工程打造。模型在编程与Agent能力上取得开源SOTA表现，SWE-be...

Últimos recursos sobre IA

hace 4 meses

050K

nanobot - HKUDS开源的超轻量级个人AI助手框架

nanobot 是香港大学数据智能实验室（HKUDS）开源的超轻量级个人AI助手框架，仅用约 4,000行Python代码实现了完整的多通道AI助手功能。作为 OpenClaw 的轻量替代品，nano...

Últimos recursos sobre IA

hace 4 meses

054.5K

RynnBrain - 阿里巴巴达摩院开源的具身智能大脑基础模型

RynnBrain 是阿里巴巴达摩院开源的具身智能大脑基础模型，为机器人提供深度环境理解和物理世界交互能力。是业界首个赋予机器人时空记忆和物理空间推理能力的开源模型。包含2B、8B、30B等7个不同参...

Últimos recursos sobre IA

hace 4 meses

036.3K

PaperBanana - 北大与谷歌联合开源的AI学术插图自动生成框架

PaperBanana是北大与谷歌团队联合开源的AI学术插图自动生成框架，专门解决科研人员绘制方法示意图和统计图表的痛点。框架通过五个智能体协作（检索、规划、造型、渲染和批评），实现从文本描述到Neu...

Últimos recursos sobre IA

hace 4 meses

041.7K

Intern-S1-Pro - 上海AI Lab开源的首个万亿参数科学多模态大模型

Intern-S1-Pro是上海人工智能实验室开源的全球首个万亿参数级科学多模态大模型。采用512专家MoE架构，激活仅8专家22B参数，兼顾性能与效率。模型基于SAGE架构，引入傅里叶位置编码，统一...

Últimos recursos sobre IA

hace 5 meses

038.2K

LingBot-VA - 蚂蚁灵波开源的首个“自回归视频-动作世界模型”

LingBot-VA 是蚂蚁灵波开源的全球首个“自回归视频-动作世界模型”，把视频生成与机器人控制塞进同一 Transformer，每一步同时输出下一帧世界画面和对应动作，实现“边想边干”。

Últimos recursos sobre IA

hace 5 meses

043K

MiniCPM-o 4.5 - 面壁智能开源的 9B 全模态旗舰模型

MiniCPM-o 4.5 是面壁智能开源的 9B 全模态旗舰模型，以“边看边听主动说”的端到端架构，在手机端即可跑出 GPT-4o 级体验：支持单图、多图、高帧率长视频、实时语音双工对话，首 tok...

Últimos recursos sobre IA

hace 5 meses

043.9K

SoulX-FlashTalk - Soul App AI团队开源的实时数字人生成模型

SoulX-FlashTalk是Soul App AI团队开源的实时数字人生成模型，拥有140亿参数量，实现了0.87秒超低延迟和32帧/秒的高帧率。模型通过双向蒸馏技术解决了传统数字人延迟高、画面易...

Últimos recursos sobre IA

hace 5 meses

042.3K

Qwen3-Coder-Next - 阿里通义千问开源的编程智能体混合模型

Qwen3-Coder-Next是阿里巴巴通义千问团队开源的专为编程智能体设计的高效混合模型，基于80B总参数的Qwen3-Next架构，推理时仅激活3B参数。核心创新在于采用环境交互和强化学习训练方...

Últimos recursos sobre IA

hace 5 meses

046.6K

GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型

GLM-OCR 是智谱开源的 0.9B 轻量级专业 OCR 模型，在 OmniDocBench V1.5 以 94.6 分刷新 SOTA。兼顾“小体积”与“全场景”，扫描、手写、印章、多语混排、复杂表...

Últimos recursos sobre IA

hace 5 meses

045.4K

Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型

Step 3.5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型，每 token 仅激活 110 亿参数，能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 ...

Últimos recursos sobre IA

hace 5 meses

036.1K

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型，突破传统视觉语言模型（VLM）仅能理解图像文字的局限，通过在机器人操作数据上的持续预训练，实现从"图文理解"向具备物理常...

Últimos recursos sobre IA

hace 5 meses

038.3K

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如...

Últimos recursos sobre IA

hace 5 meses

036.5K

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音...

Últimos recursos sobre IA

hace 5 meses

037.8K

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

Últimos recursos sobre IA

hace 5 meses

042.5K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

Últimos recursos sobre IA

hace 5 meses

042.4K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

Últimos recursos sobre IA

hace 5 meses

040.8K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

Últimos recursos sobre IA

hace 5 meses

049.9K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

Últimos recursos sobre IA

hace 5 meses

043.9K

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot（原名Clawdbot）是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手，WhatsApp、Telegram、Discord、Slack、iMessage...

Últimos recursos sobre IA

hace 5 meses

052.8K

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

Últimos recursos sobre IA

hace 5 meses

048K

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架，能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术，将视频拆解为0.5秒一小段接力处理，配合结构化...

Últimos recursos sobre IA

hace 5 meses

050.2K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

Últimos recursos sobre IA

hace 5 meses

046.3K

Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列

Qwen3-TTS是阿里云千问团队开源的语音合成模型系列，支持10种主流语言及方言的音色克隆、创造和拟人化语音生成。模型采用创新的双轨流式架构，首包延迟仅97毫秒，具备自然语言指令控制音色、情感和语调...

Información sobre el curso

hace 5 meses

029.7K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

Últimos recursos sobre IA

hace 5 meses

042.2K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

Últimos recursos sobre IA

hace 5 meses

040.7K

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台，专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增，从根本上...

Últimos recursos sobre IA

hace 5 meses

052.8K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

Últimos recursos sobre IA

hace 5 meses

040.5K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

Últimos recursos sobre IA

hace 5 meses

044.7K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

Últimos recursos sobre IA

hace 5 meses

041K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

Últimos recursos sobre IA

hace 5 meses

039.5K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

Últimos recursos sobre IA

hace 5 meses

046.6K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

Últimos recursos sobre IA

hace 5 meses

035.2K

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork是开源的智能代理工作流桌面应用，作为Claude Cowork的免费替代品，提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈，支持技能插件扩展和模...

Últimos recursos sobre IA

hace 5 meses

087.1K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

Últimos recursos sobre IA

hace 5 meses

032.8K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

Últimos recursos sobre IA

hace 5 meses

045.9K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

Últimos recursos sobre IA

hace 5 meses

033.6K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

Últimos recursos sobre IA

hace 5 meses

039.3K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

Últimos recursos sobre IA

hace 5 meses

036.9K

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎，可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...

Últimos recursos sobre IA

hace 5 meses

054.7K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

Últimos recursos sobre IA

hace 5 meses

039K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

Últimos recursos sobre IA

hace 5 meses

042.5K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

Últimos recursos sobre IA

hace 6 meses

045.5K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

Últimos recursos sobre IA

hace 6 meses

048.8K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

Últimos recursos sobre IA

hace 6 meses

039.4K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

Últimos recursos sobre IA

hace 6 meses

045.2K

Más información

¿No encuentra herramientas de IA? Pruebe aquí