Últimos recursos sobre IA

共 3048 篇文章

Información sobre el curso Últimos recursos sobre IA Base de conocimientos de IA Noticias AI

ordenar

hojear Marcador (Internet)

UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型

UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型，突破传统视觉语言模型（VLM）仅能理解图像文字的局限，通过在机器人操作数据上的持续预训练，实现从"图文理解"向具备物理常...

Últimos recursos sobre IA

hace 2 meses

025.1K

SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型

SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型（Agentic VLM），提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具（如...

Últimos recursos sobre IA

hace 2 meses

024.1K

MOVA - 创智学院联合模思智能开源的端到端音视频生成模型

MOVA（MOSS-Video-and-Audio）是上海创智学院 OpenMOSS 团队联合模思智能（MOSI）开源的端到端音视频生成模型，是中国首个高性能开源音视频模型。突破了传统"先画面后配音...

Últimos recursos sobre IA

hace 2 meses

024.4K

LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型

LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技（Robbyant）开源的交互式世界模型，专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境...

Últimos recursos sobre IA

hace 2 meses

027.2K

SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型

SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型，被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构，在单一建模框架内集成三大核心能力：参考图像转视频、智能...

Últimos recursos sobre IA

hace 2 meses

027.2K

LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型

LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型，专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术，在RGB图像基础上预测缺失的深度值

Últimos recursos sobre IA

hace 2 meses

027.1K

DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型

DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型，核心创新在于采用DeepEncoder V2架构，将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流...

Últimos recursos sobre IA

hace 2 meses

034.6K

Kimi K2.5 - 月之暗面开源的新一代旗舰模型

Kimi K2.5 是月之暗面发布的开源旗舰模型，采用 1T MoE 架构、激活 32B、上下文 256K token，原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一...

Últimos recursos sobre IA

hace 2 meses

030.9K

Moltbot - 开源的本地优先AI助手，支持多渠道与用户交互

Moltbot（原名Clawdbot）是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手，WhatsApp、Telegram、Discord、Slack、iMessage...

Últimos recursos sobre IA

hace 2 meses

040K

json-render - Vercel Labs开源的AI生成UI的工具

json-render是Vercel Labs开源的AI生成UI的工具，通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据，前端再...

Últimos recursos sobre IA

hace 2 meses

033.1K

FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架

FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架，能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术，将视频拆解为0.5秒一小段接力处理，配合结构化...

Últimos recursos sobre IA

hace 3 meses

035.8K

VibeVoice-ASR - 微软开源的统一语音转文本（ASR）模型

VibeVoice-ASR是微软开源的统一语音转文本（ASR）模型，专为处理长音频设计，可一次性处理长达60分钟的连续音频，确保语义连贯性和说话人追踪的一致性。支持自定义热词功能，用户可输入特定词汇或...

Últimos recursos sobre IA

hace 3 meses

031.1K

Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型

Chroma 1.0是FlashLabs发布的全球首个开源的实时端到端语音对话模型，兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成，采用1:2文本-音频token调度策略...

Últimos recursos sobre IA

hace 3 meses

029.1K

AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具

AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型，通过深度检索和推理，能生成万字长篇...

Últimos recursos sobre IA

hace 3 meses

026.9K

EmbodiChain - 跨维智能推出的开源具身智能开发平台

EmbodiChain是跨维智能推出的开源具身智能开发平台，专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增，从根本上...

Últimos recursos sobre IA

hace 3 meses

039.9K

Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型

Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型，核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略（1.2T多模态令牌数据）和创新的并行协同推理技术（PACORE...

Últimos recursos sobre IA

hace 3 meses

027.7K

PersonaPlex - 英伟达开源的全双工语音对话模型

PersonaPlex是英伟达开源的全双工语音对话模型，拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程，采用统一的Transformer架构，能同步处理语音理解与生成。模型支持全...

Últimos recursos sobre IA

hace 3 meses

030.6K

GLM-4.7-Flash - 智谱开源的混合专家架构语言模型

GLM-4.7-Flash是智谱开源的混合专家架构语言模型，参数规模为30B，激活参数量3B，上下文窗口达200K，最大输出令牌为128K。在编程能力上表现出色，SWE-bench验证集分数达59.2...

Últimos recursos sobre IA

hace 3 meses

027.3K

NovaSR - 开源的音频超分辨率模型，提升音频采样率

NovaSR是开源的音频超分辨率模型，主要用于将低质量音频（如16kHz采样率的电话音质）提升为高质量音频（如48kHz采样率的录音室级音质）。模型大小仅52KB，比一张微信表情包还小，可轻松部署在资...

Últimos recursos sobre IA

hace 3 meses

026.4K

FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型

FLUX.2 [klein] 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型，专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成，能在不到1秒内...

Últimos recursos sobre IA

hace 3 meses

034.8K

TranslateGemma - 谷歌开源的机器翻译模型系列

TranslateGemma是谷歌推出的基于Gemma 3的开源机器翻译模型系列，专为提升翻译质量而设计。通过两阶段微调（监督微调和强化学习）优化翻译效果，提供4B、12B、27B三种参数规模，支持5...

Últimos recursos sobre IA

hace 3 meses

022.1K

OpenWork - 开源AI Agent工作流桌面应用，Claude Cowork的免费平替

OpenWork是开源的智能代理工作流桌面应用，作为Claude Cowork的免费替代品，提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node.js技术栈，支持技能插件扩展和模...

Últimos recursos sobre IA

hace 3 meses

071.2K

ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法

ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法，专为解决开放域任务（如出行规划）中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制，通过智能体自动生成多套方案...

Últimos recursos sobre IA

hace 3 meses

020.3K

Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型

Step-Audio-R1.1是阶跃星辰开源的全球首个原生语音推理模型，最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96.4%准确率登顶。模型...

Últimos recursos sobre IA

hace 3 meses

032.6K

OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集

OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集，核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(IS...

Últimos recursos sobre IA

hace 3 meses

021.6K

GLM-Image - 智谱联合华为开源的多模态图像生成模型

GLM-Image是智谱与华为联合开源的多模态图像生成模型，基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练，采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片...

Últimos recursos sobre IA

hace 3 meses

025.2K

Baichuan-M3 - 百川智能开源的新一代医疗大语言模型

Baichuan-M3是百川智能推出的新一代开源医疗大语言模型，专为医疗场景深度优化，具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65.1分的综合成绩位列全球第一，超越了GPT...

Últimos recursos sobre IA

hace 3 meses

024.3K

女娲智能体OS - 西南财经开源的通用智能体操作系统

女娲智能体OS（Nuwax Agent OS）是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎，可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排...

Últimos recursos sobre IA

hace 3 meses

037.5K

Nemotron Speech ASR - 英伟达开源的实时语音识别模型

Nemotron Speech ASR是英伟达开源的实时语音识别模型，专为低延迟场景优化，支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构，通过固定状态缓...

Últimos recursos sobre IA

hace 3 meses

026.2K

Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型

Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型，专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作：前者负责快速召回候选结果，后者通过深度跨模态交互（如...

Últimos recursos sobre IA

hace 3 meses

028.9K

Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型

Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型，属于Qwen3-VL系列，主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间，通过双塔架构生成向量表...

Últimos recursos sobre IA

hace 3 meses

031.8K

AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型

AntAngelMed（蚂蚁·安诊儿医疗大模型）是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构（MoE），总参数量达1000亿...

Últimos recursos sobre IA

hace 3 meses

034.9K

VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频...

Últimos recursos sobre IA

hace 3 meses

026.2K

10Kh RealOmni-Open - 简智机器人开源的具身智能数据集

10Kh RealOmni-Open是简智机器人开源的具身智能数据集，是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段，覆盖10大场景任务、超过30项技能。数据...

Últimos recursos sobre IA

hace 3 meses

031.3K

Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型，参数规模为 19.6 亿。专为智能体任务设计，具备强大的“原生智能体能力”，在多项任务中超越同规模甚至更大模型。

Últimos recursos sobre IA

hace 3 meses

026.2K

Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台

Genie Sim 3.0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建，融合三维重建、视觉生成技术与物理引擎，实现毫米级精准复刻真实环境，通过自然语言指...

Últimos recursos sobre IA

hace 3 meses

025.1K

LandPPT - 开源免费的AI PPT生成工具，支持本地部署和云端协作

LandPPT是基于大语言模型的开源AI PPT生成工具，支持通过主题或上传文档（PDF/Word/Excel）一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能，提供丰富的模板和场景...

Últimos recursos sobre IA

hace 3 meses

039.2K

TuriX-CUA - 开源AI桌面自动化工具，AI直接操作电脑桌面

TuriX-CUA 是开源的 AI 桌面自动化工具，能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统，通过先进的计算机...

Últimos recursos sobre IA

hace 3 meses

038K

MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型

MiroThinker 1.5 是 MiroMind 团队开源的搜索智能体模型，基于 Qwen3 系列开发，包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术，支持 256K 上下文...

Últimos recursos sobre IA

hace 3 meses

044.2K

UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架

UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开发的音频模型评测框架，最新版本为v1.1.0。专注于解决音频模型复现难、依赖冲突等问题，提供一键复现热门模型（如Vo...

Últimos recursos sobre IA

hace 3 meses

028.6K

openPangu-VL-7B - 华为开源的7B参数多模态模型

openPangu-VL-7B是华为开源的7B参数规模的多模态模型，专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色，支持实时推理（5FPS），单卡延迟仅160毫秒。

Últimos recursos sobre IA

hace 3 meses

028.6K

New API - 开源的AI模型接口管理与分发系统，统一为标准化接口

New API是基于Go语言开发的开源AI聚合网关工具，可统一管理30+种主流大模型（如OpenAI、Claude、Midjourney等），将不同模型接口转换为标准化OpenAI格式。

Últimos recursos sobre IA

hace 3 meses

027.8K

Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台

Paper2Any是北京大学DCAI课题组开源的多模态辅助平台，专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能，能从多种输入源生成模型架构图、技术路线图和实验数据图等...

Últimos recursos sobre IA

hace 3 meses

037.9K

StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统

StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统，专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术，自动存储关键帧并在后续生成时参考，确保人物外貌、服装、场景元素...

Últimos recursos sobre IA

hace 3 meses

027.3K

XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型

XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型，包含中英文双版本，支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化，能在虚拟角色人设稳定性、复杂故...

Últimos recursos sobre IA

hace 3 meses

030.4K

Vibe Kanban - 开源的免费AI编程代理任务管理工具

Vibe Kanban是开源的AI编程代理任务管理工具，专为同时使用多个AI编程助手（如Claude Code、Gemini CLI、Codex等）的开发者设计。通过看板形式统一管理任务进度，支持并行...

Últimos recursos sobre IA

hace 3 meses

030.4K

Chatterbox-Turbo - Resemble AI开源的文本到语音模型

Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音（TTS）模型，专为高效、低延迟的语音合成而设计。基于350M参数的精简架构，单步推理生成音频，时间延迟极低，在150...

Últimos recursos sobre IA

hace 3 meses

030.8K

IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列

IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列，专注于代码智能领域，具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式，从代码库演化...

Últimos recursos sobre IA

hace 3 meses

036.7K

Mixed Motion 1.0 - Tencent Mixed Motion Team Modelos de movimiento 3D de generación de texto de código abierto

Hybrid Motion1.0 (HY-Motion1.0) es el modelo de acción 3D generado por texto de código abierto del equipo Hybrid de Tencent, que utiliza una arquitectura de transformadores de difusión con mil millones de parámetros, y puede generarse directamente mediante la descripción en lenguaje natural de animaciones de personajes 3D de alta calidad.

Últimos recursos sobre IA

hace 3 meses

035.1K

Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan

Yume 1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Adopta la tecnología de modelado conjunto de canales espaciotemporales (TSCM), aunque la longitud del contexto aumente...

Últimos recursos sobre IA

hace 3 meses

029.8K

AutoMV - Sistema libre de generación de vídeos musicales de código abierto M-A-P en colaboración con Beipiao, NU y otros.

AutoMV es un sistema de generación de vídeos musicales de código abierto desarrollado por el equipo de M-A-P en colaboración con varias universidades, que puede generar automáticamente vídeos musicales coherentes a partir de canciones completas sin necesidad de formación.Adopta un modelo de colaboración multiinteligencia, que incluye módulos de análisis musical, escritura de guiones, dirección y control de calidad, y puede analizar con precisión letras, ritmos...

Últimos recursos sobre IA

hace 3 meses

032.7K

Tencent-HY-MT1.5 - Serie de modelos híbridos de traducción de código abierto de Tencent

Tencent-HY-MT1.5 es la versión 1.5 del modelo de traducción híbrido de código abierto de Tencent, que incluye dos modelos, 1.8B y 7B, y admite 33 idiomas internacionales y 5 tipos de traducción de chino y chino/dialecto.El modelo 1.8B está especialmente optimizado para teléfonos móviles y otros dispositivos de...

Últimos recursos sobre IA

hace 3 meses

038.5K

PersonaLive - La Universidad de Macao y otros de código abierto en tiempo real AI retrato animación generación marco vivo

PersonaLive es un marco de código abierto para la transmisión en directo de intercambio de rostros de IA en tiempo real, desarrollado conjuntamente por la Universidad de Macao, dzine.ai y el GVC Lab de la Universidad de la Gran Área de la Bahía. Puede lograr una baja latencia y una alta velocidad de fotogramas en la transmisión digital de personas con tarjetas gráficas ordinarias de consumo (12 GB de memoria de vídeo), y soportar en tiempo real a través de la cámara...

Últimos recursos sobre IA

hace 3 meses

031.1K

Computer Use Preview - Google开源的AI浏览器自动化工具

Computer Use Preview - Herramienta de código abierto de Google para la automatización de navegadores con IA

Computer Use Preview es la herramienta de automatización del navegador AI de código abierto de Google basada en el modelo Gemini , a través de comandos de lenguaje natural para lograr la interacción de la página web . El uso de "captura de pantalla → análisis → ejecución" del proceso de reconocimiento visual , el apoyo Playwrigh...

Últimos recursos sobre IA

hace 3 meses

026.2K

ClipSketch AI - Vídeo AI de código abierto a la herramienta de pantalla dividida dibujado a mano, soporte de la estación B, pequeño libro rojo

ClipSketch AI es una herramienta de código abierto de conversión de vídeo a pantalla dividida dibujada a mano diseñada para creadores de vídeos cortos. Puede convertir vídeos de B station, Xiaohongshu y otras plataformas en storyboards de estilo dibujado a mano en un solo clic, admite el marcado de fotogramas clave, la generación automática de subescenas y social copy, y puede integrar roles definidos por el usuario.

Últimos recursos sobre IA

hace 3 meses

031.4K

MAI-UI - Modelo de base corporal inteligente GUI universal de código abierto de Ali Tongyi Labs

MAI-UI es un modelo base de cuerpo inteligente GUI universal de código abierto de Alibaba Tongyi Labs, con cuatro capacidades principales: funcionamiento entre aplicaciones, comprensión semántica difusa, interacción activa con el usuario y coordinación de procesos en varios pasos. Adoptando una arquitectura de colaboración extremo-nube, el modelo ligero reside en el dispositivo para gestionar las tareas diarias, y las tareas complejas pueden llamar a la nube big...

Últimos recursos sobre IA

hace 3 meses

035.4K

MiniMax M2.1 - Código abierto MiniMax y modelos de agentes

MiniMax M2.1 es el modelo de codificación y agente de código abierto de MiniMax con 10.000 millones de activaciones y soporte para muchos de los principales lenguajes de programación como Rust, Java, Golang, C++, Kotlin, Objective-C, TypeS...

Últimos recursos sobre IA

hace 3 meses

022.8K

InstanceAssemble - Tecnología de generación de control de diseño de código abierto de Little Red Book y la Universidad de Fudan

InstanceAssemble es una tecnología de generación de control de disposición de código abierto desarrollada conjuntamente por Xiaohongshu y la Universidad de Fudan, que consigue una generación de imágenes precisa de disposiciones simples a complejas y de dispersas a densas mediante el mecanismo de "Instance Assemble Attention". Adoptando una arquitectura en cascada de dos etapas , primero en el fondo de la imagen , y luego uno a uno ...

Últimos recursos sobre IA

hace 3 meses

019.7K

Zen Browser - Navegador web de IA de código abierto basado en el núcleo de Firefox

Zen Browser es un navegador de código abierto basado en el núcleo de Firefox, centrado en una experiencia de navegación sencilla y eficiente, con características básicas como la barra de pestañas vertical y el aislamiento del espacio de trabajo. Con el diseño de barra lateral, puede mostrar claramente el título completo de más de 50 pestañas y soportar la navegación multi-ventana en pantalla dividida.

Últimos recursos sobre IA

hace 3 meses

032K

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

QwenLong-L1.5 es un modelo de inferencia de texto largo de código abierto de Alibaba Tongyi Lab, centrado en la resolución de problemas de inferencia complejos con contextos ultra largos (por ejemplo, 1M-4M de tokens). El principal avance radica en tres innovaciones importantes en la fase de post-entrenamiento: a través del grafo de conocimiento, el análisis sintáctico SQL y la multiinteligencia...

Últimos recursos sobre IA

hace 3 meses

024.5K

Infografía - Marco de generación de infografías de código abierto del equipo Ali AntV

Infographic es una nueva generación de marco de código abierto del equipo Ali AntV , basado en el desarrollo G2 y Ant Design , centrándose en la rápida generación de infografías de alta calidad , proporcionando 30 + plantillas de diseño , 120 + temas preestablecidos y capacidades de generación inteligente AI .

Últimos recursos sobre IA

hace 3 meses

029.5K

opcode - aplicación gráfica de escritorio de código abierto diseñada para Claude Code

opcode está diseñado para Claude Code de código abierto aplicación gráfica de escritorio , el desarrollador winfunc basado en Tauri 2 + React 18 + Rust desarrollo . Proporciona una interfaz visual para gestionar proyectos Claude Code , soporte para la creación de...

Últimos recursos sobre IA

hace 4 meses

026.8K

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

TurboDiffusion es un marco de aceleración de generación de vídeo de código abierto desarrollado conjuntamente por la Universidad de Tsinghua, BioDigital Technology y UC Berkeley, capaz de mejorar la velocidad de generación de vídeo entre 100 y 200 veces manteniendo una calidad de imagen casi sin pérdidas. Mediante la atención lineal dispersa, la destilación por pasos de...

Últimos recursos sobre IA

hace 4 meses

030.8K

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros, de código abierto de Google, perfeccionado con un corpus clínico desensibilizado de 5.000 horas, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico integrado de 6 gramos y una tasa de error de palabra de sólo el 4,6 en el conjunto de datos privados de radiología RAD-DICT...

Últimos recursos sobre IA

hace 4 meses

031.5K

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

Fun-Audio-Chat-8B es un gran modelo de voz integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, con entrada directa de voz y salida de voz, sin necesidad de empalme ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Utiliza LLM compartido de doble resolución con 25 Hz...

Últimos recursos sobre IA

hace 4 meses

027.9K

PromptFill - Herramienta de código abierto de generación de palabras clave estructuradas diseñada para la pintura de IA

PromptFill es una herramienta de generación de indicaciones estructurada diseñada para el dibujo de IA, que ayuda a los usuarios a crear, gestionar e iterar rápidamente indicaciones complejas mediante interacciones visuales de "rellenar los espacios en blanco", mejorando la eficacia y la calidad de la generación de imágenes de IA.Las características principales de PromptFill...

Últimos recursos sobre IA

hace 4 meses

027.7K

GLM-4.7 - La última generación de modelos de gran tamaño de Wisdom Spectrum AI Open Source

GLM-4.7 es la última generación del buque insignia Grand Model lanzado y de código abierto por Smart Spectrum AI, que está profundamente optimizado para la programación de IA, el razonamiento complejo y las tareas corporales inteligentes. El modelo admite una longitud de contexto de 200k y una salida máxima de 128k, con codificación multilingüe, planificación de tareas de largo alcance y capacidades de colaboración de herramientas...

Últimos recursos sobre IA

hace 4 meses

043.8K

NitroGen: el modelo de IA para juegos de código abierto de NVIDIA en colaboración con Stanford, Caltech y otros.

NitroGen es un modelo de IA para juegos de código abierto desarrollado por NVIDIA en colaboración con la Universidad de Stanford, Caltech y otras instituciones, capaz de ejecutar más de 1.000 tipos de juegos diferentes. El modelo se basa en la arquitectura GROOT N1.5 y se obtiene mediante el análisis de 40.000 horas de datos de vídeo de juegos (incluida la anotación del funcionamiento del joystick)....

Últimos recursos sobre IA

hace 4 meses

036.3K

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

Qwen-Image-Layered es un modelo de edición de imágenes de AI de código abierto del equipo Ali que descompone de forma inteligente imágenes ordinarias en capas transparentes independientes para lograr una edición de precisión similar a la de Photoshop. El modelo es de código abierto mediante el protocolo Apache 2.0 y admite un control flexible de las capas...

Últimos recursos sobre IA

hace 4 meses

039.3K

VTP - La tecnología de modelado generativo visual de código abierto del equipo de vídeo MiniMax Conch

VTP (Visual Tokenizer Pre-training) es una tecnología clave para modelos generativos visuales propuesta por el equipo de MiniMax Conch Video para mejorar el rendimiento del sistema generativo mejorando el método de preentrenamiento del tokenizador visual (tokenizer). El método tradicional...

Últimos recursos sobre IA

hace 4 meses

031.6K

T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google

T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...

Últimos recursos sobre IA

hace 4 meses

030.1K

FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones

FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...

Últimos recursos sobre IA

hace 4 meses

029.9K

SHARP - Tecnología de composición de escenas 3D con visión monocular de código abierto de Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) es la tecnología de síntesis de vista monocular de código abierto de Apple. Puede generar rápidamente una representación 3D realista de una escena a partir de una sola foto en menos de un segundo....

Últimos recursos sobre IA

hace 4 meses

033.9K

TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft

TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...

Últimos recursos sobre IA

hace 4 meses

040.1K

Step-GUI - Modelos de la serie de agentes de IA de código abierto de Step-Star

Step-GUI es la serie de modelos de agentes de IA de código abierto de Step-Star, que incluye el modelo en la nube Step-GUI, el primer protocolo MCP para agentes GUI, y el primer modelo de código abierto del sector Step-GUI Edge para...

Últimos recursos sobre IA

hace 4 meses

037.7K

A2UI - Protocolo declarativo de código abierto de Google para interfaces de interacción de usuario basadas en agentes

A2UI (Agent-to-User Interface) es el protocolo de interfaz de código abierto de Google impulsado por agentes que aborda los retos de la generación de interfaces interactivas complejas para agentes de IA. A través de un formato JSON declarativo que permite a los agentes de IA describir la estructura de la interfaz de usuario , las aplicaciones cliente...

Últimos recursos sobre IA

hace 4 meses

044.5K

SAM Audio - Modelo de segmentación de audio multimodal de código abierto de Meta

SAM Audio es un modelo de segmentación de audio multimodal de código abierto de Meta que separa con precisión sonidos objetivo arbitrarios de mezclas de audio complejas. Mediante la combinación de pistas dimensionales textuales, visuales y temporales, permite un procesamiento de audio flexible y eficiente para tareas como la edición de audio,...

Últimos recursos sobre IA

hace 4 meses

032.1K

Mixed World Model 1.5 - Marco de generación de modelos del mundo en tiempo real de código abierto Tencent Mixed

Hybrid World Model 1.5 (Tencent HY WorldPlay) es el primer marco de modelo mundial en tiempo real de código abierto de la industria lanzado por Tencent, que cubre la cadena completa de despliegue de datos, formación e inferencia de streaming. El núcleo es el modelo de difusión autorregresiva WorldPlay, que utiliza...

Últimos recursos sobre IA

hace 4 meses

033.4K

Molmo 2 - Familia de modelos de comprensión multimodal de imágenes de vídeo de código abierto Ai2

Molmo 2 es un modelo multimodal de código abierto lanzado por el Allen Institute for AI (Ai2) para mejorar la comprensión de vídeos e imágenes múltiples. Incluye tres variantes: Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O...

Últimos recursos sobre IA

hace 4 meses

038.2K

LongCat-Video-Avatar - Modelo de generación de vídeo avatar de código abierto de Meituan

LongCat-Video-Avatar es un modelo avanzado de generación de vídeo basado en audio, creado a partir de LongCat-Video de código abierto por Meituan, que se centra en la generación de vídeos largos hiperrealistas y sincronizados con los labios, con una dinámica natural y una identidad coherente.

Últimos recursos sobre IA

hace 4 meses

038.9K

MiMo-V2-Flash - Un gran modelo de la arquitectura MoE de código abierto lanzado por Xiaomi

MiMo-V2-Flash es un gran modelo de arquitectura MoE de código abierto lanzado por Xiaomi, con 309.000 millones de parámetros totales y 15.000 millones de parámetros activos, centrado en el razonamiento eficiente y las aplicaciones corporales inteligentes. El modelo adopta una arquitectura de atención híbrida y tecnología de meta-predicción multi-palabra, con una velocidad de inferencia de 150 tokens/segundo, en...

Últimos recursos sobre IA

hace 4 meses

035.2K

Nemotron 3 - Una familia de modelos de IA de código abierto publicada por NVIDIA

Nemotron 3 es una familia de modelos de IA de código abierto lanzada por NVIDIA en tamaños Nano, Super y Ultra. Nemotron 3 adopta una arquitectura MoE latente que mejora significativamente la eficiencia de la inferencia y reduce los costes operativos. Entre ellos...

Últimos recursos sobre IA

hace 4 meses

031.9K

Wan-Move: el marco de código abierto de Ali Tongyi para la generación de vídeo con inteligencia artificial, en colaboración con Tsinghua y otros organismos.

Wan-Move es un marco de generación de vídeo de IA de código abierto desarrollado conjuntamente por Ali Tongyi Labs, la Universidad de Tsinghua y otras instituciones, centrado en la composición de vídeo de alta calidad mediante una tecnología precisa de control del movimiento. La tecnología central es la "guía de trayectoria potencial", que puede añadir sin problemas el control de movimiento a nivel de punto al modelo existente de imagen a vídeo...

Últimos recursos sobre IA

hace 4 meses

032K

PaCoRe - Marco de razonamiento colaborativo paralelo de StepStar para la Inteligencia Artificial

PaCoRe (Parallel Coordinated Reasoning) es el innovador marco de razonamiento colaborativo paralelo de código abierto de StepFun, a través de un mecanismo de pensamiento masivamente paralelo, desde múltiples perspectivas para explorar simultáneamente la solución del problema, rompiendo...

Últimos recursos sobre IA

hace 4 meses

035.3K

Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

Banana Slides - Herramienta de generación de PPT de AI de código abierto basada en el modelo Nano Banana Pro.

Banana Slides es un generador inteligente de PPT de código abierto basado en el modelo Nano Banana Pro AI, que permite crear rápidamente presentaciones profesionales utilizando comandos de lenguaje natural. Permite a los usuarios describir el tema en una frase (por ejemplo, "Impacto humano en el ecosistema"), que puede ser auto...

Últimos recursos sobre IA

hace 4 meses

040.6K

Kaleido - Un modelo de generación de vídeo de referencia multisujeto de código abierto creado por Smart Spectrum AI en colaboración con la Universidad de Tsinghua y otras instituciones.

Kaleido es un modelo de generación de vídeo de referencia multisujeto de código abierto desarrollado conjuntamente por la Universidad Tecnológica de Hefei, la Universidad de Tsinghua y Smart Spectrum AI. Genera vídeos coherentes con el sujeto a través de múltiples imágenes de referencia, resolviendo las deficiencias de los modelos existentes en cuanto a coherencia multisujeto y desacoplamiento del fondo.Kaleido genera vídeos a través de un...

Últimos recursos sobre IA

hace 4 meses

031K

Paper2Slides - La Universidad de Hong Kong convierte documentos académicos de código abierto en diapositivas Herramientas de IA

Paper2Slides es una herramienta de IA de código abierto del Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong que convierte documentos académicos en diapositivas o pósters profesionales en un solo clic. Utiliza la tecnología RAG (Retrieval Augmented Generation), analizando directamente el contenido del documento en lugar de basarse en información de la red, para garantizar que el PPT generado sea altamente coherente con el original....

Últimos recursos sobre IA

hace 4 meses

032.9K

RealVideo - Sistema de generación de vídeo en tiempo real de código abierto de Wisdom Spectrum AI

RealVideo es un sistema de generación de vídeo en tiempo real de código abierto de Smart Spectrum AI que puede generar rápidamente respuestas de vídeo naturales y fluidas en 2 o 3 segundos. Los usuarios solo tienen que subir una foto e introducir un texto, y el sistema genera la voz y el vídeo correspondientes, lo que permite dialogar en tiempo real con personajes de IA....

Últimos recursos sobre IA

hace 4 meses

029.8K

OpenScreen - 开源免费的屏幕录制工具，支持Mac和Windows双系统

OpenScreen - Herramienta de grabación de pantalla gratuita y de código abierto para Mac y Windows.

OpenScreen es una herramienta de grabación de pantalla de código abierto y gratuita que proporciona a los usuarios una alternativa fácil de usar y funcional a Screen Studio. Es compatible tanto con Mac como con Windows, es totalmente gratuita y sigue el protocolo del MIT, y puede utilizarse para grabaciones individuales de...

Últimos recursos sobre IA

hace 4 meses

037K

SCAIL - Marco de generación de animación de personajes para cine y televisión de código abierto de Wisdom spectrum y Tsinghua

SCAIL (Studio-Grade Character Animation via In-Context Learning) es un marco de generación de animación de personajes para cine y televisión propuesto por Smart Spectrum en colaboración con el grupo del profesor Liu Yongjin de la Universidad de Tsinghua. A través de...

Últimos recursos sobre IA

hace 4 meses

032.4K

DeepSearchQA: pruebas de referencia de código abierto de Google para agentes de investigación de IA

DeepSearchQA es la prueba de referencia de código abierto de Google para agentes de investigación de IA, diseñada para evaluar el rendimiento de las inteligencias en tareas de consulta complejas de varios pasos. Consta de 900 tareas de "cadena causal" diseñadas a mano que abarcan 17 dominios y exigen que la IA actúe como un investigador humano y...

Últimos recursos sobre IA

hace 4 meses

032.4K

Claude-Mem - 开源Claude Code记忆插件，支持跨会话持久化记忆

Claude-Mem - Complemento de memoria de código abierto de Claude con soporte de memoria persistente entre sesiones

Claude-Mem es un complemento de código abierto para Claude Code que aborda el problema de la pérdida de memoria de la IA entre sesiones. Ayuda a Claude capturando automáticamente el uso que la herramienta hace de las observaciones, generando resúmenes semánticos e inyectando contexto relevante en sesiones posteriores....

Últimos recursos sobre IA

hace 4 meses

051.3K

KoalaQA - Sistema de AI de código abierto para el servicio postventa que ayuda a las empresas a crear rápidamente plataformas de preguntas y respuestas

KoalaQA es un sistema de servicio posventa inteligente de código abierto desarrollado por el equipo de Chaitin. Basado en el modelo de IA, proporciona funciones de servicio al cliente de IA, búsqueda de IA y gestión de base de conocimientos para ayudar a las empresas a crear rápidamente una plataforma inteligente de preguntas y respuestas. El sistema permite responder en tiempo real 24/7 ...

Últimos recursos sobre IA

hace 4 meses

028.1K

VoxCPM 1.5 - Modelado de texto a voz de código abierto de extremo a extremo de Faceted Intelligence

VoxCPM 1.5 es un modelo de generación de voz de código abierto publicado por Facade Intelligence, basado en la tecnología de conversión de texto a voz (TTS) sin necesidad de divisor, con varias innovaciones y mejoras. Adoptando una arquitectura autorregresiva de difusión de extremo a extremo, genera formas de onda de habla continua directamente a partir del texto, evitando las limitaciones de los métodos tradicionales de segmentación...

Últimos recursos sobre IA

hace 4 meses

038.8K

Mistral Vibe - Asistente de código de línea de comandos de código abierto de Mistral AI

Mistral Vibe es un asistente de codificación de línea de comandos de código abierto de Mistral AI, desarrollado basado en el modelo Devstral, que soporta la interacción del lenguaje natural para completar la búsqueda de código, manipulación de archivos, control de versiones y otras tareas. Puede escanear automáticamente la estructura del proyecto y el estado de Git a través del símbolo @...

Últimos recursos sobre IA

hace 4 meses

030.1K

GLM-TTS - Sistema de síntesis de voz industrial de código abierto de Smart Spectrum AI

GLM-TTS es un sistema de síntesis de voz industrial de código abierto con potentes funciones de síntesis de voz. Adopta una arquitectura de generación en dos etapas: la primera convierte el texto en secuencias de tokens de voz y la segunda convierte las secuencias de tokens en audio de alta calidad. El sistema admite sólo 3 segundos de muestras de voz para completar la...

Últimos recursos sobre IA

hace 4 meses

029.7K

Devstral 2 - La nueva generación de modelos de programación de Mistral AI

Devstral 2 es una familia de modelos de programación de nueva generación diseñados para tareas de ingeniería de software de Mistral AI, que consta de las versiones Devstral 2 (parámetro 123B) y Devstral Small 2 (parámetro 24B).D...

Últimos recursos sobre IA

hace 4 meses

029.1K

GLM-ASR - Serie de modelos de reconocimiento del habla de alto rendimiento y código abierto de Wisdom Spectrum AI

GLM-ASR es una familia de modelos de reconocimiento del habla de alto rendimiento de código abierto de Smart Spectrum AI, que incluye el modelo basado en la nube GLM-ASR-2512 y el modelo de código abierto GLM-ASR-Nano-2512.GLM-ASR-2512 es el modelo de reconocimiento del habla basado en la nube...

Últimos recursos sobre IA

hace 4 meses

035.7K

OpenAutoGLM - Modelo de agente de IA de código abierto para teléfonos móviles de Smart Spectrum AI

OpenAutoGLM es un modelo corporal inteligente de código abierto con capacidad de "uso del teléfono móvil", que puede comprender el contenido de la pantalla del teléfono móvil mediante la percepción multimodal, y generar automáticamente el flujo de operaciones para completar las tareas especificadas por el usuario. Los usuarios sólo tienen que utilizar el lenguaje natural para describir las necesidades, como "abrir Meituan para buscar una olla caliente cercana...".

Últimos recursos sobre IA

hace 4 meses

032K

Más información