VTP - La tecnología de modelado generativo visual de código abierto del equipo de vídeo MiniMax Conch
VTP (Visual Tokenizer Pre-training) es una tecnología clave para modelos generativos visuales propuesta por el equipo de MiniMax Conch Video para mejorar el rendimiento del sistema generativo mejorando el método de preentrenamiento del tokenizador visual (tokenizer). El método tradicional...
T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google
T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...
FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones
FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...
SHARP - Tecnología de composición de escenas 3D con visión monocular de código abierto de Apple
SHARP (Sharp Monocular View Synthesis in Less Than a Second) es la tecnología de síntesis de vista monocular de código abierto de Apple. Puede generar rápidamente una representación 3D realista de una escena a partir de una sola foto en menos de un segundo....
TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft
TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...
Step-GUI - Modelos de la serie de agentes de IA de código abierto de Step-Star
Step-GUI es la serie de modelos de agentes de IA de código abierto de Step-Star, que incluye el modelo en la nube Step-GUI, el primer protocolo MCP para agentes GUI, y el primer modelo de código abierto del sector Step-GUI Edge para...
A2UI - Protocolo declarativo de código abierto de Google para interfaces de interacción de usuario basadas en agentes
A2UI (Agent-to-User Interface) es el protocolo de interfaz de código abierto de Google impulsado por agentes que aborda los retos de la generación de interfaces interactivas complejas para agentes de IA. A través de un formato JSON declarativo que permite a los agentes de IA describir la estructura de la interfaz de usuario , las aplicaciones cliente...
SAM Audio - Modelo de segmentación de audio multimodal de código abierto de Meta
SAM Audio es un modelo de segmentación de audio multimodal de código abierto de Meta que separa con precisión sonidos objetivo arbitrarios de mezclas de audio complejas. Mediante la combinación de pistas dimensionales textuales, visuales y temporales, permite un procesamiento de audio flexible y eficiente para tareas como la edición de audio,...
Mixed World Model 1.5 - Marco de generación de modelos del mundo en tiempo real de código abierto Tencent Mixed
Hybrid World Model 1.5 (Tencent HY WorldPlay) es el primer marco de modelo mundial en tiempo real de código abierto de la industria lanzado por Tencent, que cubre la cadena completa de despliegue de datos, formación e inferencia de streaming. El núcleo es el modelo de difusión autorregresiva WorldPlay, que utiliza...
Molmo 2 - Familia de modelos de comprensión multimodal de imágenes de vídeo de código abierto Ai2
Molmo 2 es un modelo multimodal de código abierto lanzado por el Allen Institute for AI (Ai2) para mejorar la comprensión de vídeos e imágenes múltiples. Incluye tres variantes: Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O...









