Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - La tecnología de modelado generativo visual de código abierto del equipo de vídeo MiniMax Conch

VTP (Visual Tokenizer Pre-training) es una tecnología clave para modelos generativos visuales propuesta por el equipo de MiniMax Conch Video para mejorar el rendimiento del sistema generativo mejorando el método de preentrenamiento del tokenizador visual (tokenizer). El método tradicional...
hace 3 meses
030.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google

T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...
hace 3 meses
029.5K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones

FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...
hace 3 meses
028.8K
SHARP - 苹果开源的单目视图3D场景合成技术

SHARP - Tecnología de composición de escenas 3D con visión monocular de código abierto de Apple

SHARP (Sharp Monocular View Synthesis in Less Than a Second) es la tecnología de síntesis de vista monocular de código abierto de Apple. Puede generar rápidamente una representación 3D realista de una escena a partir de una sola foto en menos de un segundo....
hace 3 meses
032.6K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft

TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...
hace 3 meses
039K
Step-GUI - 阶跃星辰开源的AI Agent系列模型

Step-GUI - Modelos de la serie de agentes de IA de código abierto de Step-Star

Step-GUI es la serie de modelos de agentes de IA de código abierto de Step-Star, que incluye el modelo en la nube Step-GUI, el primer protocolo MCP para agentes GUI, y el primer modelo de código abierto del sector Step-GUI Edge para...
hace 4 meses
037K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - Protocolo declarativo de código abierto de Google para interfaces de interacción de usuario basadas en agentes

A2UI (Agent-to-User Interface) es el protocolo de interfaz de código abierto de Google impulsado por agentes que aborda los retos de la generación de interfaces interactivas complejas para agentes de IA. A través de un formato JSON declarativo que permite a los agentes de IA describir la estructura de la interfaz de usuario , las aplicaciones cliente...
hace 4 meses
043.5K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - Modelo de segmentación de audio multimodal de código abierto de Meta

SAM Audio es un modelo de segmentación de audio multimodal de código abierto de Meta que separa con precisión sonidos objetivo arbitrarios de mezclas de audio complejas. Mediante la combinación de pistas dimensionales textuales, visuales y temporales, permite un procesamiento de audio flexible y eficiente para tareas como la edición de audio,...
hace 4 meses
031.8K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Marco de generación de modelos del mundo en tiempo real de código abierto Tencent Mixed

Hybrid World Model 1.5 (Tencent HY WorldPlay) es el primer marco de modelo mundial en tiempo real de código abierto de la industria lanzado por Tencent, que cubre la cadena completa de despliegue de datos, formación e inferencia de streaming. El núcleo es el modelo de difusión autorregresiva WorldPlay, que utiliza...
hace 4 meses
032.4K
Molmo 2 - Ai2开源的多模态视频图像理解模型系列

Molmo 2 - Familia de modelos de comprensión multimodal de imágenes de vídeo de código abierto Ai2

Molmo 2 es un modelo multimodal de código abierto lanzado por el Allen Institute for AI (Ai2) para mejorar la comprensión de vídeos e imágenes múltiples. Incluye tres variantes: Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O...
hace 4 meses
037.5K