Matrix-3D - Marco de generación de mundos 3D de código abierto para todo el mundo Kunlun
Matrix-3D es un framework de código abierto del equipo Skywork AI, centrado en la generación de mundos 3D panorámicos explorables. El marco combina técnicas de generación de vídeo panorámico y reconstrucción 3D para generar mundos 3D explorables omnidireccionales de alta calidad a partir de una sola imagen o...
GLM-4.5V - Modelo de razonamiento visual multimodal de código abierto de Smart Spectrum
GLM-4.5V es el modelo de inferencia visual de código abierto líder mundial presentado por Smart Spectrum, con 106.000 millones de parámetros totales y 12.000 millones de parámetros activados. El modelo se entrena a partir del modelo base de texto de nueva generación GLM-4.5-Air, con potentes capacidades de comprensión y razonamiento visual, capaz de manejar imágenes, vídeo...
Genie 3 - El modelo universal del mundo de Google
Genie 3 es una nueva generación de modelos de mundo universales de Google DeepMind que permiten generar mundos virtuales muy dinámicos y coherentes en tiempo real.Genie 3 simula fenómenos físicos, ecosistemas naturales y admite la creación de escenarios fantásticos e históricos. Con indicaciones de texto, los usuarios pueden...
Claude Opus 4.1 - El modelo de programación más potente de Anthropic
Claude Opus 4.1 es un modelo de lenguaje a gran escala de última generación de Anthropic, diseñado para el procesamiento eficiente de tareas complejas. El modelo destaca en el ámbito de la programación, generando código de alta calidad, soportando hasta 32k de salida única y adaptándose a una amplia gama de estilos de programación....
gpt-oss - una familia de modelos de inferencia de código abierto de OpenAI
gpt-oss es la familia de modelos de inferencia de código abierto de OpenAI que permite soluciones de IA eficientes, flexibles y fáciles de implementar para desarrolladores. gpt-oss se presenta en dos versiones, gpt-oss-120B con 117.000 millones de parámetros y soporte para 8...
MiDashengLM: el modelo de comprensión de sonido de código abierto de Xiaomi
MiDashengLM es el gran modelo de código abierto de Xiaomi para la comprensión eficaz del sonido, con la versión de parámetros específicos MiDashengLM-7B , centrada en el procesamiento y la comprensión del audio. El modelo se basa en Xiaomi Dasheng codificador de audio y Qwen2.5-Omn...
MOSS-TTSD - Modelo de código abierto para la generación de diálogos bilingües del laboratorio Tsinghua
MOSS-TTSD es un modelo de diálogo hablado de código abierto desarrollado por el Laboratorio de Habla y Lenguaje de la Universidad de Tsinghua. MOSS-TTSD puede convertir guiones de diálogo de texto en habla de diálogo natural, fluida y expresiva, y admite la generación bilingüe.
AudioGen-Omni - Un modelo de generación de audio multimodal de Racer
AudioGen-Omni es un modelo de generación de audio multimodal de Racer que genera audio, voz y canciones de alta calidad a partir de entradas como vídeo, texto, etc.AudioGen-Omni se basa en técnicas avanzadas como el transformador de difusión multimodal y...
RedOne: el último megamodelo social de Little Red Book
RedOne es un gran modelo lingüístico adaptado a las redes sociales presentado por Little Red Book. El modelo se entrena mediante una estrategia de formación en tres fases que incorpora conocimientos sociales y culturales, refuerza las capacidades multitarea y alinea las preferencias humanas.RedOne supera significativamente al modelo base en rendimiento de tareas sociales, en detección de contenidos nocivos y navegación...
FastDeploy - Herramienta de Baidu de alto rendimiento para el razonamiento y despliegue de grandes modelos
FastDeploy es una herramienta de razonamiento y despliegue de alto rendimiento de Baidu, diseñada para grandes modelos lingüísticos (LLM) y modelos lingüísticos visuales (VLM). FastDeploy se ha desarrollado a partir del marco Flying Paddle (PaddlePaddle) y es compatible con diversas plataformas de hardware....