Guía en PDF de OpenAI para mantenerse a la vanguardia en la era de la IA - con enlaces de descarga
Staying ahead in the age of AI es una guía de liderazgo en IA de OpenAI que ayuda a los líderes empresariales a mantener una ventaja competitiva en la era de la IA. La guía señala el rápido crecimiento de la IA, con lanzamientos de modelos más rápidos, costes más bajos y una adopción empresarial más rápida....
PDF gratuito de Fundamentos de grandes modelos de la Universidad de Zhejiang - con enlace de descarga
Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....
LLaSO: el primer modelo de voz de código abierto de Logic Intelligence
LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.
Hybrid 3D 3.0: modelos generados en 3D de Tencent compatibles con UHD
Hybrid 3D 3.0 es un modelo avanzado de generación 3D de Tencent, basado en la tecnología de esculpido jerárquico 3D-DiT, con una resolución geométrica de hasta 1536³, capaz de generar modelos 3D de ultra alta definición y ricos en detalles, y de destacar en el modelado de personajes, con capacidad para modelar con precisión los cinco sentidos y la forma del cuerpo.
Mini-o3 - Bytes, modelo conjunto de razonamiento visual de código abierto de la HKU
Mini-o3 es un modelo de código abierto lanzado conjuntamente por ByteDance y la Universidad de Hong Kong, centrado en la resolución de problemas complejos de búsqueda visual. El modelo tiene una potente capacidad de razonamiento interactivo multirronda y puede localizar un objetivo mediante exploración profunda y ensayo-error.
GPT-5-Codex: el modelo de programación más sólido introducido por OpenAI
GPT-5-Codex es un potente modelo de optimización de programación de OpenAI, mejorado por GPT-5 y diseñado para ingenieros de software. El modelo genera código de alta calidad con rapidez, es compatible con múltiples lenguajes de programación y optimiza el código existente para mejorar el rendimiento.
MiniMax Music 1.5 - ¡El último modelo de generación de música por IA de MiniMax!
MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....
AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto
AnyI2V es un marco de generación de animaciones de imágenes lanzado conjuntamente por la Universidad de Fudan, Alibaba Darmo Academy y otras entidades, que permite convertir imágenes condicionales estáticas (por ejemplo, cuadrículas, nubes de puntos, etc.) en vídeos dinámicos sin necesidad de un complejo proceso de formación y una gran cantidad de datos.
SRPO - Modelo de generación de texto a imagen lanzado por Tencent Hybrid
SRPO (Semantic Relative Preference Optimization) es un modelo de generación de texto a imagen introducido por Tencent Mixed Meta, que optimiza el mecanismo de recompensa a través de señales condicionales textuales para lograr el ajuste en línea de las recompensas y reducir la dependencia del ajuste fuera de línea.
Qwen3-Next, el último modelo básico lanzado por Ali Tongyi
Qwen3-Next es un gran modelo de arquitectura híbrida de nueva generación, desarrollado por Ali Tongyi, que combina las tecnologías Gated DeltaNet y Gated Attention, lo que le permite tratar textos largos, realizar inferencias rápidas y ahorrar recursos informáticos.