Llama 4 series debuta: ¿un nuevo comienzo para la innovación nativa multimodal de IA?

El 5 de abril de 2025, Meta lanzó Llama 4, la última incorporación a su familia Llama de grandes modelos lingüísticos, que supone un avance significativo en IA, especialmente en multimodalidad nativa y arquitectura de modelos. En el centro del lanzamiento se encuentran los modelos Llama 4 Scout y Llama 4 Maverick, así como un avance del modelo gigante "maestro" Llama 4 Behemoth que sustenta la tecnología. Este movimiento no sólo demuestra el compromiso de Meta por ponerse al día y tratar de superar a los mejores modelos de la industria, sino que también continúa su estrategia de impulsar el ecosistema de IA de código abierto.

Llama 4 系列登场:原生多模态 AI 创新的新起点?

 

Visión general de los modelos básicos de la serie Llama 4

Meta lanza dos modelos de la serie Llama 4 para desarrolladores y aplicaciones:

  • Llama 4 ScoutEl modelo cuenta con 17.000 millones de parámetros activos y 16 Expertos, para un total de 109.000 millones de parámetros. Lo más destacado es la capacidad multimodal, la mejor de su clase, que supera a todos los modelos Llama anteriores. Aún más destacable es que admite hasta 10 millones de ficha ventana de contexto, superando con creces los 128K de Llama 3. Meta afirma que el modelo supera al de Google Gemma 3 y Géminis 2.0 Flash-Lite y Mistral AI (utilizado como expresión nominal) Mistral 3.1 y cuantificado por Int4 para ser implementado en una única GPU NVIDIA H100, lo que demuestra un enfoque centrado en la eficiencia.
  • Llama 4 MaverickTambién cuenta con 17.000 millones de parámetros activos, pero está equipado con 128 expertos y 400.000 millones de parámetros totales. Posicionado como el mejor modelo multimodal de su clase, aspira a desafiar al GPT-4o de OpenAI y al Gemini 2.0 Flash de Google. Según los datos publicados por Meta, Maverick obtiene buenos resultados en varias pruebas de referencia y se acerca a tener el doble de parámetros que su parámetro activo, en términos de inferencia y potencia de codificación. DeepSeek v3 . Una versión experimental del chat está disponible en LMArena La tabla de clasificación recibió una puntuación ELO de 1417, lo que demuestra su potencial para las capacidades de diálogo. El modelo puede ejecutarse en un único host NVIDIA H100 DGX.

Además, Meta adelantó Llama 4 Behemoth Modelización. Es un monstruo con 288.000 millones de parámetros activos, 16 expertos y casi 2 billones de participantes en total. Todavía está en fase de formación y no ha salido al mercado, pero sirve de modelo "maestro" para Scout y Maverick, aumentando el rendimiento de estos últimos mediante la destilación de conocimientos. Behemoth destaca en pruebas matemáticas, multilingües y de imagen, y Meta afirma que supera a GPT-4.5 en algunas pruebas STEM como MATH-500 y GPQA Diamond, Antrópico (utilizado como expresión nominal) Claude Sonnet 3.7 y Gemini 2.0 Pro de Google.

 

Innovaciones tecnológicas clave: ME, multimodalidad y contextos largos

La serie Llama 4 introduce una serie de innovaciones tecnológicas clave que sustentan sus mejoras de rendimiento.

Arquitectura híbrida del Modelo de Experiencia (MoE)

Llama 4 es la primera familia de modelos de Meta que adopta la arquitectura de Expertos Mixtos (MoE), que ha atraído mucha atención en los últimos años porque permite a los modelos activar sólo un pequeño número de parámetros (es decir, "expertos") en un momento de inferencia mientras tienen un gran número de parámetros totales. Este diseño permite un mayor rendimiento que los modelos densos (Dense) tradicionales para un presupuesto computacional de entrenamiento dado y mejora la eficiencia computacional del entrenamiento y la inferencia.

Llama 4 系列登场:原生多模态 AI 创新的新起点?

Como ejemplo, Llama 4 Maverick tiene 400.000 millones de parámetros totales distribuidos entre 128 expertos en enrutamiento y un experto compartido. Al razonar, cada ficha se envía al experto compartido y a uno de los expertos en enrutamiento. El modelo utiliza alternativamente capas densas y MoE para equilibrar rendimiento y eficiencia. Esta arquitectura permite desplegar Maverick en un único host H100 DGX o maximizar la eficiencia mediante el razonamiento distribuido, reduciendo el coste y la latencia de los servicios del modelo.

Multimodalidad nativa e integración temprana

A diferencia de enfoques anteriores que entrenaban modelos lingüísticos antes de adaptarlos a las capacidades visuales, Llama 4 está diseñado para ser un modelo multimodal nativo. Emplea una estrategia de Fusión Temprana que integra a la perfección tokens textuales y visuales en la red troncal del modelo. Esto significa que el modelo puede preentrenarse conjuntamente con grandes cantidades de datos de texto, imagen y vídeo sin etiquetar. Llama 4 también mejora su codificador visual, basado en MetaCLIP pero coentrenado con un modelo Llama congelado para adaptarse mejor a los grandes modelos lingüísticos. El modelo puede manejar hasta 48 imágenes en el preentrenamiento y funciona bien con hasta 8 imágenes en las pruebas de postentrenamiento, y es capaz de manejar múltiples imágenes y pistas textuales para el razonamiento y la comprensión visuales.

Ventana contextual de 10 millones de tokens de gran avance

Otra característica distintiva de Llama 4 Scout es su ventana de contexto, líder en el sector, de hasta 10 millones de tokens. Esta enorme capacidad de contexto abre nuevas posibilidades para procesar documentos muy extensos, analizar conjuntos de datos a gran escala o mantener diálogos que requieran memoria a largo plazo, por ejemplo:

  • Resumen y preguntas y respuestas de varios informes o libros extensos.
  • Analizar la base de código completa para comprender las dependencias o encontrar errores.
  • Servicios profundamente personalizados basados en semanas o incluso meses de actividad de los usuarios.
  • Extracción y análisis de información en ámbitos como el derecho o la medicina, donde es necesario procesar grandes cantidades de texto.
Llama 4 系列登场:原生多模态 AI 创新的新起点?Llama 4 系列登场:原生多模态 AI 创新的新起点?Llama 4 系列登场:原生多模态 AI 创新的新起点?

Meta atribuye las capacidades de largo contexto de Scout a su innovador iRoPE Arquitectura. La arquitectura utiliza una longitud de contexto de 256K tanto para el preentrenamiento como para el postentrenamiento, y combina capas de atención intercaladas (sin incrustaciones de posición) y escalado de temperatura de tiempo de inferencia para mejorar la generalización de longitud. La "i" significa intercalado, y "RoPE" se refiere a Rotary Position Embeddings (incrustación de posición rotatoria), lo que indica que admite una longitud de contexto "infinita". lo que sugiere el objetivo a largo plazo de admitir longitudes de contexto "infinitas".

 

Métodos de entrenamiento y rendimiento

El desarrollo de Llama 4 implicó muchas mejoras en el proceso de formación.

Fase de preentrenamiento:

  • Datos y escalaLa cantidad total de datos de entrenamiento supera los 30 billones de tokens, más del doble que Llama 3, e incluye un conjunto diverso de datos de texto, imágenes y vídeo. Soporta 200 idiomas, con más de 100 idiomas que tienen más de 1.000 millones de tokens de datos de entrenamiento.
  • Eficacia y precisiónEl entrenamiento se realiza con precisión FP8 para aumentar la eficiencia computacional (390 TFLOPs/GPU para Behemoth en 32K GPUs), sin sacrificar la calidad.
  • Optimización de hiperparámetrosDesarrollamos una nueva técnica llamada MetaP para establecer de forma fiable hiperparámetros clave (por ejemplo, tasa de aprendizaje por capa, escala de inicialización) y descubrimos que estos parámetros migraban bien a través de tamaños de lote, anchuras de modelo, profundidades y número de tokens de entrenamiento.
  • A mitad del entrenamiento: Introducción de métodos de entrenamiento y conjuntos de datos específicos tras el preentrenamiento para ampliar las capacidades de contexto largo y mejorar el rendimiento básico.

Fase posterior a la formación:

  • nuevo procesoSe adoptó un nuevo proceso de Ajuste Supervisado Ligero (SFT) -> Aprendizaje por Refuerzo en Línea (RL) -> Optimización Directa Ligera de Preferencias (DPO). Meta descubrió que el SFT y la DPO tradicionales podían restringir en exceso el modelo, limitando la exploración en la etapa RL y afectando a la inferencia, la codificación y la capacidad matemática.
  • Filtrado de datos: Elimina más de 50% de datos SFT etiquetados como "fáciles" utilizando el modelo Llama como juez y centrándose en SFT ligeros en conjuntos de datos más difíciles.
  • Aprendizaje intensivo en líneaSe lograron mejoras significativas en el rendimiento seleccionando cuidadosamente indicaciones más difíciles (prompts) durante la fase de RL multimodal en línea. Se empleó una estrategia continua de RL en línea, alternando entre el entrenamiento del modelo y el uso de datos filtrados por el modelo, conservando solo las indicaciones de dificultad moderada a alta, con lo que se consiguió un equilibrio entre cálculo y precisión.
  • OPD ligero: Por último, se realiza una OPD ligera para tratar los casos límite relacionados con la calidad de la respuesta del modelo, equilibrando la inteligencia del modelo y las capacidades de diálogo.

Comparación de prestaciones:
Meta publicó resultados de referencia que muestran:

  • Llama 4 MaverickSupera a GPT-4o y Gemini 2.0 en codificación, inferencia, multilingüe, contexto largo e imágenes. Comparable a DeepSeek v3.1 con mayores escalas de parámetros en codificación e inferencia.
  • Llama 4 ScoutEl mejor rendimiento de su clase, superando a Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 y a todos los modelos Llama de la generación anterior. Supera a todos los modelos Llama anteriores en la toma de tierra de la imagen.

Llama 4 系列登场:原生多模态 AI 创新的新起点?
Llama 4 系列登场:原生多模态 AI 创新的新起点?

Es importante señalar que los resultados de las pruebas comparativas suelen obtenerse en condiciones específicas y que el rendimiento en aplicaciones reales puede variar. Sin embargo, estos datos demuestran al menos que Llama 4 tiene potencial para competir con los modelos líderes del sector en varias dimensiones.

 

Behemoth: el "maestro" de los 2 billones de parámetros y el reto de la formación

Llama 4 Behemoth existe no sólo para demostrar la capacidad de Meta para entrenar modelos a muy gran escala, sino, lo que es más importante, para actuar como "maestro" en el desarrollo de Llama 4. Mediante la codestilación, Behemoth transfirió su potencia en matemáticas, multilingüismo y comprensión de imágenes al modelo más pequeño Maverick, y Meta desarrolló una nueva función de pérdida por codestilación que ajusta dinámicamente los pesos del objetivo blando (distribuciones de probabilidad del modelo del maestro) y del objetivo duro (las etiquetas reales) durante el proceso de entrenamiento. pesos. Esta destilación colaborativa durante el preentrenamiento amortiza el importante coste computacional que supone calcular los objetivos de destilación para el modelo del alumno.

Llama 4 系列登场:原生多模态 AI 创新的新起点?

Entrenar un modelo con 2 billones de parámetros es un enorme reto de ingeniería en sí mismo. meta reveló cierta experiencia con la fase posterior al entrenamiento:

  • poda de datosPara maximizar el rendimiento, los datos SFT deben podarse de forma más agresiva que los modelos más pequeños, hasta 95%, para centrarse en los datos difíciles y de alta calidad.
  • Mejora del aprendizajeLa estrategia de RL se centra en la selección de claves difíciles mediante el análisis pass@k y la construcción de sesiones de entrenamiento de dificultad creciente. Para mejorar el rendimiento matemático, de razonamiento y de codificación, es fundamental filtrar dinámicamente las pistas de ventaja cero y mezclar pistas de diferentes dimensiones de capacidad en los lotes de entrenamiento.
  • Las instrucciones son las siguientes: El muestreo de diversas instrucciones del sistema (instrucciones del sistema) es fundamental para garantizar que el modelo mantiene una buena adherencia a las instrucciones en las tareas de razonamiento y codificación.
  • infraestructuraMeta: para la arquitectura MoE y la hiperescala, Meta ha optimizado su diseño de paralelización y ha desarrollado un marco de entrenamiento de RL en línea totalmente asíncrono. Este marco permite la asignación flexible de distintos modelos a diferentes GPU, equilibrando los recursos en función de la velocidad de cálculo y, según los informes, mejorando la eficiencia del entrenamiento en ~10 veces con respecto a la generación anterior.

 

Seguridad y mitigación de sesgos

Como todos los desarrolladores de modelos a gran escala, Meta hizo hincapié en la seguridad y la IA responsable en el desarrollo de Llama 4. Su enfoque abarca todo el ciclo de vida del desarrollo de modelos:

  • Mitigación antes y después de la formación:: Uso de medidas como el filtrado de datos en la fase de preentrenamiento; aplicación de diversas técnicas en la fase de postentrenamiento, incluida la inyección de la cantidad adecuada de datos de seguridad en cada etapa para que el modelo se ajuste a la estrategia de uso.
  • Herramientas del sistema: Meta pone a disposición de los desarrolladores una serie de herramientas de seguridad:
    • Guardia Llama:: Modelo de detección de seguridad de entrada/salida desarrollado a partir de la taxonomía de riesgos de MLCommons.
    • Prompt Guard:: Modelos clasificadores para detectar indicios maliciosos (por ejemplo, ataques de jailbreak) y ataques de inyección.
    • CyberSecEvalUna herramienta para evaluar y mitigar los riesgos de seguridad de las redes generativas de IA.
      Meta hace hincapié en la personalización de estas herramientas, lo que permite a los desarrolladores adaptar las políticas de seguridad a sus propias necesidades.
  • Evaluación y pruebas de equipo rojo:: Realización de pruebas de modelo del sistema con sondeo adversarial automatizado y manual. Desarrolló un sistema denominado GOAT (Prueba Generativa de Agentes Ofensivos) para mejorar la cobertura y la eficacia de las pruebas mediante la simulación de varias rondas de interacciones de atacantes medianamente expertos, lo que permite a los expertos humanos del equipo rojo centrarse en áreas de riesgo más punteras.

Hacer frente a los prejuicios

Meta reconoce el problema del sesgo que prevalece en los grandes modelos lingüísticos, en particular la tendencia histórica a favorecer determinadas posturas sobre temas políticos y sociales controvertidos, que se deriva en parte del sesgo inherente a los datos de entrenamiento de Internet. El objetivo de Llama 4 es eliminar el sesgo de los modelos para que puedan entender y articular diferentes lados de temas controvertidos sin prejuicios ni juicios de valor.

Meta afirma que Llama 4 ha hecho progresos significativos en esta área, superando a Llama 3 y comparándose favorablemente con el Grok Bastante:

  • En cuestiones políticas y sociales controvertidas, el porcentaje de negativas a contestar bajó de 7% en Llama 3.3 a menos de 2%.
  • La proporción de respuestas de rechazo desiguales (sesgadas) fue inferior al 1%.
  • En un conjunto de cuestiones políticas o sociales controvertidas, Llama 4 muestra un fuerte sesgo político con una frecuencia de respuestas comparable a Grok, aproximadamente la mitad que Llama 3.3.
    Meta afirma que seguirá trabajando para reducir el índice de sesgo de sus modelos.

Apertura, usabilidad y ecosistemas

Llama 4 Scout y Llama 4 Maverick ya están disponibles para su descarga en llama.com y Hugging Face, y llegarán a los principales socios de cloud computing, data y edge computing. Los usuarios también pueden experimentar el Llama 4-powered Meta IA .

Meta ha reafirmado su compromiso con un ecosistema abierto, convencida de que la apertura impulsa la innovación. El lanzamiento de Llama 4, en particular su arquitectura MoE, sus capacidades multimodales nativas y sus ventanas contextuales ultralargas, ofrece sin duda nuevas y potentes herramientas a los desarrolladores e investigadores de IA. Sin embargo, queda por probar y observar el rendimiento real de estos modelos avanzados, su facilidad de uso, el coste de su puesta a punto y los riesgos potenciales que plantean a la hora de impulsar "experiencias personalizadas". Si la serie Llama 4 marcará realmente el comienzo de una nueva era de IA liderada por Meta es algo que el mercado acabará respondiendo. Se espera que Meta ofrezca más información sobre su visión en la LlamaCon del 29 de abril.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...