Ouro - Un nuevo modelo de lenguaje cíclico de código abierto del equipo ByteHopper Seed

堆友AI

¿Qué es Ouro?

Ouro es un nuevo tipo de Modelos de Lenguaje en Bucle (LLM) desarrollado por el equipo de Byte Jump Seed, cuya principal innovación radica en la construcción directa de la capacidad de inferencia en la fase de preentrenamiento mediante una estructura de cálculo en bucle con parámetros compartidos. El modelo adopta 24 capas como bloque base, y alcanza una profundidad computacional equivalente de 96 capas a través de 4 bucles, pero mantiene una escala de parámetros de 1,4B, lo que mejora significativamente la eficiencia de razonamiento de los modelos pequeños. Los experimentos demuestran que Ouro 1.4B obtiene una puntuación de 71,02 en el benchmark de razonamiento BBH, acercándose al rendimiento del modelo de 4B parámetros, mientras que la versión 2.6B alcanza 90,85 en el problema matemático Math500, superando al modelo de 8B. Su diseño único incluye un mecanismo computacional dinámico (menos ciclos para tareas sencillas y más ciclos para tareas complejas) y una estrategia de entrenamiento de regularización de entropía que permite al modelo ajustar adaptativamente su profundidad de pensamiento.

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Características de Ouro

  • Arquitectura InnovaciónEl modelo Ouro incorpora capacidades de inferencia directamente en la fase de preentrenamiento mediante el cálculo iterativo en el espacio latente, en lugar de depender únicamente de un ajuste fino posterior. La arquitectura consiste en una "pila de capas" de N capas de pesos compartidos, que se repite varias veces durante la propagación hacia delante, es decir, varios "pasos de bucle", lo que permite un "cálculo dinámico". Esto permite el "cálculo dinámico" y desvincula la escala computacional del modelo del "número de parámetros" de la "profundidad del cálculo".
  • Estrategias de formaciónEl modelo Ouro emplea una nueva estrategia de entrenamiento computacional adaptativo en dos etapas. La primera etapa utiliza un objetivo de regularización de la entropía con una prioridad uniforme en el paso de salida, lo que anima al modelo a explorar todas las profundidades computacionales de forma insesgada; la segunda etapa es una fase de entrenamiento de compuerta adaptativa centrada que optimiza explícitamente la compuerta de salida para compensar el coste computacional y las ganancias de rendimiento.
  • eficiencia paramétricaLos modelos de 1,4B y 2,6B igualan o incluso superan el rendimiento del SOTA LLM, mucho más grande (hasta 4B y 12B parámetros, respectivamente), en todos los tipos de pruebas comparativas, consiguiendo un aumento de la eficiencia paramétrica de 2 a 3 veces.
  • capacidad de razonamientoLa ventaja de rendimiento del modelo Ouro no se debe a la mayor capacidad de conocimiento, sino a su capacidad muy superior de manipulación del conocimiento, es decir, la capacidad de razonar en múltiples pasos y combinar hechos. Las ventajas del modelo Ouro son especialmente evidentes en tareas de razonamiento matemático difíciles como GSM8K y MATH500.
  • Seguridad y fidelidadEn comparación con el modelo de referencia, la tasa de generación de contenido nocivo de Ouro es menor y disminuye a medida que aumenta el número de pasos del bucle. Su proceso de razonamiento se muestra más fiel a la causa, con pasos intermedios más estrechamente relacionados con la respuesta final.

Puntos fuertes de Ouro

  • Razonamiento sólidoOuro destaca en el razonamiento de varios pasos y la deducción lógica, especialmente en tareas difíciles de razonamiento matemático, y puede realizar deducciones y cálculos lógicos con precisión.
  • Excelente eficacia paramétricaOuro mejora significativamente la eficiencia paramétrica mediante una arquitectura recurrente y una estrategia de entrenamiento. Los modelos más pequeños muestran un rendimiento comparable o incluso mejor que los modelos más grandes en varias pruebas comparativas.
  • Seguridad y fidelidad: Ouro genera contenidos de texto más seguros con un bajo índice de generación de contenidos perjudiciales. Su proceso de razonamiento es más fiel a la causalidad, con pasos intermedios estrechamente vinculados a la respuesta final.
  • Código abierto y escalabilidadEl modelo Ouro es de código abierto y está disponible en escalas de parámetros de 1,4B y 2,6B para facilitar la investigación y el desarrollo de aplicaciones por parte de investigadores y desarrolladores.
  • Estrategias de formación eficaces: Ouro emplea una estrategia de entrenamiento computacional adaptativo en dos etapas que explora eficientemente diferentes profundidades computacionales para optimizar el proceso de inferencia y mejorar el rendimiento del modelo.
  • Soporte multilingüe: Ouro admite varios idiomas y es capaz de realizar tareas interlingüísticas, como traducción automática y preguntas y respuestas multilingües, con una amplia gama de aplicaciones.

¿Cuál es la página web oficial de Ouro?

  • Página web del proyecto:: https://ouro-llm.github.io/
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/collections/ByteDance/ouro
  • Documento técnico arXiv:: https://arxiv.org/pdf/2510.25741

Para quién es Ouro

  • investigador en procesamiento del lenguaje natural (PLN)El modelo Ouro, gracias a su arquitectura innovadora y a sus estrategias de entrenamiento, ofrece a los investigadores nuevas direcciones de investigación y plataformas experimentales que contribuyen a promover avances tecnológicos en el campo del procesamiento del lenguaje natural.
  • Desarrolladores de inteligencia artificial: La naturaleza de código abierto y la flexibilidad de Ouro lo hacen ideal para que los desarrolladores creen una gran variedad de aplicaciones de modelado lingüístico, como servicios inteligentes de atención al cliente, herramientas de generación de contenidos, etc.
  • Educadores y estudiantes: Los puntos fuertes de Ouro en razonamiento matemático y deducción lógica lo convierten en una poderosa herramienta en educación para el desarrollo de sistemas de tutoría inteligente, herramientas automatizadas de resolución de problemas y otras herramientas que ayuden a los estudiantes a aprender y comprender mejor conceptos complejos.
  • creador de contenidos: Ouro facilita la escritura creativa, la generación de textos y la narración de historias, ayudando a los creadores de contenidos a ser más productivos e inspirados.
  • Empresas y organizaciones: Ouro puede utilizarse para la gestión del conocimiento interno, la atención al cliente y la auditoría de contenidos, con el fin de mejorar la eficacia operativa y la experiencia del usuario.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...