Debut del gran modelo nacional El razonamiento lógico chino, "Tiangong big model 4.0" versión o1 ¡ya está aquí!

No me había dado cuenta de que la tecnología se desarrollaba tan rápido. Últimamente, la gente ya se imagina la vida después de la era de la IA.

El fin de semana, el consejero delegado de JPMorgan Chase, Jamie Dimon, afirmó que, gracias a la tecnología de IA, las generaciones futuras podrían trabajar sólo tres días y medio a la semana y vivir hasta los 100 años.

Algunas investigaciones sugieren que tecnologías como la IA generativa podrían automatizar tareas que actualmente ocupan entre el 60 y el 70% del tiempo de trabajo de las personas. ¿De dónde procederá la tecnología necesaria para estos cambios? Tiene que ser un gran avance de la IA, y alguien ha recopilado una lista de predicciones de varios peces gordos de la IA sobre cuándo surgirá la inteligencia artificial general (IAG). Hassabis, de DeepMind, cree que estamos a dos o tres innovaciones tecnológicas importantes de la aparición de la IAG.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Como Sam Altman, consejero delegado de OpenAI, que incluso cree que la inteligencia artificial llegará el año que viene. Ahora que lo pienso.La razón de tal confianza puede residir en el hecho de que la gente ha hecho recientemente que los grandes modelos aprendan a "razonar.

Justo en septiembre, OpenAI hizo público oficialmente el gran modelo de razonamiento complejo sin precedentes, o1, un gran avance en el sentido de que el nuevo modelo tiene tanto capacidades de propósito general como la capacidad de resolver problemas más difíciles que los modelos científicos, de código y matemáticos anteriores. Los resultados experimentales demuestran que o1 supera con creces a GPT-4o en la inmensa mayoría de las tareas de razonamiento.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

OpenAI ha abierto una nueva dirección para la capacidad de los grandes modelos: "si pueden pensar y razonar como un humano" se ha convertido en un indicador importante para juzgar su capacidad. Si los nuevos modelos lanzados por los vendedores no tienen alguna cadena de pensamiento, me temo que se avergonzarán de mostrarlos.

Hasta ahora, sin embargo, la versión oficial de o1 sigue retrasada. la comunidad de IA, especialmente las grandes empresas de modelos de China, están haciendo mella en la supremacía de o1 y están empezando a tomar la delantera en algunas revisiones autorizadas.

Hoy.El primer modelo o1 de China con capacidad de razonamiento lógico chino ya está aquí, se trata de la versión o1 "Skywork 4.0" (nombre en inglés: Skywork o1) lanzada por Kunlun MSI.. Este es el tercer gran movimiento de la compañía en grandes modelos y aplicaciones relacionadas en el último mes, después delSkyworks AI Búsqueda avanzadayAsistente de voz en tiempo real Skyo Apariciones secuenciales.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

A partir de ahora, Skywork o1 abrirá la prueba interna, si quieres experimentarlo, debes aplicar ahora.

Envíe su solicitud a www.tiangong.cn

Tres modelos uno al lado del otro

Un nuevo campo de batalla para el razonamiento

Esta vez, Skywork o1 incluye los siguientes tres modelos, tanto una versión abierta para devolver a la comunidad de código abierto y una versión dedicada más capaz.

Entre otras cosas, la versión de código abierto de Skywork o1 Abierto parámetro de 8B, logrando mejoras significativas en varias métricas matemáticas y de código, y tirando de Llama-3.1-8B hasta el mismo ecosistema SOTA, superando a Qwen-2.5-7B instruir. al mismo tiempo, Skywork o1 Open desbloquea tareas de inferencia matemática (por ejemplo, el cálculo de 24 puntos) que no son posibles con modelos más masivos como GPT-4o. Esto también abre la posibilidad de desplegar modelos de inferencia en dispositivos ligeros.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Además, Kunlun también abrirá dos modelos de recompensa por proceso (PRM) para tareas de razonamiento, que son los siguientes Skywork o1 Open-PRM-1.5B responder cantando Skywork o1 Open-PRM-7BEl Skywork-Reward-Model de código abierto sólo puntúa la respuesta completa del modelo. Mientras que el Skywork-Reward-Model de código abierto sólo puntúa la respuesta completa del modelo, Skywork o1 Open-PRM puede refinarse para puntuar cada paso de la respuesta del modelo.

En comparación con los PRM existentes en la comunidad de código abierto, Skywork o1 Open-PRM-1.5B puede alcanzar resultados de modelos de 8B, como Llama3.1-8B-PRM-Deepseek-Data de RLHFlow y Math-psa-7B de OpenR. acercarse simultáneamente o incluso superar a Qwen2.5-Math-RM-72B por un factor de 10 en la mayoría de los benchmarks.

Se ha informado de queSkywork o1 Open-PRM es también el primer PRM de código abierto para tareas basadas en código.. La siguiente tabla muestra los resultados de la evaluación utilizando Skywork-o1-Open-8B como modelo base, utilizando diferentes PRMs en los conjuntos Maths y Code Review.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Nota: A excepción de Skywork-o1-Open-PRM, otros PRM de código abierto no están optimizados específicamente para tareas basadas en código, por lo que no se realiza ninguna comparación para tareas basadas en código.

En breve se publicará también un informe técnico detallado. El modelo y la presentación asociada son actualmente de código abierto en Huggingface.

Dirección de código abierto: https://tinyurl.com/skywork-o1

Skywork o1 Lite Gracias a su capacidad para pensar de forma completa y alcanzar una mayor velocidad de razonamiento y pensamiento, se le dan especialmente bien los problemas de lógica y razonamiento chino, las matemáticas, etc.Skywork o1 Vista previa Esta es la versión completa del modelo de razonamiento, con algoritmos de razonamiento en línea de desarrollo propio, en comparación con la versión Lite puede presentar un proceso de pensamiento más diverso y profundo, para lograr un razonamiento más completo y de mayor calidad.

Quizás se pregunte qué diferencia a Skywork o1 de los trabajos actuales sobre reproducción de modelos o1, que trabajan todos a nivel de inferencia.

Kunlun afirmó que la serie de modelos endogeniza la capacidad de pensar, planificar y reflexionar sobre el resultado del modelo, razonando, reflexionando y verificando paso a paso en el pensamiento lento, desbloqueando versiones avanzadas típicas de las capacidades complejas del pensamiento humano, como el "pensamiento profundo", y garantizando la calidad y profundidad de las respuestas.

Por supuesto, tendremos que ver cómo resulta el Skywork o1 sobre el terreno.

experiencia de primera mano

Esta vez, Skywork o1 ha dado en el clavo.

Obtuve la calificación de prueba por adelantado y examiné todos los aspectos de la capacidad de razonamiento de los modelos de la serie Skywork o1, especialmente las versiones Lite y Preview. La siguiente figura muestra la interfaz de Skywork o1 Lite.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Empezamos por dejar que Skywork o1 Lite se presente, y podemos ver que el modelo no da la respuesta directamente, sino más bienVisualizar para el usuario el proceso de pensamiento completo, incluida la orientación al problema, el perfil de autocompetencia, etc.y seMostrar tiempo de reflexiónque es una característica distintiva de los modelos de razonamiento actuales.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Pasando a la prueba oficial, exploramos varios tipos de preguntas de razonamiento para ver si realmente podíamos envolver nuestras cabezas alrededor del Skywork o1.

Compare tallas y cuente problemas de "r", ¡se acabaron las volteretas!

Antes, los modelos grandes solían fracasar cuando se enfrentaban a algunos problemas aparentemente sencillos de comparación de tamaños y recuento. Ahora estos problemas ya no son un problema para Skywork o1 Lite.

Al comparar si 13,8 es mayor que 13,11, Skywork o1 Lite realiza una cadena completa de pensamiento para descubrir que la clave para resolver el problema está en el tamaño de los decimales. El modelo también se autorreflexiona, comprobando dos veces las conclusiones a las que ha llegado y recordando los puntos fáciles de responder incorrectamente.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Del mismo modo, a la hora de responder correctamente a la pregunta "¿Cuántas "r "s hay en Fresa?" Skywork o1 Lite es también la cadena completa de pensamiento, verificación y confirmación a la hora de responder correctamente a "¿Cuántas "r "s hay en Fresa?".

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Al responder preguntas con elementos revueltos, Skywork o1 Lite despeja rápidamente la mente de distracciones.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Jugar con rompecabezas sin caer en trampas lingüísticas

Los grandes modelos a veces se confunden con preguntas de ingenio en el contexto chino, lo que lleva a dar respuestas erróneas. Esta vez Skywork o1 Lite puede fácilmente acabar con esas preguntas.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Dos parejas de padre e hijo pescaron sólo tres peces, pero cada uno sacó uno, y Skywork o1 Lite fue capaz de averiguar lo que estaba pasando.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Consigue una variedad de sentido común y despídete de los atributos retardados

La capacidad de un gran modelo para acercarse al nivel humano de razonamiento de sentido común es uno de los indicadores más importantes de su capacidad para mejorar su credibilidad, aumentar su capacidad de toma de decisiones y ampliar sus aplicaciones en múltiples dominios. skywork o1 Lite y Preview obtienen buenos resultados en este sentido.

Por ejemplo, la distinción entre longitud (pulgadas, centímetros, yardas) y unidades de masa (kilogramos).

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Por ejemplo, por qué los cubitos de hielo de agua salada se derriten más fácilmente que los de agua corriente.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Otro ejemplo es una persona de pie en un barco perfectamente inmóvil, que se mueve hacia adelante cuando salta hacia atrás.Skywork o1 Lite explica la física detrás del fenómeno con claridad.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Conviértete en un solucionador de problemas, ¡y no tendrás problemas con las preguntas del GCSE!

El razonamiento matemático es una capacidad fundamental para resolver tareas complejas, y los grandes modelos con grandes capacidades de razonamiento matemático ayudan a los usuarios a resolver con eficacia tareas interdisciplinarias complejas.

¿Cuál es el 10º término de la sucesión "2, 6, 12, 20, 30..." en el problema secuencial "2, 6, 12, 20, 30..."? ¿Cuál es el 10º término de esta sucesión?". Skywork o1 Lite observa la disposición de los números, encuentra un patrón, verifica el patrón y, finalmente, da la respuesta correcta.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Al resolver el problema de combinaciones (cuántas opciones para hacer un equipo de 3 de cada 10), Skywork o1 Vista previa tenía la respuesta correcta después de pensar en ello en enlace completo.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Para otro problema de programación dinámica (monedas de denominaciones 1, 3 y 5, ¿cuántas monedas se necesitan para hacer 11?), Skywork o1 Lite da la solución óptima.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Vamos a hacer el Skywork o1 Lite un poco más difícil dándole dos preguntas de GCSE Maths del 2024 GCSE National Paper A Maths (Wen).

Comienza con una pregunta de probabilidad (cuál es la probabilidad de que A, B, C y D estén en una fila, C no esté en la cabecera de la fila y A o B estén al final de la fila), y Skywork o1 Lite da rápidamente la respuesta correcta.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Luego están las preguntas sobre funciones ( 国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了 ), Skywork o1 Lite soluciones y respuestas de una sola vez.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Capacidad de pensamiento meticuloso y lógico

El razonamiento lógico con grandes modelos es una de las capacidades básicas para lograr una IA de propósito general más fuerte, y Skywork o1 Lite tiene un don para responder a este tipo de preguntas. Por ejemplo, en el clásico problema de la mentira, Skywork o1 Lite es capaz de decir quién dice la verdad y quién miente desde una perspectiva lógicamente autoconsistente.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

El Skywork o1 Lite tampoco se deja cegar por las paradojas.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Imparcialidad ante dilemas morales

La toma de decisiones éticas es en gran medida un factor importante para garantizar el desarrollo seguro de la IA, la adhesión a las normas sociales de moralidad y el aumento de la confianza y la aceptación de los usuarios, y es aún más importante que los grandes modelos tengan cuidado con lo que dicen.

En lugar de dar una respuesta absoluta al viejo dilema de "salvar a tu mujer o salvar a tu madre", Skywork o1 Lite sopesa los pros y los contras y da buenos consejos.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

También está el dilema de "ahorrar más o menos", y Skywork o1 Preview no saca conclusiones precipitadas, sino que plantea algunas reflexiones más profundas.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Es una prueba retardada, y se mantiene.

El Skywork o1 Lite es capaz de responder fácilmente a preguntas retardadas que a menudo se utilizan para poner a prueba la inteligencia de grandes modelos, como la diferencia entre obtener una puntuación perfecta de 750 en un examen de acceso a la universidad y entrar en un examen de 985.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Luego está "¿puedes comer carne de almuerzo por la noche?", y está claro que el Skywork o1 Lite no se deja engañar por el nombre de la comida.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

También se pueden solucionar problemas de código

Skywork o1 Lite es capaz de resolver algunos problemas de código, como el problema del Número de islas en LeetCode.

La pregunta es "Dado un mapa de cuadrícula bidimensional con "1" (tierra) y "0" (agua), cuente el número de islas. Las islas están rodeadas de agua y se forman conectando terrenos adyacentes horizontal o verticalmente, y puedes suponer que los cuatro lados de la cuadrícula están rodeados de agua."

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

Llegados a este punto, podemos sacar la siguiente serie de conclusiones:

Por un lado, los "pequeños" problemas a los que los grandes modelos solían dar la vuelta son pan comido a los ojos del Skywork o1 con su capacidad de razonamiento. Por otro lado, a través delCadena completa de pensamiento y planificación, autorreflexión y autovalidaciónEl Skywork o1 también es capaz de pensar a través de escenarios de problemas complejos y producir resultados más precisos y eficientes.

De este modo, la capacidad de razonamiento mucho más fuerte que antes inspirará el potencial de Skywork o1 para aplicarse en tareas y dominios colgantes más diversos, especialmente el razonamiento lógico y las tareas científicas y matemáticas complejas que son fáciles de rodar. El lanzamiento de Skywork también está llamado a optimizar aún más la eficacia de las tareas de generación de contenidos de alta calidad y búsqueda profunda, como la escritura creativa.

Modelo doméstico o1

Autoinvestigación impulsada por la tecnología

Anteriormente, ya hemos sido testigos de una serie de aplicaciones verticales de IA generativa propuestas por Kunlun World Wide, que incluyen, entre otras, la dirección de búsqueda, música, juegos, redes sociales y juegos cortos de IA. Detrás de esto, en la investigación y el desarrollo de la tecnología básica del modelo grande, Kunlun Wanwei ha tenido durante mucho tiempo una disposición.

Desde 2020, Kunlun Wanwei ha estado aumentando continuamente su inversión en grandes modelos de IA, y la empresa lanzó su propia serie de modelos AIGC apenas un mes después de que ChatGPT se pusiera en marcha. En muchos verticales, Kunlun ya ha lanzado aplicaciones, incluyendo Melodio, la primera plataforma de streaming de música de IA del mundo, Mureka, una plataforma de creación de música de IA, y Mureka, una plataforma de drama corto de IA. SkyReels Y así sucesivamente.

A nivel de tecnología básica, Kunlun ya ha creado toda una cadena industrial de "infraestructura aritmética - algoritmo de grandes modelos - aplicación de IA", de la que la serie "Tiangong" de grandes modelos es el núcleo.

En abril del año pasado, Kunlun World Wide lanzó su modelo de desarrollo propio "Tiangong 1.0". En abril de este año, el modelo Tiangong se actualizó a la versión 3.0, adoptando el modelo experto híbrido MoE con 400.000 millones de parámetros, y optando simultáneamente por el código abierto. Ahora, la versión Tiangong 4.0 se basa en el método de emergencia inteligente para lograr la mejora de la capacidad en tareas de razonamiento lógico.

Técnicamente, el rendimiento del Skywork o1 en tareas de razonamiento lógico mejora notablemente gracias a las tres etapas de soluciones de entrenamiento de desarrollo propio de Skywork, entre las que se incluyen las siguientes:

en primer lugarFormación en técnicas de razonamiento y reflexiónSkywork o1 construye paso a paso datos de pensamiento, reflexión y validación de alta calidad a través de un sistema corporal multiinteligencia de desarrollo propio, complementado con datos de pensamiento a largo plazo diversos y de alta calidad para el preentrenamiento continuado y el ajuste fino supervisado del modelo base.

en segundo lugarAprendizaje intensivo de razonamientoEl equipo de Skywork o1 ha desarrollado el último Modelo de Recompensa de Procesos (PRM) de Skywork o1 para la mejora del razonamiento paso a paso, que no sólo captura eficazmente el impacto de los pasos intermedios y de pensamiento en la respuesta final de una tarea de razonamiento compleja, sino que también se combina con algoritmos de mejora del razonamiento paso a paso de desarrollo propio para fortalecer aún más las capacidades de razonamiento y pensamiento del modelo.

en tercer lugarRazonamiento. Basado en el algoritmo de razonamiento en línea Q * de desarrollo propio de Tiangong, trabaja con el modelo para pensar en línea y encontrar el mejor camino de razonamiento. Esta es también la primera vez en el mundo que el algoritmo Q * se implementa y se hace público, lo que puede mejorar significativamente la capacidad de inferencia de LLM en conjuntos de datos como MATH y reducir la demanda de recursos informáticos.

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

En el conjunto de datos MATH, Q * ayuda a DeepSeek-Math-7b a mejorar hasta una precisión de 55,4%, superando a la Géminis Ultra.

Q * Dirección del documento del algoritmo: https://arxiv.org/abs/2406.14283

Se puede ver que la tecnología de Kunlun Wanwei ha alcanzado el nivel líder de la industria, y gradualmente se ha mantenido firme en el altamente competitivo campo de la IA generativa.

En comparación con el actual florecimiento de las aplicaciones de IA generativa, la investigación ha empezado a entrar en "aguas profundas" a nivel de tecnología básica. Solo las empresas con acumulación a largo plazo podrán construir una nueva generación de aplicaciones que cambiarán nuestras vidas.

Esperamos que Kunlun Wanwei nos aporte más y más tecnología en el futuro.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...