Wu Enda propone cuatro tipos de intelligentsia: los flujos de trabajo de AI intelligentsia lideran las nuevas tendencias en inteligencia artificial

Texto original:Agentes con capacidad general en mundos abiertos [S62816]

 

1. Inteligencia reflexiva

  • Capacidad para comprobar y modificar el propio código o contenido generado, y optimizarlo de forma iterativa.
  • Mediante la autorreflexión y la revisión, se pueden generar resultados de mayor calidad
  • Es una tecnología robusta y eficaz, adecuada para una amplia gama de aplicaciones.

2. Utilización de las inteligencias instrumentales

  • Capacidad de utilizar diversas herramientas para recopilar información, analizar y tomar medidas, ampliando la gama de aplicaciones.
  • Las primeras investigaciones sobre el uso de herramientas se originaron principalmente en el campo de la visión por ordenador, donde los modelos lingüísticos aún no eran capaces de procesar imágenes.

3. Inteligencia de planificación

  • Demuestra una asombrosa capacidad para desarrollar y ejecutar de forma autónoma planes basados en los objetivos de las tareas.
  • Si falla un paso, la capacidad de desviarse para evitar el fracaso, con cierto grado de autonomía y adaptabilidad.
  • Aún no es del todo fiable, pero cuando funciona, es bastante sorprendente.

4. Multiinteligencia colaborativa

  • Al asignar a las inteligencias distintas funciones y dejar que trabajen juntas para completar las tareas, pueden mostrar capacidades más potentes que una sola inteligencia.
  • La multiinteligentsia puede entablar un diálogo profundo y dividir el trabajo para llevar a cabo tareas creativas o de desarrollo complejas.
  • También es posible que se debatan inteligencias múltiples, lo que constituye una forma eficaz de mejorar el rendimiento del modelo.

 

Estoy deseando compartir mis hallazgos sobre las inteligencias de IA, que creo que es una tendencia apasionante que cualquiera que se dedique al desarrollo de la IA debería seguir de cerca. También espero con impaciencia todas las "tendencias futuras" que se presentarán.

 

Hablemos de la inteligencia artificial. Ahora, la forma en que la mayoría de nosotros usamos Big Language Modelling es así, a través de un flujo de trabajo sin intelligentsia, escribimos un prompt y luego generamos una respuesta. Es algo así como cuando le pides a alguien que escriba un artículo sobre un tema determinado, y yo digo que te sientes ante el teclado y lo escribas de un tirón, como si no se permitiera retroceder. A pesar de la dificultad de esta tarea, el gran modelo lingüístico funciona sorprendentemente bien.

 

En cambio, un flujo de trabajo con inteligencias de IA podría tener este aspecto. Haz que una IA o un gran modelo lingüístico escriba el esquema de un artículo. ¿Necesitas buscar algo en Internet? Si lo necesitas, búscalo. A continuación, escribe un primer borrador y lee el primer borrador que has escrito tú mismo y piensa qué partes hay que cambiar. Luego revisa el primer borrador y sigue adelante. Así pues, este flujo de trabajo es iterativo: puedes hacer que el gran modelo lingüístico piense un poco, luego revisar el artículo, luego pensar un poco más, y así sucesivamente. Poca gente se da cuenta de que los resultados son mejores así. Me he sorprendido a mí mismo con los resultados de los flujos de trabajo de estas inteligencias artificiales.

 

Voy a hacer un estudio de caso. Mi equipo analizó algunos datos utilizando una referencia de programación llamada Human Evaluation Benchmark, que OpenAI publicó hace unos años. Este benchmark consiste en problemas de programación como encontrar la suma de todos los elementos impares o elementos en posiciones impares, dada una lista no vacía de números enteros. La respuesta podría ser un fragmento de código como éste. Ahora bien, muchos de nosotros utilizaremos sugerencias de muestra cero, lo que significa que le decimos a la IA que escriba el código y luego hacemos que lo ejecute de una sola vez. ¿Quién programaría así? Nadie lo hace. Sólo escribimos el código y luego lo ejecutamos. Tal vez tú hagas eso. Yo no puedo.

 

De hecho, si utilizas GPT 3.5 para el cueing de muestra cero, obtiene 481 TP3 T. GPT-4 lo hace mucho mejor, obteniendo 671 TP3 T. Pero si construyes un flujo de trabajo de inteligencias IA sobre GPT 3.5, puede hacerlo incluso mejor que GPT-4. Si aplicas este flujo de trabajo a GPT-4, los resultados también son muy buenos. Te darás cuenta de que GPT 3.5 con el flujo de trabajo AI Intelligentsia es realmente mejor que GPT-4, lo que significa que va a tener un gran impacto en la forma en que construimos aplicaciones.

 

El término AI Intelligentsia es ampliamente discutido y hay muchos informes de consultoría que hablan sobre AI Intelligentsia, el futuro de la IA y así sucesivamente. Me gustaría compartir con ustedes de forma más sustantiva algunos de los patrones de diseño comunes que veo en las inteligencias de IA. Es un campo complejo y confuso con mucha investigación, muchos proyectos de código abierto. Hay muchas cosas en marcha. Pero estoy tratando de dar una visión más relevante de lo que está pasando en las inteligencias de IA.

 

La reflexión es una herramienta que creo que la mayoría de nosotros deberíamos utilizar. Funciona. Creo que debería utilizarse más. Realmente es una técnica muy sólida. Cuando las utilizo, siempre consigo que funcionen. En cuanto a la planificación y la colaboración multiinteligencia, creo que es un campo emergente. Cuando las utilizo, a veces me sorprende lo bien que funcionan. Pero, al menos en este momento, no estoy seguro de que siempre consiga que funcionen de forma coherente. Así que permítanme repasar estos cuatro patrones de diseño con más detalle en las próximas diapositivas. Si alguno de ustedes vuelve y los prueba por sí mismo, o consigue que sus ingenieros utilicen estos patrones, creo que verán aumentos de productividad muy rápidamente.

 

En cuanto a la reflexión, he aquí un ejemplo. Digamos que le pido a un sistema que codifique una tarea para mí. Y luego tenemos una inteligencia de programación que sólo le da un impulso para codificar la tarea, por ejemplo, definir una función que realiza la tarea, escribir una función así. Un ejemplo de auto-reflexión es que se puede pedir al gran modelo de lenguaje así. Aquí tienes un trozo de código escrito para una tarea concreta. A continuación, preséntale exactamente el mismo código que acaba de generar. A continuación, pídele que examine este código para ver si es correcto, eficiente y está bien estructurado, haciéndole preguntas como estas. Los resultados muestran que el mismo gran modelo de lenguaje que has utilizado para el código anterior puede ser capaz de detectar un problema como el de la línea 5 y corregirlo. Y así sucesivamente. Si ahora le vuelves a plantear su propio feedback, puede que cree la versión dos del código, que puede funcionar mejor que la primera versión. No hay garantías, pero en la mayoría de los casos merece la pena probar este enfoque en muchas aplicaciones. Revelando esto de antemano, si le pides que ejecute pruebas unitarias, y si no pasa las pruebas unitarias, entonces puedes preguntar por qué no pasó las pruebas unitarias. Al tener este diálogo, tal vez podamos averiguar por qué no pasó las pruebas unitarias, por lo que debe tratar de cambiar algo y generar una versión V3 del código. Por cierto, para aquellos que quieran aprender más sobre estas técnicas, estoy muy entusiasmado con ellas. Para cada parte de la presentación, he incluido algunas lecturas recomendadas en la parte inferior para, con suerte, proporcionar más referencias.

 

De nuevo, para previsualizar el sistema de cuerpos multi-inteligentes, estoy describiendo un cuerpo inteligente programador al que puedes incitar a mantener este diálogo consigo mismo. Una evolución natural de esta idea es que, en lugar de tener sólo una inteligencia programadora, se podrían establecer dos inteligencias, una inteligente programadora y otra inteligente revisora. Todas ellas podrían basarse en el mismo gran modelo de lenguaje, sólo que con diferentes pistas que nosotros proporcionemos. A una parte le decimos, eres un experto en programación, escribe código. A la otra parte le diríamos, eres un experto en revisión de código, por favor revisa este código. En realidad es un flujo de trabajo muy fácil de implementar. Creo que es una técnica muy versátil que puede adaptarse a una gran variedad de flujos de trabajo. Mejorará significativamente el rendimiento del gran modelo de lenguaje.

 

El segundo patrón de diseño es el uso de herramientas. Muchos de ustedes habrán visto cómo los sistemas basados en grandes modelos lingüísticos utilizan herramientas. A la izquierda hay una captura de pantalla del copiloto, y a la derecha una parte de lo que saqué de GPT-4. Sin embargo, si le pides al gran modelo lingüístico actual que responda a una pregunta como cuál es la mejor copiadora para una búsqueda web, generará y ejecutará código. De hecho, hay muchas herramientas diferentes que son utilizadas por muchas personas para realizar análisis, recopilar información, tomar medidas y mejorar la eficiencia personal.

 

Gran parte de las primeras investigaciones sobre el uso de herramientas procedían de la comunidad de visión por ordenador. Esto se debe a que antes de la llegada de los grandes modelos de lenguaje, éstos no podían procesar imágenes. Así que la única opción era hacer que el gran modelo de lenguaje generara una función que pudiera manipular imágenes, como generar imágenes o realizar la detección de objetos. Así pues, si nos fijamos bien en la bibliografía, veremos que gran parte de la investigación sobre el uso de herramientas parece haberse originado en el campo de la visión, porque antes de la llegada de GPT-4 y LLaVA, entre otros, los grandes modelos de lenguaje no sabían nada de imágenes. Aquí es donde entra en juego el uso de herramientas, que amplía la gama de aplicaciones de los grandes modelos lingüísticos.

 

Lo siguiente es la planificación. Para aquellos de ustedes que aún no han profundizado en los algoritmos de planificación, creo que mucha gente hablará de la ChatGPT El momento impactante, la sensación de algo que nunca has visto antes. Creo que probablemente no hayan utilizado algoritmos de planificación. Hay mucha gente que exclamará, vaya, no creía que las inteligencias IA pudieran hacer esto tan bien. He hecho demostraciones en directo en las que, cuando algo falla, la inteligencia IA replanifica el camino para evitar el fallo. De hecho, en varias ocasiones me ha sorprendido la autonomía de mis propios sistemas de IA.

 

He adaptado un ejemplo de un artículo sobre modelos GPT, en el que se podría hacer que generase una imagen de una chica leyendo un libro, con la misma pose que el chico de la imagen, por ejemplo example.jpeg, y luego describiría al chico en la nueva imagen. Utilizando las inteligencias IA existentes, podría decidir determinar primero la pose del chico y luego encontrar un modelo adecuado, posiblemente en la plataforma HuggingFace, para extraer la pose. A continuación, hay que encontrar un modelo que posprocese la imagen, sintetice una foto de la chica según las instrucciones y utilice técnicas de conversión de imagen en texto y, por último, de texto a voz.

 

En la actualidad, disponemos de varias inteligencias artificiales, y aunque no siempre son fiables, y a veces pueden ser un poco engorrosas y no siempre funcionan, cuando lo hacen, los resultados son bastante sorprendentes. Con este tipo de diseño inteligente del ciclo corporal, a veces incluso podemos recuperarnos de fracasos anteriores. Me he dado cuenta de que he empezado a utilizar inteligencias de investigación como ésta en algunos de mis trabajos, en los que necesito alguna investigación, pero no quiero pasar mucho tiempo buscándola yo mismo. Encargo la tarea a la inteligencia de investigación y vuelvo un rato después para ver qué ha encontrado. A veces encuentra resultados válidos, a veces no. Pero en cualquier caso, se ha convertido en parte de mi flujo de trabajo personal.

 

El último patrón de diseño es la colaboración multiinteligencia. Este patrón puede parecer extraño, pero funciona mejor de lo que imaginas. A la izquierda hay una captura de pantalla de un trabajo llamado "Chat Dev", un proyecto que es completamente abierto y, de hecho, de código abierto. Muchos de ustedes habrán visto esos llamativos comunicados de las redes sociales llamados "Devin"La demo de "Chat Dev" está disponible en mi portátil". Chat Dev" es un ejemplo de sistema multiinteligencia en el que puedes configurar un Large Language Model (LLM) para que asuma el papel de CEO, diseñador, jefe de producto o probador de una empresa de ingeniería de software. Todo lo que tienes que hacer es decirle al LLM que ahora eres el CEO y que ahora eres un ingeniero de software, y empezarán a colaborar y a mantener un diálogo profundo. Si les dices que desarrollen un juego, como el juego GoMoki, pasarán unos minutos escribiendo código, probando, iterando y generando programas asombrosamente complejos. No siempre funciona, y yo he tenido mi ración de fracasos, pero a veces es asombroso lo bien que funciona, y la tecnología cada vez es mejor. Además, otro patrón de diseño es tener diferentes inteligencias debate, usted puede tener múltiples inteligencias diferentes como ChatGPT y Géminis Mantener un debate también es un patrón eficaz para mejorar el rendimiento. Así pues, tener varias inteligencias artificiales simuladas trabajando juntas ha demostrado ser un patrón de diseño muy potente.

 

En general, estos son los patrones de diseño que he observado, y creo que si podemos aplicarlos en nuestro trabajo, podremos mejorar los resultados de la IA más rápidamente. Creo que el patrón de diseño Intelligent Body Reasoning será un avance importante.

 

Esta es mi última diapositiva. Espero que las tareas que puede realizar la IA se amplíen drásticamente este año, debido al impacto de los flujos de trabajo corporales inteligentes. Una cosa que puede ser difícil de aceptar para la gente es que cuando enviamos una señal a la LLM, esperamos una respuesta inmediata. De hecho, en un debate que mantuve en Google hace diez años llamado "Big Box Search", introdujimos indicaciones muy largas. No conseguí imponerlo porque, cuando haces una búsqueda en Internet, quieres una respuesta en medio segundo, es la naturaleza humana. Nos gusta la respuesta instantánea. Pero para muchos flujos de trabajo corporales inteligentes, creo que tenemos que aprender a delegar tareas en inteligencias de IA y ser pacientes y esperar unos minutos, quizá incluso horas, para obtener una respuesta. Del mismo modo que veo a muchos gestores novatos que delegan tareas y se presentan cinco minutos después, lo cual no es eficiente, tenemos que hacer lo mismo con algunas inteligencias IA, aunque sea muy difícil. Me ha parecido oír algunas risas.

Además, la rápida generación de ficha es una tendencia importante a medida que seguimos iterando en estos flujos de trabajo de intelligentsia.LLMs leen y generan tokens por sí mismos, y ser capaz de generar tokens más rápido que nadie es genial. Creo que la capacidad de generar más tokens rápidamente, incluso a partir de LLM de calidad ligeramente inferior, puede dar buenos resultados, frente a la generación lenta de tokens a partir de LLM de mejor calidad, que puede no ser tan buena. Esta idea puede ser un poco controvertida, ya que puede dar algunas vueltas más en el proceso, como los resultados que mostré en la primera diapositiva para GPT-3 y la arquitectura de cuerpo inteligente.

 

Francamente, lo estoy deseando. Claude 4, GPT-5, Gemini 2.0 y todos los demás maravillosos modelos en construcción. Me parece que si está deseando ejecutar su proyecto en el aprendizaje de muestra cero de GPT-5, puede que descubra que utilizando la inteligencia y la inferencia en los primeros modelos, puede acercarse a los niveles de rendimiento de GPT-5 antes de lo esperado. Creo que se trata de una tendencia importante.

 

Sinceramente, el camino hacia la IA generalizada es más un viaje que un destino, pero creo que este flujo de trabajo corporal inteligente puede ayudarnos a dar un pequeño paso en ese larguísimo viaje.

Gracias, señor.

© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...