Una nueva forma de mantener ChatGPT en diálogo constante sin perder la memoria
Los investigadores han encontrado una solución concisa y eficaz a un problema intratable en grandes modelos lingüísticos como ChatGPT, que de otro modo afectaría gravemente al rendimiento del modelo.

En las conversaciones de IA que implican múltiples rondas de diálogo continuo, los potentes modelos de aprendizaje automático del lenguaje a gran escala que impulsan chatbots como ChatGPT a veces fallan repentinamente, provocando una caída drástica del rendimiento del bot.
Un equipo de investigadores del MIT y otras instituciones ha descubierto una sorprendente causa de este problema y ha ideado una sencilla solución, que permite a los chatbots continuar las conversaciones sin colapsar ni ralentizarse.
Su planteamiento adapta la caché de claves (el equivalente del almacén de memoria para el diálogo) que se encuentra en el centro de muchos grandes modelos lingüísticos. En algunos casos, cuando la caché necesita almacenar más información que su capacidad real, se sustituyen los datos más antiguos, lo que puede provocar el fallo del modelo.
Al retener en la memoria algunos de los puntos de datos iniciales, el esquema de los investigadores permite a los chatbots seguir comunicándose sin importar cuánto dure la conversación.
Este enfoque, denominado StreamingLLM, mantiene la alta eficiencia del modelo incluso cuando el diálogo continúa más allá de los cuatro millones de palabras. Comparado con otro método que evita las caídas del sistema volviendo a calcular constantemente partes de diálogos anteriores, StreamingLLM es más de 22 veces más rápido.
Esto permitirá a los chatbots mantener largas conversaciones a lo largo del día sin tener que reiniciarlas, proporcionando de hecho un asistente de IA para tareas como escribir, editar y generar código.
"Hoy, con este enfoque, podemos desplegar estos grandes modelos lingüísticos de forma continua. Al crear un chatbot con el que podemos comunicarnos en cualquier momento y que puede responder basándose en el contenido de conversaciones recientes, podemos aprovechar estos chatbots en muchas áreas de aplicación nuevas", afirma Guangxuan Xiao, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS) y autor principal del artículo.
Entre los coautores de Xiao se encuentran su mentor, Song Han, profesor asociado de EECS, miembro del MIT-IBM Watson AI Lab y científico distinguido de NVIDIA; Yuandong Tian, investigador científico de Meta AI; Beidi Chen, profesor adjunto de la Universidad Carnegie Mellon; y Mike Lewis, investigador científico de Meta AI y autor principal del artículo. Esta investigación se presentará en la Conferencia Internacional sobre el Aprendizaje de Representaciones.
Un fenómeno desconcertante
Los modelos lingüísticos a gran escala codifican los datos, como el vocabulario de la consulta de un usuario, en formas de representación llamadas "tokens". Muchos modelos emplean los llamados "mecanismos atencionales", que utilizan estos tokens para crear texto nuevo.
En general, el chatbot de IA escribe nuevos contenidos basándose en los textos que ha visto; por eso, almacena los tokens recientes en un banco de memoria llamado caché KV para utilizarlos más tarde. El mecanismo de atención crea un mapa cuadriculado que contiene todos los tokens de la caché, un "mapa de atención", en el que se marca la fuerza de la correlación entre cada palabra y otras palabras.
Comprender estas relaciones ayuda a estos grandes modelos lingüísticos a ser capaces de crear textos similares a los humanos.
Sin embargo, cuando el volumen de caché se hace enorme, el mapa de atención también se expande hasta ser inmenso, lo que provoca una disminución de la velocidad de cálculo.
Además, si los tokens necesarios para codificar el contenido superan el límite de la caché, el rendimiento del modelo se ve mermado. Por ejemplo, un modelo muy utilizado es capaz de almacenar 4.096 tokens, pero un artículo académico puede contener unos 10.000 tokens.
Para sortear estos problemas, los investigadores adoptaron una estrategia de "caché deslizante", eliminando los tokens más antiguos para añadir otros nuevos. Sin embargo, una vez eliminado el primer token, el rendimiento del modelo tiende a caer en picado, lo que afecta directamente a la calidad del vocabulario recién generado.
En este nuevo trabajo, los investigadores descubrieron que si mantienen constante la primera ficha en una caché deslizante, el modelo mantiene su rendimiento aunque se supere el tamaño de la caché.
Pero este hallazgo puede parecer contraintuitivo. La primera palabra de una novela rara vez está directamente relacionada con la última, así que ¿por qué es la primera palabra crucial para la capacidad del modelo de generar nuevas palabras?
Los investigadores también revelan las razones de este fenómeno en su nuevo artículo.
punto de enfoque
Algunos modelos utilizan la operación Softmax en su mecanismo de atención, que asigna una puntuación a cada elemento léxico, reflejando su grado de relación entre sí.La operación Softmax requiere que todas las puntuaciones de atención sumen un total de 1. Como la mayoría de los elementos léxicos no están estrechamente relacionados entre sí, sus puntuaciones de atención son muy bajas. El modelo asigna la puntuación de atención restante al primer elemento léxico.
Los investigadores denominan a este primer elemento léxico "foco de atención".
"Necesitamos un foco de atención, y el modelo elige el primer elemento léxico como este foco porque es visible para todos los demás elementos léxicos. Nos dimos cuenta de que, para mantener la dinámica del modelo, teníamos que mantener constantemente este foco de atención en la caché". Han lo explica así.
Al desarrollar StreamingLLM, los investigadores descubrieron que colocar cuatro elementos léxicos que centran la atención al principio de la memoria caché da como resultado un rendimiento óptimo.
También señalan que la codificación posicional de cada elemento léxico debe permanecer constante a medida que se añaden nuevos elementos léxicos y se eliminan los antiguos. Por ejemplo, si se elimina el quinto elemento léxico, el sexto debe mantener su codificación como sexto aunque pase a ser el quinto en la caché.
Combinando estas dos ideas, permiten a StreamingLLM mantener un diálogo coherente y superar a los enfoques populares que utilizan técnicas de recálculo.
Por ejemplo, con una capacidad de caché de 256 palabras, el método que utiliza la técnica de recálculo tarda 63 ms en descodificar una palabra nueva, mientras que StreamingLLM sólo tarda 31 ms. Sin embargo, si se aumenta el tamaño de la caché a 4.096 palabras, la técnica de recálculo tarda 1.411 milisegundos en descodificar un nuevo lexema, mientras que StreamingLLM sólo tarda 65 milisegundos.
"StreamingLLM emplea una innovadora técnica de agrupación de la atención que resuelve el problema del rendimiento y la estabilidad de la memoria cuando se procesan hasta 4 millones de tokens de texto". Yong Yang, Catedrático Presidencial Joven de Informática de la Universidad Nacional de Singapur, ha declarado que, aunque no ha participado en el trabajo. "Las capacidades de esta tecnología no sólo son impresionantes, sino que también tienen un potencial revolucionario para permitir que StreamingLLM se utilice en una amplia gama de dominios de IA.El rendimiento y la versatilidad de StreamingLLM auguran que se convertirá en una tecnología revolucionaria que impulsará la forma en que utilizamos la IA para generar aplicaciones". "
Coincide con esta opinión Tianqi Chen, profesor adjunto de aprendizaje automático e informática de la Universidad Carnegie Mellon, que tampoco participó en el estudio. En su opinión, "StreamingLLM nos permite escalar suavemente la longitud de los diálogos para modelos lingüísticos de gran tamaño. Lo hemos utilizado con éxito para desplegar modelos Mistral en el iPhone".
El equipo de investigación también exploró la aplicación de la agrupación de la atención durante el entrenamiento del modelo incluyendo varios marcadores de posición delante de todas las muestras de entrenamiento.
Descubrieron que los modelos entrenados junto con la agrupación de la atención eran capaces de mantener el rendimiento utilizando sólo una agrupación de la atención en la memoria caché, en comparación con las cuatro que se necesitan normalmente para estabilizar el rendimiento de los modelos preentrenados.
Sin embargo, aunque StreamingLLM permite al modelo entablar un diálogo continuo, éste sigue siendo incapaz de recordar palabras que no se hayan depositado en la caché. En el futuro, los investigadores planean superar esta limitación explorando formas de recuperar tokens borrados, o permitiendo que el modelo recuerde diálogos anteriores.
StreamingLLM se ha integrado en la biblioteca de optimización de modelos Big Language de NVIDIA [TensorRT-LLM]Medio.
Este trabajo ha sido financiado en parte por el Laboratorio de Inteligencia Artificial MIT-IBM Watson, el Centro de Ciencias del MIT y la National Science Foundation.
© declaración de copyright
文章版权归 Círculo de intercambio de inteligencia artificial 所有,未经允许请勿转载。
Artículos relacionados
Sin comentarios...