Popular Science: ¿Qué es una Ventana Contextual de Gran Modelo Lingüístico?

Base de conocimientos de IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

32.9K 00

La ventana de contexto de un gran modelo es un concepto clave que afecta a la capacidad del modelo para procesar y generar texto. El tamaño de la ventana de contexto determina el número total de tokens de entrada y salida que el modelo puede considerar en una sola interacción.

Definición de ventana contextual

Ventana de contexto se refiere al número máximo de tokens (símbolos) que puede tener en cuenta el Modelo de Lenguaje Extenso (LLM) al procesar el texto de entrada y generar el texto de salida al mismo tiempo. Un token puede ser una palabra, una frase o un signo de puntuación. El tamaño de la ventana contextual afecta directamente a la profundidad con que el modelo comprende la información de entrada y a la coherencia del contenido generado.

Marcadores de entrada y salida

marcador de entradaTodo el contenido textual proporcionado al modelo por el usuario, incluidas preguntas, instrucciones, etc.
marcador de salidaRespuestas o resultados generados por el modelo.

En un momento dado, el número total de tokens de entrada y salida no puede superar la longitud máxima de la ventana de contexto. Por ejemplo, la ventana de contexto máxima para el modelo GPT-3.5-turbo es de 4.096 tokens, lo que significa que la suma de la entrada del usuario y la salida del modelo no puede superar este límite.

Restricciones de entrada y salida de macromodelos comunes

Los distintos modelos lingüísticos de gran tamaño tienen distintas restricciones de ventana contextual. Estos son algunos modelos comunes y sus restricciones:

GPT-3.5: La ventana de contexto máxima es de 4096 tokens.
GPT-4: Se admiten ventanas de contexto más grandes, con valores específicos que varían de una versión a otra, normalmente entre 8000 y 32000 tokens.
Géminis 1.5Ventana de contexto máxima de hasta 1 millón de fichas.
KIMI(modelos domésticos grandes): hasta 2 millones de marcadores.

Estas limitaciones afectan no sólo a la capacidad del modelo para procesar la información, sino también a la calidad y coherencia de los contenidos generados.

Análisis de ejemplos concretos

Supongamos que utilizamos GPT-3.5 para una tarea que requiere que resuma el contenido de un libro. El libro tiene unas 100.000 palabras y GPT-3.5 sólo puede manejar 4.096 tokens. Si dividimos el contenido del libro en varios segmentos, cada uno de ellos con un máximo de 4.096 tokens, tendremos que interactuar con el modelo paso a paso, introduciendo una parte del contenido cada vez y solicitando un resumen. Esto permitiría al modelo procesar todo el libro, pero añadiría complejidad, ya que cada llamada tendría que garantizar la coherencia entre el texto anterior y el posterior.

Ejemplos de escenarios

entradas del usuario: Por favor, ayúdenme a resumir el primer capítulo del libro (suponiendo que el capítulo tenga 3000 marcadores).
resultados del modeloEste es un resumen del capítulo 1 (suponiendo que se hayan generado 500 marcadores).
El usuario sigue introduciendoA continuación, resuma el capítulo 2 (de nuevo, 3000 puntos).

En este caso, el usuario debe tener en cuenta que la información anterior puede olvidarse después de cada interacción, ya que el total de entrada y salida no puede superar los 4096 tokens. Si el usuario hace referencia a información del primer capítulo en una petición posterior que está fuera de la ventana de contexto, es posible que el modelo no pueda responder con precisión, lo que afectaría a la coherencia del diálogo.

resúmenes

Comprender la ventana contextual del Big Model y sus limitaciones de entrada y salida es fundamental para el uso eficaz de estas técnicas. Utilizar estas limitaciones con sensatez puede ayudar a los desarrolladores a diseñar aplicaciones más eficientes y coherentes, además de mejorar la experiencia del usuario. En el futuro, a medida que evolucione la tecnología, cabe esperar ventanas de contexto más amplias, que permitan a los grandes modelos lingüísticos manejar información más compleja y de mayor longitud.