Interpretación de los parámetros clave del big model: token, longitud del contexto y límites de salida

Base de conocimientos de IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

35.7K 00

Los modelos lingüísticos a gran escala (LLM) desempeñan un papel cada vez más importante en el campo de la inteligencia artificial. Para entender y aplicar mejor los LLM, necesitamos comprender mejor sus conceptos básicos. En este artículo, nos centraremos en tres conceptos clave, a saber, Token, Longitud Máxima de Salida y Longitud de Contexto, para ayudar a los lectores a despejar las barreras de comprensión, de modo que puedan hacer un uso más eficaz de la tecnología LLM.

Token: unidad básica de procesamiento de LLM

Token El token es la unidad básica de un Modelo de Lenguaje Extenso (LLM) para procesar texto en lenguaje natural, y puede entenderse como la unidad semántica más pequeña que el modelo puede reconocer y procesar. Aunque el token puede asimilarse vagamente a una "palabra" o "frase", es más preciso describirlo como el elemento básico en el que el modelo basa su análisis y generación de texto.

En la práctica, existe una cierta relación de conversión entre Token y recuento de palabras. En términos generales:

1 carácter inglés ≈ 0,3 Token
1 carácter chino ≈ 0,6 Ficha

Por lo tanto, podemosestimación aproximada(matemáticas) géneropor regla generalUn carácter chino puede considerarse un Token.

Como se muestra en la figura anterior, cuando introducimos un texto en LLM, el modelo primero corta el texto en secuencias de tokens y luego procesa estas secuencias de tokens para generar la salida deseada. La siguiente figura muestra el proceso de tokenización del texto:

Longitud máxima de salida (límite de salida): límite superior de la generación de texto único del modelo.

para DeepSeek como ejemplo, podemos observar que los distintos modelos establecen un límite en la longitud máxima de salida.

Arriba.deepseek-chat modelo de correspondencia DeepSeek-V3 mientras que deepseek-reasoner corresponde entonces a DeepSeek-R1 Versiones. Tanto el modelo de inferencia R1 como el modelo de diálogo V3 tienen su longitud máxima de salida fijada en 8K.

Considerando la relación de conversión aproximada de que un kanji equivale aproximadamente a un Token.8K La longitud máxima de salida de puede interpretarse como: El modelo es capaz de generar hasta unos 8.000 caracteres chinos en una sola interacción..

El concepto de longitud máxima de salida es relativamente intuitivo y fácil de entender; limita la cantidad máxima de texto que el modelo puede producir en cada respuesta. Una vez alcanzado este límite, el modelo no podrá seguir generando más contenido.

Ventana de contexto: extensión de la memoria del modelo.

La longitud del contexto, también conocida en el ámbito técnico como la Context Windowes un parámetro clave para comprender las capacidades del LLM. Continuamos con el DeepSeek El modelo se ilustra a modo de ejemplo:

Como se muestra en la figura, tanto el modelo de inferencia como el modelo de diálogo, elDeepSeek (utilizado como expresión nominal) Context Window todos son 64K. Así que...64K ¿Qué significa exactamente la longitud de contexto del

Para entender la longitud del contexto, primero tenemos que aclarar su definición. Ventana de contexto se refiere al número máximo de tokens que puede procesar un Modelo de Lenguaje Extenso (LLM) en una sola sesión de inferencia.. Esta suma consta de dos partes:

(1) sección de entradaTodas las entradas proporcionadas por el usuario, como las solicitudes, el historial de diálogos y cualquier contenido adicional del documento.
(2) sección de salida: El contenido de la respuesta que el modelo está generando y devolviendo actualmente.

En resumen, cuando tenemos una única interacción con LLM, todo el proceso, que comienza cuando introducimos una pregunta y termina cuando el modelo da una respuesta, se denomina "inferencia única". Durante esta inferencia, la suma de todo el contenido textual de entrada y salida (contado en Token) no puede ser superior a Context Window Las limitaciones para la DeepSeek En términos del modelo, esta restricción es 64KEl número de caracteres chinos utilizados en el estudio es de unos 60.000.

Por si te lo estás preguntando.¿Hay algún límite a lo que se puede introducir? La respuesta es afirmativa. Como ya se ha dicho, el modelo tiene una longitud de contexto de 64K y una longitud máxima de salida de 8K. Por tanto, en una sola ronda de diálogo, el número máximo de tokens para el contenido de entrada es teóricamente la longitud de contexto menos la longitud máxima de salida, es decir, 64K - 8K = 56K. En resumen, en una sola interacción de pregunta y respuesta, el usuario puede introducir hasta unas 56.000 palabras, y el modelo puede emitir hasta unas 8.000 palabras.

Mecanismos de gestión del contexto para diálogos multirronda

En la práctica, a menudo mantenemos varias rondas de diálogo con los LLM. ¿Cómo se gestiona el contexto en un diálogo de varias rondas? Consulte DeepSeek Por ejemplo, al iniciar un diálogo de varias rondas, el servidorEl contexto de diálogo del usuario no se guarda por defecto. Esto significa que enPara cada nueva solicitud de diálogo, el usuario debe reunir todo el contenido, incluido el historial del diálogo, y pasarlo a la API como información de entrada..

Para ilustrar con mayor claridad la mecánica de un diálogo multirronda, he aquí un ejemplo de código Python para un diálogo multirronda utilizando la API DeepSeek:

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")
# Round 1
messages = [{"role": "user", "content": "What's the highest mountain in the world?"}]
response = client.chat.completions.create(
model="deepseek-chat",
messages=messages
)
messages.append(response.choices[0].message)
print(f"Messages Round 1: {messages}")
# Round 2
messages.append({"role": "user", "content": "What is the second?"})
response = client.chat.completions.create(
model="deepseek-chat",
messages=messages
)
messages.append(response.choices[0].message)
print(f"Messages Round 2: {messages}")

El contenido del parámetro de mensajes que se pasa a la API durante la primera ronda de solicitudes de diálogo es el siguiente:

[
{"role": "user", "content": "What's the highest mountain in the world?"}
]

Necesario para la segunda ronda de solicitudes de diálogo:
(1) Añadir el resultado del modelo de la ronda de diálogo anterior a la mensajes El final de la lista;
(2) Añada la nueva pregunta del usuario también a la sección mensajes El final de la lista.

Así, en la segunda ronda de diálogo, el parámetro de mensajes pasado a la API contendrá lo siguiente:

[
{"role": "user", "content": "What's the highest mountain in the world?"},
{"role": "assistant", "content": "The highest mountain in the world is Mount Everest."},
{"role": "user", "content": "What is the second?"}
]

De ello se deduce que la esencia de un diálogo a varias bandas consiste en combinar laLas transcripciones históricas de los diálogos (incluidas las entradas del usuario y las salidas del modelo) se empalman antes de la última entrada del usuario, y el diálogo completo empalmado se envía al LLM de una sola vez.

Esto significa que en un escenario de diálogo de varias rondas, la Ventana de Contexto para cada ronda de diálogo no se mantiene siempre igual en 64K, sino que disminuye a medida que aumenta el número de rondas. Por ejemplo, si las entradas y salidas de la primera ronda de diálogo utilizan un total de 32K fichas, en la segunda ronda de diálogo la Ventana de Contexto disponible será sólo de 32K. Este principio es coherente con la limitación de la longitud del contexto analizada anteriormente.

También te puede surgir una duda: si, según este mecanismo, las entradas y salidas de cada ronda de diálogo son muy largas, ¿no harían falta unas cuantas rondas de diálogo para superar los límites del modelo? En la práctica, sin embargo, el modelo parece ser capaz de responder correctamente incluso con múltiples rondas de diálogo.

Es una muy buena pregunta, que nos lleva a otro concepto clave: "truncamiento contextual".

Truncamiento contextual: estrategias para afrontar diálogos muy largos

Cuando utilizamos productos basados en LLM (por ejemplo, DeepSeek, Wisdom Spectrum, etc.), los proveedores de servicios no suelen exponer directamente al usuario los límites duros de la Ventana de Contexto, sino que utilizan el Truncamiento de Contexto para La estrategia de Truncamiento del Contexto se utiliza para lograr el procesamiento de textos muy largos.

Por ejemplo, supongamos que el modelo admite de forma nativa una Ventana de Contexto de 64K. Si el usuario ha acumulado 64K o casi en múltiples rondas de diálogo, y luego el usuario inicia una nueva solicitud (por ejemplo, de 2K tokens), se supera el límite de la Ventana de Contexto. En este caso, el servidor suele conservar la solicitud más reciente. 64K Token (incluida la entrada más reciente), mientras que se descarta la parte más antigua del historial de diálogo**. Para el usuario, se conserva la entrada más reciente, mientras que el modelo "olvida" la entrada (o incluso la salida) más antigua. **

Por eso, cuando hay varias rondas de diálogo, el modelo sufre a veces de "amnesia", aunque podamos seguir obteniendo respuestas normales del modelo. Como la capacidad de la Ventana de Contexto es limitada, el modelo no puede recordar toda la información histórica del diálogo, sólo puede "recordar lo más reciente y olvidar lo de hace mucho tiempo".

Hay que subrayar queEl "truncamiento contextual" es una estrategia aplicada a nivel de ingeniería, más que una capacidad inherente al propio modelo**. Los usuarios no suelen percibir la presencia del proceso de truncamiento en el momento del uso, ya que el servidor lo hace en segundo plano. **

En resumen, podemos extraer las siguientes conclusiones sobre la longitud del contexto, la longitud máxima de salida y el truncamiento del contexto:

La ventana de contexto (por ejemplo, 64K) es un límite duro para el modelo para manejar una sola solicitudEl número total de entradas y salidas de fichas no debe superar este límite.
Gestión desde el servidor de textos muy largos en conversaciones multirronda mediante políticas de truncamiento contextualPermite a los usuarios entablar varias rondas de diálogo Ventana de contexto limitaciones, pero ello iría en detrimento de la capacidad de memoria a largo plazo del modelo.
Los límites de la ventana contextual suelen ser una estrategia del proveedor de servicios para controlar los costes o reducir el riesgoLa capacidad técnica del propio modelo no es exactamente la misma que la del modelo.

Comparación de los parámetros del modelo: OpenAI y Anthropic

La configuración de los parámetros para la longitud máxima de salida y la longitud de contexto varía entre los distintos proveedores de modelos. La siguiente figura muestra las configuraciones de parámetros de algunos modelos, utilizando OpenAI y Anthropic como ejemplos:

En la figura, "Tokens de contexto" representa la longitud del contexto y "Tokens de salida" representa la longitud máxima de salida.

Principios técnicos: razones de las restricciones

¿Por qué LLM establece límites a la longitud máxima de salida y a la longitud de contexto? Desde un punto de vista técnico, esto implica restricciones en la arquitectura del modelo y en los recursos computacionales. En resumen, el límite de la ventana de contexto viene determinado por los siguientes factores clave:

(1) Gama de códigos de posición: Transformador El modelo se basa en la codificación posicional (por ejemplo, RoPE, ALiBi) para asignar información posicional a cada token, y la gama de diseños de codificación posicional determina directamente la longitud máxima de secuencia que puede manejar el modelo.
(2) Cálculo del mecanismo de autoatenciónEl modelo se basa en la secuencia de secuencias: al generar cada nueva ficha, el modelo debe calcular el peso atencional entre esa ficha y todas las fichas históricas (tanto las de entrada como las de salida generadas). Por lo tanto, la longitud total de la secuencia está estrictamente limitada. Además, el uso de memoria de la caché KV está positivamente correlacionado con la longitud total de la secuencia, y si se excede la longitud de la ventana contextual pueden producirse desbordamientos de memoria o errores de cálculo.

Escenarios típicos de aplicación y estrategias de respuesta

Es fundamental comprender los conceptos de longitud máxima de salida y longitud de contexto, así como los principios técnicos que los sustentan. Una vez adquiridos estos conocimientos, los usuarios deben desarrollar las estrategias correspondientes cuando utilicen herramientas de modelos de gran tamaño para mejorar la eficiencia y eficacia de su uso. A continuación se enumeran varios escenarios de aplicación típicos y se indican las estrategias de respuesta correspondientes:

Entrada corta + salida larga
- escenario de aplicaciónLos usuarios introducen una pequeña cantidad de tokens (por ejemplo, 1.000) y desean que el modelo genere contenido de formato largo, como artículos, historias, etc.
- Configuración de parámetrosEn el momento de la llamada a la API, puede establecer el parámetro max_tokens se fija en un valor mayor, por ejemplo 63,000 (Asegúrese de introducir el mismo número de fichas que en la casilla max_tokens y no superior a Ventana de contexto límites, por ejemplo, 1K + 63K ≤ 64K).
- riesgo potencial: La salida del modelo puede terminar antes de tiempo debido a controles de calidad (por ejemplo, repetición excesiva, inclusión de palabras sensibles, etc.).
Entrada larga + salida corta
- escenario de aplicaciónEl usuario introduce un documento largo (por ejemplo, 60.000 tokens) y pide al modelo que lo resuma, extraiga información, etc., y produzca un resultado corto.
- Configuración de parámetrosPuede configurar max_tokens a un valor menor, por ejemplo 4,000 (por ejemplo, 60K + 4K ≤ 64K).
- riesgo potencialSi el modelo requiere realmente más fichas de salida que el número de max_tokens Si el documento de entrada se comprime (por ejemplo, se extraen los párrafos clave, se reduce la información redundante, etc.) para garantizar la integridad del resultado, éste se comprimirá.
Gestión del diálogo a varias bandas
- normas y reglamentosDurante las rondas múltiples de diálogo, hay que tener cuidado de que el número total de fichas de entrada y salida acumuladas no supere Ventana de contexto (si se superan, se truncarán).
- ejemplo típico::
  (1) Diálogo de la ronda 1: el usuario introduce 10.000 fichas, el modelo emite 10.000 fichas, se acumulan 20.000 fichas.
  (2) Diálogo de la ronda 2: entrada del usuario 30.000 fichas, salida del modelo 14.000 fichas, acumulado 64.000 fichas.
  (3) Diálogo de la tercera ronda: el usuario introduce 5.000 fichas, el servidor trunca las primeras 5.000 fichas y se queda con las últimas 59.000. fichas Historia, más una nueva entrada de 5K tokens para un total de 64K tokens.

Comprendiendo los tres conceptos básicos de Token, Longitud Máxima de Salida y Longitud de Contexto, y formulando una estrategia razonable basada en escenarios de aplicación específicos, podemos aprovechar más eficazmente la tecnología LLM y utilizar plenamente su potencial.