科普：什么是大语言模型上下文窗口

2.2K 00

大模型的上下文窗口是一个关键概念，它影响着模型在处理和生成文本时的能力。上下文窗口的大小决定了模型在一次交互中可以考虑的输入和输出标记的总数。

上下文窗口的定义

上下文窗口（Context Window）指的是大语言模型（LLM）在处理输入文本和生成输出文本时，能够同时考虑的最大标记（token）数量。一个标记可以是一个字、一个词或一个标点符号。上下文窗口的大小直接影响模型对输入信息的理解深度和生成内容的连贯性。

输入和输出标记

输入标记：用户提供给模型的所有文本内容，包括问题、指令等。
输出标记：模型生成的回复或结果。

在任何时刻，输入和输出的标记总数不能超过上下文窗口的最大长度。例如，GPT-3.5-turbo模型的最大上下文窗口为4096个标记，这意味着用户输入和模型输出的总和不能超过这个限制。

常见大模型的输入和输出限制

不同的大语言模型有不同的上下文窗口限制。以下是一些常见模型及其限制：

GPT-3.5：最大上下文窗口为4096个标记。
GPT-4：支持更大的上下文窗口，具体数值因版本而异，通常在8000到32000个标记之间。
Gemini 1.5：最大上下文窗口可达100万个标记。
KIMI（国产大模型）：最高可达200万个标记。

这些限制不仅影响模型处理信息的能力，还影响生成内容的质量和连贯性。

具体例子分析

假设我们使用GPT-3.5进行一项任务，要求它总结一本书的内容。这本书大约有10万字，而GPT-3.5只能处理4096个标记。如果我们将书籍内容分成多个片段，每个片段不超过4096个标记，那么我们需要逐步与模型交互，每次输入一部分内容并请求总结。这样做虽然可以让模型处理整本书，但会增加复杂性，因为每次调用都需要确保前后文的一致性。