Das Kontextfenster eines großen Modells ist ein Schlüsselkonzept, das die Fähigkeit des Modells zur Verarbeitung und Erzeugung von Text beeinflusst. Die Größe des Kontextfensters bestimmt die Gesamtzahl der Eingabe- und Ausgabe-Token, die das Modell in einer einzigen Interaktion berücksichtigen kann.
Definition von Kontextfenster
Kontextfenster bezieht sich auf die maximale Anzahl von Token (Zeichen), die vom Large Language Model (LLM) bei der Verarbeitung von Eingabetext und der gleichzeitigen Erzeugung von Ausgabetext berücksichtigt werden können. Ein Token kann ein Wort, ein Satz oder ein Interpunktionszeichen sein. Die Größe des Kontextfensters wirkt sich direkt auf die Tiefe des Verständnisses des Modells für die Eingabeinformationen und die Kohärenz des generierten Inhalts aus.
Eingangs- und Ausgangsmarkierungen
- EingangsmarkerAlle textlichen Inhalte, die der Benutzer dem Modell zur Verfügung stellt, einschließlich Fragen, Anweisungen usw.
- AusgangsmarkerModellgenerierte Antworten oder Ergebnisse.
Zu keinem Zeitpunkt darf die Gesamtzahl der Eingabe- und Ausgabe-Token die maximale Länge des Kontextfensters überschreiten. Beispielsweise beträgt das maximale Kontextfenster für das GPT-3.5-Turbomodell 4096 Token, was bedeutet, dass die Summe der Benutzereingaben und der Modellausgaben diese Grenze nicht überschreiten kann.
Input- und Output-Beschränkungen gängiger Makromodelle
Verschiedene große Sprachmodelle haben unterschiedliche Einschränkungen für Kontextfenster. Hier sind einige gängige Modelle und ihre Einschränkungen:
- GPT-3.5Das maximale Kontextfenster beträgt 4096 Token.
- GPT-4Größere Kontextfenster werden unterstützt, wobei die spezifischen Werte von Version zu Version variieren, normalerweise zwischen 8000 und 32000 Token.
- Zwillinge 1.5Maximales Kontextfenster von bis zu 1 Million Token.
- KIMI(große Haushaltsmodelle): bis zu 2 Millionen Markierungen.
Diese Einschränkungen wirken sich nicht nur auf die Fähigkeit des Modells aus, Informationen zu verarbeiten, sondern auch auf die Qualität und Kohärenz der generierten Inhalte.
Analyse von konkreten Beispielen
Angenommen, wir verwenden GPT-3.5 für eine Aufgabe, bei der es den Inhalt eines Buches zusammenfassen soll. Das Buch hat etwa 100.000 Wörter, und GPT-3.5 kann nur 4096 Token verarbeiten. Wenn wir den Inhalt des Buches in mehrere Segmente mit jeweils nicht mehr als 4096 Token aufteilen, müssen wir schrittweise mit dem Modell interagieren, indem wir jeweils einen Teil des Inhalts eingeben und eine Zusammenfassung anfordern. Auf diese Weise könnte das Modell das gesamte Buch verarbeiten, aber es würde die Komplexität erhöhen, da bei jedem Aufruf die Konsistenz zwischen dem vorherigen und dem nachfolgenden Text sichergestellt werden müsste.
Beispiel-Szenarien
- BenutzereingabeBitte helfen Sie mir, das erste Kapitel des Buches zusammenzufassen (unter der Annahme, dass das Kapitel 3000 Marker umfasst).
- ModellleistungDies ist eine Zusammenfassung von Kapitel 1 (unter der Annahme, dass 500 Marker erzeugt wurden).
- Der Benutzer fährt fort mit der EingabeAls Nächstes fassen Sie bitte Kapitel 2 zusammen (wieder 3000 Marker).
In diesem Fall muss der Benutzer berücksichtigen, dass die vorherigen Informationen nach jeder Interaktion vergessen werden können, da die Gesamtein- und -ausgabe 4096 Token nicht überschreiten darf. Wenn der Benutzer in einer nachfolgenden Anfrage, die außerhalb des Kontextfensters liegt, auf Informationen aus dem ersten Kapitel Bezug nimmt, kann das Modell möglicherweise nicht genau antworten, wodurch die Konsistenz des Dialogs beeinträchtigt wird.
Zusammenfassungen
Das Verständnis des Kontextfensters des großen Modells und seiner Eingabe- und Ausgabebeschränkungen ist entscheidend für die effektive Nutzung dieser Techniken. Ein kluger Einsatz dieser Einschränkungen kann Entwicklern helfen, effizientere und kohärentere Anwendungen zu entwerfen und gleichzeitig die Benutzerfreundlichkeit zu verbessern. Mit der Weiterentwicklung der Technologie können wir in Zukunft mit größeren Kontextfenstern rechnen, die es großen Sprachmodellen ermöglichen, komplexere und längere Informationen zu verarbeiten.