Popular Science : Qu'est-ce qu'une grande fenêtre contextuelle de modèle linguistique ?

Base de connaissances sur l'IAMise à jour il y a 10 mois Cercle de partage de l'IA

La fenêtre contextuelle d'un grand modèle est un concept clé qui affecte la capacité du modèle à traiter et à générer du texte. La taille de la fenêtre contextuelle détermine le nombre total de jetons d'entrée et de sortie que le modèle peut prendre en compte dans une seule interaction.

Définition de la fenêtre contextuelle

La fenêtre contextuelle fait référence au nombre maximum de tokens (mots-clés) qui peuvent être pris en compte par le modèle linguistique étendu (LLM) lors du traitement du texte d'entrée et de la génération du texte de sortie en même temps. Un token peut être un mot, une phrase ou un signe de ponctuation. La taille de la fenêtre contextuelle affecte directement la profondeur de la compréhension des informations d'entrée par le modèle et la cohérence du contenu généré.

Marqueurs d'entrée et de sortie

marqueur d'entréeLe contenu textuel : tout le contenu textuel fourni au modèle par l'utilisateur, y compris les questions, les instructions, etc.
marqueur de sortieLes réponses ou les résultats générés par le modèle : Les réponses ou les résultats générés par le modèle.

À tout moment, le nombre total de jetons d'entrée et de sortie ne peut dépasser la longueur maximale de la fenêtre contextuelle. Par exemple, la fenêtre contextuelle maximale pour le modèle GPT-3.5-turbo est de 4096 jetons, ce qui signifie que la somme des entrées de l'utilisateur et des sorties du modèle ne peut pas dépasser cette limite.

Contraintes d'entrée et de sortie des macromodèles courants

Les différents modèles de langues étendues ont des restrictions différentes en matière de fenêtre contextuelle. Voici quelques modèles courants et leurs restrictions :

GPT-3.5La fenêtre contextuelle maximale est de 4096 tokens.
GPT-4Les fenêtres contextuelles plus grandes sont prises en charge, avec des valeurs spécifiques variant d'une version à l'autre, généralement entre 8000 et 32000 jetons.
Gemini 1.5Fenêtre contextuelle maximale : jusqu'à 1 million de jetons.
KIMI(grands modèles domestiques) : jusqu'à 2 millions de marqueurs.

Ces limitations affectent non seulement la capacité du modèle à traiter l'information, mais aussi la qualité et la cohérence du contenu généré.

Analyse d'exemples spécifiques

Supposons que nous utilisions GPT-3.5 pour résumer le contenu d'un livre. Le livre contient environ 100 000 mots, et GPT-3.5 ne peut traiter que 4096 tokens. Si nous décomposons le contenu du livre en plusieurs segments, chacun ne comportant pas plus de 4096 tokens, nous devons interagir avec le modèle étape par étape, en saisissant une partie du contenu à la fois et en demandant un résumé. Cela permettrait au modèle de traiter l'ensemble du livre, mais ajouterait de la complexité, car chaque appel devrait garantir la cohérence entre le texte précédent et le texte suivant.

Exemples de scénarios

saisie de l'utilisateur: Aidez-moi à résumer le premier chapitre du livre (en supposant que le chapitre soit composé de 3000 marqueurs).
sortie du modèleIl s'agit d'un résumé du chapitre 1 (en supposant que 500 marqueurs ont été générés).
L'utilisateur continue à saisirLe chapitre 2 doit ensuite être résumé (à nouveau, 3 000 points).

Dans ce cas, l'utilisateur doit tenir compte du fait que les informations précédentes peuvent être oubliées après chaque interaction, étant donné que le total des entrées et des sorties ne peut dépasser 4096 jetons. Si l'utilisateur se réfère à des informations du premier chapitre dans une demande ultérieure qui sort de la fenêtre contextuelle, le modèle peut ne pas être en mesure de répondre avec précision, ce qui affecte la cohérence du dialogue.

résumés

La compréhension de la fenêtre contextuelle du Big Model et de ses contraintes d'entrée et de sortie est essentielle à l'utilisation efficace de ces techniques. L'utilisation judicieuse de ces limites peut aider les développeurs à concevoir des applications plus efficaces et plus cohérentes, tout en améliorant l'expérience de l'utilisateur. À l'avenir, avec l'évolution de la technologie, nous pouvons nous attendre à des fenêtres contextuelles plus larges, permettant aux grands modèles de langage de traiter des informations plus complexes et plus longues.