Les modèles vectoriels de textes longs sont aveugles au-delà de 4K tokens ?

Base de connaissances sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

10.7K 00

NoLiMA, publié en février 2025, est une méthode d'évaluation de la compréhension de textes longs dans le modèle de la langue large (LLM). Contrairement aux tests traditionnels de type "Needle-in-a-Haystack" (NIAH), qui reposent sur la correspondance de mots-clés, ses principales caractéristiques sont les suivantes Trouver des réponses dans des textes longs n'est possible qu'en élaborant des questions et des messages clés qui obligent le modèle à s'engager dans une compréhension et un raisonnement sémantiques profonds.

NoLiMa : https://arxiv.org/abs/2502.05167

Les résultats de NoLiMA révèlent un problème important : les LLM qui prétendent pouvoir traiter des centaines de milliers, voire des millions de tokens, sont nettement moins performants dans les tâches qui requièrent réellement la compréhension de textes longs. Par exemple, sous la longueur de 32K tokens, la performance des 10 modèles testés n'est pas la moitié de celle des textes courts (moins de 1K tokens) ; même le modèle le plus performant, GPT-4o, passe d'une performance presque parfaite de 99.3% à 69.7%.

Inspirés par NoLiMA, nous utilisons le modèle vectoriel jina-embeddings-v3 Des expériences similaires ont été réalisées. La raison de l'étude du modèle vectoriel est que dans les systèmes de génération augmentée de recherche (RAG), le modèle de recherche (également connu sous le nom de modèle vectoriel) est bon ou mauvais, ce qui détermine directement l'efficacité de l'ensemble du système.

Notre recherche se concentre sur deux questions centrales :

Les modèles vectoriels peuvent-ils effectuer un "raisonnement à un saut" dans un texte long ? Avec les tests NIAH traditionnels, les questions et les réponses correspondent généralement directement (par exemple, "En quelle année Jean est-il allé à Paris ?" et "Jean est allé à Paris en 2019"). et "Jean est allé à Paris en 2019"). Contrairement à l'"épingle" que nous avons conçue, le modèle doit raisonner de manière sémantique (par exemple, la question est "Quel personnage est allé en France ?"). Le "pin" est "Yuki vit à côté de l'opéra Semper", et le modèle doit savoir que l'opéra Semper se trouve en Allemagne).
Les extensions de requêtes peuvent-elles améliorer la recherche de textes longs ? L'expansion de la requête consiste à ajouter des mots apparentés à la requête afin d'en enrichir la sémantique. Nous voulons voir si cette approche peut compenser les lacunes des modèles vectoriels lorsqu'il s'agit de textes longs.

Test traditionnel NIAH (permet de faire correspondre des mots-clés) et test NOLIMA (nécessite un raisonnement sémantique)

Les résultats expérimentaux obtenus avec les LLM ont montré qu'ils s'appuient trop sur la correspondance de texte en surface et pas assez sur le raisonnement en profondeur. Nous nous demandons s'il en va de même pour les modèles vectoriels. Cela pourrait nous permettre de voir ce qui manque encore aux techniques actuelles de recherche sémantique.

Construction des messages clés et du contexte

Construction d'informations clés

Dans les tests traditionnels de type "aiguille dans une botte de foin", les messages clés ("aiguilles") sont généralement formulés de la même manière que les questions recherchées. En voici un exemple :

QUESTION : "Quel personnage est allé à Dresden ?"
Message clé : "Yuki vit à Dresde".

Mais ce document de NoLiMa ne le fait pas, et nous ne voulons pas le faire. Ce que nous voulons examiner, c'est la compréhension de la sémantique par le modèle, et pas seulement la correspondance des mots-clés. Nous avons donc conçu une variante de "single-hop" ("single-hop" signifie que la réponse et la question doivent être reliées par une petite inférence), et nous avons délibérément utilisé des mots qui n'apparaissaient pas dans le texte, ainsi que des phrases inversées.

QUESTION : "Quel personnage est allé à Dresden ?"
INFORMATION CLÉ (PAR DÉFAUT) : "En fait, Yuki habite à côté de l'opéra Semper."
Message clé (inversé) : "L'opéra Semper se trouve à côté de l'endroit où habite Yuki."

Conformément à la méthodologie décrite dans l'article, nous avons généré plusieurs catégories de groupes "question-message clé" (chacun contenant une question, un message clé "à un saut" et une version du message clé "à un saut" en sens inverse). Le message clé "à un saut" est une version inversée du message clé "à un saut".)

Des exemples sont présentés ci-dessous :

formulaire	questions	Informations clés originales (pour référence uniquement)	Messages clés à saut unique	Inversion de la sélection des informations clés
Restrictions alimentaires	Quel personnage ne peut pas manger de poisson ?	Alice ne peut pas manger de poisson.	Alice mentionne alors qu'elle est végétarienne depuis de nombreuses années.	Le régime végétarien est important pour Alice depuis de nombreuses années.
état de santé	Quel personnage ne peut pas boire de lait ?	Bob ne peut pas boire de lait.	Bob explique qu'il est intolérant au lactose.	L'intolérance au lactose touche Bob tous les jours.
capacité verbale	Quel personnage parle français ?	Charlie parle français.	En fait, Charlie a étudié à la Sorbonne.	Charlie a obtenu son diplôme à la Sorbonne.
Parcours professionnel	Quel personnage est le musicien ?	Diane est musicienne.	Diane a dirigé l'opéra de Sydney en 2013.	La représentation à l'Opéra de Sydney était dirigée par Diane.

💡 Les noms ci-dessus ne sont que des exemples. Dans la véritable "épingle", les noms sont choisis au hasard dans une liste de noms provenant de différentes cultures.

En outre, les "informations clés originales" (c'est-à-dire la version littéralement appariée) figurant dans le tableau sont uniquement destinées à vous permettre de voir et de comprendre, et ne seront pas utilisées dans le cadre de nos expériences.

contextualisation

Nous avons préparé dix livres publics, chacun contenant au moins 50 000 tokens, et sélectionné au hasard de courts fragments dans chaque livre (chaque fragment ne contient pas plus de 250 tokens), puis nous avons recoupé ces fragments pour former des "contextes" de différentes longueurs, dont les longueurs sont respectivement de 128, 256, 512, 1024, 2048, 4096 et 8192 tokens. Ces fragments sont ensuite recoupés pour former des "contextes" de différentes longueurs : 128, 256, 512, 1024, 2048, 4096 et 8192 mots, respectivement. Nous plaçons ensuite un message clé dans chaque contexte :

Mise en contexte à l'aide de courts clips et de messages clés tirés du livre

Pour être plus précis, disons que nous prenons le message clé "En fait, Yuki habite à côté de l'opéra Semper" et que nous le plaçons dans le 50e lemme dans un contexte de 128 lemmes :

Exemple d'une aiguille dans une botte de foin

Nous utilisons jina-embeddings-v3 Le modèle est utilisé pour vectoriser le texte, puis les scores de similarité entre le texte "information clé" et le texte "contexte" sont calculés :

Question-Haystack similarity = 0.2391

Afin de donner un sens à ce score de similarité, nous devons procéder à une étape supplémentaire de "normalisation". Pour ce faire, nous calculons d'abord le score de similarité entre la question et le message clé par défaut (c'est-à-dire sans contexte, comparaison directe). Ensuite, nous divisons le score de similarité "message clé-contexte" précédent par le score de similarité "question-message clé" :

Question-Needle similarity = 0.3598
Normalized Query - Haystack similarity = 0.2391 / 0.3598 = 0.6644

Pourquoi normaliser ? Parce que les scores de similarité calculés peuvent être différents selon les modèles vectoriels. Et...jina-embeddings-v3 Les modèles sous-estiment généralement la similarité entre deux textes.

Pour chaque message clé (tant la version par défaut que la version flip-flop), nous avons généré 10 contextes de longueurs différentes, dans chacun desquels le message clé apparaît à un endroit différent. Pour le même message clé et la même longueur de contexte, ces 10 contextes se présentent comme suit :

Placer les informations clés à intervalles réguliers dans dix contextes

En outre, à des fins de comparaison, nous avons également généré un contexte pour chaque condition de test (différentes longueurs de contexte) qui ne contenait aucune information clé. Cela nous donne un total de 3234 contextes générés.

Enfin, nous utilisons lejina-embeddings-v3 (en utilisant le modèle LoRA de correspondance de texte par défaut) code chaque contexte. Si le nombre total d'éléments lexicaux d'un contexte dépasse 8192 (qui est la limite supérieure du modèle jina-embeddings-v3), nous tronquons l'excès et encodons également la question correspondante.

Évaluation des indicateurs

Nous avons conçu un cadre d'évaluation avec plusieurs mesures différentes pour mesurer la performance des modèles vectoriels dans différentes longueurs de contexte :

Principaux indicateurs

1. les scores de similarité normalisés

Il s'agit de la mesure principale. Elle ne se contente pas d'examiner la similarité sémantique entre la question et l'ensemble du contexte, mais prend également en compte la question et les informations clés et les compare séparément. Cela nous donne une idée de la performance du modèle dans le contexte contenant l'information clé, par rapport à sa performance dans le cas idéal (où la question et l'information clé sont comparées directement).

La méthode de calcul spécifique est la suivante : on calcule d'abord le score de similarité cosinus entre la question et l'information clé correspondante en tant que référence ; on divise ensuite la "similarité question-contexte" par cette référence pour obtenir le score de similarité normalisé.

2. quelle est la meilleure solution par rapport à une supposition aléatoire ?

Pour les modèles vectoriels, il est logique de comparer la similarité d'une même question avec différents textes. Ainsi, en plus du score de similarité normalisé, nous devons vérifier si la question est réellement plus similaire à l'ensemble du contexte qu'à un morceau de texte aléatoire de même longueur mais sans information clé. En d'autres termes, nous voulons voir si la réponse trouvée par le modèle est vraiment plus précise qu'une supposition à l'aveugle.

Indicateurs secondaires

1. l'analyse des compétences distinctives

Cette mesure évalue la capacité du modèle à distinguer les informations clés du reste du contenu non pertinent. Il y a deux aspects spécifiques :

Séparation moyenneLes exemples positifs : Quelle est la différence entre les passages qui contiennent des réponses ("exemples positifs") et les passages qui n'en contiennent pas ("exemples négatifs").
Score AUC (aire sous la courbe)La capacité du modèle à distinguer les informations clés des autres contenus est mesurée en calculant l'aire sous la courbe ROC (courbe des caractéristiques de fonctionnement du sujet).

2. les effets de position

Nous examinerons également si l'emplacement de l'information clé dans le contexte influe sur la facilité avec laquelle le modèle la trouve. Nous analyserons

Existe-t-il une relation (coefficient de corrélation) entre l'emplacement des informations clés et le score de similarité.
Ce qu'il advient de la performance du modèle (pente de régression) lorsque les informations clés sont placées dans des positions différentes.
Regroupez les messages clés par lieu et voyez comment les différents groupes se comportent différemment.

L'étude révèle que

Les scores de similarité et la précision diminuent au fur et à mesure que le texte s'allonge.

Les résultats expérimentaux sont clairs : plus le contexte textuel est long, moins le modèle est performant.Le score de similarité moyen passe de 0,37 à 128 mots à 0,10 à 8 000 mots. Cette baisse n'est pas linéaire, mais elle est particulièrement rapide entre 128 mots et 1 000 mots.

Performance de normalisation en fonction de la longueur du contexte

Nous avons également constaté queL'inversion de l'énoncé des informations clés n'a que peu d'effet sur la recherche du modèle. Qu'il s'agisse de "En fait, Yuki habite près de l'opéra Semper" (l'énoncé par défaut) ou de "L'opéra Semper se trouve juste à côté de l'endroit où habite Yuki" (l'énoncé inversé), la probabilité que le modèle les trouve est presque la même :

Comparaison des performances du modèle pour deux comptes (ordre par défaut ou ordre inverse)

Cependant.Le type de contenu des informations clés a un impact sur la difficulté de trouver un modèle. S'il s'agit d'informations sur des lieux et des points de repère, le modèle est plus facile à trouver ; mais s'il s'agit d'informations sur le régime alimentaire et les conditions de santé, le modèle est plus difficile à trouver, et la difficulté augmente d'autant plus que le texte est long :

Relation entre la difficulté à trouver différents types d'informations (regroupement) (performance normalisée) et la longueur du texte

Pour vérifier si le modèle est réellement plus efficace que les devinettes, nous avons comparé les résultats du modèle à ceux d'une "devinette aléatoire". Une "supposition aléatoire" est un morceau de texte aussi long que la question, mais qui ne contient pas d'informations clés. Nous avons constaté quePlus le contexte est long, plus les résultats du modèle se rapprochent d'une supposition à l'aveugle, et c'est presque comme si l'on choisissait un morceau de texte inutile après lui.

Comparaison de la performance du modèle et de la probabilité aléatoire (avec une probabilité de 0,5)

Nous avons également regroupé les données en fonction du type de contenu de l'information clé, puis nous avons examiné les performances du modèle. Les résultats étaient similaires : pour certains types d'informations (par exemple, les restrictions alimentaires), le modèle n'était pas beaucoup plus performant que la devinette, même si le texte n'était pas trop long ; pour d'autres types d'informations (par exemple, les lieux et les points de repère), le modèle était performant, quelle que soit la longueur du texte :

Probabilité que le modèle trouve une réponse par rapport à une supposition aléatoire pour différents types de groupements d'informations

L'inversion de l'énoncé de l'information clé n'a pratiquement aucun effet sur la probabilité que le modèle la trouve. La figure ci-dessous montre à quel point la probabilité que le modèle trouve le texte qui contient correctement l'information clé est supérieure à la probabilité de faire une supposition aléatoire. Examinons séparément les deux énoncés d'informations clés (par défaut et inversé) :

Ordre par défaut ou ordre inverse, quelle est la probabilité que le modèle trouve la réponse plutôt qu'une supposition aléatoire ?

Comme le montre la figure, la tendance de la performance du modèle est similaire dans les deux cas. Par conséquent, nous ne ferons pas de distinction entre les deux cas par la suite.

Le modèle peut-il encore faire la distinction entre les informations utiles et les informations inutiles ?

L'une de nos découvertes les plus importantes concerne la capacité des modèles vectoriels à distinguer les informations utiles des informations inutiles dans des textes de différentes longueurs. Nous avons effectué une "analyse de séparation" et constaté que la capacité du modèle à trouver la bonne réponse diminue très rapidement entre 128 et 1000 éléments de mots. Ensuite, elle continue à baisser, mais à un rythme plus lent.

Relation entre la séparation et la longueur du contexte

Dans les textes courts (128 mots), le modèle distingue clairement les informations utiles des informations inutiles.La séparation moyenne était de 0,1, avec une AUC de 0,81 (c'est-à-dire que le passage contenant la réponse a été classé premier 81 fois sur 100).

Toutefois, lorsque le texte devient plus long, les performances du modèle diminuent considérablementdescendreÀ 1000 mots, la séparation tombe à 0,04 (baisse de 60%) et l'AUC chute à 0,66, ce qui indique que le modèle n'est plus capable de faire la distinction. À 8 000 mots, la séparation est presque nulle (0,001) et l'AUC est proche de 0,5 (comparable à une supposition aléatoire), ce qui signifie que le modèle n'est plus capable de distinguer des informations utiles sur la base des scores de similarité.

La vitesse à laquelle la capacité du modèle à distinguer les informations utiles diminue avec l'augmentation de la longueur du texte est frappante.Alors que le score de similarité brut a baissé d'environ 751 TP3T de 128 à 8000 mots, la métrique de séparation a baissé de près de 991 TP3T et l'ampleur de l'effet a baissé encore plus de 98,61 TP3T !La difficulté des modèles vectoriels à traiter les textes longs ne réside pas seulement dans la réduction des scores de similarité, mais aussi dans la dégradation sévère de la capacité à distinguer les informations utiles des informations inutiles, ce qui est beaucoup plus que ce à quoi nous nous attendions auparavant.

Comment l'emplacement des informations clés influe-t-il sur la difficulté de les trouver ?

En général, il est plus facile de trouver les informations clés en les plaçant en haut du texte. Toutefois, il n'est pas nécessairement vrai que le fait de les placer au milieu les rend plus difficiles à trouver :

L'effet de l'emplacement des informations clés dans des textes de longueurs différentes sur la recherche de ces informations

Les résultats expérimentaux confirment également que les informations clés sont plus faciles à trouver lorsqu'elles sont placées au début. En outre, si le texte est court, il est également plus facile de la trouver lorsqu'elle est placée vers la fin. En revanche, quelle que soit la longueur du texte, il est moins facile de la trouver lorsqu'elle est placée au milieu :

Comparer la probabilité de trouver des informations clés en les plaçant à différents endroits.

Les extensions de requêtes peuvent-elles aider ?

Nous avons récemment publié un blog sur l'"expansion des requêtes". Il s'agit d'une méthode couramment utilisée dans le domaine de la recherche, qui signifie simplement que lorsque vous posez une question, vous ajoutez des mots pertinents à votre question afin de rendre les résultats de la recherche plus précis.

Expansion des requêtes basée sur le LLM : plus d'informations, des recherches plus précises

Depuis l'avènement des modèles vectoriels, la façon dont nous effectuons nos recherches a beaucoup changé. Une méthode comme l'"expansion de requête", qui repose fortement sur l'ajout de vocabulaire, est-elle encore utile à l'ère de l'IA ? Nous pensons que oui.

Dans ce blog, nous avons utilisé le grand modèle (LLM) pour générer des mots étendus, puis nous avons ajouté ces mots au vecteur de requête, et nous avons constaté que les résultats de la recherche étaient bien meilleurs. Nous aimerions maintenant voir si cela est utile pour les tâches de recherche de texte long telles que "trouver une aiguille dans une botte de foin". Par exemple, lorsque vous demandez :

哪个角色去过德累斯顿？

Développons-le avec un grand modèle (Gemini 2.0), ajoutons 100 mots apparentés et il ressemblera probablement à ceci :

哪个角色去过德累斯顿？ 角色：虚构角色 文学角色 主角 反派 人物 角色 身份 剧中人物

德累斯顿：德国德累斯顿；二战德累斯顿轰炸 历史小说 库尔特·冯内古特 《五号屠宰场》 萨克森州城市 易北河 文化地标

去过：访问过 去过 曾到过 出现于 出现于 特征为 设定在 发生于 地点 背景

Quelle est l'utilité des extensions de requêtes ?

Nous avons effectué une expérience qui a généré trois ensembles de requêtes élargies, chacune avec 100, 150 et 250 mots ajoutés (pour plus de détails sur la façon de les ajouter, consultez cet article). Nous avons ensuite réalisé l'expérience précédente trois fois de plus, avec à chaque fois un ensemble différent de requêtes élargies.

Il s'avère que, quel que soit le nombre de mots ajoutés, dès que le texte est long, les performances du modèle tirent vers le bas, à peu près comme lorsqu'aucune expansion de requête n'est utilisée :

Performances du modèle agrégé pour différents scénarios d'expansion des requêtes

Par rapport au problème sans l'extension, tous les cas où des mots sont ajoutés, c'est la même histoire :Plus le texte est long, moins la performance est bonne. De plus, cette baisse reste irrégulière et c'est entre 128 mots et 1 000 mots qu'elle est la plus forte :

La probabilité que le modèle trouve la bonne réponse pour différents scénarios d'expansion de la requête.

Cependant ! Un examen plus approfondi de la mesure du "ratio de comparaison" montre que l'expansion des requêtes est toujours utile :Il permet au modèle de trouver plus facilement un texte contenant des informations clés. Sans expansion de la requête, le modèle est à peu près aussi performant qu'une estimation aléatoire de la longueur de 8 000 éléments lexicaux.

Comment interpréter les résultats d'une expansion de requête ?

Ces résultats sont cohérents avec l'article de NoLiMa et nos conclusions précédentes sur l'expansion des requêtes. Ils peuvent être interprétés comme suit :

Il est préférable d'ajouter des mots avec modérationL'effet de l'ajout de 100 mots est meilleur que celui de l'ajout de 150 ou 250 mots, ce qui signifie que lors de l'expansion de la requête, il y a un certain degré d'ajout de mots, et l'ajout d'un trop grand nombre de mots apportera du bruit sémantique au lieu de signaux, ce qui interférera avec le jugement du modèle. Lorsque l'on ajoute 250 mots, il est très probable que l'on ajoute des termes peu pertinents par rapport à la question, et ces mots ne seront d'aucune utilité dans un texte long.
Les textes longs restent un défi majeurLe modèle actuel basé sur l'attention présente un goulot d'étranglement fondamental lorsqu'il s'agit d'un texte long. L'architecture actuelle du modèle basé sur l'attention présente un goulot d'étranglement fondamental lorsqu'il s'agit de textes longs, un problème qui ne peut être résolu en ajoutant simplement quelques mots.
La sensibilisation aux demandes de renseignements a encore de la valeurBien que le défi du texte long n'ait pas pu être complètement surmonté, le ratio de comparaison a toujours été supérieur à 0,5, ce qui suggère que l'expansion de la requête est toujours efficace. Même avec un texte long de 8 000 mots, les questions d'expansion de requête ont plus de chances de trouver la bonne réponse que les devinettes aléatoires. Cela nous incite à penser que l'expansion des requêtes reste un moyen potentiel d'améliorer la capacité de traitement des textes longs par les modèles vectoriels, ce qui mérite d'être exploré plus avant.

Impact de la correspondance littérale sur les modèles vectoriels ?

Dans les expériences précédentes, pour mesurer la capacité du modèle vectoriel à effectuer une "inférence à un saut" dans un texte long, nous avons délibérément évité toute répétition littérale entre les questions et les informations clés. Les résultats montrent que même avec l'expansion des requêtes, la capacité du modèle à trouver des informations pertinentes dans un texte long se détériore. Ce phénomène est intéressant. En principe, le modèle vectoriel devrait être capable d'effectuer ce type de raisonnement tout seul, sans aide supplémentaire. Après tout, nous venons de remplacer "Dresde" par "Opéra Semper", ce qui revient à remplacer un mot par un autre similaire.

Quelle est donc l'importance de la correspondance littérale dans la correspondance sémantique ? Ou bien la longueur du texte a-t-elle un impact plus important ? Pour le savoir, nous avons remanié l'expérience de manière à ce qu'il y ait des répétitions littérales entre les messages clés et les questions, par exemple :

QUESTION : "Quel personnage est allé à Dresden ?"
Message clé (par défaut) : "En fait, Yuki vit à Dresde".
Message clé (inversé) : "C'est à Dresde que vit Yuki".

Notez que nous donnons ici l'information "Yuki habite à Dresde" directement, au lieu de demander au lecteur de déduire "L'opéra Semper se trouve à Dresde, donc les personnes qui habitent dans le voisinage sont allées à Dresde", comme c'était le cas auparavant.

Nous avons transformé les 22 groupes de questions et de messages clés en une forme simple, puis nous avons utilisé le même modèle vectoriel. jina-embeddings-v3 L'expérience a été renouvelée, en essayant différentes longueurs de texte et différents emplacements pour les informations clés.

Performance de normalisation en fonction de la longueur du contexte

Performance du modèle par rapport à une supposition aléatoire (0,5)

Ratios comparatifs à différents endroits

Les résultats sont inattendus. Même si la question et la réponse contiennent les mêmes mots, la capacité du modèle à distinguer la bonne réponse d'une supposition aléatoire diminue rapidement dès que le texte est long. Bien sûr, elle reste légèrement meilleure que dans le cas où il n'y a pas du tout de mots identiques.

Cela démontre en fin de compte que la longueur du contexte et l'emplacement de l'information clé dans celui-ci ont un impact plus important sur les performances du modèle vectoriel dans la tâche "une aiguille dans une botte de foin" que la formulation spécifique de l'information clé (représentation sémantique).

rendre un verdict

Dans l'ensemble, les conclusions de nos expériences avec les modèles vectoriels sont cohérentes avec les expériences de NoLiMA avec les grands modèles de langage : plus le texte est long, plus il est difficile pour le modèle de trouver la bonne réponse. Nos expériences montrent également que même si les mots-clés de la question et de la réponse sont exactement les mêmes, le modèle ne trouve pas toujours la bonne réponse.

Nos résultats expérimentaux sont tout à fait cohérents avec les conclusions de l'article NoLiMA sur le LLM :Pour les modèles vectoriels, la longueur du contexte est un facteur clé dans les performances de recherche.Plus le texte est long, plus il est difficile pour le modèle de trouver la bonne réponse. Même si les mots-clés de la question et de la réponse sont exactement les mêmes, le modèle ne trouve pas toujours la bonne réponse.

Les performances diminuent fortement avec la longueurLe modèle jina-embeddings-v3 est performant sur les textes courts (128 mots), mais ses performances chutent rapidement sur les textes longs. Le score de similarité normalisé passe de 0,37 à 128 mots à 0,10 à 8K mots et, plus important encore, la capacité du modèle à distinguer les informations pertinentes de celles qui ne le sont pas (ce que nous appelons la "séparation") disparaît presque complètement.
Le "raisonnement par bonds" est difficile.Même avec des textes courts, les performances du modèle se détériorent considérablement s'il n'y a pas de chevauchement littéral direct entre la question et la réponse. Cela suggère que le modèle vectoriel a des difficultés avec le "raisonnement à un saut" (par exemple, déduire "a été à Dresde" de "vit à côté de l'opéra Semper").
Les extensions de requêtes sont utiles, mais elles ne font pas toutL'expansion des requêtes peut améliorer les performances de recherche dans une certaine mesure, en particulier pour les textes longs, ce qui permet au modèle d'être plus performant que les suppositions aléatoires. Cependant, elle ne résout pas complètement les problèmes posés par les textes longs, et les performances continueront à baisser au fur et à mesure que le texte s'allonge. En outre, l'ajout de mots doit être effectué avec précaution, car les mots non pertinents introduisent un bruit sémantique et réduisent les performances.
La correspondance littérale n'est pas la cléMême s'il y a les mêmes mots-clés dans la question et dans la réponse, si le texte est long, le modèle ne peut toujours pas trouver la réponse. Cela montre que la position de la réponse dans le texte a un impact plus important sur la capacité du modèle à trouver la réponse que la façon dont la réponse est formulée et la longueur du texte.

Dans l'ensemble, nos recherches suggèrent que les jina-embeddings-v3 Un tel modèle vectoriel, qui est efficace pour traiter les textes courts, n'est toujours pas capable de traiter les textes longs qui nécessitent une compréhension plus approfondie de la sémantique. Cela nous incite à continuer d'explorer des techniques plus efficaces pour la recherche de textes longs, et nous espérons qu'à l'avenir, le modèle vectoriel sera plus efficace. jina-embeddings-v4 Il y a une percée dans.