RIG (Retrieval Interleaved Generation) : stratégie d'extraction consistant à écrire tout en cherchant, adaptée à l'interrogation de données en temps réel.

Base de connaissances sur l'IAPosté il y a 7 mois Cercle de partage de l'IA

14.8K 00

Cœur de la technologie : la génération entrelacée de récupération (RIG)

Qu'est-ce que le RIG ?
RIG est une méthodologie générative innovante conçue pour résoudre le problème de l'hallucination dans le traitement des données statistiques par de grands modèles de langage. Alors que les modèles traditionnels peuvent générer des chiffres ou des faits inexacts à partir de rien, RIG garantit l'authenticité des données en insérant des requêtes vers des sources de données externes dans le processus de génération.
Principe de fonctionnement : :
- Lorsque le modèle reçoit une question nécessitant des statistiques, il appelle dynamiquement Data Commons (une base de connaissances de données publiques alimentée par Google) pour générer la réponse.
- Les résultats de la requête sont intégrés dans la sortie en langage naturel, par exemple :[DC("Quelle est la population de la France ?") --> "67 millions"].
- Cette "imbrication de l'extraction et de la génération" permet au modèle de conserver sa fluidité linguistique tout en fournissant des informations statistiques validées.

Détails du modèle

modèle de base Gemma 2 (version 27B), un modèle linguistique open source efficace conçu pour la recherche et l'expérimentation.
Affiner les objectifs Les utilisateurs sont formés spécifiquement pour reconnaître quand les données communes doivent être interrogées et pour intégrer ces données de manière transparente dans le processus de génération.
Entrées et sorties : :
- Entrée : toute invite textuelle (telle qu'une question ou une déclaration).
- Résultat : texte en anglais, pouvant contenir des résultats de recherche Data Commons intégrés.
multilinguisme La langue principale est l'anglais ("it" peut signifier "instruction-tuned", c'est-à-dire une version adaptée aux instructions, mais la page ne précise pas la gamme de langues).

scénario d'application

utilisateur cible Les chercheurs universitaires, les scientifiques des données.
utiliser Les statistiques de la population d'un pays, les émissions globales de CO2 d'une année donnée, etc.
contrainte : Il s'agit actuellement d'une version préliminaire, réservée à des testeurs de confiance et non recommandée pour des environnements de production ou un usage commercial.

Modèles :https://huggingface.co/google/datagemma-rig-27b-it

Texte original :https://arxiv.org/abs/2409.13741

Processus de réalisation du RIG

RIG est une approche qui associe la recherche et la génération, dans le but d'améliorer la précision des résultats générés en demandant à LLM de générer des requêtes en langage naturel pour extraire des données de Data Commons. Voici les étapes détaillées de la mise en œuvre de RIG :

1. Mise au point du modèle (Mise au point du modèle)

les objectifsPour le LLM, il s'agit d'apprendre à générer des requêtes en langage naturel qui peuvent être utilisées pour extraire des statistiques de Data Commons.

déplacer: :

Requête initiale et générationLLM : Lorsque LLM reçoit une requête statistique, il génère généralement un texte contenant une réponse numérique. Nous nous référerons à cette réponse numérique commeValeurs statistiques générées par LLM (LLM-SV)Par exemple, pour la requête "Quelle est la population totale de la Californie ? Par exemple, pour la requête "Quelle est la population totale de la Californie ?", LLM pourrait générer "La population totale de la Californie est d'environ 39 millions d'habitants". LLM pourrait générer "La population totale de la Californie est d'environ 39 millions d'habitants".
Identification des données pertinentesLe texte généré par le LLM doit permettre d'identifier les données les plus pertinentes de la base de données Data Commons afin de les mettre à la disposition des utilisateurs en tant que mécanisme de vérification des faits. Nous appelons cette valeur récupéréeValeurs statistiques de Data Commons (DC-SV).
Générer des requêtes en langage naturelPour ce faire, nous affinons LLM de manière à ce qu'il génère une requête en langage naturel décrivant LLM-SV en même temps que LLM-SV. Cette requête sera utilisée pour récupérer les données de Data Commons.

Figure 1 : Comparaison des réponses aux requêtes ; Gemma de base (Gemma 7B IT, Gemma 2 27B IT) non interfacé avec Data Commons, et réponses Retrieve Interleaved Generation (RIG).
Figure 1Le modèle RIG génère non seulement les valeurs statistiques, mais aussi les requêtes utilisées pour la recherche.
Ensemble de données de formationNous utilisons un ensemble de données commande-réponse contenant environ 700 requêtes d'utilisateurs pour le réglage fin. Pour chaque requête, nous sélectionnons les réponses générées par le modèle de base contenant des données statistiques (environ 400 exemples) et utilisons un LLM plus puissant (par exemple Gemini 1.5 Pro) pour générer des appels Data Commons en langage naturel.
exemple typique: :
- consulter (un document, etc.)Donnez-moi une statistique sur la Californie, San Francisco, l'Alabama et les États-Unis.
- réponse brute: :
  - La Californie est le premier État le plus peuplé du pays, avec environ 39 millions d'habitants en 2020.
  - À San Francisco, le taux de diabète est de 9,2 cas pour 10000 habitants.
  - ...
- Une réponse ajustée: :
  - La Californie est le premier État le plus peuplé du pays, avec environ [DC("quelle était la population de la Californie en 2020 ?") --> "39 millions"] personnes.
  - À San Francisco, le taux de diabète est [DC("quelle est la prévalence du diabète à San Francisco ?") --> "9,2 cas pour 10000 personnes"].
  - ...

2. Conversion des requêtes

les objectifs: Convertit les requêtes en langage naturel générées par LLM en requêtes structurées pour extraire des données de Data Commons.

déplacer: :

décomposer une requêteDécomposer la requête en langage naturel en plusieurs éléments :
- Variables ou thèmes statistiques: : par exemple, "Taux de chômage", "Démographie", etc.
- sitesPar exemple, "Californie".
- causalité: : par exemple, "classement", "comparaison", "taux de changement", etc.
Cartographie et identificationLes composants de la base de données Data Commons sont les suivants : l'indexation de la recherche sémantique basée sur l'intégration pour identifier les variables statistiques et la reconnaissance des entités nommées basée sur les chaînes de caractères pour identifier les lieux, par exemple.
Correspondance des catégories et des modèlesClassification des requêtes : classer les requêtes dans un ensemble fixe de modèles de requêtes sur la base des composants identifiés. Exemple :
- Combien de XX dans YY（YY有多少XX）)
- Quelle est la corrélation entre XX et YY à travers ZZ dans AA (Quelle est la corrélation entre XX et YY à travers ZZ dans AA)
- Quels sont les XX dans YY qui ont le plus grand nombre de ZZ (YY中哪些XX的ZZ数量最多)
- Quels sont les XX les plus importants dans YY（YY中最显著的XX是什么 35 quels sont les XX les plus importants dans YY 34)
Figure 2 : Comparaison des méthodes de référence, RIG et RAG pour générer des réponses avec des statistiques. L'approche de base rapporte directement des statistiques sans fournir de preuves, tandis que RIG et RAG utilisent Data Commons pour fournir des données faisant autorité.
Figure 2L'approche RIG génère des étiquettes statistiques en les intercalant avec des questions en langage naturel adaptées à la recherche dans Data Commons.
Exécution de la requêteLes données structurées sont extraites à partir de modèles de requête et d'identifiants de variables et de lieux, en faisant appel à l'API de données structurées de Data Commons.

3. Exécution

les objectifsLes données extraites sont présentées à l'utilisateur avec les valeurs statistiques générées par le LLM.

déplacer: :

Présentation des donnéesLes réponses renvoyées par Data Commons sont présentées à l'utilisateur en même temps que les statistiques générées par le LLM original. Les utilisateurs ont ainsi la possibilité de vérifier les faits dans le cadre du LLM.

Figure 3 : Outil d'évaluation du RIG. Cette figure montre des captures d'écran des deux phases d'évaluation, affichées côte à côte. Il y a deux panneaux pour chaque étape. À gauche, l'utilisateur voit l'intégralité de la réponse évaluée (exclue dans l'image ci-dessus pour gagner de la place). Sur le côté droit se trouve la tâche d'évaluation. À l'étape 1, l'évaluateur effectue un contrôle rapide pour détecter toute erreur évidente. À l'étape 2, l'évaluateur évalue chaque statistique présente dans la réponse.
Figure 3Démontre le processus d'utilisation de l'outil d'évaluation RIG. L'évaluateur peut rapidement vérifier s'il y a des erreurs évidentes et évaluer chaque statistique présente dans la réponse.
expérience utilisateurIl y a plusieurs façons de présenter ce nouveau résultat, comme la présentation côte à côte, la mise en évidence des différences, les notes de bas de page, les actions au passage de la souris, etc.

résumés

Le processus de mise en œuvre du RIG comprend les étapes clés suivantes :

Modélisation de la mise au pointLLM : Laisser LLM générer des requêtes en langage naturel qui décrivent les valeurs statistiques générées par LLM.
Conversion des requêtes: Convertit les requêtes en langage naturel en requêtes structurées pour extraire des données de Data Commons.
Extraction et présentation des donnéesLe système de gestion de l'information (LLM) permet d'extraire des données de Data Commons et de les présenter à l'utilisateur avec les statistiques générées par LLM.

Grâce à ces étapes, la méthode RIG combine efficacement les capacités génératives de LLM avec les ressources de données de Data Commons, améliorant ainsi la précision de LLM dans le traitement des requêtes statistiques.