PRAG: Herramienta paramétrica de generación de aumentos de recuperación para mejorar el rendimiento de los sistemas de preguntas y respuestas.

Introducción general

PRAG (Parametric Retrieval-Augmented Generation) es una innovadora herramienta de generación aumentada por recuperación diseñada para mejorar la generación integrando conocimientos externos directamente en el espacio de parámetros de un modelo de lenguaje amplio (LLM). La herramienta supera las limitaciones de los métodos tradicionales de recuperación contextual y generación aumentada, reduce la carga computacional y mejora las capacidades de razonamiento y síntesis del modelo integrando profundamente el conocimiento externo. PRAG proporciona implementaciones integrales que incluyen un módulo de mejora de datos, un módulo de entrenamiento de parámetros y un módulo de inferencia para probar el rendimiento de varios conjuntos de datos de pruebas.

PRAG:提升问答系统性能的参数化检索增强生成工具

 

Lista de funciones

  • Módulo de mejora de datos: Convierte documentos en conjuntos de datos mejorados.
  • Módulo de formación de parámetros: Entrena parámetros LoRA adicionales para generar una representación parametrizada del documento.
  • módulo de inferencia: Fusiona representaciones parametrizadas de documentos relacionados y las inserta en el LLM para su inferencia.
  • Instalación medioambiental: Proporciona pasos detallados de instalación del entorno y dependencias.
  • superación personalPermite el uso directo de archivos de datos preprocesados o de datos autoprocesados.
  • Preparación de la búsqueda: Descarga y preparación de conjuntos de datos de Wikipedia para su recuperación.

 

Utilizar la ayuda

Instalación medioambiental

  1. Crear y activar un entorno virtual:
   conda create -n prag python=3.10.4
conda activate prag
  1. Instale las dependencias necesarias:
   pip install torch==2.1.0
pip install -r requirements.txt
  1. modificaciones src/root_dir_path.py ha dado en el clavo ROOT_DIR es la dirección de la carpeta donde se almacena el PRAG.

Mejora de los datos

  1. Utilizar archivos de datos previamente mejorados:
   tar -xzvf data_aug.tar.gz
  1. Mejora de los datos autoprocesados:
    • Descargar el conjunto de datos de Wikipedia: bash
      mkdir -p data/dpr
      wget -O data/dpr/psgs_w100.tsv.gz https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz
    • intente BM25 Recuperado: bash
      # 具体步骤请参考项目文档

formación paramétrica

  1. Generar una representación parametrizada del documento:
   # 具体步骤请参考项目文档

inferencia

  1. Las representaciones parametrizadas de documentos relacionados se fusionan y se insertan en el LLM para su inferencia:
   # 具体步骤请参考项目文档
© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...