PRAG: инструмент генерации параметрических дополнений для повышения производительности систем вопросов и ответов

Общее введение

PRAG (Parametric Retrieval-Augmented Generation) - это инновационный инструмент генерации с расширенным поиском, разработанный для улучшения генерации путем встраивания внешних знаний непосредственно в пространство параметров большой языковой модели (LLM). Инструмент преодолевает ограничения традиционных методов контекстуального поиска и дополненной генерации, снижает вычислительные накладные расходы и расширяет возможности модели по рассуждению и синтезу за счет глубокой интеграции внешних знаний. PRAG предоставляет комплексную реализацию, включая модуль расширения данных, модуль обучения параметров и модуль вывода для тестирования производительности на различных наборах данных для викторины.

PRAG:提升问答系统性能的参数化检索增强生成工具

 

Список функций

  • Модуль расширения данных: Преобразование документов в наборы данных с расширенными возможностями.
  • Модуль обучения параметрам: Обучение дополнительным параметрам LoRA для создания параметрического представления документа.
  • модуль вывода: Слияние параметризованных представлений связанных документов и вставка их в LLM для вывода.
  • Установка среды: Предоставляет подробную информацию о шагах по установке среды и зависимостях.
  • самосовершенствование: Поддерживает прямое использование предварительно улучшенных файлов данных или самостоятельную обработку улучшенных данных.
  • Подготовка к поиску: Загрузка и подготовка наборов данных Википедии к поиску.

 

Использование помощи

Установка среды

  1. Создайте и активируйте виртуальную среду:
   conda create -n prag python=3.10.4
conda activate prag
  1. Установите необходимые зависимости:
   pip install torch==2.1.0
pip install -r requirements.txt
  1. модификации src/root_dir_path.py попал в точку ROOT_DIR переменная - это адрес папки, в которой хранится PRAG.

Расширение данных

  1. Используйте предварительно улучшенные файлы данных:
   tar -xzvf data_aug.tar.gz
  1. Самостоятельная обработка данных:
    • Загрузите набор данных Википедии: bash
      mkdir -p data/dpr
      wget -O data/dpr/psgs_w100.tsv.gz https://dl.fbaipublicfiles.com/dpr/wikipedia_split/psgs_w100.tsv.gz
    • намерение BM25 Извлечено: bash
      # 具体步骤请参考项目文档

параметрическое обучение

  1. Создайте параметризованное представление документа:
   # 具体步骤请参考项目文档

вывод

  1. Параметризованные представления связанных документов объединяются и вставляются в LLM для вывода:
   # 具体步骤请参考项目文档
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...