DeepRetrieval: эффективное формирование запросов в информационном поиске на основе обучения с подкреплением

База знаний по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

37.1K 00

рефераты

Информационно-поисковые системы имеют решающее значение для эффективного доступа к большим коллекциям документов. Последние подходы используют большие языковые модели (БЯМ) для повышения эффективности поиска за счет улучшения запросов, но обычно опираются на дорогостоящие методы контролируемого обучения или дистилляции, которые требуют значительных вычислительных ресурсов и вручную маркированных данных. В этой статье мы представляем DeepRetrieval - новый подход, основанный на обучении с подкреплением, который позволяет напрямую обучать LLM для улучшения запросов методом проб и ошибок без необходимости использования контролируемых данных. Используя запоминание результатов поиска в качестве сигнала вознаграждения, наша система учится генерировать эффективные запросы, чтобы максимизировать производительность поиска документов. Наши предварительные результаты показывают, что DeepRetrieval достигает отзыва 60,821 TP3T в задаче поиска по публикациям и 70,841 TP3T в задаче экспериментального поиска, используя при этом меньшую модель (3B против 7B параметров) и без каких-либо контролируемых данных. Эти результаты свидетельствуют о том, что наш подход к обучению с подкреплением обеспечивает более эффективную и действенную парадигму для поиска информации, которая может изменить ландшафт систем поиска документов.

Автор: Чэнцзян Пэн (факультет компьютерных наук, UIUC)

Оригинал: https://arxiv.org/pdf/2503.00223

Кодовый адрес: https://github.com/pat-jj/DeepRetrieval

1. Введение

Системы информационного поиска (IR) играют важнейшую роль, помогая пользователям находить нужные документы в больших коллекциях документов. Традиционные подходы к ИР опираются на сопоставление ключевых слов и статистические методы, которые часто не в состоянии понять семантический смысл, стоящий за запросами пользователей. Недавние достижения в области больших языковых моделей (LLM) показали перспективность решения этих проблем путем расширения запросов (Bonifacio et al., 2022), когда LLM расширяют или переформулируют запросы пользователей, чтобы лучше находить релевантные документы.

Однако существующие методы улучшения запросов на основе LLM обычно используют методы контролируемого обучения или дистилляции, которые имеют ряд существенных ограничений:

Для получения обучающих данных требуются дорогостоящие вычислительные ресурсы, стоимость которых зачастую составляет тысячи долларов.
Качество расширенных запросов зависит от качества данных наблюдения.
Они опираются на более крупные модели для получения данных для более мелких моделей, что вносит потенциальные погрешности и ограничения.

В этой работе мы представляем DeepRetrieval, новый подход, который использует обучение с подкреплением (RL) для обучения LLM для улучшения запросов. В отличие от подходов, основанных на контролируемых данных, DeepRetrieval позволяет моделям обучаться путем прямых проб и ошибок, используя отзывы о запросах в качестве сигнала вознаграждения. Этот подход имеет несколько ключевых преимуществ:

Нет необходимости в дорогостоящей генерации данных под наблюдением

DeepRetrieval：强化学习驱动的高效信息检索查询生成 Рисунок 1: DeepRetrieval: LLM генерирует расширенные запросы для поиска документов. Вычисляется результат и используется в качестве вознаграждения для обновления модели.

Оптимизированы непосредственно для достижения конечной цели (эффективность отзыва)
Способность обучаться эффективным стратегиям без демонстрации со стороны человека

Наши предварительные результаты показывают, что DeepRetrieval значительно превосходит существующие современные методы, включая недавно созданную систему LEADS (Wang et al., 2025), достигая показателя recall 60,821 TP3T в задаче поиска публикаций и 70,841 TP3T в задаче поиска испытаний. Стоит отметить, что эти результаты были получены на меньшей модели (3B параметров) по сравнению с LEADS (7B параметров) и без каких-либо контролируемых данных, что подчеркивает эффективность и результативность нашего подхода.

2. Методология

Наш подход DeepRetrieval опирается на последние достижения в области обучения с подкреплением для LLM, применяя эту парадигму к конкретной задаче информационного поиска - улучшению запросов. Наш подход напрямую вдохновлен проектом DeepSeek-R1-Zero (DeepSeek-AI et al., 2025), который продемонстрировал, что RL можно использовать для обучения моделей с расширенными возможностями рассуждений, не полагаясь на контролируемые данные. На рисунке 1 показана общая архитектура нашей системы.

2.1 Формулировка проблемы

найдено D это коллекция документов.q по запросам пользователей. Цель информационно-поисковой системы - возвращать ту же информацию, что и q Подмножество связанных документов D_q⊂ D . При расширении запроса исходный запрос q Преобразование в расширенный запрос q'Запрос более эффективен для получения релевантных документов.

Традиционно этот процесс дополнения изучается с помощью контролируемого обучения, где (q,q') пары предоставляются в качестве обучающих данных. В отличие от этого, наш подход использует обучение с подкреплением, где модель учится генерировать правильные дополненные запросы методом проб и ошибок, подобно тому, как DeepSeek-R1-Zero учится решать задачи вывода.

2.2 Рамки расширенного обучения

Мы формулируем задачу улучшения запросов как задачу обучения с усилением:

положение дел: Оригинальный запрос пользователя q
движение: Расширенные запросы, генерируемые моделью q'
стимулы: Использование q' Вспоминание, достигнутое при поиске документов

Модели обучаются так, чтобы максимизировать ожидаемое вознаграждение, т. е. генерировать дополненные запросы, которые достигают высокого уровня запоминания. Такая прямая оптимизация конечной цели отличается от подходов с супервизией, которые оптимизируют улучшения, аналогичные тем, которые генерируются искусственно созданными или более крупными моделями.

2.3 Архитектура модели и структура выходных данных

Мы используем Qwen-2.5-3B-Instruct (Yang et al., 2024) в качестве базового LLM для нашей системы. Модель принимает запросы пользователя в качестве входных данных и генерирует дополненные запросы. Модель структурирована таким образом, что сначала генерируются шаги рассуждения в секциях, а затем генерируется окончательный дополненный запрос в формате JSON в секциях. Такая структурированная генерация позволяет модели учитывать все аспекты запроса и исследовать различные стратегии улучшения, прежде чем выработать окончательный ответ.

В наших предварительных экспериментах мы сосредоточились на поиске медицинской литературы с использованием профессиональных подсказок, основанных на системе PICO (подробнее см. приложение А). Для совместимости с поисковой системой формат JSON требует группировки с использованием булевых операторов (AND, OR) и соответствующих скобок. Однако наш подход является универсальным и может быть применен к традиционным наборам данных IR с соответствующими изменениями в форматах подсказок и запросов.

2.4 Механизмы стимулирования

Наша функция вознаграждения направлена непосредственно на оптимизацию производительности поиска. Процесс происходит следующим образом:

Модель генерирует расширенные запросы в ответ на запросы в рамках PICO.
Выполнение расширенных запросов к коллекциям документов (PubMed или ClinicalTrials.gov).
Рассчитайте отзыв как процент найденных релевантных документов.
Композитные премии рассчитываются на основе следующих показателей:
- Корректность форматирования (структура JSON, правильная маркировка)
- Определите скорость отзыва, чем выше скорость отзыва, тем выше вознаграждение.

В частности, наша функция вознаграждения использует иерархическую систему оценок, основанную на отзывах, как показано в таблице 1.

скорость отзыва	≥ 0.7	≥ 0.5	≥ 0.4	≥ 0.3	≥ 0.1	≥ 0.05	< 0.05
стимулы	+5.0	+4.0	+3.0	+1.0	+0.5	+0.1	-3.5

Таблица 1: Уровни вознаграждения в зависимости от эффективности отзыва. При более высоких показателях вспоминаемости вознаграждение значительно выше, что стимулирует модель генерировать более эффективные запросы.

Кроме того, за правильное форматирование начисляется +1 балл, а за неправильное -4 балла. Важно отметить, что если формат неправильный (отсутствуют теги, неверная структура JSON и т. д.), бонус за ответ не начисляется вообще, а начисляется только штраф за формат. Такая структура вознаграждения стимулирует модель генерировать хорошо отформатированные запросы, которые максимизируют запоминание и при этом придерживаются желаемого формата вывода.

2.5 Процесс обучения

Наш процесс обучения проходит по следующим этапам:

Инициализируйте модель, используя предварительно обученные веса.
Для каждого запроса в обучающем наборе:
1. Создавайте расширенные запросы.
2. Выполнение запросов к поисковой системе.
3. Рассчитайте коэффициент отзыва (процент найденных релевантных документов).
4. Используйте вознаграждения, основанные на отзывах, для обновления модели.
Повторяйте до сходимости.

Этот процесс позволяет модели обучаться эффективным стратегиям улучшения запросов непосредственно на основе результатов поиска без явного контроля. Модель постепенно улучшает свою способность преобразовывать запросы в рамках PICO в правильные поисковые термины, чтобы максимально увеличить количество найденной релевантной медицинской литературы.

3. Эксперименты

3.1 Наборы данных

Мы оцениваем наш подход на двух задачах поиска медицинской литературы:

Поиск публикаций: Получение релевантных медицинских публикаций из PubMed на основе запросов пользователей, выраженных в рамках PICO.
Тестовый поиск: Получение релевантных клинических исследований с сайта ClinicalTrials.gov на основе аналогичного запроса в рамках PICO.

Эти наборы данных представляют особую сложность для информационно-поисковых систем из-за специальной терминологии и сложных взаимосвязей в медицинской литературе. Для каждого запроса у нас есть набор истинных связанных документов (идентифицированных по их PMID), которые должны быть идеально найдены по расширенному запросу.

3.2 Оценка показателей

В качестве основной метрики оценки мы используем recall, которая измеряет долю найденных релевантных документов. В частности, мы сообщаем:

Частота повторных обращений (поиск публикаций): Процент найденных релевантных публикаций.
Коэффициент запоминания (пробные поиски): Процент найденных релевантных клинических исследований.

3.3 Базовый уровень

Мы сравниваем наш подход с несколькими базовыми версиями:

GPT-4o: Различные конфигурации (нулевой образец, меньший образец, ICL, ICL + меньший образец).
GPT-3.5: Различные конфигурации (нулевой образец, меньший образец, ICL, ICL + меньший образец).
Хайку-3: Различные конфигурации (нулевой образец, меньший образец, ICL, ICL + меньший образец).
Мистраль-7B (Цзян и др., 2023): Нулевой образец конфигурации.
LEADS (Wang et al., 2025): Современный метод поиска медицинской литературы для обучения дистилляции на аппарате "Мистраль-7Б".

3.4 Детали реализации

Мы используем фреймворк VERL¹Реализована DeepRetrieval, реализация с открытым исходным кодом фреймворка HybridFlow RLHF (Sheng et al., 2024).

Наша учебная конфигурация использует оптимизацию проксимальной политики (PPO) со следующими ключевыми параметрами:

базовая модель: Qwen-2.5-3B-Instruct (Yang et al., 2024).

DeepRetrieval：强化学习驱动的高效信息检索查询生成 Рисунок 2: Динамика обучения DeepRetrieval. Расчет Recall основан на результатах поиска в PubMed во время обучения.

PPO малый размер партии: 16.
Размер микропакета PPO: 8.
скорость обучения: Актер 1e-6, Критик 1e-5.
KL-фактор:: 0.001.
Максимальная длина последовательности: И подсказки, и ответы стоят 500 жетонов.

Мы обучили модель на двух NVIDIA A100 80GB PCIe, используя стратегию FSDP с включенными градиентными контрольными точками для оптимизации использования памяти. Процесс обучения выполнялся в течение 5 циклов.

Как показано на рисунке 2, динамика обучения демонстрирует постоянное улучшение показателей производительности по мере обучения. Средняя награда (вверху слева) демонстрирует устойчивую тенденцию к росту, начиная с отрицательных значений, но быстро становясь положительной и продолжая улучшаться на протяжении всего обучения. В то же время коэффициент неправильных ответов (вверху посередине) и коэффициент ошибок форматирования (вверху справа) значительно уменьшаются, что свидетельствует о том, что модель учится генерировать хорошо структурированные запросы для получения релевантных документов.

Самым заметным улучшением стало последовательное увеличение всех пороговых значений отзыва. Доля запросов, достигающих высоких значений запоминания (≥0,5, ≥0,7), неуклонно росла, причем самый высокий порог запоминания (≥0,7) вырос с почти нуля до ~0,25 к концу обучения. Средний порог запоминания (≥0,4, ≥0,3) показал еще более сильный рост до ~0,6-0,7, а нижние пороги запоминания (≥0,1, ≥0,05) быстро приблизились и стабилизировались около 0,8- 0,9. Этот прогресс наглядно демонстрирует, как обучение с подкреплением может постепенно повышать способность модели генерировать эффективные запросы, напрямую оптимизируя производительность поиска.

4. Результаты

4.1 Основные результаты

В таблице 2 представлены основные результаты экспериментов. DeepRetrieval достиг показателя recall 60,821 TP3T в задаче поиска публикаций и 70,841 TP3T в задаче поиска испытаний, значительно превзойдя все базовые версии, включая современную систему LEADS.

4.2 Анализы

Из наших результатов следует несколько ключевых наблюдений:

превосходная производительностьDeepRetrieval значительно превосходит LEADS в задаче поиска публикаций (60,821 TP3T против 24,681 TP3T) и в задаче поиска испытаний (70,841 TP3T против 32,111 TP3T), хотя и использует меньшую модель (3B против 7B параметров).
экономическая эффективность: В отличие от LEADS, требующей дорогостоящей дистилляции (по оценкам, более 10 000 долларов США за генерацию обучающих данных), DeepRecallal не нуждается в контролируемых данных, что делает его значительно более экономичным.
универсальность: Устойчивая производительность в задачах поиска публикаций и экспериментальных задачах показывает, что наш подход обладает хорошей универсальностью в различных поисковых сценариях.
Эффективность структурированной генерации: Используя /structure, модель способна продумать сложные запросы, прежде чем выработать окончательный ответ, что повышает общее качество.

5. Обсуждение

5.1 Почему обучение с подкреплением работает

Высокую производительность DeepRetrieval можно объяснить несколькими факторами:

Прямая оптимизация: Непосредственно оптимизируя запоминание, модель учится генерировать запросы, пригодные для поиска, а не запросы, соответствующие какому-то заранее заданному шаблону.
исследования: Механизмы обучения с подкреплением позволяют моделям исследовать широкий спектр стратегий улучшения запросов, потенциально обнаруживая эффективные методы, которые могут отсутствовать в контролируемых данных.
адаптивное обучение: Вместо универсального подхода модель может адаптировать свою стратегию улучшения к конкретным характеристикам запроса и коллекции документов.
структурированное рассуждение: Двухэтапный подход к генерации с использованием отдельных компонентов "думать" и "отвечать" позволяет модели проработать пространство вопросов перед отправкой окончательного запроса.

5.2 Ограничения и будущая работа

Хотя наши первые результаты многообещающие, все же есть некоторые ограничения и направления для дальнейшей работы:

Оценка на классических наборах данных IR: Наши текущие эксперименты сосредоточены на поиске медицинской литературы с использованием фреймворка PICO. Следующим важным шагом будет оценка DeepRecallal на стандартных эталонных тестах IR (например, MS MARCO, TREC и BEIR), чтобы проверить его эффективность в более общих сценариях поиска.
Сравнение с более современными методами: Дополнительные сравнения с новейшими методами улучшения запросов позволят подтвердить наши выводы.
Расширения модели: Изучение того, как меняется производительность при использовании больших моделей, позволяет понять компромисс между размером модели и производительностью поиска.
Поощрительные работыИсследование более сложных функций вознаграждения, включающих другие метрики, кроме recall (например, precision, nDCG), может привести к дальнейшим улучшениям.
Интеграция с конвейером поиска: Изучите, как DeepRecallal может быть интегрирован в существующие поисковые системы, включая гибридные подходы, сочетающие нейронные и традиционные методы поиска.

6. Заключение

В этой статье мы представляем DeepRecallal, новый метод улучшения запросов для информационного поиска, основанный на обучении с подкреплением. Обучая 3B-параметрическую языковую модель для прямой оптимизации отзыва при поиске, мы достигаем передовых результатов в задаче поиска медицинской литературы, которые значительно превосходят существующие методы, основанные на контролируемом обучении или дистилляции.

Ключевым новшеством нашего подхода является его способность обучаться эффективным стратегиям улучшения запросов методом проб и ошибок без использования дорогостоящих контролируемых данных. Это делает DeepRecallal не только более эффективным, но и более экономичным по сравнению с существующими подходами.

Наши результаты показывают, что обучение с подкреплением предлагает перспективную парадигму для информационного поиска, которая может изменить ландшафт систем поиска документов. Мы считаем, что этот подход может быть распространен на другие задачи информационного поиска и домены, обеспечивая общую основу для улучшения производительности поиска для различных приложений.

Приложение A Советы по PICO

В экспериментах по поиску медицинской литературы мы использовали следующие профессиональные подсказки:
Ассистент - клинический специалист. Он проводит исследования и составляет обзоры медицинской литературы. Его задача - создать условия запроса для поиска URL-адресов, чтобы найти соответствующую литературу в PubMed или ClinicalTrials.gov.

Исследование основано на определении структуры PICO:
П: Пациент, проблема или популяция - Кто или что является исследуемой популяцией?
I: Вмешательства - Какие основные вмешательства или факторы воздействия рассматриваются?
C: Контроль - с чем сравнивается вмешательство?
O: Результаты - Каковы соответствующие выводы или измеренные эффекты?

Помощник должен показать ход своих мыслей в теге .
Помощник должен возвращать окончательный ответ в теге и использовать форматирование JSON, например:

.
[мыслительный процесс]</think
<answer>
{
"query": "...."
}
</answer>

Примечание: В запросах следует использовать булевы операторы (AND, OR), а также круглые скобки для соответствующей группировки терминов.

Эта профессиональная подсказка предназначена для поиска медицинской литературы, но может быть использована и в других областях информационного поиска (IR) путем изменения описания задачи и руководства по структуре запроса.

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.