DeepRetrieval: 강화 학습을 통한 효율적인 정보 검색 쿼리 생성

37.7K 00

초록

정보 검색 시스템은 대규모 문서 컬렉션에 효율적으로 액세스하기 위해 매우 중요합니다. 최근의 접근 방식은 대규모 언어 모델(LLM)을 활용하여 쿼리 향상을 통해 검색 성능을 개선하지만, 일반적으로 상당한 계산 리소스와 수동으로 레이블이 지정된 데이터가 필요한 고가의 지도 학습 또는 증류 기법에 의존합니다. 이 백서에서는 지도 데이터 없이도 시행착오를 통해 쿼리 향상을 위해 LLM을 직접 훈련하는 새로운 강화 학습 기반 접근 방식인 DeepRetrieval을 소개합니다. 검색 리콜을 보상 신호로 사용하여 시스템이 효과적인 쿼리를 생성하는 방법을 학습함으로써 문서 검색 성능을 극대화합니다. 예비 결과에 따르면, 더 작은 모델(3B 대 7B 매개변수)을 사용하고 감독 데이터 없이도 DeepRetrieval은 출판물 검색 작업에서 60.821 TP3T, 실험적 검색 작업에서 70.841 TP3T의 리콜을 달성한 것으로 나타났습니다. 이러한 결과는 강화 학습 접근 방식이 문서 검색 시스템의 환경을 바꿀 수 있는 보다 효율적이고 효과적인 정보 검색 패러다임을 제공한다는 것을 시사합니다.

저자: Chengjiang Peng(UIUC 컴퓨터 과학과)

원본: https://arxiv.org/pdf/2503.00223

코드 주소: https://github.com/pat-jj/DeepRetrieval

1. 소개

정보 검색(IR) 시스템은 사용자가 대규모 문서 컬렉션에서 관련 문서를 찾는 데 중요한 역할을 합니다. 기존의 IR 접근 방식은 키워드 매칭과 통계적 방법에 의존하기 때문에 사용자 쿼리의 의미론적 의미를 이해하는 데 어려움을 겪는 경우가 많습니다. 최근 대규모 언어 모델(LLM)의 발전은 쿼리 증강을 통해 이러한 한계를 해결할 수 있는 가능성을 보여주었습니다(Bonifacio 외., 2022). LLM은 사용자 쿼리를 확장하거나 재구성하여 관련 문서를 더 잘 포착할 수 있습니다.

그러나 현재의 LLM 기반 쿼리 개선 방법에는 일반적으로 지도 학습 또는 증류 기법을 사용하는데, 여기에는 몇 가지 중요한 한계가 있습니다:

훈련 데이터를 생성하려면 값비싼 컴퓨팅 리소스가 필요하며, 이는 종종 수천 달러에 달합니다.
향상된 쿼리의 품질은 감시 데이터의 품질에 따라 달라집니다.
더 큰 모델에 의존하여 더 작은 모델에 대한 데이터를 생성하기 때문에 잠재적인 편견과 한계가 발생할 수 있습니다.

이 작업에서는 강화 학습(RL)을 사용하여 쿼리 향상을 위해 LLM을 훈련시키는 새로운 접근 방식인 DeepRetrieval을 소개합니다. 감독 데이터에 의존하는 접근 방식과 달리, DeepRetrieval은 검색 리콜을 보상 신호로 사용하여 모델이 직접 시행착오를 통해 학습할 수 있도록 합니다. 이 접근 방식에는 몇 가지 주요 이점이 있습니다:

값비싼 감독 데이터 생성 필요 없음

DeepRetrieval：强化学习驱动的高效信息检索查询生成 그림 1: DeepRetrieval: LLM은 문서 검색을 위한 향상된 쿼리를 생성합니다. 리콜이 계산되어 모델을 업데이트하기 위한 보상으로 사용됩니다.

최종 목표에 직접 최적화(리콜 성능)
사람의 시연 없이도 효과적인 전략 학습 가능

우리의 예비 결과에 따르면, 딥리서치는 출판물 검색 작업에서 60.821 TP3T, 시험 검색 작업에서 70.841 TP3T의 리콜을 달성하여 최근의 LEADS 시스템(Wang et al., 2025)을 포함한 기존의 최신 방법보다 훨씬 뛰어난 성능을 보였습니다. 이러한 결과는 LEADS(7B 매개변수)에 비해 더 작은 모델(3B 매개변수)로, 그리고 감독 데이터 없이 얻은 결과라는 점에 주목할 가치가 있으며, 이는 우리 접근법의 효율성과 효과를 강조합니다.

2. 방법론

심층 검색 접근 방식은 이 패러다임을 정보 검색의 특정 작업인 쿼리 향상에 적용함으로써 LLM을 위한 강화 학습의 최근 발전을 기반으로 합니다. 이 접근 방식은 감독 데이터에 의존하지 않고도 고급 추론 기능을 갖춘 모델을 훈련하는 데 RL을 사용할 수 있음을 입증한 DeepSeek-R1-Zero(DeepSeek-AI 외., 2025)에서 직접 영감을 얻었습니다. 그림 1은 시스템의 전체 아키텍처를 보여줍니다.

2.1 문제의 공식화

발견 D 는 문서 모음입니다.q 를 사용하여 사용자 쿼리를 처리할 수 있습니다. 정보 검색 시스템의 목표는 다음과 같은 정보를 반환하는 것입니다. q 관련 문서의 하위 집합 D_q⊂ D . 쿼리 증강에서는 원래 쿼리인 q 향상된 쿼리로 변환 q'이 쿼리는 관련 문서를 검색하는 데 더 효과적입니다.

전통적으로 이 증강 프로세스는 지도 학습을 통해 학습되며, 여기서 (q,q') 쌍이 학습 데이터로 제공됩니다. 이와 대조적으로, 우리의 접근 방식은 강화 학습을 사용하여 모델이 시행착오를 통해 유효한 증강 쿼리를 생성하는 방법을 학습하는데, 이는 DeepSeek-R1-Zero가 추론 문제를 해결하는 방법을 학습하는 것과 유사합니다.

2.2 향상된 학습 프레임워크

쿼리 향상 작업을 강화 학습 문제로 공식화합니다:

업무 상태: 원본 사용자 쿼리 q
움직임모델에서 생성된 향상된 쿼리 q'
인센티브사용 q' 문서 검색 시 리콜 달성

모델은 예상 보상을 최대화하도록, 즉 높은 회상률을 달성하는 증강 쿼리를 생성하도록 훈련됩니다. 최종 목표에 대한 이러한 직접 최적화는 인위적으로 생성되거나 더 큰 모델에서 생성된 것과 유사한 개선 사항을 최적화하는 감독 접근 방식과는 다릅니다.

2.3 모델 아키텍처 및 출력 구조

저희는 시스템의 기본 LLM으로 Qwen-2.5-3B-Instruct(Yang et al., 2024)를 사용하며, 이 모델은 사용자 쿼리를 입력으로 받아 증강된 쿼리를 생성합니다. 이 모델은 먼저 섹션에서 추론 단계를 생성한 다음 섹션에서 JSON 형식의 최종 증강 쿼리를 생성하도록 구조화되어 있습니다. 이러한 구조화된 생성을 통해 모델은 쿼리의 모든 측면을 고려하고 응답을 완성하기 전에 다양한 개선 전략을 탐색할 수 있습니다.

예비 실험에서는 PICO 프레임워크에 기반한 전문 프롬프트를 사용한 의학 문헌 검색에 중점을 두었습니다(자세한 내용은 부록 A 참조). 검색 시스템과 호환되려면 JSON 형식에 부울 연산자(AND, OR)와 적절한 괄호를 사용한 그룹화가 필요합니다. 그러나 이러한 접근 방식은 일반적이며 프롬프트 및 쿼리 형식을 적절히 수정하여 기존 IR 데이터 세트에 적용할 수 있습니다.

2.4 인센티브 메커니즘

보상 기능은 검색 성능을 직접적으로 최적화하는 것을 목표로 합니다. 프로세스는 다음과 같습니다:

이 모델은 PICO 프레임워크 쿼리에 대한 응답으로 향상된 쿼리를 생성합니다.
문서 컬렉션(PubMed 또는 ClinicalTrials.gov)에 대해 향상된 쿼리를 수행합니다.
검색된 관련 문서의 백분율로 리콜을 계산합니다.
종합 수상은 다음을 기준으로 계산됩니다:
- 서식 정확성(JSON 구조, 적절한 레이블 지정)
- 리콜률을 검색하여 리콜률이 높을수록 더 높은 보상을 받을 수 있습니다.

특히 보상 기능은 표 1과 같이 리콜 기반 계층적 점수 시스템을 사용합니다.

리콜률	≥ 0.7	≥ 0.5	≥ 0.4	≥ 0.3	≥ 0.1	≥ 0.05	< 0.05
인센티브	+5.0	+4.0	+3.0	+1.0	+0.5	+0.1	-3.5

표 1: 리콜 성과에 따른 보상 계층. 리콜 값이 높을수록 훨씬 더 큰 보상을 받게 되므로 모델이 더 효율적인 쿼리를 생성하도록 인센티브를 제공합니다.

또한 올바른 형식은 +1점을, 잘못된 형식은 -4점을 받습니다. 중요한 점은 형식이 잘못된 경우(태그 누락, 잘못된 JSON 구조 등) 정답 보너스는 전혀 계산되지 않고 형식 패널티만 발생한다는 점입니다. 이러한 보상 구조는 모델이 원하는 출력 형식을 준수하면서 회상률을 극대화하는 올바른 형식의 쿼리를 생성하도록 강력하게 장려합니다.

2.5 교육 과정

교육 과정은 다음 단계를 따릅니다:

미리 학습된 가중치를 사용하여 모델을 초기화합니다.
학습 세트의 각 쿼리에 대해:
1. 향상된 쿼리를 생성합니다.
2. 검색 시스템에 대해 쿼리를 실행합니다.
3. 리콜률(검색된 관련 문서의 비율)을 계산합니다.
4. 리콜 기반 보상을 사용하여 모델을 업데이트합니다.
수렴할 때까지 반복합니다.

이 프로세스를 통해 모델은 명시적인 감독 없이 검색 성능에서 직접 효과적인 쿼리 향상 전략을 학습할 수 있습니다. 이 모델은 관련 의학 문헌의 리콜을 극대화하기 위해 PICO 프레임워크 쿼리를 유효한 검색어로 변환하는 능력을 점진적으로 개선합니다.

3. 실험

3.1 데이터 세트

두 가지 의학 문헌 검색 작업에 대한 접근 방식을 평가합니다:

발행물 검색PICO 프레임워크에 표현된 사용자 쿼리를 기반으로 PubMed에서 관련 의학 출판물을 검색합니다.
테스트 검색유사한 PICO 프레임워크 쿼리를 기반으로 ClinicalTrials.gov에서 관련 임상시험을 검색합니다.

이러한 데이터 세트는 의학 문헌의 전문 용어와 복잡한 관계로 인해 정보 검색 시스템에서 특히 까다롭습니다. 각 쿼리에는 증강 쿼리가 이상적으로 검색해야 하는 근거 자료 관련 문서 세트(PMID로 식별)가 있습니다.

3.2 지표 평가

검색된 관련 문서의 비율을 측정하는 리콜을 주요 평가 지표로 사용합니다. 구체적으로 보고합니다:

리콜률(게시글 검색)검색된 관련 발행물의 비율입니다.
리콜(체험판 검색)검색된 관련 임상시험의 비율입니다.

3.3 기준선

저희의 접근 방식을 여러 기준선과 비교합니다:

GPT-4o다양한 구성(제로 샘플, 적은 샘플, ICL, ICL + 적은 샘플).
GPT-3.5다양한 구성(제로 샘플, 적은 샘플, ICL, ICL + 적은 샘플).
하이쿠-3다양한 구성(제로 샘플, 적은 샘플, ICL, ICL + 적은 샘플).
미스트랄-7B(Jiang et al., 2023)제로 샘플 구성.
LEADS(왕 외, 2025)Mistral-7B를 이용한 증류 훈련용 최신 의학 문헌 검색 방법.

3.4 구현 세부 사항

VERL 프레임워크를 사용합니다.¹HybridFlow RLHF 프레임워크의 오픈 소스 구현인 DeepRetrieval을 구현했습니다(Sheng et al., 2024).

교육 구성은 다음과 같은 주요 매개변수와 함께 프록시멀 정책 최적화(PPO)를 사용합니다:

기준 모델: Qwen-2.5-3B-Instruct(Yang et al., 2024).

DeepRetrieval：强化学习驱动的高效信息检索查询生成 그림 2: DeepRetrieval의 훈련 역학. 리콜 계산은 훈련 중 PubMed 검색을 기반으로 합니다.

PPO 소량 배치 크기: 16.
PPO 마이크로 배치 크기: 8.
학습 속도배우 1e-6, 비평가 1e-5.
KL 계수:: 0.001.
최대 시퀀스 길이프롬프트와 응답 모두 500토큰입니다.

메모리 사용량을 최적화하기 위해 그라데이션 체크포인트가 활성화된 FSDP 전략을 사용하여 두 개의 NVIDIA A100 80GB PCIe에서 모델을 훈련했습니다. 훈련 과정은 5주기에 걸쳐 진행되었습니다.

그림 2에서 볼 수 있듯이 훈련 역학은 훈련이 진행됨에 따라 성과 지표가 꾸준히 개선되는 것을 보여줍니다. 평균 보상(왼쪽 위)은 음수 값에서 시작하여 빠르게 양수로 바뀌고 훈련 내내 지속적으로 개선되는 일관된 상승 추세를 보여줍니다. 동시에 오답률(상단 가운데)과 서식 오류율(상단 오른쪽)이 급격히 감소하여 모델이 관련 문서를 검색하기 위해 잘 구조화된 쿼리를 생성하는 방법을 학습하고 있음을 나타냅니다.

가장 눈에 띄는 개선 사항은 모든 리콜 임계값이 지속적으로 증가했다는 점입니다. 높은 리콜 값(≥0.5, ≥0.7)에 도달하는 쿼리의 비율은 꾸준히 증가하여 최고 리콜 단계(≥0.7)는 훈련 종료 시점에 거의 0에 가까웠던 것이 ~0.25로 증가했으며, 중간 리콜 비율(≥0.4, ≥0.3)은 ~0.6-0.7로 더 크게 성장했고, 낮은 리콜 임계치(0.1, 0.05)는 빠르게 접근하여 약 0.8-. 0.9 이웃. 이러한 진전은 강화 학습이 검색 성능을 직접 최적화함으로써 효과적인 쿼리 개선 사항을 생성하는 모델의 능력을 점진적으로 향상시킬 수 있음을 명확하게 보여줍니다.

4. 결과

4.1 주요 결과

표 2는 실험의 주요 결과를 보여줍니다. DeepRetrieval은 출판물 검색 작업에서 60.821 TP3T, 시험 검색 작업에서 70.841 TP3T의 리콜을 달성하여 최첨단 LEADS 시스템을 포함한 모든 기준선을 크게 앞질렀습니다.

4.2 분석

조사 결과에서 몇 가지 주요 관찰 사항이 드러납니다:

뛰어난 성능딥리서치는 더 작은 모델(3B 대 7B 매개변수)을 사용하지만 출판물 검색 작업(60.821 TP3T 대 24.681 TP3T)과 시험판 검색 작업(70.841 TP3T 대 32.111 TP3T)에서 LEADS를 큰 차이로 앞섰습니다.
비용 효율성딥러닝 데이터 생성에 10,000달러 이상의 비용이 드는 LEADS와 달리 딥리콜은 감독 데이터가 필요하지 않으므로 훨씬 더 비용 효율적입니다.
다용도성게시 및 실험 검색 작업의 지속적인 성능은 우리의 접근 방식이 다양한 검색 시나리오에 걸쳐 우수한 일반성을 가지고 있음을 보여줍니다.
구조화된 생성의 효율성구조 : /구조를 사용하면 모델이 복잡한 쿼리를 추론한 후 응답을 완성할 수 있으므로 전반적인 품질이 향상됩니다.

5. 토론

5.1 강화 학습이 작동하는 이유

DeepRetrieval의 우수한 성능은 여러 가지 요인에 기인합니다:

직접 최적화리콜을 직접 최적화함으로써 모델은 미리 정의된 패턴과 일치하는 쿼리가 아닌 검색에 유효한 쿼리를 생성하는 방법을 학습합니다.
탐색강화 학습 프레임워크를 사용하면 모델이 광범위한 쿼리 향상 전략을 탐색하여 감독 데이터에 존재하지 않을 수 있는 효과적인 방법을 발견할 수 있습니다.
적응형 학습이 모델은 일률적인 접근 방식 대신 쿼리 및 문서 컬렉션의 특정 특성에 맞게 개선 전략을 조정할 수 있습니다.
구조화된 추론별도의 사고 및 답변 구성 요소를 사용하는 2단계 생성 접근 방식을 사용하면 모델이 최종 쿼리를 제출하기 전에 질문 공간을 통해 작업할 수 있습니다.

5.2 제한 사항 및 향후 작업

초기 결과는 희망적이지만, 아직 몇 가지 한계와 향후 작업 방향이 남아 있습니다:

기존 IR 데이터 세트에 대한 평가현재 실험은 PICO 프레임워크를 사용한 의학 문헌 검색에 초점을 맞추고 있습니다. 다음 핵심 단계는 보다 일반적인 검색 시나리오에서의 효과를 테스트하기 위해 표준 IR 벤치마크 테스트(예: MS MARCO, TREC, BEIR)에서 DeepRecallal을 평가하는 것입니다.
고급 방법과의 비교최근 쿼리 개선 방법과의 추가 비교를 통해 연구 결과를 더욱 검증할 예정입니다.
모델 확장대규모 모델에 따라 성능이 어떻게 달라지는지 살펴보면 모델 크기와 검색 성능 간의 절충점에 대한 인사이트를 얻을 수 있습니다.
인센티브 효과리콜 이외의 지표(예: 정확도, nDCG)를 통합하는 더 복잡한 보상 함수를 탐색하면 더 많은 개선이 이루어질 수 있습니다.
검색 파이프라인과 통합신경 검색 방식과 기존 검색 방식을 결합한 하이브리드 접근 방식을 포함해 DeepRecallal을 기존 검색 파이프라인에 통합하는 방법을 살펴보세요.

6. 결론

이 백서에서는 정보 검색을 위한 새로운 강화 학습 기반 쿼리 향상 방법인 DeepRecallal을 소개합니다. 3B 매개변수 언어 모델을 훈련하여 검색 리콜을 직접 최적화함으로써 지도 학습이나 증류에 의존하는 기존 방법보다 훨씬 뛰어난 의료 문헌 검색 작업에서 최첨단 성능을 달성합니다.

이 접근 방식의 핵심 혁신은 값비싼 감독 데이터 없이도 시행착오를 통해 효과적인 쿼리 개선 전략을 학습할 수 있다는 점입니다. 따라서 딥리콜은 기존 접근 방식보다 더 효율적일 뿐만 아니라 비용도 절감할 수 있습니다.

연구 결과에 따르면 강화 학습은 문서 검색 시스템의 지형을 바꿀 수 있는 정보 검색의 유망한 패러다임을 제공합니다. 이러한 접근 방식을 다른 정보 검색 작업과 영역으로 확장하여 다양한 애플리케이션의 검색 성능을 개선할 수 있는 일반적인 프레임워크를 제공할 수 있다고 생각합니다.

부록 A PICO 팁

의학 문헌 검색 실험에서는 다음과 같은 전문적인 입력 프롬프트를 사용했습니다:
어시스턴트는 임상 전문가입니다. 그는 연구를 수행하고 의학 문헌 검토를 수행하고 있습니다. 그의 임무는 PubMed 또는 ClinicalTrials.gov에서 관련 문헌을 찾기 위해 URL을 검색하는 쿼리 용어를 만드는 것입니다.

이 연구는 PICO 프레임워크 정의를 기반으로 합니다:
P: 환자, 문제 또는 모집단 - 연구 대상은 누구 또는 무엇인가요?
I: 개입 - 주요 개입 또는 노출 요인에는 어떤 것이 고려되나요?
C: 통제 - 무엇과 비교되는 개입인가요?
O: 결과 - 관련 결과 또는 측정된 효과는 무엇인가요?

어시스턴트는 태그 안에 자신의 사고 과정을 표시해야 합니다.
어시스턴트는 태그 안에 최종 답변을 반환해야 하며, 예를 들어 JSON 형식을 사용해야 합니다:

<think>
[사고 과정]
<answer>
{
"query": "...."
}
</answer>

참고: 쿼리는 부울 연산자(AND, OR)와 괄호를 사용하여 용어를 적절하게 그룹화해야 합니다.

이 전문 입력 프롬프트는 의학 문헌 검색을 위한 것이지만 작업 설명 및 쿼리 구조 지침을 수정하여 다른 정보 검색(IR) 영역에도 적용할 수 있습니다.

AI 기술 자료

마누스란 무엇인가요? 마누스가 특별한 이유는 무엇인가요?

AI 답변

10개월 전

044.5K

ToM 협상 프레임워크 프롬프트 단어

AI 유틸리티 명령

1 년 전

035K

원리부터 실무까지 알기 쉬운 AI 만화 설명 동영상(하위 커미션 채널 챕터)

AI 실습 튜토리얼 # AI 부업 수익 창출 프로젝트

1 년 전

035.2K

수노 환각 해결

AI 실습 튜토리얼 # Suno

1 년 전

037K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

DeepRetrieval: 강화 학습을 통한 효율적인 정보 검색 쿼리 생성

초록

1. 소개