RIG(검색 인터리브 생성): 검색하면서 쓰는 검색 전략으로 실시간 데이터 쿼리에 적합합니다.

AI 기술 자료1 년 전 게시 됨 AI 공유 서클

44.5K 00

기술 핵심: 검색 인터리브 생성(RIG)

RIG란 무엇인가요?
RIG는 대규모 언어 모델에 의한 통계 데이터 처리 시 발생하는 환각 문제를 해결하기 위해 고안된 혁신적인 생성 방법론입니다. 기존 모델은 부정확한 숫자나 사실을 무작위로 생성할 수 있는 반면, RIG는 생성 과정에 외부 데이터 소스에 대한 쿼리를 삽입하여 데이터의 신뢰성을 보장합니다.
작동 원리 ::
- 이 모델은 통계가 필요한 질문을 받으면 답을 생성할 때 동적으로 Data Commons(Google에서 제공하는 공개 데이터 지식 기반)를 호출합니다.
- 예를 들어 쿼리 결과는 자연어로 출력에 포함됩니다:[DC("프랑스 인구는?") --> "6700만"].
- 이러한 '검색과 생성의 인터리빙'을 통해 모델은 언어적 유창성을 유지하면서 검증된 통계 정보를 제공할 수 있습니다.

모델 세부 정보

기본 모델 연구 및 실험을 위해 설계된 효율적인 오픈 소스 언어 모델인 Gemma 2(27B 파라미터 버전).
목표 미세 조정 데이터 커먼즈를 쿼리해야 하는 시점을 인식하고 생성 프로세스에서 이 데이터를 원활하게 통합할 수 있도록 특별히 훈련받았습니다.
입력 및 출력 ::
- 입력: 모든 텍스트 프롬프트(예: 질문 또는 진술)를 입력합니다.
- 출력: 영문 텍스트, 데이터 커먼즈 쿼리 결과가 포함될 수 있습니다.
다국어 지원 주로 영어가 지원됩니다("it"은 "인스트럭션 조정", 즉 인스트럭션 조정 버전을 의미할 수 있지만 페이지에 언어 범위가 명시되어 있지 않습니다).

애플리케이션 시나리오

대상 사용자 대상: 학술 연구자, 데이터 과학자
사용 정확한 통계가 필요한 시나리오(예: '한 국가의 인구', '특정 연도의 전 세계 CO2 배출량' 등에 대한 답변)에 적합합니다.
제약 조건 현재 초기 릴리스이며 신뢰할 수 있는 테스터에게만 제한적으로 제공되며 프로덕션 환경이나 상업적 사용에는 권장되지 않습니다.

모델:https://huggingface.co/google/datagemma-rig-27b-it

원본 텍스트:https://arxiv.org/abs/2409.13741

RIG 실현 프로세스

RIG는 검색과 생성을 결합하는 접근 방식으로, LLM이 자연어 쿼리를 생성하여 데이터 커먼즈에서 데이터를 검색하도록 함으로써 생성된 결과의 정확도를 향상시키는 것을 목표로 합니다. 다음은 RIG의 세부 구현 단계입니다:

1. 모델 미세 조정(모델 미세 조정)

목표LLM이 데이터 커먼즈에서 통계를 검색하는 데 사용할 수 있는 자연어 쿼리를 생성하는 방법을 배우기 위한 것입니다.

이동::

초기 쿼리 및 생성LLM은 통계 쿼리를 받으면 일반적으로 숫자 답변이 포함된 텍스트를 생성합니다. 이 숫자 답변을LLM에서 생성된 통계 값(LLM-SV)예를 들어, "캘리포니아의 총 인구는 얼마인가요?"라는 쿼리를 예로 들어 보겠습니다. 예를 들어 "캘리포니아의 총 인구는 얼마인가?"라는 쿼리의 경우 LLM은 "캘리포니아의 총 인구는 약 3,900만 명입니다."를 생성할 수 있습니다. 에 대해 LLM은 "캘리포니아의 총 인구는 약 3,900만 명입니다."를 생성할 수 있습니다.
관련 데이터 식별사실 확인 메커니즘으로 사용자가 사용할 수 있도록 하려면 LLM에서 생성된 텍스트에서 데이터 커먼즈 데이터베이스에서 가장 관련성이 높은 데이터를 식별해야 합니다. 이렇게 검색된 값을데이터 커먼즈 통계 값(DC-SV).
자연어 쿼리 생성이를 위해 LLM을 미세 조정하여 LLM-SV를 설명하는 자연어 쿼리를 LLM-SV와 함께 생성하도록 합니다. 이 쿼리는 데이터 커먼즈에서 데이터를 검색하는 데 사용됩니다.

그림 1: 쿼리에 대한 답변 비교, 데이터 커먼즈와 인터페이스되지 않은 기준 젬마(젬마 7B IT, 젬마 2 27B IT) 및 인터리브 생성(RIG) 답변.
그림 1기준이 되는 Gemma 모델과 RIG 모델의 답변을 비교한 것으로, RIG 모델은 통계 값뿐만 아니라 검색에 사용된 쿼리도 생성합니다.
트레이닝 데이터 세트미세 조정을 위해 약 700개의 사용자 쿼리가 포함된 명령-응답 데이터 세트를 사용합니다. 각 쿼리에 대해 통계 데이터가 포함된 기본 모델에서 생성된 응답(약 400개 예제)을 선택하고 더 강력한 LLM(예: Gemini 1.5 Pro)을 사용하여 자연어 데이터 커먼즈 호출을 생성합니다.
일반적인 예::
- 상담(문서 등)캘리포니아, 샌프란시스코, 앨라배마 및 미국에 대한 통계 한 가지를 알려주세요.
- 원시 응답::
  - 캘리포니아는 2020년 기준 약 3,900만 명의 인구가 거주하는 미국에서 가장 인구가 많은 주 1위입니다.
  - 샌프란시스코의 당뇨병 발병률은 인구 1,000명당 9.2건입니다.
  - ...
- 미세 조정된 응답::
  - 캘리포니아는 미국에서 가장 인구가 많은 주 1위로, [[약DC("2020년 캘리포니아의 인구는 몇 명인가요?") --> "3,900만"] 명입니다.
  - 샌프란시스코의 당뇨병 비율은 [DC("샌프란시스코의 당뇨병 유병률은 얼마인가요?") --> "10000명당 9.2건"].
  - ...

2. 쿼리 전환

목표LLM에서 생성된 자연어 쿼리를 데이터 커먼즈에서 데이터를 검색할 수 있는 구조화된 쿼리로 변환합니다.

이동::

쿼리 분해: 자연어 쿼리를 다음 구성 요소로 분해합니다:
- 통계 변수 또는 주제:: 예: "실업률", "인구통계" 등
- 사이트예: "캘리포니아".
- 인과관계:: 예: '순위', '비교', '변화율' 등입니다.
매핑 및 식별예를 들어, 임베딩 기반 시맨틱 검색 인덱싱을 사용하여 통계 변수를 식별하고 문자열 기반 명명된 개체 인식을 사용하여 위치를 식별하도록 구현하는 등 이러한 구성 요소를 Data Commons의 해당 ID에 매핑합니다.
카테고리 및 템플릿 일치: 식별된 구성 요소를 기반으로 쿼리를 고정된 쿼리 템플릿 집합으로 분류합니다. 예시:
- YY에 XX는 몇 개(YY有多少XX))
- AA의 ZZ에서 XX와 YY의 상관관계는 무엇인가요(AA의 ZZ에서 XX와 YY의 상관관계는 무엇인가요?)
- YY에서 ZZ 수가 가장 많은 XX(YY 중 어느 XX의 ZZ 수가 가장 많습니까?)
- YY에서 가장 중요한 XX는 무엇인가요(YY에서 가장 중요한 XX는 무엇인가요 35 YY 34에서 가장 중요한 XX는 무엇인가요)
그림 2: 통계가 포함된 응답을 생성하는 베이스라인, RIG 및 RAG 방법의 비교. 베이스라인 접근 방식은 근거를 제공하지 않고 통계를 직접 보고하는 반면, RIG와 RAG는 데이터 커먼즈를 활용하여 공신력 있는 데이터를 제공합니다.
그림 2베이스라인, RIG, RAG 방법을 비교한 것으로, RIG 방법은 데이터 커먼즈에서 검색하기에 적합한 자연어 질문과 인터리빙하여 통계적 태그를 생성합니다.
쿼리 실행데이터 커먼즈의 구조화된 데이터 API를 호출하여 쿼리 템플릿과 변수 및 위치의 ID를 기반으로 데이터를 검색합니다.

3. 주문 처리

목표검색된 데이터를 LLM에서 생성한 통계 값과 함께 사용자에게 표시합니다.

이동::

데이터 프레젠테이션데이터 커먼즈에서 반환한 답변을 원본 LLM에서 생성한 통계와 함께 사용자에게 제시합니다. 이를 통해 사용자는 LLM을 팩트 체크할 수 있습니다.

그림 3: RIG 평가 도구. 이 그림은 두 가지 평가 단계의 스크린샷을 나란히 표시한 것입니다. 각 단계에는 두 개의 패널이 있습니다. 왼쪽에는 사용자에게 평가 중인 전체 응답이 표시됩니다(위 이미지에서는 공간 절약을 위해 제외됨). 오른쪽에는 평가 작업이 표시됩니다. 1단계에서 평가자는 명백한 오류가 있는지 빠르게 확인합니다. 2단계에서는 평가자가 응답에 있는 각 통계를 평가합니다.
그림 3RIG 평가 도구의 사용 과정을 보여줍니다. 평가자는 명백한 오류를 신속하게 확인하고 응답에 존재하는 모든 통계를 평가할 수 있습니다.
사용자 경험나란히 놓기, 차이점 강조 표시, 각주, 호버 액션 등 이 새로운 결과를 표현하는 다양한 방법이 있으며, 향후 작업으로 살펴볼 수 있습니다.