검색: 검색이란 무엇이며 RAG에서 사용되는 일반적인 '검색' 기술을 설명해 주세요.

68.3K 00

기본 개념

정보 기술 분야.검색 는 대규모 데이터 세트(일반적으로 문서, 웹 페이지, 이미지, 오디오, 비디오 또는 기타 형태의 정보)에서 사용자의 쿼리 또는 필요에 따라 다음을 수행한다는 의미입니다.관련 정보를 효율적으로 찾고 추출하는 프로세스입니다. 핵심 목표는 다음을 찾는 것입니다.사용자 요구와 가장 관련성이 높은 정보를 클릭하고 사용자에게 제시합니다.

쿼리검색어: 사용자가 입력한 검색어 또는 조건입니다.
색인검색 효율성을 높이기 위해 데이터를 전처리하는 데이터 구조입니다.
관련성검색된 결과가 쿼리와 일치하는 정도입니다.

대규모 모델 지식 베이스 구축을 기반으로 하는 RAG 체계는 일반적으로 사용되는 스파스 + 고밀도 하이브리드 검색과 같은 단일 "검색" 기법을 사용하지 않는 경우가 많습니다. 검색 기술의 선택은 검색할 콘텐츠에 맞게 신중하게 조정되어야 하므로 많은 디버깅이 필요합니다.

$Retrieval：讲解RAG中常见的\$

주류 검색 모델

검색 모델은 주로 부울 모델, 벡터 공간 모델, 확률 모델, 신경망 모델, 그래프 모델(예: 지식 그래프), 언어 모델(예: GPT3)로 분류됩니다.

주요 검색 모델은 "간단하게" 두 가지 범주로 나눌 수 있는데, 핵심적인 차이점은 텍스트를 이해하고 일치시키는 방식입니다:

1. 어휘/키워드 기반 매칭.

이 유형의 모델은 다음과 같은 쿼리 및 문서에 중점을 둡니다.문자 그대로 일치하는 단어단어 뒤에 숨겨진 의미를 더 깊이 이해하지 않고는 사용할 수 없습니다.

핵심 아이디어. 문서와 쿼리에서 단어의 발생 빈도를 계산하고 일치하는 단어를 찾습니다.
주요 모델.
- 부울 모델. 키워드의 유무(AND, OR, NOT)에 따라 검색하면 됩니다.
- 벡터 공간 모델(VSM). 문서와 쿼리는 벡터 유사도(예: 코사인 유사도)로 매칭되는 단어 가중치의 벡터로 표현됩니다. 일반적인 가중치 부여 방법은 TF-IDF입니다.
- BM25. 문서 길이와 같은 요소를 고려하는 확률 통계 기반의 개선된 모델은 많은 검색 엔진의 초석입니다.

장점. 간단하고 효율적이며 구현하기 쉽습니다.
단점. 단어의 의미 관계를 이해하지 못하고 동의어 및 다의어와 같은 문제에 취약합니다.

2. 의미론적/의미 기반 매칭.

시맨틱 기반 임베딩 모델은 다양한 임베딩 텍스트 길이와 크기를 지원할 뿐만 아니라 임베딩 모델마다 '문장'을 이해하는 방식이 다르기 때문에 임베딩 모델 선택의 우선 순위가 달라집니다(대부분 더 일반적인 모델을 사용하지만).
예를 들어, 일부 모델에서는 '사과'라는 단어가 '과일'보다 의미적으로 선호되고 다른 모델에서는 '휴대폰'보다 선호됩니다.

이 유형의 모델은 쿼리와 문서를 이해하려고 시도합니다.심층 시맨틱 정보피상적인 단어 매칭이 아닌, 보다 심층적인 단어 매칭이 가능합니다.

핵심 아이디어. 텍스트를 의미 공간에 매핑하고 의미적 유사성을 기준으로 일치시킵니다.
주요 모델.
- 주제 모델. 주제 유사성(예: LDA)으로 검색된 잠재적 주제에 대한 문서 마이닝.
- 모델 임베딩. 단어, 문장 또는 문서를 저차원 고밀도 벡터 공간에 매핑하면 의미 정보를 캡처할 수 있습니다.
  - 단어 임베딩. 예를 들면 Word2Vec, GloVe, FastText 등이 있습니다.
  - 문장 임베딩. 예를 들어, Sentence-BERT. 유니버설 문장 인코더. OpenAI 임베딩.
- 고밀도 검색 모델. 쿼리와 문서는 딥 러닝 모델(일반적으로 Transformer)을 사용하여 고차원 고밀도 벡터로 인코딩되고 벡터 유사성을 통해 검색됩니다. 예를 들어 DPR, Contriever, 그리고 OpenAI 임베딩 구축된 검색 시스템.
- 신경 상호작용 모델. 쿼리와 문서 간의 상호 작용에 대한 보다 세분화된 모델링(예: ColBERT, RocketQA).
- 그래프 신경망 모델. 문서와 쿼리는 그래프로 구성되고 그래프 구조를 사용하여 검색됩니다.

장점. 텍스트의 의미를 더 잘 이해하고, 의미론적 상관관계를 처리하며, 관련 정보를 더 정확하게 찾을 수 있습니다.
단점. 일반적으로 더 복잡하고 계산 비용이 많이 듭니다.

주요 차이점:

어휘 일치 모델은 "리터럴"로 보입니다.를 클릭하고 키워드 발생에 초점을 맞춥니다.
시맨틱 매칭 모델은 '의미'를 살펴봅니다.텍스트의 본질적인 의미와 관계에 초점을 맞춥니다.

요약 표입니다:

분류	핵심 아이디어	주요 모델	RAG 애플리케이션 초점
어휘 기반 매칭	문자 그대로 일치하는 단어	부울 모델, 벡터 공간 모델(VSM), BM25	초기 또는 간단한 시나리오
시맨틱 기반 매칭	심층 의미론적 정보 이해	토픽 모델, 단어 임베딩 모델, 문장 임베딩 모델( OpenAI 임베딩), 밀도 높은 검색 모델( OpenAI 임베딩 시스템), 신경망 상호 작용 모델, 그래프 신경망 모델	문장 삽입 및 집중 검색에 특히 중점을 둔 주류 선택 기능

RAG의 애플리케이션

RAG (검색-증강 세대)는 검색과 생성 기술을 결합한 AI 프레임워크로, 생성된 콘텐츠의 정확성과 문맥적 연관성을 향상시키는 데 주로 사용됩니다.

검색 단계대규모 지식창고에서 사용자 입력과 관련된 문서나 구절을 식별합니다.
생성 단계검색된 정보를 컨텍스트로 사용하여 답변 또는 콘텐츠를 생성합니다.

RAG에서 검색 모델은 고품질의 정보 소스를 제공하고, 생성 모델은 이 정보를 기반으로 자연어 답변을 생성하는 역할을 담당합니다. RAG는 외부 지식 소스에서 최신 정보를 얻을 수 있기 때문에 지식 집약적인 질문에 대한 답변에 특히 뛰어난 성능을 발휘합니다.

RAG의 애플리케이션 초점:

RAG(검색 증강 생성)에서.시맨틱 매칭 모델이 선호되는 경우가 많습니다.를 사용하면 사용자의 쿼리와 관련된 문맥 정보를 보다 정확하게 검색할 수 있으므로 생성 모델이 보다 정확하고 일관된 답변을 생성하는 데 도움이 됩니다. 특히문장 임베딩 모델 및 고밀도 검색 모델예를 들어, 다음을 기준으로 OpenAI 임베딩 검색의 경우, 뛰어난 의미 표현 능력과 검색 효율성으로 인해 RAG 시스템에서 널리 사용되고 있습니다.

사례(법률)

1. 어휘 검색 적용(어휘 검색)

핵심 아이디어: 검색 시스템은 다음과 같은 쿼리와 문서에 크게 의존합니다.말 그대로 키워드 매칭.
사례 1: 기술 문서에서 특정 명령어 찾기
- 장면: 소프트웨어를 사용 중인데 파일 복사 작업을 수행하는 방법을 알고 싶고 관련 명령을 찾아야 합니다.
- 검색 메커니즘: RAG 시스템은 어휘 기반 모델(예: BM25)을 사용하여 소프트웨어의 도움말 문서에서 '파일 복사', '파일 복사 명령' 또는 '파일 복사' 키워드가 포함된 구절을 검색합니다.
- 검색 결과의 예입니다: 시스템에서 '파일 관리 명령'이라는 제목의 문서에 '파일 관리 명령 사용'이라는 섹션을 찾을 수 있습니다. cp 다음은 '파일 복사 명령' 명령에 대한 설명입니다.
- 생성을 돕는 방법: 검색된 격리 명령에 대한 구체적인 지침이 생성 모델에 제공되어 보다 정확한 작업 단계를 생성할 수 있습니다(예: "다음을 사용할 수 있습니다. cp 명령을 사용하여 파일을 복사합니다. 예를 들어cp source.txt destination.txt 를 클릭하면 source.txt가 destination.txt로 복사됩니다."
- 핵심 포인트: 검색은 정확한 키워드 매칭에 의존합니다. '문서 사본 이동'과 같이 다른 문구를 사용하면 동일한 결과가 검색되지 않을 수 있습니다.
사례 2: 카탈로그에서 특정 모델 찾기
- 장면: 특정 프린터 모델(예: "모델 XYZ-123")을 구매하려고 합니다.
- 검색 메커니즘: RAG 시스템은 카탈로그 데이터베이스에서 정확한 모델명 "XYZ-123"이 포함된 항목을 검색합니다.
- 검색 결과의 예입니다: 시스템에서 "Printer XYZ-123"에 대한 이름, 상세 사양, 가격 및 기타 정보가 포함된 제품 항목을 찾을 수 있습니다.
- 생성을 돕는 방법: 검색된 제품 정보는 프린터 모델에 대한 소개, 가격 문의 또는 구매 링크 등을 생성하는 데 바로 사용할 수 있습니다.
- 핵심 포인트: 제품 모델의 정확한 매칭에 의존합니다. 사용자가 '고성능 프린터'와 같이 모호한 설명을 입력하면 용어 기반 검색이 제대로 작동하지 않을 수 있습니다.

2. 시맨틱 검색 애플리케이션

핵심 아이디어: 검색 시스템은 쿼리와 문서를 이해합니다.심층 시맨틱 정보를 사용하면 정확히 동일한 키워드가 없어도 관련 콘텐츠를 찾을 수 있습니다.
사례 3: 의학 문헌에서 질병의 증상에 대한 정보 찾기
- 장면: "고혈압으로 인한 일반적인 불편함은 무엇인가요?"를 알고 싶으신가요?
- 검색 메커니즘: RAG 시스템은 시맨틱 기반 모델(예: Sentence-BERT 또는 OpenAI 임베딩 기반의 밀도 검색)을 사용하여 쿼리와 의학 문헌을 벡터화한 다음, 시맨틱 공간에서 쿼리 벡터에 가장 가까운 구절을 찾습니다. '고혈압' 대신 '혈압 상승'을 사용하거나 '불쾌감' 대신 특정 증상을 설명하는 등 문서에 정확히 동일한 문구가 포함되어 있지 않더라도 검색이 가능합니다. 검색할 수 있습니다.
- 검색 결과의 예입니다: "고혈압 환자는 종종 두통, 현기증, 가슴 답답함 등의 증상을 보고합니다. 장기간 조절되지 않는 고혈압은 두근거림과 호흡 곤란을 유발할 수 있습니다."
- 생성을 돕는 방법: 검색된 고혈압 증상에 대한 설명은 생성 모델에 제공되어 보다 자연스럽고 포괄적인 응답을 생성할 수 있습니다. "고혈압은 일반적으로 두통, 현기증, 가슴 답답함 등 다양한 불편함을 유발할 수 있습니다. 고혈압이 심하거나 오래 지속되면 가슴 두근거림과 호흡 곤란을 유발할 수도 있습니다."
- 핵심 포인트: 동의어('혈압 상승' 대 '고혈압'), 근접 표현('신체적 불편함' 대 '두통, 어지러움' ") 및 더 풍부한 맥락을 제공하는 관련 개념을 이해할 수 있습니다.
사례 4: 창작 글쓰기 지원에서 비슷한 스타일의 텍스트 찾기
- 장면: 공상 과학 소설을 집필 중인데 영감을 얻기 위해 비슷한 문학적 스타일의 구절을 찾고자 합니다. "우뚝 솟은 건물과 교통 체증으로 가득한 미래 도시의 번영하는 비전을 묘사하세요."라고 입력합니다.
- 검색 메커니즘: RAG 시스템은 의미 기반 모델을 사용하여 대규모 공상 과학 텍스트 라이브러리를 검색하여 '미래의 도시' 또는 '붐'과 같은 키워드를 정확히 사용하지 않더라도 의미적으로 사용자의 설명과 가장 가까운 구절을 찾습니다.
- 검색 결과의 예입니다: "강철 덩어리가 구름을 뚫고 지나갔고 유리 벽은 화려한 빛을 반사했습니다."와 같은 구절을 찾을 수 있습니다. 하늘을 나는 자동차가 건물 사이를 셔틀처럼 오갔고, 지상에는 군중이 북적거렸으며, 에너지의 윙윙거림이 잠들지 않는 도시를 가득 채웠습니다."
- 생성을 돕는 방법: 비슷한 분위기와 설명이 있는 검색된 구절을 생성 모델의 참조로 사용하여 원하는 스타일에 더 부합하는 텍스트를 만들 수 있습니다.
- 핵심 포인트: 텍스트의 내포된 의미, 감정적 색채, 스타일을 이해하는 것은 단순한 키워드 매칭을 넘어 의미적 유사성에 더 중점을 둡니다.