RAG의 경로 플래너를 배우는 5일간의 시간

49.1K 00

RAG be 검색 검색 증강 생성의 약어입니다. RAG가 무엇인지 더 명확하게 이해하기 위해 이 용어를 세분화해 보겠습니다:

R -> 검색

A -> 향상

G -> 생성

기본적으로 현재 사용하는 대규모 언어 모델(LLM)은 실시간으로 업데이트되지 않습니다. LLM(예: ChatGPT)에 질문을 하면 착각하여 잘못된 대답을 할 수 있습니다. 이를 방지하기 위해 더 많은 데이터(전 세계적으로 공개된 데이터가 아닌 일부 사람들만 접근할 수 있는 데이터)로 LLM을 학습시킨 다음, 이 데이터로 학습된 LLM에 질문을 하여 관련 정보를 제공할 수 있도록 합니다. RAG를 사용하지 않으면 다음과 같은 일이 발생할 수 있습니다:

환각 가능성 증가
LLM 노후화
정확성 및 사실성 감소

아래 차트를 참조하세요:

RAG는 검색 기반 시스템의 장점과 LLM의 장점을 결합하여 보다 정확하고 관련성 있으며 유익한 의사 결정을 내리는 하이브리드 시스템입니다. 이 접근 방식은 생성 프로세스에서 외부 지식 소스를 활용하여 최신의 상황에 맞는 정보를 제공하는 모델의 능력을 향상시킵니다. 위 다이어그램에서

첫 번째 단계에서는 사용자가 LLM에 쿼리를 수행합니다.
그런 다음 쿼리가
그 후
검색된 문서는 원래 쿼리와 함께 언어 모델(LLM)로 전송됩니다.
생성기는 쿼리와 관련 문서를 모두 처리하고 응답을 생성한 다음 사용자에게 반환합니다.

이제 기본부터 고급까지 RAG를 배우는 데 관심이 많으시다는 것을 잘 알고 있으므로 단 5일 만에 RAG 시스템을 배울 수 있는 완벽한 로드맵을 보여드리겠습니다. 네, 제 말을 잘 들으셨죠? 단 5일 만에 RAG 시스템을 마스터할 수 있습니다. 학습 로드맵으로 바로 들어가 보겠습니다:

1일차: RAG의 토대 마련하기

1일차의 핵심 목표는 RAG를 전반적으로 이해하고 RAG의 주요 구성 요소를 살펴보는 것입니다. 아래는 1일차 주제에 대한 분석입니다:

RAG 개요.

RAG의 기능과 중요성, 그리고 현대 NLP에서 차지하는 위치를 인식하세요.
검색 증강 생성(RAG)은 외부 정보를 도입하여 생성된 모델의 효율성을 향상시킨다는 것이 주요 개념입니다.

주요 구성 요소.

검색과 생성을 따로 학습하세요.
검색(예: 밀도 높은 단락 검색(DPR), BM25) 및 생성(예: GPT, BART, T5)의 아키텍처를 이해합니다.

2일차: 나만의 검색 시스템 구축

2일 차의 핵심 목표는 검색 시스템을 성공적으로 구현하는 것입니다(기본적인 시스템이라도). 아래는 2일차 주제에 대한 세부 내용입니다:

검색 모델에 대해 자세히 살펴봅니다.

밀도 검색과 희소 검색의 차이점을 알아보세요:
집중 검색: DPR, 콜버트.
희소 검색. BM25, TF-IDF.
각 방법의 장단점을 살펴보세요.

검색 실현.

기본 검색 작업에는 elasticsearch(희소 검색용) 또는 faiss(고밀도 검색용) 같은 라이브러리를 사용하세요.
허깅페이스의 DPR 튜토리얼을 통해 지식창고에서 관련 문서를 검색하는 방법을 알아보세요.

지식 데이터베이스.

지식창고의 구조를 이해합니다.
말뭉치 전처리 및 문서 색인화와 같은 검색 작업을 위해 데이터를 준비하는 방법을 알아보세요.

3일차: 생성 모델 미세 조정 및 결과 관찰하기

3일차의 목표는 생성 모델을 미세 조정하고 결과를 관찰하여 검색이 생성 향상에 어떤 역할을 하는지 이해하는 것이었습니다. 다음은 3일차 주제에 대한 분석입니다:

제너레이티브 모델링에 대해 자세히 살펴봅니다.

T5, GPT-2, BART와 같은 훈련된 모델을 살펴보세요.
작업(예: 퀴즈 또는 요약)을 생성하는 프로세스를 미세 조정하는 방법을 알아보세요.

모델 생성 실습

허깅 페이스를 적용하면 다음과 같은 이점이 있습니다. 트랜스포머 모델을 사용하여 작은 데이터 세트에서 모델을 최적화합니다.
이 테스트는 생성 모델을 사용하여 질문에 대한 답을 생성합니다.

검색과 생성의 상호 작용 살펴보기.

생성 모델이 검색된 데이터를 입력하는 방식을 조사합니다.
검색을 통해 생성된 응답의 정확성과 품질을 향상시킬 수 있는 방법을 알아보세요.

4일차: 운영 RAG 시스템 구현하기

이제 목표에 가까워졌습니다. 오늘의 주요 목표는 간단한 데이터 세트에서 작동하는 RAG 시스템을 구현하고 매개변수 튜닝에 익숙해지는 것이었습니다. 4일차 주제에 대한 자세한 내용은 다음과 같습니다:

검색과 생성을 결합했습니다:

생성 및 검색된 컴포넌트를 단일 시스템으로 통합합니다.
출력 검색과 모델 생성 간의 상호 작용을 활성화합니다.

라마인덱스를 사용한 RAG 파이프라인:

공식 문서나 튜토리얼을 통해 RAG 파이프라인의 기능에 대해 알아보세요.
라마인덱스의 RAG 모델을 사용하여 예제를 설정하고 실행합니다.

실습 실험:

검색되는 문서 수, 생성된 번들 검색 전략, 온도 확장 등 다양한 매개변수로 실험을 시작하세요.
간단한 지식 집약적인 작업에서 모델을 실행해 보세요.

5일차: 더욱 강력한 RAG 시스템 구축 및 미세 조정하기

마지막 날의 목표는 RAG 모델을 미세 조정하고 다양한 유형의 RAG 모델을 이해함으로써 보다 강력한 RAG 모델을 만드는 것이었습니다. 아래는 5일차 주제에 대한 분석입니다:

고급 미세 조정: 도메인별 작업에 맞게 생성 및 검색 구성 요소를 최적화하는 방법을 살펴보세요.
확장: 더 큰 데이터 세트와 더 복잡한 지식 베이스로 RAG 시스템을 확장하세요.
성능 최적화: 메모리 사용량과 검색 속도를 극대화하는 방법(예: GPU에서 파이스 사용)을 알아보세요.
평가: 지식 집약적인 작업에서 BLEU, ROUGE 등과 같은 다양한 메트릭을 사용하여 문제 해결을 측정하여 RAG 모델을 평가하는 방법을 알아보세요.