RAG의 경로 플래너를 배우는 5일간의 시간

AI 기술 자료11개월 전에 게시 됨 AI 공유 서클
9.3K 00

RAG be 검색 검색 증강 생성의 약어입니다. RAG가 무엇인지 더 명확하게 이해하기 위해 이 용어를 세분화해 보겠습니다:

R -> 검색

A -> 향상

G -> 생성

기본적으로 현재 사용하는 대규모 언어 모델(LLM)은 실시간으로 업데이트되지 않습니다. LLM(예: ChatGPT)에 질문을 하면 착각하여 잘못된 대답을 할 수 있습니다. 이를 방지하기 위해 더 많은 데이터(전 세계적으로 공개된 데이터가 아닌 일부 사람들만 접근할 수 있는 데이터)로 LLM을 학습시킨 다음, 이 데이터로 학습된 LLM에 질문을 하여 관련 정보를 제공할 수 있도록 합니다. RAG를 사용하지 않으면 다음과 같은 일이 발생할 수 있습니다:

  • 환각 가능성 증가
  • LLM 노후화
  • 정확성 및 사실성 감소

아래 차트를 참조하세요:

5 天学习 RAG 的路线规划图

RAG는 검색 기반 시스템의 장점과 LLM의 장점을 결합하여 보다 정확하고 관련성 있으며 유익한 의사 결정을 내리는 하이브리드 시스템입니다. 이 접근 방식은 생성 프로세스에서 외부 지식 소스를 활용하여 최신의 상황에 맞는 정보를 제공하는 모델의 능력을 향상시킵니다. 위 다이어그램에서

  • 첫 번째 단계에서는 사용자가 LLM에 쿼리를 수행합니다.
  • 그런 다음 쿼리가
  • 그 후
  • 검색된 문서는 원래 쿼리와 함께 언어 모델(LLM)로 전송됩니다.
  • 생성기는 쿼리와 관련 문서를 모두 처리하고 응답을 생성한 다음 사용자에게 반환합니다.

이제 기본부터 고급까지 RAG를 배우는 데 관심이 많으시다는 것을 잘 알고 있으므로 단 5일 만에 RAG 시스템을 배울 수 있는 완벽한 로드맵을 보여드리겠습니다. 네, 제 말을 잘 들으셨죠? 단 5일 만에 RAG 시스템을 마스터할 수 있습니다. 학습 로드맵으로 바로 들어가 보겠습니다:

5 天学习 RAG 的路线规划图

 

1일차: RAG의 토대 마련하기

1일차의 핵심 목표는 RAG를 전반적으로 이해하고 RAG의 주요 구성 요소를 살펴보는 것입니다. 아래는 1일차 주제에 대한 분석입니다:

RAG 개요.

  • RAG의 기능과 중요성, 그리고 현대 NLP에서 차지하는 위치를 인식하세요.
  • 검색 증강 생성(RAG)은 외부 정보를 도입하여 생성된 모델의 효율성을 향상시킨다는 것이 주요 개념입니다.

주요 구성 요소.

  • 검색과 생성을 따로 학습하세요.
  • 검색(예: 밀도 높은 단락 검색(DPR), BM25) 및 생성(예: GPT, BART, T5)의 아키텍처를 이해합니다.

 

2일차: 나만의 검색 시스템 구축

2일 차의 핵심 목표는 검색 시스템을 성공적으로 구현하는 것입니다(기본적인 시스템이라도). 아래는 2일차 주제에 대한 세부 내용입니다:

검색 모델에 대해 자세히 살펴봅니다.

  • 밀도 검색과 희소 검색의 차이점을 알아보세요:
  • 집중 검색: DPR, 콜버트.
  • 희소 검색. BM25, TF-IDF.
  • 각 방법의 장단점을 살펴보세요.

검색 실현.

  • 기본 검색 작업에는 elasticsearch(희소 검색용) 또는 faiss(고밀도 검색용) 같은 라이브러리를 사용하세요.
  • 허깅페이스의 DPR 튜토리얼을 통해 지식창고에서 관련 문서를 검색하는 방법을 알아보세요.

지식 데이터베이스.

  • 지식창고의 구조를 이해합니다.
  • 말뭉치 전처리 및 문서 색인화와 같은 검색 작업을 위해 데이터를 준비하는 방법을 알아보세요.

 

3일차: 생성 모델 미세 조정 및 결과 관찰하기

3일차의 목표는 생성 모델을 미세 조정하고 결과를 관찰하여 검색이 생성 향상에 어떤 역할을 하는지 이해하는 것이었습니다. 다음은 3일차 주제에 대한 분석입니다:

제너레이티브 모델링에 대해 자세히 살펴봅니다.

  • T5, GPT-2, BART와 같은 훈련된 모델을 살펴보세요.
  • 작업(예: 퀴즈 또는 요약)을 생성하는 프로세스를 미세 조정하는 방법을 알아보세요.

모델 생성 실습

  • 허깅 페이스를 적용하면 다음과 같은 이점이 있습니다. 트랜스포머 모델을 사용하여 작은 데이터 세트에서 모델을 최적화합니다.
  • 이 테스트는 생성 모델을 사용하여 질문에 대한 답을 생성합니다.

검색과 생성의 상호 작용 살펴보기.

  • 생성 모델이 검색된 데이터를 입력하는 방식을 조사합니다.
  • 검색을 통해 생성된 응답의 정확성과 품질을 향상시킬 수 있는 방법을 알아보세요.

 

4일차: 운영 RAG 시스템 구현하기

이제 목표에 가까워졌습니다. 오늘의 주요 목표는 간단한 데이터 세트에서 작동하는 RAG 시스템을 구현하고 매개변수 튜닝에 익숙해지는 것이었습니다. 4일차 주제에 대한 자세한 내용은 다음과 같습니다:

검색과 생성을 결합했습니다:

  • 생성 및 검색된 컴포넌트를 단일 시스템으로 통합합니다.
  • 출력 검색과 모델 생성 간의 상호 작용을 활성화합니다.

라마인덱스를 사용한 RAG 파이프라인:

  • 공식 문서나 튜토리얼을 통해 RAG 파이프라인의 기능에 대해 알아보세요.
  • 라마인덱스의 RAG 모델을 사용하여 예제를 설정하고 실행합니다.

실습 실험:

  • 검색되는 문서 수, 생성된 번들 검색 전략, 온도 확장 등 다양한 매개변수로 실험을 시작하세요.
  • 간단한 지식 집약적인 작업에서 모델을 실행해 보세요.

 

5일차: 더욱 강력한 RAG 시스템 구축 및 미세 조정하기

마지막 날의 목표는 RAG 모델을 미세 조정하고 다양한 유형의 RAG 모델을 이해함으로써 보다 강력한 RAG 모델을 만드는 것이었습니다. 아래는 5일차 주제에 대한 분석입니다:

  • 고급 미세 조정: 도메인별 작업에 맞게 생성 및 검색 구성 요소를 최적화하는 방법을 살펴보세요.
  • 확장: 더 큰 데이터 세트와 더 복잡한 지식 베이스로 RAG 시스템을 확장하세요.
  • 성능 최적화: 메모리 사용량과 검색 속도를 극대화하는 방법(예: GPU에서 파이스 사용)을 알아보세요.
  • 평가: 지식 집약적인 작업에서 BLEU, ROUGE 등과 같은 다양한 메트릭을 사용하여 문제 해결을 측정하여 RAG 모델을 평가하는 방법을 알아보세요.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...