AI 엔지니어링 아카데미: 2.14 RAPTOR: 트리 구조 검색의 향상된 생성을 위한 재귀적 요약 처리

AI 기술 자료8개월 전 업데이트 AI 공유 서클
1.6K 00

소개

RAPTOR(Recursive Abstract Processing for Tree-Structured Retrieval Enhanced Generation)는 고급 검색 강화 생성(RAG) 방식입니다. 계층적 문서 구조화 및 요약 기법을 도입하여 기존 방식을 개선하여 다음과 같은 기능을 제공합니다. RAG 프로세스.

https://github.com/adithya-s-k/AI-Engineering.academy/tree/main/RAG/09_RAPTOR

 

기관차

기존의 RAG 시스템은 대량의 문서 컬렉션과 복잡한 쿼리로 인해 어려움을 겪는 경우가 많습니다. 랩터는 문서 코퍼스를 계층적으로 표현하여 보다 상세하고 효율적인 검색을 가능하게 함으로써 이러한 문제를 해결합니다.

방법론적 세부 사항

AI工程学院:2.14RAPTOR: 树结构化检索增强生成的递归摘要处理

 

문서 전처리 및 벡터 저장소 생성

  1. 문서를 관리하기 쉬운 덩어리로 나누세요.
  2. 적절한 임베딩 모델을 사용하여 각 너겟을 임베드합니다.
  3. 임베딩 벡터를 클러스터링하여 유사한 콘텐츠를 그룹화합니다.
  4. 클러스터링 결과를 요약하여 더 높은 수준의 추상적 표현을 만듭니다.
  5. 이러한 요약 및 원본 텍스트 블록을 사용하여 계층적 트리 구조(RAPTOR 트리)를 구성할 수 있습니다.

검색 개선 생성 워크플로

  1. 사용자 쿼리는 동일한 임베딩 모델을 사용하여 임베드됩니다.
  2. RAPTOR 트리를 탐색하여 관련 노드(요약 또는 문서 블록)를 찾습니다.
  3. 검색 결과를 원래 사용자 쿼리와 병합하여 컨텍스트를 형성합니다.
  4. 이 컨텍스트는 최종 응답을 생성하기 위해 대규모 언어 모델(LLM)로 전달됩니다.

RAPTOR의 핵심 기능

  • 계층적 문서 표현: 문서 콘텐츠의 트리 구조를 만듭니다.
  • 다단계 요약: 요약 정보가 여러 단계로 제공됩니다.
  • 효율적인 검색: 트리 탐색을 통해 더 빠르고 관련성 높은 정보를 검색할 수 있습니다.
  • 확장성: 플랫 벡터 스토리지에 비해 대량의 문서 컬렉션을 더 잘 처리할 수 있습니다.

이 방법의 장점

  1. 문맥 관련성 개선: 계층적 구조로 쿼리와 관련 콘텐츠를 더 잘 매칭합니다.
  2. 포리스트 검색이 더 효율적: 전체 검색에 비해 트리 탐색 방식이 더 효율적입니다.
  3. 복잡한 쿼리 처리: 다단계 구조는 여러 문서 섹션에 걸친 정보에 대한 쿼리를 처리하는 데 도움이 됩니다.
  4. 대용량 문서 세트 처리: 기존 방식보다 확장성이 뛰어납니다.

평결에 도달하기

RAPTOR는 요약 및 트리 구조의 문서 표현과 검색 메커니즘을 도입해 RAG 프로세스의 품질과 효율성을 향상시킵니다. 이 접근 방식은 특히 대규모의 복잡한 문서 컬렉션의 경우 정보 검색의 정확성과 문맥적 연관성을 크게 향상시킬 것으로 기대됩니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...