일반 소개
MiniRAG는 이기종 그래프 인덱싱과 경량 토폴로지 강화 검색을 통해 작은 모델에서도 우수한 RAG 성능을 달성하는 것을 목표로 하는 매우 간단한 검색 증강 생성(RAG) 프레임워크입니다. 홍콩대학교 데이터 과학 연구소(HKUDS)에서 개발한 이 프로젝트는 기존 RAG 프레임워크에서 소규모 언어 모델(SLM)이 직면한 성능 저하 문제를 해결하는 데 중점을 두고 있습니다. miniRAG는 텍스트 청크와 명명된 엔터티를 하나의 통합된 구조로 결합하여 복잡한 의미 이해에 대한 의존도를 줄이고 효율적인 지식 검색을 위해 그래프 구조를 활용합니다. 이 프레임워크는 대규모 언어 모델(LLM) 접근 방식의 251 TP3T의 저장 공간만으로 비슷한 성능을 달성합니다.

기능 목록
- 이기종 그래프 인덱싱 메커니즘: 텍스트 블록과 명명된 엔티티를 결합하여 복잡한 의미 이해에 대한 의존도를 줄입니다.
- 경량 토폴로지 강화 검색: 그래프 구조를 사용해 효율적으로 지식을 검색합니다.
- 소규모 언어 모델과 호환: 리소스가 제한된 시나리오에서 효율적인 RAG 성능을 제공합니다.
- 포괄적인 벤치마크 데이터 세트: 복잡한 쿼리에서 경량 RAG 시스템의 성능을 평가하기 위해 LiHua-World 데이터 세트가 제공됩니다.
- 간편한 설치: 소스 코드 및 PyPI를 통한 설치를 지원합니다.
도움말 사용
설치 프로세스
소스에서 설치(권장)
- MiniRAG 리포지토리 복제하기:
git clone https://github.com/HKUDS/MiniRAG.git
cd MiniRAG
- 종속성을 설치합니다:
pip install -e .
PyPI에서 설치
미니랙은 라이트랙을 기반으로 하므로 직접 설치할 수 있습니다:
pip install lightrag-hku
빠른 시작
- 필요한 데이터 세트를 다운로드하여 다음 위치에 놓습니다.
./dataset
카탈로그로 이동합니다. 예를 들어, LiHua-World 데이터 세트는./dataset/LiHua-World/data/
카탈로그. - 다음 명령을 사용하여 데이터 집합을 색인합니다:
python ./reproduce/Step_0_index.py
- Q&A 모듈을 실행합니다:
python ./reproduce/Step_1_QA.py
- 또는
./main.py
의 코드는 미니랙을 초기화합니다.
주요 기능
이기종 그래프 인덱싱 메커니즘
MiniRAG는 텍스트 블록과 명명된 엔티티를 통합된 구조로 결합하여 이기종 그래프 인덱스를 생성합니다. 사용자는 아래 단계에 따라 이를 수행할 수 있습니다:
- 데이터 집합을 준비하고 필요에 따라 데이터 집합의 형식이 지정되었는지 확인합니다.
- 인덱싱 스크립트를 실행합니다:
python ./reproduce/Step_0_index.py
- 인덱싱이 완료되면 데이터는 나중에 검색할 수 있도록 지정된 디렉터리에 저장됩니다.
경량 토폴로지 향상된 검색
미니래그는 효율적인 지식 검색을 위해 그래프 구조를 활용하며, 사용자는 다음 단계에 따라 이를 검색할 수 있습니다:
- 미니랙을 초기화합니다:
from minirag import MiniRAG
model = MiniRAG()
- 데이터 집합을 로드하고 검색합니다:
results = model.retrieve("你的查询")
- 검색 결과를 처리하고 응답을 생성합니다:
response = model.generate(results)
위의 단계를 통해 사용자는 효율적인 검색 향상 생성을 위해 MiniRAG의 기능을 최대한 활용할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...