일반 소개
SimGRAG(SimGRAG: 지식 그래프 기반 검색 증강 생성을 위한 유사 하위그래프 활용)은 지식 그래프 기반 검색 증강 생성(RAG) 기반 접근 방식입니다. 이 프로젝트는 유사한 하위 그래프를 활용하여 Q&A 및 사실 확인과 같은 작업에서 지식 그래프의 성능을 향상시키는 것을 목표로 하며, SimGRAG는 플러그 앤 플레이 사용을 지원하고 대규모 언어 모델, 임베딩 모델 및 벡터 데이터베이스를 결합하여 효율적인 유사성 검색 및 생성 기능을 제공합니다. 이 프로젝트는 올라마, 노믹 임베딩 모델, 밀버스 벡터 데이터베이스와 같은 오픈 소스 솔루션에 의존하며, 사용자는 필요에 따라 이러한 구성 요소를 교체할 수 있습니다.


기능 목록
- 대규모 언어 모델 생성Llama 3 70B 모델을 사용한 생성 작업.
- 노드 및 관계 임베딩노믹 임베딩 모델을 사용하여 노드 및 관계 임베딩.
- 벡터 데이터베이스Milvus를 사용하여 노드 및 관계의 임베딩을 저장하는 효율적인 유사성 검색을 지원합니다.
- 데이터 준비MetaQA 및 FactKG 데이터 세트의 다운로드 및 준비를 지원합니다.
- 구성 파일다양한 요구에 맞게 수정 가능한 프로필을 제공합니다.
- 파이프라인 운영파이프라인을 실행하는 스크립트를 제공하고, MetaQA 및 FactKG 인덱싱과 쿼리를 지원합니다.
도움말 사용
설치 프로세스
- 올라마 설치::
- 올라마 공식 웹사이트를 방문하여 안내에 따라 올라마를 설치하세요.
- 설치가 완료되면 다음 명령을 실행하여 Llama 3 70B 모델을 시작합니다:
ollama run llama3:70b
- SimGRAG에 필요한 서비스를 시작합니다:
bash ollama_server.sh
- 노믹 임베디드 모델 설치::
- 노믹 임베딩 모델 복제:
mkdir -p data/raw cd data/raw git clone https://huggingface.co/nomic-ai/nomic-embed-text-v1
- Milvus 설치::
- Milvus 웹사이트를 방문하여 설명서에 따라 Milvus를 설치하세요.
- 설치가 완료되면 Milvus 서비스를 시작합니다.
데이터 준비
- 메타QA 데이터 세트::
- MetaQA 데이터 세트를 다운로드하여
data/raw
폴더로 이동합니다.
- MetaQA 데이터 세트를 다운로드하여
- FactKG 데이터 세트::
- FactKG 데이터 세트를 다운로드하여 다음을 수행합니다.
data/raw
폴더로 이동합니다.
- FactKG 데이터 세트를 다운로드하여 다음을 수행합니다.
러닝 파이프
- MetaQA::
- 인덱싱 및 쿼리를 위해 다음 명령을 실행합니다:
cd pipeline python metaQA_index.py python metaQA_query1hop.py python metaQA_query2hop.py python metaQA_query3hop.py
- FactKG::
- 인덱싱 및 쿼리를 위해 다음 명령을 실행합니다:
bash
cd pipeline
python factKG_index.py
python factKG_query.py
- 인덱싱 및 쿼리를 위해 다음 명령을 실행합니다:
구성 파일
- 구성 파일은
configs
폴더에서 사용자는 필요에 따라 다양한 작업과 데이터 세트에 맞게 프로필을 수정할 수 있습니다.
결과 보기
- 쿼리 결과는 다음과 같이 구성 파일에 지정된 출력 파일에 저장됩니다.
results/FactKG_query.txt
. 각 줄의 결과는 키가 있는 사전입니다.correct
최종 정답의 정답 여부를 나타냅니다.
위의 단계를 통해 사용자는 SimGRAG를 사용하여 지식 그래프 기반 검색 고도화 생성 작업을 빠르게 시작할 수 있습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...