일반 소개
위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 다룰 때 오류가 발생하기 쉬운데, WikiChat은 Wikipedia와 7단계 파이프라인을 사용하여 응답의 정확성을 보장합니다. 이 프로젝트는 여러 언어를 지원하며 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보를 검색할 수 있습니다.WikiChat은 또한 고품질 Wikipedia 전처리 스크립트를 제공하고 확장 가능한 벡터 검색을 위해 최첨단 다국어 검색 모델인 BGE-M3 및 Qdrant를 사용합니다.

기능 목록
- 다국어 지원기본적으로 10가지 언어로 위키백과에서 정보를 검색하는 기능이 지원됩니다.
- 향상된 정보 검색표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
- 고품질 Wikipedia 전처리 스크립트최신 다국어 검색 모델 BGE-M3 사용.
- 무료 다국어 위키백과 검색 API: 고품질의 무료(단, 요금 제한) 검색 API를 제공합니다.
- 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원됩니다.
- 최적화된 파이프라인더 빠르고 비용 효율적인 배관 옵션을 제공합니다.
- LangChain 호환성랭체인과 완벽하게 호환됩니다.
- 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하고 Azure에 연결하기 위한 코드를 제공합니다. 코스모스 DB에 대화를 저장합니다.
도움말 사용
설치 프로세스
- 종속성 설치::
git clone https://github.com/stanford-oval/WikiChat.git cd WikiChat conda env create --file conda_env.yaml conda activate wikichat python -m spacy download en_core_web_sm
- Docker 설치설치 방법은 공식 Docker 설명서를 따르세요.
- LLM 구성::
- 상자에 데이터 쓰기(설문지 또는 웹 양식에)
llm_config.yaml
파일의 관련 필드입니다. - 라는 파일을 만듭니다.
API_KEYS
파일을 열고 필요한 API 키를 설정합니다.
- 상자에 데이터 쓰기(설문지 또는 웹 양식에)
- 구성 정보 검색::
- 기본 위키백과 검색 API를 사용합니다.
- 또는 Wikipedia 색인을 다운로드하여 호스팅하세요.
- 또는 직접 색인을 만들 수도 있습니다.
- WikiChat 실행::
inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
기능 작동 흐름
- 다국어 지원위키챗은 기본적으로 영어, 중국어, 스페인어, 포르투갈어, 러시아어, 독일어, 프랑스어, 이탈리아어, 일본어, 페르시아어 등 10가지 언어로 위키백과에서 정보를 검색합니다.
- 정보 검색최신 다국어 검색 모델 BGE-M3를 사용하여 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
- 무료 검색 API1억 8천만 개 이상의 벡터 임베딩을 지원하는 고품질의 무료 다국어 위키백과 검색 API를 제공합니다.
- 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원되며, 여기에는 OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai 및 Groq 모델.
- 파이프라인 최적화더 빠르고 비용 효율적인 파이프라인 옵션 제공: WikiChat의 "생성" 단계와 "명세서 추출" 단계를 병합하여 성능을 최적화할 수 있습니다.
- LangChain 호환성LangChain과 완벽하게 호환되며 여러 LLM의 원활한 통합을 지원합니다.
- 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하는 코드를 제공하고, 대화를 저장하기 위해 Azure Cosmos DB 데이터베이스에 연결합니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...