WikiChat: Wikipedia 데이터를 사용하여 지식을 검색할 수 있는 채팅 도구

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
1.8K 00

일반 소개

위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 다룰 때 오류가 발생하기 쉬운데, WikiChat은 Wikipedia와 7단계 파이프라인을 사용하여 응답의 정확성을 보장합니다. 이 프로젝트는 여러 언어를 지원하며 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보를 검색할 수 있습니다.WikiChat은 또한 고품질 Wikipedia 전처리 스크립트를 제공하고 확장 가능한 벡터 검색을 위해 최첨단 다국어 검색 모델인 BGE-M3 및 Qdrant를 사용합니다.

WikiChat:使用维基百科数据检索知识的聊天工具

 

기능 목록

  • 다국어 지원기본적으로 10가지 언어로 위키백과에서 정보를 검색하는 기능이 지원됩니다.
  • 향상된 정보 검색표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
  • 고품질 Wikipedia 전처리 스크립트최신 다국어 검색 모델 BGE-M3 사용.
  • 무료 다국어 위키백과 검색 API: 고품질의 무료(단, 요금 제한) 검색 API를 제공합니다.
  • 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원됩니다.
  • 최적화된 파이프라인더 빠르고 비용 효율적인 배관 옵션을 제공합니다.
  • LangChain 호환성랭체인과 완벽하게 호환됩니다.
  • 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하고 Azure에 연결하기 위한 코드를 제공합니다. 코스모스 DB에 대화를 저장합니다.

 

도움말 사용

설치 프로세스

  1. 종속성 설치::
    git clone https://github.com/stanford-oval/WikiChat.git
    cd WikiChat
    conda env create --file conda_env.yaml
    conda activate wikichat
    python -m spacy download en_core_web_sm
    
  2. Docker 설치설치 방법은 공식 Docker 설명서를 따르세요.
  3. LLM 구성::
    • 상자에 데이터 쓰기(설문지 또는 웹 양식에) llm_config.yaml 파일의 관련 필드입니다.
    • 라는 파일을 만듭니다. API_KEYS 파일을 열고 필요한 API 키를 설정합니다.
  4. 구성 정보 검색::
    • 기본 위키백과 검색 API를 사용합니다.
    • 또는 Wikipedia 색인을 다운로드하여 호스팅하세요.
    • 또는 직접 색인을 만들 수도 있습니다.
  5. WikiChat 실행::
    inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
    

기능 작동 흐름

  1. 다국어 지원위키챗은 기본적으로 영어, 중국어, 스페인어, 포르투갈어, 러시아어, 독일어, 프랑스어, 이탈리아어, 일본어, 페르시아어 등 10가지 언어로 위키백과에서 정보를 검색합니다.
  2. 정보 검색최신 다국어 검색 모델 BGE-M3를 사용하여 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
  3. 무료 검색 API1억 8천만 개 이상의 벡터 임베딩을 지원하는 고품질의 무료 다국어 위키백과 검색 API를 제공합니다.
  4. 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원되며, 여기에는 OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai 및 Groq 모델.
  5. 파이프라인 최적화더 빠르고 비용 효율적인 파이프라인 옵션 제공: WikiChat의 "생성" 단계와 "명세서 추출" 단계를 병합하여 성능을 최적화할 수 있습니다.
  6. LangChain 호환성LangChain과 완벽하게 호환되며 여러 LLM의 원활한 통합을 지원합니다.
  7. 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하는 코드를 제공하고, 대화를 저장하기 위해 Azure Cosmos DB 데이터베이스에 연결합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...