WikiChat: Wikipedia 데이터를 사용하여 지식을 검색할 수 있는 채팅 도구

최신 AI 리소스12개월 전에 게시됨 AI 공유 서클
36.9K 00
堆友AI

일반 소개

위키챗은 스탠포드 대학교에서 개발한 실험적인 챗봇으로, 위키백과에서 데이터를 검색하여 대규모 언어 모델의 사실성을 개선하는 것을 목표로 합니다. 대규모 언어 모델(예: ChatGPT 및 GPT-4)은 최신 정보나 덜 인기 있는 주제를 다룰 때 오류가 발생하기 쉬운데, WikiChat은 Wikipedia와 7단계 파이프라인을 사용하여 응답의 정확성을 보장합니다. 이 프로젝트는 여러 언어를 지원하며 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보를 검색할 수 있습니다.WikiChat은 또한 고품질 Wikipedia 전처리 스크립트를 제공하고 확장 가능한 벡터 검색을 위해 최첨단 다국어 검색 모델인 BGE-M3 및 Qdrant를 사용합니다.

WikiChat:使用维基百科数据检索知识的聊天工具

 

기능 목록

  • 다국어 지원기본적으로 10가지 언어로 위키백과에서 정보를 검색하는 기능이 지원됩니다.
  • 향상된 정보 검색표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
  • 고품질 Wikipedia 전처리 스크립트최신 다국어 검색 모델 BGE-M3 사용.
  • 무료 다국어 위키백과 검색 API: 고품질의 무료(단, 요금 제한) 검색 API를 제공합니다.
  • 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원됩니다.
  • 최적화된 파이프라인더 빠르고 비용 효율적인 배관 옵션을 제공합니다.
  • LangChain 호환성랭체인과 완벽하게 호환됩니다.
  • 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하고 Azure에 연결하기 위한 코드를 제공합니다. 코스모스 DB에 대화를 저장합니다.

 

도움말 사용

설치 프로세스

  1. 종속성 설치::
    git clone https://github.com/stanford-oval/WikiChat.git
    cd WikiChat
    conda env create --file conda_env.yaml
    conda activate wikichat
    python -m spacy download en_core_web_sm
    
  2. Docker 설치설치 방법은 공식 Docker 설명서를 따르세요.
  3. LLM 구성::
    • 상자에 데이터 쓰기(설문지 또는 웹 양식에) llm_config.yaml 파일의 관련 필드입니다.
    • 라는 파일을 만듭니다. API_KEYS 파일을 열고 필요한 API 키를 설정합니다.
  4. 구성 정보 검색::
    • 기본 위키백과 검색 API를 사용합니다.
    • 또는 Wikipedia 색인을 다운로드하여 호스팅하세요.
    • 또는 직접 색인을 만들 수도 있습니다.
  5. WikiChat 실행::
    inv demo --retriever-endpoint "http://0.0.0.0:<port number>/search"
    

기능 작동 흐름

  1. 다국어 지원위키챗은 기본적으로 영어, 중국어, 스페인어, 포르투갈어, 러시아어, 독일어, 프랑스어, 이탈리아어, 일본어, 페르시아어 등 10가지 언어로 위키백과에서 정보를 검색합니다.
  2. 정보 검색최신 다국어 검색 모델 BGE-M3를 사용하여 표, 인포박스, 목록과 같은 구조화된 데이터에서 정보 검색을 지원합니다.
  3. 무료 검색 API1억 8천만 개 이상의 벡터 임베딩을 지원하는 고품질의 무료 다국어 위키백과 검색 API를 제공합니다.
  4. 확장된 LLM 호환성통합 인터페이스를 통해 100개 이상의 LLM이 지원되며, 여기에는 OpenAI, Azure, Anthropic, Mistral, HuggingFace, Together.ai 및 Groq 모델.
  5. 파이프라인 최적화더 빠르고 비용 효율적인 파이프라인 옵션 제공: WikiChat의 "생성" 단계와 "명세서 추출" 단계를 병합하여 성능을 최적화할 수 있습니다.
  6. LangChain 호환성LangChain과 완벽하게 호환되며 여러 LLM의 원활한 통합을 지원합니다.
  7. 다중 사용자 액세스 배포간단한 프런트엔드 및 백엔드를 배포하는 코드를 제공하고, 대화를 저장하기 위해 Azure Cosmos DB 데이터베이스에 연결합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...