VideoRAG: 멀티모달 검색 및 지식 그래프 구성을 지원하여 매우 긴 동영상을 이해하기 위한 RAG 프레임워크입니다.

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
13.1K 00

일반 소개

VideoRAG는 매우 긴 컨텍스트 비디오를 처리하고 이해하기 위해 설계된 검색 강화 생성 프레임워크입니다. 이 도구는 그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 단일 NVIDIA RTX 3090 GPU에서 수백 시간의 동영상 콘텐츠를 효율적으로 처리합니다. videoRAG는 동영상 의미론 전반에서 일관성을 유지하고 지식 그래프를 동적으로 구성하여 검색 효율성을 최적화합니다. 홍콩대학교 데이터 과학과에서 개발한 이 프로젝트는 사용자에게 복잡한 비디오 데이터를 처리할 수 있는 강력한 도구를 제공하는 것을 목표로 합니다.

VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

 

기능 목록

  • 매우 긴 컨텍스트 동영상의 효율적인 처리단일 NVIDIA RTX 3090 GPU로 수백 시간의 비디오 콘텐츠를 처리할 수 있습니다.
  • 구조화된 비디오 지식 색인수백 시간의 동영상 콘텐츠를 간결한 지식 그래프로 추출합니다.
  • 멀티모달 검색텍스트 의미와 시각적 콘텐츠를 결합하여 가장 관련성이 높은 동영상을 식별하여 포괄적인 답변을 제공합니다.
  • 새로 생성된 LongerVideos 벤치마크총 134시간 분량의 강의, 다큐멘터리, 예능 등 160개 이상의 동영상이 포함되어 있습니다.
  • 듀얼 채널 아키텍처그래프 중심의 텍스트 지식 기반과 계층적 멀티모달 컨텍스트 인코딩을 결합하여 비디오 간 의미론적 일관성을 유지합니다.

 

도움말 사용

설치 프로세스

  1. 콘다 환경을 만들고 활성화합니다:
   conda create --name videorag python=3.11
conda activate videorag
  1. 필요한 Python 패키지를 설치합니다:
   pip install numpy==1.26.4 torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2
pip install accelerate==0.30.1 bitsandbytes==0.43.1 moviepy==1.0.3
pip install git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d
pip install timm==0.6.7 ftfy regex einops fvcore eva-decord==0.6.1 iopath matplotlib types-regex cartopy
pip install ctranslate2==4.4.0 faster_whisper neo4j hnswlib xxhash nano-vectordb
pip install transformers==4.37.1 tiktoken openai tenacity
  1. ImageBind를 설치합니다:
   cd ImageBind
pip install .
  1. 필요한 체크포인트 파일을 다운로드하세요:
   git clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
git clone https://huggingface.co/Systran/faster-distil-whisper-large-v3
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
cd ..

사용 프로세스

  1. 비디오 지식 추출여러 개의 동영상을 VideoRAG에 입력하면 시스템이 자동으로 지식 그래프를 추출하고 구축합니다.
  2. 문의 응답사용자가 쿼리를 입력하면 VideoRAG가 구성된 지식 그래프와 멀티모달 검색 메커니즘을 기반으로 포괄적인 답변을 제공합니다.
  3. 다국어 지원현재 VideoRAG는 영어 환경에서만 테스트되었으며, 다국어 비디오를 처리해야 하는 경우 asr.py에서 WhisperModel을 수정할 것을 권장합니다.

주요 기능

  • 동영상 업로드: 동영상 파일을 시스템에 업로드하면 자동으로 지식을 처리하고 추출합니다.
  • 문의 입력검색창에 질문을 입력하면 지식 그래프와 멀티모달 검색 메커니즘을 기반으로 시스템이 자세한 답변을 제공합니다.
  • 결과 쇼케이스사용자가 클릭하여 세부 정보를 볼 수 있는 관련 동영상 클립과 텍스트 응답을 표시합니다.
© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...