VideoRAG: RAG-фреймворк для понимания сверхдлинных видео с поддержкой мультимодального поиска и построения графов знаний

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

57.4K 00

Общее введение

VideoRAG - это генеративный фреймворк с улучшенным поиском, предназначенный для обработки и понимания очень длинных контекстных видео. Инструмент сочетает в себе графовую текстовую базу знаний с иерархическим мультимодальным контекстным кодированием для эффективной обработки сотен часов видеоконтента на одном графическом процессоре NVIDIA RTX 3090. videoRAG поддерживает согласованность семантики видео и оптимизирует эффективность поиска за счет динамического построения графа знаний. Проект, разработанный факультетом науки о данных Гонконгского университета, призван предоставить пользователям мощный инструмент для обработки сложных видеоданных.

Список функций

Эффективная работа с очень длинными контекстными видео: обрабатывайте сотни часов видеоконтента с помощью одного графического процессора NVIDIA RTX 3090.
Структурированный индекс знаний о видео: Переработайте сотни часов видеоконтента в краткий граф знаний.
мультимодальный поиск: Сочетает текстовую семантику и визуальный контент для определения наиболее релевантных видеороликов, чтобы предоставить исчерпывающий ответ.
Недавно созданный эталон LongerVideos: Содержит более 160 видеоматериалов общим объемом 134 часа, включающих лекции, документальные и развлекательные фильмы.
двухканальная архитектура: Сочетание графовой текстовой базы знаний и иерархического мультимодального кодирования контекста для поддержания семантической согласованности между видеозаписями.

Использование помощи

Процесс установки

Создайте и активируйте среду conda:

   conda create --name videorag python=3.11
conda activate videorag

Установите необходимые пакеты Python:

   pip install numpy==1.26.4 torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2
pip install accelerate==0.30.1 bitsandbytes==0.43.1 moviepy==1.0.3
pip install git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d
pip install timm==0.6.7 ftfy regex einops fvcore eva-decord==0.6.1 iopath matplotlib types-regex cartopy
pip install ctranslate2==4.4.0 faster_whisper neo4j hnswlib xxhash nano-vectordb
pip install transformers==4.37.1 tiktoken openai tenacity

Установите ImageBind:

   cd ImageBind
pip install .

Загрузите необходимые файлы контрольных точек:

   git clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
git clone https://huggingface.co/Systran/faster-distil-whisper-large-v3
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
cd ..

Процесс использования

Извлечение знаний из видео: В VideoRAG подается несколько видео, и система автоматически извлекает и строит граф знаний.
Ответ на запросПользователи могут ввести запрос, и VideoRAG предоставит исчерпывающий ответ на основе построенного графа знаний и мультимодального механизма поиска.
Поддержка нескольких языков: В настоящее время VideoRAG был протестирован только в англоязычной среде, если вам нужно работать с мультиязычным видео, рекомендуется изменить модель WhisperModel в asr.py.

Основные функции

Загрузка видео: Загрузите видеофайлы в систему, которая автоматически обработает их и извлечет знания.
Ввод запроса: Введите вопрос в поле запроса, и система предоставит подробный ответ, основанный на графе знаний и механизме мультимодального поиска.
Витрина результатов: Система отображает соответствующие видеоклипы и текстовые ответы, на которые пользователи могут нажимать для просмотра подробностей.