VideoRAG: RAG-фреймворк для понимания сверхдлинных видео с поддержкой мультимодального поиска и построения графов знаний
Общее введение
VideoRAG - это генеративный фреймворк с улучшенным поиском, предназначенный для обработки и понимания очень длинных контекстных видео. Инструмент сочетает в себе графовую текстовую базу знаний с иерархическим мультимодальным контекстным кодированием для эффективной обработки сотен часов видеоконтента на одном графическом процессоре NVIDIA RTX 3090. videoRAG поддерживает согласованность семантики видео и оптимизирует эффективность поиска за счет динамического построения графа знаний. Проект, разработанный факультетом науки о данных Гонконгского университета, призван предоставить пользователям мощный инструмент для обработки сложных видеоданных.

Список функций
- Эффективная работа с очень длинными контекстными видео: обрабатывайте сотни часов видеоконтента с помощью одного графического процессора NVIDIA RTX 3090.
- Структурированный индекс знаний о видео: Переработайте сотни часов видеоконтента в краткий граф знаний.
- мультимодальный поиск: Сочетает текстовую семантику и визуальный контент для определения наиболее релевантных видеороликов, чтобы предоставить исчерпывающий ответ.
- Недавно созданный эталон LongerVideos: Содержит более 160 видеоматериалов общим объемом 134 часа, включающих лекции, документальные и развлекательные фильмы.
- двухканальная архитектура: Сочетание графовой текстовой базы знаний и иерархического мультимодального кодирования контекста для поддержания семантической согласованности между видеозаписями.
Использование помощи
Процесс установки
- Создайте и активируйте среду conda:
conda create --name videorag python=3.11
conda activate videorag
- Установите необходимые пакеты Python:
pip install numpy==1.26.4 torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2
pip install accelerate==0.30.1 bitsandbytes==0.43.1 moviepy==1.0.3
pip install git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d
pip install timm==0.6.7 ftfy regex einops fvcore eva-decord==0.6.1 iopath matplotlib types-regex cartopy
pip install ctranslate2==4.4.0 faster_whisper neo4j hnswlib xxhash nano-vectordb
pip install transformers==4.37.1 tiktoken openai tenacity
- Установите ImageBind:
cd ImageBind
pip install .
- Загрузите необходимые файлы контрольных точек:
git clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
git clone https://huggingface.co/Systran/faster-distil-whisper-large-v3
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
cd ..
Процесс использования
- Извлечение знаний из видео: В VideoRAG подается несколько видео, и система автоматически извлекает и строит граф знаний.
- Ответ на запросПользователи могут ввести запрос, и VideoRAG предоставит исчерпывающий ответ на основе построенного графа знаний и мультимодального механизма поиска.
- Поддержка нескольких языков: В настоящее время VideoRAG был протестирован только в англоязычной среде, если вам нужно работать с мультиязычным видео, рекомендуется изменить модель WhisperModel в asr.py.
Основные функции
- Загрузка видео: Загрузите видеофайлы в систему, которая автоматически обработает их и извлечет знания.
- Ввод запроса: Введите вопрос в поле запроса, и система предоставит подробный ответ, основанный на графе знаний и механизме мультимодального поиска.
- Витрина результатов: Система отображает соответствующие видеоклипы и текстовые ответы, на которые пользователи могут нажимать для просмотра подробностей.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...