VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento
Últimos recursos sobre IAPublicado hace 6 meses Círculo de intercambio de inteligencia artificial 1.9K 00
Introducción general
VideoRAG es un marco generativo de recuperación mejorado diseñado para procesar y comprender vídeos contextuales de gran duración. La herramienta combina una base de conocimiento textual basada en grafos con la codificación jerárquica multimodal del contexto para procesar con eficiencia cientos de horas de contenido de vídeo en una sola GPU NVIDIA RTX 3090. videoRAG mantiene la coherencia entre la semántica del vídeo y optimiza la eficiencia de la recuperación construyendo dinámicamente un grafo de conocimiento. Desarrollado por el Departamento de Ciencia de Datos de la Universidad de Hong Kong, el proyecto pretende proporcionar a los usuarios una potente herramienta para procesar datos de vídeo complejos.

Lista de funciones
- Gestión eficaz de vídeos contextuales muy largos: Procesa cientos de horas de contenido de vídeo con una sola GPU NVIDIA RTX 3090.
- Índice de conocimientos de vídeo estructurado: Destile cientos de horas de contenido de vídeo en un gráfico de conocimiento conciso.
- búsqueda multimodal: Combina la semántica textual y el contenido visual para identificar los vídeos más relevantes y ofrecer una respuesta exhaustiva.
- Nuevo punto de referencia LongerVideos: Contiene más de 160 vídeos con un total de 134 horas de conferencias, documentales y entretenimiento.
- arquitectura de doble canalCombinación de una base de conocimiento textual basada en grafos y una codificación jerárquica multimodal del contexto para mantener la coherencia semántica entre vídeos.
Utilizar la ayuda
Proceso de instalación
- Crea y activa el entorno conda:
conda create --name videorag python=3.11
conda activate videorag
- Instale los paquetes Python necesarios:
pip install numpy==1.26.4 torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2
pip install accelerate==0.30.1 bitsandbytes==0.43.1 moviepy==1.0.3
pip install git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d
pip install timm==0.6.7 ftfy regex einops fvcore eva-decord==0.6.1 iopath matplotlib types-regex cartopy
pip install ctranslate2==4.4.0 faster_whisper neo4j hnswlib xxhash nano-vectordb
pip install transformers==4.37.1 tiktoken openai tenacity
- Instale ImageBind:
cd ImageBind
pip install .
- Descargue los archivos de puntos de control necesarios:
git clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
git clone https://huggingface.co/Systran/faster-distil-whisper-large-v3
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
cd ..
Proceso de utilización
- Extracción de conocimientos de vídeoVideoRAG: Se introducen varios vídeos en VideoRAG y el sistema extrae y construye automáticamente un grafo de conocimiento.
- Respuesta a la consultaLos usuarios pueden introducir una consulta y VideoRAG proporcionará una respuesta exhaustiva basada en el grafo de conocimiento construido y el mecanismo de búsqueda multimodal.
- Soporte multilingüeVideoRAG: Actualmente VideoRAG sólo ha sido probado en el entorno Inglés, si usted necesita para hacer frente a multi-idioma de vídeo, se recomienda modificar el WhisperModel en asr.py.
Funciones principales
- Cargar vídeoCarga archivos de vídeo en el sistema, que los procesará y extraerá automáticamente.
- Entrada de consultasEl sistema proporciona una respuesta detallada basada en el grafo de conocimiento y el mecanismo de búsqueda multimodal.
- ResultadosEl sistema muestra videoclips relevantes y respuestas de texto en las que los usuarios pueden hacer clic para ver los detalles.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...