VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

57.5K 00

Introducción general

VideoRAG es un marco generativo de recuperación mejorado diseñado para procesar y comprender vídeos contextuales de gran duración. La herramienta combina una base de conocimiento textual basada en grafos con la codificación jerárquica multimodal del contexto para procesar con eficiencia cientos de horas de contenido de vídeo en una sola GPU NVIDIA RTX 3090. videoRAG mantiene la coherencia entre la semántica del vídeo y optimiza la eficiencia de la recuperación construyendo dinámicamente un grafo de conocimiento. Desarrollado por el Departamento de Ciencia de Datos de la Universidad de Hong Kong, el proyecto pretende proporcionar a los usuarios una potente herramienta para procesar datos de vídeo complejos.

Lista de funciones

Gestión eficaz de vídeos contextuales muy largos: Procesa cientos de horas de contenido de vídeo con una sola GPU NVIDIA RTX 3090.
Índice de conocimientos de vídeo estructurado: Destile cientos de horas de contenido de vídeo en un gráfico de conocimiento conciso.
búsqueda multimodal: Combina la semántica textual y el contenido visual para identificar los vídeos más relevantes y ofrecer una respuesta exhaustiva.
Nuevo punto de referencia LongerVideos: Contiene más de 160 vídeos con un total de 134 horas de conferencias, documentales y entretenimiento.
arquitectura de doble canalCombinación de una base de conocimiento textual basada en grafos y una codificación jerárquica multimodal del contexto para mantener la coherencia semántica entre vídeos.

Utilizar la ayuda

Proceso de instalación

Crea y activa el entorno conda:

   conda create --name videorag python=3.11
conda activate videorag

Instale los paquetes Python necesarios:

   pip install numpy==1.26.4 torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2
pip install accelerate==0.30.1 bitsandbytes==0.43.1 moviepy==1.0.3
pip install git+https://github.com/facebookresearch/pytorchvideo.git@28fe037d212663c6a24f373b94cc5d478c8c1a1d
pip install timm==0.6.7 ftfy regex einops fvcore eva-decord==0.6.1 iopath matplotlib types-regex cartopy
pip install ctranslate2==4.4.0 faster_whisper neo4j hnswlib xxhash nano-vectordb
pip install transformers==4.37.1 tiktoken openai tenacity

Instale ImageBind:

   cd ImageBind
pip install .

Descargue los archivos de puntos de control necesarios:

   git clone https://huggingface.co/openbmb/MiniCPM-V-2_6-int4
git clone https://huggingface.co/Systran/faster-distil-whisper-large-v3
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth
cd ..

Proceso de utilización

Extracción de conocimientos de vídeoVideoRAG: Se introducen varios vídeos en VideoRAG y el sistema extrae y construye automáticamente un grafo de conocimiento.
Respuesta a la consultaLos usuarios pueden introducir una consulta y VideoRAG proporcionará una respuesta exhaustiva basada en el grafo de conocimiento construido y el mecanismo de búsqueda multimodal.
Soporte multilingüeVideoRAG: Actualmente VideoRAG sólo ha sido probado en el entorno Inglés, si usted necesita para hacer frente a multi-idioma de vídeo, se recomienda modificar el WhisperModel en asr.py.

Funciones principales

Cargar vídeoCarga archivos de vídeo en el sistema, que los procesará y extraerá automáticamente.
Entrada de consultasEl sistema proporciona una respuesta detallada basada en el grafo de conocimiento y el mecanismo de búsqueda multimodal.
ResultadosEl sistema muestra videoclips relevantes y respuestas de texto en las que los usuarios pueden hacer clic para ver los detalles.

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Recuperación de conocimientos y marco RAG

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Reddo: un motor de búsqueda con inteligencia artificial que va directamente a la página de destino de la demanda, con análisis de productos y búsqueda de noticias tecnológicas.

Últimos recursos sobre IA # Herramienta de búsqueda de IA

hace 1 año

044.2K

Galileo AI: indicaciones de texto o imágenes de referencia para generar hermosos borradores de diseño de interfaz de usuario.

Últimos recursos sobre IA # AI Diseño de página

hace 1 año

052K

JoyGen: herramienta de edición de vídeo sonoro 3D con profundidad de campo para retratos hablados

Últimos recursos sobre IA # AI Java Proyecto de código abierto # AI Digital Man

hace 1 año

051.4K

CleverBee: asistente de investigación de código abierto que genera estudios de citas

Últimos recursos sobre IA # AI Java Proyecto de código abierto # Generar un informe de investigación en profundidad

hace 10 meses

045.6K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Funciones principales

Tifa-Deepsex-14b-CoT: una gran modelo especializada en juegos de rol y generación de ficción ultralarga

Galileo AI: indicaciones de texto o imágenes de referencia para generar hermosos borradores de diseño de interfaz de usuario.

Artículos relacionados

Reddo: un motor de búsqueda con inteligencia artificial que va directamente a la página de destino de la demanda, con análisis de productos y búsqueda de noticias tecnológicas.

Galileo AI: indicaciones de texto o imágenes de referencia para generar hermosos borradores de diseño de interfaz de usuario.

JoyGen: herramienta de edición de vídeo sonoro 3D con profundidad de campo para retratos hablados

CleverBee: asistente de investigación de código abierto que genera estudios de citas

Sin comentarios

Últimas colecciones

Últimos artículos

VideoRAG: un marco RAG para la comprensión de vídeos ultralargos con soporte para la recuperación multimodal y la construcción de grafos de conocimiento

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Proceso de utilización

Funciones principales

Tifa-Deepsex-14b-CoT: una gran modelo especializada en juegos de rol y generación de ficción ultralarga

Galileo AI: indicaciones de texto o imágenes de referencia para generar hermosos borradores de diseño de interfaz de usuario.

Artículos relacionados

Reddo: un motor de búsqueda con inteligencia artificial que va directamente a la página de destino de la demanda, con análisis de productos y búsqueda de noticias tecnológicas.

Galileo AI: indicaciones de texto o imágenes de referencia para generar hermosos borradores de diseño de interfaz de usuario.

JoyGen: herramienta de edición de vídeo sonoro 3D con profundidad de campo para retratos hablados

CleverBee: asistente de investigación de código abierto que genera estudios de citas

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos