Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop
Últimos recursos sobre IAPublicado hace 4 semanas Círculo de intercambio de inteligencia artificial 12.1K 00
¿Qué es Vidi2?
Vidi2 es un gran modelo de comprensión y generación de vídeo multimodal de segunda generación, de código abierto por ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de las modalidades de texto, vídeo y audio, y puede comprender simultáneamente el contenido de las imágenes, la información sonora y los comandos de lenguaje natural para lograr una interacción y un razonamiento intermodales. Localiza con precisión el intervalo de tiempo y la ubicación espacial de eventos específicos u objetos objetivo en el vídeo, y el modelo puede anotar automáticamente el periodo de tiempo y la zona objetivo correspondientes en la pantalla, con una precisión que puede llegar al nivel del milisegundo. Puede procesar horas de secuencias de vídeo sin procesar y recuperar rápidamente clips que coincidan con una semántica específica.

Características de Vidi2
- Capacidad de procesamiento multimodalEl sistema es capaz de comprender simultáneamente el contenido de la pantalla, la información sonora y las órdenes en lenguaje natural, lo que posibilita la interacción y el razonamiento intermodal.
- Posicionamiento espacial y temporal preciso (STG)El modelo puede localizar con precisión el intervalo de tiempo y la ubicación espacial de un evento específico o de un objeto objetivo en el vídeo, por ejemplo, según la descripción del texto "alguien realizó una determinada acción en el minuto X", el modelo puede marcar automáticamente el periodo de tiempo y la zona objetivo correspondientes en la pantalla, y el error puede ser preciso hasta el nivel del milisegundo.
- Comprensión y recuperación de vídeos largosLa capacidad de procesamiento: puede procesar horas de secuencias de vídeo sin procesar, recuperar rápidamente segmentos que coincidan con una semántica específica y mantener una alta precisión incluso cuando el contenido del vídeo es complejo y la escena cambia con frecuencia. En situaciones de vídeo de larga duración (>1 hora), el rendimiento supera al de los modelos comerciales convencionales.
- Cuestionario en vídeo y razonamiento: Admite preguntas y respuestas abiertas basadas en el contenido del vídeo, que pueden responder a preguntas sobre la trama, las relaciones entre los personajes, la causa y el efecto de los acontecimientos, y generar respuestas razonables a través de múltiples rondas de razonamiento para ayudar a los usuarios a acceder rápidamente a la información clave del vídeo.
- Edición inteligente y asistencia creativaPuede extraer automáticamente clips destacados y generar títulos de vídeo cortos, así como realizar un recorte inteligente de la composición y un cambio multicámara automático según las necesidades de los usuarios, lo que reduce significativamente el umbral de creación de vídeo y mejora la eficacia de la creación.
Principales ventajas de Vidi2
- Posicionamiento espacial y temporal precisoVidi2: Vidi2 puede reconocer tanto la marca de tiempo como el cuadro delimitador del objeto de destino en el vídeo y, dada una consulta de texto, no sólo puede encontrar el período de tiempo correspondiente, sino también marcar con precisión la posición de objetos específicos dentro de estos intervalos de tiempo, lograr el seguimiento de objetos y personajes específicos con una granularidad de un segundo, y apoyar tareas como el seguimiento de un personaje específico en una multitud o la separación de accesorios en tomas discontinuas.
- Potente comprensión y generación de vídeoVidi2: Vidi2 puede procesar horas de metraje sin editar, comprender su argumento y generar vídeos cortos TikTok completos o clips de película a partir de sencillas instrucciones.
- Arquitectura tecnológica avanzadaEl uso de Gemma-3 como red troncal, combinado con una compresión de marcado adaptativa rediseñada, garantiza el mantenimiento de la eficiencia al procesar vídeos largos sin perder detalles críticos. Además, se unifica un flujo de procesamiento multimodal al procesar conjuntamente texto, elementos visuales y audio para comprender y crear vídeos.
- Excelente rendimientoEn la prueba de referencia VUE-TR-V2 para la recuperación en tiempo abierto, Vidi2 logra un IoU global de 48,75 y, en particular, supera al modelo comercial en 17,5 puntos porcentuales en vídeos ultralargos (más de 1 hora). En la tarea de localización (VUE-STG), Vidi2 obtiene el mejor rendimiento, con 32,57 puntos porcentuales en vIoU y 53,19 puntos porcentuales en tIoU.
- Estrategias eficaces de formación de datosEl proceso de entrenamiento de Vidi2 hace hincapié en datos de vídeo reales y diversos combinados con datos de localización sintéticos y anotaciones cuidadosamente seleccionadas para alinear el razonamiento espacial y temporal a gran escala. Además, se emplea una estrategia de Alineación Multimodal con Conciencia Temporal (TAMA) para mejorar el rendimiento del modelo mediante un mecanismo de entrenamiento de refuerzo bidireccional por etapas.
¿Cuál es el sitio web oficial de Vidi2?
- Página web del proyecto:: https://bytedance.github.io/vidi-website/
- Repositorio Github:: https://github.com/bytedance/vidi
- Documento técnico arXiv:: https://arxiv.org/pdf/2511.19529
Personas a las que va dirigido Vidi2
- Creadores de vídeoVidi2 ayuda a los creadores de vídeo a generar rápidamente guiones de vídeo, esquemas y títulos, y puede editar automáticamente vídeos largos en vídeos cortos aptos para su publicación en plataformas, lo que mejora enormemente la eficacia creativa.
- Redacción de contenidosPara los equipos de edición que tienen que trabajar con una gran cantidad de secuencias de vídeo, Vidi2 puede identificar y extraer automáticamente los clips clave del vídeo para generar momentos destacados, ahorrando tiempo en el visionado y la edición manuales.
- Operadores de redes sociales: Vidi2 puede convertir rápidamente contenidos de vídeo largos en vídeos cortos aptos para plataformas de medios sociales, lo que ayuda a los operadores a publicar contenidos de forma más eficaz y a mejorar su difusión.
- productor de cineEn postproducción, Vidi2 puede ayudar en la comprensión de la trama, el montaje y el subtitulado para mejorar la eficacia de la producción.
- Equipo de publicidad y marketing: Vidi2 puede generar rápidamente contenidos de vídeo atractivos, ayudando a los equipos publicitarios a crear vídeos publicitarios más atractivos y a mejorar la eficacia de la publicidad.
- educadorLos educadores pueden utilizar Vidi2 para optimizar el procesamiento de vídeos didácticos con el fin de generar videoclips cortos adecuados para la enseñanza y mejorar la eficacia del uso de los recursos didácticos.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




