Tarsier: un modelo de comprensión de vídeo de código abierto para generar descripciones de vídeo de alta calidad
Introducción general Tarsier es una familia de modelos de videolenguaje de código abierto desarrollada por ByteDance para generar descripciones de vídeo de alta calidad. Consta de una estructura sencilla: el CLIP-ViT procesa los fotogramas de vídeo, combinado con un Large Language Model (LLM) para analizar...