Tarsier: um modelo de compreensão de vídeo de código aberto para gerar descrições de vídeo de alta qualidade
Introdução abrangente O Tarsier é uma família de modelos de linguagem de vídeo de código aberto desenvolvida pela ByteDance para gerar descrições de vídeo de alta qualidade. Ela consiste em uma estrutura simples: o CLIP-ViT processa quadros de vídeo, combinado com um modelo de linguagem grande (LLM) para analisar...