Tarsier: ein quelloffenes Videoverstehensmodell zur Erstellung hochwertiger Videobeschreibungen
Umfassende Einführung Tarsier ist eine Familie von Open-Source-Videosprachmodellen, die von ByteDance zur Erstellung hochwertiger Videobeschreibungen entwickelt wurden. Sie besteht aus einer einfachen Struktur: das CLIP-ViT verarbeitet Videobilder, kombiniert mit einem Large Language Model (LLM) zur Analyse der...