Tarsier : un modèle de compréhension vidéo open source pour générer des descriptions vidéo de haute qualité

Introduction générale

Tarsier est une famille de modèles de langage vidéo open-source développés par ByteDance, principalement utilisés pour générer des descriptions vidéo de haute qualité. Sa structure est simple : CLIP-ViT traite les images vidéo et analyse les relations temporelles en combinaison avec un grand modèle de langage (LLM). La dernière version, Tarsier2-7B (publiée en janvier 2025), a atteint le niveau le plus élevé dans 16 tests de référence publics et peut rivaliser avec des modèles tels que GPT-4o. Tarsier prend en charge la description vidéo, les questions-réponses et la génération de sous-titres à zéro échantillon, et le code, les modèles et les données sont accessibles au public sur GitHub. Le projet a également lancé le benchmark DREAM-1K pour évaluer les capacités de description vidéo, qui contient 1000 clips vidéo différents.

Tarsier:生成高质量视频描述的开源视频理解模型

 

Liste des fonctions

  • Générer des descriptions vidéo détaillées : analyser le contenu des vidéos et produire un texte détaillé.
  • Prise en charge des questions-réponses vidéo : répondez aux questions liées à la vidéo, telles que les événements ou les détails.
  • Génération de sous-titres sans échantillon : génère des sous-titres pour les vidéos sans formation.
  • Compréhension vidéo multitâche : excelle dans des tâches multiples telles que les quiz et le sous-titrage.
  • Déploiement open source : fournir les poids et le code du modèle pour qu'il soit exécuté localement ou dans le nuage.
  • Fournit des outils d'évaluation : comprend l'ensemble de données DREAM-1K et la méthode d'évaluation AutoDQ.

 

Utiliser l'aide

Tarsier convient aux utilisateurs ayant une formation technique, tels que les développeurs ou les chercheurs. Des instructions détaillées d'installation et d'utilisation sont fournies ci-dessous.

Processus d'installation

  1. Préparation de l'environnement
    Nécessite Python 3.9 ou une version ultérieure. Un environnement virtuel est recommandé :
conda create -n tarsier python=3.9
conda activate tarsier
  1. entrepôt de clones
    Télécharger le code du projet Tarsier :
git clone https://github.com/bytedance/tarsier.git
cd tarsier
git checkout tarsier2
  1. Installation des dépendances
    Exécutez le script d'installation :
bash setup.sh

Ceci installera toutes les bibliothèques nécessaires, telles que PyTorch et les outils de Hugging Face.

  1. Support GPU (optionnel)
    Si vous disposez d'un GPU NVIDIA, installez PyTorch avec CUDA :
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
  1. Télécharger les modèles
    Téléchargez les modèles de Hugging Face, par exemple Tarsier2-7B :
huggingface-cli download omni-research/Tarsier2-7b

D'autres modèles comme Tarsier-34b ou Tarsier2-Recap-7b sont également disponibles à partir des liens officiels.

  1. Vérifier l'installation
    Exécutez le script de test rapide :
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --input_path assets/videos/coffee.gif

Le résultat doit être une description de la vidéo, telle que "Un homme prend une tasse de café avec de la mousse en forme de cœur et en boit une gorgée".

Principales fonctions

Générer une description de la vidéo

  • déplacer
  1. Préparez un fichier vidéo (formats supportés : MP4, GIF, etc.).
  2. Exécuter la commande :
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --instruction "Describe the video in detail." --input_path your/video.mp4
  1. La sortie est affichée dans le terminal, par exemple en décrivant les actions et les scènes de la vidéo.
  • prendre note
  • Les vidéos trop longues peuvent nécessiter plus de mémoire, c'est pourquoi nous vous recommandons de tester d'abord une vidéo courte.
  • Les paramètres ajustables tels que la fréquence d'images (voir configs/tarser2_default_config.yaml).

Vidéo Q&R

  • déplacer
  1. Préciser les questions et les vidéos :
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --instruction "视频里的人在做什么?" --input_path your/video.mp4
  1. Produire une réponse directe, par exemple "Il boit du café".
  • attirer l'attention sur qqch.
  • Les questions doivent être précises et éviter toute ambiguïté.
  • Prise en charge du chinois et d'autres langues, le chinois étant la langue la plus courante.

Génération de sous-titres sans échantillon

  • déplacer
  1. Modifier le fichier de configuration pour activer le mode sous-titres (configs/tarser2_default_config.yaml mettre en place task: caption).
  2. La course à pied :
python3 -m tasks.inference_quick_start --model_name_or_path path/to/Tarsier2-7b --config configs/tarser2_default_config.yaml --input_path your/video.mp4
  1. Produit des sous-titres courts, tels que "Boire un café seul".

Déploiement de services locaux

  • déplacer
  1. Installer vLLM (version 0.6.6 recommandée) :
pip install vllm==0.6.6
  1. Démarrer le service :
python -m vllm.entrypoints.openai.api_server --model path/to/Tarsier2-7b
  1. Appelé avec une API :
curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"prompt": "描述这个视频", "video_path": "your/video.mp4"}'
  • avantage
  • Les vidéos peuvent être traitées par lots.
  • Intégration aisée dans d'autres systèmes.

Fonction en vedette Fonctionnement

Évaluation DREAM-1K

  • déplacer
  1. Télécharger le jeu de données DREAM-1K :
wget https://tarsier-vlm.github.io/DREAM-1K.zip
unzip DREAM-1K.zip
  1. Évaluation opérationnelle :
bash scripts/run_inference_benchmark.sh path/to/Tarsier2-7b output_dir dream
  1. Le résultat comprend des mesures telles que les scores F1 qui indiquent la qualité de la description.

Évaluation d'AutoDQ

  • déplacer
  1. Assurer l'installation ChatGPT (configuration Azure OpenAI requise).
  2. Exécutez le script d'évaluation :
python evaluation/metrics/evaluate_dream_gpt.py --pred_dir output_dir/dream_predictions
  1. Produit une note d'évaluation automatisée qui mesure la précision de la description.

Problèmes courants résolus...

  • échec de l'installation: Vérifier la version de Python et le réseau, mettre à jour pip (pip install -U pip).
  • Chargement lent du modèlePour ce faire, vous devez vous assurer que vous disposez d'un espace disque suffisant, au moins 50 Go étant recommandé.
  • Pas de sortie GPU: Run nvidia-smi Vérifiez que CUDA fonctionne correctement.

Expérience en ligne

Avec ces étapes, vous pouvez facilement gérer les tâches vidéo avec Tarsier. Qu'il s'agisse de générer des descriptions ou de déployer des services, c'est simple et efficace.

 

scénario d'application

  1. Collation du contenu vidéo
    Les professionnels des médias peuvent utiliser Tarsier pour générer des résumés vidéo et organiser rapidement les séquences.
  2. Assistance vidéo éducative
    Les enseignants peuvent créer des sous-titres ou des quiz pour les vidéos de cours afin d'améliorer l'enseignement et l'apprentissage.
  3. Courte analyse vidéo
    Les spécialistes du marketing peuvent analyser le contenu de courtes vidéos telles que TikTok et en extraire des messages clés à des fins de promotion.

 

QA

  1. Quels sont les formats vidéo pris en charge ?
    Prend en charge les formats MP4, GIF, AVI, etc., à condition que FFmpeg puisse les décoder.
  2. Quelles sont les exigences en matière de matériel ?
    Au moins 16 Go de RAM et 4 Go de mémoire vidéo, GPU NVIDIA recommandé (par exemple 3090).
  3. Est-il disponible dans le commerce ?
    Oui, Tarsier utilise la licence Apache 2.0 et l'utilisation commerciale est autorisée sous certaines conditions.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...