Gaze-LLE: Zielvorhersage-Tool für Personenblicke in Videos

Neueste AI-RessourcenAktualisiert vor 4 Monaten AI-Austauschkreis

1.7K 00

Allgemeine Einführung

Gaze-LLE ist ein Tool zur Vorhersage von Blickzielen, das auf einem groß angelegten Lern-Encoder basiert. Entwickelt von Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman und James M. Rehg, zielt das Projekt darauf ab, eine effiziente Blickzielvorhersage mit vortrainierten visuellen Basismodellen wie DINOv2 zu ermöglichen.Die Architektur von Gaze-LLE ist sauber und einfach und friert nur den vortrainierten Die Architektur von Gaze-LLE ist sauber und einfach und friert nur den vortrainierten visuellen Kodierer ein, um einen leichtgewichtigen Blickdekodierer zu erlernen, der die Anzahl der Parameter im Vergleich zu früheren Arbeiten um 1-2 Größenordnungen reduziert und keine zusätzlichen Eingabemodalitäten wie Tiefen- und Poseninformationen benötigt.

Funktionsliste

Schwerpunkt auf ZielprognosenEfficient prediction of gaze targets based on pre-trained visual coders.
Vorhersage mit mehreren Blicken: unterstützt die Blickvorhersage für mehrere Personen in einem einzigen Bild.
Pre-Training ModellBietet eine Vielzahl von vortrainierten Modellen zur Unterstützung verschiedener Backbone-Netze und Trainingsdaten.
Leichte ArchitekturLearning lightweight gaze decoders only on frozen pre-trained visual coders.
Keine zusätzlichen EingabemodiKeine zusätzliche Eingabe von Tiefen- und Lageinformationen erforderlich.

Hilfe verwenden

Einbauverfahren

Klon-Lagerhaus:

   git clone https://github.com/fkryan/gazelle.git
cd gazelle

Erstellen Sie eine virtuelle Umgebung und installieren Sie die Abhängigkeiten:

   conda env create -f environment.yml
conda activate gazelle
pip install -e .

Optional: Installieren Sie xformers, um Aufmerksamkeitsberechnungen zu beschleunigen (falls vom System unterstützt):

   pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

Verwendung von vortrainierten Modellen

Gaze-LLE bietet eine Vielzahl von vortrainierten Modellen, die der Benutzer herunterladen und nach Bedarf verwenden kann:

gazelledinov2vitb14Modell basierend auf DINOv2 ViT-B mit Trainingsdaten von GazeFollow.
gazelledinov2vitl14Modell basierend auf DINOv2 ViT-L mit Trainingsdaten von GazeFollow.
gazelledinov2vitb14_inoutEin Modell basierend auf DINOv2 ViT-B mit Trainingsdaten für GazeFollow und VideoAttentionTarget.
gazellegroßvitl14_inoutEin Modell basierend auf DINOv2 ViT-L mit Trainingsdaten für GazeFollow und VideoAttentionTarget.

Anwendungsbeispiel

Laden Sie das Modell in PyTorch Hub:

   import torch
model, transform = torch.hub.load('fkryan/gazelle', 'gazelle_dinov2_vitb14')

Schauen Sie sich das Demo-Notizbuch in Google Colab an, um zu lernen, wie man das Ziel der Blicke aller Personen in einem Bild erkennt.

für Prognosen sorgen

Gaze-LLE unterstützt die Blickvorhersage für mehrere Personen, d. h. ein einzelnes Bild wird einmal kodiert und dann werden Merkmale verwendet, um Blickziele für mehrere Personen im Bild vorherzusagen. Das Modell gibt eine räumliche Wärmekarte aus, die die Wahrscheinlichkeit der Position des Blickziels in der Szene mit Werten im Bereich von [0,1] darstellt, wobei 1 die höchste Wahrscheinlichkeit für die Position des Blickziels darstellt.