AI Personal Learning
und praktische Anleitung

Gaze-LLE: Zielvorhersage-Tool für Personenblicke in Videos

Allgemeine Einführung

Gaze-LLE ist ein Tool zur Vorhersage von Blickzielen, das auf einem groß angelegten Lern-Encoder basiert. Entwickelt von Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman und James M. Rehg, zielt das Projekt darauf ab, eine effiziente Blickzielvorhersage mit vortrainierten visuellen Basismodellen wie DINOv2 zu ermöglichen.Die Architektur von Gaze-LLE ist sauber und einfach und friert nur den vortrainierten Die Architektur von Gaze-LLE ist sauber und einfach und friert nur den vortrainierten visuellen Kodierer ein, um einen leichtgewichtigen Blickdekodierer zu erlernen, der die Anzahl der Parameter im Vergleich zu früheren Arbeiten um 1-2 Größenordnungen reduziert und keine zusätzlichen Eingabemodalitäten wie Tiefen- und Poseninformationen benötigt.

Gaze-LLE: Zielvorhersagewerkzeug für den Blick einer Person in Video-1


 

Funktionsliste

  • Schwerpunkt auf ZielprognosenEfficient prediction of gaze targets based on pre-trained visual coders.
  • Vorhersage mit mehreren Blicken: unterstützt die Blickvorhersage für mehrere Personen in einem einzigen Bild.
  • Pre-Training ModellBietet eine Vielzahl von vortrainierten Modellen zur Unterstützung verschiedener Backbone-Netze und Trainingsdaten.
  • Leichte ArchitekturLearning lightweight gaze decoders only on frozen pre-trained visual coders.
  • Keine zusätzlichen EingabemodiKeine zusätzliche Eingabe von Tiefen- und Lageinformationen erforderlich.

 

Hilfe verwenden

Ablauf der Installation

  1. Klon-Lagerhaus:
   git clone https://github.com/fkryan/gazelle.git
cd gazelle
  1. Erstellen Sie eine virtuelle Umgebung und installieren Sie die Abhängigkeiten:
   conda env create -f environment.yml
conda gazelle aktivieren
pip install -e .
  1. Optional: Installieren Sie xformers, um Aufmerksamkeitsberechnungen zu beschleunigen (falls vom System unterstützt):
   pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

Verwendung von vortrainierten Modellen

Gaze-LLE bietet eine Vielzahl von vortrainierten Modellen, die der Benutzer herunterladen und nach Bedarf verwenden kann:

  • gazelledinov2vitb14Modell basierend auf DINOv2 ViT-B mit Trainingsdaten von GazeFollow.
  • gazelledinov2vitl14Modell basierend auf DINOv2 ViT-L mit Trainingsdaten von GazeFollow.
  • gazelledinov2vitb14_inoutEin Modell basierend auf DINOv2 ViT-B mit Trainingsdaten für GazeFollow und VideoAttentionTarget.
  • gazellegroßvitl14_inoutEin Modell basierend auf DINOv2 ViT-L mit Trainingsdaten für GazeFollow und VideoAttentionTarget.

Anwendungsbeispiel

  1. Laden Sie das Modell in PyTorch Hub:
   torch importieren
model, transform = torch.hub.load('fkryan/gazelle', 'gazelle_dinov2_vitb14')
  1. Schauen Sie sich das Demo-Notizbuch in Google Colab an, um zu lernen, wie man das Ziel der Blicke aller Personen in einem Bild erkennt.

für Prognosen sorgen

Gaze-LLE unterstützt die Blickvorhersage für mehrere Personen, d. h. ein einzelnes Bild wird einmal kodiert und dann werden Merkmale verwendet, um Blickziele für mehrere Personen im Bild vorherzusagen. Das Modell gibt eine räumliche Wärmekarte aus, die die Wahrscheinlichkeit der Position des Blickziels in der Szene mit Werten im Bereich von [0,1] darstellt, wobei 1 die höchste Wahrscheinlichkeit für die Position des Blickziels darstellt.

Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Gaze-LLE: Zielvorhersage-Tool für Personenblicke in Videos

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)