Gaze-LLE : Outil de prédiction de cible pour le regard d'une personne dans une vidéo

Dernières ressources sur l'IAMise à jour il y a 6 mois Cercle de partage de l'IA

Introduction générale

Gaze-LLE est un outil de prédiction de la cible du regard basé sur un codeur d'apprentissage à grande échelle. Développé par Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman et James M. Rehg, le projet vise à permettre une prédiction efficace de la cible du regard avec des modèles de base visuels pré-entraînés tels que DINOv2.L'architecture de Gaze-LLE est propre et simple, et ne fait que geler le codeur visuel pré-entraîné pour apprendre un décodeur de regard léger, ce qui réduit la quantité de paramètres de 1 à 2 ordres de grandeur par rapport aux modèles précédents. L'architecture de Gaze-LLE est propre et simple, et ne fige que le codeur visuel pré-entraîné pour apprendre un décodeur de regard léger, ce qui réduit la quantité de paramètres de 1 à 2 ordres de grandeur par rapport aux travaux précédents, et ne nécessite pas de modalités d'entrée supplémentaires telles que la profondeur et les informations sur la pose.

Liste des fonctions

Se concentrer sur la prévision des objectifsLe projet de loi sur la protection de l'environnement a été adopté par le Parlement européen, le Conseil de l'Europe et la Commission européenne.
Prédiction multiregardsIl permet de prédire le regard de plusieurs personnes sur une même image.
Modèle de pré-entraînementLe système de gestion de l'information (SGI) : Il fournit une variété de modèles pré-entraînés pour prendre en charge différents réseaux dorsaux et données d'entraînement.
Architecture légèreApprentissage de décodeurs de regard légers uniquement à partir de codeurs visuels pré-entraînés congelés.
Pas de modes d'entrée supplémentairesLa profondeur et l'attitude ne nécessitent pas d'informations supplémentaires.

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

   git clone https://github.com/fkryan/gazelle.git
cd gazelle

Créer un environnement virtuel et installer les dépendances :

   conda env create -f environment.yml
conda activate gazelle
pip install -e .

Facultatif : installer xformers pour accélérer les calculs d'attention (si le système le permet) :

   pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118

Utilisation de modèles pré-entraînés

Gaze-LLE fournit une variété de modèles pré-entraînés que les utilisateurs peuvent télécharger et utiliser selon leurs besoins :

gazelledinov2vitb14Modèle basé sur DINOv2 ViT-B avec des données d'entraînement provenant de GazeFollow.
gazelledinov2vitl14Modèle basé sur DINOv2 ViT-L avec des données d'entraînement provenant de GazeFollow.
gazelledinov2vitb14_inoutModèle basé sur DINOv2 ViT-B avec des données d'entraînement pour GazeFollow et VideoAttentionTarget.
gazelleimportantvitl14_inoutModèle basé sur DINOv2 ViT-L avec des données d'entraînement pour GazeFollow et VideoAttentionTarget.

exemple d'utilisation

Charger le modèle dans PyTorch Hub :

   import torch
model, transform = torch.hub.load('fkryan/gazelle', 'gazelle_dinov2_vitb14')

Consultez le cahier de démonstration dans Google Colab pour apprendre à détecter la cible du regard de chacun dans une image.

surveiller les prévisions

Gaze-LLE permet de prédire le regard de plusieurs personnes, c'est-à-dire qu'une seule image est codée une fois, puis les caractéristiques sont utilisées pour prédire les cibles du regard de plusieurs personnes dans l'image. Le modèle produit une carte thermique spatiale représentant la probabilité de l'emplacement de la cible du regard dans la scène avec des valeurs allant de [0,1], où 1 représente la probabilité la plus élevée de l'emplacement de la cible du regard.

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Turnitin : un outil commun de vérification de l'intégrité et de l'originalité académiques pour les écoles

Dernières ressources sur l'IA # Outils pédagogiques AI

Il y a 7 mois

017.5K

Tongyi Thousand Questions : un grand modèle multimodal lancé par Ali avec des capacités de réponse textuelle, de compréhension d'images et d'analyse de vidéos.

Dernières ressources sur l'IA # AI Big Model Native Dialogue Tool

Il y a 7 mois

020.8K

Kolors : modèle texte-image pour la génération d'images de haute qualité, avec prise en charge de la génération d'affiches chinoises

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Self-Deployment Image Generation Tool (outil de génération d'images pour l'autodéploiement de l'IA)

Il y a 9 mois

024.7K

Translation Starter：开源视频内容翻译同步工具|语言转换|唇形同步

Translation Starter : Outil de synchronisation de traduction de contenu vidéo Open Source | Conversion de langue | Lip Sync

Dernières ressources sur l'IA # AI Digital Man # AI Traduction

Il y a 8 mois

021.6K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Gaze-LLE : Outil de prédiction de cible pour le regard d'une personne dans une vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation de modèles pré-entraînés

exemple d'utilisation

surveiller les prévisions

Fey : un outil de recherche sur les marchés financiers et un assistant intelligent pour améliorer les décisions d'investissement

FramePainter : outil d'édition d'images de type gribouillis alimenté par l'IA

Articles connexes

Turnitin : un outil commun de vérification de l'intégrité et de l'originalité académiques pour les écoles

Tongyi Thousand Questions : un grand modèle multimodal lancé par Ali avec des capacités de réponse textuelle, de compréhension d'images et d'analyse de vidéos.

Kolors : modèle texte-image pour la génération d'images de haute qualité, avec prise en charge de la génération d'affiches chinoises

Translation Starter : Outil de synchronisation de traduction de contenu vidéo Open Source | Conversion de langue | Lip Sync

Pas de commentaires

Dernières collections

Derniers articles

Gaze-LLE : Outil de prédiction de cible pour le regard d'une personne dans une vidéo

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Utilisation de modèles pré-entraînés

exemple d'utilisation

surveiller les prévisions

Fey : un outil de recherche sur les marchés financiers et un assistant intelligent pour améliorer les décisions d'investissement

FramePainter : outil d'édition d'images de type gribouillis alimenté par l'IA

Articles connexes

Turnitin : un outil commun de vérification de l'intégrité et de l'originalité académiques pour les écoles

Tongyi Thousand Questions : un grand modèle multimodal lancé par Ali avec des capacités de réponse textuelle, de compréhension d'images et d'analyse de vidéos.

Kolors : modèle texte-image pour la génération d'images de haute qualité, avec prise en charge de la génération d'affiches chinoises

Translation Starter : Outil de synchronisation de traduction de contenu vidéo Open Source | Conversion de langue | Lip Sync

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles