Hugging Face présente SmolVLM, un petit modèle multimodal qui peut fonctionner sur des appareils finaux
SmolVLM est un petit modèle multimodal avec un nombre de paramètres de 2 milliards qui accepte des entrées provenant de n'importe quelle combinaison d'images et de textes et génère des sorties textuelles.

Après avoir lancé le modèle linguistique léger SmolLM en juillet, la plateforme de développement d'applications d'IA Hugging Face a lancé cette semaine SmolVLM, un modèle multimodal léger qui met l'accent sur la légèreté et la haute performance, complétant ainsi sa gamme de petits modèles linguistiques.
SmolVLM est un petit modèle multimodal qui compte 2 milliards de références et qui est connu pour être le plus performant de sa catégorie (State-of-the-Art, SOTA). SmolVLM peut répondre à des questions sur les images, décrire le contenu des images, raconter des histoires basées sur des images multiples ou être utilisé comme un modèle purement linguistique. Selon l'équipe de développement, SmolVLM est basé sur une architecture légère qui est bien adaptée pour fonctionner sur des appareils tout en effectuant des tâches multimodales de manière satisfaisante.
L'architecture de SmolVLM est basée sur le modèle de vision précédemment introduit par Hugging Face, IDEFICS 3, et même sur le modèle de vision de l'Université d'Oxford, IDEFICS 4, et le modèle de vision de l'Université d'Amsterdam. Transformateur La mise en œuvre est la même. Cependant, Hugging Face n'est pas un bon choix pour le programme IDEFICS Plusieurs améliorations ont été apportées. Premièrement, le noyau du modèle linguistique a été remplacé par SmolLM2 1.7B au lieu de Llama 3.1 8B. Deuxièmement, SmolVLM utilise des techniques de compression d'images plus avancées, telles que la stratégie de mélange des pixels et des patchs plus grands pour les images. Jeton ce qui permet d'améliorer l'efficacité du codage, d'accélérer l'inférence et de réduire l'utilisation de la mémoire.
Hugging Face met en évidence les avantages de SmolVLM en termes d'efficacité et d'utilisation de la mémoire et publie des données de test comparatives avec des modèles paramétriques équivalents. SmolVLM surpasse des modèles tels que InternVL2, PaliGemma, MM1.5, moondream et MiniCPM-V-2 dans les domaines de la compréhension multimodale, du raisonnement, des mathématiques et de la compréhension de texte. Il surpasse également la plupart des modèles en termes d'efficacité d'utilisation de la mémoire GPU. Par rapport à Qwen2-V2 d'Alibaba, SmolVLM offre un débit de prépopulation 3,3 à 4,5 fois plus rapide et un débit de génération 7,5 à 16 fois plus élevé.
Hugging Face a publié trois versions de modèles de la famille SmolVLM, notamment SmolVLM-Base pour le réglage fin, SmolVLM-Synthetic pour le réglage fin basé sur des ensembles de données synthétiques, et une version réglée par commande, SmolVLM Instruct, qui est prête pour l'interaction avec l'utilisateur final. Tous les points de contrôle des modèles, les ensembles de données d'entraînement, les méthodes d'entraînement et les outils de SmolVLM sont basés sur la licence Apache 2.0licence open source.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...