Hugging Face présente SmolVLM, un petit modèle multimodal qui peut fonctionner sur des appareils finaux

Nouvelles de l'IAPosté il y a 9 mois Cercle de partage de l'IA

10.1K 00

SmolVLM est un petit modèle multimodal avec un nombre de paramètres de 2 milliards qui accepte des entrées provenant de n'importe quelle combinaison d'images et de textes et génère des sorties textuelles.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

Après avoir lancé le modèle linguistique léger SmolLM en juillet, la plateforme de développement d'applications d'IA Hugging Face a lancé cette semaine SmolVLM, un modèle multimodal léger qui met l'accent sur la légèreté et la haute performance, complétant ainsi sa gamme de petits modèles linguistiques.

SmolVLM est un petit modèle multimodal qui compte 2 milliards de références et qui est connu pour être le plus performant de sa catégorie (State-of-the-Art, SOTA). SmolVLM peut répondre à des questions sur les images, décrire le contenu des images, raconter des histoires basées sur des images multiples ou être utilisé comme un modèle purement linguistique. Selon l'équipe de développement, SmolVLM est basé sur une architecture légère qui est bien adaptée pour fonctionner sur des appareils tout en effectuant des tâches multimodales de manière satisfaisante.

L'architecture de SmolVLM est basée sur le modèle de vision précédemment introduit par Hugging Face, IDEFICS 3, et même sur le modèle de vision de l'Université d'Oxford, IDEFICS 4, et le modèle de vision de l'Université d'Amsterdam. Transformateur La mise en œuvre est la même. Cependant, Hugging Face n'est pas un bon choix pour le programme IDEFICS Plusieurs améliorations ont été apportées. Premièrement, le noyau du modèle linguistique a été remplacé par SmolLM2 1.7B au lieu de Llama 3.1 8B. Deuxièmement, SmolVLM utilise des techniques de compression d'images plus avancées, telles que la stratégie de mélange des pixels et des patchs plus grands pour les images. Jeton ce qui permet d'améliorer l'efficacité du codage, d'accélérer l'inférence et de réduire l'utilisation de la mémoire.

Hugging Face met en évidence les avantages de SmolVLM en termes d'efficacité et d'utilisation de la mémoire et publie des données de test comparatives avec des modèles paramétriques équivalents. SmolVLM surpasse des modèles tels que InternVL2, PaliGemma, MM1.5, moondream et MiniCPM-V-2 dans les domaines de la compréhension multimodale, du raisonnement, des mathématiques et de la compréhension de texte. Il surpasse également la plupart des modèles en termes d'efficacité d'utilisation de la mémoire GPU. Par rapport à Qwen2-V2 d'Alibaba, SmolVLM offre un débit de prépopulation 3,3 à 4,5 fois plus rapide et un débit de génération 7,5 à 16 fois plus élevé.

Hugging Face a publié trois versions de modèles de la famille SmolVLM, notamment SmolVLM-Base pour le réglage fin, SmolVLM-Synthetic pour le réglage fin basé sur des ensembles de données synthétiques, et une version réglée par commande, SmolVLM Instruct, qui est prête pour l'interaction avec l'utilisateur final. Tous les points de contrôle des modèles, les ensembles de données d'entraînement, les méthodes d'entraînement et les outils de SmolVLM sont basés sur la licence Apache 2.0licence open source.

Nouvelles de l'IA

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Partager des vidéos générées par l'IA 24 heures sur 24, 7 jours sur 7

Nouvelles de l'IA

il y a 1 an

08.4K

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Nouvelles de l'IA

il y a 5 mois

08.8K

Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Nouvelles de l'IA

Il y a 7 mois

010.5K

Dify v1.0.0 Re-Release : Architecture du plugin et écologie ouverte

Nouvelles de l'IA

Il y a 6 mois

08.4K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

Hugging Face présente SmolVLM, un petit modèle multimodal qui peut fonctionner sur des appareils finaux

Nouvelle version｜Copilot + Agents, une nouvelle ère de développement intelligent à code bas.

OpenAI espère atteindre 1 milliard d'utilisateurs l'année prochaine et va développer ses centres de données de manière agressive

Articles connexes

Partager des vidéos générées par l'IA 24 heures sur 24, 7 jours sur 7

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Dify v1.0.0 Re-Release : Architecture du plugin et écologie ouverte

Pas de commentaires

Dernières collections

Derniers articles

Hugging Face présente SmolVLM, un petit modèle multimodal qui peut fonctionner sur des appareils finaux

Nouvelle version｜Copilot + Agents, une nouvelle ère de développement intelligent à code bas.

OpenAI espère atteindre 1 milliard d'utilisateurs l'année prochaine et va développer ses centres de données de manière agressive

Articles connexes

Partager des vidéos générées par l'IA 24 heures sur 24, 7 jours sur 7

Les achats récents de DeepSeek All-in-One mettent en évidence les risques de contrefaçon liés à l'utilisation de Dify

Votre personne numérique exclusive ? L'ultime PK de six solutions open source de personne numérique : une comparaison des résultats en un coup d'œil !

Dify v1.0.0 Re-Release : Architecture du plugin et écologie ouverte

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles