AI Personal Learning
und praktische Anleitung
豆包Marscode1

Hugging Face stellt SmolVLM vor, ein kleines multimodales Modell, das auf Endgeräten laufen kann

SmolVLM ist ein kleines multimodales Modell mit einer Anzahl von 2 Milliarden Parametern, das Eingaben aus einer beliebigen Kombination von Bildern und Text akzeptiert und textuelle Ausgaben erzeugt.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM-1


Nach der Markteinführung des leichtgewichtigen Sprachmodells SmolLM im Juli hat die KI-App-Entwicklungsplattform Hugging Face diese Woche SmolVLM veröffentlicht, ein leichtgewichtiges multimodales Modell, das sich auf Leichtigkeit und hohe Leistung konzentriert und die Reihe der kleinen Sprachmodelle ergänzt.

SmolVLM ist ein kleines multimodales Modell mit 2 Milliarden Referenzen und gilt als der Leistungsführer seiner Klasse (State-of-the-Art, SOTA). SmolVLM kann Fragen zu Bildern beantworten, den Inhalt eines Bildes beschreiben, eine Geschichte auf der Grundlage mehrerer Bilder erzählen oder als rein linguistisches Modell verwendet werden. Nach Angaben des Entwicklerteams basiert SmolVLM auf einer leichtgewichtigen Architektur, die sich gut für die Ausführung auf Geräten eignet und dennoch multimodale Aufgaben gut erfüllt.

Die Architektur von SmolVLM basiert auf dem zuvor vorgestellten Bildverarbeitungsmodell von Hugging Face, IDEFICS 3, und sogar Transformator Die Umsetzung ist die gleiche. Allerdings hat Hugging Face eine ähnliche Implementierung von IDEFICS Es wurden mehrere Verbesserungen vorgenommen. Erstens wurde der Kern des Sprachmodells von Llama 3.1 8B durch SmolLM2 1.7B ersetzt. Zweitens verwendet SmolVLM fortschrittlichere Bildkomprimierungstechniken, wie die Pixel-Shuffle-Strategie und größere Patches für visuelle Token Kodierung, was zu einer verbesserten Kodiereffizienz, einer schnelleren Inferenz und einem geringeren Speicherverbrauch führt.

Hugging Face hebt die Vorteile von SmolVLM in Bezug auf Effizienz und Speichernutzung hervor und veröffentlicht vergleichende Testdaten mit gleichwertigen parametrischen Modellen. SmolVLM übertrifft Modelle wie InternVL2, PaliGemma, MM1.5, moondream und MiniCPM-V-2 in den Bereichen multimodales Verstehen, logisches Denken, Mathematik und Textverständnis. Auch in Bezug auf die Effizienz der GPU-Speichernutzung übertrifft es die meisten Modelle. Im Vergleich zu Qwen2-V2 von Alibaba liefert SmolVLM einen 3,3- bis 4,5-mal schnelleren Vorpopulationsdurchsatz und einen 7,5- bis 16-mal höheren Generierungsdurchsatz.

Hugging Face hat drei Modellversionen der SmolVLM-Familie veröffentlicht, darunter SmolVLM-Base für die Feinabstimmung, SmolVLM-Synthetic für die Feinabstimmung auf der Grundlage synthetischer Datensätze und die Befehlsversion SmolVLM Instruct, die für die direkte Interaktion mit dem Endbenutzer bereit ist. Alle Modellprüfpunkte, Trainingsdatensätze, Trainingsmethoden und Werkzeuge für SmolVLM basieren auf dem Apache 2.0Open-Source-Lizenz.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Hugging Face stellt SmolVLM vor, ein kleines multimodales Modell, das auf Endgeräten laufen kann
de_DEDeutsch