Hugging Face stellt SmolVLM vor, ein kleines multimodales Modell, das auf Endgeräten laufen kann

AI-NachrichtenGeschrieben vor 9 Monaten AI-Austauschkreis

10.1K 00

SmolVLM ist ein kleines multimodales Modell mit einer Anzahl von 2 Milliarden Parametern, das Eingaben aus einer beliebigen Kombination von Bildern und Text akzeptiert und textuelle Ausgaben erzeugt.

Hugging Face 推出可在终端设备上运行的小型多模态模型 SmolVLM

Nach der Markteinführung des leichtgewichtigen Sprachmodells SmolLM im Juli hat die KI-App-Entwicklungsplattform Hugging Face diese Woche SmolVLM veröffentlicht, ein leichtgewichtiges multimodales Modell, das sich auf Leichtigkeit und hohe Leistung konzentriert und die Reihe der kleinen Sprachmodelle ergänzt.

SmolVLM ist ein kleines multimodales Modell mit 2 Milliarden Referenzen und gilt als der Leistungsführer seiner Klasse (State-of-the-Art, SOTA). SmolVLM kann Fragen zu Bildern beantworten, den Inhalt eines Bildes beschreiben, eine Geschichte auf der Grundlage mehrerer Bilder erzählen oder als rein linguistisches Modell verwendet werden. Nach Angaben des Entwicklerteams basiert SmolVLM auf einer leichtgewichtigen Architektur, die sich gut für die Ausführung auf Geräten eignet und dennoch multimodale Aufgaben gut erfüllt.

Die Architektur von SmolVLM basiert auf dem zuvor vorgestellten Bildverarbeitungsmodell von Hugging Face, IDEFICS 3, und sogar Transformator Die Umsetzung ist die gleiche. Allerdings hat Hugging Face eine ähnliche Implementierung von IDEFICS Es wurden mehrere Verbesserungen vorgenommen. Erstens wurde der Kern des Sprachmodells von Llama 3.1 8B durch SmolLM2 1.7B ersetzt. Zweitens verwendet SmolVLM fortschrittlichere Bildkomprimierungstechniken, wie die Pixel-Shuffle-Strategie und größere Patches für visuelle Token Kodierung, was zu einer verbesserten Kodiereffizienz, einer schnelleren Inferenz und einem geringeren Speicherverbrauch führt.

Hugging Face hebt die Vorteile von SmolVLM in Bezug auf Effizienz und Speichernutzung hervor und veröffentlicht vergleichende Testdaten mit gleichwertigen parametrischen Modellen. SmolVLM übertrifft Modelle wie InternVL2, PaliGemma, MM1.5, moondream und MiniCPM-V-2 in den Bereichen multimodales Verstehen, logisches Denken, Mathematik und Textverständnis. Auch in Bezug auf die Effizienz der GPU-Speichernutzung übertrifft es die meisten Modelle. Im Vergleich zu Qwen2-V2 von Alibaba liefert SmolVLM einen 3,3- bis 4,5-mal schnelleren Vorpopulationsdurchsatz und einen 7,5- bis 16-mal höheren Generierungsdurchsatz.

Hugging Face hat drei Modellversionen der SmolVLM-Familie veröffentlicht, darunter SmolVLM-Base für die Feinabstimmung, SmolVLM-Synthetic für die Feinabstimmung auf der Grundlage synthetischer Datensätze und die Befehlsversion SmolVLM Instruct, die für die direkte Interaktion mit dem Endbenutzer bereit ist. Alle Modellprüfpunkte, Trainingsdatensätze, Trainingsmethoden und Werkzeuge für SmolVLM basieren auf dem Apache 2.0Open-Source-Lizenz.

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Teilen Sie AI-generierte Videos 24/7

AI-Nachrichten

vor 1 Jahr

08.4K

Jüngste DeepSeek-All-in-One-Käufe weisen auf Verletzungsrisiken bei der Verwendung von Dify hin

AI-Nachrichten

vor 5 Monaten

08.8K

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

AI-Nachrichten

vor 7 Monaten

010.5K

Dify v1.0.0 Re-Release: Plugin-Architektur und offene Ökologie

AI-Nachrichten

vor 6 Monaten

08.4K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Hugging Face stellt SmolVLM vor, ein kleines multimodales Modell, das auf Endgeräten laufen kann

Neue Version｜Copilot + Agents, eine neue Ära der intelligenten Low-Code-Entwicklung.

OpenAI hofft, im nächsten Jahr auf 1 Milliarde Nutzer zu wachsen, und will Rechenzentren aggressiv ausbauen

Ähnliche Artikel

Teilen Sie AI-generierte Videos 24/7

Jüngste DeepSeek-All-in-One-Käufe weisen auf Verletzungsrisiken bei der Verwendung von Dify hin

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

Dify v1.0.0 Re-Release: Plugin-Architektur und offene Ökologie

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Hugging Face stellt SmolVLM vor, ein kleines multimodales Modell, das auf Endgeräten laufen kann

Neue Version｜Copilot + Agents, eine neue Ära der intelligenten Low-Code-Entwicklung.

OpenAI hofft, im nächsten Jahr auf 1 Milliarde Nutzer zu wachsen, und will Rechenzentren aggressiv ausbauen

Ähnliche Artikel

Teilen Sie AI-generierte Videos 24/7

Jüngste DeepSeek-All-in-One-Käufe weisen auf Verletzungsrisiken bei der Verwendung von Dify hin

Ihr exklusiver digitaler Mensch? Die ultimative PK von sechs Open-Source-Digital-Person-Lösungen: ein Vergleich der Ergebnisse auf einen Blick!

Dify v1.0.0 Re-Release: Plugin-Architektur und offene Ökologie

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel