Molmo: eine Reihe von multimodalen offenen Sprachmodellen von Ai2

Neueste AI-RessourcenAktualisiert vor 11 Monaten AI-Austauschkreis

2.1K 00

Allgemeine Einführung

Molmo ist ein multimodales offenes Sprachmodell, das vom Allen Institute for AI (Ai2) entwickelt wurde. Das Modell kombiniert textuelle und visuelle Datenverarbeitungsfähigkeiten, um Objekte in Bildern zu erkennen und genaue Beschreibungen zu generieren. Molmo schneidet in einer Reihe von Benchmarks gut ab und zeigt seine Leistungsfähigkeit vor allem bei komplexen Aufgaben wie dem Lesen von Dokumenten und visuellen Schlussfolgerungen.Ai2 hat diese auf Hugging Face veröffentlichtModelle und Datensätzeund plant, in den kommenden Monaten weitere Modelle und erweiterte technische Berichte auf den Markt zu bringen, um Forschern mehr Ressourcen zur Verfügung zu stellen; mehr dazu unter Technischer Bericht.

Die wichtigste Innovation von Molmo ist die Verwendung eines völlig neuen Bildbeschreibungsdatensatzes mit Modellen, die auf PixMo trainiert wurden, einem Datensatz mit einer Million ausgewählter Bild-Text-Paare. Diese Datensätze wurden ausschließlich von menschlichen Annotatoren durch Sprachbeschreibungen gesammelt. Darüber hinaus führt Molmo eine vielfältige Mischung von Datensätzen zur Feinabstimmung ein, einschließlich innovativer 2D-Zeigedaten, die es Molmo ermöglichen, Fragen nicht nur mit natürlicher Sprache, sondern auch mit nonverbalen Hinweisen zu beantworten.

Molmo basiert auf Qwen2-72B und verwendet CLIP von OpenAI als visuelles Grundgerüst, um die Fähigkeit des Modells zur Verarbeitung von Bildern und Text zu verbessern.

Molmo-72B: erzielte die höchste Punktzahl im akademischen Benchmark-Test und belegte den zweiten Platz in der manuellen Bewertung, nur knapp hinter GPT-4o. Es übertraf auch mehrere moderne proprietäre Systeme, darunter das Zwillinge 1.5 Pro, Flash und Claude 3.5 Sonnet: MolmoE-1B: das effizienteste Molmo-Modell, basierend auf unserem vollständig offenen OLMoE-1B-7B Hybrid-Experten-LLM, das sowohl in akademischen Benchmarks als auch in manuellen Evaluierungen fast so gut abschneidet wie GPT-4V. Beide Molmo-7B-Modelle: liegen sowohl in akademischen Benchmarks als auch in manuellen Evaluierungen zwischen GPT-4V und GPT-4o und übertreffen das kürzlich veröffentlichte Pixtral-12B-Modell in beiden Benchmarks deutlich.

Mehr Gewichte und Datenmodelle erschließen

Funktionsliste

Bilderkennung: die Fähigkeit, Objekte in einem Bild zu erkennen und eine Beschreibung zu erstellen.
Texterstellung: Generieren Sie relevante Textbeschreibungen auf der Grundlage von Eingabetext oder Bildern.
Multimodale Datenverarbeitung: Kombination textueller und visueller Daten für komplexe Aufgaben.
Open-Source-Ressourcen: Open-Source-Ressourcen für Modelle und Datensätze sind für Forscher verfügbar.
Online-Demo: Bietet eine Online-Demofunktion, mit der Benutzer Bilder hochladen und Beschreibungen erstellen können.

Hilfe verwenden

Leitlinien für die Verwendung

BilderkennungKlicken Sie auf die Schaltfläche "Bild hochladen" auf der Startseite der Website und wählen Sie die zu erkennende Bilddatei aus. Nach dem Hochladen wird das System automatisch eine Bildbeschreibung erstellen.
TextgenerierungGeben Sie den Text oder die Frage, für den/die Sie eine Beschreibung erstellen möchten, in das Textfeld ein, klicken Sie auf die Schaltfläche "Erstellen", und das System wird die entsprechende Textbeschreibung entsprechend dem eingegebenen Inhalt erstellen.
Multimodale DatenverarbeitungBenutzer können sowohl Bilder als auch Text hochladen, und das System kombiniert beides und erstellt eine umfassende Beschreibung.
Open-Source-RessourceBesuchen Sie die Plattform Hugging Face, um nach Molmo-Modellen zu suchen, sie herunterzuladen und die bereitgestellten Open-Source-Ressourcen zu nutzen.
Online-DemoKlicken Sie auf die Schaltfläche "Online-Demo" auf der Startseite der Website, um die Demoseite aufzurufen. Benutzer können Bilder hochladen oder Text eingeben, um die Funktionen von Molmo in Echtzeit zu erleben.

Funktion Betriebsablauf

Bilderkennung::
- Öffnen Sie die Molmo-Website und klicken Sie auf die Schaltfläche "Bild hochladen".
- Wählen Sie die zu erkennende Bilddatei aus und klicken Sie auf "Hochladen".
- Sie warten darauf, dass das System eine Bildbeschreibung verarbeitet und erstellt.
- Zeigen Sie die erstellte Beschreibung an und speichern Sie sie.
Textgenerierung::
- Geben Sie in das Textfeld den Text oder die Frage ein, für den/die Sie eine Beschreibung erstellen möchten.
- Klicken Sie auf die Schaltfläche "Generieren" und warten Sie, bis das System den Vorgang verarbeitet hat.
- Zeigen Sie die generierte Textbeschreibung an und bearbeiten oder speichern Sie sie nach Bedarf.
Multimodale Datenverarbeitung::
- Laden Sie das Bild und den Text gleichzeitig hoch und klicken Sie auf die Schaltfläche "Verarbeiten".
- Das System kombiniert Bild- und Textverarbeitung, um eine umfassende Beschreibung zu erstellen.
- Zeigen Sie die generierte zusammengesetzte Beschreibung an und speichern Sie sie.
Nutzung von Open-Source-Ressourcen::
- Besuchen Sie die Plattform Hugging Face und suchen Sie nach Molmo-Modellen.
- Laden Sie das Modell und den Datensatz herunter und folgen Sie den Anweisungen zur Installation und Verwendung.
- Verwenden Sie den mitgelieferten Beispielcode und die Dokumentation für sekundäre Entwicklung oder Forschung.