AI Personal Learning
und praktische Anleitung

Molmo: eine Reihe von multimodalen offenen Sprachmodellen, erstellt von Ai2

Allgemeine Einführung

Molmo ist ein multimodales offenes Sprachmodell, das vom Allen Institute for AI (Ai2) entwickelt wurde. Das Modell kombiniert textuelle und visuelle Datenverarbeitungsfähigkeiten, um Objekte in Bildern zu erkennen und genaue Beschreibungen zu generieren. Molmo schneidet in einer Reihe von Benchmarks gut ab und zeigt seine Leistungsfähigkeit vor allem bei komplexen Aufgaben wie dem Lesen von Dokumenten und visuellen Schlussfolgerungen.Ai2 hat diese auf Hugging Face veröffentlichtModelle und Datensätzeund plant, in den kommenden Monaten weitere Modelle und erweiterte technische Berichte auf den Markt zu bringen, um Forschern mehr Ressourcen zur Verfügung zu stellen; mehr dazu unter Technischer Bericht.

Die wichtigste Innovation von Molmo ist die Verwendung eines völlig neuen Bildbeschreibungsdatensatzes mit Modellen, die auf PixMo trainiert wurden, einem Datensatz mit einer Million ausgewählter Bild-Text-Paare. Diese Datensätze wurden ausschließlich von menschlichen Annotatoren durch Sprachbeschreibungen gesammelt. Darüber hinaus führt Molmo eine vielfältige Mischung von Datensätzen zur Feinabstimmung ein, einschließlich innovativer 2D-Zeigedaten, die es Molmo ermöglichen, Fragen nicht nur mit natürlicher Sprache, sondern auch mit nonverbalen Hinweisen zu beantworten.

Molmo: eine Reihe von multimodalen offenen Sprachmodellen, erstellt von Ai2

Molmo basiert auf Qwen2-72B und verwendet CLIP von OpenAI als visuelles Grundgerüst, um die Fähigkeit des Modells zur Verarbeitung von Bildern und Text zu verbessern.

 


Molmo-72B: erzielte die höchste Punktzahl im akademischen Benchmarking-Test und belegte den zweiten Platz in der manuellen Bewertung, nur knapp hinter GPT-4o. Es übertraf auch mehrere moderne proprietäre Systeme, darunter Zwillinge 1.5 Pro, Flash und Claude 3.5 Sonnet: MolmoE-1B: das effizienteste Molmo-Modell, basierend auf unserem vollständig offenen OLMoE-1B-7B Hybrid-Experten-LLM, das sowohl in akademischen Benchmarks als auch in manuellen Evaluierungen fast so gut abschneidet wie GPT-4V. Beide Molmo-7B-Modelle: liegen sowohl in akademischen Benchmarks als auch in manuellen Evaluierungen zwischen GPT-4V und GPT-4o und übertreffen das kürzlich veröffentlichte Pixtral-12B-Modell in beiden Benchmarks deutlich.

 

Mehr Gewichte und Datenmodelle erschließen

 

Funktionsliste

  • Bilderkennung: die Fähigkeit, Objekte in einem Bild zu erkennen und eine Beschreibung zu erstellen.
  • Texterstellung: Generieren Sie relevante Textbeschreibungen auf der Grundlage von Eingabetext oder Bildern.
  • Multimodale Datenverarbeitung: Kombination textueller und visueller Daten für komplexe Aufgaben.
  • Open-Source-Ressourcen: Open-Source-Ressourcen für Modelle und Datensätze sind für Forscher verfügbar.
  • Online-Demo: Bietet eine Online-Demofunktion, mit der Benutzer Bilder hochladen und Beschreibungen erstellen können.

Hilfe verwenden

Richtlinien für die Verwendung

  1. BilderkennungKlicken Sie auf die Schaltfläche "Bild hochladen" auf der Startseite der Website und wählen Sie die zu erkennende Bilddatei aus. Nach dem Hochladen wird das System automatisch eine Bildbeschreibung erstellen.
  2. TextgenerierungGeben Sie den Text oder die Frage, für den/die Sie eine Beschreibung erstellen möchten, in das Textfeld ein, klicken Sie auf die Schaltfläche "Erstellen", und das System wird die entsprechende Textbeschreibung entsprechend dem eingegebenen Inhalt erstellen.
  3. Multimodale DatenverarbeitungBenutzer können sowohl Bilder als auch Text hochladen, und das System kombiniert beides und erstellt eine umfassende Beschreibung.
  4. Open-Source-RessourceBesuchen Sie die Plattform Hugging Face, um nach Molmo-Modellen zu suchen, sie herunterzuladen und die bereitgestellten Open-Source-Ressourcen zu nutzen.
  5. Online-DemoKlicken Sie auf die Schaltfläche "Online-Demo" auf der Startseite der Website, um die Demoseite aufzurufen. Benutzer können Bilder hochladen oder Text eingeben, um die Funktionen von Molmo in Echtzeit zu erleben.

Funktion Betriebsablauf

  1. Bilderkennung::
    • Öffnen Sie die Molmo-Website und klicken Sie auf die Schaltfläche "Bild hochladen".
    • Wählen Sie die zu erkennende Bilddatei aus und klicken Sie auf "Hochladen".
    • Sie warten darauf, dass das System eine Bildbeschreibung verarbeitet und erstellt.
    • Zeigen Sie die erstellte Beschreibung an und speichern Sie sie.
  2. Textgenerierung::
    • Geben Sie in das Textfeld den Text oder die Frage ein, für den/die Sie eine Beschreibung erstellen möchten.
    • Klicken Sie auf die Schaltfläche "Generieren" und warten Sie, bis das System den Vorgang verarbeitet hat.
    • Zeigen Sie die generierte Textbeschreibung an und bearbeiten oder speichern Sie sie nach Bedarf.
  3. Multimodale Datenverarbeitung::
    • Laden Sie das Bild und den Text gleichzeitig hoch und klicken Sie auf die Schaltfläche "Verarbeiten".
    • Das System kombiniert Bild- und Textverarbeitung, um eine umfassende Beschreibung zu erstellen.
    • Zeigen Sie die generierte zusammengesetzte Beschreibung an und speichern Sie sie.
  4. Nutzung von Open-Source-Ressourcen::
    • Besuchen Sie die Plattform Hugging Face und suchen Sie nach Molmo-Modellen.
    • Laden Sie das Modell und den Datensatz herunter und folgen Sie den Anweisungen zur Installation und Verwendung.
    • Verwenden Sie den mitgelieferten Beispielcode und die Dokumentation für sekundäre Entwicklung oder Forschung.
AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Molmo: eine Reihe von multimodalen offenen Sprachmodellen, erstellt von Ai2

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)