Am 16. März, Baidu offiziell veröffentlicht zwei neue große Modelle: Wenshin Big Model 4.5 und Wenshin Big Model X1. beide Modelle wurden inmit einem WortDie offizielle Website ist online und die Nutzer können es kostenlos ausprobieren. Gleichzeitig ist Wenshin Big Model 4.5 auf der Baidu Intelligent Cloud Qianfan Big Model Plattform gelandet, die von Unternehmensnutzern und Entwicklern über API aufgerufen werden kann. Wenshin Big Model X1 wird demnächst auch auf der Chifan-Plattform verfügbar sein. Darüber hinaus werden auch Baidu Search, Wenshin Yiyin APP und andere Produkte mit diesen beiden neuen Modellen verbunden, um den Nutzern ein breiteres Spektrum an Erfahrungen zu bieten.
Wenshin Big Model 4.5: Native multimodale, umfassendere Funktionen
Wenshin Big Model 4.5 ist eine neue Generation von nativen multimodalen Basis-Big-Models, die von Baidu entwickelt wurden. Es erreicht eine kollaborative Optimierung durch gemeinsame multimodale Modellierung und zeichnet sich durch multimodale Verständnisfähigkeiten aus. Im Vergleich zur Vorgängerversion hat das Wenshin Big Model 4.5 erhebliche Verbesserungen in den Bereichen Sprachfähigkeit, Verständnis, Generierung, Logik und Gedächtnis sowie bei der Reduzierung von Fehlermeldungen, logischem Denken und Code-Fähigkeit erzielt.
multimodale Fähigkeit
Textliche Kompetenz
Wenxin Big Model 4.5 ist in der Lage, Text, Bilder, Audio, Video und andere Formen von Inhalten umfassend zu verstehen. Bei komplexen Problemen mit Diagrammen ist es beispielsweise in der Lage, die wichtigsten Informationen in den Diagrammen genau zu extrahieren und detaillierte Schritte und Analysen zur Lösung der Probleme zu geben, um schließlich zur richtigen Antwort zu gelangen.
Zusätzlich zu seinem "hohen IQ" weist das Wenshin Big Model 4.5 auch einen "hohen EQ" auf, wenn es darum geht, prägnante Bilder aus dem Internet und satirische Cartoons zu verstehen. Es kann die versteckten Botschaften und humorvollen Elemente in diesen Inhalten genau erfassen und sie im Detail erklären. Zum Beispiel kann es die mathematischen Konzepte und die Logik einiger "Terrier-Bilder" klar erklären, die das mathematische Konzept "Kontinuität führt nicht unbedingt zu Kontinuität, und Führbarkeit führt notwendigerweise zu Kontinuität" enthalten.
Die erweiterten Möglichkeiten des Wenshin Big Model 4.5 sind auf mehrere Schlüsseltechnologien zurückzuführen:
- FlashMask Dynamische Aufmerksamkeitsmaske: Diese Technik beschleunigt die Berechnung von Aufmerksamkeitsmasken für große Modelle, verbessert die Fähigkeit zur Modellierung langer Sequenzen und die Trainingseffizienz und optimiert so die Leistung des Modells bei der Verarbeitung langer Texte und bei Gesprächen mit mehreren Runden.
- Multimodale heterogene Expertenerweiterungstechniken: Durch die Konstruktion heterogener Experten für verschiedene modale Merkmale und die Kombination der adaptiven Verlustfunktion für die modale Wahrnehmung lösen wir das Problem der Unausgewogenheit der verschiedenen modalen Gradienten und verbessern die multimodale Fusionsfähigkeit.
- Komprimierungstechniken für die räumlich-zeitliche Darstellung von Dimensionen: Diese Technik kann die semantischen Repräsentationen von Bildern und Videos in der räumlich-zeitlichen Dimension effizient komprimieren, die Effizienz des multimodalen Datentrainings drastisch verbessern und die Fähigkeit von Modellen, Wissen aus langen Videos zu lernen, erhöhen.
- Groß angelegte Datenkonstruktionstechniken auf der Grundlage von Wissenspunkten: Durch die Techniken des hierarchischen Samplings von Wissen, der Datenkompression und -fusion sowie der gezielten Synthese knapper Wissenspunkte werden Daten mit hoher Wissensdichte vor dem Training erstellt, um die Effizienz des Modelllernens zu verbessern und die Wahrscheinlichkeit zu verringern, dass das Modell fehlerhafte Informationen erzeugt.
- Auf Selbstfeedback basierende Nachschulungstechniken: Ein iteratives Nachtrainingsverfahren mit Selbst-Rückkopplung, das mehrere Bewertungsmodalitäten umfasst, verbessert die Stabilität und Robustheit des Verstärkungslernens umfassend und ermöglicht es den vortrainierten Modellen, sich besser an die menschlichen Absichten anzupassen.
Literary Mind Big Model X1: Tieferes Denken, umfassendere Fähigkeiten
Das Literary Mind Big Model X1 verfügt über erweiterte Fähigkeiten zum Verstehen, Planen, Reflektieren und Entwickeln und unterstützt Multimodalität. Es ist das erste Modell für vertieftes Denken, das selbständig Werkzeuge verwenden kann. Das Wenshin Big Model X1 zeigt besonders gute Leistungen in den Bereichen Chinesisch-Wissensquiz, literarisches Schaffen, Schreiben von Manuskripten, täglicher Dialog, logisches Denken, komplexe Berechnungen und Aufrufen von Tools.
Wenxin Big Model X1 unterstützt bereits eine Vielzahl von Werkzeugen, darunter erweiterte Suche, Dokumentenquiz, Bildverständnis, KI-Zeichnen, Code-Interpreter, Lesen von Webseiten-Links, TreeMind-Baumkarte, Baidu Academic Search, Abfrage von Geschäftsinformationen, Abfrage von Verbindungsinformationen und so weiter.
Bei der Erstellung einer umgeschriebenen Version von "The Cold Kiln Fugue" zeigt Wenshin Big Model X1 beispielsweise eine klare Denkkette: Zuerst findet es Anspielungen auf historische Figuren, die dem Originaltext ähnlich sind, dann achtet es auf den Schreibstil und die Syntax, prüft dann die Angemessenheit der Anspielungen und behält schließlich die glatte Struktur des Textes bei, wobei es einen Text erstellt, der in Bezug auf die Intention und den Schreibstil und die Syntax im Wesentlichen mit dem Originaltext übereinstimmt.
Die erweiterten Fähigkeiten des Wenshin Big Model X1 sind auf mehrere Schlüsseltechnologien zurückzuführen:
- Progressive und intensive Lern- und Ausbildungsmethoden: Dieser innovative Ansatz verbessert die umfassende Anwendung von Modellen in Szenarien wie Erstellung, Suche, Werkzeugaufruf und Schlussfolgerungen.
- Durchgängige Ausbildung auf der Grundlage der Denk- und Handlungskette: Bei der Tiefensuche, dem Aufruf von Werkzeugen und anderen Szenarien wird das Modelltraining auf der Grundlage des Ergebnisfeedbacks durchgängig durchgeführt, was den Trainingseffekt erheblich verbessert.
- Vielfältiges und einheitliches Belohnungssystem: Einführung eines einheitlichen Belohnungssystems, das mehrere Arten von Belohnungsmechanismen umfasst, um ein solideres Feedback für das Modelltraining zu erhalten.
Preise und Ausblick
Derzeit können Nutzer Wuxin Big Model 4.5 und Wuxin Big Model X1 kostenlos auf der offiziellen Website von WuxinYiYin ausprobieren, und auf der Baidu Intelligent Cloud Qianfan Big Model-Plattform liegt der Eingabepreis von Wuxin Big Model 4.5 API bei nur 0,004 Yuan/Tausend Wörter und der Ausgabepreis bei nur 0,016 Yuan/Tausend Wörter. Wenshin Big Model X1 wird bald auf der Chifan-Plattform eingeführt, mit einem Eingabepreis von nur 0,002 Yuan/Tausend Wörter und einem Ausgabepreis von nur 0,008 Yuan/Tausend Wörter.
Baidu sagte, dass 2024 das Jahr der vollständigen Iteration der Big-Model-Technologie ist und dass es größere Investitionen in KI, Rechenzentren und Cloud-Infrastruktur tätigen wird, um bessere und intelligentere Modelle der nächsten Generation zu entwickeln.