Am 16. März, Baidu offiziell veröffentlicht zwei neue große Modelle: Wenshin Big Model 4.5 und Wenshin Big Model X1. beide Modelle wurden inmit einem WortDie offizielle Website ist online und die Nutzer können es kostenlos ausprobieren. Gleichzeitig ist Wenshin Big Model 4.5 auf der Baidu Intelligent Cloud Qianfan Big Model Plattform gelandet, die von Unternehmensnutzern und Entwicklern über API aufgerufen werden kann. Wenshin Big Model X1 wird demnächst auch auf der Chifan-Plattform verfügbar sein. Darüber hinaus werden auch Baidu Search, Wenshin Yiyin APP und andere Produkte mit diesen beiden neuen Modellen verbunden, um den Nutzern ein breiteres Spektrum an Erfahrungen zu bieten.
Wenshin Big Model 4.5: Native multimodale, umfassendere Funktionen
Wenshin Big Model 4.5 ist eine neue Generation von nativen multimodalen Basis-Big-Models, die von Baidu entwickelt wurden. Es erreicht eine kollaborative Optimierung durch gemeinsame multimodale Modellierung und zeichnet sich durch multimodale Verständnisfähigkeiten aus. Im Vergleich zur Vorgängerversion hat das Wenshin Big Model 4.5 erhebliche Verbesserungen in den Bereichen Sprachfähigkeit, Verständnis, Generierung, Logik und Speicher sowie bei der Reduzierung von Fehlermeldungen, logischen Schlussfolgerungen und Code-Fähigkeiten erzielt.
multimodale Fähigkeit
Textliche Kompetenz
Wenxin Big Model 4.5 ist in der Lage, Text, Bilder, Audio, Video und andere Formen von Inhalten umfassend zu verstehen. Bei komplexen Problemen mit Diagrammen ist es beispielsweise in der Lage, die wichtigsten Informationen aus den Diagrammen zu extrahieren und detaillierte Schritte und Analysen zur Lösung der Probleme zu geben, um schließlich die richtige Antwort zu finden.
Zusätzlich zu seiner "hohen Intelligenz" zeigt das Wenshin Big Model 4.5 auch eine "hohe emotionale Intelligenz", wenn es darum geht, knappe Internetbilder und satirische Cartoons zu verstehen. Es kann die versteckten Botschaften und humoristischen Elemente in diesen Inhalten genau erfassen und detailliert erklären. So kann es beispielsweise die mathematischen Konzepte und die Logik einiger "Terrier-Bilder" klar erklären, die das mathematische Konzept "Kontinuität führt nicht notwendigerweise zu Kontinuität, und Führbarkeit führt notwendigerweise zu Kontinuität" enthalten.
Die erweiterten Möglichkeiten des Wenshin Big Model 4.5 sind auf mehrere Schlüsseltechnologien zurückzuführen:
- FlashMask Dynamische Aufmerksamkeitsmaske: Diese Technik beschleunigt die Berechnung von Aufmerksamkeitsmasken für große Modelle, verbessert die Modellierungsfähigkeiten für lange Sequenzen und die Trainingseffizienz und optimiert so die Leistung des Modells bei der Verarbeitung langer Texte und Dialoge mit mehreren Runden.
- Multimodale heterogene Expertenerweiterungstechniken: Durch die Konstruktion heterogener Experten für verschiedene modale Merkmale und die Kombination der adaptiven Verlustfunktion für die modale Wahrnehmung lösen wir das Problem der Unausgewogenheit der verschiedenen modalen Gradienten und verbessern die multimodale Fusionsfähigkeit.
- Komprimierungstechniken für die räumlich-zeitliche Darstellung von Dimensionen: Diese Technik kann die semantischen Repräsentationen von Bildern und Videos in der räumlich-zeitlichen Dimension effizient komprimieren, die Effizienz des multimodalen Datentrainings drastisch verbessern und die Fähigkeit von Modellen, Wissen aus langen Videos zu lernen, erhöhen.
- Groß angelegte Datenkonstruktionstechniken auf der Grundlage von Wissenspunkten: Durch die Techniken des hierarchischen Samplings von Wissen, der Datenkompression und -fusion sowie der gezielten Synthese knapper Wissenspunkte werden Daten mit hoher Wissensdichte vor dem Training erstellt, um die Effizienz des Modelllernens zu verbessern und die Wahrscheinlichkeit zu verringern, dass das Modell fehlerhafte Informationen erzeugt.
- Auf Selbstfeedback basierende Nachschulungstechniken: Ein iteratives Nachtrainingsverfahren mit Selbst-Rückkopplung, das mehrere Bewertungsmodalitäten umfasst, verbessert die Stabilität und Robustheit des Verstärkungslernens umfassend und ermöglicht es den vortrainierten Modellen, sich besser an die menschlichen Absichten anzupassen.
Literary Mind Big Model X1: Tieferes Denken, umfassendere Fähigkeiten
Das Literary Mind Big Model X1 verfügt über verbesserte Fähigkeiten zum Verstehen, Planen, Reflektieren und Entwickeln und unterstützt Multimodalität. Es ist das erste Modell für vertieftes Denken, das eigenständig Werkzeuge verwenden kann. Das Wenshin Big Model X1 zeigt besonders gute Leistungen bei Chinesisch-Wissensquiz, Literaturerstellung, Manuskripterstellung, täglichem Dialog, logischem Denken, komplexer Berechnung und Werkzeugaufruf.
Wenxin Big Model X1 unterstützt bereits eine Vielzahl von Werkzeugen, darunter erweiterte Suche, Dokumentenquiz, Bildverständnis, KI-Zeichnen, Code-Interpreter, Lesen von Webseiten-Links, TreeMind-Baumkarte, Baidu Academic Search, Abfrage von Geschäftsinformationen, Abfrage von Verbindungsinformationen und so weiter.
Bei der Erstellung einer umgeschriebenen Version von "The Cold Kiln Fugue" zeigt Wenshin Big Model X1 beispielsweise eine klare Denkkette: Zuerst findet es Anspielungen auf historische Figuren, die dem Originaltext ähnlich sind, dann achtet es auf den Schreibstil und die Syntax, prüft dann die Angemessenheit der Anspielungen und behält schließlich die glatte Struktur des Textes bei, wobei es einen Text erstellt, der in Bezug auf die Intention und den Schreibstil und die Syntax im Wesentlichen mit dem Originaltext übereinstimmt.
Die erweiterten Fähigkeiten des Wenshin Big Model X1 sind auf mehrere Schlüsseltechnologien zurückzuführen:
- Progressive und intensive Lern- und Ausbildungsmethoden: Dieser innovative Ansatz verbessert die umfassende Anwendung von Modellen in Szenarien wie Erstellung, Suche, Werkzeugaufruf und Schlussfolgerungen.
- Durchgängige Ausbildung auf der Grundlage der Denk- und Handlungskette: Bei der Tiefensuche, dem Aufruf von Werkzeugen und anderen Szenarien wird das Modelltraining auf der Grundlage des Ergebnisfeedbacks durchgängig durchgeführt, was den Trainingseffekt erheblich verbessert.
- Vielfältiges und einheitliches Belohnungssystem: Einführung eines einheitlichen Belohnungssystems, das mehrere Arten von Belohnungsmechanismen umfasst, um ein solideres Feedback für das Modelltraining zu erhalten.
Preise und Ausblick
Derzeit können Nutzer Wuxin Big Model 4.5 und Wuxin Big Model X1 kostenlos auf der offiziellen Website von WuxinYiYin ausprobieren, und auf der Baidu Intelligent Cloud Qianfan Big Model-Plattform liegt der Eingabepreis von Wuxin Big Model 4.5 API bei nur 0,004 Yuan/Tausend Wörter und der Ausgabepreis bei nur 0,016 Yuan/Tausend Wörter. Wenshin Big Model X1 wird bald auf der Chifan-Plattform eingeführt, mit einem Eingabepreis von nur 0,002 Yuan/Tausend Wörter und einem Ausgabepreis von nur 0,008 Yuan/Tausend Wörter.
Baidu sagte, dass 2024 das Jahr der vollständigen Iteration der Big-Model-Technologie ist und dass es größere Investitionen in KI, Rechenzentren und Cloud-Infrastruktur tätigen wird, um bessere und intelligentere Modelle der nächsten Generation zu entwickeln.