Google veröffentlicht Gemini 2.5: Große Verbesserungen bei den "Denk"-Fähigkeiten

AI-NachrichtenGeschrieben vor 6 Monaten AI-Austauschkreis

Google DeepMind veröffentlichte am 25. März 2025 (zuletzt aktualisiert am 26. März) die nach eigenen Angaben intelligenteste Familie von KI-Modellen - die Gemini 2.5. Das erste Debüt des Gemini 2.5 Pro Experimental Die Version schneidet in mehreren Benchmarks hervorragend ab und zeigt deutliche Verbesserungen insbesondere bei den Argumentations- und Codierungsfähigkeiten sowie bei LMArena Mit deutlichem Abstand an der Spitze der Charts.

"Denkmodelle": mehr als Vorhersage, mehr als Argumentation

Gemini 2.5 Die Serie wird von Google als "Denkmodelle" definiert. Im Mittelpunkt dieses Konzepts steht die Fähigkeit der Modelle, einen internen "Denk-" oder Argumentationsprozess zu durchlaufen, bevor sie eine Antwort generieren, mit dem Ziel, die Leistung und Genauigkeit bei der Bewältigung komplexer Probleme zu verbessern. In der KI geht die Fähigkeit zum "Denken" über einfache Klassifizierung und Vorhersage hinaus und umfasst die Fähigkeit, Informationen zu analysieren, logische Schlussfolgerungen zu ziehen, Kontext und Nuancen zu verstehen und dementsprechend fundierte Entscheidungen zu treffen.

Forscher erforschen seit langem Möglichkeiten zur Verbesserung des KI-Schlussfolgerns, wie z. B. das Verstärkungslernen und Hinweise auf die Gedankenkette. Auf der Grundlage dieser Forschungen hat Google bereits das erste "Denkmodell" vorgestellt. Gemini 2.0 Flash Thinking. Die Freigabe der Gemini 2.5 Google sagt, dass es diese "Denk"-Fähigkeit in Zukunft in alle seine Modelle einbauen wird, um komplexere Probleme anzugehen und leistungsfähigere, besser kontextbewusste Agenten zu unterstützen. Diese "Denk"-Fähigkeit wird in alle Modelle eingebaut, um komplexere Probleme anzugehen und leistungsfähigere und kontextbewusste Agenten zu unterstützen. Dieser Mechanismus des "Denkens" und anschließenden "Antwortens" soll dazu beitragen, das bei KI-Modellen häufig auftretende Phänomen der "Illusion" zu verringern und die Zuverlässigkeit der Antworten zu verbessern.

Gemini 2.5 Pro Experimental Leistung

Laut den von Google veröffentlichten InformationenGemini 2.5 Pro Experimental Bei der Bewältigung komplexer Aufgaben steht sie derzeit an der Spitze. Sie ist sehr gut bei der Messung menschlicher Präferenzen in LMArena Ein deutlicher Vorsprung in den Diagrammen bedeutet in der Regel, dass das Modell nicht nur leistungsfähig ist, sondern dass auch der Stil, die Kohärenz und die Nützlichkeit seiner Ergebnisse von den Benutzern bevorzugt werden.

Was die spezifischen Benchmarks betrifft:

logisches DenkvermögenDas Modell ist nützlich für mathematische und naturwissenschaftliche Vergleichstests, die fortgeschrittenes logisches Denken erfordern (z. B. GPQA im Gesang antworten AIME 2025) in führender Leistung und ohne den Einsatz von kostensteigernden Testzeittricks (z. B. Mehrheitsentscheidungen). In einem Test, mit dem die Grenzen des menschlichen Wissens und Denkens von Hunderten von Fachleuten bewertet werden sollen, ist die Humanity’s Last Exam auf den Datensatz.Gemini 2.5 Pro Ein Wert von 18,8% wurde ohne den Einsatz externer Hilfsmittel erreicht, was wiederum den Spitzenwert darstellt.
Hinweis: Die obige Abbildung zeigt einen Vergleich der Modelle in Bezug auf logisches Denken, Naturwissenschaften und Mathematik unter Einbeziehung von OpenAI GPT-4.5 und Claude 3.7 Modellnamen und Daten wie z.B. Sonnet sind den von Google bereitgestellten Tabellen entnommen.
Programmierkenntnisse::Gemini 2.5 In Bezug auf die Kodierung im Vergleich zu Gemini 2.0 hat einen riesigen Schritt nach vorn gemacht und sich auf die Erstellung von optisch ansprechenden Webanwendungen, Smart-Body-Code-Anwendungen sowie die Konvertierung und Bearbeitung von Code spezialisiert. Der Industriestandard für die Messung von Smart-Body-Code-Fähigkeiten SWE-Bench Verified Ein, unter Verwendung einer benutzerdefinierten Smart Body-Einstellung von Gemini 2.5 Pro eine Punktzahl von 63,8% erreicht. google zeigte auch ein Beispiel für eineGemini 2.5 Pro Es wurde ein einfaches Dinosaurier-Videospiel erstellt, bei dem die Fähigkeit des Systems genutzt wurde, auf der Grundlage einer einzigen Zeile von Eingabeaufforderungen ausführbaren Code zu erzeugen.

Vererbung und Entwicklung: Multimodalität und lange Kontexte

Gemini 2.5 vererbt Gemini Die wichtigsten Stärken der Serie: native multimodale Funktionen und lange Kontextfenster.Gemini 2.5 Pro Eine Million Unterstützer bei der Einführung Token Kontextfenster (und plant, es bald auf 2 Millionen Token zu erweitern) und übertrifft sein Vorgängermodell in diesem langen Fenster. Das bedeutet, dass es riesige Datensätze mit Text, Audio, Bildern, Video und sogar ganzen Codebasen verstehen und verarbeiten kann, um komplexe Probleme aus verschiedenen Informationsquellen zu bewältigen. Dies bietet ein erhebliches Anwendungspotenzial für Szenarien, die ein tiefes Verständnis langer Dokumente, die Analyse komplexer Code-Projekte oder die Verarbeitung langer Videoinhalte erfordern.

Die Tabelle wurde am 26. März aktualisiert, um die neue MRCR-Bewertung (Multi Round Coreference Resolution) aufzunehmen.

Verfügbarkeit und Zukunftsperspektiven

Derzeit.Gemini 2.5 Pro Experimental Die Version wurde veröffentlicht in Google AI Studio Den Entwicklern wurde ein Versuch imGemini Advanced Die Nutzer können das Modell auch über ein Dropdown-Menü auf Desktop- und Mobilgeräten verwenden. Das Modell wird voraussichtlich in den kommenden Wochen auf folgenden Websites erscheinen Vertex AI Google plant außerdem, in den kommenden Wochen Preisinformationen bekannt zu geben, die es den Nutzern ermöglichen, die Plattform in skalierten Produktionsumgebungen mit höheren Raten zu verwenden.

Die Kennzeichnung "Experimental" deutet darauf hin, dass die aktuelle Version noch schnell überarbeitet wird und dass die Nutzer bei der Verwendung möglicherweise auf eine gewisse Instabilität stoßen, während Google hofft, umfangreiches Feedback für eine kontinuierliche Verbesserung zu sammeln.Gemini 2.5 Die Veröffentlichung dieses neuen Sprachmodells, insbesondere seine Betonung des "Denkens" und seine starke Leistung bei Benchmarks, ist zweifellos ein weiterer Schritt nach vorn auf dem Gebiet der Sprachmodellierung in großem Maßstab, und seine weitere Entwicklung und praktische Anwendung verdienen große Aufmerksamkeit.

AI-Nachrichten

Artikel Copyright AI-Austauschkreis Alle, bitte nicht ohne Erlaubnis vervielfältigen.

Glean vs. Microsoft Copilot: Welches KI-Tool ist besser für Sie?

AI-Nachrichten

vor 9 Monaten

017.9K

EpocCam：将苹果手机变成高清网络摄像头，支持Mac设备，轻松实现视频会议和直播

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

AI-Nachrichten

vor 10 Monaten

013.3K

Top 5 KI-Inferenzplattformen, die eine kostenlose Vollversion von DeepSeek-R1 verwenden

AI-Nachrichten

vor 8 Monaten

022.4K

Geräteübergreifendes generatives KI-Multimodal-Benchmarking auf der Endgeräteseite mit Nexa Compressed Inference

AI-Nachrichten

vor 8 Monaten

012.4K

Keine Kommentare

Sie müssen eingeloggt sein, um an den Kommentaren teilnehmen zu können!

Jetzt anmelden

Keine Kommentare...

Google veröffentlicht Gemini 2.5: Große Verbesserungen bei den "Denk"-Fähigkeiten

Jüngste DeepSeek-All-in-One-Käufe weisen auf Verletzungsrisiken bei der Verwendung von Dify hin

Wu Enda über die KI-Modellstrategie: Technologieauswahl und Werteabwägung von DeepSeek, Gemini

Ähnliche Artikel

Glean vs. Microsoft Copilot: Welches KI-Tool ist besser für Sie?

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

Top 5 KI-Inferenzplattformen, die eine kostenlose Vollversion von DeepSeek-R1 verwenden

Geräteübergreifendes generatives KI-Multimodal-Benchmarking auf der Endgeräteseite mit Nexa Compressed Inference

Keine Kommentare

Neueste Kollektionen

Neueste Artikel

Google veröffentlicht Gemini 2.5: Große Verbesserungen bei den "Denk"-Fähigkeiten

Jüngste DeepSeek-All-in-One-Käufe weisen auf Verletzungsrisiken bei der Verwendung von Dify hin

Wu Enda über die KI-Modellstrategie: Technologieauswahl und Werteabwägung von DeepSeek, Gemini

Ähnliche Artikel

Glean vs. Microsoft Copilot: Welches KI-Tool ist besser für Sie?

EpocCam: Verwandelt Ihr Apple-Handy in eine HD-Webcam, unterstützt Mac-Geräte, einfache Videokonferenzen und Live-Streaming

Top 5 KI-Inferenzplattformen, die eine kostenlose Vollversion von DeepSeek-R1 verwenden

Geräteübergreifendes generatives KI-Multimodal-Benchmarking auf der Endgeräteseite mit Nexa Compressed Inference

Keine Kommentare

Ausgewählte AI-Tools

Neueste Kollektionen

Neueste Artikel