Ein Brief von Sundar Pichai, CEO von Google und Alphabet:
Informationen sind das Herzstück des menschlichen Fortschritts. Aus diesem Grund arbeiten wir seit 26 Jahren daran, die Informationen der Welt zu organisieren und sie zugänglich und nützlich zu machen. Das ist auch der Grund, warum wir die Grenzen der künstlichen Intelligenz ständig erweitern, um Informationen durch eine Vielzahl von Eingaben zu organisieren und sie durch Ausgaben, die Ihnen tatsächlich helfen, nützlicher zu machen.
Das haben wir im Dezember letzten Jahres auf den Weg gebracht. Zwillinge Die Vision bei 1.0: Gemini 1.0 ist das erste native multimodale Modell, das ein umfassendes Verständnis von Text, Video, Bildern, Audio und Code mit Multimodalität und langen Kontexten ermöglicht und mehr Informationen verarbeitet.
Heute erstellen Millionen von Entwicklern Produkte mit Gemini. Es hat uns geholfen, alle unsere Produkte neu zu konzipieren - einschließlich unserer sieben Kernprodukte mit 2 Milliarden Nutzern - und neue Produkte zu entwickeln. notebookLM ist ein großartiges Beispiel für multimodale und kontextübergreifende Funktionen, und warum es so beliebt ist. NotebookLM ist ein großartiges Beispiel für multimodale und kontextübergreifende Funktionen und warum es so beliebt ist.
Im Laufe des letzten Jahres haben wir an der Entwicklung von Modellen gearbeitet, die stärker agentenorientiert sind - Modelle, die die Welt um Sie herum besser verstehen, mehrere Schritte vorausdenken und unter Ihrer Aufsicht Maßnahmen ergreifen können.
Heute freuen wir uns, die nächste Generation von Modellen vorzustellen, die für diese neue Ära der Agenten entwickelt wurden: Gemini 2.0, unser bisher leistungsstärkstes Modell. Mit neuen Fortschritten in multimodalen Bereichen (z. B. native Bild- und Audioausgabe) und nativen Funktionen für die Nutzung von Werkzeugen ermöglicht es uns, neue KI-Agenten zu entwickeln, die unserer Vision eines universellen Assistenten einen Schritt näher kommen.
Heute stellen wir Entwicklern und zuverlässigen Testern die Version 2.0 zur Verfügung. Wir beschleunigen die Integration in unsere Produkte, beginnend mit Gemini und Search. Ab heute wird unser experimentelles Modell Gemini 2.0 Flash für alle Gemini-Nutzer verfügbar sein. Gleichzeitig starten wir einen neuen Dienst namens Intensive Forschung eine neue Funktion, die fortschrittliche Schlussfolgerungen und lange Kontextfähigkeiten als Rechercheassistent nutzt, um komplexe Themen zu erforschen und Berichte in Ihrem Namen zusammenzustellen. Sie ist jetzt in Gemini Advanced verfügbar.
Kein Produkt wurde von der KI mehr beeinflusst als die Suche. Unsere KI-Übersicht erreicht jetzt 1 Milliarde Nutzer und ist in der Lage, eine ganze Reihe neuer Fragetypen zu beantworten - und wird schnell zu einer der beliebtesten Suchfunktionen. Als Nächstes bringen wir die erweiterten Argumentationsfähigkeiten von Gemini 2.0 in AI Overview ein, um komplexere Themen und mehrstufige Fragen zu bearbeiten, einschließlich fortgeschrittener mathematischer Gleichungen, multimodaler Abfragen und Codierung. Wir haben diese Woche mit begrenzten Tests begonnen, die Anfang nächsten Jahres auf breiterer Basis eingeführt werden sollen. Im Laufe des nächsten Jahres werden wir AI Overview auch in weiteren Ländern und Sprachen einführen.
Die Fortschritte von Gemini 2.0 wurden durch unsere Investitionen in innovative, ganzheitliche KI-Ansätze seit mehr als einem Jahrzehnt ermöglicht. Sie basieren auf kundenspezifischer Hardware wie Trillium, unserer TPU der sechsten Generation. Die TPU unterstützt Gemini 2.0-Training und Inferenz auf dem 100%, und heute ist Trillium für Kunden vollständig verfügbar, um Produkte damit zu entwickeln.
Wenn es bei Gemini 1.0 darum ging, Informationen zu organisieren und sinnvoll zu nutzen, geht es bei Gemini 2.0 darum, Informationen nützlicher zu machen. Ich kann es kaum erwarten, zu sehen, was diese neue Ära bringen wird.
Ankündigung von Gemini 2.0: ein neues KI-Modell für das Agentenzeitalter
Von Demis Hassabis, Google DeepMind CEO und Koray Kavukcuoglu, Google DeepMind CTO im Namen des Gemini-Teams
Im vergangenen Jahr haben wir auf dem Gebiet der künstlichen Intelligenz erstaunliche Fortschritte gemacht. Heute haben wir das erste Modell der Gemini 2.0 Familie vorgestellt: eine experimentelle Version von Gemini 2.0 Flash. Dabei handelt es sich um ein effizientes Modell an der Spitze unserer Technologie, das sich durch geringe Latenzzeiten und verbesserte Leistung auszeichnet.
Außerdem stellen wir einen Prototyp vor, der die Grenzen der Agentenforschung aufzeigt, die durch die nativen multimodalen Fähigkeiten von Gemini 2.0 unterstützt werden.
Zwilling 2.0 Flash
Gemini 2.0 Flash baut auf dem Erfolg von 1.5 Flash auf, dem bei weitem beliebtesten Modell unter den Entwicklern, und bietet die gleichen schnellen Reaktionszeiten und verbesserte Leistung. Bemerkenswerterweise übertrifft 2.0 Flash sogar 1.5 Pro in wichtigen Benchmarks und ist doppelt so schnell. 2.0 Flash bietet auch neue Funktionen. Flash 2.0 unterstützt nicht nur multimodale Eingaben wie Bilder, Video und Audio, sondern auch multimodale Ausgaben wie nativ generierte Bild- und Textmischungen und kontrollierte mehrsprachige Text-to-Speech (TTS)-Audioausgabe. Darüber hinaus können Werkzeuge wie die Google-Suche, Code-Ausführung und benutzerdefinierte Funktionen von Drittanbietern nativ aufgerufen werden.
Unser Ziel ist es, dass die Nutzer sicher und schnell mit unseren Modellen arbeiten können. Im vergangenen Monat haben wir eine frühe experimentelle Version von Gemini 2.0 veröffentlicht und wertvolles Feedback von Entwicklern erhalten.
Gemini 2.0 Flash ist jetzt als experimentelles Modell über das Google AI Studio im Gesang antworten Vertex AI der Gemini-API für Entwickler. Multimodale Eingabe und Textausgabe stehen allen Entwicklern zur Verfügung, während Text-to-Speech und native Bilderzeugungsfunktionen für Early-Access-Partner verfügbar sind. Die allgemeine Verfügbarkeit wird im Januar mit zusätzlichen Modellgrößen veröffentlicht.
Um Entwicklern die Erstellung dynamischer und interaktiver Anwendungen zu erleichtern, haben wir außerdem eine neue multimodale Echtzeit-API veröffentlicht, die Audio- und Video-Streaming-Eingaben in Echtzeit sowie die Verwendung einer Vielzahl von Kombinationswerkzeugen unterstützt. Weitere Informationen über Flash 2.0 und die multimodale Echtzeit-API finden Sie in unserer Entwickler-Blog.
Gemini 2.0 ist in der Gemini-App, unserem KI-Assistenten, verfügbar.
Ab heute können Gemini-Nutzer auf der ganzen Welt über das Dropdown-Menü des Modells auf dem Desktop und im mobilen Web auf eine für den Chat optimierte Version des 2.0 Flash-Experiments zugreifen, die in Kürze auch in der Gemini Mobile App verfügbar sein wird. Mit diesem neuen Modell können die Nutzer den Gemini-Assistenten auf eine noch nützlichere Weise erleben.
Anfang nächsten Jahres werden wir Gemini 2.0 auf weitere Google-Produkte ausweiten.
Entfaltung des Agentenerlebnisses mit Gemini 2.0
Die nativen Aktionsfähigkeiten der Benutzeroberfläche von Gemini 2.0 Flash, zusammen mit anderen Verbesserungen wie multimodales Denken, langes Kontextverständnis, Verfolgen und Planen komplexer Anweisungen, kombinatorische Funktionsaufrufe, nativer Werkzeuggebrauch und verbesserte Latenzzeiten, ermöglichen eine völlig neue Art von Agentenerfahrung.
Die praktische Anwendung von KI-Agenten ist ein Forschungsgebiet voller spannender Möglichkeiten. Wir erforschen diesen neuen Bereich mit einer Reihe von Prototypen, die Menschen bei der Erledigung von Aufgaben und der Lösung von Problemen helfen. Zu diesen Prototypen gehören eine aktualisierte Version von Projekt Astra, ein Forschungsprototyp, der die zukünftigen Fähigkeiten von allgemeinen KI-Assistenten erforscht, das neu gestartete Projekt Mariner, das die Zukunft der Mensch-Agent-Interaktion erforscht, beginnend mit dem Browser, und Jules, ein KI-gestützter Code-Agent, der Entwickler unterstützt.
Wir befinden uns noch in einem frühen Entwicklungsstadium, aber wir sind gespannt, wie vertrauenswürdige Tester diese neuen Funktionen nutzen und was wir von ihnen lernen können, um sie in Zukunft für mehr Produkte verfügbar zu machen.
Projekt Astra: Multimodale Verstehensagenten in der realen Welt
Seit unserer I/O-Konferenz Projekt Astra freigeben Seitdem haben wir von vertrauenswürdigen Testern gelernt, die Android-Telefone verwenden. Ihr wertvolles Feedback hat uns geholfen, besser zu verstehen, wie universelle KI-Assistenten in der Praxis funktionieren, einschließlich der Sicherheits- und ethischen Implikationen.Verbesserungen in der neuesten Version der Gemini 2.0-Unterstützung umfassen:
- Bessere DialogfähigkeitProjekt Astra kann jetzt Gespräche in mehreren und gemischten Sprachen führen, mit besserem Verständnis von Akzenten und seltenem Wortschatz.
- Neue Kapazität für den WerkzeuggebrauchGemini 2.0: Mit Gemini 2.0 hat Project Astra Zugriff auf Google Search, Lens und Maps, was es im Alltag noch nützlicher macht.
- Bessere GedächtnisleistungWir haben die Speichermöglichkeiten von Project Astra verbessert, ohne dass Sie die Kontrolle verlieren. Es unterstützt jetzt bis zu 10 Minuten In-Session-Speicher und merkt sich mehr von Ihren vergangenen Gesprächen, wodurch es persönlicher wird.
- Verbesserte LatenzzeitMit neuen Streaming-Funktionen und nativem Audio-Verständnis können Agenten Sprache mit einer Latenzzeit verstehen, die der eines menschlichen Dialogs nahe kommt.
Wir arbeiten daran, diese Funktionen in Google-Produkte einzubringen, wie z. B. Zwillinge Apps (unsere KI-Assistenten) und in anderen Formen wie Brillen. Gleichzeitig weiten wir unser Trusted-Tester-Programm auf weitere Personen aus, darunter eine Gruppe, die bald damit beginnen wird, Project Astra auf Brillenprototypen zu testen.
Projekt Mariner: Intelligente Agenten zur Unterstützung bei komplexen Aufgaben
Project Mariner ist ein früher Forschungsprototyp, der auf Gemini 2.0 aufbaut, um die Zukunft der Mensch-Computer-Interaktion zu erforschen, angefangen bei Ihrem Browser. Als Forschungsprototyp versteht er die Informationen auf Ihrem Browserbildschirm, einschließlich Pixeln und Webseitenelementen wie Text, Code, Bildern und Formularen, und nutzt diese Informationen, um über ein experimentelles Chrome-Plugin Aufgaben für Sie zu erledigen.
existieren WebVoyager-BenchmarkingIn diesem Test, der die Leistung eines intelligenten Agenten bei einer realen End-to-End-Webaufgabe bewertet, implementiert Project Mariner eine Einzelagenten-Konfiguration mit einer 83,51 TP3T Update.
Obwohl das Projekt Mariner noch in den Kinderschuhen steckt, zeigt es die technische Machbarkeit der Navigation in einem Browser, aber die Genauigkeit und Geschwindigkeit der Aufgabenerfüllung ist derzeit gering und wird sich in Zukunft rasch verbessern.
Um dieses Projekt sicher und verantwortungsbewusst zu gestalten, erforschen wir aktiv neue Arten von Risiken und Methoden zu deren Abschwächung, wobei die menschliche Beteiligung beibehalten wird. So kann Project Mariner beispielsweise nur in der aktiven Registerkarte eines Browsers tippen, scrollen oder klicken und den Benutzer um eine endgültige Bestätigung bitten, bevor er bestimmte sensible Aktionen, wie z. B. einen Kauf, durchführt.
Vertrauenswürdige Tester haben begonnen, Project Mariner mit einem experimentellen Chrome-Plugin zu testen, während wir es mit dem Web-Ökosystem diskutieren.
Jules: Intelligente Agenten für Entwickler
Als Nächstes untersuchen wir, wie wir Entwicklern mit Jules helfen können, einem experimentellen KI-gestützten Code-Intelligenz-Agenten, der direkt in GitHub-Workflows integriert ist und Probleme löst, Pläne erstellt und sie ausführt - alles unter der Anleitung und Aufsicht des Entwicklers. Diese Arbeit ist Teil unseres langfristigen Ziels, KI-Agenten zu entwickeln, die in allen Bereichen helfen können, auch bei der Codierung.
Weitere Informationen zu diesem laufenden Experiment finden Sie in unserer Entwickler-Blogbeiträge.
Intelligente Agenten für Spiele und andere Domänen
Google DeepMind setzt seit langem Spiele ein, um KI-Modellen zu helfen, das Befolgen von Regeln, Planung und Logik zu verbessern. Letzte Woche haben wir zum Beispiel Genie 2Gemini 2.0 ist ein KI-Modell, das in der Lage ist, aus einem einzigen Bild eine unendliche Vielfalt an spielbaren 3D-Welten zu erzeugen. Darauf aufbauend haben wir Gemini 2.0 verwendet, um einen intelligenten Agenten zu entwickeln, der Ihnen bei der Navigation durch die virtuelle Welt eines Videospiels hilft. Er ist in der Lage, ausschließlich auf der Grundlage der Aktionen auf dem Bildschirm zu denken und durch Echtzeitdialoge Vorschläge für die nächsten Schritte zu machen.
Wir arbeiten mit führenden Spieleentwicklern wie Supercell zusammen, um die Fähigkeit dieser Agenten zu testen, Regeln und Herausforderungen in einer Vielzahl von Spielen zu interpretieren, von Strategiespielen wie Clash of Clans bis hin zu Farm-Simulationen wie Hay Day.
Diese Agenten dienen nicht nur als virtuelle Spielgefährten, sondern können über die Google-Suche auch auf die Fülle an Spielwissen im Internet zugreifen.
Wir erforschen nicht nur die Fähigkeiten intelligenter Agenten in virtuellen Welten, sondern experimentieren auch mit Möglichkeiten, die räumlichen Schlussfolgerungen von Gemini 2.0 auf den Bereich der Robotik anzuwenden. Obwohl wir uns noch in einem frühen Stadium befinden, sind wir begeistert von dem Potenzial intelligenter Agenten in physischen Umgebungen.
Mehr über diese Forschungsprototypen und Experimente erfahren Sie unter labs.google.
Verantwortungsvolles Bauen im Zeitalter der intelligenten Agenten
Gemini 2.0 Flash und unsere Forschungsprototypen ermöglichen es uns, neue Funktionen in der innovativen KI-Forschung zu testen und zu optimieren, die letztendlich den Nutzen von Google-Produkten erhöhen werden.
Bei der Entwicklung dieser neuen Technologien sind wir uns ihrer Verantwortung bewusst und sind besorgt über die vielen Fragen, die KI-Agenten in Bezug auf Sicherheit und Schutz aufwerfen. Daher haben wir bei der Entwicklung einen explorativen und schrittweisen Ansatz gewählt und an mehreren Prototypen gearbeitet, iterativ Sicherheitsschulungen durchgeführt, mit vertrauenswürdigen Testern und externen Experten zusammengearbeitet und umfassende Risikobewertungen sowie Sicherheitsanalysen durchgeführt.
Beispiel:
- Im Rahmen unseres Sicherheitsprozesses arbeiten wir mit unserem Ausschuss für Verantwortung und Sicherheit (RSC), einer ständigen internen Prüfgruppe, um potenzielle Risiken zu ermitteln und zu verstehen.
- Die Inferenzfähigkeiten von Gemini 2.0 ermöglichen bedeutende Fortschritte in unserer KI-gestützten Red-Team-Testing-Methodik, einschließlich der Entwicklung von der reinen Risikoerkennung hin zur automatischen Generierung von Bewertungs- und Trainingsdaten zur Risikominderung. Dies bedeutet, dass wir die Sicherheit unserer Modelle im großen Maßstab effizienter optimieren können.
- Da die multimodale Natur von Gemini 2.0 die Komplexität der möglichen Ausgaben erhöht, werden wir weiterhin Modelle zur Verarbeitung von Bild- und Audioeingaben und -ausgaben evaluieren und trainieren, um die Sicherheit zu verbessern.
- Im Rahmen des Projekts Astra untersuchen wir mögliche Maßnahmen, um zu verhindern, dass Nutzer versehentlich sensible Informationen an Agenten weitergeben. Außerdem haben wir Datenschutzkontrollen eingebaut, damit Nutzer Sitzungen einfach löschen können. Wir untersuchen auch weiterhin, wie wir sicherstellen können, dass KI-Agenten als zuverlässige Informationsquellen fungieren und keine unbeabsichtigten Aktionen im Namen der Nutzer durchführen.
- Im Rahmen des Projekts Mariner arbeiten wir daran, dass das Modell die Befolgung von Benutzeranweisungen gegenüber Einschleusungsversuchen durch Dritte bevorzugt, damit es potenziell bösartige Anweisungen aus externen Quellen erkennen und Missbrauch verhindern kann. So wird verhindert, dass Nutzer durch bösartige Anweisungen, die in E-Mails, Dokumenten oder Websites versteckt sind, Betrug und Phishing-Angriffen ausgesetzt werden.
Wir sind der festen Überzeugung, dass der einzige Weg zur Entwicklung von KI darin besteht, von Anfang an verantwortungsbewusst vorzugehen, und wir werden auch weiterhin Sicherheit und Verantwortung als Schlüsselelemente des Modellentwicklungsprozesses in den Vordergrund stellen, wenn wir mit Modellen und intelligenten Agenten vorankommen.
Gemini 2.0, intelligente Agenten und die Zukunft
Die heutige Veröffentlichung markiert ein neues Kapitel in unserer Gemini-Modellierung. Mit der Veröffentlichung von Gemini 2.0 Flash und dem Start einer Reihe von Forschungsprototypen, die die Möglichkeiten von Agenten erforschen, haben wir einen spannenden Meilenstein in der Gemini-Ära erreicht. Wir freuen uns darauf, weiterhin alle neuen Möglichkeiten sicher zu erforschen, während wir unsere universelle künstliche Intelligenz (AGI) aufbauen.