Wir bei Inflection haben es uns zur Aufgabe gemacht, eine persönliche KI für jedermann zu schaffen, und im vergangenen Mai haben wir [...].Pi] - eine einfühlsame, hilfsbereite und sichere persönliche KI. Im November haben wir die Einführung eines neuen Basismodells angekündigt [...Beugung-2], damals das zweitbeste groß angelegte Sprachmodell der Welt.
Jetzt fügen wir dem außergewöhnlichen EQ (Emotionaler Quotient) von Pi den IQ (Intelligenzquotient) hinzu.
Wir haben Inflection-2.5 auf den Markt gebracht, unser verbessertes hauseigenes Modell, das den weltweit führenden groß angelegten Sprachmodellen wie GPT-4 und Gemini in nichts nachsteht. Es kombiniert rohe Leistung mit unserer einzigartig einfühlsamen Persönlichkeit und Feinabstimmung. Ab heute ist Inflection-2.5 in den folgenden Sprachen erhältlich [...pi.ai]( ), [iOS], [Android (Betriebssystem)] oder unser neues [DesktopAnwendung für alle Pi-Benutzer.
Wir haben diesen Meilenstein mit unglaublicher Effizienz erreicht: Inflection-2.5 hat fast die gleiche Leistung wie GPT-4, benötigt aber nur etwa die gleiche Menge an Rechenleistung für das Training wie GPT-4.40%.
Besondere Fortschritte haben wir in IQ-Bereichen wie Programmierung und Mathematik erzielt. Dies spiegelt sich in spezifischen Verbesserungen bei wichtigen Industrie-Benchmarks wider, die sicherstellen, dass der Pi weiterhin an der Spitze der Technologie steht.Weltklasse-Echtzeit-Web-Suchfunktionen:: Sicherstellen, dass die Nutzer Zugang zu hochwertigen Aktualisierungen und aktuellen Informationen haben.
Wir haben Inflection-2.5 bei unseren Nutzern eingeführt, und sie lieben den Pi! Wir haben einen enormen Anstieg der Nutzerzufriedenheit, des Engagements und der Kundenbindung festgestellt, was das organische Nutzerwachstum beschleunigt.
Wir haben eine Million aktive Nutzer pro Tag, sechs Millionen aktive Nutzer pro Monat, die über vier Milliarden Nachrichten mit dem Pi ausgetauscht haben.
Die durchschnittliche Länge des Dialogs mit Pi beträgt33 Minuten.Eine von 10 Unterhaltungen dauert mehr als eine Stunde pro Tag. Von den Menschen, die in einer bestimmten Woche mit Pi sprechen, sind etwa60%Wir werden nächste Woche wieder miteinander sprechen, und wir verzeichnen eine höhere monatliche Verweildauer als unsere Hauptkonkurrenten.
Mit der Leistungsfähigkeit von Inflection-2.5 können Benutzer mit Pi eine größere Bandbreite an Themen als je zuvor diskutieren: aktuelle Ereignisse besprechen, Empfehlungen für lokale Restaurants einholen, für eine Biologieprüfung lernen, einen Geschäftsplan entwerfen, programmieren, sich auf ein wichtiges Gespräch vorbereiten oder einfach nur Spaß haben, wenn man über ein Hobby diskutiert. Wir können es kaum erwarten, Ihnen zu zeigen, was Pi alles kann.
Technische Ergebnisse
Im Folgenden zeigen wir die Ergebnisse einer Reihe von wichtigen Benchmark-Tests der Branche. Der Einfachheit halber vergleichen wir Inflection-2.5 mit GPT-4. Diese Ergebnisse zeigen, dass Pi jetzt über IQ-Fähigkeiten verfügt, die mit den anerkannten Branchenführern vergleichbar sind. Aufgrund der unterschiedlichen Berichtsformate achten wir darauf, welches Format für die Bewertung verwendet wird.
Inflection-1 verwendete etwa 41 TP3T an Trainings-Floating-Point-Operationen (FLOPs) für GPT-4 und erreichte eine durchschnittliche Leistung von etwa 721 TP3T für GPT-4 bei einer Reihe von IQ-orientierten Aufgaben. Inflection-2.5, das jetzt den Pi antreibt, erreicht eine durchschnittliche Leistung von über 941 TP3T für das GPT-4, obwohl nur 401 TP3T an Trainings-FLOPs verwendet werden. Wir konnten erhebliche Leistungssteigerungen in einer Vielzahl von Bereichen feststellen, wobei die größten Verbesserungen im MINT-Bereich erzielt wurden.
Im Vergleich zu Inflection-1 hat Inflection-2.5 erhebliche Fortschritte beim MMLU-Benchmark gemacht, einem vielseitigen Benchmark, der die Leistung bei einem breiten Spektrum von Aufgaben misst, die von der Schule bis zum Beruf reichen. Wir haben auch den extrem schwierigen GPQA-Diamond-Benchmark bewertet, einen Benchmark für Experten.
Wir berücksichtigen auch die Ergebnisse von zwei verschiedenen MINT-Prüfungen: die ungarische Mathematikprüfung und die Ergebnisse des Physics GRE (Physics Graduate Entrance Exam).
Für die ungarische Mathematik verwenden wir [hier sindZur Erleichterung der Wiederholung werden einige wenige Beispiele für Hinweise und Formate gegeben, wobei Inflection-2.5 nur das erste Beispiel in den Hinweisen verwendet.
Wir sind auch...Geschrieben.Wir haben bearbeitete Versionen der physikalischen GRE-Prüfungen (GR8677, GR9277, GR9677, GR0177) veröffentlicht und die Leistung von Inflection 2.5 in der ersten Prüfung mit der des GPT-4 verglichen. Wir stellen fest, dass Inflection-2.5 in MAJ@8 das 85. Perzentil der menschlichen Testteilnehmer erreicht und in MAJ@32 fast die höchste Punktzahl erzielt. Einige Fragen mit Bildern wurden aus den folgenden Ergebnissen ausgeschlossen, um einen umfassenden Vergleich zu ermöglichen. In jedem Fall haben wir alle Fragen veröffentlicht.
Bei BIG-Bench-Hard, einer Untergruppe von BIG-Bench-Problemen, die für große Sprachmodelle schwierig sind, hat Inflection-2.5 eine Verbesserung von mehr als 101 TP3T gegenüber Inflection-1 und ist genauso gut wie die leistungsfähigsten Modelle.
Wir sind immer noch hier.MT-BenchWir bewerteten unser Modell auf MT-Bench, einem weithin bekannten Community-Leaderboard zum Vergleich von Modellen. Nach der Auswertung von MT-Bench haben wir jedoch festgestellt, dass fast ein Viertel der Beispiele in den Kategorien Reasoning, Mathematik und Coding falsche Referenzlösungen oder fehlerhafte Problemprämissen hatten. Daher haben wir diese Beispiele korrigiert und sie in [...hier sind] eine korrigierte Version des Datensatzes veröffentlicht.
Bei der Bewertung dieser beiden Teilmengen stellen wir fest, dass unser Modell in der korrekt korrigierten Version besser mit den Erwartungen übereinstimmt, die auf anderen Benchmark-Tests basieren.
Inflection-2.5 bietet besondere Verbesserungen gegenüber Inflection-1 in Bezug auf die mathematische und kodierte Leistung, wie in der folgenden Tabelle dargestellt.
Sowohl bei den MBPP+- als auch bei den HumanEval+-Codierungsbenchmarks sehen wir eine deutliche Verbesserung gegenüber Inflection-1.
Für das MBPP berichten wir die Ergebnisse von [DeepSeek Coderfür die GPT-4-Werte. Für HumanEval haben wir die [EvalPlusErgebnisse auf der Rangliste (GPT-4 im Mai 2023).
Wir haben auch die Leistung von Inflection-2.5 bei HellaSwag und ARC-C bewertet, zwei Benchmarks mit gesundem Menschenverstand und wissenschaftlichem Anspruch, über die viele Modelle berichten. In beiden Fällen sahen wir eine ausgezeichnete Leistung bei diesen nahezu gesättigten Benchmarks.
Alle oben genannten Auswertungen beziehen sich auf das Modell, das jetzt Pi antreibt. Wir weisen jedoch darauf hin, dass die Benutzererfahrung aufgrund der Auswirkungen des Webabrufs (keiner der obigen Benchmarks verwendete den Webabruf), der Struktur der geringen Anzahl von Beispielaufforderungen und anderer Unterschiede in der Produktion leicht variieren kann.
Kurz gesagt, der Inflection-2.5 behält die einzigartige, zugängliche Persönlichkeit des Pi und seine außergewöhnlichen Sicherheitsstandards bei, ist aber in jeder Hinsicht ein intimeres Modell.
Wir sind unseren Partnern bei Azure und CoreWeave dankbar für ihre Unterstützung, um das hochmoderne Sprachmodell hinter Pi Millionen von Nutzern auf der ganzen Welt zugänglich zu machen.