Heute gab Beanbag APP bekannt, dass die neue End-to-End-Echtzeit-Sprachanruf-Funktion offiziell online ist, ohne "Pre-Release" zu spielen, direkt offen für alle, kostenlos für alle, um den Test eines jeden Benutzers zu erfüllen.
Beanbag-Echtzeit-Sprach-Megamodell URL: https://team.doubao.com/realtime_voice
Nachdem wir den Film gesehen hatten, fanden wir einige wichtige Punkte:
Erstens ist Beanbag wirklich menschenähnlich, mit stark anthropomorpher Ausdrucksweise, Tonfall und Atemrhythmus.Wenn Sie mit geringerer Lautstärke sprechen, setzt Beanbag auch seine "Flüster"-Fähigkeit ein, wodurch das menschliche Gefühl früherer KI-Sprachanrufe völlig verschwindet.
Zweitens: Unabhängig von der Komplexität des chinesischen Dialogs kann sich der Sitzsack behaupten.Nach unseren Erfahrungen in der Praxis kann man sagen, dass Doubao einen halsbrecherischen Vorsprung bei den chinesischen Sprachkenntnissen hat. Dieser Vorsprung ist nicht nur im Vergleich zu ChatGPT und anderen ausländischen Anbietern, und vergleichen Sie dies auch mit einer Reihe inländischer KI-Dialoganwendungen.
Außerdem ist Beanbag ein "gesprächiger Anhalter", der von Astronomie bis Geografie alles weiß.Es hört ernsthaft zu, was der Benutzer sagt und was er damit ausdrücken will, gibt schnell interessante und nützliche Antworten und ist in der Lage, Abfragen zu vernetzen.
Um diese Funktion nutzen zu können, müssen Sie die DoudouBao APP auf die Version 7.2.0 Chinese New Year aktualisieren. Nach dem Start aktualisierte eine große Anzahl von Nutzern und strömte zum ersten Mal zu Doubao, und machte Telefon-Congee mit Doubao:
Erinnern Sie sich an den frühen Morgen des 14. Mai 2024, als GPT-4o aus heiterem Himmel kam und ChatGPT eine neue Echtzeit-Sprachfunktion brachte, die die Branche als "weltbewegende Veröffentlichung" bezeichnete. Nachdem ChatGPT mit dieser Funktion live ging, war unsere tatsächliche Erfahrung leider nicht so beeindruckend wie die Einführungsdemo.
Jetzt ist Doubao an der Reihe, die Welt zu rocken. Vor der Markteinführung hat das interne Team das Beanbag Real-time Voice Big Model und das GPT-4o, die hinter dieser Funktion stehen, anhand einer Reihe von Kriterien bewertet, darunter Anthropomorphismus, Nützlichkeit, emotionale Intelligenz, Gesprächsstabilität, reibungsloser Dialog usw. Die Gesamtzufriedenheit (von 5) betrug 4,36 für das 501Bao Real-time Voice Big Model und 3,18 für das GPT-4o. In Bezug auf die Gesamtzufriedenheit (von 5) erhielt das Beanbag Real-time Voice Big Model die Note 4,36 und das GPT-4o die Note 3,18. Die Tester des 50% bewerteten die Leistung des Beanbag Real-time Voice Big Model mit der Note 5.
Darüber hinaus hat das Echtzeit-Sprachmodell von Doubao offensichtliche Vorteile beim Verstehen von Emotionen und beim Ausdruck von Emotionen in der Modellbewertung. Insbesondere bei der Bewertung "KI oder nicht" gaben mehr als 30% Feedbacks an, dass GPT-4o "zu kI" sei, während der entsprechende Anteil des großen Echtzeit-Sprachmodells von Doubao nur bei 2% lag.
Der nächste Teil ist der eigentliche Test des Herzens der Maschine, wenn Sie daran interessiert sind, es zu lesen, schlagen wir vor, dass Sie schnell öffnen Sie Ihre eigenen Bean Bag App und aktualisieren Sie die Version auf 7.2.0 New Year Edition zu erleben. Nach allem, aus dem aktuellen Grad des Feuers, gehen spät kann die Wahrscheinlichkeit, nicht das Auto zu quetschen haben.
Test aus erster Hand: ein bisschen schockierend, Science-Fiction-Film in der Realität
Ende 2024 enthüllte das Team von Beanbag Big Model die neue End-to-End-Echtzeit-Sprachfunktion, die bald in der Beanbag-App verfügbar sein würde, und löste damit eine Welle der Vorfreude unter den Nutzern aus.
Nachdem wir ihn tatsächlich benutzt haben, haben wir das Gefühl, dass er tatsächlich anthropomorpher und natürlicher ist als erwartet.
Eines der Highlights von Beanbag ist die Fähigkeit, die Emotionen der menschlichen Benutzer zu erkennen und zu übernehmen.Hören Sie sich doch ein paar unserer Gespräche mit dem Sitzsack an, um ein Gefühl dafür zu bekommen, wie anthropomorph er ist.
Die Fähigkeit, Emotionen auszudrücken, ermöglicht es ihm beispielsweise, komplexe Emotionen in seiner Stimme auszudrücken, die so weit gehen können, dass es schwierig ist, zwischen Mensch und Maschine zu unterscheiden".
Doubao scheint ein geschickter Schauspieler zu sein, der sich mit verschiedenen Szenarien des 5-Millionen-Yuan-Loses auseinandersetzt, mal ekstatisch, mal von Trauer geplagt.
Auch die Fähigkeit, Anweisungen zu befolgen, ist sehr ausgeprägt. Wir waren in der Lage, Gedichte in verschiedenen Sprechgeschwindigkeiten vorzutragen, und wir waren in der Lage, die Emotionen in den Gedichten zu spüren und sie gefühlvoll vorzutragen.
Auch Empathie ist gefragt. Wenn unsere ersten Worte von schlechten Nachrichten und Frustration handeln, würde der Sitzsack Sie mit einem ruhigeren und wärmeren Ton beruhigen. Wenn Sie aber wieder positiv gestimmt sind und zu einem helleren Ton wechseln, um ihn zu ergänzen, wechselt der Sitzsack zu einem frechen Ton. Außerdem weist er menschenähnliche paralinguistische Merkmale auf, einschließlich Intonation, Zögern und Pausen.
Hinweis: Einige Antworten sind verzögert und stammen aus Netzwerkanfragen.
Gleichzeitig spürt man, dass Doubao nicht nur emotionale Begleitung bietet, sondern zum Beispiel im ersten Dialogtest auch Tipps zum Ticketkauf, sehr praktische Reiseempfehlungen und schnell und präzise abrufbare Informationen über das Wetter und andere Sofortinformationen gibt.
Ja, die eloquente Sprache von Doubao basiert auf dem leistungsstarken semantischen Verständnis und den Informationsgewinnungsfähigkeiten von Doubaos Echtzeit-Sprachmodell. Zum Zeitpunkt der Spracheingabe durch den Benutzer beginnt Doubao sofort, die Tiefe jeder Informationsdimension zu verstehen, um die Nützlichkeit und Authentizität der ausgegebenen Informationen zu gewährleisten.Laienhaft ausgedrückt, hat es sowohl einen "emotionalen Wert" als auch einen "praktischen Wert".(Allerdings haben wir auch festgestellt, dass das Echtzeit-Sprachmodell von Doubao derzeit nur Englisch und Chinesisch unterstützt, und wir erwarten, dass die Mehrsprachigkeit in Zukunft durch eine Welle verstärkt werden kann).
Da Beanbag schon seit langem mit dem Internet "spielt", muss sein Abstraktionsniveau nicht schlecht sein.
Hinweis: Einige Antworten sind verzögert und stammen aus Netzwerkanfragen.
Natürlich haben Sie mit Beanbag Conversations nicht nur einen Anhalter, sondern unzählige dramatische Freunde.
Mit dem Modus "Hundert Veränderungen der Großen", vom Affenkönig bis zu Lin Daiyu, von Wolffy bis zur faulen Ziege, haben die Kontrolle der Stimme und die Interpretation von Emotionen das Benutzererlebnis von Doubao auf ein höheres Niveau gebracht.
Da das Rollenspiel kein Problem darstellt, ist auch die Fähigkeit, Geschichten zu erzählen, vorhanden. Frei zwischen Horror und Komik wechselnd.
Interessanterweise hat Doubao APP die Gesangsfunktion eingeführt, die das GPT-4o nicht hat, was ein lustiges Spiel für Jung und Alt ist.
Das Jahr neigt sich dem Ende zu, also lassen wir es mit ein paar Silvesterliedern ausklingen, um diesen Rückblick abzuschließen:
Welche Technologie steckt hinter dem weitaus besseren Anruferlebnis?
Wie ist es dem Team hinter Beanbag gelungen, so seidige, natürliche Echtzeit-Telefonate zu führen?
Die Kernfunktionen dieser Funktion werden durch das kürzlich eingeführte Beanbag Real-Time Voice Big Model unterstützt.
Nach Angaben des Beanbag Big Model Speech-Teams handelt es sich um ein integriertes Modell für das Sprachverständnis und die Spracherzeugung, das einen echten End-to-End-Sprachdialog ermöglicht, der in Bezug auf die Ausdruckskraft der Stimme, die Kontrolle und das emotionale Engagement verblüffender ist als das herkömmliche Kaskadenmodell und die Vorteile einer geringen Latenz und der Möglichkeit, den Dialog jederzeit zu unterbrechen, aufweist.
Auf dem Gebiet der Sprach-KI gibt es zwei technische Schwierigkeiten bei der Echtzeit-Makromodellierung von Sprache in der Praxis.
Eine davon ist, dass es schwierig ist, ein Gleichgewicht zwischen emotionaler und intellektueller Intelligenz herzustellen.
Viele Praktiker im Bereich der Sprache wissen, dass das Modell selbst hat oft eine widersprüchliche Beziehung zwischen Dialog Natürlichkeit, Nützlichkeit und Sicherheit Dimensionen. Mit anderen Worten, es ist, wie das Modell nicht nur eine "Schule Tyrann" mit logischen Argumentation Fähigkeit online zu machen, sondern auch ausdrucksstark, einfühlsam, Verständnis online, und emotionale Intelligenz Ebene ziehen voll.
Nach Angaben des Teams orientieren sie sich an den oben genannten Problemen in Bezug auf Daten und Nachtrainingsalgorithmen, um sicherzustellen, dass multimodale Sprachdialogdaten sowohl semantisch korrekt als auch ausdrucksmäßig natürlich sind. Gleichzeitig stützt es sich auf einen Mehrrunden-Datensynthese-Ansatz, um qualitativ hochwertige, hochexpressive Sprachdaten zu erzeugen und sicherzustellen, dass die generierten Sprachausdrücke natürlich und konsistent sind.
Darüber hinaus führt das Team regelmäßige multidimensionale Bewertungen des Modells durch und stützt sich auf die Ergebnisse, um die Trainingsstrategie und die Datennutzung rechtzeitig anzupassen, um sicherzustellen, dass das Modell stets ein gutes Gleichgewicht zwischen IQ und Leistung aufweist.
Die zweite ist die hohe Schwelle der Landung, um die Stimme Funktion nicht auf Toy zu stoppen, ist es eine große Herausforderung für das Team die umfassende Fähigkeit.
In der Vergangenheit wurde bei einer Reihe von End-to-End-Sprachveröffentlichungen, darunter auch GPT-4o, nur die Demo gezeigt, und selbst wenn die späteren Fähigkeiten veröffentlicht werden, kann es sein, dass die tatsächlichen Fähigkeiten von der Öffentlichkeit nicht erkannt werden. Der Grund dafür ist: die Funktion des F & E-Prozesses erfordert die Beteiligung von Algorithmen, Engineering, Produkt-, Test- und anderen Teams, nicht nur, um die Bedürfnisse der Nutzer zu klären, sondern auch, um die technische Bewertung Dimensionen und Indikatoren zu teilen, und dann in der Modell-Ausbildung, Feinabstimmung, und andere Prozesse, die gleiche Notwendigkeit für mehrere Teams, eng miteinander zu arbeiten. Wenn das Produkt schließlich online gehen soll, um Hunderte von Millionen von Nutzern zu bedienen, steht es auch vor großen Herausforderungen in Bezug auf Technik und Sicherheit.
Wie bereits erwähnt, die neue Echtzeit-Sprachfunktion von diesem Doubao offiziellen Online angekündigt ist offen, direkt im Dienste von Tausenden von Nutzern, das Team auch versuchen, das beste Gleichgewicht in Bezug auf die Lieferung Erfahrung zu finden, um die Sicherheit der Basis zu gewährleisten, so dass das Modell eine beispiellose Stimme hohe Ausdruckskraft, Kontrolle und helle emotionale Unternehmen Fähigkeit hat, zur gleichen Zeit, um sicherzustellen, dass es ein starkes Verständnis und Logik Fähigkeit hat, sondern auch vernetzt werden kann, um die Aktualität der Frage zu beantworten .
Im Rahmen der gemeinsamen Modellierung von Spracherzeugung, Sprachverstehen und Textmakromodell hat das Team die Fähigkeit zur vielfältigen Eingabe und Ausgabe des Modells erreicht und gleichzeitig die Erzeugungsgenauigkeit und Natürlichkeit des Modells auf der Erzeugungsseite im Falle einer geringeren Systemlatenz sichergestellt.
Natürlich misst das Team auch den Sicherheitsaspekten, die sich aus den verbesserten Modellierungsmöglichkeiten ergeben, große Bedeutung bei. Nach Angaben des zuständigen technischen Personals wurden in der Nachschulungsphase des gemeinsamen Modellierungsprozesses eine Reihe von Sicherheitsmechanismen eingeführt, um Sicherheitsrisiken zu verringern, indem potenziell unsichere Inhalte wirksam unterdrückt und gefiltert werden.
Das technische Team verriet uns auch, dass das Modell durch die gemeinsame Modellierung überraschenderweise neue Fähigkeiten wie Befehlsverständnis, Sprachwiedergabe und Sprachsteuerung entwickelt hat. So werden beispielsweise einige der Dialekte und Akzente des Modells nicht mehr durch gezieltes Training, sondern durch Datengeneralisierung in der Pretrain-Phase gewonnen. In dieser Hinsicht sind Sprachmodelle den Sprachmodellen sehr ähnlich.
Abgesehen von den Überraschungen, was hat Doubao "unterwandert"?
Unter den existierenden ähnlichen Produkten haben wir das Gefühl, dass der Anthropomorphismus und die emotionale Erfahrung von Doubao am besten sind, und es beherrscht alle 18 Fähigkeiten, und seine Chinesischkenntnisse sind denen von ChatGPT und anderen "importierten Produkten" weit überlegen.
Am Ende des Tages könnte man sich fragen: Abgesehen von der überraschenden Benutzererfahrung, warum hat Beanbags aktualisierte End-to-End-Echtzeit-Stimme so viel Aufmerksamkeit erregt?
Die wichtigste Antwort ist: Es ist das erste durchgängige chinesische Sprachsystem, das Hunderte von Millionen von Nutzern bedient und tatsächlich funktioniert - es ist gut und es ist kostenlos.
Es gab eine Zeit, da war der Echtzeit-Sprachdialog mit KI nur eine Szene aus einem Science-Fiction-Film und eine konkrete Vorstellung von fortgeschrittener künstlicher Intelligenz. Aber jetzt gibt es eine solche magische Funktion in der Doubao-App auf Ihrem und meinem Handy, und sie ist von "weit weg" zu "in Reichweite" geworden.
Zusammenfassend lässt sich sagen, dass die neue End-to-End-Echtzeitsprache von Beanbag zwei Präzedenzfälle schafft:
Von der Ebene des technologischen Wandels aus betrachtet, hat Doubao der KI zum ersten Mal in der Branche "Seele" verliehen und den doppelten Quotienten aus "emotionalem Quotienten" und "Intelligenzquotient" online erreicht. Dies scheint das Ende der Ära der traditionellen Sprachassistenten zu bedeuten. Wir haben nicht mehr unbewusst das Gefühl, dass wir mit einem Modell sprechen, das auf der Grundlage riesiger Datenmengen trainiert wurde, und Menschen und KI haben begonnen, eine subtile emotionale Verbindung herzustellen, einschließlich Vertrauen und Abhängigkeit, und die Handlung eines Science-Fiction-Films hält Einzug in das Leben der Öffentlichkeit.
Wie in Klassikern wie Her haben sich die Menschen nie in die KI verliebt, weil sie unbegrenztes Wissen liefert, sondern weil sie genau die richtige Menge an emotionalem Wert mitbringt.
Auf der Ebene der Big-Model-Technologie füllen End-to-End-Echtzeit-Sprachanrufe eine der wenigen Lücken in der multimodalen Interaktion. Die Spielweise von Big-Model-Anwendungen wird ständig verbessert - künftige Produkte können jede beliebige Kombination von Text, Audio und Bildern als Eingabe erhalten und jede beliebige Kombination von Text, Audio und Bildern als Ausgabe in Echtzeit erzeugen. Die Art und Weise, wie Menschen und Maschinen interagieren, wird verändert, was wiederum die Art und Weise, wie Menschen miteinander interagieren, verändert.
Zumindest für chinesischsprachige Nutzer bietet die Einführung der durchgängigen Echtzeit-Sprachfunktion von Doubao eine durch natürliche menschliche Sprache vermittelte Interaktionsmöglichkeit, die die Barriere für den Zugang zu und die Erfahrung mit fortschrittlicher KI wirklich durchbricht.
Hätten wir uns vor sechs Monaten vorstellen können, dass es Sitzsäcke waren, die die Geschichte geschrieben haben?
Beginnend mit dem großen Sprachmodell im Jahr 2023 und endend im Jahr 2024 wurde die große Modellfamilie von Doubao auf den multimodalen Ebenen von Bild, Sprache, Musik, Video, 3D usw. vervollständigt. Sie gehört nicht nur zur ersten Riege in China, sondern hat auch die Metamorphose von einem "Küken" zu einem "Welterfolg" in nur wenigen Monaten vollzogen.
Und wer diesen Meilenstein auf der großen Modellbahn von hundert Booten als Erster erreicht, kann seinen Rang im Feld für das nächste Jahrzehnt bestimmen.
Im nächsten Jahr, über große Modelle, über Sitzsäcke und inländische AI wird mit welcher Geschwindigkeit, mehr würdig unserer Erwartungen voranzukommen.