AI Personal Learning
und praktische Anleitung
豆包Marscode1

Amazon veröffentlicht BASE TTS, das größte verfügbare Text-to-Speech-KI-Modell, das "potenzielle Fähigkeiten" zeigt

亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”-1

 


Amazon-Forscher haben das bisher größte Modell zur Umwandlung von Text in Sprache trainiert, das angeblich "latente" Eigenschaften aufweist, die eine natürlichere Sprachausgabe komplexer Sätze ermöglichen. Dieser Durchbruch könnte der Schlüssel zur Abkehr von der Unnatürlichkeit in diesem Bereich der Technologie sein.

 

Das Wachstum und die Verbesserung solcher Modelle hat sich fortgesetzt, und die Forscher erwarten insbesondere den Sprung in der Leistungsfähigkeit, den wir erlebt haben, wenn der Bestand an Sprachmodellen ein bestimmtes Niveau erreicht hat. Aus irgendeinem unbekannten Grund werden Language Long Models (LLMs) ab einer bestimmten Größe leistungsfähiger und flexibler und sind in der Lage, ungeübte Aufgaben zu übernehmen.

 

Das bedeutet nicht, dass die Modelle ein Selbstbewusstsein oder ähnliche Eigenschaften erlangten, sondern vielmehr, dass ab einem bestimmten Punkt der Transzendenz ihre Leistung bei bestimmten Konversations-KI-Aufgaben einen starken Aufwärtstrend zeigte. Das Amazon Artificial General Intelligence (AGI)-Team - dessen Ziel kein Geheimnis ist - dachte, dass dasselbe passieren könnte, wenn sich Text-to-Speech-Modelle weiterentwickeln, und ihre Forschung zeigt, dass dies der Fall war.

 

Das neue Modell heißt [Adaptive Streaming-Text-zu-Sprache-Umwandlung in großem Maßstab mit potenziellen MöglichkeitenDie größte Version des Modells nutzt 100.000 Stunden an öffentlichem Sprachmaterial, davon 90% in Englisch, der Rest in Deutsch, Niederländisch und Spanisch.

 

Mit 9,8 Millionen Parametern ist BASE-large das größte Modell in diesem Bereich. Zum Vergleich wurden auch Modelle mit 400 Millionen und 150 Millionen Parametern auf der Grundlage von 10.000 bzw. 1.000 Stunden Audiomaterial trainiert. Der Grund dafür ist, dass, wenn ein Modell potenzielle Verhaltensweisen zeigt und das andere nicht, es möglich ist, die kritischen Bereiche zu identifizieren, in denen diese Verhaltensweisen beginnen, sich zu zeigen.

 

Die Ergebnisse zeigten, dass das mittelgroße Modell den Kompetenzsprung zeigte, den sich das Team erhofft hatte, und zwar nicht nur in Bezug auf die Qualität der normalen Sprache (obwohl sich die Werte nur leicht verbesserten), sondern auch in Bezug auf eine Reihe potenzieller Kompetenzen, die das Team beobachtete und bewertete. Hier sind einige Beispiele für schwierige Texte, die in dem Papier erwähnt werden:

 

zusammengesetztes Substantiv (Grammatik)Die Beckhams beschlossen, ein charmantes, traditionelles Ferienhaus aus Stein auf dem Land zu mieten.
emotionale Bedürfnisse"Oh mein Gott! Fahren wir wirklich auf die Malediven? Das ist ja unglaublich!" kreischte Jenny und sprang vor Aufregung auf und ab.
FremdsprachenvokabularHerr Henry ist bekannt für seine hervorragende Küche und hat ein siebengängiges Festmahl zusammengestellt, von dem jeder Gang eine seltene Delikatesse ist.
Paläolinguistik(wie im nicht entzifferbaren Teil des Textes): "Still, Lucy, sei still, wir dürfen deinen Bruder nicht wecken", flüsterte Tom, als sie vorsichtig durch das Kinderzimmer gingen.
ein InterpunktionszeichenSie erhielt eine bizarre SMS von ihrem Bruder: "Notfall zu Hause, bitte so schnell wie möglich anrufen! Mama und Papa sind besorgt. . # Family First.'
Wie man eine Frage stelltAber die Fragen zum Austritt Großbritanniens aus der Europäischen Union sind noch offen: Werden die Minister nach all den Irrungen und Wirrungen rechtzeitig Antworten finden?
Syntaktische KomplexitätDe Moya, der kürzlich einen Preis für sein Lebenswerk erhielt, spielte 2022 in einem Film, der trotz gemischter Kritiken ein Kassenerfolg war.

 

"Diese Sätze wurden sorgfältig entworfen, um die anspruchsvollen Aufgaben des Parsens von komplex strukturierten Sätzen, der Anwendung von phrasalem Stress auf lange zusammengesetzte Substantive, der Produktion von gefühlsbetonter oder geflüsterter Aussprache oder der korrekten Aussprache von Wörtern oder Interpunktionen in Fremdsprachen wie 'qi' oder '@' einzubeziehen - alles Aufgaben, die BASE TTS nicht explizit trainiert", so die Autoren. Die korrekte Aussprache von Wörtern oder Interpunktionen sind anspruchsvolle Aufgaben - Aufgaben, für die BASE TTS nicht explizit trainiert ist", so die Autoren.

 

Solche Merkmale führen in der Regel zu Frustrationen bei der Umwandlung von Text in Sprache, da die Maschinen Wörter falsch aussprechen, Wörter auslassen, eine unangemessene Intonation verwenden oder andere Fehler machen können. Obwohl BASE TTS auch auf Schwierigkeiten stößt, übertrifft seine Verarbeitungsleistung bei weitem die von zeitgenössischen Modellen wie Tortoise und VALL-E.

 

Auf der offiziellen Website finden Sie viele Beispiele dafür, wie diese schwierigen Texte natürlich und flüssig vorgelesen werden können.Sehen Sie sich die Website an, die sie für das Modell erstellt haben] Natürlich wurden diese Beispiele von Forschern geprüft, sie müssen also handverlesen sein, aber es ist trotzdem beeindruckend. Hier sind einige Beispiele, falls Sie sich nicht durchklicken möchten:

 

Da die drei BASE TTS-Modelle dieselbe Architektur haben, ist die Größe der Modelle und die Angemessenheit ihrer Trainingsdaten eindeutig der Grund dafür, dass die Modelle in der Lage sind, die oben beschriebene Komplexität zu bewältigen. Beachten Sie, dass es sich derzeit noch um ein experimentelles Modell und einen experimentellen Verarbeitungsablauf handelt - nicht um ein kommerzielles Modell oder ein ähnliches Produkt. In weiteren Forschungsarbeiten muss ermittelt werden, ab welchem Punkt die potenziellen Fähigkeiten demonstriert werden und wie das endgültige Modell effizient trainiert und eingesetzt werden kann.

 

Interessant ist, dass das Modell, wie der Name schon sagt, "gestreamt" werden kann - das heißt, es muss nicht den gesamten Satz auf einmal erzeugen, sondern kann ihn schrittweise mit einer relativ niedrigen Bitrate erzeugen. Das Team versucht auch, Sprachmetadaten wie Stimmung und Rhythmus in einen separaten Stream mit geringer Bandbreite zu verpacken, der synchron mit dem normalen Audio abgespielt werden könnte.

 

Es sieht so aus, als ob die Text-zu-Sprache-Modellierung im Jahr 2024 ihren Durchbruch erleben wird - gerade noch rechtzeitig vor der Wahl! Der Nutzen der Technologie ist jedoch unbestreitbar, insbesondere wenn es um die Verbesserung der Barrierefreiheit geht. Es ist wichtig zu erwähnen, dass das Team den Quellcode des Modells und andere Daten nicht veröffentlicht hat, da die Gefahr besteht, dass das Modell von Ahnungslosen ausgenutzt werden könnte. Früher oder später wird jedoch die Wahrheit ans Licht kommen.

Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Amazon veröffentlicht BASE TTS, das größte verfügbare Text-to-Speech-KI-Modell, das "potenzielle Fähigkeiten" zeigt
de_DEDeutsch