AI Personal Learning
und praktische Anleitung

Amazon veröffentlicht BASE TTS, das größte verfügbare Text-to-Speech-KI-Modell, das "potenzielle Fähigkeiten" zeigt

Amazon veröffentlicht BASE TTS, das größte verfügbare Text-to-Speech-KI-Modell, das "potenzielle Fähigkeiten" zeigt

 


Amazon-Forscher haben das bisher größte Modell zur Umwandlung von Text in Sprache trainiert, das angeblich "latente" Eigenschaften aufweist, die eine natürlichere Sprachausgabe komplexer Sätze ermöglichen. Dieser Durchbruch könnte der Schlüssel zur Abkehr von der Unnatürlichkeit in diesem Bereich der Technologie sein.

 

Das Wachstum und die Verbesserung solcher Modelle hat sich fortgesetzt, und die Forscher erwarten insbesondere den Sprung in der Leistungsfähigkeit, den wir erlebt haben, wenn der Bestand an Sprachmodellen ein bestimmtes Niveau erreicht hat. Aus einem unbekannten Grund werden Language Long Models (LLMs) ab einer bestimmten Größe leistungsfähiger und flexibler und sind in der Lage, ungeübte Aufgaben zu übernehmen.

 

Das bedeutet nicht, dass die Modelle ein Selbstbewusstsein oder ähnliche Eigenschaften erlangten, sondern vielmehr, dass ab einem bestimmten Punkt der Transzendenz ihre Leistung bei bestimmten Konversations-KI-Aufgaben einen starken Aufwärtstrend zeigte. Das Amazon Artificial General Intelligence (AGI)-Team - dessen Ziel kein Geheimnis ist - dachte, dass dasselbe passieren könnte, wenn sich Text-to-Speech-Modelle weiterentwickeln, und ihre Forschung zeigt, dass dies der Fall war.

 

Das neue Modell heißt [Adaptive Streaming-Text-zu-Sprache-Umwandlung in großem Maßstab mit potenziellen MöglichkeitenDie größte Version des Modells nutzt 100.000 Stunden an öffentlichem Sprachmaterial, davon 90% in Englisch, der Rest in Deutsch, Niederländisch und Spanisch.

 

Mit 9,8 Millionen Parametern ist BASE-large das größte Modell in diesem Bereich. Zum Vergleich wurden auch Modelle mit 400 Millionen und 150 Millionen Parametern auf der Grundlage von 10.000 bzw. 1.000 Stunden Audiomaterial trainiert. Der Grund dafür ist, dass, wenn ein Modell potenzielle Verhaltensweisen zeigt und das andere nicht, es möglich ist, die kritischen Bereiche zu identifizieren, in denen diese Verhaltensweisen beginnen, sich zu zeigen.

 

Die Ergebnisse zeigten, dass das mittelgroße Modell den Kompetenzsprung zeigte, den sich das Team erhofft hatte, und zwar nicht nur in Bezug auf die Qualität der normalen Sprache (obwohl sich die Werte nur leicht verbesserten), sondern auch in Bezug auf eine Reihe potenzieller Kompetenzen, die das Team beobachtete und bewertete. Hier sind einige Beispiele für schwierige Texte, die in dem Papier erwähnt werden:

 

zusammengesetztes Substantiv (Grammatik)Die Beckhams beschlossen, ein charmantes, traditionelles Ferienhaus aus Stein auf dem Land zu mieten.
emotionale Bedürfnisse"Oh mein Gott! Fahren wir wirklich auf die Malediven? Das ist ja unglaublich!" kreischte Jenny und sprang vor Aufregung auf und ab.
FremdsprachenvokabularHerr Henry ist bekannt für seine hervorragende Küche und hat ein siebengängiges Menü zusammengestellt, von dem jedes einzelne eine seltene Delikatesse ist.
Paläolinguistik(wie im nicht entzifferbaren Teil des Textes): "Still, Lucy, sei still, wir dürfen deinen Bruder nicht wecken", flüsterte Tom, als sie vorsichtig durch das Kinderzimmer gingen.
ein InterpunktionszeichenSie erhielt eine bizarre SMS von ihrem Bruder: "Notfall zu Hause, bitte so schnell wie möglich anrufen! Mama und Papa sind besorgt. . # Family First.'
Wie man eine Frage stelltDie Fragen zum Austritt Großbritanniens aus der Europäischen Union sind noch nicht geklärt: Werden die Minister nach all den Irrungen und Wirrungen rechtzeitig Antworten finden?
Syntaktische KomplexitätDe Moya, der kürzlich mit dem Preis für sein Lebenswerk ausgezeichnet wurde, spielte 2022 in einem Film mit, der trotz gemischter Kritiken ein Kassenerfolg war.

 

"Diese Sätze wurden sorgfältig entworfen, um die anspruchsvollen Aufgaben des Parsens von komplex strukturierten Sätzen, der Anwendung von phrasalem Stress auf lange zusammengesetzte Substantive, der Produktion von gefühlsbetonter oder geflüsterter Aussprache oder der korrekten Aussprache von Wörtern oder Interpunktionszeichen in Fremdsprachen wie 'qi' oder '@' einzubeziehen - alles Aufgaben, die BASE TTS nicht explizit trainiert", so die Autoren. Die korrekte Aussprache von Wörtern oder Interpunktionen sind anspruchsvolle Aufgaben - Aufgaben, für die BASE TTS nicht explizit trainiert ist", so die Autoren.

 

Solche Merkmale führen in der Regel zu Frustrationen bei der Text-zu-Sprache-Umwandlung, da sie möglicherweise Wörter falsch aussprechen, Wörter auslassen, eine unangemessene Intonation verwenden oder andere Fehler machen. Obwohl BASE TTS auch auf Schwierigkeiten stößt, übertrifft seine Verarbeitungsleistung bei weitem die von zeitgenössischen Modellen wie Tortoise und VALL-E.

 

Auf der offiziellen Website finden Sie zahlreiche Beispiele dafür, wie diese schwierigen Texte natürlich und flüssig vorgelesen werden können.Sehen Sie sich die Website an, die sie für das Modell erstellt haben] Natürlich wurden diese Beispiele von Forschern geprüft, sie müssen also handverlesen sein, aber es ist trotzdem beeindruckend. Hier sind einige Beispiele, falls Sie sich nicht durchklicken möchten:

 

Da die drei BASE TTS-Modelle dieselbe Architektur haben, ist die Größe der Modelle und die Angemessenheit ihrer Trainingsdaten eindeutig der Grund dafür, dass die Modelle in der Lage sind, die oben beschriebene Komplexität zu bewältigen. Beachten Sie, dass es sich derzeit noch um ein experimentelles Modell und einen experimentellen Verarbeitungsablauf handelt - nicht um ein kommerzielles Modell oder ein ähnliches Produkt. In weiteren Forschungsarbeiten muss ermittelt werden, ab welchem Punkt die potenziellen Fähigkeiten demonstriert werden und wie das endgültige Modell effizient trainiert und eingesetzt werden kann.

 

Interessant ist, dass das Modell, wie der Name schon sagt, "gestreamt" werden kann - das heißt, es muss nicht den ganzen Satz auf einmal erzeugen, sondern kann ihn schrittweise mit einer relativ niedrigen Bitrate erzeugen. Das Team versucht auch, Sprachmetadaten wie Stimmung und Rhythmus in einen separaten Stream mit geringer Bandbreite zu verpacken, der synchron mit dem regulären Audio abgespielt werden kann.

 

Es sieht so aus, als ob die Text-zu-Sprache-Modellierung im Jahr 2024 ihren Durchbruch erleben wird - gerade noch rechtzeitig vor der Wahl! Der Nutzen der Technologie ist jedoch unbestreitbar, insbesondere wenn es um die Verbesserung der Barrierefreiheit geht. Es ist wichtig zu erwähnen, dass das Team den Quellcode des Modells und andere Daten nicht veröffentlicht hat, da die Gefahr besteht, dass das Modell von Ahnungslosen ausgenutzt werden könnte. Früher oder später wird jedoch die Wahrheit ans Licht kommen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Amazon veröffentlicht BASE TTS, das größte verfügbare Text-to-Speech-KI-Modell, das "potenzielle Fähigkeiten" zeigt

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)