アマゾン、最大の音声合成AIモデル「BASE TTS」を発表 "潜在能力 "を示す

1.9K 00

亚马逊发布目前最大型的文本语音转换人工智能模型BASE TTS展现了“潜在能力”

アマゾンの研究者たちは、複雑な文章をより自然に音声出力できる "潜在的な "性質を示すと主張する、これまでで最大のテキスト音声変換モデルを訓練した。このブレークスルーは、この分野の技術において不自然さから脱却する鍵となるかもしれない。

このようなモデルの成長と強化は続いており、研究者は特に、言語モデルの本体があるレベルまで増加したときに、我々が目撃したような能力の飛躍が見られると期待している。理由は不明だが、言語ロング・モデル（LLM）がある一定以上の規模になると、より強力で柔軟になり、訓練されていないタスクを引き受けることができるようになる。

これは、モデルが自己認識や同様の属性を獲得したという意味ではなく、ある超越点を超えると、特定の会話AIタスクにおけるパフォーマンスが急激に上昇する傾向を示したということだ。アマゾンの人工知能（AGI）チームは、その目標は秘密ではないが、音声合成モデルが進化するにつれて同じことが起こるかもしれないと考えており、彼らの研究はそれが起こったことを示している。

新しいモデルは[潜在能力を秘めた大規模適応型ストリーミング・テキスト音声変換このモデルの最大バージョンは10万時間のパブリックドメインの音声素材を利用しており、そのうち90%は英語、残りはドイツ語、オランダ語、スペイン語である。

980万パラメータを持つBASE-largeは、この分野で最大のモデルである。比較のために、それぞれ10,000時間と1,000時間のオーディオ素材に基づいて、4億と1億5,000万のパラメータを持つモデルもトレーニングした。この理由は、一方のモデルが潜在的な挙動を示し、もう一方が示さない場合、これらの挙動が現れ始める重要な領域を特定することが可能だからである。

その結果、中型モデルは、通常のスピーチの質（スコアはわずかに向上したが）だけでなく、チームが観察・評価した潜在的な能力の範囲において、チームが期待した能力の飛躍を示した。以下は、論文で言及されたトリッキーな文章の例である：

複合名詞ベッカム夫妻は魅力的な伝統的な石造りの田舎の別荘を借りることにした。
エモーショナル・ニーズ本当にモルディブに行くの？本当にモルディブに行くの？信じられない！」。ジェニーは興奮して飛び跳ねながら叫んだ。
外国語語彙ヘンリー氏は、その見事な厨房の準備で有名で、7品のコース料理を用意しました。
古言語学(静かに、ルーシー、静かに、お兄ちゃんを起こしちゃだめだよ」トムがささやきながら、二人は子供部屋を注意深く歩いた。
句読点彼女は兄から奇妙なメールを受け取った！ママとパパが心配しています。#ファミリーファースト』。
質問の仕方しかし、英国の欧州連合（EU）離脱に関する疑問は、いまだ宙に浮いたままだ。
構文の複雑さ最近、生涯功労賞を受賞したデ・モヤは、2022年に主演し、賛否両論の評価を受けながらも興行的には成功を収めた。

「これらの文章は、複雑な構造の文章を解析したり、長い複合名詞に句動詞の強調を適用したり、感情的な発音やささやくような発音をしたり、'qi'や'@'のような外国語の単語や句読点を正しく発音したりする難しいタスクを含むように注意深く設計されています。単語や句読点を正しく発音することは困難なタスクであり、BASE TTSが明示的に訓練するタスクではありません。

このような機能は、一般的に音声合成エンジンを挫折させ、単語の発音を間違えたり、単語を省略したり、不適切なイントネーションを使ったり、その他のエラーを起こす可能性がある。BASE TTSもまた困難に直面していますが、その処理能力はTortoiseやVALL-Eといった同時代のモデルをはるかに凌駕しています。

公式サイトでは、このような難解な文章を自然かつ流暢に音読するための例を数多く紹介している。このモデルのために作られたウェブサイトで確認してほしい。]もちろん、これらの例は研究者によって審査されたものなので、厳選されたものに違いないが、それでもこれは印象的だ。クリックしたくない方のために、いくつか例を挙げておこう：

3つのBASE TTSモデルは同じアーキテクチャを共有しているため、モデルのサイズと学習データの適切さが、モデルが上記のような複雑さを扱える理由であることは明らかです。現在のところ、これはまだ実験的なモデルと処理の流れであり、商用モデルや同様の製品ではないことに注意してください。今後の研究では、潜在的な能力が発揮される転換点を見極め、最終モデルを効率的に訓練・展開する方法を決定する必要がある。

つまり、文章全体を一度に生成する必要はなく、比較的低いビットレートで段階的に生成できるということだ。チームはまた、ムードやリズムなどの音声メタデータを低帯域幅の別ストリームにパッケージ化し、通常の音声と同期して再生することも試みている。

音声合成モデリングは、2024年、ちょうど選挙期間中にブレークスルーを迎えることになりそうだ！しかし、特にアクセシビリティの向上に関しては、この技術の有用性は否定できない。重要なのは、このモデルが無防備な人々に悪用される危険性を考慮し、研究チームがモデルのソースコードやその他のデータを公開しないことを選択したことだ。しかし、遅かれ早かれ真実は明らかになるだろう。