亚马逊研究人员训练了迄今为止规模最大的文本语音转换模型,据称该模型展现出了“潜在”品质,能够更自然地语音输出复杂句子。这一突破或许正是该技术领域摆脱不自然感的关键。
这类模型的成长和提升一直在继续,研究人员具体期望看到的是,当语言模型体量增加到一定程度后,能够实现我们所见证的能力飞跃。出于某些未知原因,当语言长模型(LLMs)扩展到一定程度以上,它们变得更为强大和灵活,能够承担起未曾训练过的任务。
这并不代表模型们获得了自我意识或者类似属性,而是在某一点超越之后,它们在特定的对话人工智能任务上的表现呈现急剧上升趋势。亚马逊人工通用智能(AGI)团队—他们的目标并不是秘密—认为随着文本到语音模型的发展,可能会出现相同的情况,而他们的研究显示确实如此。
新模型称为[具有潜在能力的大型自适应流式文本语音转换](Big Adaptive Streamable TTS with Emergent abilities),简称BASE TTS。模型最大型版本利用了10万小时的公共领域语音资料,其中90%为英语,其余的包括德语、荷兰语和西班牙语。
拥有980万参数的BASE-large是该领域中最大的模型。为了形成对比,他们还根据1万小时和1000小时的音频资料分别训练了具有4亿参数和1.5亿参数的模型—这样做的原因是如果一个模型展现了潜在行为,而另一个没有,则可以确定这些行为开始显现的临界区域。
结果显示,中型模型展现了团队期望的能力飞跃,不仅仅是在普通语音质量上有所提升(尽管评分有所提高,但只是略微),更在团队观察和评估的一系列潜在能力上有所体现。以下是论文中提到的一些棘手文本例子:
复合名词:贝克汉姆一家决定租下一座有魅力的传统石头乡村度假屋。
情绪表达:“哦天哪!我们真的要去马尔代夫了吗?简直难以置信!”,珍妮尖叫着,兴奋地跳了起来。
外语词汇:“亨利先生以其精湛的厨房筹备工作而闻名,他精心策划了一顿七道式的盛宴,每一道都是不可多得的美味佳肴。
帕拉语言学(如可解读的非文字部分):“嘘,露西,安静点,我们不能吵醒你的弟弟,”汤姆小声说着,他们小心翼翼地走过婴儿房。
标点:她收到了兄弟发来的一条怪异的短信:‘家里紧急情况;请尽快打电话!爸妈很担心...#家庭至上’
提问方式:但关于英国脱欧的问题依然挂念:在经历了所有的考验后,部长们能及时找到答案吗?
句法复杂性:最近获得终身成就奖的De Moya在2022年主演的电影尽管收到了褒贬不一的评论,却取得了票房的成功。
“这些句子被精心设计来包含解析复杂结构句子,对冗长复合名词施加短语重音,产生带有情感的或是低语的发音,或者对于如‘qi’或者‘@’这样的外语单词或标点正确发音这些挑战性任务—这些都是BASE TTS并未显式训练的任务,”作者表示。
这类功能通常会使文本语音转换引擎受挫,可能会发音错误,遗漏词汇,使用不当语调或犯其它错误。尽管BASE TTS也遇到了难题,但其处理能力远超同期的模型如Tortoise和VALL-E。
官方网站提供了许多将这些困难文本自然流畅朗读的示例[在他们为模型建立的网站上查看]。当然,这些示例是研究人员筛选的,因此它们肯定是精挑细选的,但这依旧令人印象深刻。以下是一些示例,如果你不想点击查看:
由于三款BASE TTS模型共享同一架构,模型的规模和其训练数据的充足程度显然是模型能够处理上述复杂性的原因。请注意,当前这仍是一种实验性模型和处理流程—而非商用模型或类似产品。后续研究需要确定潜在能力展现的转折点以及如何高效地训练和部署最终模型。
值得关注的是,模型如名称所暗示的可以“流式传输”—意味着它无需一次性生成整个句子,而是能在相对较低的比特率下逐步生成。团队还试图将语音元数据如情绪、韵律等包装进一个单独的、低带宽数据流中,这可能与普通音频同步播放。
看起来文本到语音的模型可能在2024年—恰逢选举时—将迎来突破性的时刻!然而,技术的实用性是不可否认的,特别是在提升可访问性方面。需要指出的是,考虑到模型可能被不怀好意的人利用的风险,团队选择不公开模型的源代码和其他数据。不过,迟早有一天,真相会大白于天下的。