AI个人学习
和实操指南

海螺语音国内上线,可能是最好的中文语音配音产品

国内一直没有一个为内容生产制作的优秀配音产品,要不就是只能用API要不就是产品还行声音模型不行。

比如海外的 ElevenLabs 虽然英语还行但是中文是真的拉跨,开源的模型主要问题是模型质量相对较差,具体表现在音质差,有明显的电流感,多语言混合场景和多音多意字表达不准确等。


MiniMax 一个月前上线 海螺AI国际版,上线秒级语音克隆功能,中英文朗读效果十分出色!前几天在国内页上线了语音生成功能,试了一下真的很惊喜,支持超过17 种语言的配音、多种情绪表达的精准控制,支持数百种音色库满足不同需求

最重要的是音频质量真的非常高,声音生成的常见问题都没有,还有高度自定义选项,虽然用的同一种音色,但调整后也会变得不一样。

先看一下我做的这个小片子,然后我们从功能和效果两个方面看一下海螺语音生成能力的效果。

 

详细的功能自定义选项

我们首先来看一下海螺语音的功能,真的很强大而且细致,海螺有一个庞大的音色库支持超过17种语言,每种语言又支持非常多的音色,并且能自由选择男声和女声还有年龄

你可以通过筛选找到你需要的任何身份和年龄背景的音色,比如我们的视频脚本需要一个年迈的有正义感的老人,就可通过这个筛选快速获取到。

另外在选择了音色后也可以对音色进行非常详细的自定义。

首先是可以自定义音色的情绪,包括开心、难过、生气等五六种情绪,比如下面这个音频我就展示了温暖闺蜜这个音色不同的情绪表现,可以明显听得出来,非常的自然。

然后是语速,这个很好理解数值越高他说话越快,音量也很好理解,数值越高说话声音越大,声调这个我试了一下大概可以理解为数值越大声音越尖,数值越小声音越浑厚。

我们通过控制这四个自定义选项,可以调教出非常不同的声音,即使你选的同一个音色,真的很好玩,可以试试

另外还有一个小tips是在需要添加停顿的地方增加'<#0.5#>'这种标记可以让模型生成声音的时候停顿指定的时间,如果你有这种需求可以试试,海螺自己也可以判断需要的停顿。

 

强大的生成效果

除了丰富的音色之外海螺的模型本体也非常强大,我们用过一些开源TTS都知道,很多模型最常见的问题就是音质问题,有股电流感,有些失真有些是故意添加的有些是训练的问题。

这里我找了一段我前段时间写的相对较长的内容让他生成了一下口播稿,可以听一下音质非常好,而且停顿自然,需要着重强调的时候他会加重读音

另外一个语音模型的常见问题是超长内容的生成。很多模型支持的文字长度很短,海螺最长可支持输入10000字符,基本上长点的稿子和一章小说也就这个长度了,完全可以满足需求。

下面是我找了一个前段时间吴恩达两千字的稿子他读的非常好而且没出问题,生成的速度也非常快,他可以边生成边预览,非常节省时间

最后一个最棘手的问题就是多语言混合场景和多音字场景,一些相对好的语音模型也经常出问题,专门让AI生成了一段测试文本,一段话包含5种不同的语言,海螺读的也非常完美,这个真的太强了。

早安!Good morning! 今天是个美好的日子。Je suis très heureux de vous rencontrer. Ich liebe Musik und Kunst. 这让我感到非常开心。¡Buenos días amigos! 让我们一起去吃午饭吧。

这是多音字的场景,他准确的判断了"走一行"(háng)"先行"(xíng)"银行"(háng)"行程"(xíng)这几个不同位置的读音,非常复杂的多音字语句处理的也很好。

我今天要先行一步,走一行就停一行。明天还要去银行办理业务,路上要是堵车了,行程可能会受影响

介绍就到这里可以多玩玩,在下面这几个地方使用:

海螺语音:https://hailuoai.com/audioHailuo

国内API服务:https://platform.minimaxi.com/document/T2A%20V2

 

去年我还老跟朋友聊什么时候国内也能有像ElevenLabs这样强大的配音产品,现在我们已经获得了比ElevenLabs还要好的结果,24年我们从图片到视频再到音频都拿出了匹敌一流水准的模型,希望今年国内的AI厂商可以给我们更多惊喜。

未经允许不得转载:首席AI分享圈 » 海螺语音国内上线,可能是最好的中文语音配音产品

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文