如何用高质量的TTS音效本地化“多配体配音”

你是否因为要为每种语言寻找和试听解说员,预定录音棚,不料却发生了意想不到的变化,需要后期重新录制而感到沮丧?对于电子学习和培训视频,解决方案可能只是文本到语音转换(TTS)。对于英语以外的语言,解决方案最好来自真正理解该语言的本地实体。

正如我的同事Jill Polanycia在她的文章“文本到语音:令人惊叹的无处不在的时尚技术”中所写的那样,TTS可以将训练提升到一个新的水平,因为人们可以在听指令的同时执行任务,而不必将眼睛粘在屏幕上。当你认为一个TTS系统可以在五分钟内完成制作,而它需要大约八个小时的语音人才可以看到一些时间和金钱的节省。

听起来就像你的意思。

十年前的TTS听起来非常机器人化。但是现在,TTS听起来更人性化了(嗯,有些人是这样的)。这是因为声音是基于采样的人声,而不是基于100%算法的合成音频波。

有迹象表明,许多在线资源让你用自己的文本字符串试驾他们的声音,这让我体验和测试了由Linguatec提供的Acapela Group、NaturalReader和voice reader。公司HOYA的VoiceText(它的名字不属于日本的NeoSpeech)和AITalk。通过支付这些服务,你可以获得更多的声音,以及调整声音和微调其交付的能力。但是对于这篇文章,我坚持什么是免费的。

你可能会猜测,这不是一个科学的研究,这些选择可能会因个人喜好而有所偏差。但在我们的业务中,我们看到机器人声音和人类声音的标准往往是有利的,所以对声音做出最终决定的总是客户。

所有服务都有好声音,所以我的前五声都是散的。Acapela占了两个,其中一个用于NaturalReader、Voice Reader和VoiceText。

五个男性英语TTS声音

因为某些原因,男性的声音似乎更有个性。还是因为很多高质量的声音都是英式英语?

阿卡贝拉总是表现出色,提供了你刚刚听到的五大声音中的两个。也许令人惊讶的是,剩下的三个是日本HOYA的VoiceText和德国Linguatec的Voice Reader。

如果这些是在德国和日本,公司有很多和自己母语相关的技术,他们也一定会这么做。人们可能认为他们在这些语言中的声音是一流的。虽然我不会说德语,但是日语有全面的VoiceText和AITalk选择。

「多配体配音」如何利用高质量的TTS音效进行本地化
五个女性日本TTS声音

我读到的文本是之前英文文本的日文本地化版本:コンテンツのや〪〪〪.デジタルがみこのきにりどれなぃためにはォムニチチチチォ.

正如我们所料,我对日本最佳女声的前五名选择都来自日本供应商——四名来自VoiceText,一名来自AITalk。毫无疑问,在完整版软件应用的头对头比较中,AITalk会更强大,但就其免费的在线采样器而言,VoiceText占了上风。

虽然Acapela的樱花还不错,但是被日本供应商提供的品质和丰富的选择所覆盖。Acapela的声音确实进入了在成田机场测试的人形机器人Kokoro,但使用的声音是美式英语语音Sharon(我的五强之一),而日语语音是由AITalk提供的。

日本TTS五大男声

这不是设计,日本最优秀男性的前五个选择其实是VoiceText的四个和AITalk的一个,就像女声一样。

也许我应该提一下,VoiceText的名为SHOW的声音提供了稍微不标准的音调,但这是因为它的虚构角色“来自熊本县”。“它被用作电视节目《摩亚-摩亚·萨默斯》(Moya-Moya Summers)的旁白,其略带偏差的语调为节目增添了独特的口音(双关语)。

许多其他可能性

许多TTS提供商不提供在线样本,但他们有可以免费试用的可下载软件,如Balabolka、AudioBookMaker和NaturalReader(它们也提供在线样本)。

根据您的具体需求,您可能希望完全集成IBM Watson(英语使用男声,日语使用女声),或者尝试使用Amazon Polly。

互联网是一个奇妙的地方——所以环顾四周(像我一样),看看你有什么解决方案。如果您还没有这样做,请通过电子学习行业在这里和这里查看这些精彩的文章。

我差点忘了...

Acapela丰富的声音选择包括许多独特的产品,可以以有趣的方式增加您的项目的兴趣。

如果你希望你的声音不仅会说话,还会唱歌,你可以去VoiceText,让声优为你唱歌。当我们通过雅马哈进入Vocaliod时,我们将完全跑题,但从某种意义上说,我们谈论的是同样的技术。

曾经有一段时间,人类歌手演唱数字音乐。现在,您可以在最热情的现场观众面前体验投影的数字角色和带数字声音的现场乐队。

数字语音永远不会老,不会感冒。他们是可靠的,可靠的,可以无限地重现同样的品质。(有没有后续作品中可以出现的声音,听起来完全不一样?数字声音没有这个问题。)

对于某些人来说,图尼在音乐会中的数字角色可能有点太远了,正如我们在儿童和老人的这些反应中看到的那样。但是不管你的表现如何,技术就在那里,你已经准备好利用它了。如果要本土化,为什么不更进一步,发出声音?