计算机如何教自己说话

最近，我们报道了一个相当令人震惊的消息，谷歌的翻译设备在人工智能术语方面有了重大飞跃——似乎一直都是这样。使用机器学习，谷歌翻译“教授”本身就是一种更好的方法，通过发明自己的语言来翻译不熟悉的语言，并有效地充当中间人。

看过《终结者》电影的人都知道，一旦天网的人工智能系统有了自我意识，事情就会迅速变得梨形。

所以你可能会有点惊慌地发现，机器正在悄悄地开始做出自己的创造性决定。《终结者》中，天网迅速从自我意识走向核灾难。

机器思考和学习的时代即将到来。在硅谷，互联网巨头百度在语音合成方面取得了突破，使人工智能能够快速学习表达口语。事实上，这些机器现在可以在几个小时内自学。

文本到语音系统以前是通过记录个人(通常是演员)大声朗读的大量口语单词和常用短语来创建的。

然后，它们以各种组合的形式提供，以适合作为语音时钟、卫星导航系统或自动呼叫系统来接听电话。

这种方法带来了一些挑战，例如，如果系统需要扩展，而原来的参与者不再可用，会发生什么情况。导航系统通常会围绕这个问题，要求原演员记录一些常见的单词部分，然后拼凑成不常见的街道名称。

演员会记录常见的地名，如“高街”，但对于非常不常见的地名，如托基的Helevoetssluisway(以荷兰小镇的双子城命名)，系统会粉碎演员的音节记录，以获得宣布单词时可以做出的努力。

谷歌最近的研究提出用一个系统来克服这个问题。相反，该系统从观察到的语音中观察声波，并用它来发送任何文本的抄本。

神经网络使用深度学习但仍需要人类训练，它仍需要克服一些计算挑战才能用于现实世界。

部分问题在于现实生活中语音太快，计算跟不上新的发展。谷歌的解决方案速度不够快，无法与人对话。

最新发展

这就是百度刚刚介入的地方，在硅谷开发了自己的基于自训练深度学习算法的语音合成项目。

这一新的发展将一场演讲分解为最小的可能组成部分——现象——百度的人工智能可以调整这些音调，从而为其产生的演讲添加情感。

百度的系统不需要人工训练，可以快速获取新数据。这说明它也许能适应新的语言。它还可以学习一种语言中不同的语音类型:例如，AI可以阅读有声书，并以不同的方式完成每个角色的语音。这为人机之间更真实、更有情感技巧的对话提供了新的可能性。

这在卫生保健等敏感领域具有明显的意义。如果互动在情感上更加微妙，患者可能更容易接受AI。

最重要的是，百度的团队声称已经克服了谷歌遇到的计算问题。据估计，新系统的速度比谷歌上一次迭代快400倍左右。这意味着系统可以足够快地工作，在现实生活中发挥作用，例如通过不可预测的交易与人互动。

谈论机器人的未来

随着两大互联网巨头将目光转向语音合成，这一研究领域几乎必然会快速推进。人类一旦解决了人工对话的问题，就会对商业、技术、社会产生很多影响。

通过自动驾驶汽车和自动检测等技术，可以更容易地向前推进，从而减少烦恼和重复。

自学系统的确是解决不可预测的谈话情况的关键。目前人工智能的交互局限在相当狭窄的范围内；例如，自动语音邮件可以从你那里得到一个电话号码，或者用一个简单的是/否回答来回复。

能够适应新情况的语音合成系统开辟了新的可能性，例如与自动驾驶汽车谈判路线，或者向AI医生描述你的症状。

改进的语音合成也能更好地代表我们。因运动神经元疾病等疾病而失去声音的人，如果在失去说话能力之前记录下他们的声音样本，就可以通过计算机通信更好地反映他们的身份。

或者，计算机可以结合来自其年龄、性别和地区的多种声音来创建一个公平的表示。

当然，像这样的新技术的出现也有负面影响。如果AI交互可以代替人类，可能会造成大量失业。

对于昂贵且容易出错的人类工作者来说，执行服务行业等交易的需求要少得多。

我们认为理所当然的事情，比如人们在餐厅等待，可能会变得更加罕见。社会变革，经济中断，必然伴随着可以和我们自由对话的机器的到来。

推荐阅读