最近,我们报道了一个相当令人震惊的消息,谷歌的翻译设备在人工智能术语方面有了重大飞跃——似乎一直都是这样。使用机器学习,谷歌翻译“教授”本身就是一种更好的方法,通过发明自己的语言来翻译不熟悉的语言,并有效地充当中间人。
看过《终结者》电影的人都知道,一旦天网的人工智能系统有了自我意识,事情就会迅速变得梨形。
所以你可能会有点惊慌地发现,机器正在悄悄地开始做出自己的创造性决定。《终结者》中,天网迅速从自我意识走向核灾难。
机器思考和学习的时代即将到来。在硅谷,互联网巨头百度在语音合成方面取得了突破,使人工智能能够快速学习表达口语。事实上,这些机器现在可以在几个小时内自学。
文本到语音系统以前是通过记录个人(通常是演员)大声朗读的大量口语单词和常用短语来创建的。
然后,它们以各种组合的形式提供,以适合作为语音时钟、卫星导航系统或自动呼叫系统来接听电话。
这种方法带来了一些挑战,例如,如果系统需要扩展,而原来的参与者不再可用,会发生什么情况。导航系统通常会围绕这个问题,要求原演员记录一些常见的单词部分,然后拼凑成不常见的街道名称。
演员会记录常见的地名,如“高街”,但对于非常不常见的地名,如托基的Helevoetssluisway(以荷兰小镇的双子城命名),系统会粉碎演员的音节记录,以获得宣布单词时可以做出的努力。
谷歌最近的研究提出用一个系统来克服这个问题。相反,该系统从观察到的语音中观察声波,并用它来发送任何文本的抄本。
神经网络使用深度学习但仍需要人类训练,它仍需要克服一些计算挑战才能用于现实世界。
部分问题在于现实生活中语音太快,计算跟不上新的发展。谷歌的解决方案速度不够快,无法与人对话。
最新发展
这就是百度刚刚介入的地方,在硅谷开发了自己的基于自训练深度学习算法的语音合成项目。
这一新的发展将一场演讲分解为最小的可能组成部分——现象——百度的人工智能可以调整这些音调,从而为其产生的演讲添加情感。
百度的系统不需要人工训练,可以快速获取新数据。这说明它也许能适应新的语言。它还可以学习一种语言中不同的语音类型:例如,AI可以阅读有声书,并以不同的方式完成每个角色的语音。这为人机之间更真实、更有情感技巧的对话提供了新的可能性。
这在卫生保健等敏感领域具有明显的意义。如果互动在情感上更加微妙,患者可能更容易接受AI。
最重要的是,百度的团队声称已经克服了谷歌遇到的计算问题。据估计,新系统的速度比谷歌上一次迭代快400倍左右。这意味着系统可以足够快地工作,在现实生活中发挥作用,例如通过不可预测的交易与人互动。
谈论机器人的未来
随着两大互联网巨头将目光转向语音合成,这一研究领域几乎必然会快速推进。人类一旦解决了人工对话的问题,就会对商业、技术、社会产生很多影响。
通过自动驾驶汽车和自动检测等技术,可以更容易地向前推进,从而减少烦恼和重复。
自学系统的确是解决不可预测的谈话情况的关键。目前人工智能的交互局限在相当狭窄的范围内;例如,自动语音邮件可以从你那里得到一个电话号码,或者用一个简单的是/否回答来回复。
能够适应新情况的语音合成系统开辟了新的可能性,例如与自动驾驶汽车谈判路线,或者向AI医生描述你的症状。
改进的语音合成也能更好地代表我们。因运动神经元疾病等疾病而失去声音的人,如果在失去说话能力之前记录下他们的声音样本,就可以通过计算机通信更好地反映他们的身份。
或者,计算机可以结合来自其年龄、性别和地区的多种声音来创建一个公平的表示。
当然,像这样的新技术的出现也有负面影响。如果AI交互可以代替人类,可能会造成大量失业。

对于昂贵且容易出错的人类工作者来说,执行服务行业等交易的需求要少得多。
我们认为理所当然的事情,比如人们在餐厅等待,可能会变得更加罕见。社会变革,经济中断,必然伴随着可以和我们自由对话的机器的到来。