开源神经机器翻译竞赛正在进行中

在活动大会上,活动合作伙伴Systran的全球首席技术官Jean Senellart讨论了NMT的一个方面,他也发现了令人兴奋和可怕的一面:开源竞争。“如果你看看过去两年,每个月都会有两个关于NMT的...


2018年5月17日,在SlatorCon活动期间,神经机器翻译(NMT)通常占据显著位置,SlatorCon London是Nobu例外。在活动大会上,活动合作伙伴Systran的全球首席技术官Jean Senellart讨论了NMT的一个方面,他也发现了令人兴奋和可怕的一面:开源竞争。

Senellart简要介绍了已有50年历史的机器翻译。公司希斯特兰,这个公司经验丰富并直接参与所有机器翻译技术的生产级部署-从常规机器翻译到统计机器翻译再到NMT。

他还谈到了开放NMT的成功,开源NMT框架Systran和哈佛大学共同努力向观众介绍法国。公司Ubiqus加入他们合资公司的最新情况。

自2017年初发布以来,OpenNMT已经发展成为第二大开源NMT项目,包括18个主要版本,3300个星号和1020个Github分支,6次完整的代码重构。

这就是Senellart谈到他演讲核心的地方:“我们在谈论5000行代码。我们同时讨论的有大有小。”

NMT改变了MT的历史

当塞尼拉特说他在谈论伟大的事情时,他通常指的是NMT如何彻底改变了珠穆朗玛峰的历史。

在演讲中,Senellart展示了基于规则的MT在1968年投入生产,并一直保持主导地位,直到2007年,统计MT足以用于生产。然后到了2016年,基本上两年前的技术很快就会接手。

“SMT是IBM在20世纪90年代创立的。进入工业化生产用了15年,”塞内拉特说。“NMT于2014年由学术界推出,用了两年时间才被业界接受。”

除了开发速度和行业采用的巨大差异,Senellart还注意到了每种技术在被视为其主要资产方面的差异。在基于规则的机器翻译中,资产是代码和积累的语言资源。对于统计吨来说,资产就是数据。

塞内拉特说:“数据越多,数据越好,等式就越简单。”"将数据翻倍,你会得到一个蓝色的观点."他还指出,将机器翻译统计系统化的第一次尝试始于统计机器翻译统治时期。

最后,NMT冲进现场,伴随着另一项资产转移:“我们不再谈论大数据;我们谈论的是好的数据,”塞内拉特说。

开源的质量

除了数据资产思维方式的改变,Senellart强调NMT的开源方面也很重要。“如果你看看过去两年,每个月都会有两个关于NMT的新开源项目,所以这是不可思议的,”他说。

虽然这看起来令人鼓舞,但塞内拉特指出,其中许多人正在“死亡”,即新项目没有得到维持。甚至谷歌会启动一个新的开源项目,只是放弃维护而转向新技术或开发,这反映了NMT技术发展的速度。

开源神经机器翻译竞赛正在进行中

Senellart还提醒人们,尽管大多数开源项目来自学术界,但最活跃的项目来自行业参与者。例如,谷歌处理最大的开源项目和最多的活动,其次是Systran自己的开放NMT。名单上的第三个是脸书。

“如果你看看过去两年,每个月都会有两个关于NMT的新开源项目,这太不可思议了。”- Sigstran全球首席技术官Jean Senellart

Senellart指出,这很“奇怪”,因为在此之前,谷歌、亚马逊和Salesforce等大型技术。公司没有积极的开源文化。他接着说,技术的发展通常是一篇论文发表以后,这通常是在Arxiv.org的研究数据库中找到的。

“不开放的玩家很少,那些没有开源项目的玩家,”Senellart说,他们中的一些人认为deepL、全知和微软都是。然而,他们确实公布了他们的“数字”,就像成绩单一样,他们公布了使用BLEU等测量结果的NMT发动机的性能。

所以这就是开源的好处之一:即使是竞争对手之间也有合作。

根据Senellart的说法,2017年有250种关于NMT的出版物。“世界上没有人。公司你可以复制250篇论文,只是为了检查它们是对还是错,这就是为什么今天开源是必要的原因之一。

事实上,Senellart指出,NMT技术发展如此之快,以至于在14个月内,所使用的技术发生了三次主要的范式转变。第一批研究人员使用了递归神经网络(RNN),然后他们蜂拥至脸书领导的卷积神经网络(CNN),最后是谷歌的自我注意力转换器模型。

Senellart在技术发展和人类如何处理语言和翻译之间画了一条有趣的平行线。RNN按顺序处理翻译,每个单词都包含单词。CNN更一般地处理单词序列。最后,基于注意力的方法字面上更关注文本的某些部分,这可能会对文本的理解和翻译产生很大的影响。

“世界上没有人。公司你可以复制250篇论文,只是为了检查它们是对还是错,这是今天开源的必需品之一。"

当然,随着好事的到来,坏事是开源竞争加快了开发速度,这也意味着积极的参与者必须“为生存而战”,Senellart说。

“开源项目非常脆弱,”他解释道。Systran必须支持开放NMT的用户和社区,共享数据,甚至失败的实验,修复问题,使一切稳定和兼容,等等。

“我记得一年前,我接到一个来自Booking.com的电话,他使用了开放的NMT,”Senellart告诉观众。“他们刚刚问我是否会在一年内打开NMT,因为我们现在开始生产。你能保证一年之内你还在吗?”

编译:语言学家上海翻译公司


参考资料

相关文章