谷歌，微软，百度在8月创纪录地加速NMT研究

2023-09-11 浏览：83 次作者：admin

谷歌，微软，百度在8月创纪录地加速NMT研究

2018-10-12 13:56:56

机器翻译

根据提交给Arxiv.org的研究论文研究，神经机器翻译（NMT）研究似乎在2018年7月在经历了今年上半年的激增之后略有放缓。然而，到2018年8月，他们获得了这个萧条，实际上超过了5月份，成为迄今为止最繁忙的月份。

在Arxiv平台上发表的关于提及NMT标题或摘要的研究在上个月达到了创纪录的57篇论文，与5月份的55相比略有上升。当然，有一点需要注意，一些关于Arxiv的搜索结果是误报，而另一些则更新了已经出现过的论文的重新提交。考虑到这些因素，所有搜索结果中有33个完全是关于NMT的，并且是新提交的。

值得注意的是，过去几个月提交给Arxiv的许多论文也将在2018年10月31日至11月1日在比利时布鲁塞尔举行的第三届机器翻译会议（WMT 2018）上发表。

BLEU再次遭遇火灾

双语评估替代（BLEU）是目前评估NMT输出的方法，但随着有多少研究人员提倡更新，更好的标准，这可能很快就会改变。在Slator最近对NMT研究的报道中，作者SamuelL?ubli和着名研究人员Rico Sennrich博士和Martin Volk博士发现，BLEU方法无意中成为了一个更大问题的一部分。

NMT输出已经变得如此流畅，以至于BLEU以及当前的研究社区标准已不再足够。他们认为，现在是文件层面而不是句子层面评估的时候了。

这是由Antonio Toral博士，Sheila Castilho博士，Ke Hu博士和Andy Way博士的另一篇论文得出的结论，Toral和Way直接慷慨地提供了Slator。就像L?ubli，Sennrich和Volk的论文一样，这一点在当前测量输出流畅性的标准中看到了同样的缺陷，这需要改变NMT研究的方式。研究界目前的评估标准不再能准确反映NMT的进展。

自从NMT研究在过去几年开始崛起以来，BLEU对NMT研究的局限性一直是一个棘手的问题，Slator在2018年的NMT报告中谈到的许多专家都在积极倡导，寻找和提出替代方案。

今年8月谷歌，微软，百度非常活跃

虽然众所周知，知名人士不时为研究做出贡献，但去年8月，谷歌，微软和百度都非常活跃，至少在提交的新研究论文方面如此。

谷歌在2018年8月提交了六份研究论文，其中大部分旨在深入挖掘如何改进NMT流程或产出。谷歌研究人员推出了SentencePiece，这是一种将NMT的原始句子输入标记（和去标记）为子词的工具，这些子词更易于处理NMT引擎。他们还介绍了他们所谓的SwitchOut，这是一种数据增强算法，最终可以在保持质量的同时改善NMT流程。

谷歌研究人员重新审视基于字符的NMT和如何标记的顺序由NMT系统产生影响其输出，以及新的，基于树的解码器是增加语法信息，以NMT模型和回译的低资源语言（在研究Facebook也参与其中的论文）。

微软还提交了四篇论文中更深层次的问题。他们的研究人员使用优化器来防止 NMT模型中的微调问题，从而提高处理速度，并研究应用于NMT时强化学习的潜力。他们还通过同样改进双向翻译，致力于风格转移和提高NMT输出。

与此同时，中国科技巨头百度研究了NMT组件之一的光束搜索的局限性，并在神经网络训练期间添加了多个参考，以及如何利用这种方法生成伪参考。百度研究人员于2018年8月向Arxiv提交了三篇论文。

值得注意的是，那个月还有另一家中国巨头出席了会议：阿里巴巴的研究人员使用了一种名为半自回归变压器（SAT）的改进模型，将处理速度提高了近六倍，相同输出质量提高了约90％。

有趣的是，这些大型科技品牌提交的论文的研究方向反映了去年8月Arxiv大部分论文的研究课题。研究人员似乎热衷于弄清楚NMT模型的内部工作原理以提高输出和处理速度，其他一些人则研究了低资源语言，如前所述，评估中需要文档级环境。

菜单导航

谷歌，微软，百度在8月创纪录地加速NMT研究