谷歌目前正在努力改善计算机阅读语言的方式。
互联网服务巨头的科学家正在为研究人员提供一系列工具,帮助个人电脑、平板电脑和手机识别和理解某些单词及其背景之间的差异。
比如很多美国人也是“阶梯”和“后者”的意思,意思是很难区分两者。
类似的问题也存在于移动设备的键盘输入中,尤其是IME键盘。例如,当用户在键盘上滑动手指时,“Yankees”和“take”的输入模式看起来很相似。这使得设备更难准确地知道或预测用户试图写什么。
科技网站EWEEK.com报道称,谷歌正在提供数据集,研究人员可以使用这些数据集来尝试优化计算机阅读和听到单词的方式,以解决问题。
语言模型计算机使用上下文的一种方式是语言模型——一种通过概率分布为一系列单词分配概率的技术。

这用于预测键盘,以及许多其他自然语言处理应用,包括语音识别、机器翻译、拼写纠正、查询建议和信息检索。
但是,在评价这种复杂系统的好坏时,有一点可能是复杂的,那就是错误的归因。
谷歌认为,它有一套标准的大词,其基准可以很容易地进行比较,并可以用新的建模技术进行实验,这可能是一种改善计算机语言建模的潜在方法。
因此,它发布脚本,将一组公共数据转化为包含十亿以上单词的语言模型,并具有标准化的训练和测试分段。同时,它还在方便的位置发布经过处理的数据以及训练和测试数据。
这个想法是为了让研究团体更容易快速地重现结果。所有想要免费使用数据集的研究人员都可以获得所有基准脚本和数据。
新的更好的标准基准谷歌希望为语言建模实验创建一个新的更好的标准基准。
随着越来越多的研究人员使用新的基准,比较将更加容易和准确,进展也将更快。
研究人员目前根据他们的选择进行报告。这意味着由于缺乏处理标准,结果难以重现。
谷歌研究的产品经理戴夫·奥尔(Dave Orr)和谷歌研究科学家西普里安·切尔巴(Ciprian Chelba)鼓励研究人员使用新的基准,因为他们找到了改进的方法来帮助机器找出搜索和查询的背景。