TAUS推出匹配数据

匹配数据使机器翻译开发者和语言服务提供商能够有效地编译定制语料库,以便基于样本数据集构建他们自己的特定领域翻译解决方案。阿姆斯特丹,2019年1月16日-TAUS推出匹配数据:一种...


阿姆斯特丹,2019年1月16日-TAUS推出匹配数据:一种为机器翻译(MT)引擎的训练和调整选择语言数据的新技术。这种新方法非常适合新一代的神经机器翻译,并且对训练数据的质量更加敏感。匹配数据使机器翻译开发者和语言服务提供商能够有效地编译定制语料库,以便基于样本数据集构建他们自己的特定领域翻译解决方案。

"为机器翻译训练寻找语言数据一直是一个巨大的挑战."TAUS导演贾普·范德梅尔说。“从特定领域选择数据几乎是不可能的。在2010年,我们已经开始确定一个场景,其中一个样本数据集,一个简单的特定领域翻译记忆库,将帮助我们的用户从TAUS数据云中的数十亿个片段中编译一个完全个性化的语料库。实现这一目标的技术尚未实现,但现在因为DatAptor项目而成为现实。”

广告

TAUS推出匹配数据

DatAptor项目是阿姆斯特丹大学逻辑、语言和计算研究所承担的一个研究项目,由Khalil Sima'an教授领导,荷兰STW资助。该项目的合作伙伴是英特尔、欧盟委员会翻译总司和TAUS。从2013年到2016年,一组研究人员探索了不同的方法,使大量数据的数据选择无缝有效。

“我们的梦想是让万维网本身成为所有数据选择的来源,”哈利勒·西玛安教授说,“但我们决定更温和地开始,使用非常大的TAUS数据库作为我们的狩猎场。在DatAptor中,我们了解到每个域都是许多子域的混合。在一个非常大的库中,子域组合学包含了大量新的和未开发的选项。因此,如果用户提供表示感兴趣领域的查询语料库,匹配数据方法可以在存储库中找到合适的选择。”

匹配数据方法通过将混合领域搜索语料库中的所有句子索引为可搜索的实体,来反转典型的搜索方法。因此,匹配数据将返回高保真数据,并为每个细分受众分配匹配分数。用户可以根据需要决定下载小型、中型或大型选项。

Oracle国际产品解决方案与新TAUS匹配数据服务合作开发了一个口语语料库,用于中文与英语、韩语、日语、西班牙语和巴西葡萄牙语之间的一般在线对话和聊天。Oracle语言专家进行了深入的语言学评测,匹配数据检索出的片段平均质量得分为84%。

Jaap van der Meer说:“匹配数据被设计成一种行业社区服务。任何人都可以通过提供查询语料库来开始新的领域语料库。产生的领域语料库被提供在TAUS匹配数据库中,供有兴趣改进其全球内容解决方案的每个人使用。这个版本的匹配数据是我们打开数据市场的雄心勃勃的道路上的第一步。”

欲了解更多信息,请访问:

十年来,TAUS数据云教会了我们如何解决数据鸿沟。

匹配数据白皮书

关于TAUS

TAUS,一个语言数据网络,是一个独立和中立的贸易组织。我们通过活动计划和在线用户组发展社区,并通过分享知识、指标和数据,帮助翻译行业的所有利益相关者开发更好的服务。我们为语言和翻译服务的买家和提供商提供数据服务。

分享知识和数据有助于TAUS成员决定有效的本地化策略。指标支持更有效的过程和质量评估的标准化。这些数据可以提高翻译自动化。

TAUS开发了API,通过自己的翻译平台和工具,会员可以访问DQF、质量仪表板和TAUS数据市场等服务。大多数主要的翻译技术都内置了TAUS指标和数据。


参考资料

相关文章