Mozilla使用开源的通用语音识别数据集进行多语言操作。
Mozilla宣布,它正在扩大其众包公共语音项目——旨在创建开源语音识别数据集的倡议——以包括更多的语言。
该技术组织于去年6月首次发布了Common Voice,邀请世界各地的志愿者通过互联网和移动应用程序用他们的声音录制文本片段。
上图:录下你的声音。
该项目与亚马逊、谷歌、苹果和微软正在开发的越来越多的专有语音识别技术相反。上述巨头正在大力投资语音激活的数字助理Alexa、谷歌助理、Siri和Cortana,但它们各自的数据集都是由公司拥有它。
Mozilla于11月推出了第一批英语常用语音数据集,其中包括约500小时的演讲,并建立了来自2万人的40万段录音。今天,Mozilla正式开始收集其他三种语言的语音数据——法语、德语和威尔士语。目前,正在为数据收集过程准备其他40种语言,巴西葡萄牙语、中国(台湾省)、印度尼西亚、波兰和荷兰等国家已准备好开始众包语音数据。
下一个大平台多年以后,语音将成为下一个重要的技术平台。就在昨天,亚马逊正式推出了新的摄像头注入,Alexa供电的Echo Look智能音箱,告诉你穿什么样的衣服。我们仍处于这场运动的早期阶段,但显然声音只会越来越普遍。
正是在这种背景下,Mozilla正在推进创建开源数据集的计划,任何人都可以免费使用这些数据集来将语音识别智能构建到各种应用程序和服务中。
Mozilla首席创新官Katharina Borchert表示:“我们认为,这些界面不应该由少数人制作。公司作为控制语音服务的守门员,我们希望用户能够继续用他们自己的语言和口音理解用户,”Mozilla首席创新官Katharina Borchert说。博客帖子。
共同声音项目的目的类似于其他用于打击私人平台的开放许可项目。OpenStreetMap是类似众包项目的一个很好的例子,它为开发者提供了一个开放、免费的世界地图,没有谷歌地图等竞争对手服务的成本或限制。
就可访问性而言,英语可能在许多方面成为互联网的通用语,但事实是大多数人以英语以外的语言作为母语。随着语音识别AI革命的兴起,任何为开发者和技术人员开发机器学习模型提供多语言数据集的东西,都只能是好东西。
Mozilla Common Voice项目的数字策略师Michael Henretty补充说:“使用多种语言标志着Common Voice迈出了重要的一步,我们希望这也是整个语音技术的一大步。”“语音技术的民主化不仅会减少全球创新的障碍,还会减少获取信息的障碍。”
