「音频转写」微软在语音识别方面的飞跃推动整个语言领域

2026-02-28 浏览：194 次作者：admin

本周，语言技术爱好者值得庆祝。微软宣布其对话式语音识别技术实际上超过了专业人工抄写员的平价。错误率为5.1%，比去年的实测值降低了12%，创造了新的行业标准，有望成为丰富微软商业服务(包括翻译领域的商业服务)的福音。

微软语音与对话研究组首席语音科学家黄表示，这个成功案例的一个亮点是微软认知工具包2.1。这个工具在开源许可下免费发布在Github上，用于处理大量数据集。在这种情况下，它已经被训练处理Switchboard，这是一个美国英语的260小时录音电话对话的数据集。它们创建于1990年和1991年。德州仪器集合，从那以后，它们被用于语音识别领域的各种行业和学术项目。

微软的许多产品都受益于其研究团队的工作。其中，Presentation Tran翻译7月刚刚上线。公司。由微软翻译语言学家翻译公司PowerPoint插件支持实时功能，演示文稿跨语言翻译。公司将现场演示文稿从十种语言(尤其是阿拉伯语、中文(普通话)、英语、法语、德语、意大利语、日语、葡萄牙语、俄语和西班牙语)翻译成60种支持的文本语言，并作为幻灯片字幕输出。此外，对于英文和中文用户，演示文稿翻译语言学家翻译。公司允许用户定制他们的语音输入，以处理他们的行业专用术语和术语。据微软称，准确率提高了30%。

正如黄在他关于该团队成就的博客文章中指出的那样，这种对话语音识别准确性的提高带来了一些警告。带口音的口音，多语言和多方对话，甚至嘈杂的背景环境都在不断挑战这项技术。此外，正如机器翻译用户可以轻松证明的那样，并非所有语言都支持世界上最常用的语言。

然而，这一成功以及语音识别领域的其他成功对翻译和本地化客户意味着什么？包括微软、苹果和谷歌在内的全球参与者正在结合人工智能、深度学习技术和机器翻译引擎，为全球商业客户提供多语言产品和服务的无缝交付以及随之而来的多语言营销。

甚至终端消费者也从中受益，因为这些语音识别系统推动了智能虚拟助理(IVAs)，如微软的Cortana(用于Windows 10)、苹果的Siri和亚马逊的Alexa，正在进入越来越多的家庭。

事实上，就在上周，亚马逊宣布推出Alexa语音服务设备SDK，向外部开发者开放Alexa。最近，Mozilla宣布了一个名为Common Voice的项目，该项目正在寻求志愿者为开源语音识别系统做出贡献，作为一种非专有的替代方案。根据研究公司根据全球市场洞察，到2026年，多语言和全球IVA市场将达到75亿美元以上(如预期)，语音识别技术的发展和全球移动技术市场的增长(并不奇怪)。

无论是为私营部门或公共部门开发，还是在我们的工作场所或汽车上使用，语音识别技术的进步都将改变我们的全球多语言市场。感谢微软研究团队的贡献。