语音识别技术突飞猛进

标签：技术 | 发表时间：2011-09-20 10:00 | 作者：微软亚洲研究院 L

出处：http://blog.sina.com.cn/msra

本文是由文章Speech Recognition Leaps Forward翻译而成

作者：Janie Chang

2011年国际语音通讯协会第12次年会（Interspeech 2011）于8月28日至31日在意大利佛罗伦萨举行。来自微软研究院的研究人员在会上发表了他们的研究成果，这些成果极大地提升了非特定人实时语音识别系统的潜力。

来自微软雷德蒙研究院的研究员俞栋博士以及来自微软亚洲研究院的高级研究员兼研究经理Frank Seide是这项研究的带头人，两支团队精诚合作，在基于人工神经网络的大词汇量语音识别研究中取得了重大突破。

语音识别研究的终极目标

语音-文本转换（voice-to-text）软件和自动电话服务等应用背后的关键技术是语音识别。在这些应用中语音识别准确率是至关重要的，而为了做到这一点，语音-文本转换软件通常要求用户在安装过程中对软件进行“训练”，软件本身也要随着时间的推移慢慢适应用户的语音模式。需要与多个说话者互动的自动语音服务则不允许存在使用者对软件进行训练的环节，因为它们必须能够在第一时间为任何用户服务。为了解决识别准确率较低的问题，这些系统要么只能处理很小的词汇量，要么严格限制用户可以使用的字句或模式。

自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务，这个系统不需要用户训练就可以针对所有用户和各种条件，良好地发挥功用。

“这个目标在移动互联网时代显得尤为重要，” 俞栋博士表示：“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备，但用户只有在初始体验，也就是在针对该用户的模型建立之前的体验非常良好时，才会继续使用语音功能。”

非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要，例如在呼叫中心，来电者身份是未知的，而且通话时间只有几秒钟；又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音（speech-to-speech）”翻译的网络服务中留存语音样本。

重燃对神经网络的兴趣

自20世纪50年代以来，人工神经网络（ANNs），也就是人类大脑低级回路的数学模型，就已经为人们所熟知。利用人工神经网络改善语音识别性能的想法早在20世纪80年代就已出现，而且一项名为人工神经网络-隐马尔可夫混合模型（ANN - HMM）的技术显示了其在大词汇量语音识别中的潜力。那么，为什么商用语音识别系统反而不采纳人工神经网络技术呢？

“这一切都归结于性能，” 俞栋博士解释道：“在针对传统的上下文相关的高斯混合模型-隐马尔可夫模型（CD-GMM-HMMs）区分性训练算法发明后，高斯混合模型-隐马尔可夫模型的精度得到了提升，并在大词汇量语音识别方面的表现超过了人工神经网络模型。”

俞栋博士以及微软雷德蒙研究院语音组的成员们对人工神经网络模型重新燃起兴趣，是因为最近在训练更加复杂的深层神经网络（DNNs）方面取得了新的进展，这些进展使得基于人工神经网络的自动语音识别系统具有超越现有技术水平的潜力。2010年6月，多伦多大学实习生George Dahl加入研究团队，研究人员开始探讨如何利用深层神经网络改善大词汇量语音识别。

“George带来了对深层神经网络工作原理的深刻见解，” 俞栋博士说：“而且他在深层神经网络训练方面有着丰富的经验，而深层神经网络正是我们所要创建系统的关键组成部分之一。”

语音识别系统在本质上就是对语音组成单元进行建模。英语中表达发音方式的大约30个音素就是这样的组成单元。最先进的语音识别系统使用更短的称为senone的单元，总数达到几千或上万个。

之前的基于深层神经网络的语音识别系统就是对音素进行建模。俞栋博士的研究实现了一次飞跃，当他与语音组首席研究员邓力博士和首席研究员兼研究经理Alex Acero博士讨论之后，提出使用深层神经网络对数以千计的senones（一种比音素小很多的建模单元）直接建模。由此产生的论文《基于预训练的上下文相关深层神经网络的大词汇语音识别》（Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition）（由George Dahl、俞栋、邓力和Alex Acero合著）描述了第一个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型（CD-DNN-HMM）。

“也有人尝试过上下文相关的人工神经网络模型，” 俞栋博士指出：“但他们使用的架构效果不佳。在我们发现所用的新方法使语音搜索的准确率大大提高地那一刻，我们非常激动。我们意识到，通过使用深层神经网络对senones直接建模，我们可以比最先进的常规CD-GMM-HMM大词汇量语音识别系统相对误差率减少16％以上。考虑到语音识别作为一个活跃的研究领域已经存在了50多年，这样的进展确实具有非常重要的意义。”

为了加速实验，研究小组还使用了通用图形处理器来进行语音模型训练和解码。神经网络的计算在结构上类似于电脑游戏中使用的3-D图形，而现代的图形卡可以同时处理近500个这样的计算。在神经网络中运用这种计算能力大大提升了建模可行性。

2010年10月，俞栋博士在微软亚洲研究院的一次内部研讨中介绍了这篇论文，他提到在此基础上开发性能更强的大词汇量语音识别声学模型面临以下挑战：实现并行训练和使训练扩展到更大的训练集。Seide被这项研究深深触动，他随即加入该项目，并为团队带来了大词汇量语音识别、系统开发和基准测试等方面的经验。

神经网络基准测试

“我们通常认为数百上千的senones数量太大而无法用神经网络准确地建模和训练，”Seide说：“然而，俞栋和他的同事们证明，这样做不仅是可行的，而且还能显著提高准确率。现在，我们要证明的是这套CD-DNN-HMM模型可以有效使用更多的训练数据。”

在新项目中，CD-DNN-HMM模型被用于语音-文本转换，并在研究界公认的极具挑战性的电话语音识别标准数据集Switchboard上进行评测。

首先，研究团队对深层神经网络训练工具进行了改写，以支持更大的训练数据集。然后，在微软亚洲研究院软件开发工程师李刚的帮助下，他们将新的模型和工具在含有300小时语音训练数据的Switchboard标准数据集上进行评测。为了支持如此大量的数据，研究人员建立了一些巨大的神经网络模型，其中一个包含了6,600多万神经间连结，这是语音识别研究史上最大的同类模型。

随后的基准测试取得了令人惊讶的低字词错误率——18.5％，与最先进的常规系统相比，相对错误率减少了33％。

“我们开始运行Switchboard基准测试时，”Seide回忆说：“我们只期望实现类似语音搜索任务中所观察到的结果，也就是16-20％的相对改善。整个训练过程大约花费了20天的计算时间，而且每隔几个小时就产生一个稍稍改良的新模型。每隔几个小时，我都会迫不及待地测试最新模型。你无法想象，当相对改善超出预期的20％时，我们有多兴奋，而且模型仍在不断改善，最后定格在30％以上。过去，只有极少数的单项技术能在语音识别方面实现如此幅度的改善。”

由此产生的论文题为《使用上下文相关深层神经网络进行交谈语音转写》（Conversational Speech Transcription Using Context-Dependent Deep Neural Networks）（由Frank Seide、李刚和俞栋合著），已经于8月29日发表。这项工作已经引起了科研界的高度重视，而研究团队希望通过在会议上发表这篇论文进一步启迪这条新的研究路径，并最终将基于深层神经网络的大词汇量语音识别推到一个新的高度。

离未来更近了一步

这种基于人工神经网络的非特定人语音识别新方法所实现的识别准确率比常规系统高出了三分之一以上，俞栋、Seide和他们的团队向着流畅的“语音-语音交互”这一目标又迈进了一大步。这项创新简化了大词汇量语音识别中的语音处理，能实时识别并取得较高的准确率。

“这项工作仍处于研究阶段，还会面临很多挑战，其中最严峻的挑战在于扩展到使用数万小时训练数据。我们的研究成果只是一个开始，这一领域将来还会有更多令人振奋的进展。”Seide说：“我们的目标是实现以前没法实现的新的基于语音的流畅服务。我们相信，这项研究最终将改变我们的工作和生活。想象一下吧：用语音-语音实时翻译进行自然流畅的交谈，用语音进行检索，或者用交谈式自然语言进行人机互动。”

（注：本文所有图片均来自网络）

相关阅读

电脑为你而工作——同声传译电话

让脸部动画更逼真——计算机图形学带来新机遇

虚拟屏幕：云-移动融合的第三要素

下一代互联网搜索的前沿：意图、知识与云

___________________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页：http://page.renren.com/600674137

微软亚洲研究院微博：http://t.sina.com.cn/msra