语音识别技术突飞猛进

标签: 技术 | 发表时间:2011-09-20 10:00 | 作者:微软亚洲研究院 L
出处:http://blog.sina.com.cn/msra

本文是由文章Speech Recognition Leaps Forward翻译而成

作者:Janie Chang

2011年国际语音通讯协会第12次年会(Interspeech 2011)于828日至31日在意大利佛罗伦萨举行。来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力。

 

来自微软雷德蒙研究院的研究员俞栋博士以及来自微软亚洲研究院的高级研究员兼研究经理Frank Seide是这项研究的带头人,两支团队精诚合作,在基于人工神经网络的大词汇量语音识别研究中取得了重大突破。

 

语音识别研究的终极目标

语音-文本转换(voice-to-text)软件和自动电话服务等应用背后的关键技术是语音识别。在这些应用中语音识别准确率是至关重要的,而为了做到这一点,语音-文本转换软件通常要求用户在安装过程中对软件进行“训练”,软件本身也要随着时间的推移慢慢适应用户的语音模式。需要与多个说话者互动的自动语音服务则不允许存在使用者对软件进行训练的环节,因为它们必须能够在第一时间为任何用户服务。为了解决识别准确率较低的问题,这些系统要么只能处理很小的词汇量,要么严格限制用户可以使用的字句或模式。

 

自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务,这个系统不需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。

 

“这个目标在移动互联网时代显得尤为重要,” 俞栋博士表示:“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备,但用户只有在初始体验,也就是在针对该用户的模型建立之前的体验非常良好时,才会继续使用语音功能。”

 

非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要,例如在呼叫中心,来电者身份是未知的,而且通话时间只有几秒钟;又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音(speech-to-speech)”翻译的网络服务中留存语音样本。

 

重燃对神经网络的兴趣

20世纪50年代以来,人工神经网络(ANNs),也就是人类大脑低级回路的数学模型,就已经为人们所熟知。利用人工神经网络改善语音识别性能的想法早在20世纪80年代就已出现,而且一项名为人工神经网络-隐马尔可夫混合模型(ANN - HMM)的技术显示了其在大词汇量语音识别中的潜力。那么,为什么商用语音识别系统反而不采纳人工神经网络技术呢?

 

“这一切都归结于性能,” 俞栋博士解释道:“在针对传统的上下文相关的高斯混合模型-隐马尔可夫模型(CD-GMM-HMMs)区分性训练算法发明后,高斯混合模型-隐马尔可夫模型的精度得到了提升,并在大词汇量语音识别方面的表现超过了人工神经网络模型。”

 

俞栋博士以及微软雷德蒙研究院语音组的成员们对人工神经网络模型重新燃起兴趣,是因为最近在训练更加复杂的深层神经网络(DNNs)方面取得了新的进展,这些进展使得基于人工神经网络的自动语音识别系统具有超越现有技术水平的潜力。20106月,多伦多大学实习生George Dahl加入研究团队,研究人员开始探讨如何利用深层神经网络改善大词汇量语音识别。

 

George带来了对深层神经网络工作原理的深刻见解,” 俞栋博士说:“而且他在深层神经网络训练方面有着丰富的经验,而深层神经网络正是我们所要创建系统的关键组成部分之一。”

 

语音识别系统在本质上就是对语音组成单元进行建模。英语中表达发音方式的大约30个音素就是这样的组成单元。最先进的语音识别系统使用更短的称为senone的单元,总数达到几千或上万个。

 

之前的基于深层神经网络的语音识别系统就是对音素进行建模。俞栋博士的研究实现了一次飞跃,当他与语音组首席研究员邓力博士和首席研究员兼研究经理Alex Acero博士讨论之后,提出使用深层神经网络对数以千计的senones(一种比音素小很多的建模单元)直接建模。由此产生的论文《基于预训练的上下文相关深层神经网络的大词汇语音识别》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)(由George Dahl、俞栋、邓力和Alex Acero合著)描述了第一个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型(CD-DNN-HMM)。

 

“也有人尝试过上下文相关的人工神经网络模型,” 俞栋博士指出:“但他们使用的架构效果不佳。在我们发现所用的新方法使语音搜索的准确率大大提高地那一刻,我们非常激动。我们意识到,通过使用深层神经网络对senones直接建模,我们可以比最先进的常规CD-GMM-HMM大词汇量语音识别系统相对误差率减少16%以上。考虑到语音识别作为一个活跃的研究领域已经存在了50多年,这样的进展确实具有非常重要的意义。”

 

为了加速实验,研究小组还使用了通用图形处理器来进行语音模型训练和解码。神经网络的计算在结构上类似于电脑游戏中使用的3-D图形,而现代的图形卡可以同时处理近500个这样的计算。在神经网络中运用这种计算能力大大提升了建模可行性。

 

201010月,俞栋博士在微软亚洲研究院的一次内部研讨中介绍了这篇论文,他提到在此基础上开发性能更强的大词汇量语音识别声学模型面临以下挑战:实现并行训练和使训练扩展到更大的训练集。Seide被这项研究深深触动,他随即加入该项目,并为团队带来了大词汇量语音识别、系统开发和基准测试等方面的经验。

 

神经网络基准测试

“我们通常认为数百上千的senones数量太大而无法用神经网络准确地建模和训练,”Seide说:“然而,俞栋和他的同事们证明,这样做不仅是可行的,而且还能显著提高准确率。现在,我们要证明的是这套CD-DNN-HMM模型可以有效使用更多的训练数据。”

 

在新项目中,CD-DNN-HMM模型被用于语音-文本转换,并在研究界公认的极具挑战性的电话语音识别标准数据集Switchboard上进行评测。

 

首先,研究团队对深层神经网络训练工具进行了改写,以支持更大的训练数据集。然后,在微软亚洲研究院软件开发工程师李刚的帮助下,他们将新的模型和工具在含有300小时语音训练数据的Switchboard标准数据集上进行评测。为了支持如此大量的数据,研究人员建立了一些巨大的神经网络模型,其中一个包含了6,600多万神经间连结,这是语音识别研究史上最大的同类模型。

 

随后的基准测试取得了令人惊讶的低字词错误率——18.5%,与最先进的常规系统相比,相对错误率减少了33%

 
“我们开始运行Switchboard基准测试时,”Seide回忆说:“我们只期望实现类似语音搜索任务中所观察到的结果,也就是16-20%的相对改善。整个训练过程大约花费了20天的计算时间,而且每隔几个小时就产生一个稍稍改良的新模型。每隔几个小时,我都会迫不及待地测试最新模型。你无法想象,当相对改善超出预期的20%时,我们有多兴奋,而且模型仍在不断改善,最后定格在30%以上。过去,只有极少数的单项技术能在语音识别方面实现如此幅度的改善。”

 

由此产生的论文题为《使用上下文相关深层神经网络进行交谈语音转写》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李刚和俞栋合著),已经于829日发表。这项工作已经引起了科研界的高度重视,而研究团队希望通过在会议上发表这篇论文进一步启迪这条新的研究路径,并最终将基于深层神经网络的大词汇量语音识别推到一个新的高度。

 

离未来更近了一步

这种基于人工神经网络的非特定人语音识别新方法所实现的识别准确率比常规系统高出了三分之一以上,俞栋、Seide和他们的团队向着流畅的“语音-语音交互”这一目标又迈进了一大步。这项创新简化了大词汇量语音识别中的语音处理,能实时识别并取得较高的准确率。

 

“这项工作仍处于研究阶段,还会面临很多挑战,其中最严峻的挑战在于扩展到使用数万小时训练数据。我们的研究成果只是一个开始,这一领域将来还会有更多令人振奋的进展。”Seide说:“我们的目标是实现以前没法实现的新的基于语音的流畅服务。我们相信,这项研究最终将改变我们的工作和生活。想象一下吧:用语音-语音实时翻译进行自然流畅的交谈,用语音进行检索,或者用交谈式自然语言进行人机互动。”

(注:本文所有图片均来自网络)

 

相关阅读

电脑为你而工作——同声传译电话

让脸部动画更逼真——计算机图形学带来新机遇

虚拟屏幕:云-移动融合的第三要素

下一代互联网搜索的前沿:意图、知识与云

___________________________________________________________________________________

欢迎关注

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博:http://t.sina.com.cn/msra

相关 [语音识别 技术] 推荐:

语音识别技术突飞猛进

- L - 微软亚洲研究院
本文是由文章Speech Recognition Leaps Forward翻译而成. 作者:Janie Chang. 2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行. 来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力.

语音识别技术将开启另一扇大门?

- Elims - 爱范儿 · Beats of Bits
语音识别技术拥有足够高的评价,但一直以来缺乏足够的表现. 由于无法精确的识别人类语音的表达,使人们在使用语音识别技术的时候总会遇上各种各样的错误,结果就是人们无法通过语音直接打电话和写短信. 不过,这一切都有可能改变,关键词又是苹果(Apple). 苹果去年 4 月收购一家名为 Siri 的公司,该公司之前推出了一个应用,能够识别人们的语音,针对人们提出的问题进行回答.

微软对话语音识别技术达至人类专业水平,开启人工智能新征程

- - 微软亚洲研究院
一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER) 低至6.3%的突破 ,创造当时该领域内错误率最低纪录. 一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现:上周末,微软人工智能与研究部门的研究员和工程师在论文中展示了他们这一创纪录的语音识别系统.

Android实现语音识别

- - 移动开发 - ITeye博客
关注微信号:javalearns   随时随地学Java. 苹果的iphone的语音识别功能使用的是Google的技术,做为Google力推的Android自然会将其核心技术植入到Android系统里面,并结合google的云端技术将其发扬光大. 所以Google Voice Recognition在Android中的实现就变得非常轻松.

Android 调用谷歌语音识别

- - CSDN博客移动开发推荐文章
調用谷歌语音识别其实很简单,直接利用 intent 跳转到手机里面的谷歌搜索. 代码也很简单,直接调用方法 startVoiceRecognitionActivity(). 如果大家手机里面没有谷歌搜索,这里会弹出一个下载框给我们选择下载. 识别完成后,得到result List数组,里面有很多识别结果,我们获取第一个就可以了.

Vlingo开放Android语音识别软件 (7 留言)

- Leo - Engadget 中国版
引用来源 | 此文章网址 | 转寄此文章 | 回应.

苹果和 Nuance:语音识别尘埃再起。

- Leo - 爱范儿 · Beats of Bits
去年的十一月,曾经有消息说苹果收购了一家语音识别技术公司 Nuance. 但后来发布该消息的人出来更正说那只是一个误传. 同时,很多人认为发布该消息的人是把 Nuance 和另外一家公司 Siri 弄混淆了,而后者,正是苹果于去年 4 月收购的. 但是,不管去年十一月的消息是不是真的误传,但现在看起来,这件事情并没有真的尘埃落定.

TalkTyper:简单方便的Web端语音识别工具

- - TechWeb 新酷网站 RSS阅读
  随着语音识别技术日趋成熟. 语音输入功能在移动应用端并不陌生,除了苹果的Siri还有 Dragon Dictation、 SayHi、Iris、Evi 等. 事实证明,语音识别的速度比使用键盘输入文字快上五倍以上. 大大提高了录入效率,准确率也很高.   今天酷站就给大家推荐一个完全免费的网页版语音识别工具TalkTyper.

Facebook 开源首个全卷积语音识别工具包 wav2letter++

- - 雷锋网
雷锋网 AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++. 系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多. 他们在博客中对此次开源进行了详细介绍. 由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术.