语音识别技术将开启另一扇大门?

标签: Apple/iOS 前缀分类 观点 Apple ios | 发表时间:2011-06-02 19:38 | 作者:陈一斌 Elims
出处:http://www.ifanr.com

语音识别技术拥有足够高的评价,但一直以来缺乏足够的表现。由于无法精确的识别人类语音的表达,使人们在使用语音识别技术的时候总会遇上各种各样的错误,结果就是人们无法通过语音直接打电话和写短信。不过,这一切都有可能改变,关键词又是苹果(Apple)。

苹果去年 4 月收购一家名为 Siri 的公司,该公司之前推出了一个应用,能够识别人们的语音,针对人们提出的问题进行回答。Siri 所使用的语音识别技术由在该领域浸淫已久的 Nuance  所开发的。此后,苹果与 Nuance 一直保持接触,并取得了专利授权,现在大家都知道了,苹果将在 iOS 5 整合名为 Dragon 的语音识别技术。因此,iOS 5 也许会内建语音识别接口(API)供开发者调用。

而这,有可能让苹果开启下一扇人机交互的大门。

语音识别技术已经足够成熟

Dragon 语音识别引擎是相当的成熟,在 iOS 平台上使用该引擎的 Dragon Dictionary 以极高的识别精确度,效果让人惊异。而 Android 平台上由 Nuance 推出的 FlexT9,即使售价为 5 美元都收到 1100 份评论,以及平均 4 颗星的评价。可见语音识别技术已经迈向成熟,能耐得住市场的考验。

Google 也注意到语音识别技术的潜力。之前 Google 从 Nuance 中挖来了一位创始人,在 Nuance 工作十年之久的专家。如今用于 Android 上的语音识别技术被 Slate 评价为“确实可用”。即使拐着弯问的问题也难不倒它,比如说一英里等于多少埃(计量单位 1 埃 = 1.0 × 10 -10 米)这样。

在手机越变越大,触控屏越来越流行的情况下,语音识别技术让人能够用一只手来操作手机,提供了方便。至少,有短信来的时候不必痛苦的按虚拟键盘,只需要动动嘴巴就行了。

苹果知道如何让用户接受新的操控方式

尽管语音识别技术已经足够成熟,但未必就能让如今的手机更加易用。因为新的操作方式等于改变用户过往的习惯,这等于用户过往的经验全不管用。假如手机提供了语音识别功能,但用户都不去用的话,这项技术即使再革新也没有意义。

因此 Nuance 引导 FlexT9 的用户到一系列的视频教程去,让用户明白如何操作。作为反例,Slate 指出 Android 的语音识别技术不够人性,用户需要念出“逗号”、“句号”才能输入标点符号。

而苹果能够让消费者轻易地接受新的科技:第一个 iPhone 广告其实是一个教程,消费者从广告中就学会如何利用 iPhone 上网、收发邮件以及搜索附近的商店。最终,消费者接受了触摸操控,也成就了 iPhone 的辉煌。

如今,语音识别技术也是一种新的操控方式,而苹果是去做推广的厂商。至少苹果不会只通过枯燥的视频教程来让用户学会如何用语音来操控手机。

苹果是用户体验大师

一个产品有成熟的技术,和成功的推广,也未必能够留住用户的心。

在 iPhone 之前已经有很多款使用触控屏的手机出现了,但是苹果的长处就是让科技变得简单易用,贴合人性。这使 iPhone 完成了手机的设计上的革命。现在人们已经忘却了实体键盘,忘却了轨迹球,取而代之的是一整块触控屏。

通过深度整合语音识别技术,相信苹果还能让变革再一次发生,至少可以让人们对着手机说几句话就能发一条短信或浏览网页。而对于开发者来说,语音识别技术无疑开启另一扇大门,让他们的应用设计更具有想象力。

我们仍然无法得知苹果和 Nuance 合作的具体内容,但我们有理由相信苹果能够成功的把语音识别技术带入移动领域。

Via GigaOM


© 陈一斌 for 爱范儿: 拇指资讯小众讨论, 2011. | Permalink | 23 comments | Add to del.icio.us
Post tags: , ,

相关 [语音识别 技术 大门] 推荐:

语音识别技术将开启另一扇大门?

- Elims - 爱范儿 · Beats of Bits
语音识别技术拥有足够高的评价,但一直以来缺乏足够的表现. 由于无法精确的识别人类语音的表达,使人们在使用语音识别技术的时候总会遇上各种各样的错误,结果就是人们无法通过语音直接打电话和写短信. 不过,这一切都有可能改变,关键词又是苹果(Apple). 苹果去年 4 月收购一家名为 Siri 的公司,该公司之前推出了一个应用,能够识别人们的语音,针对人们提出的问题进行回答.

语音识别技术突飞猛进

- L - 微软亚洲研究院
本文是由文章Speech Recognition Leaps Forward翻译而成. 作者:Janie Chang. 2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行. 来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力.

微软对话语音识别技术达至人类专业水平,开启人工智能新征程

- - 微软亚洲研究院
一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER) 低至6.3%的突破 ,创造当时该领域内错误率最低纪录. 一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现:上周末,微软人工智能与研究部门的研究员和工程师在论文中展示了他们这一创纪录的语音识别系统.

Android实现语音识别

- - 移动开发 - ITeye博客
关注微信号:javalearns   随时随地学Java. 苹果的iphone的语音识别功能使用的是Google的技术,做为Google力推的Android自然会将其核心技术植入到Android系统里面,并结合google的云端技术将其发扬光大. 所以Google Voice Recognition在Android中的实现就变得非常轻松.

Android 调用谷歌语音识别

- - CSDN博客移动开发推荐文章
調用谷歌语音识别其实很简单,直接利用 intent 跳转到手机里面的谷歌搜索. 代码也很简单,直接调用方法 startVoiceRecognitionActivity(). 如果大家手机里面没有谷歌搜索,这里会弹出一个下载框给我们选择下载. 识别完成后,得到result List数组,里面有很多识别结果,我们获取第一个就可以了.

Vlingo开放Android语音识别软件 (7 留言)

- Leo - Engadget 中国版
引用来源 | 此文章网址 | 转寄此文章 | 回应.

苹果和 Nuance:语音识别尘埃再起。

- Leo - 爱范儿 · Beats of Bits
去年的十一月,曾经有消息说苹果收购了一家语音识别技术公司 Nuance. 但后来发布该消息的人出来更正说那只是一个误传. 同时,很多人认为发布该消息的人是把 Nuance 和另外一家公司 Siri 弄混淆了,而后者,正是苹果于去年 4 月收购的. 但是,不管去年十一月的消息是不是真的误传,但现在看起来,这件事情并没有真的尘埃落定.

TalkTyper:简单方便的Web端语音识别工具

- - TechWeb 新酷网站 RSS阅读
  随着语音识别技术日趋成熟. 语音输入功能在移动应用端并不陌生,除了苹果的Siri还有 Dragon Dictation、 SayHi、Iris、Evi 等. 事实证明,语音识别的速度比使用键盘输入文字快上五倍以上. 大大提高了录入效率,准确率也很高.   今天酷站就给大家推荐一个完全免费的网页版语音识别工具TalkTyper.

Facebook 开源首个全卷积语音识别工具包 wav2letter++

- - 雷锋网
雷锋网 AI 科技评论按:近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++. 系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多. 他们在博客中对此次开源进行了详细介绍. 由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术.