科大讯飞江涛:2013 年上半年语音技术得到普及

标签: 人物 内容 观点 App Store Siri | 发表时间:2012-07-04 22:09 | 作者:黄龙中
出处:http://www.ifanr.com

在今天上午一场关于“讯飞语点”的沟通会上,科大讯飞副总裁 江涛谈到自己对手机语音交互技术的展望:

我相信,随着今年 9、10 月份下一代 iPhone 正式发布,Google 开始推动语音云技术;加上百度、腾讯等互联网厂商推出相关产品,用户教育过程会很快。到明年上半年,最迟明年年中,哪个手机没有语音交互的功能,就会很奇怪了。语音交互将由激励因素变为 保健因素。现在一个手机有语音技术,大家会觉得很有趣;到那时如果没有语音,会说这个手机怎么这么落后。

讯飞语点

科大讯飞对于这一趋势的把握,是推出被称为“中文版 Siri”的“讯飞语点”应用。今年 3 月 22 日语音开发者大会上,科大讯飞 CEO 刘庆峰以“ One more thing…”的方式发布了讯飞语点。当时现场演示的效果很不错,识别率和智能性都达到了比较高的水平,只是由于网络状况出现几次错误,引来现场笑声。

在沟通会上,江涛介绍说 3 月发布会之后产品团队对网络要求作了改进,“我们马上要发布的新版讯飞语点一次请求最低只耗费 7.3 KB 的流量,3G/Wi-Fi 网络也只是 20 多 KB——讯飞语点会自动根据网络环境来实现语音云,但即使 2G 网络下,准确性影响不大,只比 3G/Wi-Fi 环境低 3‰”。江涛说 Siri 的一次请求是 60-70 KB 流量。除此之外,讯飞语点打电话、发短信功能可以在离线情况下使用,而 Siri 全部功能需要联网。

“美国法律规定通过云计算的语音不能传出美国,目前在中国用 Siri 语音是传回美国的”,江涛还说到“国家安全”这个因素,“每个人用多(语音交互)之后生物特征是可以被辨别的,可以通过移动终端定位什么人在什么地方,甚至干什么,这是很大的危险”。江涛说讯飞语点采用的是“语音特征压缩技术”,不是把声音传到云端,而是对语音特征进行(可被识别的)编码,这既可以保证安全性,又可以降低讯飞的数据量。

讯飞语点推出至今,“在基本没做宣传的情况下”,目前已经有超过 100 万的用户。这些用户全部来自 Android 阵营——iPhone 版讯飞语点在 6 月 21 日上传到 App Store,目前还处于 审核状态。应用上传当天江涛即 在微博上说“苹果审核周期一般是 7-10 天”,相当于将了 App Store 审核部门一军,等待其在期限内审核完毕。其后“讯飞语点”微博账号也发了多条倒计时微博,不过“等待审核”了 14 天,今天中午才等来“In Review”(此前为 Waiting For Review),这一速度显然超出正常审核周期。

布局 iOS,“等待审核”

江涛对于这一状况非常着急,在今天的媒体沟通会上多次提到“不能因为讯飞做得比 Siri 好就不让通过吧”。当我问到如果 App Store 最终无法通过,讯飞语点会不会与 Android 捆绑,直接与 Siri 进行竞争时,江涛回答说“不想站队,想做一个开放的平台”。他说讯飞语点会支持全平台,将来也会做 Windows Phone 产品。

事实上,江涛对于越狱也持保留态度。“随着 iOS 用户的增长,小白用户会越来越多,越狱的相对比例会越来越小,我们不会囿于越狱这个范畴。”虽然把非越狱用户等同于小白用户有失妥当(非越狱用户中不乏正版支持者,越狱用户也不乏非极客的贪图免费应用的人),但无疑如果讯飞语点最终无法“登堂入室”,对于扩展用户基数非常不利:讯飞语点将无法追随 iPhone 的扩张步伐,得到 iPhone 市场容量的相同增速——江涛说 iOS 设备的今年增长率会达到 10%,明年会达到 20%。另外,局限于越狱用户对于“上市公司”这一形象非常不利。

不过,把“越狱”作为一种手段,借越狱用户的呼声来施压 App Store 无疑是高明的决策。7 月 3 日,江涛在微博上说,“讯飞语点 iPhone 版 28 号傍晚推出后,在未做任何宣传情况下,三天内激活量即突破 10 万”,他把这个情况称为“群众的呼声”。当然,在 这条微博中,江涛刚柔并济:“iPhone 有最好的手机硬件,‘好马配好鞍’,希望苹果能够尽快让更多iPhone用户用上便捷的语音交互”。

在今天沟通会伊始,讯飞特意制作了一段 Siri 与讯飞语点正面 PK 的视频,视频中无论是打开网站、查询地图,还是拨打电话、添加联系人,中文 Siri 都“弱爆了”。从这一点来看,讯飞语点称得上“好马”。

硬件厂商合作计划

江涛在沟通会上还提到讯飞语点与硬件厂商的合作情况。目前金立手机已经预置了讯飞语点,其他厂商方面,他说时间表“不方便透露”,只是说下半年“很多厂商都会有类似的东西出来”。

所谓“类似的东西”,是指各大厂商的定制化产品。江涛说“今年下半年,各大手机厂商会把语音技术作为差别化的卖点来推”。但由于“定制”比“预置”的周期要长,金立沿着它自己的“语音王”路子走下来,就成了使用讯飞语点的第一家手机厂商。

讯飞与电视厂商的合作也在推进。今年 5 月,康佳发布所谓“同步云电视”,就采用了讯飞的技术,实现语音控制、语音识别、语音搜索、语音输入等功能。与汽车厂商方面,讯飞去年 11 月与上汽荣威 350 等车型发布“语音云驾驶系统”iVoka,驾驶者只需摁方向盘上的 M 键即可以使用讯飞的语音云(汽车内建联通 3G 网络)。不过虽然讯飞与汽车厂商的合作早于苹果,显然今年 6 月 WWDC 上 Siri 与汽车厂商合作的消息更加吸引眼球。

虽然各方合作正在推进,但江涛坦言培养用户习惯是推广语音技术过程中遇到的最大的困难。“用户要‘说出来’是有习惯培养过程的,需要手机厂商(比如苹果)、平台厂商(比如 Google)、应用厂商来培养市场”。但文章开头的那段话,说明科大讯飞对于语音技术的未来充满信心。在沟通会过程中,江涛多次表达把讯飞做成“大事业”的想法:比如对三四线城市的覆盖(原话:“中国三、四城市的老百姓可能不理解 3G、不理解微博,但是拿一个手机,打电话、发短信‘一句话’就能搞定,他一定能感到震憾,这改变了他使用手机的习惯”),比如之前提到的对越狱策略的保留态度,等等。为了把事情做大,由 B2B 转向 B2B2C,我猜测他们要扩张市场推广人员,以扩大讯飞品牌在消费者中的认知度。这个猜测得到江涛的证实:“我们正在筹划把市场推广人员搬迁到北京来,目前这个团队规模只有 8、9 个人,庆峰总(刘庆峰)对这个团队的规模没有上限的限制。”事实上,这个团队的负责人章继东也是刚刚从产品团队调派过来,他发给我的名片上印着的是“产品总监”头衔。

文章最后,我替曾经报道过的 虫洞团队提了一个问题——虫洞采用讯飞的语音识别技术,但做出的产品“虫洞语音助手”与讯飞语点存在竞争关系。我问江涛怎么看待讯飞语点与第三方同为使用讯飞技术的竞争产品的关系,是否会考虑“极端选项”关闭 API,江涛首先否定了第二个猜测,回答如下:

云交互的语音助理刚刚起步,讯飞也才过 100 万用户。将来会成几分天下的格局:一是来自手机厂商的产品,比如 Siri;二是拥有核心技术的,比如讯飞;三是在自然语言理解和人机交互方面有独特优势的,比如虫洞。虫洞的交互做得还是很好的。它原来有积累,人机问答的积累。如果在这些环节中(语音技术分为语音识别、语义理解、语音合成三个环节),你都没有独特价值,将来可能很难生存;要是一个环节有独特价值,可能你就能够(生存下来);如果多几个环节有独特价值,这样的权重就会比较大。虫洞我们还是比较支持他的……总的来说我们是很 Open 的,希望更多的人来关注语音,用语音做出东西,培养和教育市场。

热爱设备,对数据敏感,崇尚新闻专业主义。致力于iSeed访谈。

相关 [科大 江涛 语音] 推荐:

科大讯飞江涛:2013 年上半年语音技术得到普及

- - 爱范儿 · Beats of Bits
在今天上午一场关于“讯飞语点”的沟通会上,科大讯飞副总裁 江涛谈到自己对手机语音交互技术的展望:. 我相信,随着今年 9、10 月份下一代 iPhone 正式发布,Google 开始推动语音云技术;加上百度、腾讯等互联网厂商推出相关产品,用户教育过程会很快. 到明年上半年,最迟明年年中,哪个手机没有语音交互的功能,就会很奇怪了.

讲真,科大讯飞的语音与人工智能业务怎样才能真正变现?

- - IT瘾-xueqiu
对于科大讯飞的教育信息化产品我没有机会和条件接触,该公司英语电教、阅卷系统和智学网相关业务非常成熟,每年都超过25%的营收增长. 其也直言市场来自各级财政GDP5%的教育信息化拨款,本质上是软件企业或者是系统集成公司,可以理解为除了学院产业外,实业营收基本来自教育信息化. 教育信息化产品的营收植根于政企采购体系之中,在10多年前,政府和企业信息化浪潮开始的时候,启动一系列的行业信息化工程,也叫金字工程.

Android实现语音识别

- - 移动开发 - ITeye博客
关注微信号:javalearns   随时随地学Java. 苹果的iphone的语音识别功能使用的是Google的技术,做为Google力推的Android自然会将其核心技术植入到Android系统里面,并结合google的云端技术将其发扬光大. 所以Google Voice Recognition在Android中的实现就变得非常轻松.

语音识别技术突飞猛进

- L - 微软亚洲研究院
本文是由文章Speech Recognition Leaps Forward翻译而成. 作者:Janie Chang. 2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行. 来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力.

[多图]QQ2011语音输入试用

- 海坡 - cnBeta.COM
2011年已经过去了一大半,腾讯的拳头产品QQ2011正式版本终于有望出炉了. 日前腾讯在其体验中心正式开放了QQ2011正式版优先体验申请,有兴趣的朋友可以前往试试看. QQ2011的语音输入在我看来是一大亮点.

语音识别技术突飞猛进

- 与非 - 增强视觉 | 计算机视觉 增强现实
本文是由文章Speech Recognition Leaps Forward翻译而成. 作者:Janie Chang. 2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行. 来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力.

三大电信商激战语音IM

- 小熊TONY - cnBeta.COM
在米聊、微信吸引人们眼球的同时,三大电信运营商已经不约而同地将触角伸到了这场语音即时通信(IM)软件的激战中. 昨天,正在进行中的2011年中国国际通信展上,中国移动相关人士称,移动新版的即时通信软件“飞聊”于今天正式对外发布,届时可在飞信官网下载. 据悉,首先发布的是针对安卓、塞班两大平台的产品,苹果iOS版将下个月推出,均为公测版.

浅析手机语音交互设计

- Elic - 所有文章 - UCD大社区
语音识别技术,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列. 语音识别技术作为输入方式,比按键输入和手势输入更为快捷,学习成本很低,对于非特定人连续语音识别系统的识别率达到98.73%,已经达到实用要求,具有广阔的应用前景,在手机端的应用有语音拨号、语音输入、语音命令、语音搜索和语音翻译等.

iPhone 4s Siri语音命令一览

- xing - cnBeta.COM
iPhone 4s发布会现场苹果演示的Siri技术相当神奇,机器可以根据人的语音自动发起各种动作并将应用和数据信息提供到屏幕上,那么Siri目前能实现多少功能,有多少命令可以被识别呢,TUAW整理了一份命令列表大家可以关注下:.

Siri语音助手移植到iPhone 4

- SUN - Solidot
西安手机 写道 "iPhone发烧友Steven Troughton-Smith正在将iPhone 4S的个人虚拟助手Siri移植到iPhone 4,不过他的移植距离公开发布还很遥远. 开发者遇到的问题是缺乏特定iPhone 4的GPU驱动,好消息是A4处理器性能足够运行Siri.