科大讯飞江涛:2013 年上半年语音技术得到普及
在今天上午一场关于“讯飞语点”的沟通会上,科大讯飞副总裁 江涛谈到自己对手机语音交互技术的展望:
我相信,随着今年 9、10 月份下一代 iPhone 正式发布,Google 开始推动语音云技术;加上百度、腾讯等互联网厂商推出相关产品,用户教育过程会很快。到明年上半年,最迟明年年中,哪个手机没有语音交互的功能,就会很奇怪了。语音交互将由激励因素变为 保健因素。现在一个手机有语音技术,大家会觉得很有趣;到那时如果没有语音,会说这个手机怎么这么落后。
讯飞语点
科大讯飞对于这一趋势的把握,是推出被称为“中文版 Siri”的“讯飞语点”应用。今年 3 月 22 日语音开发者大会上,科大讯飞 CEO 刘庆峰以“ One more thing…”的方式发布了讯飞语点。当时现场演示的效果很不错,识别率和智能性都达到了比较高的水平,只是由于网络状况出现几次错误,引来现场笑声。
在沟通会上,江涛介绍说 3 月发布会之后产品团队对网络要求作了改进,“我们马上要发布的新版讯飞语点一次请求最低只耗费 7.3 KB 的流量,3G/Wi-Fi 网络也只是 20 多 KB——讯飞语点会自动根据网络环境来实现语音云,但即使 2G 网络下,准确性影响不大,只比 3G/Wi-Fi 环境低 3‰”。江涛说 Siri 的一次请求是 60-70 KB 流量。除此之外,讯飞语点打电话、发短信功能可以在离线情况下使用,而 Siri 全部功能需要联网。
“美国法律规定通过云计算的语音不能传出美国,目前在中国用 Siri 语音是传回美国的”,江涛还说到“国家安全”这个因素,“每个人用多(语音交互)之后生物特征是可以被辨别的,可以通过移动终端定位什么人在什么地方,甚至干什么,这是很大的危险”。江涛说讯飞语点采用的是“语音特征压缩技术”,不是把声音传到云端,而是对语音特征进行(可被识别的)编码,这既可以保证安全性,又可以降低讯飞的数据量。
讯飞语点推出至今,“在基本没做宣传的情况下”,目前已经有超过 100 万的用户。这些用户全部来自 Android 阵营——iPhone 版讯飞语点在 6 月 21 日上传到 App Store,目前还处于 审核状态。应用上传当天江涛即 在微博上说“苹果审核周期一般是 7-10 天”,相当于将了 App Store 审核部门一军,等待其在期限内审核完毕。其后“讯飞语点”微博账号也发了多条倒计时微博,不过“等待审核”了 14 天,今天中午才等来“In Review”(此前为 Waiting For Review),这一速度显然超出正常审核周期。
布局 iOS,“等待审核”
江涛对于这一状况非常着急,在今天的媒体沟通会上多次提到“不能因为讯飞做得比 Siri 好就不让通过吧”。当我问到如果 App Store 最终无法通过,讯飞语点会不会与 Android 捆绑,直接与 Siri 进行竞争时,江涛回答说“不想站队,想做一个开放的平台”。他说讯飞语点会支持全平台,将来也会做 Windows Phone 产品。
事实上,江涛对于越狱也持保留态度。“随着 iOS 用户的增长,小白用户会越来越多,越狱的相对比例会越来越小,我们不会囿于越狱这个范畴。”虽然把非越狱用户等同于小白用户有失妥当(非越狱用户中不乏正版支持者,越狱用户也不乏非极客的贪图免费应用的人),但无疑如果讯飞语点最终无法“登堂入室”,对于扩展用户基数非常不利:讯飞语点将无法追随 iPhone 的扩张步伐,得到 iPhone 市场容量的相同增速——江涛说 iOS 设备的今年增长率会达到 10%,明年会达到 20%。另外,局限于越狱用户对于“上市公司”这一形象非常不利。
不过,把“越狱”作为一种手段,借越狱用户的呼声来施压 App Store 无疑是高明的决策。7 月 3 日,江涛在微博上说,“讯飞语点 iPhone 版 28 号傍晚推出后,在未做任何宣传情况下,三天内激活量即突破 10 万”,他把这个情况称为“群众的呼声”。当然,在 这条微博中,江涛刚柔并济:“iPhone 有最好的手机硬件,‘好马配好鞍’,希望苹果能够尽快让更多iPhone用户用上便捷的语音交互”。
在今天沟通会伊始,讯飞特意制作了一段 Siri 与讯飞语点正面 PK 的视频,视频中无论是打开网站、查询地图,还是拨打电话、添加联系人,中文 Siri 都“弱爆了”。从这一点来看,讯飞语点称得上“好马”。
硬件厂商合作计划
江涛在沟通会上还提到讯飞语点与硬件厂商的合作情况。目前金立手机已经预置了讯飞语点,其他厂商方面,他说时间表“不方便透露”,只是说下半年“很多厂商都会有类似的东西出来”。
所谓“类似的东西”,是指各大厂商的定制化产品。江涛说“今年下半年,各大手机厂商会把语音技术作为差别化的卖点来推”。但由于“定制”比“预置”的周期要长,金立沿着它自己的“语音王”路子走下来,就成了使用讯飞语点的第一家手机厂商。
讯飞与电视厂商的合作也在推进。今年 5 月,康佳发布所谓“同步云电视”,就采用了讯飞的技术,实现语音控制、语音识别、语音搜索、语音输入等功能。与汽车厂商方面,讯飞去年 11 月与上汽荣威 350 等车型发布“语音云驾驶系统”iVoka,驾驶者只需摁方向盘上的 M 键即可以使用讯飞的语音云(汽车内建联通 3G 网络)。不过虽然讯飞与汽车厂商的合作早于苹果,显然今年 6 月 WWDC 上 Siri 与汽车厂商合作的消息更加吸引眼球。
虽然各方合作正在推进,但江涛坦言培养用户习惯是推广语音技术过程中遇到的最大的困难。“用户要‘说出来’是有习惯培养过程的,需要手机厂商(比如苹果)、平台厂商(比如 Google)、应用厂商来培养市场”。但文章开头的那段话,说明科大讯飞对于语音技术的未来充满信心。在沟通会过程中,江涛多次表达把讯飞做成“大事业”的想法:比如对三四线城市的覆盖(原话:“中国三、四城市的老百姓可能不理解 3G、不理解微博,但是拿一个手机,打电话、发短信‘一句话’就能搞定,他一定能感到震憾,这改变了他使用手机的习惯”),比如之前提到的对越狱策略的保留态度,等等。为了把事情做大,由 B2B 转向 B2B2C,我猜测他们要扩张市场推广人员,以扩大讯飞品牌在消费者中的认知度。这个猜测得到江涛的证实:“我们正在筹划把市场推广人员搬迁到北京来,目前这个团队规模只有 8、9 个人,庆峰总(刘庆峰)对这个团队的规模没有上限的限制。”事实上,这个团队的负责人章继东也是刚刚从产品团队调派过来,他发给我的名片上印着的是“产品总监”头衔。
文章最后,我替曾经报道过的 虫洞团队提了一个问题——虫洞采用讯飞的语音识别技术,但做出的产品“虫洞语音助手”与讯飞语点存在竞争关系。我问江涛怎么看待讯飞语点与第三方同为使用讯飞技术的竞争产品的关系,是否会考虑“极端选项”关闭 API,江涛首先否定了第二个猜测,回答如下:
云交互的语音助理刚刚起步,讯飞也才过 100 万用户。将来会成几分天下的格局:一是来自手机厂商的产品,比如 Siri;二是拥有核心技术的,比如讯飞;三是在自然语言理解和人机交互方面有独特优势的,比如虫洞。虫洞的交互做得还是很好的。它原来有积累,人机问答的积累。如果在这些环节中(语音技术分为语音识别、语义理解、语音合成三个环节),你都没有独特价值,将来可能很难生存;要是一个环节有独特价值,可能你就能够(生存下来);如果多几个环节有独特价值,这样的权重就会比较大。虫洞我们还是比较支持他的……总的来说我们是很 Open 的,希望更多的人来关注语音,用语音做出东西,培养和教育市场。