Kinect与人机交互的未来
Kinect或将成为第三次人机交互革命的原点,不仅因为其全新的操作方式,更因为其背后所蕴含的创新精神。
2010年11月初,微软家用视频游戏主机Xbox 360的体感外设Kinect正式公开销售,之后在包含圣诞假期在内的60天内,Kinect共卖出去800万台。
“在大多数商店,Kinect确实都已经卖光了。”微软亚洲硬件中心总经理胡君明在接受采访时说。他还提到一件趣事,微软亚太研发集团主席张亚勤在CES(美国消费电子展)期间,想在洛杉矶买几台Kinect,却发现到处断货,连微软自己的员工商店都卖光了。最后他回到雷德蒙,在微软总部的商店才买到。由此可见市场的火爆。
在如此短的时间内卖出800万台,这实在是一个令人咋舌的数字。如果简单对比,Kinect的销售速度是iPad的两倍;再以收入规模考量,只用了两个月的时间,它就变成了一个价值10亿美元以上的生意。
毫无疑问,Kinect已经成为微软最为耀眼的新星,也是这家软件巨人历史上在硬件外设领域最成功的产品。微软在硬件上如此吸引人眼球,还是在5年前Xbox 360游戏机发售的时候。
在全球一片暮气沉沉的家用游戏机市场,Kinect重新唤回了大众的激情——用它近乎神奇的人机交互方式。借助Kinect,普通人不需要使用任何手柄、摇杆、鼠标或者其他遥控器,即可用身体直接控制游戏。
比如要玩体育游戏,你只需要接通电源,然后站到电视机前面即可。所有对游戏角色的操控都用一种最自然的方式完成,不管是乒乓球的挥拍还是保龄球的击打,你只需要像现实中那样摆出动作即可。
又比如赛车,如何控制方向?想象你真的在开车,把双手举到空中就像握着一个方向盘,左右转动就行了。对了,你还可以在空中模拟挂挡。
与其将这称之为“体感”,不如说是“自然人机交互”。在抛开遥控器之后,人能够以身体最自然的方式与终端进行信息的交互并完成互动。Kinect有句广告语——“You are the controller”(你就是遥控器),不需要去适应游戏手柄上的摇杆和按键,普通人玩游戏的门槛被大大降低。
有许多变革是由娱乐开始,而Kinect或许正是人机交互方式变革的又一个起点。
Kinect是如何炼成的
对微软而言,Kinect的重要性表现在两个方面:它大大延长了Xbox 360游戏机的生命周期,并成功为它带来了大量新用户;它证明了微软有时候并不保守,在创新上仍然具有巨大的能量,不管是观念的前瞻性还是对新产品的执行力上。
但这样一款产品,在其研发阶段的初期却并不被人所看好。“我们最初都觉得这个项目难以成功,它涉及太多技术,包括红外线视频捕捉等,而其中一些技术并不是微软的。”微软亚洲工程院院长张宏江说,“但最后围绕产品,通过合作等形式,Kinect整合了微软内外部的种种技术,走到了最后。它不仅是一个产品的成功,也为我们从工程学的角度去思考如何做产品,提供了一个很好的例证。”
时间回到2008年夏天,以色列一家名为Prime Sense的公司来到硅谷,向许多企业展示他们革命性的3D图像识别及动作捕捉技术,这一技术能够让用户以身体替代遥控器。技术迅速引起了一票游戏、科技和消费数码公司的注意,其中就包括了刚以多点触摸的技术引领潮流的苹果公司。
据该公司首席执行官Inon Beracha回忆,“苹果实在讨厌”,虽然这一技术与苹果公司有着许多天然的共性,但苹果迅速拿出一系列法律文档和保密协议,吓退了Beracha。
与此同时,微软游戏开发部门也盯上了该技术。此时,正是任天堂Wii游戏机如日中天的时候,Wii游戏手柄新奇的人机互动方式激发微软和索尼开始寻找相关领域的机会。虽然有许多人认为“Natal”(Kinect开发代号)的想法过于激进,对其能否量产化存在疑虑,但“让用户有与Wii完全不同的体验”最终占据了上风。
在1年多的时间里,从技术概念到产品实现,中间许多设计几经改动。胡君明举了一个例子:美国设计的产品原型要求Kinect必须放两个麦克风,这样就能隔离噪音,但麦克风的角度应该怎么放才能达到最好效果?“在我们深圳的声学实验室尝试了很多次,原来是45度,再到46度,现在改成50度。这个变化并不大,但许多细节累积起来,指引我们向着最佳体验的方向走。”
真正游戏的时候,这种感觉更加明显。当玩家的虚拟形象站在大体育场上的时候,如果挥动手臂,会发现观众会与你互动;掷标枪的时候,玩家跑步的频率会决定他的速度,投掷的角度也被完全识别,并最终表现在成绩上。
革命性的技术——3D图片识别与视频捕捉,加上硬件体验的不断优化,再加上对应其特性的专属游戏开发,在游戏这一特定的应用场景对技术的强化,最终塑造了Kinect这一人机互动的革命性产品。
跳出游戏
虽然从Xbox和相关游戏出发,但Kinect生来具有强大的外延性。捕捉动作、识别成命令、在终端中执行,当它从以色列Prime Sense那帮军工工程师的实验室中走出来,在微软的推动与整合下成为普通人可以轻易获取的具体产品之后,它马上引爆了全球用户的想象力。
虽然不符合商业规范,但Kinect的破解方法迅速流传在互联网上,用户主动地去不停延展它的边界。首先,开发者或说“黑客”们想办法让它与PC连接起来,在此基础上,许多富有想象力的应用场景开始陆续出现。
有些是恶搞,比如有人将它连在了“超级马里奥”游戏上,用身体去控制马里奥顶砖头、下水管、吃蘑菇,乐趣虽然增添了很多,但要想救下公主,玩家身体要频繁运动,需要足够的体力支撑。还有一些是实用派,直接用体感来打开浏览器上网,将身体的各种运动方法变成了鼠标点击的各项命令。最近出来的一项应用,是在一个虚拟世界,让玩家能以各种动作来搭建万物,体验做上帝的乐趣。
显然,微软也看到了Kinect的外延趋势势不可当,但其路线将会符合微软的自身战略。在2011年的CES上,微软展示了Kinect基于虚拟形象的又一项应用场景——社交。因为本身自带摄像头、麦克风,Kinect能够迅速识别人脸并转化为每个人独有的虚拟形象,而新的应用场景允许多个虚拟形象聚集在一个房间之中聊天说话,所有的动作实时捕捉。这使得相隔很远的朋友们能够在一个互联网中的房间更加充分地互动,同时又具有游戏的某些乐趣。在Kinect的社交方式强化了Xbox Live之后,后者能够延伸到其他终端产品上,比如Windows Phone 7,并借助大量的新用户信息,串起这些产品。
据悉,微软的下一代操作系统Windows 8将会支持Kinect,这或许是一次里程碑式的兼容——它将标志着Kinect从游戏外设的定位中走出来,与鼠标、键盘、摄像头一起,成为新的普遍意义上的人机交互工具。
人机交互的三次革命
从世界上有计算机开始,人机交互就伴随着计算机的进化而进化。这在很大程度上是显而易见的,因为我们必须让计算机读懂我们所输入的命令,并根据命令来运算和反馈。所谓人机交互,就是人与计算机打交道的方式。
这一历史最早可追溯到1880年,美国人口调查局的赫曼·霍列瑞斯由于疲于手工处理人口普查数据,开始寻求用机器制表的方式。其成果是穿孔卡计算机的出现,而霍列瑞斯也因此被称为“数据处理之父”。现在的人很难想象,原始的人机交互就是通过“卡槽”来定位信息,然后用机器来读懂它。
一直到真正的计算机出现,都沿用着打字机时代“键盘”这一传统人机交互方式。但1983年,鼠标出现了。
鼠标的学名叫“显示系统纵横位置指示器”,其原理和用法不用赘述。与键盘中的方向键相比,它显然更加符合人的自然习惯。这是人机交互的第一次革命,鼠标也已经成为今天绝大多数电脑用户不可或缺的工具。
值得一提的是鼠标的普及路径。1983年,第一款鼠标是伴随苹果公司Lisa电脑发布的;随后不久,微软操作系统Windows 3.1宣布对其兼容,然后从Windows 95开始,鼠标伴随操作系统和电脑的普及开始变成标配产品——这与今天Kinect的路径似乎异曲同工,只不过我们还不知道微软能将操作系统与Kinect兼容到何种程度,或者是否会为Kinect开发出全新的操作界面与操作方式。
键盘与鼠标的人机交互组合,从PC时代一直延续到互联网时代,并无太大改变,直到智能手机和多点触摸的出现。
迅速普及的多点触摸技术,是人机交互史上的第二次革命,而引领它的又是苹果公司与它的革命性手机iPhone。
在iPhone问世之前,智能手机一直在沿袭键盘和鼠标的信息输入方式。键盘是必须有的,不能少于10个;鼠标太大,对位置的指示采用触摸的方式完成。
但多点触摸打开了另外一扇窗户,它让所有人意识到其实键盘可以成为触摸的一部分,而很多命令其实能通过多个手指在触摸屏上划动方式的不同来完成,比如放大和缩小图片。
这样的整合,让移动终端真正摆脱了传统PC终端的思维桎梏。多点触摸以手势来完成人机交互,更易于上手,同时也更加自然。
对有过iPad使用体验的人,感受将尤为明显。“学电脑”一度是一个名词,孩子可能需要长到七八岁才能开始学习并熟练使用键盘,但现在一个不到两岁的孩子已经能熟练地在iPad上进行娱乐,甚至据说不足3岁的孩子就可以自行从软件商店中下载游戏。
得益于新的人机交互技术,人对机器的使用门槛在进一步降低,因为计算机已经越来越能读懂人在自然状态所传递的命令。
由此看Kinect,其普适化的征程才刚刚开始。
未来照进现实
很难相信就在两个月前,微软对Kinect的期望还是“将游戏推进千家万户”。当许多新用户买Kinect不是为了游戏,而是为了体验更加未来与“科幻”的操控方式,为了体验全新的人机交互体验,所有具备敏锐洞察力的企业都不会忽视人们的这种渴望。“这对微软来说是一个惊喜,现在来看,这件事的意义远远比游戏要大。”胡君明说,“Kinect将会是一个历史性产品,这样的人机交互方式一定会用在其他产品上,一定会用在PC上。”
不难想象有了Kinect之后的电脑操控方式。键盘或许还在,但鼠标将逐渐消失,因为只要在红外摄像头所能捕捉的有效范围内,手指的任意移动都能精确地进行位置确认。五指张开,页面放大;手上下挥动,页面移动;双手合拢,页面关闭……在更加自然的操控界面中进行更加自然的人机交互,这一切还仅仅是基本。
而在视频捕捉技术之外,语音识别技术或许也将由此激发。Kinect自带的麦克风可供用户进行简单的命令操作,但很多人都不知道其实从Windows Vista开始,PC操作系统就自带了非常强大的语音识别功能,且能天然识别包括中文在内的主要语言。语音技术实际上已经非常成熟,它所缺乏的只是一个普遍使用的应用场景,就如游戏之于Kinect。
这样的场景正在开始出现、积聚。比如在谷歌地图和许多手机的谷歌客户端中,已经支持语音输入,如果你在地图中已经用GPS定位了自己的位置,说“咖啡”一词,马上地图上就会显示在你周围的咖啡馆信息。苹果新的iOS系统中,也已经集成了语音识别,长摁屏幕下方的Home键呼叫出界面之后,你能用“打给某某人”的语音命令来直接拨打电话,或者用“播放谁谁谁”来播放某个歌星的歌曲。
更加富于想象力的人机交互方式其实已经产生。在麻省理工学院,一个名叫Pranav Mistry学生极富想象力地将手势识别、摄像头、投影和云计算结合在一起,发明了名为“第六感”的技术——不用携带任何大尺寸的东西,所有的终端都浓缩在胸口的挂饰和贴在手指的胶片中,当你想要拍照时,只需要用四根手指摆出一个框的形状;当你想要玩游戏,比如赛车时,随手拿过一张纸,它就能瞬间变成显示屏,而手指则是方向盘。
许许多多的创新交互方式,实际上缺少的是应用到何种产品、何种场景中,以及如何量产化销售的难题。很多时候连技术所能应用的场景都已经具备,新的人机交互与民众普及之间,只有“量产化”这一层薄薄的窗户纸。
是的,这层窗户纸现在已经被Kinect捅破了。
当第一个显得甚至有些“激进”的全新交互产品出现并大获成功,可以预见的是,必然会有追随者出现。起码在家用游戏机领域,任天堂和索尼不会听任微软携Xbox 360和Kinect一骑绝尘。如果Kinect的互动方式经由Windows 8而得到更广泛的普及,苹果也不会坐视不理。
在人机交互领域,更加大胆的创新精神正在被唤醒,而在此之前,它正是那些技术积累丰厚、产品实践强悍、聪明却又保守的大公司迟迟无法迈出的一步。
是时候了。