洪小文在“21世纪的计算大会”上的主题演讲:将不可能转变为自然
【洪小文博士主题演讲:“将不可能转变为自然”的全程视频】
【洪小文博士在主题演讲中展示的PPT】
演讲人:洪小文博士
微软亚洲研究院 院长
电气电子工程师学会(IEEE) 院士
我希望利用接下来的时间,和大家讲一下怎么把不可能变成一个自然的事情。先跟大家讲一个故事,跟每个人都有关,大家每天早上加上晚上睡觉前都会刷牙,而且都会用牙膏,事实上在100年前,就是20世纪初,那个时候只有7%的人用牙膏。有一个很厉害的人帮当时很大的牙膏厂进行市场调查和推广——怎么让大家去刷牙,还要用牙膏。事实上现在事后分析,其实你不一定要每天使用用牙膏。你牙齿里的细菌,用牙刷就能刷掉的,如果真的怕细菌的话,可以用漱口药水,有一些酒精和消毒的成分。他在想,我们到底怎么样让大家用牙膏,结果他做了一套广告,这个广告基本上就是说,你吃完东西以后,大概隔四五个小时后,你会发现你的牙齿有层牙垢,实际上这层东西本身没有细菌,是这层东西很可能把细菌弄上去。第一个就是给你一个信息,就是你的牙齿上好像有一层东西,然后他就说用牙膏配合牙刷刷了以后,这层东西就没有了,不但没有了,它还加了薄荷,所以你会感觉到很清新的感觉。他就是这样忽悠大家,在十年之内,从7%的人用牙膏到65%的人使用牙膏,今天可能接近95%以上的人用牙膏了。
那么,这个故事就是告诉大家,事实上今天所谓很自然的事情,睡前刷牙,早上起床刷牙,这是很自然的事情,其实自然的事情是经过一段时间,大家恍然大悟,是被某一个人忽悠的。我们探讨这个原理的话,任何一个习惯怎么养成的,就是你要有一个信息,就是必须要有一个信息,这个信息你可以测到的,你可以感觉到那层东西,如果是无形的话,你无法感觉到的话,这个也不会造成什么效果。另外,你要给人家一个礼物,给人家一颗糖吃,吃完糖后,你刷完牙,感觉很好,感觉把细菌刷掉了,那么你要每天做这个事情,做习惯成自然了。所以今天所有的自然其实都是这样的习惯。
我以上的这些资料是来自这本书,很有名的,在企业界里面很多人用这个来做改变,怎么改变行为,怎么找到一个信息,找到一个习惯,然后找到大家可以每天做的事情,最后就形成一个习惯,久而久之习惯就成自然了。
那么,事实上我们看自己的IT产业跟我们的计算机技术,何尝不是这样呢?我们今天讲自然界面,我们说话很自然,写字很自然,其实这些东西真的很自然吗?大家想一想,我们要学会讲话,讲很流利的话,要经过多少年的学习我跟大家一样,我学英文,我今天讲出来的英文还不是很溜,写字也是一样,要拿出手,拿出笔写,还要不停的练。这些今天我们觉得很自然的东西,都是经过几世纪、几代,就像我刚才讲的,你会知道你做这件事情有一个信息,然后你同时知道不做这个事情有一个信息,最后久而久之就习惯成自然了。
事实上,我们把它更拓展到我们整个计算科学来讲更是这样,你今天到北京CBD,就知道是一个商业区,有餐厅,有商场,到中国海淀,就知道这是中国的硅谷,那里有很多的企业,这就是我们习惯成自然。最近有一个江南Style,中国以为江南是指长江以南,大家知道现在这个江南Style很流行,这个发生不到一个月的时间,就变成全世界的一个习惯。而且我们还会在所谓的自然的行为,会把以前的东西,第一直接拿过来用,或者是用电话来表示,所有的东西不要忘记,自己要形成一个习惯,同时还有一个很容易做的事情,就像刷牙一样,最后久而久之就形成自然。
我的演讲分三个部分,所谓的自然我们先要观察,找出那个信息,你才有可能造一个新的自然行为。同时从另外一个角度观察,什么是真的?突然有一个地方就可以知道,这个是人造出来的,因为那个地方很不自然。比如说早上的对话的模型,我们常常说的TTS,突然有一句出来的话,你会知道这不是人发出的声音。今天不管是做自然界面,或者做仿真,你都要好好观察,找到这个信息,找到一个可以处理的现象。人最重要的就是大脑,还有我们的面子。我们怎么模拟一个人的人头,我们有Kinect的摄象头,我们只需要你三个的Face,就可以建立一个很真的你的3D的头。
一 .观察个体行为
1.脸部扫描Face scanning—基于Kinect的3D脸部扫描
我们的做法很快的讲一下,我们基本上就是建立一些既有的人头的模型,我们会根据不同人种,黄种人,或者白种人,或者印度人,建立不同的模型。然后照一张相,需要知道哪里是眼睛,哪里是嘴巴,知道这个以后,就知道把你照的相放在我的模型上,有的时候需要拉一下,有的时候拉宽,有的时候拉长,最后我们用一个程序就可以做出你的人头了。这是我上个礼拜在我们研究院当场做的小白老鼠,试的这个系统,往左边照看一张,中间看也照一张,往右看再照一张,照了三张,我们的程序很快就把我的头的模型照出来了。大家看,这是我三维的头像,我们根据光源做不同的事情,让睁一下眼睛都可以做。这里有几个问题,头发有问题,还有脸看起来,因为辨析率并没有那么高,我用几年前的照片可以假装一下很年轻,用几年前的照片照二维的模拟。
2. 头发模拟(hair modeling)
另外就是头发,头发是非常难模拟的。中国人说有三千烦恼丝,事实上比三千多了三十倍,大概十万个烦恼丝。基本上目前的科技,可以用你们右手边很复杂的摄象技术和一些程序做出来,是不是可以用Kinect,一个PC来做这个头发呢?答案是可以的。基本上,我们知道这个非常具有挑战,给你任何一个二维的照片,可以把你的头模拟出来,再把你的头发模拟出来,最后还要做成一个三维的头发。这是最后做到的效果,你们可以看到他现在在慢慢的转,可以看到三维的效果,这是我们自动做出来的结果。
我们怎么做的呢?我们基本上只需要人的一点点帮忙。今天的做法就是当做一个小面条去建模,说起来简单,但是做起来很复杂,因为里面很乱,有时候头发还分杈,头发要想办法最后怎样垂下来。Kinect的话会更好做,因为很多时候很多照片只有二维,这个问题比你用Kinect更难。我们根据一些照片的特征,我们可以大概猜出来这个深度,由这个深度加上前一个建模,就可以把头发的模型做出来。做出来以后,不但头发是三维的,脸也是三维的。当然,注意一点,我们只有一张照片,只有你前面的,你后面的我们只能去猜,用复杂的方法,最后可以做出来这样的头发,这个后面还是有一点假,下一步的工作就是后面也取一张,就是把整个头上的头发都做出来。
我们现在来看一些做出来的结果,这个人是一个很有名的女演员,我们用刚刚的方法画几道,先把她的头切出来,一开始是光头,再加上头发,然后她的头和头发都是三维的。这是另外一个照片,这个也是做出来的效果。有了这样的技术以后,就可以换发了,大家都有这个需要,有的时候想要换发型,也想要换发色,比如说中间的女生想要左边女生的头发,很快就可以自然的换过去。你在做头发改变之前就可以看一下这个是不是你要的。左边是她原来的头发,右边是用别人的头发放上去,因为我们有三维的建模,可以做到栩栩如生。这里是一个例子,这里有一些明星,我们有3D,有人往左看,有人往右看,照样可以把头发弄过去,贝多芬想要牛顿的发型也可以。因为这里有3D的模型以后,我的头发改一些参数,比如说第二个就是做到不同的效果,甚至可以改颜色。
当然了,就像我刚刚讲的,她的后面还是有局限,我们将来的工作就是希望把后面照一张,把整个3D的头发建出来。刚才我讲过了,我就是用我前面做的3D的头,加上我三年前照的一张照片,把那张头的画皮往上一贴就成为一个头,你看到我的头发也是根据我2D的头发这张图做出来的。我有时候想一想,是不是可以有一点金发,比如说要贝克汉姆的头发,就可以拥有贝克汉姆的头发。或者另外一种金发也可以,这个礼拜刚好有很多的同事来这里,这个软件大家都去照了一张相,现在我们彼此交换头发的话,就非常容易了。
3.手势识别(Gesture recognition)
接下来,就是做身体,Kinect上面一个最重要的就是Gesture recognition(手势识别),第一个手势是动的,有很多的程序,我们做手语或者跳舞,都有许多整套的程序,而且需要很准确,或者打高尔夫球,什么时候下杆,角度,都决定你最后是否打的好,打的远。甚至就像我刚刚讲的Kinect里面的环节,每一个动作都很细致的建模。不仅是手势,还要知道每一个时间点的动作。因为你不管怎么面对你的摄象头,比如拿高尔夫球来讲,这样的合,这只手就遮住这只手了,第三个图形,我们Kinect拿到的图形就不正确,怎么纠正以后再做模型。上面是骨骼,下面是真正的图,很多地方都被遮住了。还好,这些东西不是没有可能的,那么就有办法去做。
这里是我们做的展示,蓝色的是图形,红色的是你拿到的动作,红色的是我们的模型模拟出来的动作,很多时候你的手被挡住了,根据我们这样的模型做了以后,我们可以准确的做出高尔夫球挥杆的动作。很快很多的东西都会用这个新的技术,这都是所做的新的技术证明。
二 .观察群体行为
接下来就是关于群体的行为,刚才讲的是个性化。语言就是群体性的行为,微软的英库拼音输入法,每天打字的时候都需要拼音的,大家知道这个东西是今天不断的在进步的,加上我们有云以后,我们可以不间断追踪新的词,新的用法。刚才讲的江南Style,给力、伤不起,这些例子,唯一的方法就是观察。我们就推出微软的英酷拼音输入法,是客户端和云的结合,同时可以中文和英文在一起做。我相信在座已经有一些同学在用微软的英库拼音输入法了。今天我们也很自豪,我们用的技术跟早上你们看到翻译用的是一样技术,当然是用的不一样的数据,这里变成一个翻译的模型,是很自然的建模的方式。因为你从一个输入的状态到输出的状态,是一个很自然的过程。到现在还不到两个月的时间里,就有50万的下载,有很多的反馈。
更重要的是,我们有了这个数据以后,可以把我们现在做的系统加以改善,给大家提供更好的服务。我们做到什么样好的程度呢?我们好到连外国人都可以输入中国人,我们想请我们首席架构师Matt Scott来做展示。
1.英库拼音
Matt Scott:谢谢洪院长的介绍,大家好!我是Matt Scott,下面为大家演示一下英库拼音输入法,这是微软开发的一个技术首先为大家展示一下,为什么要用基于云的输入法?正如有云这样的标志代表的,它使用一个非常复杂的模型,利用到了更好的内存和CPU,这都是由云提供的。这些终端设备能够去为你显示侯选输入词,我们把本地的引擎和云的引擎结合起来,为你提供更好的使用体验。我们发觉有50%以上的用户利用到云的能力。所以准确性非常好。
那么,还有我们如何能够做更多的事情呢?大家可能听说过林书豪这个名字,我们知道林疯子是他的绰号,这个词如此的流行,我们微软亚洲研究院的项目,也把这个词放进去了。如果我输入林疯子,你可以用中文输入模式或者英文输入模式林输入疯子,因为它是非常流行的词。这是中英文混合输入,我可以不断的写下去,那么我的思路不会被打断,我可以节约时间,林疯子,我不断的接下去往下打,但是最有意思的地方,就是利用到所有的自然语言处理技术,这是我们微软亚洲研究院的技术,利用不同场景跨语言的输入。这里有一个下拉菜单,这就是机器翻译。机器翻译,尤其是统计学,在输入法统计学的机器翻译,最让人惊喜的就是我们可以把混合中英文输入和机器翻译拿来验证,这是我们想要输入的词。比如说你们可以看到我输入一个英文词,如果你肯定这是我们想要获得的翻译,同时我们可以看到这是一个字典查询的结果,这也是通过网络辞典查询到的。所以这是一种所谓大数据的云的服务。
我们来看一下,我们选择第六个,然后大家看一下,我输入中文出来英文,或者输入英文出来中文,你们问一下自己,比如说你知道加州的首府城市是哪儿,是萨克拉门托,如何拼写呢?根据我们的研究,中国人有的时候有拼音范儿的一种英文,萨克拉门托,可能是三个馒头。
第二个结果就是我想要的,这就是我们的模型带来的,这是非常复杂的模型,用本地的设备来处理是非常难的。下面我们切换到英文的模式,如果英文输入之下,我想输入英文,但是我输入的是拼音,然后我就是键入飞机的输入,然后输入的就是英文Plane,这个时候我的思路不会被打断,这是多语言的输出结果。这样的话,我们说等一下,我们要用云了,我们为什么不引入搜索呢?我要打开这样的窗口,我打开这个即时传讯工具,它能够根据我们使用的场景,猜测。比如说键入哈哈嘿嘿,你可能更需要一个图形来代表,就是表情符号。
我们可以引入网络的力量,你的手指可以驾驭网络的力量,这就是必应图形搜索,我可以再键入囧,就是这么简单,我们能够做图形了。我们能不能做更复杂的东西?有这样的使用场景,我要去饭馆吃饭,我的意思是在天津,我要吃狗不理包子,所以键入狗不理,天津。下面我点击图形,就是这么简单,这是引入地图。功能最强大的一点就是随心所欲,想怎么样就怎么样,可以放大缩小。或者不想用浏览器来看,或者有的时候截屏非常麻烦,就想用链接,就是这样。我已经完成了这样的任务,并把这样一个网络富媒体放在我的文件中,我的演示就完成了。大家访问yingku.com就可以下载了。谢谢!
谢谢Matt Scott,他真是我们英库拼音输入法的首席架构师,这是第一个原因。第二个原因,我们的英库非常好,外国人都可以输入拼音。第三个原因,就是没有太多人睡觉,有时候换人讲英文,这样有一些变化,让你们更多的人会喜欢。那么,我们中国还有很多的拼音,我们就一些市场上著名的拼音系统进行比较,我们发现我们在IQ方面是最好,当然我要尊重其他的拼音,IME1,IME2,IME3,这是我们找独立的机构帮助我们做的评价,大家可能还存疑,没有关系,大家可以试试,欢迎大家给我们反馈。
2. 莱特问答系统(Light!)
接下来这个也是群体行为的,今天大家在互联网搜索的是文件,里面含一些关键词,大家更想知道的是问答。一个问题是什么,我们尝试做问答,我们的做法也很大胆,我们希望用互联网背后的搜索工具,我们的必应,我们在上面加一些东西,这样就可以回答所有的问题。而且大家知道群体行为会变的,我们基本上加上四个群体行为,第一个群体行为就是给予一个询问,谁获得了诺贝尔奖,还有四个总统的雕像,其中有一个人得过诺贝尔奖。那这个问题,我们第一个步骤就是先做一个测试,之后就会知道他的属性,根据这些东西我们就对这个问题有所了解,知道他在问什么,知道问什么以后就可以产生答案,这个问题是在问一个事实,并不是问一个简单的问题。另外,他不但是希望找到一个人,他希望找的是一个总统,还有其他的信息。有了这些信息以后,我们就把询问丢给群体,这个问题可能有人在网上已经问过了,这个很好。或者我们网上有一句话说一个人获得了诺贝尔奖,我们可以根据这些理解产生一些内容丢到社群行为当中,然后会产生很多的答案。假设取得50个假设,假设刚刚丢了10个,每一个回来,假设取50,50×10就是500个,细节就不讲了。里面当然要用很多的技术,就是希望能够做成一个好的程序。做完了以后,要去网页里面抽取答案。
刚才说的是找人,根据这些事实抽出有可能的答案,然后我们进行筛选,然后在做一个排名,还没有完,还要做最后一个步骤,有时候对答案不太确定,你宁可不答,宁愿去看文件,自己去抽取答案。我们的系统是完全可调的,最后可以说,如果是90%的内容回答50%的问题,如果是70%的话,可以回答更多的问题。下面欢迎我的同事跟大家做展示,我们欢迎韦福如。
韦福如:谢谢大家,我来自微软亚洲研究院。今天很荣幸给大家做演示Light,这是通用的问答引擎。下面我通过具体的例子演示它回答中英文问题的能力。首先以院长的演讲作为例子这个例子是说,在拉丝摩尔山国家纪念公园里面有四位中国的面部的雕刻,其中有一位获得诺贝尔奖,答案就是罗斯福。我们看一下,为什么我们认为罗斯福是一个正确的答案?这个是我们从在线的互联网上找到的证据,来证明罗斯福是我们想要的答案。在这个问题中,它有很多的信息,比如说拉丝摩尔山国家纪念公园里面四个总统的面像,还有获得诺贝尔奖,我们把多方面的证据综合在一起,才能确定答案有一个强烈的竞争者,奥巴马是美国的总统,并且他得到诺贝尔奖,但是他现在还不在这个纪念上,还有在拉丝摩尔山上的其他总统,比如说林肯,也不是正确的答案。
然后还有其他的例子,我知道大家最近在讨论诺贝尔奖的比较多,我们问一个跟中国有关的诺贝尔奖的例子,就是今年的诺贝尔奖的获得者是谁。这个例子时效性很强,Light就是能够处理时效性很强的问题。实际上在诺贝尔奖刚刚发布不久就能够回答这个问题,这个答案是我们中国的莫言。下面用两个中文的例子来演示Light回答中文问题的能力。第一个例子,就是在金庸武侠小说里号称的君子剑,这个人是谁呢?大家如果比较喜欢武侠小说的话,肯定知道这个答案是岳不群,Light也能给出正确的答案,所以我想他也是比较喜欢读武侠小说。大家很奇怪,科比为什么在候选答案里面,点开以后,在网络上,有很多人把金庸武侠小说里面的人物跟美国篮球人物对比,科比就是对应的君子剑。
最后还有一个其他的例子,在陕西的乾陵有一个无字碑,这个答案就是武则天,乾陵是中国唯一一个两个皇帝合葬的寝陵。
三 .观察世界
1. 基于图形的搜索 (Attribute based image search)
最后除了群体以外,还有这个世界,世界很多事务,不见得是人,我们也做了几个东西,也是跟搜索有关的,有的时候做图片搜索的时候,可能会得到这些结果,还有就是很多图放在一起等。今天就是说能不能做一个东西,除了文字,大家知道今天做图象搜索基本上还是用文字搜索,还有假冒做分析然后做搜索。有很多的属性,有时候就是要找颜色的属性,我们是否有更好的方式来做呢?首先介绍的就是颜色,大家只要到必应上搜索,这些都有了。你搜索什么都可以用,你输入一个狗,就可以选择颜色,选择红色就是一个红狗,选择什么颜色就是什么颜色,当然这个里面的技术是很复杂的。假如说你需要一个橘色的花,你需要的花是橘色的,而不是背景是橘色的。但是有的时候没有单一的选择,这个时候说是橘色的花朵,就是整个背景都是橘色,那么这个时候就做不出来。那么我们的技术,就是给我一张图,如果有的话就找出来,没有的话也不会随便找。有了这个技术以后,我们就可以做了。
最后还有一点非常重要,文字有的时候非常重要,假如说这是一个红色的法拉利,在里面有红色的词,把这个字打进去,就很容易找到,现在输入BMW,旁边有颜色可选,要蓝色就有蓝色,要红就有红,要白就有白。还有森林,要什么颜色都有。花或者是人,你喜欢他穿紫色就是紫色,你希望他穿红色就是红色。
接下来讲插图,这个比例也是很高的,我们常常做幻灯片,把网上所有的图做一个判断,这相当于一个筛选的过程,我们把复杂的背景过滤掉,,然后把一些向卡通、照片的也滤掉,把一些带文字的也去掉,剩下的就是了。但是不见得每一个都那么好,跟刚才的颜色一样。做了这个以后,以前是没有做这样的,今天你到必应已经看不到这样的结果了。
除了可以做这些以外,事实上刚才讲的属性,我们的做法很简单,除了这些程序以外,我们还有很多的程序。我们用了哪些属性呢?跟人有关的有四个方面;跟物种有关的,是这样的属性;跟图片有关的,因为我们可以判断对焦是否准,光线是否好,可以进行识别。这个时候可以做出来,旧的在左手,今天你必应搜索会拿到右边的景象,为什么质量变好了,就因为我们加了属性的信息。
2.城市计算(Urban Computing)
最后有一个城市计算,什么意思呢?今天任何一个系统只要可以搜集数据,我们可以了解它的行为,就是我讲的观察,观察之后就知道哪里有一个信息,怎么改进。我们把城市的规划,城市有关的问题进行分析。城市里面有什么数据呢?我们在过去几年,有北京等一些大城市出租车的GPS,除了GPS,还有它在哪里接客,在哪里放客。还今天的微博,微博在哪里发的,这都是很有用的信息。
同时,就是公车系统,你在哪里上车,哪里下车,大家关心的空气质量问题,测到的空气的指标,还有今天买房,哪个地区价格的波动,地图有关道路的信息等等。所以,这两三年的时间里做了很多的研究。今天只讲其中一个,就是说都市对话里面,CBD、住宅区,虽然建的时候是想要变成一个住宅区,但是久而久之商店会进住宅区,住宅区可能会出现办公楼,我们怎么发现?我们今天拿两种数据,我们如果知道这个以后,而且我们知道这个城市的脉动是动态的,而且开店很复杂,有的区域是做白天生意的,做上班族的生意。有的生意是做晚上吃饭的生意。同样一个餐馆可以做很多的商业计划。
我们用了两种数据,一个就是PUI,PUI的数据是死的,有一个更活的数据,就是这个区域,大家在不同的时间内是进还是出,如果一个住宅区,大家知道早出晚归,如果是商业区,大家去上班,那晚上就回家。我们来看一下前门这个地区,在2010年的时候,因为那个时候的数据,它是一个像大的观光公园,结果2012年它变成一个商业区,为什么会这样呢?
原因很简单,北京前门的确在那段时间整修以后,现在变成北京很独特的商业街。大家今天如果到北京前门的话,那边有很多不同的商店。一样的道理,2010年,国贸附近的一处住宅区,到2012年变成盖北京最高的楼,这些东西都可以用我们的数据来了解这个地区的脉络。
我们研究院七个进行的项目,都是一样的思路。就是说,几乎没有一个东西与生俱来的自然,都是通过观察,我们去找那个信息,然后形成一个习惯,久而久之习惯就成自然。不可能最后就变成很自然的事情了,谢谢大家!
_________________________________________________________________________________
欢迎关注
微软亚洲研究院人人网主页: http://page.renren.com/600674137
微软亚洲研究院微博: http://t.sina.com.cn/msra
青春就应该这样绽放 游戏测试:三国时期谁是你最好的兄弟!! 你不得不信的星座秘密