互联网时代里的用户模型
编者按:还记得在电影《黑客帝国》里,人们生活在一个虚拟的世界中,每个人都只是一段程序,一个模型。当然,现在的科技还不具有这么大的能力。但是,你知道吗?在如今的互联网时代里,有很多网站、计算机都在试图去建立用户模型,理解个人的行为和想法,甚至试图去预测人们的意图。或许有一天,会有那么一个模型出现开启了一个崭新的世界。
作者:林榕程 中科大-微软亚洲研究院创新人才培养实验班学员
自2010年10月启动以来,中科大-微软亚洲研究院创新人才培养实验班已经迎来了两期学生。他们作为从中国科学技术大学的少年班、信息学院、计算机学院、数学学院选拔出的优秀本科生,将在微软亚洲研究院进行为期一学年的培养,接受系统而完备的计算机科学基础教育。其中,前沿科学讲座,是为这个实验班重点推出的一个特别系列——邀请研究院内各个研究领域的资深研究员们为学生们讲述该领域的最新发展和动向,传授自己深刻的研究心得,以帮助同学们开拓视野,深入思考。
本次系列演讲我们很荣幸地请到了微软亚洲研究院机器学习组主任研究员陈正博士,给我们带来题为“用户建模(user modeling)”的讲座。那么什么是用户建模?为什么要研究用户建模?用什么办法来实现用户建模?以及今后的研究发展方向会是如何呢?请听陈正博士娓娓道来。
什么是用户建模
用户建模涉及到很多不同领域,包括人机交互、数据挖掘、机器学习、心理学和哲学、以及其他如语言学和设计学等。不同的学科有着不同的定义。但针对本文,简要地说,用户建模就是在保护用户隐私的前提下, 利用计算机通过建立机器学习模型来模拟用户的现有的行为和知识,并以此来预测用户未来的行为和意愿等等。
事实上,用户建模发生在每个人的日常生活当中。当你刚买了一辆新车,回到家可能就会接到保险公司的广告电话;当你刚买了一套新房,就可能收到装修公司的服务广告邮件;当你在浏览购物网站,服务端会根据你之前的行为来推介商品;甚至,当你在浏览网上的新闻,周边的广告也是根据你的喜好选择的。可见,信息直接影响了个人的生活质量,而研究用户建模就是为了让正确的信息传给正确的人而不断努力,并使用户免受无关信息骚扰之苦。看似普通的生活,却带着量身订制的特别。
利用用户搜索的行为分析,判断出用户是否是游戏爱好者,继而决定是否将XBOX游戏广告显示给用户
为什么要研究用户建模
首先,在现实应用中,用户建模有着巨大的商业价值。举两个例子,现在的搜索引擎开始强调用户个性化,这本身就是一个用户建模的过程。另外,在如今的广告市场,以雅虎为代表,出现了一种名为“窄告”的技术,让正确的广告传给正确的用户,也包含着用户建模。可以说用户建模是现在互联网商业的一把利器。
其次,不可否认,用户建模的研究有很多难题值得研究。如果一个领域已经不存在研究难题,本身也就没有了研究的价值。总结一下研究的挑战有:研究的数据整体很多,局部又很稀疏,还有很多的“噪声”数据。标记数据需要很多的人工劳动,用户模型需要不断更新等等。我们期待有这样一篇文章:利用噪声数据建立具有鲁棒性和实时更新特性的并行半监督用户模型。那么会不会出现类似的文章呢?
如何研究用户模型
现在研究的主要方法包括:关联模式挖掘,监督式学习,无监督式学习,半监督式学习。关联模式挖掘是利用现在的概率论中的联合概率以及条件概率来模拟用户执行某些行动的可能性。后三种都是机器学习领域中基本的学习方法。
不得不提的是,利用概率论来研究包括用户建模的人工智能问题是最近兴起的方法,以前也用过数理逻辑推理、谓词推导,以及神经网络方法等等方法,只是最近几年慢慢被基于概率论的学习方法取代。那么会不会有这样一个新的研究方法被提出来改变现在的研究格局呢?
未来研究的方向是什么
未来从来就是一件很抽象、很难以捉摸的的事情。这里就介绍现在的几个具有前瞻性的研究方向,或许也能预示一些未来的发展前景吧。
1、让手机成为你的秘书
“让你的手机成为你的秘书”,陈正研究员如是说。而Magic Button就是这其中的一个项目。当你晚上不知道去哪里吃饭,你按一下Magic Button,她就会告诉你附近有哪些餐馆,各自的评价如何;当你正在为假期去哪玩儿揪心时,按一下Magic Button,让她告诉你什么地方很不错,并帮你订好机票和旅馆;当你走在一条陌生的道路上时,按一下Magic Button,让她告诉你周围的建筑是什么,什么路线能让你最快到达目的地。
当你听到这样一个想法时,是不是已经抑制不住内心的冲动了呢?不管你有没有激动,反正我是激动了J。我想,技术最重要的目标就是服务于人。一部手机,就是你身边的一个秘书,他能给你提供想要的数据,这是怎样一个美好的未来!当然,这其中还有着很多需要研究的难题,包括对不同类型服务的分类,可能源于用户输入的查询条件,也可能源于用户所在的地方,包括理解用户的意图,以及对用户喜好、兴趣的学习等等方面。
2、行为定向技术(Behavioral Targeting,简称BT)
显然,BT的目标就是通过挖掘出的数据,将用户进行分组,这样就可以和广告厂商合作,将正确的广告告知给真正需要的人。很明显,这个项目对于用户和厂商是互利双赢的。一方面厂商可以提高广告效率,减小宣传成本。另一方面用户可以摆脱看与自己无关的广告的烦恼,同时也享受产品成本减少的利益。
当然,梦想总是美好的,但实际需要克服的问题还有很多,如:
(1) 如何处理足够多的数据?
(2) 对于各种各样的需求,如何实现不同层次的分类?
(3) 如何正确预测用户的兴趣和需求?
(4) ……
中科大-微软亚洲研究院创新人才培养实验班学员与陈正博士(左五)合影
* 科研小贴士
在讲座过程中,陈正研究员给我们留下了一些做科研的提示:
(1)当你开始一个新的研究时,要做好可行性分析,调查好研究的应用市场,要想一想研究会不会带来变化。
(2)每个人做研究都有一个基准线,若是每个人都能想到解法,问题本身也就不值得做研究了。
你是这样认为的吗?
(本文部分图片来自于网络)
研究员介绍
陈正博士:现任微软亚洲太研究院机器学习组主任研究员。陈正博士于1994年和1999年在清华大学获得本科、硕士和工学博士学位,并于1999年加入微软亚洲研究院,致力于研究机器学习、信息检索、语音识别、自然语言理解、多媒体检索、个性化信息管理,以及人工智能等多个领域的研究。陈正博士曾担任多个学术会议的程序委员会职务,包括AAAI, CIKM, ICDM, PAKDD, IAT, AIRS和APWeb等会议。他在国际学术会议以及期刊上发表了60余篇文章,其中包括15篇SIGIR会议文章。
相关阅读
________________________________________________________________________
欢迎关注
微软亚洲研究院人人网主页:http://page.renren.com/600674137
微软亚洲研究院微博:http://t.sina.com.cn/