围脖局部影响力计算example

标签: 算法学术 | 发表时间:2012-05-04 16:43 | 作者:mcgrady164
出处:http://www.resyschina.com

最近看了一篇SIGIR 09年的paper,介绍的是如何区分一个用户是expert还是spammer,其实也就是对用户的expertise进行排名。

文中讲到的算法spear,是基于HITS(Hypertext Induced Topic Search)算法改进的,是SPamming-resistant Expertise Analysis and Ranking的缩写。文中的实验数据是用delicious的数据。算法中做了两个基本的假设是

(1)Mutual reinforcement of user expertise and document quality

专家级的用户更加倾向于产生高质量的document,而高质量的document常常由高水平的用户tag

(2)Discoverers v.s. followers

专家级的用户往往是一个“发现者”,也就是说他们更加倾向于第一个bookmark和tag高质量的document,然后将这些好的document带入到用户社区中。这个好比高水平的学者。

spear算法将会给早期发现新信息的discovers更多的credit,具体多少credit将会由一个credit function 计算得到。

这幅图介绍了spear算法的具体实现,首先是根据数据集生成一个带权重邻接矩阵和两个分数向量,邻接矩阵中的元素a(i,j)表示第i个用户在第j个document上的credit score。两个向量分别表示用户的expertise score 和 document的quality score。这里score function 是一个可以自己定义的函数,要保证discovers的分数要高于后面followers的分数,但分数的差距又不能差太多。(具体的参数可以参考后面的文献)

然后通过几百次的迭代计算,就可以得到一个收敛的E和Q,也就对user expertise进行了排名。

由于这篇paper是为了证明他们的算法可行,所以不但用了从delicious.com爬下来的真实数据,并且根据user behavior做了六类仿真用户混在真实数据中,以检验算法的效果。

用在我们这里,计算围脖局部影响力的时候,就不必设置仿真用户了。只需要将同一个圈子里的若干users的围脖信息考虑进来做计算就可以了。在选择种子用户的时候,参考了@clickstone的这个结果( http://weibo.com/1641544424/eB2mq72b8ai)。从这个user列表中爬他们关注的user形成整个user圈子,同时爬下他们发布的围脖信息,(围脖的id和timestamp,这里如果是用户原创的围脖则记录该围脖id和该条围脖发布的timestamp;如果这条围脖是用户转发的,则记录被转发的这条原始围脖的id以及该用户转发这条围脖时的timestamp)这样的话,我拿到的数据格式就是(timestamp,userid,weiboid),这里围脖对应着paper中的webpage。然后用spear算法计算得到了下面的结果:

http://expertise.sinaapp.com/show.php

这里是top50的排名。大家可以对比一下一年前@clickstone的计算结果

http://weibo.com/1641544424/eB2mq72b8ai

参考文献( 点我下载

1、Telling Experts from Spammers:Expertise Ranking in Folksonomies

2、SPEAR:Spamming-Resistant Expertise Analysis and Ranking in Collaborative Tagging Systems

您可能也喜欢:

社交媒体流量:Facebook给力?Stumbleupon更给力

Clicker利用Facebook社交数据为你推荐视频

也吐下新浪微博“你可能感兴趣的人”改版的槽

微博个性化推荐-凌博微步

推荐手机程序的网站,对下载量有帮助吗?
无觅

相关 [计算 example] 推荐:

围脖局部影响力计算example

- - Resys China
最近看了一篇SIGIR 09年的paper,介绍的是如何区分一个用户是expert还是spammer,其实也就是对用户的expertise进行排名. 文中讲到的算法spear,是基于HITS(Hypertext Induced Topic Search)算法改进的,是SPamming-resistant Expertise Analysis and Ranking的缩写.

Java MongoDB : Save image example(译)

- - 数据库 - ITeye博客
原文出自:http://www.mkyong.com/mongodb/java-mongodb-save-image-example/. 返回目录: http://ysj5125094.iteye.com/blog/2192754  . 译:在本教程中,我们将向你展示如何通过  GridFS API 保存一个图片到MongoDB.

Spark机器学习案例 spark-example: spark mllib example

- -
#这是一个Spark MLlib实例 . ##1 K-means基础实例 . 命名为kmeans_data.txt,且上传到hdfs的/spark/mllib/data/路径中. 在Intellij中,点击file->选择project structure->选择Artifact->添加jar->把乱七八糟的依赖移除->勾选Build on make.

oracle license计算

- Fenng - eagle's home
Oracle license的计算是基于CPU core的. 用core的数目乘以一个系数core factor就可以得到所需的oracle license的数目. 对于不同的CPU,core factor是不一样的,可以从oracle提供的这张列表中查到 Oracle Processor Core Factor Table.

理解云计算

- 车东 - oneoo's 私家花园
  现在互联网最热门的关键字“云计算”,大大小小的公司纷纷加入到这块领域. 简单来说,目前的“云计算”主要分为:SaaS、PaaS和IaaS三大类.   其中SaaS云计算,为软件即服务的概念. 把传统客户端软件部署在互联网上,用户只需要一个浏览器就可以使用到软件的模式. 其实早在2000年就已经有B/S结构的软件服务,与现在所说的SaaS云计算相近,但此前的B/S结构软件服务,数据库等服务端是需要用户自行部署的,而非由软件提供商进行统一部署.

钢琴计算器

- 丑秋 - 专利之家-设计发明与创意商机
这款太阳能计算器别出心裁地设计了黑白相间的按键,看起来像钢琴的琴键一样,十分有趣. 或许这样的计算器可以给枯燥的计算工作增添一点乐趣,让它不再乏味.

10问云计算

- - 《商业价值》杂志
与数百位关注和实践云计算的CIO们共同解读云计算热点问题. 被视作IT界第三次革命的云计算,已经从炙手可热的概念逐渐走向了实际应用. 2011年8-11月, ITValue社区联合英特尔公司,与数百位关注和实践云计算的CIO们一起展开深入探讨,话题涉及云计算的商业价值、安全性、开放性、高效性、简单性等方面.

云计算的困局

- Star Ocean - It Talks--上海魏武挥的博客
有个媒体朋友打电话咨询我一个事. 说在江浙一带,有一位搞国际货运代理的民营企业家,想利用云计算来整合各种资源,比如运输车队、仓库、集装箱乃至货船. 这些资源的调配信息对任何一家从事外贸的企业都很重要,如果将这些信息放在所谓的“云”上,并加以运算,这些企业再以各种设备联入这个“云”,这位企业家觉得是一个很有前途的买卖.

开源云计算ERP ErpCore

- Le - 开源中国社区最新软件
  ErpCore是一套强大的云计算ERP开发框架,集数据库设计、软件建模、模型自动生成、界面可视化设计、业务流可自定义、全自动生成用户所需系统于一体. 在此框架上扩展出所有行业的业务系统,它让软件工程师从“建模——写代码——测试”所有繁琐重复的工作变为全自动化生成,大大简化了企业软件的开发时间和成本;同时,使用该框架扩展的所有业务子系统能够无缝连接进行数据共享,这也是云计算ERP的实现基础,杜绝了传统ERP的子.

异构计算的挑战

- Guancheng(冠诚) - 技术改变世界 创新驱动中国 - 《程序员》官网
进入新世纪之后,软件研发面临并行编程的技术变革、硬件架构面临异构计算的挑战,这些改变是否意味着新的机遇,取决于能否建立良好的生态链. 2004年12月,C++标准化委员会主席、著名程序员Herb Sutter在自己的个人网站发表了一篇影响深远的文章《免费午餐已经结束》(中文版发表于本刊2006年11月期).