微博用户影响力评价的H-Index指数

标签: 数据挖掘与机器学习 统计图形 H-index指数 Rweibo SNS | 发表时间:2013-04-02 20:06 | 作者:Liyun
出处:http://cos.name

H-index其实更广泛的应用于学术论文评价,其定义为:

h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。

约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:

一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。

怎奈后来抓数据奇慢无比,遂放弃。

转过年来,春天都到了,Rweibo这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的API对于测试帐号限制较多,一小时只有150次请求机会。唉,只能无耻的多帐号多API一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的H-index指数与粉丝数的关系图。

当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的H-index可能偏低。结果证明,在小编的近1100粉丝之中,只有287人的粉丝数超过了287。这样,小编的H-index就华丽丽的定格在287了。

然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数>500且小于2000的显然是个不错的对比范围(受限于新浪微博API的控制,力不从心呀)。

不一会儿,数据抓完了。然后算算H-index,就有了下面这张图:

新浪微博用户影响力H-index指数(点击大图)

新浪微博用户影响力H-index指数(点击大图)

巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:

  • 左上:粉丝<1095但h-index大于287。这群人得好好关注呀,高质量的圈子!
  • 左下:粉丝<1095且>=500,h-index小于287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
  • 右上:粉丝>1095且H-index>287,不用说了,大牛云集的区域!各种羡慕。
  • 右下:粉丝>1095但H-index<287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个“xx书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…

————碎碎念的细节———-
1. 新浪微博的API如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点…而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。
2. 如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓ID的 friendships/followers/ids.
3. 其实可以递归的继续定义高阶H-index,比如二阶,定义为有h2个粉丝的(一阶)h-index大于h2…对于粉丝动辄过万的大V来说,递归几次可能更有意思。吾等小玩意儿就不用了。
4.然后附上这张图的原始数据…大家的微博ID我就不隐藏了,都可以直接搜到…按h-index指数排序哦。

weibo_name followers_count h-index
崔婧Janet 1534 634
Gideon_Ge 1682 515
数据逻辑 1663 508
blogkid 1409 448
董友良_飘香一剑 1334 436
数据鱼_谢宇 1887 425
黠之大者 1706 420
bicloud笑西西 1352 407
super00011127 1270 380
MINI金石头 1803 378
长颈鹿27 1106 362
G_will 1113 360
Sevennick 1357 348
Leo在梧桐山下 642 344
王昕-CALL谁谁OFFER 1090 339
波波头一头 1216 337
晓帆目标130斤 806 329
科隆王子Original 1139 327
指间战争 989 326
小刚C 898 311
谢益辉 1511 311
安泰科宏观部 1133 310
jia华_伪学术 664 305
老马-InSydney 849 301
洛川有机好苹果 1082 297
P-Jackie 967 296
身边汇康康 1253 295
pepsidav 785 292
jiangfeng_scir 871 285
王函大帆船 929 284
万幸_Wonder 746 282
cloud_wei 965 279
数据挖掘racoon 737 278
DATA309 846 277
左根永 690 277
猎头王俊宏 925 275
林小妖系小球童 700 274
rxjia 942 272
lijian001 1387 271
大雁_sysu 627 271
汪琨1987 1054 270
许亮_在路上 914 268
TT小和子 742 264
TerryMANG 931 262
李响_ICT_NLP 656 261
李直 840 252
AnnaPatio 641 252
七桃ple 853 249
william_ou 720 249
雁起平沙 675 243
上海芒果商务咨询 1472 243
叶茂亮 592 243
Jordi_Liang 637 239
天天向上的胖子 671 238
爱宇直-抠脚不闻非君子 748 238
邓一硕 804 236
月亮先生Zsir 381 236
taishanfan 729 233
智博是老青年 1005 224
ivanlauCOM 679 222
Puriney 1180 218
陈筱歪 1025 215
百变小倩1314 863 214
达斯托洛夫斯基 661 213
Deer一只鹿 1070 208
Delphiyeh 898 206
飞鱼姬Sindy 417 202
mlzboy 1252 200
top糊涂虫 441 199
爱美丽高 670 196
罗小妮_focus 467 195
thinkfan 619 191
無限追云 438 191
默尔根 454 189
黎胖 373 188
发现神回复_Denny 400 184
忙碌的灵麟 855 184
谭卫国Forest 619 180
乐美家的乐子 785 180
刘坤林Jason 617 179
omgpumelo 652 179
sirius 486 176
Fancy_zju 488 175
晨曦彩虹 740 173
田宪允 588 171
对半切开的奇异果 1106 167
八爪鱼Rainie 485 164
唐吉_诃德 607 162
can_sunny 734 159
LeprechaunTon 478 157
女鬼小倩 554 153
Nefeli要过正常人的生活 602 146
猪头开Lucas 403 140
elemenTY 690 139
彤言彤趣 577 136
左后卫左后卫 377 136
soulwangh 414 136
不动点- 432 133
Gossip_Nathen 425 133
我是小志童鞋 1271 126
yangleicq 320 124
nsol 397 115
毛毛虫_Oak 618 112
心卧缘 323 111
十九向日葵 1371 110
codememory 385 110
薛定谔的粥稀稀 357 100
雪中炭忐d 662 88
Preec 314 87
呼和浩特书友会 1298 65

最后附上一段短小精悍的代码。lijian哥的Rweibo包真是给力!

相关 [微博 用户 index] 推荐:

微博用户影响力评价的H-Index指数

- - 统计之都
H-index其实更广泛的应用于学术论文评价,其定义为:. h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次. 约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力. 一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝.

CSS中的z-index属性

- - IT技术博客大学习
标签:   z-index. css中z-index也是常用的一个属性,这个z-index说的就是第三轴的位置,网页实际是二维的,但是页面上的元素堆叠的层次就可以看作为第三轴,所以z-index也就很好理解了,在z轴上的索引. 好吧我再说的直白一点这里的z-index指的就是哪个元素显示在上面,哪个显示在下面,数值越大的越靠上,会把z-index值比较小的元素挡住.

关于z-index的那些事儿

- - 前端观察
关于z-index的真正问题是,很少有人理解它到底是怎么用. 其实它并不复杂,但是如果你从来没有花一定时间去看具体的z-index相关文档,那么你很可能会忽略一些重要的信息. 好吧,看看你能否解决下面这个问题:. 在 接下来的HTML里 有三个
元素,并且每个
里包含一个元素.

理解 B*tree index内部结构

- - CSDN博客数据库推荐文章
转载请注明出处: http://write.blog.csdn.net/postedit/40589651.     Oracle数据库里的B树索引就好象一棵倒长的树,它包含两种类型的数据块:一种是索引分支块,另一种是索引叶子块 索引分支块包含指向相应索引分支块/叶子块的指针和索引健值列(这里的指针是指相关分支块/叶子块的块地址RDBA.

index rebuild和rebuild online的区别

- - CSDN博客数据库推荐文章
       曾经看到过淘宝的这个面试题:在一个24*7的应用上,需要把一个访问量很大的1000万以上数据级别的表的普通索引(a,b)修改成唯一约束(a,b,c),你一般会选择怎么做,请说出具体的操作步骤与语句.        先online建索引添加约束,然后删除原理的索引.        为什么要用online呢.

利用 index、explain和profile优化mysql数据库查询小结

- - 博客园_首页
想必大家对index,explain和profile的利用也很多,这是我最近两天优化mysql语句查询资料整理的一些内容,希望大家可以一起来补充一下. 1.最好是在相同类型的字段间进行比较的操作. 在MySQL 3.23版之前,这甚至是一个必须的条件. 例如不能将一个建有索引的INT字段和BIGINT字段进行比较;但是作为特殊的情况,在CHAR类型的字段和VARCHAR类型字段的字段大小相同的时候,可以将它们进行比较.

Oracle rebuild index 使用 parallel 时 与 并行度 的注意事项

- - CSDN博客推荐文章
一.Rebuild 索引 与 并行度 说明. 在之前的Blog里整理了一些列有关索引相关的Blog,如下:. Oracle 索引 详解. 如何加快建index 索引 的时间. Oracle 索引扫描的五种类型. Oracle 索引的维护. Oracle alterindex rebuild 与ORA-08104 说明.

使用ssd硬盘加速 mysql index查询

- - CSDN博客数据库推荐文章
使用ssd硬盘加速 mysql index查询. 更多文章请参考: http://www.javaarch.net/jiagoushi/index.htm . 如果数据量比较大,而ssd容量又不是很大,那么可以考虑把index索引数据存到ssd上,把表数据还是存在旧的硬盘上. 那么怎么让mysql把index索引建在ssd上并使用ssd上的index数据呢.

MySQL InnoDB 與 PostgreSQL 的 Partial Index(es) 是不一樣的東西…

- - Gea-Suan Lin's BLOG
MySQL InnoDB 指的 Partial Index 是:. An index that represents only part of a column value, typically the first N characters (the prefix) of a long VARCHAR value..

华为HBase二级索引(Secondary Index)细节分析

- - 数据库 - ITeye博客
华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其 二级索引方案,这在业界引起极大的反响,甚至有人认为,如果华为早点公布这个方案,hbase的某些问题早就解决了. 其核心思想是保证索引表和主表在同一个region server上. 目前该方案华为已经开源,详见: https://github.com/Huawei-Hadoop/hindex.