微博用户影响力评价的H-Index指数
H-index其实更广泛的应用于学术论文评价,其定义为:
h代表“高引用次数”(high citations),一名科研人员的h指数是指他至多有h篇论文分别被引用了至少h次。
约在半年前,小编就和一位老师打趣地说这东西能不能用于评价微博用户的影响力。定义相应可以改为:
一名微博用户的h指数是指他至多有h个粉丝数超过h的粉丝。
怎奈后来抓数据奇慢无比,遂放弃。
转过年来,春天都到了,Rweibo这个包也出来好久了,不动手试试多少有点痒痒。新浪微博的API对于测试帐号限制较多,一小时只有150次请求机会。唉,只能无耻的多帐号多API一个个抓。就算这样,到最后在有限的时间之内小编也只成功的抓取了一百多个用户的信息,勉强绘就了一张微博的H-index指数与粉丝数的关系图。
当然,一切的第一步自然是以小编自己的帐号为测试中心。前段时间涨了不少粉丝,貌似却不怎么互动。所以小编有理由认为自己的H-index可能偏低。结果证明,在小编的近1100粉丝之中,只有287人的粉丝数超过了287。这样,小编的H-index就华丽丽的定格在287了。
然后小编好奇呀,那些跟我差不多的人,他们的情况是怎么样呢?于是从自己的粉丝中(我只能直接影响到这些人嘛)上下选了一下,粉丝数>500且小于2000的显然是个不错的对比范围(受限于新浪微博API的控制,力不从心呀)。
不一会儿,数据抓完了。然后算算H-index,就有了下面这张图:
巧的或者不巧的,小编我正好在线性回归线上面。标准用户呀!然后一橫一竖,就可以分出来跟我相比的四群人:
- 左上:粉丝<1095但h-index大于287。这群人得好好关注呀,高质量的圈子!
- 左下:粉丝<1095且>=500,h-index小于287。不过大部分人还是在回归线附近的,所以大家发展趋势还是很好的。那些远远甩开回归线的,是新来的童鞋呢还是僵尸粉呢?
- 右上:粉丝>1095且H-index>287,不用说了,大牛云集的区域!各种羡慕。
- 右下:粉丝>1095但H-index<287。喂,那些离回归线远远的童鞋,你们是不是买僵尸粉啦?坦白从宽哦。虽然新浪不一定检测的出来你的僵尸粉,但是你们的嫌疑大大滴!比如那个“xx书友会”,哼你关注我的第一天我就开始怀疑你了,一直苦无证据,如今,嘻嘻…
————碎碎念的细节———-
1. 新浪微博的API如果只是自己玩玩,还是比较好用的,至少比爬虫要快一点点…而且权限稍微大一点点(比如粉丝可以抓全而不用受限于显示页面)。
2. 如果希望抓全粉丝,就不能用 friendships/followers 而是要用直接抓ID的 friendships/followers/ids.
3. 其实可以递归的继续定义高阶H-index,比如二阶,定义为有h2个粉丝的(一阶)h-index大于h2…对于粉丝动辄过万的大V来说,递归几次可能更有意思。吾等小玩意儿就不用了。
4.然后附上这张图的原始数据…大家的微博ID我就不隐藏了,都可以直接搜到…按h-index指数排序哦。
| weibo_name | followers_count | h-index |
| 崔婧Janet | 1534 | 634 |
| Gideon_Ge | 1682 | 515 |
| 数据逻辑 | 1663 | 508 |
| blogkid | 1409 | 448 |
| 董友良_飘香一剑 | 1334 | 436 |
| 数据鱼_谢宇 | 1887 | 425 |
| 黠之大者 | 1706 | 420 |
| bicloud笑西西 | 1352 | 407 |
| super00011127 | 1270 | 380 |
| MINI金石头 | 1803 | 378 |
| 长颈鹿27 | 1106 | 362 |
| G_will | 1113 | 360 |
| Sevennick | 1357 | 348 |
| Leo在梧桐山下 | 642 | 344 |
| 王昕-CALL谁谁OFFER | 1090 | 339 |
| 波波头一头 | 1216 | 337 |
| 晓帆目标130斤 | 806 | 329 |
| 科隆王子Original | 1139 | 327 |
| 指间战争 | 989 | 326 |
| 小刚C | 898 | 311 |
| 谢益辉 | 1511 | 311 |
| 安泰科宏观部 | 1133 | 310 |
| jia华_伪学术 | 664 | 305 |
| 老马-InSydney | 849 | 301 |
| 洛川有机好苹果 | 1082 | 297 |
| P-Jackie | 967 | 296 |
| 身边汇康康 | 1253 | 295 |
| pepsidav | 785 | 292 |
| jiangfeng_scir | 871 | 285 |
| 王函大帆船 | 929 | 284 |
| 万幸_Wonder | 746 | 282 |
| cloud_wei | 965 | 279 |
| 数据挖掘racoon | 737 | 278 |
| DATA309 | 846 | 277 |
| 左根永 | 690 | 277 |
| 猎头王俊宏 | 925 | 275 |
| 林小妖系小球童 | 700 | 274 |
| rxjia | 942 | 272 |
| lijian001 | 1387 | 271 |
| 大雁_sysu | 627 | 271 |
| 汪琨1987 | 1054 | 270 |
| 许亮_在路上 | 914 | 268 |
| TT小和子 | 742 | 264 |
| TerryMANG | 931 | 262 |
| 李响_ICT_NLP | 656 | 261 |
| 李直 | 840 | 252 |
| AnnaPatio | 641 | 252 |
| 七桃ple | 853 | 249 |
| william_ou | 720 | 249 |
| 雁起平沙 | 675 | 243 |
| 上海芒果商务咨询 | 1472 | 243 |
| 叶茂亮 | 592 | 243 |
| Jordi_Liang | 637 | 239 |
| 天天向上的胖子 | 671 | 238 |
| 爱宇直-抠脚不闻非君子 | 748 | 238 |
| 邓一硕 | 804 | 236 |
| 月亮先生Zsir | 381 | 236 |
| taishanfan | 729 | 233 |
| 智博是老青年 | 1005 | 224 |
| ivanlauCOM | 679 | 222 |
| Puriney | 1180 | 218 |
| 陈筱歪 | 1025 | 215 |
| 百变小倩1314 | 863 | 214 |
| 达斯托洛夫斯基 | 661 | 213 |
| Deer一只鹿 | 1070 | 208 |
| Delphiyeh | 898 | 206 |
| 飞鱼姬Sindy | 417 | 202 |
| mlzboy | 1252 | 200 |
| top糊涂虫 | 441 | 199 |
| 爱美丽高 | 670 | 196 |
| 罗小妮_focus | 467 | 195 |
| thinkfan | 619 | 191 |
| 無限追云 | 438 | 191 |
| 默尔根 | 454 | 189 |
| 黎胖 | 373 | 188 |
| 发现神回复_Denny | 400 | 184 |
| 忙碌的灵麟 | 855 | 184 |
| 谭卫国Forest | 619 | 180 |
| 乐美家的乐子 | 785 | 180 |
| 刘坤林Jason | 617 | 179 |
| omgpumelo | 652 | 179 |
| sirius | 486 | 176 |
| Fancy_zju | 488 | 175 |
| 晨曦彩虹 | 740 | 173 |
| 田宪允 | 588 | 171 |
| 对半切开的奇异果 | 1106 | 167 |
| 八爪鱼Rainie | 485 | 164 |
| 唐吉_诃德 | 607 | 162 |
| can_sunny | 734 | 159 |
| LeprechaunTon | 478 | 157 |
| 女鬼小倩 | 554 | 153 |
| Nefeli要过正常人的生活 | 602 | 146 |
| 猪头开Lucas | 403 | 140 |
| elemenTY | 690 | 139 |
| 彤言彤趣 | 577 | 136 |
| 左后卫左后卫 | 377 | 136 |
| soulwangh | 414 | 136 |
| 不动点- | 432 | 133 |
| Gossip_Nathen | 425 | 133 |
| 我是小志童鞋 | 1271 | 126 |
| yangleicq | 320 | 124 |
| nsol | 397 | 115 |
| 毛毛虫_Oak | 618 | 112 |
| 心卧缘 | 323 | 111 |
| 十九向日葵 | 1371 | 110 |
| codememory | 385 | 110 |
| 薛定谔的粥稀稀 | 357 | 100 |
| 雪中炭忐d | 662 | 88 |
| Preec | 314 | 87 |
| 呼和浩特书友会 | 1298 | 65 |
最后附上一段短小精悍的代码。lijian哥的Rweibo包真是给力!
