如何给一条 Twitter 消息建立衰变模型?

标签: 工具 推荐 Twitter 半衰期 推讯 | 发表时间:2011-05-19 02:16 | 作者:pestwave zeng
出处:http://www.36kr.com

Bitly Model

有时流量数据会让人上瘾。谁不想看看到底谁在浏览自己的网页呢?但你肯定没有见过《连线》作者 Rhett Allain 这么玩儿数据的:为一条含有链接的推讯建立衰变模型。

Bitdata

bit.ly 会给任何 bit.ly 链接提供即时数据。你只需在 bit.ly 链接后面加上一个“+”即可以看到该页面的访问信息,比如这个:http://bit.ly/loMBP9+。很酷吧。

上面这些数据来自Rhett的一个链接,流量高峰几乎可以肯定是因为《连线》官推(@wired)发了一条含有该链接的推讯,该账户有85万粉丝。而 Rhett(@rjallain)只有500多粉丝。

可以像考虑衰变问题那样为上述流量建模吗?

Rhett当时的第一反应就是这些数据看上去像是放射性衰变。于是他打算计算出一条转发推讯的半衰期。什么是半衰期呢?

他假定有某种东西,比如放射性原子或啤酒沫。假设这种东西数量为 (N),并且假定这些东西减少的速度与其数量成比例。在给定的时间间隔 Δt 内,可以表达如下:

La te xi t 1

如果 Δt 趋于零,我们可以得到一个导数。数量是时间的函数:

La te xi t 1 1

这一点很容易验证。只要看数据是否满足某个指数函数。当然,除了连线官推(@wired)带来的流量之外,还有其它因素,但几乎可以忽略不计。

下面是流量数据和指数函数的拟合情况(通过 Vernier 的 Logger Pro 软件模拟而成):

Bitlydata.Cmbl

拟合函数和拟合参数如下:

La te xi t 1 3

点击基准数为 Logger Pro 自动添加。这表明在指数衰变模型下,Rhett每分钟能获得约20次点击。N 并非总点击数,而是每分钟点击数。把点击数作为时间的函数,可以得到一条plot曲线。

Bitlydata.Cmbl 1

似乎衰变模型并不适合这种情况。每分钟点击次数的减少速度似乎和每分钟点击数无关。于是他打算换个方法。

另一个流量模型

接着 Rhett 采用了一种完全不同的办法,假定如下:

  • @wired 转发了这个链接。
  • 有85万关注者可能会看到这个链接。此处忽略了那些看到链接的非关注者。将此变量设为 F。
  • 这些关注者中的确有些会查看自己的 Twitter 消息。假定这部分关注者为 w。
  • 这些看到链接的关注者中还有一部分会打开链接,假定这部分人为 c。
  • 还有些人会通过其它途径点击该链接,但和连线官推无关,假定这部分人为 B。

用图表可表示如下(大圈为总关注者数,中圈为查看者,小圈为点击者):

也就说是只有一部分关注者会看到这个链接,并且其中只有一部分会点击链接。

含有链接的推讯发出一分钟后,所获得点击数如下:

La te xi t 1 4

那么下一分钟呢?还有 F 个关注者,但如果他们点击过的话不会再次点击。担忧例外,比如 Rhett 的老爸通常一个链接会点击两次,因为他认为只有这样才能打开链接。

w 也可能生变。但这里假定其近似为常量。

那么点击链接的人数 c 呢?这部分人更少。假定你是一名 Twitter 用户,第一分钟内没有点击该链接。现在你在看到这个链接之前已经看过20条推讯。那么你点击这条含有链接的连线官推的几率有多大呢?这取决于推讯的多少,以及你的冲动程度。但显然不是线性函数关系,因为如果是的话过一段时间之后几率会变成零。

假定你是一名看到这个链接的人,并假定每分钟你都会在feed中看到一个新链接。Rhett 假定你点击某个链接的几率和链接总数成比例。所以,前两分钟内:

La te xi t 1 6

l 是某个常量,代表增加的推讯数。0.25 是一个假定比例,针对没有链接被点击的情况。

在这里假定其它点击次数(B)也为常量。还有另一个假设,有些点击者会转发该链接,假定其为二阶效应,可以忽略不计。

由此得出第二分钟内的函数关系:

La te xi t 1 5

N1 代表第一分钟内的点击次数。然后Rhett在 Google 文档内对该模型进行了研究。得出以下参数:

  • w = 0.02
  • B = 15

对于 c,取 l0 = 25,亦即假定每分钟普通推友能看到25条新推讯。通过这些推讯,Rhett得出一个概率系数0.45。结果好于预期。

Bitly Model

拟合的不错,但 Rhett 相信可以找出一个通用模型。

另一起事件

推友 @majornelson 更新了一条含有 Rhett 文章链接的推讯此人友24万粉丝。

Bitlydata 2

Rhett 打算通过这次事件验证上面的出的模型。假定两者粉丝情况类似,以便得出相同的 w 和 c。同样假定 B=5,这样变量只有一个 F

Bitly Model 1

拟合度并不理想。可能原因如下:

  • 模型本身问题。
  • 两者粉丝截然不同。这意味着 Rhett 模型的某些参数有所不同。
  • 和每天中的时间段有关。连线发推是在中午12点左右,而后者在3:30左右。Rhett 的模型没有考虑到时间段。

Rhett 首先验证第二点。这种可能性很大,后者粉丝明显少于前者,但在第一分钟内点击次数类似。Rhett把@majornelson事件中的 w 从 0.02 调高到 0.055,得到下面的曲线:

Bitly Model 2

还不错吧。Rhett 认为 @majornelson 的粉丝更有可能查看自己的 Twitter feed。他觉得这说得过去。或许很多连线的粉丝都真正注意吧。

来源:《连线》

Rhett Allain 为东南路易斯安那大学物理学助理教授,喜欢教授和讨论物理学。有时把东西拆散了无法组装回原样。你可以在 Twitter 上关注他(@rjallain)。

 

转载请注明:文章来自36氪

新浪微博 人人 腾讯微博 网易微博 抽屉 鲜果 QQ空间 九点 Twitter Facebook email

相关 [twitter 消息 衰变] 推荐:

如何给一条 Twitter 消息建立衰变模型?

- zeng - 36氪
谁不想看看到底谁在浏览自己的网页呢. 但你肯定没有见过《连线》作者 Rhett Allain 这么玩儿数据的:为一条含有链接的推讯建立衰变模型. bit.ly 会给任何 bit.ly 链接提供即时数据. 你只需在 bit.ly 链接后面加上一个“+”即可以看到该页面的访问信息,比如这个:http://bit.ly/loMBP9+.

《今日美国》报Twitter账户被黑:发嘲讽消息

- Dennis Lee - cnBeta.COM
据国外媒体报道,在9月9日入侵NBC(美国全国广播公司)新闻Twitter账户并发布虚假消息称准备攻击世贸中心遗址的黑客组织,现在显然也劫持了《今日美国》报的Twitter账户,并发布了一系列明显带有嘲弄意味的消息. 这个黑客组织名为The Script Kiddies,它在Twitter上以奚落的口气发布消息质问Twitter是否胆敢再暂停这个组织的账户,而且它还鼓励Twitter用户投票决定下次攻击哪个账户.

Twitter每天消息量2.3亿条 45%来自移动设备

- HRS - cnBeta.COM
Twitter工程副总裁迈克尔・雅培(Michael Abbott)在接受采访时说,这些天来,Twitter每天发送的2.3亿条消息(tweet)中45%来自移动设备. Twitter原来的平台SMS(短信)继续作出贡献. 雅培说,每天Twitter用户发送和接受40亿条短信.

Twitter升级发现标签:提高消息相关度

- - 微博之博
新浪科技讯 北京时间9月29日早间消息,Twitter周五推出了最新版“发现”(Discover)标签,用户从此将可以看到与他们更相关的 twitter消息. 该公司去年12月在Twitter.com上面推出了“发现”功能,旨在“让用户从网络上挖掘重要信息,我们已在5月份添加了更明显的信号标记和新设计,从此可以根据用户关注的账号向他们提供更个性化的信息.

Twitter消息成对冲基金经理预测股价走势利器

- Miro - cnBeta.COM
据国外媒体报道,微博网Twitter上的数百万条消息已成为了对冲基金经理预测股市走势的利器. 多年前,股票交易者就已开始通过了解人们的共同情绪来预测股价的走势. 但是现在,专家们发现,Twitter消息由于具有直接性的特点,因而可以更准确地测量人们的情绪. 以前,人们以为股市的跌落导致人们产生了负面情绪,但是,现在看来事实正好相反.

一个 Chrome 扩展可以让你以Google+、Twitter、Facebook任意为中心,互相同步状态消息

- lichzy - 36氪
现在已经有不少扩展或工具想要实现让 Google+、Facebook 和 Twitter 之间的信息同步更加容易,但是目前来看可能 Publish sync for google+ & facebook 是最好的一个. Publish sync for google+ & facebook 是一个 Chrome 扩展,允许用户在 Google+、Facebook、Twitter 或 Plurk 任意一个平台发布消息,实时同步到其他三个平台上去,可选同步一个或多个平台.

碧昂斯怀孕消息创Twitter信息发送量新纪录,每秒8868条

- clowwindy - 36氪
歌坛天后碧昂斯昨晚在MTV音乐录影大奖颁奖典礼的表演时,当众公布了自己怀孕的事实,关于这一消息的Twitter消息发送量也创造了一个新纪录,每秒8868条的发送记录. 这届MTV颁奖典礼也创造了一个新的在线收视记录,一天230万的收视量. 碧昂斯怀孕的消息能创造Twitter信息发送量的新纪录,这无疑令很多人倍感意外.

Twitter 中文版

- 幻幽 or A書 - Gea-Suan Lin's BLOG
前幾天 Twitter 推出了中文版 (包括繁體與簡體):「Five new languages」. 對岸的市場可能還是進不去,但在台灣會加速 Plurk 的死亡… 從 Google+ 的出現以後就愈來愈明顯了,現在 Microblogging 的大魔頭再加入戰局,應該會更快….

Twitter和Facebook合作

- Woooon - cnBeta.COM
很重磅的新闻,两大社交网络巨头开始有合作了. Twitter 今天在用户的个人档案页面添加「Post Tweets to Facebook」按钮,让用户快速将自己的 Tweets 同步到 Facebook 状态中去.

twitter-mysql改进点

- - CSDN博客推荐文章
目前最新的twitter-mysql版本基于mysql5.5.22,以下总结了一些比较明显的改进点,大部分已经亲自证实,其他一些诸如修复的比较次要的问题(例如编译问题)这里暂不列出,可以详细参阅 https://github.com/twitter/mysql/wiki/Change-History .