广告计算——平滑CTR

标签: 广告 计算 平滑 | 发表时间:2016-01-12 02:19 | 作者:google19890102
出处:http://blog.csdn.net

一、广告计算的基本概念

1、广告的形式

在互联网发展的过程中,广告成为了互联网企业盈利的一个很重要的部分,根据不同的广告形式,互联网广告可以分为:

  • 展示广告(display ads)
  • 赞助商搜索广告(sponsored search)
  • 上下文广告(contextual advertising)

2、竞价模型

对于在线广告,主要有如下的几种竞价模型:

  • 按展示付费(pay-per-impression):直观来讲,按展示付费是指广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型;
  • 按行为付费(pay-per-action):按行为付费是指只有在广告产生了销售或者类似的一些转化时,广告商才付费;

当然,对于以上的两种竞价模型各有其局限性:在按展示付费模型中,压根没有考虑到广告的效果,只是按照广告流量进行售卖的模式;对于按行为付费模型,虽然其考虑到了广告效果,但其的条件是产生了某种转化,这种转化有时很难追踪和记录。此时,为了解决这两种模型的局限性,通常可以按照一个用户是否会点击广告作为最终的度量标准,即按点击付费模型(pay-per-click)。

  • 按点击付费(pay-per-click):根据用户是否会点击广告来付费。

这里便出现了一个重要的概念,便是广告点击率(the click-through rate, CTR)。

3、广告点击率(CTR)

广告点击率CTR是度量一个用户对于一个广告的行为的最好的度量方法,广告点击率可以定义为:对于一个广告的被点击(click)的次数于被展示(impression)的次数的比值。

CTR=#click#impression

广告点击率对于在线广告有着重要的作用,在网络中,对于有限的流量,通常要选择出最优质的广告进行投放,此时,CTR可以作为选择广告和确定广告顺序的一个重要的标准。

但是在计算CTR时,由于数据的稀疏性,利用上述的计算方法得到的CTR通常具有较大的偏差,这样的偏差主要表现在如下的两种情况:

  • 1、例如展示impression的次数很小,如1次,其中,点击的次数也很小(这里的很小是指数值很小),如1,按照上述的CTR的计算方法,其CTR为1,此时的点击率就被我们估计高了;
  • 2、例如展示的次数很大,但是点击的次数很小,此时,利用上述的方法求得的CTR就会比实际的CTR要小得多。

出现上述两种现象的主要原因是我们对分子impression和分母click的估计不准确引起的,部分原因可能是曝光不足等等,对于这样的问题,我们可以通过相关的一些广告的展示和点击数据对CTR的公式进行平滑处理。

二、CTR的平滑方法

1、数据的层次结构——贝叶斯平滑

假设有N个相同的账号(a1,a2,⋯,aN),对于网页p,对于这样的网页和账号组(p,ai)。假设(C1,C2,⋯,CN)为观测到点击数据,(r1,r2,⋯,rN)为隐含的CTR的值,为点击率,点击率在此是一个隐含的参数,广告是否被点击满足二项分布,即Binomial(Ii,ri),其中,Ii表示广告被展示的次数。

贝叶斯思想认为,隐含的参数不是一个具体的值,而是满足某个分布,我们知道贝叶斯参数估计的基本过程为:

先验分布+数据的知识=后验分布

已知二项分布的共轭分布为Beta分布,对此,有以下的两点假设:

  • 1、对于一个广告,其点击Ci符合二项分布Binomial(Ii,ri),其中,Ii表示的是展示的次数,ri表示的是广告被点击的概率;
  • 2、对于所有的广告,有其自身的CTR,其CTR满足参数是α和β的贝塔分布Beta(α,β)。

假设有N个广告,广告被展示的次数为(I1,I2,⋯,IN),广告被点击的次数为(C1,C2,⋯,CN),上述的两个假设可以表示为如下的形式:

这里写图片描述

其对应的概率图模型为:

这里写图片描述

点击率ri不仅与(Ii,Ci)相关,而且与参数α和参数β相关,我们可以通过计算得到参数α和参数β的估计α̂ 和β̂ ,一旦α̂ 和β̂ 被确定后,则ri的估计为:

ri=Ci+α̂ Ii+α̂ +β̂ 

所以,现在,我们需要求解参数α和参数β的估计α̂ 和β̂ 。

点击C的似然函数为:ℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β),由于点击的次数以及展示的次数之间都是相互独立的,因此上式可以表示为:

ℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)=∏i=1Nℙ(Ci∣Ii,α,β)=∏i=1N∫riℙ(Ci,ri∣Ii,α,β)dri=∏i=1N∫riℙ(Ci,∣ri,Ii)ℙ(ri∣α,β)dri

已知

ℙ(Ci,∣ri,Ii)=rCii(1−ri)Ii−Ci

ℙ(ri∣α,β)=Γ(α+β)Γ(α)Γ(β)rα−1i(1−ri)β−1

则上式可以写成:

=∏i=1N∫riℙ(Ci,∣ri,Ii)ℙ(ri∣α,β)dri=∏i=1N∫rirCii(1−ri)Ii−CiΓ(α+β)Γ(α)+Γ(β)rα−1i(1−ri)β−1dri=∏i=1N∫riΓ(α+β)Γ(α)Γ(β)rCi+α−1i(1−ri)Ii−CI+β−1dri=∏i=1NΓ(α+β)Γ(Ii+α+β)Γ(Ci+α)Γ(α)Γ(Ii−Ci+β)Γ(β)

此时,我们需要求得该似然函数的最大值,首先,我们对上述的似然函数取对数,即为:

logℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)=∑i=1NlnΓ(α+β)−lnΓ(Ii+α+β)+lnΓ(Ci+α)−lnΓ(α)+lnΓ(Ii−Ci+β)−lnΓ(β)

将上述的log似然函数分别对α和β求导数,即为:

dlogℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)dα=∑i=1NΨ(α+β)−Ψ(Ii+α+β)+Ψ(Ci+α)−Ψ(α)

dlogℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)dβ=∑i=1NΨ(α+β)−Ψ(Ii+α+β)+Ψ(Ii−Ci+β)−Ψ(β)

其中,Ψ(x)=ddxlnΓ(x)。通过 the fixed-point iteration方法,可以得到如下的结果:

αnew=α∑Ni=1[Ψ(Ci+α)−Ψ(α)]∑Ni=1[Ψ(Ii+α+β)−Ψ(α+β)]

βnew=β∑Ni=1[Ψ(Ii−Ci+β)−Ψ(β)]∑Ni=1[Ψ(Ii+α+β)−Ψ(α+β)]

上述的求解过程是一个迭代的过程,一旦求出了参数α和参数β的估计α̂ 和β̂ ,便可以求出点击率的估计:

ri=Ci+α̂ Ii+α̂ +β̂ 

2、数据在时间上的一致性——指数平滑

相比上述的贝叶斯平滑,指数平滑相对要简单点,对于CTR中的点击,这是个与时间相关的量,假设对于一个广告,有M天的点击和展示数据(I1,I2,⋯,IM),(C1,C2,⋯,CM)。若要估计第M天的CTR的值,我们需要对分别对I和C进行平滑,得到平滑后的Π和Ĉ 。其计算方法如下:

{Ĉ j=CjĈ j=γCj+(1−γ)Ĉ j−1 if j=1 if j=2,⋯,M

{Πj=IjΠj=γIj+(1−γ)Πj−1 if j=1 if j=2,⋯,M

其中,γ称为平滑因子,且0<γ<1。对于上述的公式,若要计算第M天的平滑点击,可以得到下面的公式:

Ĉ M=γCM+(1−γ)Ĉ M−1=γCM+(1−γ)(γCM−1+(1−γ)Ĉ M−2)=γCM+γ(1−γ)CM−1+⋯+γ(1−γ)jCM−j+⋯+γ(1−γ)M−1C1

参考文献

  • Click-Through Rate Estimation for Rare Events in Online Advertising.Xuerui Wang, Wei Li, Ying Cui, Ruofei (Bruce) Zhang, Jianchang Mao Yahoo! Labs, Silicon Valley United States
作者:google19890102 发表于2016/1/11 18:19:15 原文链接
阅读:224 评论:0 查看评论

相关 [广告 计算 平滑] 推荐:

广告计算——平滑CTR

- - CSDN博客综合推荐文章
在互联网发展的过程中,广告成为了互联网企业盈利的一个很重要的部分,根据不同的广告形式,互联网广告可以分为:. 展示广告(display ads). 赞助商搜索广告(sponsored search). 上下文广告(contextual advertising). 对于在线广告,主要有如下的几种竞价模型:.

计算广告——广告定向实践

- - CSDN博客综合推荐文章
计算广告学涉及到很多的不同的学科知识,包括大规模搜索,文本分析,机器学习,信息检索以及经济学等等. 在计算广告中,其核心问题是在给定的环境下,找到用户和广告之间的最佳匹配,在斯坦福大学的计算广告学中如下的定义:. Computational advertising = A principled way to find the “best match” between a user in a context and a suitable ad..

计算广告入门概念

- - 算法之道
最近开始研究计算广告相关的东西了,那么首先我们要弄懂计算广告中一些常见的概念,本文就让我们一起来整理下吧. 主要参考的两本书:《计算广告》和 《互联网广告的市场设计》. 广告活动的两个主动的参与方是需求方和供给方,被动的参与方是受众. 需求方:这里的需求方包括广告主,代表广告主利益的代理商或其他技术形态的采买方,概括来说,就是想要投放广告的一方.

计算广告点击率预估算法总结

- - 小石头的码疯窝
谈到CTR,都多多少少有些了解,尤其在互联网广告这块,简而言之,就是给某个网络服务使用者推送一个广告,该广告被点击的概率,这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样,也可以复杂到拿到各种诸如龟壳、铜钱等等家伙事,在沐浴更衣、净手煴香后,最后一通预测,发现完全扯淡,被人暴打一顿,更有甚者,在以前关系国家危亡、异或争国本这种情况时,也通常会算上一卦,国家的兴衰、.

计算广告系统算法与架构综述

- - 机器之心
我们当今身处一个被广告包围的时代,无论是走在马路上、收看电视剧、或者是玩手机游戏,都能看见形形色色的广告. 随着时代和技术的发展,广告的形式呈现出多样化、立体化的趋势,从最早的纸媒广告发展到如今的网页的展示、搜索广告,广告的定位也从原先的“广而告之”发展成大数据时代的“精准营销”,相应地,人们对广告的态度也在悄然变化.

Pepsi创意广告

- Homer - 设计|生活|发现新鲜
怎么样,看出广告的创意来了木有…………只是广告和现实总是风马牛不相及. 「设计,生活,发现新鲜」在新浪微博,更即时地获读更新,更直接地交流沟通. © 设计|生活|发现新鲜 | 原文链接 | 投稿 ! | 新浪微博 | 逛逛我们的在线商店. Creat: 佳洁士的创意广告. TOYO TIRES 系列创意广告.

oracle license计算

- Fenng - eagle&#39;s home
Oracle license的计算是基于CPU core的. 用core的数目乘以一个系数core factor就可以得到所需的oracle license的数目. 对于不同的CPU,core factor是不一样的,可以从oracle提供的这张列表中查到 Oracle Processor Core Factor Table.

超雷人AV广告

- saiddy - 宅映像
由AV剪辑出来的视频片段,配上当前流行的各种广告的声音,要怎么YD就怎么荡漾,要怎么牛逼,就怎么花式……算了,我不解释了,大家自己看吧@. 一点小囧:今天我给电脑做体检了. 日剧山寨明星与范冰冰、刘德华、刘谦的那些事儿. 标签:AV, 囧, 广告, 恶搞, 搞笑, 艺术.

酷广告:对决[3P]

- Zoe - 煎蛋
这是来自英国维生素食品Berocca 的一则平面广告. Berocca 号称是一种营养食品,可帮助人们缓解紧张情绪. 而图片中,右侧这些家伙明显就是服用了Berocca 的效果,在他们眼里,对方都不是问题. 一起看广告(3p, 3p …). 酷广告:外星人也爱麦当劳[v]. © 煎蛋 / 随便看看 / 图片托管于又拍网.

APP内置广告凶猛!

- Zen - Tech2IPO
移动应用程序下载率和下载次数一再打破纪录已经成为常态. 应用程序越多,附着在其上的移动广告也就会越来越盛行,其中APP内置广告已经占据目前移动广告预算的5%,虽然有调查指出,18-34 岁的移动用户大部分都不喜欢APP内置广告,但是多数人有记忆、能够说出来的广告,大部份也都是APP内置广告型态,由此可以想见APP内置广告只会越来越多,不论你是喜欢还是不喜欢.