[转][转]内容匹配广告投放技术

标签: | 发表时间:2015-02-03 10:10 | 作者:heiyeshuwu
出处:http://blog.csdn.net/heiyeshuwu


ps: 本文是百度文库课程 《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!



内容匹配广告投放技术1:网盟概述&工程架构

课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d


第一章:内容匹配广告投放技术:网盟概述&工程架构
这章讲述内容匹配广告投放技术的概要,包括基本概念,系统框架,以及应用技术。

四大角色——互联网广告涉及的四大角色,其中网盟是用户看不到的。


网盟广告检索系统——这是一个从子系统角度看的网盟广告检索系统,主要包括页面特征子系统,用户特征子系统,广告特征子系统,检索子系统,CTR预估子系统


网盟广告检索系统所需要用到的技术,从底向上是从基础到高级应用。

应用技术——分层实验框架
广告系统优化是数据驱动,需要实验证明结论。

应用技术——用户识别
以下是应用技术层面的用户识别可以使用的技术,其中广告行业用到的最多的是HTTP COOKIE和FLASH COOKIE

用户识别技术新动向——CookieMatching

应用技术——高性能检索
细分为计算模型,网络模型,索引模型
触发策略将会通过query向量得到一批广告,然后通过交并进行归并(使用归并算法),过滤策略将会过滤一些网站主不允许投放的一些广告,初选策略会选出一些相关性从高到低的已排序广告(一般使用堆排序算法),精选策略将会精选出收益最高的广告。

********************************************************************************************************************
********************************************************************************************************************

********************************************************************************************************************

********************************************************************************************************************
********************************************************************************************************************

********************************************************************************************************************

索引的实现一般使用两种结构:树形结构和hash结构。
使用内存池的好处:1)分配内存的时候不用从用户态切换到系统态而消耗大量时间(操作系统用malloc申请内存的时候需要从用户态切换到系统态);2)内存碎片更少,使管理更加高效。


广告主操作广告的系统会在独立的服务上面,广告检索系统也在独立的服务上面,两者在物理上是隔离的,要将数据从广告主操作广告的系统传输到广告检索系统中,如果保证实时高效?一般采用如下基准加增量的形式,可能每天两次传一个100G的基准过来,然后后面广告主对广告的操作都会通过patch的形式增量的传输过来,最后进行合并形成最新的库。

无锁读写分离:采用COW,如果读的时候又有写操作,那么读的时候是读的旧版本,写的时候会将之前的版本复制出来进行修改变成新版本,这样就是读写分离,写完之后进行版本切换,版本切换就是一个指针的切换,是一个原子操作。延迟销毁:因为在多线程中,老版本的数据不能立即销毁,因此切换后可能使用老版本的线程并未结束,还需要访问这些老版本的数据,所以等待1到2秒等待线程结束后对老版本进行销毁。

需要使用普通的服务器承载大容量的广告库,当一台服务器内存不够用时,加一台机器进来就可以,但此时内存中的索引如何扩展呢?划分partition索引系统,既可以横向划分索引(将词划分成组,不同机器存储不同的组),也可以纵向划分索引(将拉链切开成组,可能一开始有20长度的链,划分成只有5个长度的链)。

partition划分,数据和计算的可扩展是基础,如果数据和计算不是可扩展的,那将不可能能进行划分。拿宽带增长为例,比如在一台机器上做top100的计算,如果数据划分到4台机器上做top100计算,那么每台机器上都要返回top100,将一共要返回400条数据,然后在400中做top100,此时宽带增长为4倍了。



下图是索引扩展的逻辑结构,用户请求过来之后做流量控制,将一个请求拆解成多个请求,分到不同的Cluster里面,每个cluster里面都会有很多的query节点去处理这个请求,每个cluster里面的数据和程序是一模一样的(完全同构),每个cluster里有一个索引节点Index Node,索引节点会定期的把广告的索引下载一个基准出来,当query节点要重启的时候,就可以用这个最新的基准加上最新的增量进行快速的启动。下部分的广告数据传输采用的是分布式的消息队列。整个集群的逻辑分布,哪个集群部署了哪些数据是通过资源定位服务来记录的,通过此服务就知道哪个请求该发到哪个集群里去才是正确的。



内容匹配广告投放技术2:网盟广告匹配(一)



第二章:网盟广告匹配
这章包括 网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。

第一节:网盟广告投放
网盟生态圈,ROI:投资回报率


网盟广告投放

**************************************************************************************************************
**************************************************************************************************************

联合总结起来如下:

第二节:广告匹配算法
低margin的概念:网盟的收入跟他的投入之间的gap很小。比如10w次的展现使用一台机器能赚到100块,这100块比一台机器的价值高不了多少。

广告检索系统为漏斗模型的原因主要还是在算法效果和性能之间寻求一个折中。漏斗模型从上到下,上层的算法是比较简单的,能够处理大批量的广告,越到下层,算法越精细,它将计算一些topK的广告。

片段触发:广告索引中,索引的key是片段(用户或者页面会提供一些片段,比如说代表这个用户或者网页的关键词或者分类,这是用户特征挖掘子系统和网页特征挖掘子系统所做的事),然后倒排拉链中是一些广告(平均一个拉链大概是几千),通过把用户跟网页转化成片段就能够触发一批广告;
相关性排序:由片段触发拿到一批广告候选集,这些广告要和这个用户上下文和页面上下文做一个匹配,低相关性的广告将会被去掉;
业务过滤:比如说广告主没有预算了,地域限制等,过滤剩下的广告大概为100个;
CPM排序:CPM即基于广告显示次数,每千人成本(网盟和网站主的利益最大化),CPM越高的广告会越排在前面;
机制调整:由于用户体验和广告主的一些收益问题而进行机制的调整。

**************************************************************************************************************


匹配度一般包括三类,词项的匹配度,潜在语义的匹配度 ,分类信息的匹配度 。


最后的相关性可能是以上三类匹配度再加上其他的各种各样的因素最后得到的一个模型,这个模型很可能就是一个简单的回归模型,这个回归模型则需要人工标注语料,进行模型训练。另外还有一些行业规则,比如某一类的流量只能出某一类的广告。

**************************************************************************************************************
**************************************************************************************************************

过展现控制:控制某个广告对某个用户的重现率,使用户体验更好。







第二章:网盟广告匹配
这章包括 网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。

第三节:页面特征提取
三类特征,用户特征来自用户的历史行为,页面特征来自用户当前浏览的页面。
**************************************************************************************************************

第四节:用户特征提取
用户特征提取包括以下5个方面,接下来分别从这5个方面进行阐述

拍卖词要被包含在Query中,切词/专名边界校验,比如词是“满城尽带黄金甲”这是一个电影名,一个完整的词,不能把它切割成包含“黄金”的词。


历史浏览页面的特征提取有些与页面特征提取类似。

***********************************************************

***********************************************************


时效性因素:时效性在广告点击中的作用。横轴是某搜索词发生的时间跟当前广告检索请求发生的时间之间的间隔,单位为分钟,纵轴是点击率,当搜索请求与广告检索请求在相近时间发生时,此广告点击率非常高。

***************************************************************************************


通过对用户session的分析,可以知道用户正在做什么,比如用户搜索魔兽宝宝,如果此时进行关键词提取,那么我们没有足够的信息来判断到底是游戏还是育儿,通过分析用户下来所做的行为session,比如接下来又搜索了游戏的道具等,这样就可以修正关键词的提取,将魔兽宝宝定为一个游戏关键词,而不是宝宝。



第四节:广告特征提取
拍卖词特征是指广告主所指定的有关受众的词语。创意特征是指网页上展现的是什么内容,图片的,文字的或者flash的。到达页特征是指广告主所提供的用户点击广告后跳转的页面特征。

拍卖词特征提取可能涉及自然语言处理的一些东西,比如要确定“空调维修”中主体是空调,维修是意图。
************************************************************************************************
************************************************************************************************

广告特征提取后的应用




内容匹配广告投放技术4:网盟CTR预估


第三章:网盟CTR预估
第三章主要包括三小节:CTR预估背景,CTR预估特点,CTR预估模型
CTR即广告点击率

第一节:CTR预估背景
在点击计费时,用得最多的是广义二阶价格拍卖体系。
b是广告主愿意出价的价格,p是预估CTR概率(即点击的可能性有多少)。那么b*p表示展现一次广告最有可能获得的收益是多少。
最后实际收费是按照折算后的计费方式,广告主自己的广告支出费为后一名的收益比上自己的CTR,意思是价格不能再比这个值低了,再低就不能获得这样的排名了。比如 b1<b2p2/p1 的话,那么则左右同乘以p1,得 b1p1<p2p2,那么1就不是winner了。这样的话,可以鼓励广告主,如果你想每点一次少付钱,那么可以优化分母CTR,p,将CTR,p优化成最大。


第二节:CTR预估特点
本节主要讲述CTR预估在机器学习中有什么特点。
广告请求query(i)表示用户访问某个网站时,网站会对网盟发出一个广告请求,同时这个请求还会传送一些该用户特征,该网站特征等,然后网盟(CTR预估系统)会在很短时间内选出一个广告来填充这个网站的广告位。从这个过程中可以看到CTR预估系统的特点:1)响应快;2)库量大;3)持续学习能力(即如果之前出了一些不好的广告,预估系统能否学习,为后面作出更好的选择)


以下是整个点击率预估-机器学习模型的概要。训练数据就是通过展现日志得到了,一个网站的请求q(i)下展示ad1,ad2...adn个广告,后面的0,1表示是否点击了。得到庞大的广告-检索对集合训练数据后,就可以进行模型训练得到预估模型f(q,ad,w),然后测试数据(adi,?)表示该广告adi在q,w的条件(参数)下的预估模型是多少。
************************************************************************************


Online在线算法:每一个新广告到来的时候模型都更新一次。Batch算法:每一批新广告到来的时候模型都更新一次。一般Batch算法的数据量大较稳定,在线算法的时效性更强,但数据较少稳定性较差。


如果老投放精准的老广告,这些老广告能拿到的收益最大,但新广告也要需要投放,也需要投放后进行精准投放的学习,这就涉及到短期收益和长期收益的问题。



第三节:CTR预估模型

流程概要,然后分细讲解


特征进行数值化表示。
one-host编码:比如站点表示,10w个站点用长度为10w的01串表示,表示某站点时某位为1。
由于特征数巨大,数据稀疏,因此要进行特征选择。
Filter类:只考虑单个特征;
Wrapper类:克服单特征缺点,考虑特征之间的交叉组合关系。缺点是计算量大;
Embedding类:综合Filter类和Wrapper类。
AUC的英文全称为 Area Under Curve,AUC的意思是曲线下面积,AUC经常用于统计ROC曲线的面积,用来量化评估广告的CTR质量。

**************************************************************************************************************


回归模型和参数(β)学习方法。


MPI模型训练的特点是内存都很大,数据和计算是分离的。MPI主要是在计算的角度进行设计,Hadoop主要是在可扩展性的角度进行设计。



线上评估一般会将流量平均分到线上系统和线上评估系统,然后进行比较各个指标。

*************************************************************************************************************





内容匹配广告投放技术5:品牌展示广告(一)



第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第一节:品牌展示广告基本概念
展示广告的分类,展示广告不属于搜索广告。
品牌广告和直效广告的区别在于,品牌广告是向大众传递一种消息,给大众留下正面印象,注重长期营销。而直效广告是要直接做出营销。基于中间状态的一种广告叫着互动广告,这些广告的衡量成功与否有很大不同。
**************************************************************************************************************
*******************************************************************************************************************
***************************************************************************************************************
***************************************************************************************************************
******************************************************************************************************************
*************************************************************************


第二节:品牌展示广告卖售
广告代理商就是帮助广告主去做广告的人,他们熟悉广告投放方式,手里有一些合作网站主媒体。
售卖平台把广告代理商或者广告主和媒体联系起来的平台,比如Ad exchange,DSP/SSP。

*************************************************************************
**********************************************************************************************************
独立售卖是左边的图,此时售卖方和媒体是同一个机构。右边图中间N是network,广告联盟的方式。
CPD:cost per day,包段
CPM:每一千次多少钱。GD:guarantee display 确保展现。比如广告主充X元,那么售卖方需要在这段时间内确保展现多少次以确保这些钱消耗完。
***********************************************************************************************************
************************************************************************************************************
***********************************************************************************************************

目前市面上有两类广告平台,一类拥有自身媒体的广告平台,像雅虎自身媒体的广告平台,或者国内的新浪,优酷等,一类比如double click,adsence谷歌网盟。拥有自身媒体的广告平台,有一部分广告来源是由于公司自身有一个良好的网络媒体,他们希望广告在自己的媒体上售卖,卖得好而且有这样的技术;另一类就是网盟形式,由于自己没有好的网络媒体,但有技术,这样的话广告主和网络主都来找网盟。这是两套不同的形式,有不同的渊源和运作逻辑,前者一般是品牌和效果。但是前者这种拥有自身媒体的公司,由于技术的共通性,自身的流量肯定会有一些剩余卖不掉的,要么可能是淡季,要么是销售的原因,要么也可能由于技术的原因等,那么这些剩余的卖不掉的流量就可以以NGD的形式把它放在网盟里或者Ad exchange里卖掉。







内容匹配广告投放技术6:品牌展示广告(二)


第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第三节:品牌展示广告的精准投放技术
*************************************************************************************************************
***********************************************************************************************************

户籍信息,地理信息,生活方式心理感受,目标重定位


户籍基本信息,比如职业和收入决定了这个人的购买力,是否有高端产品的购买力。
数据采集,能从什么地方采集到用户的这些信息,我们知道广告平台有两种形式,一种是拥有自己媒体的广告平台,一个是网盟,其实,要采集的这些信息某些网站上不一定有,他们可能通过自己的注册信息或者通过数据整合等得到,其中,DMP数据管理平台一般拥有收集整理这些信息的能力,那么广告平台或者广告商可以通过与DMP合作的方式得到这些信息,或者通过已有的注册信息和特征运用机器学习技术来预测某些属性。

******************************************************************************
*****************************************************************************
*****************************************************************************
*********************************************************************************


其中有一个重要的问题是用户隐私,第一,有关广告平台所用到的用户信息不能包括用户敏感信息,广告呈现给你这么一个人,但与你是哪个人,叫什么名字并不知道,并没有对号入座,使用的这些信息是用来改进自己的产品;第二,所给出的广告需要对用户有好处而不是产生不好的影响。



内容匹配广告投放技术7:品牌展示广告(三)



第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第四节:品牌展示广告的基础技术
媒体都可以预测自己的媒体流量。Admission Control:在已有订单的展现情况下,还有没有资源能够接受此订单,或者拿进来后没资源了,但考虑拿进来后是收益更大还是罚款更大等等,具体过程如下图

具体决策如下:
库存分配问题:


具体决策如下,这是一个有限制条件的明确的规划问题。
价格体系:

第五节:品牌展示广告的效果评测
著名的效果评测CTR点击率,但品牌广告对点击率并不感冒,那么怎么衡量呢?
问卷调查:
互动指数(Engagement Index):
*************************************************************************************************************


文章来源:http://blog.csdn.net/suqier1314520



作者:heiyeshuwu 发表于2015/2/3 2:10:30 原文链接
阅读:31 评论:0 查看评论

相关 [匹配 广告 技术] 推荐:

[转][转]内容匹配广告投放技术

- - heiyeluren的blog(黑夜路人的开源世界)
ps: 本文是百度文库课程 《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度. 内容匹配广告投放技术1:网盟概述&工程架构. 课程地址 http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d. 第一章:内容匹配广告投放技术:网盟概述&工程架构.

互联网精准广告定向技术

- - 月光博客
  互联网精准广告定向技术,指的是依托于搜索引擎庞大的网民行为数据库,对网民几乎所有上网行为进行个性化的深度分析,按广告主需求锁定目标受众,进行一对一传播,提供多通道投放,按照效果付费.   本文的写作初衷是总结自己的知识,将知识从片段的、隐形的转化为可以向别人讲述、能够给人帮助的. 在总结的过程中自己也提升了很多,同时希望这些内容能够切实的给刚进入这个行业的同学们以帮助.

传Google已提出收购Yahoo广告技术业务方案

- - 36氪
据科技博客 BusinessInsider报道,消息人士透露Google已于3月前向Yahoo提出收购其广告技术业务的方案. 该方案在Scott Thompson还在担任Yahoo CEO时就已提出,但是当时没有获得通过,不过该谈判至今仍在进行. 之前有消息称, Accenture和IBM都对Yahoo的广告技术和客户感兴趣.

看懂!互联网精准广告定向技术

- - 互联网分析
Http Header之User-Agent. User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA. 它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识. 通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑访问是不一样的,这些是谷歌根据访问者的UA来判断的.

谁说移动广告没前途?地理位置技术普及让广告商们又兴奋了

- - 钛媒体TMTpost—把脉科技资本论
据国外媒体报道,在全球在用的12亿部智能手机中,7.7亿部支持GPS(全球定位系统),地理位置数据已经开始“弥漫”在整个移动领域. 采用地理位置技术的移动 广告因其效果和高高在上的价格令业内人士感到激动. 许多移动 广告交易平台最近都报告称,采用地理位置技术的移动 广告映像增长了3位数. 报告还阐述了地理位置数据推动移动 广告业务增长的途径:.

solr相似匹配

- - CSDN博客推荐文章
相似匹配   在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档. Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能. 如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandler 与 MLT 结合在一起,并添加了一些其他选项,但它要求发布一个单一的请求.

技术篇:央视事件中移动广告公司的SDK简单分析

- - 雷锋网
早上一来微博就看到一篇报道,央视爆移动广告行业获取用户隐私信息,有米、哇棒、赢告榜上有名. 开头看着是好奇,移动广告行业才2,3年时间,比起其他成熟的广告方式,能得到央视关注的机会着实不多. 接着便是好笑又有点无奈,正如微博上有些业内人士说的:媒体对行业了解不深,销售人员出于销售天性,夸大其词,结果是“一拍即合”,让媒体理所当然地得出移动广告严重侵犯用户私隐的结论.

execution匹配符解析

- - CSDN博客推荐文章
Spring AOP 用户可能会经常使用 execution切入点指示符. 除了返回类型模式(上面代码片断中的ret-type-pattern),名字模式和参数模式以外, 所有的部分都是可选的. 返回类型模式决定了方法的返回类型必须依次匹配一个连接点. 你会使用的最频繁的返回类型模式是*,它代表了匹配任意的返回类型.

字符串匹配那些事(一)

- jiessie - 搜索技术博客-淘宝
本系列文章主要介绍几种常用的字符串比较算法,包括但不限于蛮力匹配算法,KMP算法,BM算法,Horspool算法,Sunday算法,fastsearch算法,KR算法等等. 本文主要介绍KMP算法和BM算法,它们分别是前缀匹配和后缀匹配的经典算法. 所谓前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从左到右;所谓后缀匹配是指:模式串和母串的的比较从右到左,模式串的移动从左到右.