为何说大数据精准广告并不靠谱?

标签: 游戏数据 | 发表时间:2015-12-01 11:46 | 作者:刘自强
出处:http://www.techxue.com/forum.php
一、大数据精准广告内涵

大数据目前已经成为整个IT界(包含Internet Technology 以及Information Technology)最热的词汇之一,似乎任何一个话题,只要提到大数据,瞬间变得高大上。一夜之间,大数据已经代替主观的理性思考,成为智慧洞察的代名词。

但是当我们走过对大数据的顶礼膜拜阶段,揭开大数据实际应用的面纱,反而逐渐对充斥着话语世界的大数据进行反思。因为大数据在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。

以大数据的广告应用为例,精准广告投放应该是大数据最早的也是最容易产生直接收益的应用,如今少有广告公司没有宣称自己是大数据科技公司。大数据精准广告的核心内涵是什么?一言以蔽之,那就是程序化定向投放。其中定向是核心,程序化是手段。

以微信朋友圈为例,不定向区域,年初的公开价格CPM(每千次曝光成本,朋友圈广告价格远超一般媒体)40元,定向核心城市140元,定向重点城市90元,如果叠加定向性别,附加10%,再叠加H5外链(流量引导效果更好),再附加20%。就像进口化妆品一样,先按一定比例征收关税,后按含税价格再征收增值税,再按含税价格征收消费税。

对于微信来说,客户地域、性别虽然也需要数据分析解读,但确认相对比较容易。对于其它数据公司来说,地域依然可以通过IP或手机终端GPS获取,但性别更可能就是一个数据分析出的可能属性。当然大数据并不仅仅分析如此简单的标签,对于媒体联盟而言,媒体选择项目众多,还会分析客户媒体偏好标签,还有时间段、人群属性、设备类型、偏好类型等多种定向组合方式。

好了,上面对于精准广告有了一个粗浅的介绍。那么大数据精准广告能带来什么样的价值?通常如下的故事是大数据广告公司经常提及的。

假如一个网站的广告位,每小时有1万人来浏览,则一小时曝光量为1万,之前的CPM为5元,那么一个手机广告主投放一小时广告,成本50元。这是传统广告投放的结果。现在有个大数据公司,来帮助该广告媒体更好的运营。该公司宣称它能够精准识别浏览客户的属性,告诉手机广告主,虽然1万人浏览该广告位,但真正适合投放手机的只有6千人次,剩下4千人次的曝光为无效曝光,因为剩下的人群只对服装感兴趣。

大数据公司建议广告主按照程序化投放,过滤掉不适合投放手机的4千人,仅对适合投放手机的6千人付费,假如单价不变,那么在保证相同效果的前提下,成本降低至30元。剩下的4千人大数据公司将其销售给服装广告主,成本为20元。由此,在相同的效果情况下,大数据广告大幅降低广告主的成本。当然事实上,由于RTB(实时竞价)机制的存在,当价格(效果相同)低到一定程度,不同手机广告主的相互竞价,使得真实价格一般高于30元,但肯定介于30元到原有预期成本50元之间,由此形成多方共同获益的理想局面。

这样的案例看上去Perfect,无懈可击。因为它解决了传统广告的低效问题,比如看起来有用,但又说不清楚到底有用在哪里,这个正是各公司财务总监所深恶痛绝的。是的,通过大数据广告,让一切花在广告上的钱更有依据,可以在线评估一条广告到底造成多少的印象(Impressions),甚至多少点击,多少因此而下载使用,多少因此产生交易。

有问题吗?没问题。有问题吗?你什么意思,难道你要怀疑真理?

二、大数据精准广告没有看上去那么美好

本着证伪的原则,真理只有被证明为谬误的时候(理解其应用的局限及条件),才算真理。因此我们必须先回答一个问题,广告是用来做什么的?

按照以前的共识,广告被视为品牌用来向那些无法面对面沟通的消费者去传达品牌的特性。因此广告虽然对销售有促进作用,但通常时候,广告的内容并不直接说服消费者去购买,就如中国移动曾经的获奖广告“沟通从心开始”一样。2010年出版的《品牌如何增长》(How Brands Grow)一书(说明,笔者未读过,希望将来能读到),作者南澳大利亚大学教授拜伦在书中指出,广告要达到最好的效果,往往不需要去说服或灌输,只要让人在购买的时候回想起品牌的名字就可以了。市场研究机构Milward Brown创始人高登(Gordon Brown)就指出,广告的功能就是让一个摆在货架上的品牌变得“有趣”。

好吧,再回到大数据精准广告案例,其中一个最为关键的问题在于,大数据如何分析出这6千个浏览用户适合投放手机广告?对于这个问题,广告公司早有准备,给出如下的种种答案。

第一,从历史记录中寻找曾经使用过同类产品的客户进行匹配。通常使用的算法叫“协同过滤”,即由某些经验的相关性,找到潜在的适合用户。比如你玩过某款游戏,因此可认为你对该类型的其它游戏也有相同的需求。笔者并不否认该算法对某些领域确实有作用,比如游戏付费用户基本就是之前重度游戏使用用户。

但是抛开这些特殊领域,该算法内涵思想“品牌依靠忠诚的消费者发展壮大”与拜伦的理论完全矛盾。拜伦通过对销售数据进行统计学分析,他指出在所有成功的的品牌当中,大量的销售来自“轻顾客”(Light buyer):也就是购买产品相对不那么频繁的顾客。可口可乐的生意并非依靠每天都喝可乐的人,而是数百万每年喝一次或两次的顾客。这种消费者模式在各个品牌、商品品类国家和时期都适用。无论是牙刷还是电脑,法国汽车或是澳大利亚银行,品牌依靠的是大规模人口——换句话说,大众——那些偶尔购买他们的人。

这个理论意义十分深远。这意味着你永远无法通过精准营销现有顾客来增加品牌的市场份额。而对现有顾客的精准营销,正是数字媒体所擅长的。

本着批判的精神来看待新出现未经检验的思想,笔者希望引用一下广东移动最近公布的用户换机特征数据。广东移动对旗下用户的终端迁移分析表明,使用苹果的用户升级终端,继续使用苹果手机的占比64%,忠诚度最高。但除苹果以外,其余忠诚度表现最好的华为、小米手机,更换4G后持续使用同品牌的占比不到30%。

这说明,你向苹果4或5用户推广苹果6是可行的,果粉效应推翻拜伦的理论,证实在部分领域依靠忠诚的消费者发展壮大是可行的。但除此以外,你向任何一个当前品牌的用户推广同品牌的手机终端都是不合时宜的。

因此,希望通过历史的电商数据分析推断用户下一步可能需要是无效的。就如向曾经购买过服装的用户推广服装,或许不如推广一卷纸或一桶油更为有效。

相反,成功的品牌需要找到一种方式来到达目标市场之外的群体。品牌的广告一定要用某种方式获得这部分人的兴趣——只有这样,当他们在准备购买的时候,该品牌才能自动出现在消费者的脑海中。

第二,如果“协同过滤”存在局限,广告公司会告诉你还有第二种算法,并不基于客户的历史行为记录,而是客户本身特征相似性,来找到与种子客户最为相似的客户群体。简称“Lookalike”。先需要广告主提供本则广告起到作用的典型用户,以手机为例,受广告影响感兴趣点击浏览或预购某手机的用户,大约几百或几千个。大数据公司通过Lookalike算法(专业的术语更可能是稀疏矩阵),寻找与这几百/千个用户高度相似的其它数十万/百万客户群进行投放。

这类算法真正考验大数据平台的计算能力,因为并不是经验性的协同过滤,而是利用数十数百甚至上千个变量进行回归计算。最后按照相似性的概率打分,按照由高到低选择合适的用户群。

该模型的内涵其实很简单,就是广告要传达给应该传达的客户。比如奶粉广告目标用户就是养育0-3岁孩子的父母。如果知道要到达用户的具体身份,一切问题迎刃而解。但是对于网站或APP应用来说,并不清楚用户身份,唯一清楚的是客户的历史行为数据。而且由于数据本身的分割,有的专注于运营商,有的专注于APP联盟采集,有的专注于电商,有的专注于银行,要从分割的数据中推断出客户的身份信息,Lookalike就是不可避免的手段。

唯一的问题是,如果由几百个种子用户推断出新的几百个目标用户,准确性可能高达9成,但如果如某广告公司宣称,对康师傅辣味面进行移动DSP投放时,根据历史投放数据分析挖掘,形成样本库,再通过Lookalike技术进行人群放大,找到与目标受众相似度最高的潜在客户,扩展人群1367万,实际投放受众ID2089万。广告效果投放是最大化了,那么效果呢?在此,请允许我杜撰一个数字,很可能点击率由0.2%上升至0.3%,精准度提升50%。有意义吗?或许有,但绝对没有想象的那么明显。

第三,如果你们持续怀疑我们算法的有效性,那么我们可以就效果来谈合作,你们可以按照点击量(CPC)或者激活量(CPA)付费,如果达不到既定效果,我们会补量。这是大数据广告的终极武器。

终极武器一出,意味着广告的投放彻底沦陷为做点击、做激活的渠道,广告的“沟通消费者”初衷早被抛弃得一干二净。

通常一般消费决策遵行S(Solution)、I(Information)、V(Value)、A(Access)规则,意思是当用户产生一个需求,内心先就满足这个需求形成一个解决方案。比如说3G手机不好用,速度很慢覆盖不好,需要换一个4G终端就成为一个Solution。那么4G终端有哪些,重点考虑那些终端?消费者还是搜集信息,并非从网上搜索,而是根据以往的经历、品牌效应、周边朋友口碑自动回想那些品牌、哪些款式。传统广告的最重要功效应该就是这个阶段,当用户需要的时候,自动进入到用户视线。然后从多维度比较选择,确定首选购买品牌。最后就是去哪儿买,搜索哪儿有促销活动,哪里优惠力度最大。

根据SIVA模型,真正的以效果为导向的广告本质解决的是Access问题,最后的临门一脚。在这方面,搜索广告是真正的效果导向广告,比如淘宝的每一款商品后面都有超过1万家商户提供,到底用户去哪里购买,得付钱打广告,这就是效果广告。曾有报告对比过,搜索广告点击率高达40%以上。想一想百度、阿里靠什么为生,临门一脚的广告价格自然高到没边,据说一些医院购买百度性病、人流之类的搜索广告,单次流量价格高达数十或数百元。

搜索广告只有少数垄断接入公司才有的生意,大部分广告仍为展示类广告。如果展示类广告也朝效果类靠拢,从商业规律上属于本末倒置。

最后结果是,一方面,广告的内容充满人性的贪婪(优惠/便宜)与色欲(大胸美女),被改造得不伦不类,上过一次当后,在沟通消费者方面反而起到负面作用。另一方面,广告公司沦落为做流量、做点击的公司,与北京望京、中关村著名的刷流量一条街没有本质的差异,最后谁真正点击了这些有效流量?曾有大数据公司分析过某款高端理财软件的阶段性用户群,与刷机、贪图小便宜的极低端用户高度相似。

三、多用靠谱的身份识别可能更有利于提升广告效果

写了这么多,大数据精准广告一无是处吗?不,怀疑真理是为了更好的应用真理。大数据广告的核心“程序化”与“定向投放”没有错,这代表移动互联网发展的趋势,也与满足特定市场、特定用户群的商品或服务广告传播需求完全匹配。问题在于目前的大数据实际能力与宣称的雄心还有巨大的差距。也就是说没有看上去的那么好。

所以,我们更应该回归广告的本来目的——更好的沟通消费者,来看待精准投放,而不是迷信大数据精准投放这样的噱头。那么什么最重要?显然不是不靠谱的协同过滤规则,也不是根本不知道原因的Lookalike,既然最重要的就是到达目标消费者,那么靠谱的身份识别应该就是精准广告的核心。

什么是靠谱的身份识别?对微信而言,判断重点活动城市是靠谱的,分析性别也相对靠谱,但如果微信告诉你说能够通过社交判断该用户是中产白领还是乡村农民,那一定是不靠谱的。因为朋友圈里宣称正在法国酒庄旅游的优雅女人或许正在出门买油条豆浆。

有时候用户使用的媒体本身就透露客户的身份特征。比如经常使用理财软件的在支付能力上较为靠谱,而使用孕宝APP的80%以上应该就是准妈妈,经常使用蜜芽的一定是宝宝出生不久的妈妈。有大数据公司给出过案例,对媒体本身进行定向和综合分析定向的效果相差无几,这就说明媒体定向是有效的,但是其它需求定向都等同于随机选择。

由于大数据本身就是不关注因果,只关注相关性,如果经过大数据洞察证实的协同规则,也可以算作靠谱的规则。比如游戏付费用户群基本上可以确定为一两千万ID的重度使用用户。

而要准确识别客户身份,多数据源的汇集与综合不可避免,围绕客户身份的各种洞察、相关性分析也是能力提升的必修功课,这或许更应该是大数据广告公司应持续修炼的核心能力。

相关 [大数据 广告] 推荐:

漫谈在线广告:靠大数据扭转形象

- - TECH2IPO创见
这也许是互联网上第一个横幅广告. “系统会分析文档,得出相关的一个或多个主题,并根据主题投放相应广告. ”——Google Adsense 专利文件上如是说,这份专利文件的提交日期是 2002 年 9 月,至今已有十多年. 根据 IAB 互联网广告行业盈利 报告,2012 年美国互联网广告行业总利润为 365.7 亿美元,相比 2011 年上升了 15%.

为何说大数据精准广告并不靠谱?

- - 互联网分析沙龙
大数据目前已经成为整个IT界(包含Internet Technology 以及Information Technology)最热的词汇之一,似乎任何一个话题,只要提到大数据,瞬间变得高大上. 一夜之间,大数据已经代替主观的理性思考,成为智慧洞察的代名词. 但是当我们走过对大数据的顶礼膜拜阶段,揭开大数据实际应用的面纱,反而逐渐对充斥着话语世界的大数据进行反思.

芒果移动大数据显示信息流原生广告半年增长超百倍

- - 199IT互联网数据中心
近日,芒果移动大数据对外发布了一组信息流原生广告近半年的广告请求数据图表. 从数据图表可以一目了然看到,2015年8月的信息流广告请求同比2015年3月增长超过100多倍. 此次芒果移动大数据发布的这组数据,来自芒果专业的移动广告管理系统信息流原生广告的广告请求指数. 目前,信息流原生广告正处于迅猛发展阶段,之所以能如此飞速发展,正是因为其新颖、内容为王的原创广告形式突破了移动广告的营销瓶颈.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.