<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="/rss.xsl" type="text/xsl"?>
<rss version="2.0">
  <channel>
    <title>IT瘾广告推荐</title>
    <link>https://itindex.net/categories/广告</link>
    <description>IT社区推荐资讯 - ITIndex.net</description>
    <language>zh</language>
    <copyright>https://itindex.net/</copyright>
    <generator>https://itindex.net/</generator>
    <docs>http://backend.userland.com/rss</docs>
    <image>
      <url>https://itindex.net/images/logo.gif</url>
      <title>IT社区推荐资讯 - ITIndex.net</title>
      <link>https://itindex.net/categories/广告</link>
    </image>
    <item>
      <title>Google 罕见的披露了给它带来最多广告收入的搜索查询词</title>
      <link>https://itindex.net/detail/62874-google-%E5%B9%BF%E5%91%8A-%E6%94%B6%E5%85%A5</link>
      <description>不是每一次搜索都能给 Google 带来收入。搜索巨人表示它通常只在五分之一的搜索查询结果中展示广告。此类的查询被称为“商业查询”。在 US v. Google 的反垄断诉讼中，我们有机会了解到了给 Google 带来最多广告收入的搜索查询词名单。该名单发生在 2018 年 9 月 22 日这一周，苹果的 iPhone 8 在这一周开始上市，因此给 Google 带来最多收入的是对苹果新手机的搜索。收入排在前 20 的关键词包括：iphone 8、iphone 8 plus、auto insurance、car insurance、cheap flights、car insurance quotes、direct tv、online colleges、at&amp;amp;t、hulu、iphone、uber、spectrum、comcast、xfinity、insurance quotes、free credit report、cheap car insurance、aarp 以及 lifelock。
 &lt;p&gt;&lt;/p&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/62874-google-%E5%B9%BF%E5%91%8A-%E6%94%B6%E5%85%A5</guid>
      <pubDate>Thu, 02 Nov 2023 19:31:36 CST</pubDate>
    </item>
    <item>
      <title>谷歌向 TikTok 发起挑战，YouTube 短视频作者可获得 45% 的广告收入分成</title>
      <link>https://itindex.net/detail/62429-%E8%B0%B7%E6%AD%8C-tiktok-%E6%8C%91%E6%88%98</link>
      <description>&lt;p&gt;北京时间 9 月 21 日早间消息，谷歌旗下视频平台 YouTube 正试图在短视频市场上追赶 TikTok，为此该公司宣布，将开始向热门短视频创作者提供更大份额的广告收入。&lt;/p&gt; &lt;p&gt;在美国当地时间周二举行的“Made on YouTube，”年度创作者活动上，YouTube 首席产品官尼尔・莫汉（Neal Mohan）表示，从明年开始，该公司将拿出短视频收入的一部分，将其分给高点击量视频的创作者。&lt;/p&gt; &lt;p&gt;莫汉表示：“这是我们第一次大规模地向短视频创作者提供真正的收入分成。”&lt;/p&gt; &lt;p&gt;目前还不清楚这个机会能给短视频创作者带来多少收入，原因是 YouTube 提供的分成相关信息还比较有限。YouTube 表示，该公司每个月都会将短视频的广告收入汇集成一个资金池，并将其中一部分收入分配给创作者（但并未披露具体的百分比），然后 YouTube 将把其中的 45% 支付给创作者。&lt;/p&gt; &lt;p&gt;长期以来，热门视频创作者一直都能在 YouTube 的主网站上通过在视频中投放广告并保留一部分收入来赚钱。早在 2007 年，谷歌就推出了 YouTube 合作伙伴计划（YPP）以实现这一目标。&lt;/p&gt; &lt;p&gt;但到目前为止，通过做短视频在 YouTube 上赚钱的唯一途径是通过该公司去年推出的 1 亿美元的“短视频基金”（Shorts Fund）。&lt;/p&gt; &lt;p&gt;YouTube 周二发布博文称：“从 2023 年初开始，专注于短视频的创作者可以申请加入 YouTube 合作伙伴计划，条件是在 90 天内达到 1000 名订阅者和 1000 万短视频浏览量的门槛。”&lt;/p&gt; &lt;p&gt;莫汉表示：“短视频基金是我们迈出的第一步，但随着短视频领域令人难以置信的增长，这个创作者基金已经跟不上需求了。”&lt;/p&gt; &lt;p&gt;YouTube 感受到了来自 TikTok 的压力，后者为人们提供了一个配乐制作病毒式短视频的渠道，从而获得了越来越多的市场份额。今年第二季度，YouTube 的季度营收增速下降到了自谷歌母公司 Alphabet 于 2019 年第四季度开始公布视频部门销售额以来的最低水平。&lt;/p&gt; &lt;p&gt;Alphabet 表示，该公司正在测试短视频的盈利模式，首席财务官露丝・波拉特（Ruth Porat）此前表示，YouTube 正在受到人们变得越来越青睐短视频这一消费者行为变化所带来的挑战。&lt;/p&gt; &lt;p&gt;在新的短视频收入分成模式中，无论创作者的短视频是否包含受版权保护的音乐，都将获得相同数额的分成，而这就需要 YouTube 支付授权费。&lt;/p&gt; &lt;p&gt;“这可以让我们摆脱所有涉及音乐授权的传统复杂性。”莫汉表示。&lt;/p&gt; &lt;p&gt;一般来说，YouTube 视频创作者有 55% 的收入来自在视频开头或中间播放的广告。在短视频中，广告不会附加到特定的视频上，而是在两个视频之间以及短视频信息流中播放。&lt;/p&gt; &lt;p&gt;莫汉表示，目前 YouTube 短视频的每日浏览量为 300 亿次，每月有 15 亿登录观众观看，与该公司此前在 4 月公布的数据相比持平。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://img.ithome.com/newsuploadfiles/2022/9/f5a65bd8-6e6e-496a-bad5-90b64792aac8.jpg"&gt;&lt;/img&gt;&lt;/p&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/62429-%E8%B0%B7%E6%AD%8C-tiktok-%E6%8C%91%E6%88%98</guid>
      <pubDate>Wed, 21 Sep 2022 07:06:45 CST</pubDate>
    </item>
    <item>
      <title>调研机构：小米超 4 成毛利润来自广告等互联网服务</title>
      <link>https://itindex.net/detail/61765-%E6%9C%BA%E6%9E%84-%E5%B0%8F%E7%B1%B3-%E6%AF%9B%E5%88%A9%E6%B6%A6</link>
      <description>&lt;p&gt;9 月 7 日消息，近日国际市场调研机构 Counterpoint Research 发表了一篇有关小米公司营收结构的报告。&lt;/p&gt; &lt;p&gt;  &lt;a href="https://static.leiphone.com/uploads/new/article/pic/202109/6137396b2e476.jpg?watermark/1/image/aHR0cHM6Ly93d3cuaWdhbzcuY29tL3Jlc1dlYi9pbWFnZXMvc2h1aXlpbjEucG5n/dissolve/80/gravity/South/dx/20/dy/20" target="_blank"&gt;   &lt;img alt="&amp;#35843;&amp;#30740;&amp;#26426;&amp;#26500;&amp;#65306;&amp;#23567;&amp;#31859;&amp;#36229; 4 &amp;#25104;&amp;#27611;&amp;#21033;&amp;#28070;&amp;#26469;&amp;#33258;&amp;#24191;&amp;#21578;&amp;#31561;&amp;#20114;&amp;#32852;&amp;#32593;&amp;#26381;&amp;#21153;" src="https://static.leiphone.com/uploads/new/article/1920_1920/202109/6137396b2e476.jpg"&gt;&lt;/img&gt;&lt;/a&gt;  &lt;a href="https://static.leiphone.com/uploads/new/article/pic/202109/61373924a43ce.jpg?watermark/1/image/aHR0cHM6Ly93d3cuaWdhbzcuY29tL3Jlc1dlYi9pbWFnZXMvc2h1aXlpbjEucG5n/dissolve/80/gravity/South/dx/20/dy/20" target="_blank"&gt;   &lt;img alt="&amp;#35843;&amp;#30740;&amp;#26426;&amp;#26500;&amp;#65306;&amp;#23567;&amp;#31859;&amp;#36229; 4 &amp;#25104;&amp;#27611;&amp;#21033;&amp;#28070;&amp;#26469;&amp;#33258;&amp;#24191;&amp;#21578;&amp;#31561;&amp;#20114;&amp;#32852;&amp;#32593;&amp;#26381;&amp;#21153;" src="https://static.leiphone.com/uploads/new/article/1920_1920/202109/61373924a43ce.jpg"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt; &lt;p&gt;这份报告称，尽管自 2018 年上市以来，小米的互联网服务在整个公司的季度营收占比不超过 10%，不过其毛利率及利润占比却相当可观，其最新数据显示小米平均 42.74% 的毛利润是由互联网服务贡献的，2021 年第二季度互联网服务方面的毛利率达到 74.1%，远高于手机部门的 11.8% 以及 18.4% 的公司整体毛利率。&lt;/p&gt; &lt;p&gt;小米的互联网服务主要包括手机游戏运营、电子商务、金融科技以及广告等项目，而目前过半的收入来自于广告（2020 年占比为 54%）。&lt;/p&gt; &lt;p&gt;  &lt;a href="https://static.leiphone.com/uploads/new/article/pic/202109/613739249acd0.jpg?watermark/1/image/aHR0cHM6Ly93d3cuaWdhbzcuY29tL3Jlc1dlYi9pbWFnZXMvc2h1aXlpbjEucG5n/dissolve/80/gravity/South/dx/20/dy/20" target="_blank"&gt;   &lt;img alt="&amp;#35843;&amp;#30740;&amp;#26426;&amp;#26500;&amp;#65306;&amp;#23567;&amp;#31859;&amp;#36229; 4 &amp;#25104;&amp;#27611;&amp;#21033;&amp;#28070;&amp;#26469;&amp;#33258;&amp;#24191;&amp;#21578;&amp;#31561;&amp;#20114;&amp;#32852;&amp;#32593;&amp;#26381;&amp;#21153;" src="https://static.leiphone.com/uploads/new/article/1920_1920/202109/613739249acd0.jpg"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt; &lt;p&gt;不过，小米互联网服务收入的增速在 2021 年第二季度放缓至 19.1%，远不及手机（86.8%）和 IoT（35.9%）业务的增速，同时平均每用户收入（ARPU）近几个季度也在下降，显示出来自手机的流量变现效率在下降。&lt;/p&gt; &lt;p&gt;报告还称，全球越来越严格的隐私法规以及用户对于广告的抱怨对于小米目前倚重广告利润的模式提出了挑战。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>快讯</category>
      <guid isPermaLink="true">https://itindex.net/detail/61765-%E6%9C%BA%E6%9E%84-%E5%B0%8F%E7%B1%B3-%E6%AF%9B%E5%88%A9%E6%B6%A6</guid>
      <pubDate>Tue, 07 Sep 2021 18:02:00 CST</pubDate>
    </item>
    <item>
      <title>普及一下量化交易的一些基本常识（看隔壁广告有感）</title>
      <link>https://itindex.net/detail/60561-%E9%87%8F%E5%8C%96-%E4%BA%A4%E6%98%93-%E5%B8%B8%E8%AF%86</link>
      <description>&lt;p&gt;如果你看到一个交易策略只提年化收益率，这样的策略就可以基本忽视了。&lt;/p&gt;
 &lt;p&gt;本人以前也业余做过一段时间量化交易，没什么大的成就，最后也没能把算法用 Real Money 跑一跑。
勉强混了个 Quantopian Contest 的第二名（好几年前的事了），拿了 1000 刀的奖励。&lt;/p&gt;
 &lt;p&gt;要做量化交易，你需要了解以下最基本的一些用于衡量你的算法的指标（括号内是当时获奖算法的指标）&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Alpha&lt;/li&gt;
  &lt;li&gt;Beta （ 0.09 ）&lt;/li&gt;
  &lt;li&gt;Sharpe （ 3.44 ）&lt;/li&gt;
  &lt;li&gt;Max Drawdown （ 3.8%）&lt;/li&gt;
  &lt;li&gt;Annual Return （ 32.88%）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;以上数据不是 backtest，是 quantopian contest 为期半年的 paper trading 。&lt;/p&gt;
 &lt;p&gt;按照我个人的喜好，判断一个算法是否可靠第一个要看的指标不是年化收益率，而是“最大回撤”。&lt;/p&gt;
 &lt;p&gt;你做 backtest 都整个 20%以上的最大回撤，这样的算法哪怕吹到年化 10000%的收益，也是没有太大实际意义的。因为这样的算法意味着最坏的情况是，你一入场就来个 20%的亏损，你这个时候到底止不止损？你如何判断是否该坚持？&lt;/p&gt;
 &lt;p&gt;其次看 beta，也就是和市场的相关性。beta 在 0.1 以上，quantopian 是不接受这样的算法参赛的（至少以前的规则是这样）。原因在于，一个 beta 过高的算法，还不如直接买股指 etf 。&lt;/p&gt;
 &lt;p&gt;最后再看 Alpha，Sharpe 和 Annual return 。这些是衡量你收益能力的指标。&lt;/p&gt;
 &lt;p&gt;最最后，要想实盘，还有很多你逃不掉的天坑&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;过度拟合&lt;/li&gt;
  &lt;li&gt;时效性&lt;/li&gt;
  &lt;li&gt;...&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;天下没有免费的午餐，ML 和 AI 也不行。最接近免费午餐的是 diversification 。&lt;/p&gt;
 &lt;p&gt;祝大家最后都赚钱。在那之前，别被骗。&lt;/p&gt;
 &lt;p&gt;以上。&lt;/p&gt;

	&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/60561-%E9%87%8F%E5%8C%96-%E4%BA%A4%E6%98%93-%E5%B8%B8%E8%AF%86</guid>
      <pubDate>Sat, 02 May 2020 23:06:56 CST</pubDate>
    </item>
    <item>
      <title>中国有哪些低调企业，他们为什么不做广告？</title>
      <link>https://itindex.net/detail/60548-%E4%B8%AD%E5%9B%BD-%E4%BC%81%E4%B8%9A-%E5%B9%BF%E5%91%8A</link>
      <description>&lt;p&gt;
  &lt;a href="http://album.sina.com.cn/pic/001mkIWWzy7CSmCsvJ3a5" target="_blank"&gt;   &lt;img height="427" src="http://s6.sinaimg.cn/mw690/001mkIWWzy7CSmCsvJ3a5&amp;690" width="640"&gt;&lt;/img&gt;&lt;/a&gt;  &lt;br /&gt;
  &lt;br /&gt;&lt;/p&gt;
 &lt;p&gt;
现在，中国已经有很多世界知名的企业，如华为、阿里巴巴、百度、腾讯等等。这些企业有非常高的品牌识别度，简直是如雷贯耳。同时，企业领导者也非常具有审美性：任正非喜欢写文章，喜欢写书，接受央视采访时，也表现得非常有范儿，加之，特朗普经常联合欧盟抵制中国5G产品，反倒是令华为的品牌名声大噪；而BAT掌门人都有非常浓郁的明星气质，。&lt;/p&gt;
 &lt;p&gt;
最新胡润财富排行榜显示，马化腾和马云并列中国首富，再次成为年轻人的人生偶像，而他们多次公开表达对经济、商业、社会结构的深刻看法，也都惹得众人趋之若鹜。如今不知道是阿里巴巴捧红了马云，还是马云带火了阿里巴巴。总之，他们都很出名，至于说，李彦宏更是翩翩美少年，参加一场《最强大脑》就俘获大批粉丝。但显然，经济运转需要一个非常复杂的体系，也绝非几个龙头企业所能完全驾驭的。如果把整个国民经济比作一幢大楼的话，华为、阿里巴巴等著名企业就是鲜亮的壁画、闪烁的霓虹，而一些低调的企业则充当着下水管道、空调风管以及网络线路等角色。&lt;/p&gt;
 &lt;p&gt;
中国有大量低调的企业，他们喜欢“闷声发财”，几乎不会做广告，新闻头条里也鲜有他们的新闻，掌门人更不会跑到电视上“宣传”自己的价值观。前年的时候，王石组织了一场叫做《回归未来》的演讲，在邀请郭台铭上场的时候，他说道：郭先生非常难得出现在大众传媒中，事实上，代工大王一向低调，却常撑起一个地区的产值。&lt;/p&gt;
 &lt;p&gt;
  &lt;a href="http://album.sina.com.cn/pic/001mkIWWzy7CSmvMn1zed" target="_blank"&gt;   &lt;img height="459" src="http://s14.sinaimg.cn/mw690/001mkIWWzy7CSmvMn1zed&amp;690" width="690"&gt;&lt;/img&gt;&lt;/a&gt;  &lt;br /&gt;&lt;/p&gt;
 &lt;p&gt;
  &lt;strong&gt;iPhone&lt;/strong&gt;  &lt;strong&gt;电子产业链，谁在闷声发财？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;
过去十年，谈到企业，谈到电子产业链，就绕不开苹果和iPhone产业链。他们创造的成绩前无古人、难有来者，大量的供应商都因此赚得盆满钵满，并让企业获得长足地发展，掌门人也走向了人生巅峰。苹果的品牌光芒万丈，这自然不必怀疑，同时，还有三星、台积电等高端供应商名声大噪。而富士康、上海昌硕等终端组装，也因处理“成品机台”而获得不小的关注度，外国媒体亲切地称这些工厂为iPhone Town，说起来也算是世界驰名商标，但iPhone数不清的零件，由数百家企业供应，很多企业常年闷声发财。&lt;/p&gt;
 &lt;p&gt;
相信普通人对蓝思科技和周群飞并不熟悉，不仅电视上没有广告，就连新闻事件也比较少，但他们却是苹果最重要的供应商之一，苹果CEO库克曾亲自上门拜访，他和周群飞的合影也成为令业内人士艳羡的待遇。2015年，周群飞登顶中国女首富，低调的首富。其实，业内人士都知道，蓝思科技的主营业务就是手机玻璃，有一段时间，iPhone采用金属机身，蓝思的业绩并不出众，后来因天线设计问题，自iPhone8开始，玻璃机身成为主流，蓝思的业绩大幅提升。在普通人看来，玻璃同芯片、摄像头比起来显得有些普通，但要达到苹果的参数要求并不容易，包括硬度、耐用性以及无限制压缩的厚度等等，刘海区域更是需要精密的工艺来处理，如果有人拆解过iPhone的玻璃，会发现边缘有着轻微的弧度，这也是iPhone变态的品质要求之一。正因如此难度，蓝思在玻璃上的毛利率能达到27%，只是随着苹果持续地压低价钱，日子开始变得艰难。&lt;/p&gt;
 &lt;p&gt;
同蓝思一样，立讯科技的掌门人王来春也是一位女性，而且更具有传奇色彩，她最早只是富士康流水线的一名女工，后来辞职创业还获得郭台铭的投资，并给予大量的订单，王来春也心存感恩，把郭台铭语录贴满自己企业的车间。随后，立讯精密也杀入苹果产业链，一举拿下Airpods订单，工艺之复杂远胜于iPhone，需要把W1芯片、麦克风、语音加速感应器、光学感应器等复杂配件，全部塞入一个小小的耳机里。好在，经过反复地改良以及升级，立讯彻底满足了苹果之于品质的苛刻要求，而且在产能方面大大提升，有一次库克拜访中国，坚持要去立讯科技，王来春也把自己比喻为：同凤凰一起飞翔的俊鸟。现在，立讯精密的势头非常猛，除了耳机之外，他们又拿下iWatch订单，大面积地自动化使之代工成本大幅下降，或许，在不久的将来，他们真的会威胁到富士康。&lt;/p&gt;
 &lt;p&gt;
此外，歌尔声学、领益智造、宁德新能源，都不是经常出现在大众传媒的品牌，却是不折不扣的利润金主，他们都是非常高贵的研发企业，掌握着声学、金属材料、电池等领域的核心技术，却低调行事，安心扎根于三、四线城市，不愿意太出风头。&lt;/p&gt;
 &lt;p&gt;
  &lt;a href="http://album.sina.com.cn/pic/001mkIWWzy7CSmEqBoBf9" target="_blank"&gt;   &lt;img height="388" src="http://s10.sinaimg.cn/mw690/001mkIWWzy7CSmEqBoBf9&amp;690" width="690"&gt;&lt;/img&gt;&lt;/a&gt;  &lt;br /&gt;&lt;/p&gt;
 &lt;p&gt;
  &lt;strong&gt;核心价值，低调企业如何摆平客户？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;
平心而论，一味强调广告和品牌，有点儿偷换概念、生搬硬套的嫌疑。毕竟，一些核心零部件的供应商，压根不需要广告，甚至不需要终端消费者知道其品牌，他们在业界有名，能争取到客户的订单，自然有一套自己的生存法则。而且电子产业链的利润分配，也有一个清晰的规律，也即“越深层次地、越基础性地加工，利润往往越高”。在去年韩国和日本贸易大战的时候，我们才知道三星芯片所需要的很多化工材料均来自日本，我们甚至都叫不上他们的名字，但显然，这些低调企业是整个产业链的咽喉之一。&lt;/p&gt;
 &lt;p&gt;
如前文所述，蓝思科技和立讯精密都是替苹果解决了重大问题，才能获取源源不断地订单。而且在随后的合作中，他们又能持续改善制程能力，压缩生产成本，以降低代工价格。所以说，对于代工商来说，最大的品牌就是其“控制成本的能力”以及最终报给客户的价格；此外，代工商要争取订单，还要看关键时刻的表现，比如iPhone全球缺货时，谁能不惜一切代价提高产能、快速出货，谁就能同苹果建立革命友谊。说直白点，如此友谊就是建立在工程能力以及资本规模方面。显然，富士康的品牌之一就是能吞掉一切的资本规模。当然，代工商做到极致，就是向客户提供“设计方案、解决思路”，帮助其把产品变得更加完美，这些低调的企业不乏这样的狠角色，显然，他们真不需要广告。&lt;/p&gt;
 &lt;p&gt;
总之，任何企业都有自己的生存法则，掌门人也有自己的性格特点，企业家之所以伟大，正在于他们不会轻易被“外行的热闹以及花哨靓丽的广告”带跑偏。(科技新发现 康斯坦丁/文)&lt;/p&gt; &lt;br /&gt; &lt;img src="http://simg.sinajs.cn/blog7style/images/special/1265.gif"&gt;&lt;/img&gt; &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>商业财经</category>
      <guid isPermaLink="true">https://itindex.net/detail/60548-%E4%B8%AD%E5%9B%BD-%E4%BC%81%E4%B8%9A-%E5%B9%BF%E5%91%8A</guid>
      <pubDate>Wed, 29 Apr 2020 11:37:52 CST</pubDate>
    </item>
    <item>
      <title>广告中都会用到哪些心理学知识？</title>
      <link>https://itindex.net/detail/60436-%E5%B9%BF%E5%91%8A-%E9%83%BD%E4%BC%9A-%E5%BF%83%E7%90%86%E5%AD%A6</link>
      <description>&lt;p&gt;在广告的营销研究中，有一个非常基础且关键的概念，叫接触点（touchpoint）  &lt;sup&gt;[1]&lt;/sup&gt;。根据维基的解释，接触点指的是  &lt;strong&gt;企业在与消费者进行互动的过程中，通过不同的媒介在特定的时间点与客户进行交互，显示信息的各种方式。&lt;/strong&gt;明白了这一点，就不难理解为何无论是起床打开手机按停闹钟的APP界面给你推送电动牙刷，还是梳妆打理后神采奕奕出门在电梯里看到巨幅李现让你上京东购物，甚至是出租车上发现还有人教你如何挽救婚姻（这个校友梗真的过不去了...）&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic3.zhimg.com/v2-8ba4df319d2544b8fb647be6d1faa286_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;这些零零碎碎的“抢占你的注意力”，“占据你的心智”的信息，就是商家与消费者进行沟通的方式，也就是广告。其实，与其他信息类似的是，商家运用广告给消费者传达信息，运用的心理学知识，不外乎就是  &lt;strong&gt;在正确的时间用正确的方式把正确的信息传达给正确的人。&lt;/strong&gt;&lt;/p&gt; &lt;p&gt;用类似的框架，或许能够将每天人们所接触到的社交、搜索、购物等不同场景中信息交流进行简单的归纳整理。&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;1）正确的时间。&lt;/strong&gt;包含消费者在一天的什么时候，是早上，午后还是睡前接触到广告，又或者是一条广告能够获取消费者的注意力时长。以一天为例，人们的自控能力（self-regulation）、情绪唤起（arousal）等会随着一些生理性的指标在一天中高低起伏。利用生理性的指标，不仅能够预测人们的道德水平  &lt;sup&gt;[2]&lt;/sup&gt;，对于减肥食物的偏好  &lt;sup&gt;[3]&lt;/sup&gt;（对，想减肥的看过来），而且也能对人们对于产品以及广告的偏好进行预测。Gullo et al.,  &lt;sup&gt;[4]&lt;/sup&gt; 的发现在清晨人们刚刚清醒的时候，情绪唤起很低，整个人昏昏沉沉的，这时候如果给你大量的购物选项，你可能只会选择其中很少的几样。&lt;/p&gt; &lt;p&gt;类似的，人们总觉得大晚上的时候食欲大增，自我控制的能力好像也没有白天好，容易剁手买买买。如果用自我控制的理论去解释，这是因为白天消耗了大量的脑力，大脑已经没有能力去控制你去进行冲动型的消费了。这时，如果再有一定的广告去“助推”你的冲动，那么完成转化的几率是不是就大得多呢。&lt;/p&gt; &lt;p&gt;从实践的角度看，对于时间点的选择被各种自媒体玩得很溜~我基本每天中午吃饭的时候都会看GQ（的广告），晚上睡前偶尔看看胡辛束，B站的UP主最后都会来一句“每周五更新”..  &lt;strong&gt;.选择固定的广告投放时间也能够让消费者建立习惯化的行为&lt;/strong&gt;  &lt;sup&gt;[5]&lt;/sup&gt;  &lt;strong&gt;（habitual behavior）&lt;/strong&gt;，就像进电影院一定要吃爆米花一样。到了特定的时间点接受到特定的刺激，是大脑建立信息进而对行为产生影响的心理学机制之一。这也是为什么每年超级碗的天价广告大家都会抢着投，而瓜子二手车即便倒了人们也不会忘记它在春晚投的广告的原因。&lt;/p&gt; &lt;p&gt;关于择时这点，我觉得业界有不少报告也是做得不错的，例如全媒派的报道  &lt;sup&gt;[6]&lt;/sup&gt;，Google Trend，Facebook Ads等通过海量数据得出的结论，或许也能给广告投放者提供实践层面的参考。&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;2）正确的方式。&lt;/strong&gt;这里主要想讲讲广告媒介，也就是前面所述的接触点媒介：纸媒、电视、社交媒体、搜索引擎、户外等。如果用时兴用语来包装，就是我究竟要选择“公域流量”还是“私域流量”？同样一笔广告预算，我的投放究竟是要花在时代广场的广告牌还是让李佳琪在直播间劝小姐妹剁手呢？电商平台如果在线下投广告了，怎么把顾客“引流”到我的线上渠道购物呢？&lt;/p&gt; &lt;p&gt;这些与广告场景（situation/context specific）相关的问题，在心理学我觉得有几个大的原则可供借鉴：首先是  &lt;strong&gt;匹配原则（match effect）&lt;/strong&gt;。举一个简单的例子：不少人应该知道获得诺奖的卡尼曼有一本畅销书《思考，快与慢》  &lt;sup&gt;[7]&lt;/sup&gt;里面提到的人是有系统1 （依赖情感、记忆和经验迅速作出判断）和系统2 （通过调动注意力来分析和解决问题）。那么，人们对于不同广告媒介所采用的系统方式是不是会影响人们最终的决策呢？&lt;/p&gt; &lt;p&gt;基于现在人们每天暴露在不同的电子终端的现状，手机/电脑/iPad甚至是未来的VR/AR等如何影响人们的消费决策是现在比较热门的研究问题。例如，研究跨屏决策的学者发现人们在手机上（对比在电脑端）更注重社交属性的获取；人们在手机上也更愿意采用系统1进行直觉性的决策；另外人们对在手机上的自我袒露行为（self-disclosure）也会更高。这一个系列的研究都来自哥大 marketing 的毕业生 Shiri Melumad，感兴趣的可以看看她的博士论文 The Distinct Psychology of Smartphone Usage  &lt;sup&gt;[8]&lt;/sup&gt;  &lt;strong&gt;广告主在进行媒介选择的时候，也应注意广告投放场景与产品以及人们思维方式的匹配，&lt;/strong&gt;最直接的你总不能让何同学去卖美妆产品，让小杨生煎去卖面膜吧。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic4.zhimg.com/v2-b2c145c22d45033a494923229bd0d0c7_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;其次，与“匹配”有点反过来的，  &lt;strong&gt;广告媒介的选择也可能是基于补偿性的心理&lt;/strong&gt;（Compensatory consumption）。如果说在健身房投放沙拉的广告符合上述提到的匹配原则，那么在健身房放置巨幅的麦当劳海报的合理性就在于刺激运动健身完的人们产生正当的吃高热量食物的想法，进而justify自己管不了嘴的行为。在心理学里面，有一个著名的效应叫道德确认效应（self-license effect），它指的是人们在做了一件好事（例如：完成了一份作业，参加公益活动等）以后，就能够允许自己干一件坏事（例如购买奢侈品，享乐产品等）。所以，对于线下商户的广告投放选择，一个非常简单的想法就是让消费者”缺啥补啥“。毕竟，不吃饱怎么能有力气减肥呢～&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic4.zhimg.com/v2-05eca57dfc2a30127e0798ae45496957_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;3）正确的信息。&lt;/strong&gt;这个纬度涉及到信息设计（message/content design）毫不夸张的说真的可以写一本书了。这样想吧，杜蕾斯之所以被广告界津津乐道其实就是在设计这块吸引住了消费者。最近在这个方面特别能抓住人眼球的估计就是GQ实验室，以及回形针事务所等。我想，或许这个问题的初衷，或许是希望解答这个纬度的问题。但要说清楚，至少以我的能力而言，真的是内容太多太难了。所以我只能选择提供一个我知道的还算简单的框架，希望能够对大家有所启发。要说广告内容，就必须引入品牌（branding）的概念。品牌广告内容的设计，信息铺陈最终的目的就是  &lt;strong&gt;让消费者觉得自己有可能能够成为那个“理想中的自己”&lt;/strong&gt;。&lt;/p&gt; &lt;p&gt;第一步：首先要明确一个大前提，不管你愿不愿意承认，人们所购买的产品，使用的服务其实是自我延伸（self-extension）的一部分。除了柴米油盐这种必须的功能性产品，  &lt;strong&gt;人们买东西就是反映自我身份意志的。&lt;/strong&gt;这一点，我是深刻认同 Russell Belk 关于个人拥有物与自我延伸的观点的：Our possessions are a major contributor to and reflection of our identities.  &lt;sup&gt;[9]&lt;/sup&gt;&lt;/p&gt; &lt;p&gt;第二步：另外一个被广泛接纳的观点，  &lt;strong&gt;品牌是具有人格化的。&lt;/strong&gt;Brand personality 学说由 Jennifer Aaker 在1997年的论文被正式提出  &lt;sup&gt;[10]&lt;/sup&gt;。大意也很简单，人们会使用对待人的方式，使用与人交往的方式来对待品牌（突然想到，这算不算是品牌圈同人创作的开山鼻祖了...）。无论是苹果的简洁优雅，可口可乐的分享快乐  &lt;sup&gt;[11]&lt;/sup&gt;，还是法拉利的追求胜利，都是品牌给自己打造的“人设”。而广告的作用，就是  &lt;strong&gt;把这些人设推向消费者，让消费者愿意为这些品牌的产品以及品牌背后的形象所买单。&lt;/strong&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic3.zhimg.com/v2-05895e7ab18e9ba25e2aa5f3c12de9ce_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic4.zhimg.com/v2-29bf0dbcd1cc12aebcbd07ca310e1e17_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;第三步，  &lt;strong&gt;品牌借助广告告诉人们，品牌能够帮助人们达到理想的自我。&lt;/strong&gt;我们学院邹德强老师在课上讲过一个“笑话”，你想让本科生不去干一件事情非常简单，就说这件事情是Phd学生最爱干的就可以了。复旦的同学最不爱穿格子衬衣了，毕竟交大的同学最喜欢穿。&lt;/p&gt; &lt;p&gt;人们会为了规避的自我不去做某些事情，同时也会为向往的/理想的自我（ideal self）去做某些事情，这种策略在广告营销中也被称为ideal-congruity  &lt;sup&gt;[12]&lt;/sup&gt;. 在我看来，这跟普通的从众还不太一样。有人追求高雅，有人追求激情，有人偏好精致，也有人喜好简约。一个设计师怎么可能不被苹果的精致所打动呢，而精致也恰巧是设计师对理想自我形象的定位（这里只是举个例子，没有针对任何设计师朋友的意思= =）。总之，广告信息内容的设计，甚至品牌的打造都跟人们对于理想自我的追求密切相关。&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;4）正确的人。&lt;/strong&gt;这个其实很多答主都有提到了，就是如何 targeting 目标客户。在以前，广告主会通过性别、年龄等人口统计信息来进行划分。更“先进”一点的，会采用行为方式进行用户细分。典型的案例就是商学院经典案例星期五、纸尿裤和啤酒等。业界较为常用的，包括我自己曾经也做过类似案例的 RFM model，就是根据消费者的最近购买时间，购买频次以及购买金额进行用户的细分，针对不同的用户采取特定的促销策略  &lt;sup&gt;[13]&lt;/sup&gt;。而其他答主提到的根据心理特质进行划分、根据网上的购物行为标签进行广告投放，甚至是根据一些你在ins上传的图片来对你投广告都是可行的策略。&lt;/p&gt; &lt;p&gt;这里我想稍微展开聊聊 psychological targeting 的一些研究以及个人的看法。&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;我个人倾向对于“心理特质”贴标签进行广告推送，并且对于它所能起到的特别 fancy 的投放效果，偏向采取较为保守的解读方式。&lt;/strong&gt;首先，我觉得 self-reported 的 personality 不一定能够反映其内在的真实取向，这点我不多赘述了。其次，我对于psychological targeting 的一些研究，例如PNAS 上 Psychological targeting as an effective approach to digital mass persuasion  &lt;sup&gt;[14]&lt;/sup&gt; 这个文章。在看原文的时候我会有些困惑，这个东西的ROI真的有那么高吗？&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic2.zhimg.com/v2-2d073434baf4b78ec5897375ae4bbd01_b.jpg?rss"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;当然，你不能因为效果好而去质疑它的外部效度。但如果再去认真扣它的测量以及实验的设计，其实跟Facebook整个平台的广告推送机制也有很强的内生关系，这些“不甚完美”的实验设计也会让文章的结论打一个大大的问号。&lt;/p&gt; &lt;p&gt;关于这个文章的质疑，PNAS也连发了两篇 letter 来让学者们进行讨论  &lt;sup&gt;[15]&lt;/sup&gt;  &lt;sup&gt;[16]&lt;/sup&gt;，作者也一一做了回应。对于psychological targeting 是否有效，我觉得需要更强有力的证据来说明其效果。而这些也需要研究者以及业界的从业者从更为长远的努力。&lt;/p&gt; &lt;p&gt;简而言之，广告中的消费者心理学知识其实是包罗万象的，不可能在短短一个回答中写完整。如果你感兴趣，作为业余爱好者，我会推荐你偶尔看看 Think with Goole  &lt;sup&gt;[17]&lt;/sup&gt;，又或者是 Marketing &amp;amp; Sales Insights   &lt;sup&gt;[18]&lt;/sup&gt;，偏学术向一点的Chicago Booth Review 或者 HBR 都是不错的学习素材。最后，如果要做研究，如果你有数据，那就请来找我吧哈哈哈&lt;/p&gt; &lt;p&gt;以上～&lt;/p&gt; &lt;p&gt;逃避科研真的是，太快乐了。&lt;/p&gt; &lt;p&gt;&lt;/p&gt;
 &lt;br /&gt; &lt;br /&gt;
来源：知乎 www.zhihu.com &lt;br /&gt;
    
作者： &lt;a href="http://www.zhihu.com/people/deng-hui-xin?utm_campaign=rss&amp;utm_medium=rss&amp;utm_source=rss&amp;utm_content=author"&gt;邓慧欣&lt;/a&gt; &lt;br /&gt;
            
 &lt;br /&gt;
【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
         &lt;a href="http://daily.zhihu.com?utm_source=rssyanwenzi&amp;utm_campaign=tuijian&amp;utm_medium=rssnormal" target="_blank"&gt;点击下载&lt;/a&gt; &lt;br /&gt;
 &lt;br /&gt;
此问题还有  &lt;a href="http://www.zhihu.com/question/59235737/answer/1082716502?utm_campaign=rss&amp;utm_medium=rss&amp;utm_source=rss&amp;utm_content=title" target="_blank"&gt;14 个回答，查看全部。&lt;/a&gt; &lt;br /&gt;
                延伸阅读： &lt;br /&gt;
 &lt;a href="http://www.zhihu.com/question/356090167?utm_campaign=rss&amp;utm_medium=rss&amp;utm_source=rss&amp;utm_content=title" target="_blank"&gt;已知的心理学知识是否会对自己的心理造成影响？&lt;/a&gt; &lt;br /&gt;
            
 &lt;a href="http://www.zhihu.com/question/338275991?utm_campaign=rss&amp;utm_medium=rss&amp;utm_source=rss&amp;utm_content=title" target="_blank"&gt;学心理学有什么行业可供选择？&lt;/a&gt; &lt;br /&gt;
            &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/60436-%E5%B9%BF%E5%91%8A-%E9%83%BD%E4%BC%9A-%E5%BF%83%E7%90%86%E5%AD%A6</guid>
      <pubDate>Tue, 17 Mar 2020 13:00:10 CST</pubDate>
    </item>
    <item>
      <title>百度广告陷入危机，但出问题的不只是百度也不只是广告业</title>
      <link>https://itindex.net/detail/59629-%E7%99%BE%E5%BA%A6-%E5%B9%BF%E5%91%8A-%E5%8D%B1%E6%9C%BA</link>
      <description>&lt;p&gt;  &lt;img alt="" src="http://img.qdaily.com/article/article_show/20190520231035vckA50r6ZoS7gUTn.jpg?imageMogr2/auto-orient/thumbnail/!640x380r/gravity/Center/crop/640x380/ignore-error/1"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;两个交易日下来，百度股价下跌 23.5%，市值蒸发 126 亿美元、已低于京东、美团。名不副实多年的“BAT”彻底成为一个过去式。&lt;/p&gt; &lt;p&gt;一切从上周四晚上百度发布 2005 年上市后  &lt;a href="http://www.qdaily.com/articles/63848.html"&gt;首季亏损财报&lt;/a&gt;开始。跳崖一般的股价说明，投资者对于百度的溃败措不及防。去年一季度，百度有 66.94 亿元的净利润，李彦宏将此归于百度应用里新开辟的“信息流”广告，但今年这个时候，整个公司已经变成亏损 3.27 亿。&lt;/p&gt; &lt;p&gt;在百度发布亏损财报的前几周，另一个长期被认为夺走百度互联网话语权的  &lt;a href="http://www.qdaily.com/articles/63813.html"&gt;腾讯也发了财报&lt;/a&gt;。微信依然有着超过 11 亿人的惊人体量，但腾讯的广告业务也开始明显放缓。&lt;/p&gt; &lt;p&gt;而百度一直以来试图模仿的对象，利润依然惊人的 Google 也在 4 月底遭遇了  &lt;a href="http://www.qdaily.com/articles/63420.html"&gt;七年来最严重的一次下跌&lt;/a&gt;，一度跌掉千亿美元市值，也是因为增长放缓的广告销售。&lt;/p&gt; &lt;p&gt;  &lt;img alt="" src="http://img.qdaily.com/uploads/20160725026790Msgaji5TilWhj7z4.jpg-w600"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521021656QWHN6es8u5g9KbFG.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;是什么出了问题？&lt;/p&gt; &lt;h3&gt;数字广告从 PC 向手机的转型在全球完成，这是百度最主要的危机&lt;/h3&gt; &lt;p&gt;百度的亏损是它在广告收入增长放缓到 3.2% 的同时，营销成本持续高涨。&lt;/p&gt; &lt;p&gt;自 2018 年以来，百度广告收入增速减缓，但是成本却持续上升，其营销和流量获取费用增速自 2018 年第二季度开始就持续上升，从 33% 一路涨到本季度的 71%。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521021956LUw5zCEv1yi0ghpd.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;对此百度 CEO 李彦宏在上周的营收电话会议上给了三个理由：&lt;/p&gt; &lt;ul&gt;  &lt;li&gt;数字广告竞争加剧&lt;/li&gt;  &lt;li&gt;特定行业遭遇的广告监管&lt;/li&gt;  &lt;li&gt;宏观经济变化&lt;/li&gt;&lt;/ul&gt; &lt;p&gt;第一条是百度作为曾经的行业领导者所特有的危机。&lt;/p&gt; &lt;p&gt;百度面临的竞争已经被说了很久，我们在 2015 年年底选择  &lt;a href="http://www.qdaily.com/articles/20891.html"&gt;百度作为年度被颠覆公司&lt;/a&gt;。它的问题在于，绝大部分广告收入来自搜索，而搜索不重要了。&lt;/p&gt; &lt;p&gt;2015 年 7 月接受美国商业媒体 Re/Code 采访时，  &lt;a href="http://recode.net/2015/07/25/chinas-baidu-with-uber-in-tow-takes-search-to-the-offline-world-qa/" rel="nofollow"&gt;李彦宏说&lt;/a&gt;：“我们意识到很多公司开始做自己的应用——它们不再允许我们索引它们的内容，而且它们在为消费者提供很好的服务。如果移动时代的用户花大量的时间在搜索以外，我们就有问题了。如果用户直接去应用获得服务，他们就不再需要搜索，因为搜索提供的只是信息。”  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;互联网初期，上网看个新闻、用个服务都需要输入网址。没多少人有记网址的习惯，在搜索引擎的输入框里敲几个字才是最方便的，反正键盘永远在你手边。搜索完之后，屏幕上出现了一些网页链接，但多数时候当中过半都是广告，这些就是百度的收入。&lt;/p&gt; &lt;p&gt;公平地说，相对其它中国竞争对手，百度搜索一直做得不错。2010 年 Google 被迫出走没能成就搜狗、360 们。今天中国搜索市场依然是百度一家公司控制八成以上，其它对手各自守着个位数的份额。在可预见的未来，还没有公司可以在中国的搜索市场颠覆百度。&lt;/p&gt; &lt;p&gt;但随着人们每天打开手机而不是 PC，百度不再决定大多数人看什么、用什么。点一下屏幕就能打开的应用取代搜索引擎和网页，成为每天进入各种互联网服务的入口。&lt;/p&gt; &lt;p&gt;当微信、今日头条、支付宝、抖音、淘宝成为各个领域的入口，用户在地铁上刷朋友圈、看抖音和头条打发时间，而不是搜索看网页，广告自然发生了转移。&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;今日头条是最常拿出来说的例子，2018 年，今日头条和抖音的广告收入加在一起近 500 亿元，接近百度的一半。&lt;/p&gt; &lt;p&gt;短视频和信息流这是百度也重点培养的新收入来源，但是差距已然拉开：李彦宏在财报分析会议上称百度应用每天有 1.74 亿人打开，好看视频日活跃用户达到 2200 万。作为对比，今年 2 月的发布会上，抖音就已经宣布日活跃用户超过 2.5 亿。而微博每日有超过 2 亿、微信早已超过 10 亿。同样做信息流广告，用户少、使用时间短的服务能卖的广告位就是更少的。&lt;/p&gt; &lt;p&gt;在北京、上海、深圳，大大小小讨论抖音、快手流量操盘的大会小会每周都有好几场，那是新兴的流量聚集地，创业者和经纪公司、服务商相互交流着如何在短视频、信息流快速增长的时代抓住机会。&lt;/p&gt; &lt;p&gt;十年前搜索起步的时候，也有过同样的热闹。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521022415Maw1SZn3rKoU6iGq.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;这不只是百度一家公司的问题，Google 在过去一年里也看到了 PC 广告的崩溃。&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;根据第三方检测机构 Merkle 得到的数据，2018 年 Google 的手机广告依然有 46% 增长，高于去年同期。但 PC 和平板都只有 2%。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521023719B3UFwfCxYQISJdAe.jpg-w600"&gt;&lt;/img&gt;
图表来自 Merkle&lt;/div&gt; &lt;p&gt;2019 年第一季度，放缓的广告业务营收增速拖累了 Google 整体营收增速，造成三年来最低的营收增幅。Google 广告收入增速变缓，意味着 Google 的流量增速不足以弥补广告价格的下滑。&lt;/p&gt; &lt;p&gt;除了 PC 以外，Google CFO Porat 还在营收会议上指出 YouTube 近期的一些调整导致广告点击量增长放缓。上一季度，Google 广告点击量增长 39%，比去年同期低了 20 个百分点。同时单个点击的价格也大幅减少 19%——YouTube 广告往往单价高于搜索广告。但 Porat 没有给出具体 YouTube 广告数据，Google 财报也不公布具体移动、视频等分类的数据。&lt;/p&gt; &lt;p&gt;在本月中旬的 Google Marketing 大会上，Google 推出了一系列新的移动端广告产品，开始重视起了信息流广告。&lt;/p&gt; &lt;p&gt;在 Google 艰难的这一季，Facebook 的广告收入较上一年同期增长了 26% 至 149 亿美元。其中，移动广告收入较去年同期增长 30% 至 139 亿美元，Instagram 成为其主要广告收入增长来源。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;从中我们也能看到，全球广告的趋势都是如此，数字超过传统，而移动又超过桌面。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521055409YBgMkXW45J0vuTy8.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;百度自 2017 年启动信息流项目，让人在里面看新闻。但作为广告载体，百度已经不太适合与头条相比。李彦宏称一季度每天有 1.78 亿人打开百度应用、2200 万人打开手机短视频。作为对比，头条 1.06 亿、抖音 2.5 亿。甚至，每天打开微博的人都有 2 亿人，高过百度。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;用户量，以及这些用户每天看到、点开的广告数量决定着平台的广告收入。到了手机时代，百度远不再是中国最重要的广告渠道。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521044245mwEHDSW2R8GeK7B6.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;h3&gt;同时监管无处不在，医疗、游戏、金融广告都受影响&lt;/h3&gt; &lt;p&gt;多年来，百度广告收入主要来自零售电商、医疗健康、特许经营服务、金融服务等行业。&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;医疗以及当中的医疗电商是中国目前为数不多的依然蓬勃发展的行业。2018 年天猫医药馆成交总额达到 595 亿元，外加医美、体检、疫苗、口腔等消费医疗品类，增长超过 140%，平安好医生的健康商城 2018 年成交总额增速也近 80%。&lt;/p&gt; &lt;p&gt;百度长期受医院青睐，因为它依然是求医问药的主要渠道。山东开创集团是百度第二大广告代理商，也是代理商里不多的上市公司，它每年披露的大广告客户基本都是民营医院，一家医院就能通过它  &lt;a href="http://www.qdaily.com/articles/11356.html"&gt;在百度投放上千万人民币的广告&lt;/a&gt;。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521052843Vdmf0eC6gjK4XFbB.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;李彦宏在财报会议中称，百度在监管以及自身医疗规范的要求下，将医疗类广告的页面放到了百度自己的平台上。他的 CFO 余正鈞在营收会议上说影响将在下个季度变得更严峻。&lt;/p&gt; &lt;p&gt;“我们在一季度末切换了大部分医疗广告商，”余正鈞说“当你换（广告）网页的时候，用户往往需要一些时间适应它们，转换率需要一些时间才能恢复。”&lt;/p&gt; &lt;p&gt;为了避开审核，大多数医药、保健品广告多年都会采用“二跳”形式，也就是在首页瀑布流中出现的首个广告页面内容合规，二次跳转后页面内容则是过去医药广告里常见的“临床医学专家”、“患者现身说法”——能有效劝人购买，但不合规。&lt;/p&gt; &lt;p&gt;去年 3 月和 12 月，今日头条被北京市工商行政管理局海淀分局两次处罚，  &lt;a href="http://www.sohu.com/a/278997194_698311" rel="nofollow"&gt;也都是因为违法医疗广告。&lt;/a&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;换句话说，百度在遵循更严格的医疗广告要求之后，无法吸引用户点击广告、购买医疗产品和服务。当分析师追问三季度医疗广告能否恢复的时候，余正鈞称无法给出准确预测。&lt;/p&gt; &lt;p&gt;监管问题不只有医疗，影响的也不只是百度。陌陌总裁王力在今年 3 月的财报会议上称，由于游戏版号停发，陌陌的相关业务也受到直接影响。同样的下滑也体现腾讯、网易的财报中，由于无法推出足够多的游戏，两家公司都缩减了游戏的营销费用。&lt;/p&gt; &lt;p&gt;金融服务方面，保监会关门、资管去杠杆、P2P 暴雷，带来的也是一整个行业的广告消失。&lt;/p&gt; &lt;h3&gt;整个中国广告市场迎来 11 年来最大降幅，问题已经超出渠道转移和具体行业监管&lt;/h3&gt; &lt;p&gt;广告是企业花钱促进业务增长的重要手段。当企业经营状况不好之后，如果无法开源创造新收入，就只能节流缩减成本，裁员、减少广告投放都是常用手段。&lt;/p&gt; &lt;p&gt;这也是目前中国广告市场所面对的问题，不只是电视、印刷等传统广告介质受影响，全部广告介质的增长都在下滑，只有电梯海报广告维持两位数的增长。&lt;/p&gt; &lt;p&gt;  &lt;a href="https://mp.weixin.qq.com/s/uavNfqZGcBrAL33XXsiXhg" rel="nofollow"&gt;CTR 媒介智讯数据显示&lt;/a&gt;，2019 年第一季度的广告市场下降 11.2%，这是中国广告市场过去 11 年最大降幅，也是第一次第一季度的跌幅达到两位数。&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;CTR 的  &lt;a href="https://mp.weixin.qq.com/s/uavNfqZGcBrAL33XXsiXhg" rel="nofollow"&gt;广告主调查研究则显示&lt;/a&gt;，只有 33% 的广告主计划在今年增加预算，这一数字是过去 10 年最低水平。计划保持、减少预算的广告主占比都属于 10 年内第二高的水平。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521054631lFs9E2ifYVjGkJOy.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;在财报会议上，李彦宏提到了宏观经济的影响，称春节后的广告投放并没有像往年一样反弹。他说“尽管中国政府推出多项经济政策刺激经济，但考虑到目前的宏观环境，政府更严格的内容监管、风投收缩等原因，我们认为短期内广告业务将面临更艰难的环境。”&lt;/p&gt; &lt;p&gt;马化腾持同样的观点，并给出了具体的行业。在腾讯财报会议上，他说：“广告收入受到了宏观经济的影响，特别在汽车、地产和互联网服务领域。互联网公司往往有很大规模，但没有盈利，大量 O2O 公司和很多互联网创业公司都在此时选择了调整支出。”&lt;/p&gt; &lt;p&gt;不管在中国还是美国，投广告的主要行业差得都不太多。&lt;/p&gt; &lt;p&gt;美国的前五行业是零售、汽车、金融、电信和消费品。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521083756UdVARSgFvh9THDzq.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;央视市场研究（CTR）的数据则显示，2018 年全媒体广告花费 TOP5 的行业分别是邮电通讯、饮料、药品、食品和商业及服务性行业。大部分都在下滑，为数不多还在增长的是饮料、食品和商业服务性行业。今年第一季度，除了食品增长 11.8%之外，另外四个行业的广告投放花销跌幅都超过 20%。&lt;/p&gt; &lt;p&gt;因为主要行业基本都在下滑。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;2018 年，中国汽车销售 30 年来首次下滑。全国乘用车市场信息联合会称 2018 年中国汽车销量按年减少 5.8%。2019 年前三个月这一数字扩大到 -10.5%。&lt;/p&gt; &lt;p&gt;这自然也反映到了车企的广告预算上，全国排名前十的大车企，没有一个销售投入增速是在上涨的。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521053953Wn7JbyMhplGE1LX9.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;地产公司也是一样，自 2016 年销售额冲到一年 3000 亿、2017 年冲到一年 5000 亿之后，中国三大房企碧桂园、恒大、万科的销售额 2018 年都陷入停滞。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;而地产公司在中国都是高负债经营，销售放缓就意味着现金流危机，各家也都在放慢销售开支以节省成本。2018 年，碧桂园和万科的销售费用增速都有所放缓。三家房企中增长最少的恒大，销售费用只增长了 7.68%。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521054037U42AnNpZVOXxwvR0.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;今年第一季度，恒大为加快公司现金回款速度打折卖房，碧桂园被曝大规模人员调整计划，万科董事会主席郁亮在 2 月25 日的一份内部发言稿再次提到  &lt;a href="http://hk.jrj.com.cn/2019/03/04075127112942.shtml" rel="nofollow"&gt;“活下去”&lt;/a&gt;。情况看上去只是更差了。  &lt;br /&gt;&lt;/p&gt; &lt;h3&gt;互联网公司在过去几年逐渐成为大广告主，它们也开始削减投入&lt;/h3&gt; &lt;p&gt;CTR 第一季度广告市场回顾报告显示，以网站和手机产品为主的所谓“邮电通讯行业”（这是一个别致的行业划分方法）在 2019 年第一季度的全媒体广告花费下滑了 24.3%。&lt;/p&gt; &lt;p&gt;其中一部分是因为游戏公司开始削减成本，直接体现为腾讯在一季度砍掉 42 亿销售费用，超过 20%。&lt;/p&gt; &lt;p&gt;减少 42 亿支出之后，腾讯的利润有所增长，但这对广告业是坏事——腾讯没有实体业务，它砍销售费用基本就是砍广告费。&lt;/p&gt; &lt;p&gt;          &lt;/p&gt; &lt;p&gt;&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521060940qZOr80aw2fd13RWE.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;另外一方面，如马化腾所说，能大量烧钱投广告的创业公司也少了。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;移动广告繁荣的那几年，也是一批又一批创业公司烧钱换增长的时候，从 2013、14 年的 O2O 到 2016、17 年的共享单车热，不管这些创业公司能活多久，总要在广告上烧一烧。楼宇电梯的分众电视屏幕，长期播放着拼多多、瑞幸的广告视频。&lt;/p&gt; &lt;p&gt;现在，随着一些行业消失、大批公司倒下、还有一批公司上市公开财务数据，可以继续不计成本将钱烧在广告上的公司也少了。&lt;/p&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20190521060707o37iQxbIheBus04m.jpg-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;最近一季度，食品行业在广告投放花费中是唯一上涨的，与此同时电商平台的广告收入仍然保持着高增长。  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;最后能指望的还是只有消费，以及刺激消费的力量。但  &lt;a href="http://www.qdaily.com/articles/60488.html"&gt;消费的潜力究竟有多少呢&lt;/a&gt;？  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;制图 / 冯秀霞 龚方毅&lt;/p&gt; &lt;p&gt;题图来自 题图来自：  &lt;a href="https://unsplash.com/photos/FPt10LXK0cg?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText" rel="nofollow" target="_blank"&gt;ROBIN WORRALL&lt;/a&gt; on   &lt;a href="https://unsplash.com/search/photos/social-media?utm_source=unsplash&amp;utm_medium=referral&amp;utm_content=creditCopyText" rel="nofollow" target="_blank"&gt;Unsplash&lt;/a&gt;&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;div&gt;&lt;/div&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20171222175448DuIFGKx5VU4XcYEf.png-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;我们做了一个壁纸应用，给你的手机加点好奇心。去 App 商店搜   &lt;a href="http://m.notch.qdaily.com/mobile/downloads.html"&gt;好奇怪&lt;/a&gt; 下载吧。  &lt;br /&gt;&lt;/p&gt;
      &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/59629-%E7%99%BE%E5%BA%A6-%E5%B9%BF%E5%91%8A-%E5%8D%B1%E6%9C%BA</guid>
      <pubDate>Tue, 21 May 2019 15:52:29 CST</pubDate>
    </item>
    <item>
      <title>广告产品的五个核心问题</title>
      <link>https://itindex.net/detail/59627-%E5%B9%BF%E5%91%8A-%E4%BA%A7%E5%93%81-%E6%A0%B8%E5%BF%83</link>
      <description>&lt;blockquote&gt;  &lt;p&gt;随着互联网的发展，产品经理岗位也出现了越来越细的分工，其中就出现了广告产品经理这一细分岗位。本文主要是结合笔者经验，从产品维度聊聊商业产品矩阵里的广告产品。&lt;/p&gt;&lt;/blockquote&gt;
 &lt;p&gt;  &lt;img alt="" height="450" src="http://image.woshipm.com/wp-files/2019/05/eLQ0Eyso7D1jOwh2sRAY.png!v.jpg" width="800"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;随着互联网的发展，曾经是万金油的产品经理岗位也出现了越来越细的分工，按职能定位划分有用户产品、平台产品、策略产品、增长产品，商业产品经理……通用能力的产品不再具备竞争力，基于专业和行业壁垒建立核心能力模型，才能在升级打怪路上继续通关和进阶。&lt;/p&gt;
 &lt;p&gt;本文重点聊商业产品矩阵里的广告产品。&lt;/p&gt;
 &lt;h3&gt;问题一：广告不是独立的闭环业务模式&lt;/h3&gt;
 &lt;p&gt;古典的商业变现模式有游戏、广告和电商。独立闭环业务模式是指企业掌握业务核心主流程，掌握关键资源进行商业化变现。区别于电商和游戏业务，广告很难成为独立的闭环业务模式，必须依赖媒体、搜索、信息流等业务场景才能完成闭环。&lt;/p&gt;
 &lt;p&gt;广告代理公司不是闭环的业务模式，因为本身不掌握最核心用户流量，必须依赖流量供应商才能存活。从广告收入来看，前几年最大的广告公司是做搜索的百度，现在最大的广告公司是阿里。&lt;/p&gt;
 &lt;p&gt;因此，广告产品经理要做的，不仅是围绕广告平台大谈DSP、ADX、DMP、CPC等专业词汇，不能局限在广告系统模块，要跳出广告本身，去了解广告上下游生态，理解不同行业客户的诉求差异，最大化客户价值。同时，要洞悉消费者需求变迁轨迹，具备商业思考能力，设计好的变现模式持续创造价值。&lt;/p&gt;
 &lt;h3&gt;问题二：几乎所有主流互联网公司都有广告变现模式&lt;/h3&gt;
 &lt;p&gt;广告几乎是所有互联网公司都有的变现模式，曾经的广告之王是央视，后来在广告收入上被互联网新贵超越，互联网广告市场一直处于高速增长态势。&lt;/p&gt;
 &lt;p&gt;电商卖家想要多卖货需要在淘宝直通车打广告，网站想要被搜索引擎检索到需要在百度买关键词做广告，APP创业者想要提升下载量需要在应用商店交广告费，房产中介想出租房屋提升曝光需要在58同城买置顶广告位……&lt;/p&gt;
 &lt;p&gt;可以说广告无处不在，作为普通消费者对广告大多是反感的，只有少量经典广告有用户喜欢看，比如乔布斯给苹果做的广告片：think different。作为产品经理，如果用专业视角来看待广告产品体系，也很有意思。&lt;/p&gt;
 &lt;p&gt;产品经理往上走，肯定会接触到自己负责产品条线的商业变现和收入，需要站在事业部甚至整个公司层面思考问题，站得更高才能看得更长远，做出更优的决策。&lt;/p&gt;
 &lt;p&gt;建议工作3年以上的产品，不管目前做的事情是否涉及商业产品，都要刻意练习商业化思考的角度，看看自己负责的模块对于广告商业变现体系是否有直接或间接的贡献，这样才能走得更远。&lt;/p&gt;
 &lt;h3&gt;问题三：每个公司的广告变现模式各有千秋&lt;/h3&gt;
 &lt;p&gt;差异化地方在于，不同公司的业务场景对于广告模式和架构的选择都有各自的考量。阿里电商业务有阿里妈妈广告联盟，百度有凤巢和百度联盟，腾讯有广点通，字节跳动有巨量引擎和穿山甲联盟。&lt;/p&gt;
 &lt;blockquote&gt;  &lt;p&gt;2018互联网广告总体规模达3694亿，年增长率为24.2%，互联网广告市场竞争符合二八原则，阿里腾讯百度头条广告营收占据85%市场份额。&lt;/p&gt;&lt;/blockquote&gt;
 &lt;p&gt;  &lt;img alt="" height="526" src="http://image.woshipm.com/wp-files/2019/05/wlCxazCKxl10yzX66kS5.png!v.jpg" width="710"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;注：&lt;/p&gt;
 &lt;p&gt;1. 数据来源：各大公司2018年财报&lt;/p&gt;
 &lt;p&gt;2. 蚂蚁和滴滴在广告（在线营销）方面数据披露较少，但都是有广告收入的，蚂蚁给金融机构导流获取广告收入，滴滴给金融机构、车主服务商导流获取广告费。&lt;/p&gt;
 &lt;h3&gt;问题四：广告产品经理未来发展如何&lt;/h3&gt;
 &lt;p&gt;产品经理未来的职业路径，除了传统的管理路线和专家路线，在执行层面有两个进阶方向：行业壁垒和专业壁垒。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;行业壁垒：&lt;/strong&gt;主要指对某个有相当知识沉淀的传统行业有特别深的造诣，最核心能力是搭建业务系统的能力。比如金融行业产品经理、教育行业产品经理、医疗行业产品经理、房产行业产品经理，旅游行业产品经理等。&lt;/p&gt;
 &lt;p&gt;现在很多中高级产品岗位的社会招聘，越来越看重行业经验积累，只有深入了解行业的痛点和客户诉求，才能做出创新性的产品，为传统行业带来一点积极的影响和改变。&lt;/p&gt;
 &lt;p&gt;在职业规划上深耕某个行业才能在未来十年站稳脚跟，否则可能比较容易遭遇35岁失业危机。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;专业壁垒：&lt;/strong&gt;在广告、搜索、支付和风控等专业领域建立专业认知，争取做到细分专业领域topT00。&lt;/p&gt;
 &lt;p&gt;广告产品经理属于可以在专业壁垒上建立职业壁垒的类型。&lt;/p&gt;
 &lt;p&gt;商业的本质是通过分工协作进行利益分配，开公司本质就是为股东赚钱带来资本回报，凡是负责赚钱和带来收入的岗位都会变得越来越重要，所以广告产品经理肯定会一直存在且被公司需要的，认准这个方向且在正确的方向上持之以恒的努力，未来会活得很好。&lt;/p&gt;
 &lt;p&gt;做产品就是以用户为中心，把行业认知和专业认知进行变现。&lt;/p&gt;
 &lt;h3&gt;问题五：广告产品的主线和平衡点&lt;/h3&gt;
 &lt;p&gt;广告产品的一条主线和两个平衡点：核心主线是两个字：赚钱。商业化变现为公司带来收入增长，两个平衡点是商业收入目标和用户体验的平衡。&lt;/p&gt;
 &lt;p&gt;广告产品属于商业产品，最核心的考核指标是收入和利润，管着公司的钱袋子，得赚钱养活公司大大小小的部门。广告产品需要具备商业思维能力，不仅要找到赚钱的点，还要打造可持续可规模化的商业变现模式推动公司发展。&lt;/p&gt;
 &lt;p&gt;但是，广告产品不能唯赚钱论，否则就和最近财报亏损和市值掉队的某巨头差不多，医疗广告和竞价排名被过度商业化，销售导向而不重视用户体验，透支的是企业未来发展的潜力和根基。&lt;/p&gt;
 &lt;p&gt;广告产品需要建立基本的底线思维，有所为有所不为。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;首先，绝对不能做伤天害人的事。&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;比如给虚假医院和旁氏骗局的理财平台打广告，即便是小概率事件也要保持谨慎，一旦发生很容易给用户造成巨大的损失。&lt;/p&gt;
 &lt;p&gt;这种底线思维不仅是从产品设计上需要考虑，更重要的是公司的价值观和文化导向，谷歌的不作恶就是很好的底线。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;其次，打扰骚扰用户的广告要适可而止。&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;这些广告信息虽然不害人不会给用户带来生命或者财产损失，但是经常被骚扰也很烦，久而久之用户会选择用脚投票。&lt;/p&gt;
 &lt;p&gt;上图中，某手机厂商广告收入过百亿就很说明问题，手机系统充斥很多广告被广泛吐槽。本人曾经也是MIUI用户，刚开始那几年，MIUI确实是最好用的安卓系统，在发烧友群体中口碑很好。后来随着商业化节奏加快，系统里广告太多，不堪其扰就不再使用。&lt;/p&gt;
 &lt;p&gt;在用户体验上，大部分公司的产品都存在这个问题，各种营销信息不断打扰用户，目前只有微信豁免，伟大的产品一直在克制。&lt;/p&gt;
 &lt;p&gt;企业为了做好商业目标和用户目标的平衡，用户产品和商业产品在组织架构上通常分为2个独立的部门，各自为自己的KPI负责。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;最后，用户对广告也不都是抵制的，还是能接受一些精准的优质广告。&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;比如微信朋友圈的广告，刚开始推出的时候引起用户的疯狂追捧，评论点赞很多。好的广告让用户觉得不是广告，好的广告用户即便知道是广告还愿意转发推荐和口碑传播。&lt;/p&gt;
 &lt;p&gt;除了在广告上的2个底线思维，产品经理还可以从另外一个角度思考问题，就是如何做出用户喜欢的广告，力争做到商业收入和用户体验双赢。精准可以从大数据分析入手，是商业产品本身可以完成的，优质的广告需要好的创意设计，需要发起协作，在广告产业链上挖掘接入号的供应商，建立好的广告生态圈。&lt;/p&gt;
 &lt;p&gt;精准和优质是广告产品的一个进化方向。&lt;/p&gt;
 &lt;h3&gt;#专栏作家#&lt;/h3&gt;
 &lt;p&gt;刘国宏，微信公众号：iwifi，人人都是产品经理专栏作家。&lt;/p&gt;
 &lt;p&gt;本文原创发布于人人都是产品经理，未经许可，禁止转载&lt;/p&gt;
 &lt;p&gt;题图来自Unsplash，基于CC0协议&lt;/p&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>产品经理 2年 初级 广告产品</category>
      <guid isPermaLink="true">https://itindex.net/detail/59627-%E5%B9%BF%E5%91%8A-%E4%BA%A7%E5%93%81-%E6%A0%B8%E5%BF%83</guid>
      <pubDate>Fri, 24 May 2019 17:20:47 CST</pubDate>
    </item>
    <item>
      <title>计算广告入门概念</title>
      <link>https://itindex.net/detail/59571-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E6%A6%82%E5%BF%B5</link>
      <description>&lt;p&gt;最近开始研究计算广告相关的东西了，那么首先我们要弄懂计算广告中一些常见的概念，本文就让我们一起来整理下吧。&lt;/p&gt;
 &lt;p&gt;主要参考的两本书：《计算广告》和 《互联网广告的市场设计》&lt;/p&gt;
 &lt;h1&gt;1、广告市场的参与方&lt;/h1&gt;
 &lt;p&gt;广告活动的两个主动的参与方是需求方和供给方，被动的参与方是受众。&lt;/p&gt;
 &lt;p&gt;需求方：这里的需求方包括广告主，代表广告主利益的代理商或其他技术形态的采买方，概括来说，就是想要投放广告的一方。&lt;/p&gt;
 &lt;p&gt;供给方：这里的供给方可以是媒体，也可以是其他技术形态的变现平台。在移动互联网时代，媒体指一切拥有流量的电视媒体、报纸、Web 网站、移动 APP、H5 页面等等。概括来说就是给想要投放广告的需求方提供广告位的一方。&lt;/p&gt;
 &lt;p&gt;受众：受众就是我们这群看广告的人啦，之所以说是被动的，因为给我们看什么广告并不是我们决定的，而是由需求方和供给方来决定的。&lt;/p&gt;
 &lt;h1&gt;2、广告市场的常见收费方式&lt;/h1&gt;
 &lt;p&gt;广告这一商业行为，对于需求方来说，其目的主要有两个：一是吸引用户消费，二是塑造品牌形象；对于供给方来说，那当然是赚钱了。需求方想要在供给方这里放广告，当然是要付钱的。那么本节所介绍的，就是需求方如何向供给方付钱的。&lt;/p&gt;
 &lt;p&gt;按千次展示计费 CPM(Cost per Mille)：即在供给方的广告位上，展示 1000 次需求方的广告，需求方需要支付给供给方的钱。假设约定是 1000 元，那么广告展示 5000 次的话，需求方需要支付供给方 5000 元。&lt;/p&gt;
 &lt;p&gt;按点击计费 CPC(Cost per Click):即在供给方的广告位上，广告每被受众点击一次，需求方需要支付给供给方的钱。假设约定的是一次 3 块，如果广告展示了 1000 次，共被点击 20 次，那么需求方需要支付给供给方 60 元。&lt;/p&gt;
 &lt;p&gt;按销售额付费 CPS(Cost per Sale)：这种计费方式跟广告展示或者点击多少次没太大关系了，主要按照需求方的收入来决定的。假设需求方通过广告展示获得了 1000 元的销售额，按照 20%的比例支付给供给方，那么供给方的收入便是 200 元。&lt;/p&gt;
 &lt;p&gt;按转化付费 CPA(Cost per Action)：这里的转化形式可以很多，比如我们推送了一个公众号的广告，用户点击并关注公众号算是一种转化，推送了一个商品广告，用户购买或者加入购物车算是一种转化。假设需求方通过广告展示获得了 200 个用户的关注，每一个关注支付给供给方 5 元，那么供给方的收入共 1000 元。&lt;/p&gt;
 &lt;p&gt;按时间付费 CPT(Cost per Time)：供给方将某个广告位以独占的方式给广告主，并按独占的时间段收取费用。&lt;/p&gt;
 &lt;h1&gt;3、供给方的收益衡量&lt;/h1&gt;
 &lt;p&gt;上一节介绍的是需求方如何向供给方进行付费，尽管有不同的收费方式，但供给方最终大都会转换为同样的标准来衡量自己的收益，最为常用的是千次展示期望收入 eCPM(Expected Cost per Mille)。本节主要来介绍 eCPM 和上述几种付费方式的关系。&lt;/p&gt;
 &lt;p&gt;对于 CPM 的付费方式，很简单，eCPM=CPM。&lt;/p&gt;
 &lt;p&gt;对于 CPC 的付费方式，eCPM = 1000 * CTR * V。此时供给方会对需求方给出的广告预估一个点击率 CTR，假设一个广告的 CTR 为 10%，每次点击广告主的付费是 V=5 元，那么 eCPM = 1000 * 0.1 * 5 = 500。&lt;/p&gt;
 &lt;p&gt;对于 CPS 或者 CPA 的付费方式，eCPM = 1000 * CTR * CVR * V。此时供给方不仅需要预估广告的点击率 CTR，还需要预估广告的转化率，以及每次转化所带来的收益 V。假设一个广告的 CTR 为 10%，CVR 为 20%，每次的销售分成或转化付费是 10 元，那么 eCPM = 1000 * 10% * 20% * 10 = 200。（这里的 CVR 是点击并转化的用户占所有点击用户的比例，而非转化的用户占曝光用户的比例）。&lt;/p&gt;
 &lt;p&gt;对于 CPT 的付费方式，我们可以预估一个每日的曝光量，比如需求方约定的是展示一天付给供给方 10000 元，预估的曝光量是 20000，那么 eCPM = 1000 * 10000 ／ 20000 = 500。&lt;/p&gt;
 &lt;h1&gt;4、广告市场中的竞价机制&lt;/h1&gt;
 &lt;p&gt;在广告市场中，如果需求方的数量大于供给方的数量，也可以理解为需要展示的广告数量大于广告位的数量，那么怎么样来确定展示哪个广告呢？这里就会牵扯到竞价机制。&lt;/p&gt;
 &lt;p&gt;最常见的竞价机制为广义第二高价 GSP(Generalized Second Price)。我们先来谈谈什么是第二高价。它源于拍卖市场。假设有四个花瓶爱好者竞拍一个花瓶，A 的出价为 200，B 的出价为 150，C 的出价为 180，D 的出价为 175。那么 A 成功竞拍得到花瓶，但他支付的价格并不是自己的出价 200，而是出价第二高的价格，即 A 需要支付 180。&lt;/p&gt;
 &lt;p&gt;再来谈谈广义第二高价，假设在按 CPM 付费的情景下，有四个广告主竞拍三个广告位（三个广告位是有差异的，越前面的越好），A 广告主的出价为 200，B 广告主出价 180，C 广告主出价 170，D 广告主出价 150。那么 A 广告主获得第一个广告位，其 CPM=180，B 广告主获得第二个广告位，其 CPM=170，C 广告主获得第三个广告位，其 CPM=150。&lt;/p&gt;
 &lt;p&gt;在竞价过程中，供给方是按照自身的 eCPM 来对广告进行排序的。在按 CPM 计费的情况下，eCPM = CPM，所以该过程和我们上面的解释是一致的。但在 CPC 计费时，情况就有所不同了，此时我们不仅要关心广告主的出价，还要关心各广告的点击率。假设我们还是有 4 个广告主 ABCD，竞拍三个广告位，供给方对于 4 个广告的点击率预估如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt=""&gt;&lt;/img&gt;&lt;/p&gt;

 &lt;p&gt; &lt;/p&gt;
 &lt;p&gt;在上图的最后一列，我们将按照 CPC 竞价转换为了按照 CPM 竞价。好了，很&lt;/p&gt;
 &lt;p&gt; &lt;/p&gt;
 &lt;p&gt;显然的方案是，A 获得第一个广告位，B 获得第二个广告位，C 获得第三个广告位。接下来的问题是，广告主 A、B 和 C 实际支付的 CPC 怎么确定呢？A 按照 CPM=8 来定价，即 A 广告主实际支付的 CPM=8，换算为 CPC 为 8 ／ 1000 ／ 1.6% = 0.5。所以，实际中，各广告主实际支付的 CPC 为：&lt;/p&gt;
 &lt;p&gt;  &lt;a href="https://www.deeplearn.me/wp-content/uploads/2019/05/2019051211014724.png" rel="box"&gt;   &lt;img alt=""&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;

 &lt;p&gt; &lt;/p&gt;
 &lt;p&gt;在实际中，通常会给出一个市场保留价 MRP(Market Reserve Price)，即广告主出价的最低价格，假设上面例子中 MRP = 0.25 ,那么 C 广告主的实际出价也会变为 0.25，而非 0.2。&lt;/p&gt;
 &lt;hr&gt;&lt;/hr&gt; &lt;div&gt;Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用  &lt;a href="https://creativecommons.org/licenses/by-nc-sa/3.0/" rel="nofollow" target="_blank" title="BY-NC-SA &amp;#25480;&amp;#26435;&amp;#21327;&amp;#35758;"&gt;BY-NC-SA&lt;/a&gt;协议进行授权 , 转载请注明  &lt;a href="https://www.deeplearn.me/2596.html" target="_blank" title="&amp;#35745;&amp;#31639;&amp;#24191;&amp;#21578;&amp;#20837;&amp;#38376;&amp;#27010;&amp;#24565;"&gt;计算广告入门概念&lt;/a&gt;！
&lt;/div&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>AD 计算广告</category>
      <guid isPermaLink="true">https://itindex.net/detail/59571-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E6%A6%82%E5%BF%B5</guid>
      <pubDate>Sun, 12 May 2019 19:04:40 CST</pubDate>
    </item>
    <item>
      <title>5000元能否实现租房自由？北上广深租房实验报告丨DT城数</title>
      <link>https://itindex.net/detail/59415-%E8%87%AA%E7%94%B1-%E5%8C%97%E4%B8%8A%E5%B9%BF-%E5%AE%9E%E9%AA%8C%E6%8A%A5%E5%91%8A</link>
      <description>&lt;div&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在不久前发布的北京租房一文中，DT君得出结论：“      &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650827416&amp;idx=3&amp;sn=70beaec9446e13650c699b1e2665009f&amp;chksm=8ba1b601bcd63f17e8f681ac1789f66ade87225d0b7fd0c8133cc3eb4d2359e2542423be21e5&amp;scene=21#wechat_redirect" target="_blank"&gt;预算5000元，在北京也租不到好房&lt;/a&gt;”，戳中了帝都一众年轻人的租房小确丧。看到北京青年租房如此“水深火热”，一些来自其他大城市的年轻人奋勇发言，希望我们可以雨露均沾，用数据为更多城市提供租房指（安）南（慰）。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;贴心的DT君（公众号ID：DTcaijing）索性一次性把北上广深都拉出来溜溜，帮助大家直面美好生活。一通犀利操作后，我们也在文末提供了数据包，方便各位早日自主实现理性租房。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;              &lt;strong&gt;                &lt;strong&gt;                  &lt;strong&gt;                    &lt;strong&gt;                      &lt;strong&gt;                        &lt;strong&gt;                          &lt;strong&gt;                            &lt;strong&gt;                              &lt;strong&gt;                                &lt;strong&gt;▍&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;北京和深圳租金靠“社畜”，上海租金靠精致穷人&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在展开更深入的研究前，让我们先俯瞰一下这几个城市的租房市场。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;文前需要说明一下，本文提到的租金均指单室租金（单室租金=房屋总租金/卧室房间数量）。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;很明显，北京租金遥遥领先，上海与深圳相差不大，广州则远低于其他一线城市。那些住在北京昌平、上海宝山和深圳龙岗的年轻人，到了广州可以轻松住进市中心。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;DT君将各地租金落到地图上，颜色从红到蓝，对应租金从高到低。拉出城市内的租金鄙视链，北上广深各具特色。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;北京和深圳比较相似，      &lt;strong&gt;租金都紧跟着互联网和金融行业的薪酬水涨船高&lt;/strong&gt;。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;北京的租金高地分布在西北角和东三环，正好对应中关村、国贸、望京、西单/金融街几大商务区。不管是聚集了今日头条、百度等互联网公司的中关村，苹果、壳牌等外企占据的国贸，因为高盛、华融等而金光闪闪的西单金融街，还是拥有阿里巴巴、美团的望京，都用丰厚的薪酬和补贴，将公司附近的房租顶上了帝都租金鄙视链的顶端。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;深圳的租金头部区域则由南山和福田两区包揽，胜在离知名企业很近，拥有一些大方的租客：南山后海聚集了腾讯、顺丰、大疆等科技互联网公司，而福田车公庙附近以招商银行、深圳证券交易所为代表的金融业蓬勃发展。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;这些地方各方面配套不一定最优秀，但凭借着“住得近不迟到”与“加班晚不害怕”两大硬核优势即获得超高溢价，只能说是“社畜”们为了多睡会儿觉的无奈选择。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;另一边，      &lt;strong&gt;上海和广州的租房市场还保留着城市商业中心的尊严&lt;/strong&gt;。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;广州租房的中心属性很明显，租金与居住享受挂钩明显，越来越红火的天河区当之无愧成为租金屋脊。而往南，番禺区的华南碧桂园等中高档住宅区，撑起了一个区的租金门面。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;上海租金最贵的区域从内环向外辐射，沿二号线东到徐泾东，西至张江高科技园区——这基本也是魔都商业与活力递减的脉络了。得益于这些年拔地而起的购物中心，带起一个又一个社区商业中心，让中环外也出现了三三两两的租金亮点。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;像DT君这样追求随时能获得精致生活的年轻人，甜品和健身两手都要抓，肯定得住在商业中心附近，但囊中羞涩无法负担南京西路、徐家汇这种顶级商圈的租金，只能咬咬牙牺牲通勤时间，去捧了各个外环外新商圈的场，在地图上就是一个个租金小高峰。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;              &lt;strong&gt;                &lt;strong&gt;                  &lt;strong&gt;                    &lt;strong&gt;                      &lt;strong&gt;                        &lt;strong&gt;                          &lt;strong&gt;                            &lt;strong&gt;                              &lt;strong&gt;                                &lt;strong&gt;▍&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;租金与生活博弈的背后，深圳是真·奋斗之城&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;都是一线城市，北上广深的租金逻辑却不太一样，这引起了DT君的兴趣，于是我们进一步认真研究了其他要素对于租金的影响——愿意为不同的资源付出租金溢价，对应不同城市年轻人迥异的生活状态。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在选房时，白领租房族们考虑最多的应该就是通勤了，以身处上海的DT君为例，租房的首要条件就是离地铁站不能太远。毕竟通勤主要靠地铁，如果步行十分钟还不能到地铁站，恐怕会严重影响工作和生活质量。距离地铁站越近，DT君就可以接受更高的租金。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;我们计算了各个城市待租房源与其最近地铁站的距离，并按照500米以内、500-1000米、1000-2000米、2000-5000米和5000米以上对TA们进行分类。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;结果如上图，上海租客对于地铁距离最为敏感，每与地铁站距离更近一档，租金就会有较大幅度上升；北京与深圳对于地铁距离的要求似乎不如上海那么苛刻，只要在1000米的范围内，近些远些都能接受，但如果更远些，租金会直接少去一大截。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;相较起来，广州就有些佛系了，租金随着地铁站距离的变化曲线非常稳定，大家对于交通枢纽的热情还撑不起太多溢价。DT君不禁怀疑，难道广州开车上班更方便，所以离地铁站近不是通勤刚需？&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;但查询了下高德数据，广州和北京、上海一起站在立体化拥堵程度极高的这一栏里。DT君只能随意猜测，广州人的远距离通勤并不普遍，或者上班时间并没有那么漫长苛刻，所以住离地铁站远一些也没有太大影响（也欢迎广州的朋友留言解惑）。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;（图片来源：高德地图《2018Q3中国主要城市交通分析报告》）&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;除了通勤，DT君在选择租房时还会关心，周边生活是否方便。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在这里我们引入了DT财经城市数据库的BLECTS指数，综合其中对于地铁站辐射圈的居住功能、商业功能和休闲娱乐功能的评价指数，对地铁站辐射圈内的生活便利度进行指数化评估。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在计算了地铁周围房源平均租金和居住便利度的关系后，我们发现，除了深圳，其他三城的的租金和居住便利度呈现明显的正相关。人们租更贵的房子，大概率上会享受到更好的城市资源，生活也更加舒适。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;我们前面提到租金高地即名企聚集地的北京，租金与居住便利度的相关系数也达到0.61——一定程度上表明，帝都这些聚拢商务资源的地方，其他城市资源并不差。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;深圳跟大家不一样，乃真·奋斗之城。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;作为一座比较新的城市，TA各项资源的匹配度还不够好，不管是钢铁森林的CBD，偏居一隅的科技园区，还是绿化满满的高级住宅区，都不太具有商业和生活气息，在DT君的居住便利度评价中很难获得高分。与此对应，付出较高租金住在公司旁边的深圳青年们，大多没有享受到与价格匹配的繁华资源，潜心工作才是要紧事，如果奋斗之余还渴望丰富便利的生活，暂时也只能指望大公司提供更多福利了。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;              &lt;strong&gt;                &lt;strong&gt;                  &lt;strong&gt;                    &lt;strong&gt;                      &lt;strong&gt;                        &lt;strong&gt;                          &lt;strong&gt;                            &lt;strong&gt;                              &lt;strong&gt;                                &lt;strong&gt;▍&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;怀揣5000元巨款，去哪能实现你的租房自由？&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在对各个城市评头论足一番后，还是得为大家考虑一下到底怎么租房的问题——这里只能以DT君个人偏好作为模拟条件了。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;对于大多数像DT君这样的贫困青年，虽心怀对200平米大平层的向往，但奈何心有余而力不足，还是得摸着荷包，在预算范围内谨慎选择。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;按租金区间进行统计，各个城市的租房市场结构特点一目了然：广州绝大部分房子每月租金在3000元以下；北京月租金在3000元以下的房源比例格外低；租金预算调至6000元以上，在上海将拥有最多的选择……&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;之前的文章中我们已经分析过，以5000元/月的预算，在北京实在是租不到什么好房，那么，到了其他一线城市呢？&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在广州，96%的房源月租金在5000元以下，而在深圳这个比例是84%——也就是说，在北京租不到像样房子的年轻人们，南下就能获得租房自由。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;上海月租5000元以下的房源比例跟北京差不多，但可选数量高出近6成，就算得付出同样高昂的租金，魔都青年挑起房来还是比帝都小伙伴更加自如一些。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;DT君将四个城市月租金在5000元左右的房源都落在了地图上，差别挺明显：北京、上海这个价格区间的房源较多，主要还是集中在核心地段，一路往城市边缘开，也还是有不少选择；深圳和广州的房源相对来说就稀疏很多，核心地段的密度明显更大。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;每月付出5000元房租，在北上广深分别意味着啥？细化下房源类型，各城市间的差别就更加形象生动了。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在北京，这意味着紧挨着故宫的东四不到20㎡的通间，朝阳和海淀装修一般的50㎡一室户，丰台、石景山精装大两室，遥远的房山、昌平、通州等地的豪装三室套间。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;上海则是靠近田子坊的25㎡老破小，内环附近的精装一室户，内环外装修极不稳定的两室户，宝山、闵行的精装大套房，或者是位于青浦、松江的毛坯别墅。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;深圳样貌好一些，基本都能住到精装，在福田和南山的核心地段是一室户，罗湖、盐田和宝安中心等区域能住到两室，而到了龙岗，不是大平层就是复式楼。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;广州明显“享受度”高出一截，这个价位对应核心地段越秀南和珠江新城的精装甚至豪装一室户，越秀和天河其他位置的大两室，到了稍微外围一些的白云、黄埔能住到精装/豪装大平层，不远处的番禺则有豪装别墅向你招手。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;想靠5000元实现租房自由、享受美好生活，京沪的同志们可能得考虑换个城市。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;              &lt;strong&gt;                &lt;strong&gt;                  &lt;strong&gt;                    &lt;strong&gt;                      &lt;strong&gt;                        &lt;strong&gt;▍&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;      &lt;strong&gt;        &lt;strong&gt;          &lt;strong&gt;            &lt;strong&gt;要租最合适的房？理想生活没那么容易&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在控制预算之后，DT君根据自己的租房要求，即交通方便、生活便利，在北上广深挑选出比较理想的待租房源，TA们满足这些条件：①月租不超过5000元；②距离地铁站不超过1000米；③所处地铁站辐射圈居住便利度得分排在全城TOP 10。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;广州凭借着低租金的巨大优势，在较为严苛的条件下仍然筛选出了大量房源，租金相对来说还格外低，光从租房来看，这绝对是幸福度最高的一线城市。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;在广州的衬托下，上海与深圳的租客们竟然不那么幸福了。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;当然，首位还是属于北京，拉出其他一线城市溜一圈，也没有改变TA租房困难的事实，价格最贵与选择最少都属于帝都的租客们，所以这大概是个物以稀为贵的循环反复？&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;分析到这里，对指导大家租房好像也没有太多实用价值。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;倒是DT君在一张张租房地图背后看到了许多朋友的影子：住在公司旁边随叫随到、拿着住房补贴的小Z，这两年房租已经涨了三轮；住在城市南郊最大购物中心旁边的小L，每天有两小时在通勤路上；小F这两年从市中心搬到了地铁线路的倒数几站……他们都是大城市青年，被调侃着贴上社畜、精致穷人等一个个标签。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;也就是在现阶段叫嚷着辛苦而贫穷的生活中，租到一间心仪的房，实实在在过上大城市的理想生活，显得有些困难。在文末，我们会继续给出数据包，或许对大家具体的租房需求有帮助。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;这个数据包包含北上广深各个地铁站的租金和居住便利度得分，附带一份DT君精心筛选出的理想房源列表，关注DT财经（公众号ID：DTcaijing），回复“      &lt;strong&gt;租房&lt;/strong&gt;”即可获取数据。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;数据 | 罗钰婧  &lt;/p&gt;    &lt;p&gt;编辑 | 唐也钦&lt;/p&gt;    &lt;p&gt;设计 | 张梓豪、王君奕&lt;/p&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;合作、交流请关注微信公号DT财经（ID：DTcaijing），转载请添加微信dtcaijing005&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;延伸阅读&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;br /&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;城市&lt;/p&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650825411&amp;idx=1&amp;sn=3e6af7014e9b3bc5018f8c39788d83fb&amp;chksm=8ba1be5abcd6374c506b9ab49112acd7b0403016c853c0979b9ffb6e39190b0b2304d81fdf04&amp;scene=21#wechat_redirect" target="_blank"&gt;京沪白领图鉴：隐形土豪、无产中产阶级和猪猪女孩&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650824962&amp;idx=1&amp;sn=4495b13fe78335095e7a9a42e8f0f2c6&amp;chksm=8ba1bd9bbcd6348d67e120df94907361b932574720236c368f5b7688abdddb25837abca81f20&amp;scene=21#wechat_redirect" target="_blank"&gt;静安女子图鉴：她们的失去与拥有&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650825632&amp;idx=1&amp;sn=f767548cadddfe442bdc33fab428eb51&amp;chksm=8ba1bf39bcd6362f6491f0bb9d3c8e1975ca6c23b71d809c27b984e22e412a0120279f2de143&amp;scene=21#wechat_redirect" target="_blank"&gt;1.7亿条数据，比胡同撸串更真实的北京&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650827239&amp;idx=1&amp;sn=edd6e93c22ed0daeaa09bcfe6cecaeaa&amp;chksm=8ba1b57ebcd63c6809781746e43ee4ad3e0fd4a14d0726315bf3a9a29158aae8ede1ee7ae0ce&amp;scene=21#wechat_redirect" target="_blank"&gt;预算5000元，在北京也很难租到好房 &lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650825974&amp;idx=1&amp;sn=b2a10d38b13efbf7b7b3b694e8dfa1d2&amp;chksm=8ba1b86fbcd631799661408177f7bbf45140a17091e735e8050f9840be666d447c164f94b490&amp;scene=21#wechat_redirect" target="_blank"&gt;北上广深便利店PK战&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;商业&lt;/p&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826913&amp;idx=1&amp;sn=d042fb695c7bbacfccd959e241854669&amp;chksm=8ba1b438bcd63d2ebc54b48b98f186eb201ceeb4f2c80f94fc7a54cd6edb522f2511b721c682&amp;scene=21#wechat_redirect" target="_blank"&gt;瑞幸10亿教育市场，反而成全了便利店？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650825401&amp;idx=1&amp;sn=19baa0987fd9161f57771476e2dadd8f&amp;chksm=8ba1be20bcd6373689ce2d9d07897e52ece46fbbc1e7361a4eaa30e02f9aab0f60633160637d&amp;scene=21#wechat_redirect" target="_blank"&gt;当星巴克开始送外卖，瑞幸们慌了&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826864&amp;idx=1&amp;sn=2dd6ffee5cb43d813b21373e093bea78&amp;chksm=8ba1b4e9bcd63dffae31d854cad575d268362335b02ffba009acc2bd2e9686a8e8e906b96216&amp;scene=21#wechat_redirect" target="_blank"&gt;我们真的配不上波司登了？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826522&amp;idx=1&amp;sn=03a5c1330aeda6447b7805537c14e319&amp;chksm=8ba1bb83bcd63295475f544c1d85d6338865447c1a9fe5460c220f785a61369136cbc8c25dfd&amp;scene=21#wechat_redirect" target="_blank"&gt;光明为什么不行了？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826942&amp;idx=1&amp;sn=bbd0daa55b6fb7da8d5254d90720753b&amp;chksm=8ba1b427bcd63d31e504341791855262601ab5bc6df0b207841798d8c559d213d88a4dfe63ba&amp;scene=21#wechat_redirect" target="_blank"&gt;苹果为什么不再受宠？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650827078&amp;idx=1&amp;sn=d087b3308a0223d4175432fd771ebfab&amp;chksm=8ba1b5dfbcd63cc95e2df9fb1c389ba86202fed0b2ce17f46014b8c8821f4b33a63f7204eb1b&amp;scene=21#wechat_redirect" target="_blank"&gt;可口可乐不敌百事，被谁拖累？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;生活&lt;/p&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650827206&amp;idx=1&amp;sn=8d23202a23e1ba2c1f9233c0b936eebf&amp;chksm=8ba1b55fbcd63c49a2d9b7c79345223d45772216d548ccfce78aa4891ffedc6e4364d8d227d2&amp;scene=21#wechat_redirect" target="_blank"&gt;剩男在村里，剩女在城里&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826657&amp;idx=1&amp;sn=641a7961d4c7635eb7f276b7e98b4000&amp;chksm=8ba1bb38bcd6322e5feef00da8360dc8f4f707d37aeaefa1df69cfd0ca675a37452404609135&amp;scene=21#wechat_redirect" target="_blank"&gt;为什么年轻人不去KTV了？&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650825844&amp;idx=1&amp;sn=fdf4617abf43d8397b5cf6b543971009&amp;chksm=8ba1b8edbcd631fb675c23a0c9c56ebbaa677f6091fa631257595d7dca11343695acdd235e8e&amp;scene=21#wechat_redirect" target="_blank"&gt;我们研究了1.5万场活动，对你换个大城市生活可能有用&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650824979&amp;idx=1&amp;sn=101db88cbfcd0dc27e0215d0b8888234&amp;chksm=8ba1bd8abcd6349c6686d31c2255f8e28755a9f75b2efdfdc8b6268b81e8976d3ab2b84f0577&amp;scene=21#wechat_redirect" target="_blank"&gt;夜生活只有加班？你可能住在一个假上海&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;          &lt;a href="http://mp.weixin.qq.com/s?__biz=MzA5Mzk5MDM5MA==&amp;mid=2650826466&amp;idx=1&amp;sn=f46209b141c99aeeb331a622af681b5d&amp;chksm=8ba1ba7bbcd6336d3863deea2aef4367362ccad25cc4707ea3edb171079108a22e463ed87c10&amp;scene=21#wechat_redirect" target="_blank"&gt;第十个双11，你们就这样花光了2135亿&lt;/a&gt;&lt;/p&gt;        &lt;p&gt;          &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;&lt;/div&gt;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/59415-%E8%87%AA%E7%94%B1-%E5%8C%97%E4%B8%8A%E5%B9%BF-%E5%AE%9E%E9%AA%8C%E6%8A%A5%E5%91%8A</guid>
      <pubDate>Wed, 03 Apr 2019 05:24:12 CST</pubDate>
    </item>
    <item>
      <title>计算广告系统算法与架构综述</title>
      <link>https://itindex.net/detail/59412-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E7%B3%BB%E7%BB%9F</link>
      <description>&lt;p&gt;&lt;img data-ratio="0.425531914893617" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYuia0X75ibxP3vkxchRqOq9iaaz2RXA9BFqdMTdicGUKgzIlNUbnRztj3mQ/640?wx_fmt=png" data-w="2350" src="https://image.jiqizhixin.com/uploads/editor/7aded7d3-4586-4cd9-a8e6-3c86dc190af3/1.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;前言&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;p&gt;我们当今身处一个被广告包围的时代，无论是走在马路上、收看电视剧、或者是玩手机游戏，都能看见形形色色的广告。随着时代和技术的发展，广告的形式呈现出多样化、立体化的趋势，从最早的纸媒广告发展到如今的网页的展示、搜索广告，广告的定位也从原先的&amp;ldquo;广而告之&amp;rdquo;发展成&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;时代的&amp;ldquo;精准营销&amp;rdquo;，相应地，人们对广告的态度也在悄然变化。这一切都得益于互联网技术的快速发展以及用户数据的爆炸式增长。作为IT从业者，自然想对广告产业背后的产品、技术一探究竟，正如刘鹏博士在其《计算广告》一书中所说的&amp;ldquo;不论你在做一款用户产品还是商业产品，不深入了解在线 广告，就不太可能全面地了解互联网业务&amp;rdquo;，&lt;strong&gt;因此本文也希望能带领读者从产品、技术以及整个生态的角度深入浅出的了解计算广告。&lt;/strong&gt;&lt;/p&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;核心术语&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;p&gt;首先，在深入了解计算广告之前， 有必要先对一些核心术语做简单的介绍。&amp;nbsp;&lt;/p&gt;&lt;blockquote&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;广告主：&lt;/strong&gt;有广告需求的客户公司，也称为需求方&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;媒体：&lt;/strong&gt;可以是网站或者app，即有多余的广告位可以出售，也称为供给方&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;RTB（Real Time Bidding，实时竞价）&lt;/strong&gt;：综合利用算法、&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;技术在网站或移动应用上对在线的流量实时评估价值，然后出价的竞价技术&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;DSP（需求方平台）&lt;/strong&gt;：为各广告主或者代理商提供实时竞价投放平台，可以在该平台上管理广告活动及其投放策略，并且通过技术和算法优化投放效果，从中获得收益&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;SSP（供应方平台）&lt;/strong&gt;：为各媒体提供一致、集成的广告位库存管理环境&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;DMP（&lt;mark data-id="6c2b1832-a1ec-4823-952d-1f7c0f3890ec" data-type="technologies"&gt;数据管理&lt;/mark&gt;平台）&lt;/strong&gt;：整合各方数据并提供&lt;mark data-id="0863e493-3d71-46a2-bdc8-59cdb4cc102e" data-type="technologies"&gt;数据分析&lt;/mark&gt;，&lt;mark data-id="6c2b1832-a1ec-4823-952d-1f7c0f3890ec" data-type="technologies"&gt;数据管理&lt;/mark&gt;、数据调用等，用来指导广告主进行广告优化和投放决策&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;Ad Exchange&lt;/strong&gt;，简称Adx（广告交易平台）：同时接入了大量的DSP和SSP，给双方提供一个&amp;ldquo;交易场所&amp;rdquo;，将SSP方的广告展示需求以拍卖的方式卖给DSP方。可以类比于股票交易中的证券大厅角色&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CTR（点击率）&lt;/strong&gt;：广告点击与广告展现的比例，这是广告主、各大DSP厂商都非常重视的一个数字，从技术角度看，这一数字可以影响到广告的排序、出价等环节，从业务来看，这是运营人员的考核指标之一&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CVR（转化率）&lt;/strong&gt;：转化（主要由广告主定义，可以是一次下单或是一次下载app等）次数与到达次数的比例&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;eCPM（千次展示期望收入）&lt;/strong&gt;：点击率 * 点击价值，这个数字在计算广告中是核心指标，涉及到对召回广告的排序策略，以及最终出价策略&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CPM（Cost per mille）&lt;/strong&gt;：每千次展现收费，最常见的广告模式，即不考虑点击次数、转化次数，只要广告在网站上被展现给一千个人看到就收费，是大型网站变现的最有效的方式。对广告主来说，适合于注重推广品牌的广告，力求最快最广的触及大众&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CPC（Cost per click）&lt;/strong&gt;：每次点击收费，无论广告被展现了多少次，只要没有产生点击就不收费。对于广告主来说选择 CPC 模式可以有助于提升点击量、发现潜在用户，进而可以真正做到精准营销；对于广大DSP厂商来说，这种收费模式也是获取利润的最有效来源之一&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CPA（Cost per action）&lt;/strong&gt;：每次动作收费，此处的动作一般定义为转化，可以是注册、咨询、交易、下载、留言等等，按照转化的数量来收费。对于广告主来说，这是性价比较高的一种收费方式，但是对于DPS和媒体方来说，想要把这种收费做好，却是有相当的难度。因此，目前也只有大厂或者技术实力深厚的DSP厂商才有能力接这种单子&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;其他的还有CPT（按展现时间收费）、CPL（按潜在线索收费）、CPS（按成功销售收费）等模式，由于应用没有那么广泛，在此不一一介绍了&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/blockquote&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;竞价流程&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;p&gt;在RTB模式出现之后，我们发现展现的广告越来越精准了，好像网站知道用户是谁、用户在做什么、用户对什么感兴趣，因此，在了解了上述这些核心术语之后，接下来就以网站用户角度，从流程上解析RTB是如何做到精准展示广告的。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;用户通过浏览器访问网站&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;浏览器发送广告请求给网站服务器，即SSP方&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;SSP将广告展示需求发送给Adx&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;Adx组织一次竞价，将本次的竞价请求通知给所有DSP方，并传输用户ID、用户IP以及广告位信息等等&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;各家DSP监听服务收到Adx发来的竞价请求后，根据发送来的当前用户的信息、上下文信息、代理的广告主信息对照投放需求，评估该请求&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;各家DSP将根据评估结果决定是否参与出价，若参与，则将出价结果通知Adx&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;Adx收到所有出价响应后根据出价排序，通知出价最高的DSP胜出，同时将胜者的竞价信息告知SSP&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;胜者DSP会收到Adx发送的竞价消息（WinNotice），表示该次展现已经竞价成功。DSP此时将广告物料传送至浏览器展示。至此，一次完整的竞价流程就完成了&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="2.12890625" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYtlnySVeH38NJlK7CfJbVDdwicZPA3uqxqqymr91ibPAPJcfgmXK0Tibbw/640?wx_fmt=jpeg" data-w="1280" src="https://image.jiqizhixin.com/uploads/editor/5e35070e-0fb7-4534-8f60-fbb80a3323b4/2.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;有两点需要说明：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;以上流程需在100毫秒之内完成，也就是一眨眼的功夫都不到，这样才能让访问网站的用户马上看到广告。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;虽然竞价最后的胜者是出价最高的DSP，但其实际支付的价格是出价第二高的报价再加上一个最小值，&lt;strong&gt;这就是著名的广义二阶拍卖(GSP)。&lt;/strong&gt;这种定价模式的好处主要是为了避免各家DSP在多次竞价中，下一次的出价只需比上一次的胜出价格高一点点即可，从而导致出价越来越低。在GSP模式下，每个胜者只需要支付次高出价的金额，这样各家DSP也就没有动力相互压价。GSP是一种稳定的竞价方式，可操作性很强，现阶段几乎所有的互联网广告平台都使用这一种竞价方式。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;技术细节&lt;/h2&gt;&lt;section&gt;&lt;section&gt;&lt;strong&gt;纵观计算广告的发展会发现，整个市场本质上是计算驱动的，而计算背后最大的推动力正是互联网以及&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;，而&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;的发展动力又来自于硬件和软件。&lt;/strong&gt;因此接下来，就来剖析下技术细节。&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;h3&gt;&lt;strong&gt;1.架构&lt;/strong&gt;&lt;/h3&gt;&lt;p&gt;一个典型的广告系统架构如下图：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.544" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYj2LsWIA2TZcgQGY1gkqhDArCdGGqIjFLUwqyZQnLQD6hZyXexHctpA/640?wx_fmt=jpeg" data-w="750" src="https://image.jiqizhixin.com/uploads/editor/1ee34048-4373-44fd-8b1e-d1a66b38f751/3.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;结合上图，广告系统有以下几个重要组成部分：&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（1）受众定向平台：&lt;/strong&gt;这部分一般为离线挖掘，是系统中最具算法挑战的部分，利用&lt;mark data-id="7904de1e-5ab5-4f0a-aa60-693cb2978766" data-type="technologies"&gt;数据挖掘&lt;/mark&gt;、&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;等技术进行受众定向，点击率预估等工作。具体还可以细分为以下几个模块：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;会话日志生成（Session loggeneration）&lt;/strong&gt;：从各个数据平台收集日志，并最终根据用户ID为主键汇集成一份统一存储格式的日志，从而为后续的&lt;mark data-id="0863e493-3d71-46a2-bdc8-59cdb4cc102e" data-type="technologies"&gt;数据分析&lt;/mark&gt;、算法研发提供数据来源。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;行为定向（Audience targeting）&lt;/strong&gt;：从会话日志中根据用户的行为，利用&lt;mark data-id="7904de1e-5ab5-4f0a-aa60-693cb2978766" data-type="technologies"&gt;数据挖掘&lt;/mark&gt;、&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;等算法建模，从而可以刻画出用户的行为模式、兴趣点等，最终为用户打上结构化标签，以供广告定向投放使用。该模块在整个系统具有非常关键的作用。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;点击率建模（Click modeling）&lt;/strong&gt;：利用&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;工具以及算法，从会话日志中提取预定义的特征，训练一个点击率模型，加载到缓存中以供线上投放系统决策时使用。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;&lt;mark data-id="464ad55a-45cf-49ac-9b0f-5d8f1bad34de" data-type="technologies"&gt;商业智能&lt;/mark&gt;模块（BusinessIntelligence）&lt;/strong&gt;：包括ETL（Extract-Transform-Load）过程、Dashboard、cube。BI系统可以为决策者提供直观且即时的&lt;mark data-id="0863e493-3d71-46a2-bdc8-59cdb4cc102e" data-type="technologies"&gt;数据分析&lt;/mark&gt;，而算法对决策者来说相当于黑盒，因此，设计一个良好的BI系统可以为决策提供有力的帮助。另外，在广告投放中，除了技术之外，运营是非常重要的角色。所以，这一模块也影响到了广告运营的策略运行以及调整。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;（2）高并发的投送系统&lt;/strong&gt;：也就是在线的广告投放机（Ad server），主要任务是与各模块交互，将它们串联起来完成在线广告的投放决策。特点是高并发，要做到10ms级别的实时决策，百亿次/天的广告投放系统。具体可细分为以下几个模块：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;广告检索（Ad retrieval）&lt;/strong&gt;：也称为广告召回，即根据用户属性以及页面上下文属性从广告索引（Ad index）中查找符合条件的广告候选。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;广告排序（Ad ranking）&lt;/strong&gt;：主要功能是对广告检索模块送来的广告候选集计算eCPM，并按照值的大小倒排。eCPM的计算依赖于受众定向平台离线计算好的点击率。由于最终投放出的广告都是来自于排序的结果，因此这一模块也是至关重要，成为各种算法模型和策略大展身手的地方。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;收益管理（Yield management）&lt;/strong&gt;：将局部广告排序的结果进一步优化，以做到全局最优收益。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;（3）数据高速公路：&lt;/strong&gt;联系在线与离线的部分，可以用开源工具实现。作用是准实时地将日志推送到其它平台上，目的一是快速地反馈到线上系统中，二是给BI人员快速看结果。它还可能收集其它平台的日志，比如搜索广告会收集搜索日志。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（4）流式计算平台：&lt;/strong&gt;主要功能是对在线数据的处理，做到准实时的挖掘和反馈，解决那些离线计算平台无法快速响应的计算问题。具体又可分为：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;实时受众定向（Real-timetargeting）&lt;/strong&gt;和&lt;strong&gt;实时点击反馈（Real-time click feedback）&lt;/strong&gt;：对用户的实时行为进行计算，如实时更新点击率模型、动态调整用户标签，进而更好的适应线上环境。实践表明，实时系统的作用对于最终效果提升明显大于离线系统，举个简单例子，当实时点击反馈模块发现当前用户的行为与其历史点击行为有较大差异时，可以反馈给其他模块并通知进行及时的更新，从而可以更好的满足用户变化的需求，最终提升效果。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;计费（Billing）&lt;/strong&gt;：该模块掌管着广告系统的&amp;ldquo;钱袋子&amp;rdquo;，运行的准确性和稳定性直接影响了系统的收益。在广告投放过程中，经常会遇到投放预算用完的情况，这时计费模块必须及时反应，采取例如通知索引系统暂时将广告下线的办法，避免带来损失。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;反作弊（Anti-spam）&lt;/strong&gt;：利用算法和人工规则等实时判断流量来源中是否有作弊流量，并将这部分流量从后续的计价和统计中去掉，是广告业务非常重要的部分。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;h3&gt;&lt;strong&gt;2. 硬件&lt;/strong&gt;&lt;/h3&gt;&lt;p&gt;在以上介绍的架构图中，都离不开&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;工具的作用，其中大多来自开源社区，正所谓，工欲善其事，必先利其器。可以说，正是由于这些成熟的开源工具有力的保障了数据通信、数据传输、负载分配等底层架构的健康运行，才使得上层的广告算法和策略能快速发展。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（1）Hadoop：&lt;/strong&gt;一个由Apache基金会所开发的分布式系统基础架构，用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序，主要优点有：高可靠性、高扩展性、高容错、低成本。Hadoop框架最核心的设计就是：HDFS和&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;HDFS是一种易于横向扩展的分布式文件系统，是&lt;mark data-id="dab8c09a-f8c8-4748-bf6d-0006f1b3c197" data-type="technologies"&gt;分布式计算&lt;/mark&gt;中数据存储管理的基础，适合应用于&lt;mark data-id="8a259fbf-2436-4224-8156-2a67068cadc3" data-type="technologies"&gt;流数据&lt;/mark&gt;模式访问和处理超大文件的需求，不适合于要求低时间延迟数据访问的应用、存储大量的小文件、多用户写入。广告系统中用户生成的海量日志就是存在HDFS上，为各种离线计算提供服务。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt; 是用于并行处理&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;集的软件框架。&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例（许多 Map 和 Reduce）的操作组成。Map函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。在Spark出现之前，&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;是在大规模数据上计算点击率预估、挖掘用户行为、生成用户画像等的首选计算框架。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;（2）Spark：&lt;/strong&gt;一个用来实现快速而通用的集群计算的平台，扩展了广泛使用的&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;计算模型，Spark的一个重要特点就是能够在内存中计算，因而更快，即使在磁盘上进行的复杂计算，Spark依然比&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;更加高效。举例来说，&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;中很多算法都要迭代训练多次才能达到&lt;mark data-id="3bf78775-1316-4ac0-bd99-10e2fc88c439" data-type="technologies"&gt;收敛&lt;/mark&gt;，例如&lt;mark data-id="de069734-8912-43fb-b365-3b014165bc4d" data-type="technologies"&gt;聚类&lt;/mark&gt;算法K-Means，每次迭代需要将K个中心点的位置保存下来，以进行下次的更新，传统的&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;计算框架在Map阶段和Reduce阶段用硬盘进行数据交换，这就使得整个训练过程效率很低，而Spark的做法则是将数据加载到内存中，直接在内存中更新K个中心点的位置，大大加快了训练过程。Spark支持各种&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;算法为代表的迭代型计算、流式实时计算、社交网络中常用的图计算、交互式即席&lt;mark data-id="bf740558-f0f7-41a8-87a0-e695a97563b3" data-type="technologies"&gt;查询&lt;/mark&gt;等。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（3）Lucene：&lt;/strong&gt;用于全文检索和搜索的开源程式库，提供了一个简单却强大的应用程式接口，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构。目前大多数的计算广告采用的是检索加排序模式，为了加快检索的时间，可以对所有广告的关键字建立倒排索引（主键为关键字，值为文档ID），这样在广告召回时，便能快速地从规模巨大的广告库中返回结果。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（4）Storm：&lt;/strong&gt;广告系统中除了需要离线挖掘数据，同样还需要在线、准实时的处理数据，例如反作弊处理、实时点击反馈、实时查看某地区当前的广告投放情况等，业界常用的工具是Storm。利用Storm可以很容易做到可靠地处理无限的数据流，像Hadoop批量处理&lt;mark data-id="9fd82f5b-9b7f-4a05-85f2-a73b4377c055" data-type="technologies"&gt;大数据&lt;/mark&gt;一样，主要的特点有：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;高性能：应用于需要对广告主的操作进行实时响应的场景.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;可扩展： 随着业务发展，数据量和计算量越来越大，系统可水平扩展.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;消息不丢失：能够保证每个消息都能得到处理.&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;编程容易：任务&lt;mark data-id="95a97f4b-79d2-4bbc-91ae-300f074dff9f" data-type="technologies"&gt;逻辑&lt;/mark&gt;与&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;类似，熟悉&lt;mark data-id="7d50b9a8-7198-4f44-917a-59e2e6525beb" data-type="technologies"&gt;MapReduce&lt;/mark&gt;框架的开发人员可以快速上手&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;（5）Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er：&lt;/strong&gt;Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件，为分布式应用提供一致性服务。分布式应用程序可以基于 Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、配置维护等功能。简单来说Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er=文件系统+监听通知机制。在广告系统中，大量的广告投放机就是通过Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er进行管理，可以把所有机器的配置全部放到Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er上的某个目录节点中，所有相关应用程序对这个目录节点进行监听。当需要增加一台新的投放机时，配置信息发生了变化，应用程序就会收到 Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er 的通知，然后从 Zoo&lt;mark data-id="5cdc48ac-54ea-49d8-bf66-ed2a9a588f9a" data-type="institutions"&gt;Keep&lt;/mark&gt;er 获取新的配置信息应用到系统中。&lt;/p&gt;&lt;h3&gt;&lt;strong&gt;3.核心算法&lt;/strong&gt;&lt;/h3&gt;&lt;p&gt;介绍完了上述的硬件架构之后，接下来就要了解一下计算广告背后的核心算法和技术。&lt;/p&gt;&lt;p&gt;CTR（点击率）预估是所有广告系统、&lt;mark data-id="6ca1ea2d-6bca-45b7-9c93-725d288739c3" data-type="technologies"&gt;推荐系统&lt;/mark&gt;中非常重要的一个指标，可以反映出一个系统是否做的精准，是各个广告系统的&amp;ldquo;必争之地&amp;ldquo;。点击率预估的目的是为了广告排序，排序的依据是eCPM，即点击率*点击单价，然后再根据其他策略进行后续处理。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;目前业界的点击率预估方法，是利用系统中已有的大量用户行为日志、根据规则抽取特征、离线训练&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;模型、将模型上线后对每一个请求计算其点击广告的概率值，值的范围为&lt;/strong&gt;&lt;strong&gt;&lt;img data-ratio="1.135135135135135" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYQe8TOZUQiaKz3pGoia2icGQl3ic1Qziaic1jFgRUibHEtBzZ3coFBFOnH57aw/640?wx_fmt=png" data-w="37" src="https://image.jiqizhixin.com/uploads/editor/035dc785-d5a9-4199-a486-a4e5332bca28/4.png" class="fr-fic fr-dii" style="width: 4.68%;"&gt;。&lt;/strong&gt;这里既然用到了模型，就不得不提其背后的两个细节。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;（1）特征：&lt;/strong&gt;在实际的广告系统中，其实有非常多的因素会决定广告的点击率，这些因素在模型中即称为特征，主要分为三大类：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;广告主侧（Advertiser）：比如广告创意、广告的表现形式、广告主行业等。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;用户侧（User）：如人群属性、年龄、性别、地域、手机型号、WiFi环境、兴趣等等。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;上下文侧（Context）：比如不同的广告位、投放时间、流量分配机制、频次控制策略等。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;在有了用户日志后，就需要根据上述三类特征进行&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;。&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;对于&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;来说非常重要，可以使特征更好地在算法上发挥作用，一般包括&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;、特征提取、特征构造。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;1.1 &lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;在实际拿到的数据中一般都有非常多的特征，但并非每一个都能拿来训练模型，可能有些特征有用，而另外一些特征就毫无作用，即冗余特征，&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;的作用就是从已有的特征全集中选择出一部分的特征子集。&lt;/p&gt;&lt;blockquote&gt;&lt;section data-id="1307092" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-id="90471" data-tools="135编辑器"&gt;&lt;section&gt;&lt;section&gt;&lt;section&gt;&lt;p&gt;进行&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;有两个重要的原因：&lt;/p&gt;&lt;p&gt;一、&lt;mark data-id="1fb0b8de-ce52-4fa4-99d0-ad344d9982d0" data-type="technologies"&gt;维数灾难&lt;/mark&gt;。若对所有特征不加筛选而一股脑全扔进模型，比如，用户ID和设备ID交叉之后，特征的维度就会非常高，而其实这样的组合特征完全可以只用一个特征来代替，进行&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;就会大大减少冗余特征，缓解&lt;mark data-id="1fb0b8de-ce52-4fa4-99d0-ad344d9982d0" data-type="technologies"&gt;维数灾难&lt;/mark&gt;问题。&lt;/p&gt;&lt;p&gt;二、去除冗余特征可以减轻模型的学习难度，直观感受就是减少模型的训练时间。常见的&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;方法主要有三种：过滤式、包裹式、嵌入式。&lt;/p&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/blockquote&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;过滤式：&lt;/strong&gt;使用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数，Gini-index（基尼指数），IG（&lt;mark data-id="ecbad6d7-cde5-46ea-9bc6-960549585514" data-type="technologies"&gt;信息增益&lt;/mark&gt;）等。以Pearson系数为例，计算公式：&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;img data-ratio="0.3351063829787234" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYRY7JV7Oy9KXRic4iah3jh2Rdibj5ThyiaZrIlFfvmRLIdSPmj4BFUDRFtg/640?wx_fmt=png" data-w="188" src="https://image.jiqizhixin.com/uploads/editor/03f62e1a-6a60-48d5-b5d1-f62f89827dee/5.png" class="fr-fic fr-dib" style="width: 26.68%;"&gt;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;&lt;img data-ratio="3.5" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYMlHtWGpZNJSaAQiadjop2CzKr9ZrnKJAoGk3BMRN95pZ0BIkrT6yufg/640?wx_fmt=png" data-w="6" src="https://image.jiqizhixin.com/uploads/editor/03d34a94-4086-4b4c-9f4f-c8becc221dd8/6.png" class="fr-fic fr-dii" style="width: 1.26%;"&gt;描述的是两个变量间线性相关强弱的程度，绝对值越大表明相关性越强。&lt;strong&gt;&lt;img data-ratio="3.5" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYMlHtWGpZNJSaAQiadjop2CzKr9ZrnKJAoGk3BMRN95pZ0BIkrT6yufg/640?wx_fmt=png" data-w="6" src="https://image.jiqizhixin.com/uploads/editor/fbdbb5b0-baba-48e4-8f46-4e623471027a/6.png" class="fr-fic fr-dii" style="width: 1.26%;"&gt;&lt;/strong&gt;&lt;/strong&gt;的取值在-1与+1之间，若&lt;img data-ratio="0.75" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYlqGEF5k1FKBRbXV1HbaWXp5RroiatVQuaMYGrQsEQzTJVeiaM1tHqOIA/640?wx_fmt=png" data-w="28" src="https://image.jiqizhixin.com/uploads/editor/21f4e278-6d82-423a-9885-398f21b6f9c0/7.png" class="fr-fic fr-dii" style="width: 5.06%;"&gt;，表明两个变量是正相关，即一个变量的值越大，另一个变量的值也会越大；若&lt;img data-ratio="0.75" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYuibXA55VNq6BuiaO6uss0KpKYTJZgc8XcZTb2Dk1nHUrOz3HOLu3BQ5Q/640?wx_fmt=png" data-w="28" src="https://image.jiqizhixin.com/uploads/editor/3965c2a2-3e90-4a59-92cf-8e9e06439ac6/8.png" class="fr-fic fr-dii" style="width: 5.31%;"&gt;，表明两个变量是负相关，即一个变量的值越大另一个变量的值反而会越小。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;包裹式：&lt;/strong&gt;直接将模型要使用的性能（如AUC）作为特征子集的评价标准，只选择模型性能表现最佳的特征，相对于过滤式来说，包裹式考虑了特征与特征之间的关联性，最终的模型表现也更好。常用的有逐步回归（Stepwise regression）、向前选择（Forward selection）和向后选择（Backward selection）。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;嵌入式：&lt;/strong&gt;将&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;过程与模型训练过程融为一体，即在训练过程中自动地进行了&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;。例如，针对训练样本数量较少，而特征数量又比较多时，可以使用L1&lt;mark data-id="c51052b5-4cd8-4df0-99bb-5aa643c2f027" data-type="technologies"&gt;正则化&lt;/mark&gt;，即在&lt;mark data-id="4c38563a-2d9b-439e-bfb4-21d209eeff3e" data-type="technologies"&gt;损失函数&lt;/mark&gt;基础上直接加上&lt;mark data-id="149a12cf-10c2-4555-9899-cc6dee319ef5" data-type="technologies"&gt;权重&lt;/mark&gt;&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;的绝对值：&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;img data-ratio="0.44680851063829785" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYcFgiafjvoFrS3j57073SCfSibMs4ic12wz7ib41BSKMooU5bIpeT7nANqA/640?wx_fmt=png" data-w="94" src="https://image.jiqizhixin.com/uploads/editor/55d70f14-da8c-4fea-911c-c8e3ee6e4610/9.png" class="fr-fic fr-dib" style="width: 20.23%;"&gt;&lt;/p&gt;&lt;p&gt;在上式求解过程中，最初的特征全集中只有对应于非零&lt;mark data-id="149a12cf-10c2-4555-9899-cc6dee319ef5" data-type="technologies"&gt;权重&lt;/mark&gt;的特征才会出现在最终模型中。这样，L1&lt;mark data-id="c51052b5-4cd8-4df0-99bb-5aa643c2f027" data-type="technologies"&gt;正则化&lt;/mark&gt;就起到了特征筛选的作用，其&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;过程与模型训练过程融为一体，同时完成。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;1.2 特征提取&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;将原始特征转换为一组具有明显物理意义（Gabor、几何特征角点、不变量、纹理LBP HOG）或者统计意义或核的特征，比如通过变换特征取值来减少原始数据中某个特征的取值个数等。常用的方法有：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;PCA：&amp;nbsp;&lt;/strong&gt;PCA的主要思想是将维特征&lt;mark data-id="8ec6a68f-ad96-4b85-ab72-6f8931886922" data-type="technologies"&gt;映射&lt;/mark&gt;到维上，这维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的维特征。其中，第一个新维度选择原始数据中方差最大的方向，第二个新维度选取与第一维正交的平面中方差最大的，第三个新维度是与第1、2维正交的平面中方差最大的，依次类推，可以得到n个这样的维度，最终，大部分方差都包含在前面k个维度中，而后面的维度所含的方差几乎为。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;ICA：&lt;/strong&gt;PCA是将原始数据&lt;mark data-id="bf54ab8d-3458-4d37-89be-a3febc0f8d9d" data-type="technologies"&gt;降维&lt;/mark&gt;，并提取不相关的部分；而ICA是将原始数据&lt;mark data-id="bf54ab8d-3458-4d37-89be-a3febc0f8d9d" data-type="technologies"&gt;降维&lt;/mark&gt;并提取出相互独立的属性；寻找一个线性变换，使得线性变换的各个分量间的独立性最大。ICA相比于PCA更能刻画变量的随机统计特性。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;&amp;nbsp;LDA：&lt;/strong&gt;也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD)，是&lt;mark data-id="4676abd4-83e5-47a9-a955-40fe94535398" data-type="technologies"&gt;模式识别&lt;/mark&gt;的经典算法，基本思想是将高维的模式样本投影到最佳判别空间，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;h4&gt;&lt;strong&gt;1.3&lt;mark data-id="c63740d1-c8d7-49cb-945b-f1cf4b982cf3" data-type="technologies"&gt;特征构建&lt;/mark&gt;&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;在经过了&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;之后，确定了需要放入模型的特征后，接下来就要对特征进行处理，对特征进行转换、加工、处理成模型能够识别的格式。根据不同的数据类型，需要采取不同的处理方式：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;连续型：例如用户年龄、反馈点击率等。由于连续型数值的分布非常广，各特征的取值范围差别很大，如用户的反馈点击率一般为0到1之间，而用户的年龄取值则远远大于1，所以，需要对连续特征进行特别处理，使特征值在同样的量纲范围内：&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;Z-score标准化：&lt;/strong&gt;&amp;nbsp;&lt;img data-ratio="0.40384615384615385" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY1C92s8HFUvbAf2Js3YmnBsryViaBm1gbzLZpDZ8iaofibia1KPysah0ocw/640?wx_fmt=png" data-w="52" src="https://image.jiqizhixin.com/uploads/editor/da2234d3-fdc0-481c-99fb-769e5d44fd3f/10.png" class="fr-fic fr-dii" style="width: 11.6%;"&gt; 即求出样本特征&lt;img data-ratio="1.9090909090909092" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYibZX7BKkT0cVY8TYJppTS7KBOFfQe2U74qxiar9KOLKFoxnM02Lg8JLw/640?wx_fmt=png" data-w="11" src="https://image.jiqizhixin.com/uploads/editor/86363325-234d-4ac4-a10c-b3eb70d29306/11.png" class="fr-fic fr-dii" style="width: 2.35%;"&gt;的均值&lt;img data-ratio="3" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYocXr7XtxldEYcX4PpZI1YztxkEHSlR1yJZNibUtCAgVAf796l0urWbg/640?wx_fmt=png" data-w="7" src="https://image.jiqizhixin.com/uploads/editor/64dbc02d-df91-42a8-bc9d-f70e1a7e3936/12.png" class="fr-fic fr-dii" style="width: 1.69%;"&gt;和标准差&lt;img data-ratio="3" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYg054wEawExCibLAwGnA07etqKKXQSib8o3yckVgYMseOZQ06giaI2DF9w/640?wx_fmt=png" data-w="7" src="https://image.jiqizhixin.com/uploads/editor/629ac964-3a29-4ec9-900b-9606752638a3/13.png" class="fr-fic fr-dii" style="width: 1.69%;"&gt;，然后用来代替原特征。这样新的特征值就变成了均值为0，方差为1。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;最大-最小标准化： &lt;img data-ratio="0.525" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYNzfGu5YBibxUiaBKMViaRflS9XgXw6kbKBCT5PsO4OlbtAHxYiakOIZGcg/640?wx_fmt=png" data-w="80" src="https://image.jiqizhixin.com/uploads/editor/167d6ac2-c7f6-4edd-9f88-07ceae0d0b08/14.png" class="fr-fic fr-dii" style="width: 11.73%;"&gt;&lt;/strong&gt;求出样本特征&lt;img data-ratio="1.9090909090909092" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYibZX7BKkT0cVY8TYJppTS7KBOFfQe2U74qxiar9KOLKFoxnM02Lg8JLw/640?wx_fmt=png" data-w="11" src="https://image.jiqizhixin.com/uploads/editor/c08ee3a1-3d57-44b0-ae58-f6cf80b77df5/15.png" class="fr-fic fr-dii" style="width: 3%;"&gt;的最大值&lt;img data-ratio="0.9130434782608695" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYxAFfa0CEPCw33UUpp5DE7ibsMlpYG14sNOmuHCh28WpsWp6GINrEYibg/640?wx_fmt=png" data-w="23" src="https://image.jiqizhixin.com/uploads/editor/f3a39541-32eb-4f70-b8a0-6a4687e65383/16.png" class="fr-fic fr-dii" style="width: 4.43%;"&gt;和最小值&lt;img data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY7KflMhJjkdmic0l7Oqb8nlZ4OUPTttem4ib6Q73P1I1xJdJNpicruhK0A/640?wx_fmt=png" data-w="21" src="https://image.jiqizhixin.com/uploads/editor/21e1ad49-87ec-455a-a3d3-6706bf685c61/17.png" class="fr-fic fr-dii" style="width: 4.3%;"&gt;，然后&lt;img data-ratio="1.9090909090909092" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYfTJAu1Y3PD1O2rUSVXBMiafO0m8xO4IsmA1hBSMffToj9KsRbx6RcibA/640?wx_fmt=png" data-w="11" src="https://image.jiqizhixin.com/uploads/editor/7adb7866-1461-406c-a422-dbc3176d5bba/18.png" class="fr-fic fr-dii" style="width: 2.09%;"&gt;用来代替原特征值。不过，这种方法有个问题，若预测集里的特征有小于&lt;img data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY7KflMhJjkdmic0l7Oqb8nlZ4OUPTttem4ib6Q73P1I1xJdJNpicruhK0A/640?wx_fmt=png" data-w="21" src="https://image.jiqizhixin.com/uploads/editor/a96556e4-47a9-4079-ba7f-2074b147ab05/19.png" class="fr-fic fr-dii" style="width: 4.56%;"&gt;，或者大于&lt;img data-ratio="0.9130434782608695" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYxAFfa0CEPCw33UUpp5DE7ibsMlpYG14sNOmuHCh28WpsWp6GINrEYibg/640?wx_fmt=png" data-w="23" src="https://image.jiqizhixin.com/uploads/editor/7567a3ca-457c-40c0-927e-95dc70b344a8/20.png" class="fr-fic fr-dii" style="width: 4.95%;"&gt;的数据，会导致&lt;img data-ratio="0.9130434782608695" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYxAFfa0CEPCw33UUpp5DE7ibsMlpYG14sNOmuHCh28WpsWp6GINrEYibg/640?wx_fmt=png" data-w="23" src="https://image.jiqizhixin.com/uploads/editor/17bcdcf1-71f4-4aa9-bf1c-23844e925838/21.png" class="fr-fic fr-dii" style="width: 5.22%;"&gt;和&lt;img data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY7KflMhJjkdmic0l7Oqb8nlZ4OUPTttem4ib6Q73P1I1xJdJNpicruhK0A/640?wx_fmt=png" data-w="21" src="https://image.jiqizhixin.com/uploads/editor/ebd1e0bf-2351-4dc5-ac87-3be3103d7437/22.png" class="fr-fic fr-dii" style="width: 4.69%;"&gt;发生变化，需要重新计算。所以一般实际应用中，最大-最小标准化不如Z-score标准化鲁棒。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;离散化：&lt;/strong&gt;对于连续型特征，除了上述两种标准化方法之外，还有一种常用的处理方式：离散化。和标准化不同的是，离散化可以加入人工经验，也可以是和业务紧密相关的规则，因此这种方法更容易被人类理解。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;一般采用&lt;mark data-id="71709699-9295-44b1-902e-a35544ef9879" data-type="technologies"&gt;分桶&lt;/mark&gt;或者分段的方式，即事先指定每个桶的取值范围，然后将特征值划分到桶中，最后用桶的编号作为新的特征值。对于桶的划分又可以分为等频（各个桶中的数量大致相同）、等宽（各个桶的上下界的差值相同）、人工指定。一般来说，等频离散不会像等宽离散出现某些桶中数量极多或者极少。但是等频离散为了保证每个区间的数据一致，很有可能将原本是相同的两个数值却被分进了不同的区间，会对最终模型效果产生一定影响。人工指定则需要根据过去的经验来进行划分，例如对于反馈点击率，发现过去的点击率集中在1%和2%之间，因此，可以这样划分（python代码）：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.1034965034965035" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYylx6IWcSAyzufLqHEsubBOiamC4lKzySVFKBJg0UlkI2vHqLGucHrDg/640?wx_fmt=png" data-w="1430" src="https://image.jiqizhixin.com/uploads/editor/cbcc2a81-ef36-4356-98ce-22a91224e837/23.png" class="fr-fic fr-dib" style="width: 83.94%;"&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;离散特征：&lt;/strong&gt;例如广告尺寸、广告样式、投放城市等等。对于离散特征一般采用One-hot（&lt;mark data-id="ec4dcff5-b9ab-4c8b-8742-285829eb5461" data-type="technologies"&gt;独热编码&lt;/mark&gt;）方式，即将所有样本的离散特征放在一起，称为特征空间，每个特征就转换为一个特征空间大小的向量，其中该特征值对应下标的值为1，其余的都为0，从数学角度可以理解为将离散特征的取值扩展到了欧式空间，因为常用的距离或相似度的计算都是在欧式空间中进行，因此，One-hot对于离散特征来说是最合理的选择。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;文本特征：例如广告的标题、描述信息等等。对于文本型特征，可以用如下处理方法：&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;tf-idf：基于统计词的出现频次的方法，用以评估一个词的重要程度，具体计算公式：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.18421052631578946" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYWL7HsuickAiaMNjMuOsy2x2ibrib86huIiaQHzVG5ZxmaIIwvGsqKklZpZA/640?wx_fmt=png" data-w="228" src="https://image.jiqizhixin.com/uploads/editor/941617ee-4677-40da-b607-b3a60851580d/24.png" class="fr-fic fr-dib" style="width: 39.63%;"&gt;&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.1917808219178082" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY7V4BjjPdQrp0licjyUb1CP7ey6qfceMoJVTKpKNahaO0ylHBSRaWFrQ/640?wx_fmt=png" data-w="219" src="https://image.jiqizhixin.com/uploads/editor/5cfddb2a-0944-4448-8776-b844c695e4d4/25.png" class="fr-fic fr-dib" style="width: 35.72%;"&gt;&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.21" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYvYKVTxq5V0KCTTick6vfnOvCxHPGksngU8DrIFe1jNeoTxOLGYba1tg/640?wx_fmt=png" data-w="100" src="https://image.jiqizhixin.com/uploads/editor/b905f932-b1da-4dfc-96c4-b8f535240b69/26.png" class="fr-fic fr-dib" style="width: 28.91%;"&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;其中， &lt;img data-ratio="2.625" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYXbcTK1anDj5VJZiakBJ60GpaUwdzHayfOYBDzGv3YQDnGvkChH0P5Tg/640?wx_fmt=png" data-w="8" src="https://image.jiqizhixin.com/uploads/editor/e5e9e6ff-b7f3-4bf7-a1d7-af181ae89123/27.png" class="fr-fic fr-dii" style="width: 1.9%;"&gt;反映的是该词在当前文档中的热门程度，但是对于那些几乎每篇文章都会出现的助词来说，如&amp;ldquo;的&amp;rdquo;、&amp;ldquo;了&amp;rdquo;、&amp;ldquo;这&amp;rdquo;等等，就需要给它们降权，从&lt;img data-ratio="1.3125" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY3GoibVRScHw2I4ribXh7wmoRYIdQf8uBCDzriaqSwTM7skdHtrqpkIlyw/640?wx_fmt=png" data-w="16" src="https://image.jiqizhixin.com/uploads/editor/3c6573ca-68bf-47ae-ab6e-05aa8772aeff/28.png" class="fr-fic fr-dii" style="width: 3.67%;"&gt;的计算公式可以看出，包含该词的文档数约多，倒数就越小，从而就可以起到降权的作用。因此最终的乘积就可以认为是该词在整篇文章的重要性。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;Word2vec：&lt;/strong&gt;在&lt;mark data-id="01946acc-d031-4c0e-909c-f062643b7273" data-type="technologies"&gt;深度学习&lt;/mark&gt;大热之后，出现了Word2vec模型，可以将词向量化，即转化为低维度的连续值、稠密向量，从而使得意思相近的词在向量空间中也处于相同的位置。Word2vec实际上是一个具有隐含层的&lt;mark data-id="72b0bcc0-d8f9-4edd-919f-fa7c2560388c" data-type="technologies"&gt;神经网络&lt;/mark&gt;，输入是One-hot编码的词汇向量表，隐含层没有&lt;mark data-id="1697e627-30e7-48a6-b799-39e2338ffab5" data-type="technologies"&gt;激活函数&lt;/mark&gt;，也就是线性单元，输出层使用Softmax回归，但其实我们不关心输出层的结果，只需要拿到隐藏层的输出单元即是所需的向量。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;Word2Vec其实训练了一个&lt;mark data-id="fee178e8-ee20-42fc-8f8f-1d41c1f34e8f" data-type="technologies"&gt;语言模型&lt;/mark&gt;，即通过前n 个字预测下一个字的概率，是一个多分类器，输入一个one hot，然后连接一个全连接层、再连接若干个层，最后接一个Softmax分类器，就可以得到&lt;mark data-id="fee178e8-ee20-42fc-8f8f-1d41c1f34e8f" data-type="technologies"&gt;语言模型&lt;/mark&gt;了，然后将大批量文本输入训练就行了，最后得到第一个全连接层的&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;，就是字、词向量表。&lt;/p&gt;&lt;p&gt;Word2vec主要有两个模型：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.42058823529411765" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYTslPRdV3Eb5x3BkW0gVnc1CkqKCntXewTECQrHAzCe4jRjfnExJ51Q/640?wx_fmt=png" data-w="680" src="https://image.jiqizhixin.com/uploads/editor/96d4344d-f33b-4429-a913-fcbe5299f128/29.png" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;CBOW：&lt;/strong&gt;主要用来从原始语句推测目标词汇。CBOW用周围词预测中心词，从而利用中心词的预测结果情况。当训练完成之后，每个词都会作为中心词。把周围词的词向量进行了调整，这样也就获得了整个文本里面所有词的词向量。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;&lt;mark data-id="463b42c8-3708-415b-9dbb-2aeabf8a626e" data-type="technologies"&gt;Skip-gram&lt;/mark&gt;：&lt;/strong&gt;从目标词汇推测原始语境。与CBOW相反的是，&lt;mark data-id="463b42c8-3708-415b-9dbb-2aeabf8a626e" data-type="technologies"&gt;Skip-gram&lt;/mark&gt;使用中心词预测周围词，&lt;mark data-id="463b42c8-3708-415b-9dbb-2aeabf8a626e" data-type="technologies"&gt;Skip-gram&lt;/mark&gt;会利用周围的词的预测结果情况，不断的调整中心词的词向量，最终所有的文本遍历完毕之后，也就得到了文本所有词的词向量。对比而言，&lt;mark data-id="463b42c8-3708-415b-9dbb-2aeabf8a626e" data-type="technologies"&gt;Skip-gram&lt;/mark&gt;进行预测的次数多于CBOW的：因每个词作为中心词时，皆需使用周围词进行预测一回，训练时间相对更长。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;动态特征：&lt;/strong&gt;在计算广告模型的特征中，除了有用户年龄、地理位置、广告尺寸等相对不变的静态特征，还可以加入其他特征:如相同广告尺寸的历史点击率、历史到达率等，这类特征我们称之为动态特征，因为这些特征的值随着时间窗口的取值不同而不同。使用动态特征主要有两个好处：1. 可以大大减少模型&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;数目 2. 模型不必快速更新。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;CoEC（Clickon Expected Click）特征&lt;/strong&gt;：由于广告在实际展示时，最终效果经常会受到广告位置的影响，例如一个展示在首页顶端位置的广告往往比另一个在内容页下端展示的广告效果好的多，这其实是由于位置带来的偏差，导致在位置上占据优势的广告点击率被严重高估。其他的影响因素还包括广告位尺寸、广告位类型、创意类型等，以上这些特征都称为偏差因素。因此为了去除这些偏差等因素的影响，工业界的做法是：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;首先，训练一个偏差模型，只用那些偏差因素训练一个点击率模型，称为偏差模型。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;利用偏差模型，计算下式：&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;img data-ratio="0.35" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY7SF5SeMyOMlExgqDK4x2EPdHZpt6msibic60iaSS8uycLGFrK3ibiabYETA/640?wx_fmt=png" data-w="120" src="https://image.jiqizhixin.com/uploads/editor/e56b6e9d-3a9b-4474-b095-e868c10c4cb4/30.png" class="fr-fic fr-dib" style="width: 25.54%;"&gt;&lt;/p&gt;&lt;p&gt;其中，&lt;img data-ratio="2.1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYTYJuT9Vc4Jt6pMWXfgyibMovCsXdvYaaFbUgRcl5WPk5xd7oeKiaPXfg/640?wx_fmt=png" data-w="10" src="https://image.jiqizhixin.com/uploads/editor/19e806e8-71c4-432d-bf81-a6f12eea6067/31.png" class="fr-fic fr-dii" style="width: 2.65%;"&gt;表示是否点击（0或1），&lt;img data-ratio="1.9090909090909092" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY5hSXoXyRicNPmrwnFz36S1Ciaia3Hq6UlUsBE31B7ibcPDPicUiawgF2Loxw/640?wx_fmt=png" data-w="11" src="https://image.jiqizhixin.com/uploads/editor/8f72c403-b7f4-4cf7-8e5d-8cef106e7578/32.png" class="fr-fic fr-dii" style="width: 2.28%;"&gt;为用户端特征，&lt;img data-ratio="2.3333333333333335" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYZ8JsRUHN1rBFMu4WAQrZjajEicLQcV2yFWf99YVALfT8DjadR2IjfRg/640?wx_fmt=png" data-w="9" src="https://image.jiqizhixin.com/uploads/editor/1fb9fe2a-82e0-4697-8b61-0a8879492b9d/33.png" class="fr-fic fr-dii" style="width: 2.53%;"&gt;为上下文特征。这一式子其实是点击与期望点击的比值，因此称为CoEc特征，&lt;strong&gt;该特征可以更准确的表征某部分流量上广告投放的实际点击率水平，比较适用于点击反馈的动态特征。&lt;/strong&gt;&lt;/p&gt;&lt;h3&gt;&lt;strong&gt;(2)模型&lt;/strong&gt;&lt;/h3&gt;&lt;p&gt;经过了上述&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;处理之后，就需要将特征放入到具体的模型中。针对ctr预估问题，工业界也产生了很多的模型，由最初的&lt;mark data-id="95a97f4b-79d2-4bbc-91ae-300f074dff9f" data-type="technologies"&gt;逻辑&lt;/mark&gt;回归模型到目前非常热门的&lt;mark data-id="01946acc-d031-4c0e-909c-f062643b7273" data-type="technologies"&gt;深度学习&lt;/mark&gt;模型，效果也随之提升了很多。下面就来具体看下ctr预估模型的一路发展。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;2.1 LR(&lt;mark data-id="95a97f4b-79d2-4bbc-91ae-300f074dff9f" data-type="technologies"&gt;逻辑&lt;/mark&gt;回归)&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;&lt;strong&gt;LR是ctr预估模型的最基本的模型，也是工业界最喜爱使用的方案。&lt;/strong&gt;LR 是&lt;mark data-id="b7a95879-0089-4adf-942d-a9e445702795" data-type="technologies"&gt;广义线性模型&lt;/mark&gt;，与传统线性模型相比，LR 使用了 Logit 变换将函数值&lt;mark data-id="8ec6a68f-ad96-4b85-ab72-6f8931886922" data-type="technologies"&gt;映射&lt;/mark&gt;到 0~1 区间，&lt;mark data-id="8ec6a68f-ad96-4b85-ab72-6f8931886922" data-type="technologies"&gt;映射&lt;/mark&gt;后的函数值就是 CTR 的预估值。&lt;/p&gt;&lt;p&gt;LR 利用了 Logistic 函数，函数形式为：&lt;/p&gt;&lt;p&gt;&lt;img src="https://image.jiqizhixin.com/uploads/editor/e1e8508a-0fcf-47a0-b319-e87b23783cb5/34.png" style="width: 19.09%;" class="fr-fic fr-dib"&gt;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;优点：&lt;/strong&gt;由于LR 模型简单，训练时便于并行化，在预测时只需要对特征进行线性加权，所以性能比较好，往往适合处理海量 id 类特征，模型的结果直观易解释。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;缺点：&lt;/strong&gt;LR 的缺点也很明显，首先对连续特征的处理需要先进行离散化，如上文所说，对连续特征的&lt;mark data-id="71709699-9295-44b1-902e-a35544ef9879" data-type="technologies"&gt;分桶&lt;/mark&gt;方式有很多种，各种方式都有差异。另外 LR 需要进行人工特征组合，这就需要开发者有非常丰富的领域经验，才能不走弯路。这样的模型迁移起来比较困难，换一个领域又需要重新进行大量的&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;2.2 FM(Factorization Machine)、FFM（Field-aware factorization machine）&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;在一般的线性模型中，各个特征独立考虑的，没有考虑到特征与特征之间的相互关系。但实际上，大量的特征之间是有关联的。&lt;/p&gt;&lt;p&gt;一般的线性模型为：为了表述特征间的相关性，可以采用多项式模型。在多项式模型中，特征&lt;img data-ratio="2.1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY89ibc6RukhgkgfuakPPrt8fxt9BFc5sFxmSPLESSFOcC8ib9joDGVICA/640?wx_fmt=png" data-w="10" src="https://image.jiqizhixin.com/uploads/editor/56e078b4-d859-481e-a1ea-1595eff0bd81/35.png" class="fr-fic fr-dii" style="width: 2.15%;"&gt;与&lt;img data-ratio="2.1" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYKiaUPvatI4p4Q92ib9NkctsMBZ99RXYEWibeCpNKRqibWEh5OM1ZAOvZDQ/640?wx_fmt=png" data-w="10" src="https://image.jiqizhixin.com/uploads/editor/ab87779c-20a1-4bcd-9c0f-8b7d070801bc/36.png" class="fr-fic fr-dii" style="width: 2.28%;"&gt;的组合用&lt;img data-ratio="1.05" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY9IRH7PxC1D5mIEm1FUZbgslyj1TLMM9yEOiaGQEyba8ZSY8iafJnViapA/640?wx_fmt=png" data-w="20" src="https://image.jiqizhixin.com/uploads/editor/d300f5c3-9ec9-43b2-bf3d-612c67dadef3/37.png" class="fr-fic fr-dii" style="width: 4.68%;"&gt;表示。二阶多项式模型如下：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.19090909090909092" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYKkiadCtvqibqGKo4azH9FRhiaqYwYmmBsFxIvAkSHvtfGjlVxkFLT4iaqw/640?wx_fmt=png" data-w="220" src="https://image.jiqizhixin.com/uploads/editor/b7bb8a83-3c55-4a0e-aeae-2175b3a8d2cd/38.png" class="fr-fic fr-dib" style="width: 31.48%;"&gt;&lt;/p&gt;&lt;p&gt;其中&lt;img data-ratio="3" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYic4xTjoqEJ4FRibJLbv1x3vS3Atrcibjnxias6usOA6AhOicicxhWOEx8aibQ/640?wx_fmt=png" data-w="7" src="https://image.jiqizhixin.com/uploads/editor/35770552-8d69-49b5-bb2b-4c15638b9078/39.png" class="fr-fic fr-dii" style="width: 1.52%;"&gt;表示样本的特征数量，这里的特征是离散化后的特征。与线性模型相比，FM的模型多了后面的特征组合的部分。&lt;/p&gt;&lt;blockquote&gt;&lt;p&gt;FM主要有如下特点：&lt;/p&gt;&lt;section data-id="1248325" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="92676" data-tools="135编辑器"&gt;&lt;section data-width="100%"&gt;&lt;section&gt;&lt;section&gt;&lt;section&gt;&lt;strong&gt;1.可以在非常稀疏的数据中进行合理的&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;估计&lt;/strong&gt;&lt;/section&gt;&lt;/section&gt;&lt;section&gt;&lt;section&gt;&lt;p&gt;&lt;strong&gt;2.FM模型的&lt;mark data-id="324e28ee-fa13-4e36-9968-ae71059f5948" data-type="technologies"&gt;时间复杂度&lt;/mark&gt;是线性的&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;3.FM是一个通用模型，它可以用于任何特征为实值的情况&lt;/strong&gt;&lt;/p&gt;&lt;/section&gt;&lt;/section&gt;&lt;section&gt;&lt;section&gt;&lt;section&gt;&lt;br&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/blockquote&gt;&lt;p&gt;而FFM则是在FM的基础上，考虑了特征交叉的field的特点，但是也导致它没有办法实现线性的&lt;mark data-id="324e28ee-fa13-4e36-9968-ae71059f5948" data-type="technologies"&gt;时间复杂度&lt;/mark&gt;，模型训练要比FM慢一个量级，但是效果会比FM来得更好。在业界，目前已经有公司线上利用FM去预测ctr。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;2.3 LR + GBDT&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;在Facebook2014年的一篇论文中，提及到GBDT+LR的解决方案。即先使用GBDT对一些稠密的特征进行&lt;mark data-id="d1095f57-1940-4e97-8738-8bcb7e4e2d17" data-type="technologies"&gt;特征选择&lt;/mark&gt;，得到的叶子节点，再拼接离散化特征放进去LR进行训练。在方案可以看成，利用GBDT替代人工实现连续值特征的离散化，而且同时在一定程度组合了特征，减少了人工的工作量。&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.6381461675579323" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYV6A8uHaonFzv5r2q2BUrIxNwRuuP9ib9J33cszVlcJvN2icmbIcMXc1g/640?wx_fmt=png" data-w="561" src="https://image.jiqizhixin.com/uploads/editor/6191cff8-27ea-4aca-9a56-cd4b07a71659/40.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;从上图可以看到，输入x分别落到2颗树的叶子节点上，每个叶子节点对应的编号就作为新的特征送入LR中，其中新的特征维度与树的数目相同，在实际应用中，需要进行调参的有每棵树的深度、树的总数等。&lt;/p&gt;&lt;p&gt;另外，对于广告来说，ID类特征在CTR预估中是非常重要的特征，直接将AD ID作为feature进行建树不可行，可以考虑为每个AD ID建GBDT树。具体做法，使用GBDT建两类树，非ID建一类树，ID建一类树。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;1）非ID类树：&lt;/strong&gt;不以细粒度的ID建树，此类树作为base，即便曝光少的广告、广告主，仍可以得到有区分性的特征、特征组合。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;2）ID类树：&lt;/strong&gt;以细粒度的ID建一类树，用于发现那些曝光充分的ID有区分性的特征、特征组合。在实际应用中，效果略有提升，但是需要综合考虑GBDT的性能问题。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;2.4 Wide &amp;amp; Deep&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;Wide &amp;amp; Deep 模型是 Google在2016年发表的文章中提出的，并应用到了 Google Play 的应用推荐中。Wide &amp;amp; Deep模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;，从而达到整体模型的预测能力最优。&lt;/p&gt;&lt;p&gt;Wide &amp;amp; Deep模型中使用的特征包括两大类： &lt;strong&gt;一类是连续型特征&lt;/strong&gt;，主要用于deep模型的训练，包括连续值型的特征以及embedding类型的特征等；&lt;strong&gt;一类是离散型特征&lt;/strong&gt;，主要用于Wide模型的训练，包括稀疏类型的特征以及组合型的特征等。&lt;/p&gt;&lt;p&gt;模型结构：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.27405247813411077" data-src="https://mmbiz.qpic.cn/mmbiz_png/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYq0ThDXLm0yicnXvBmrj0q4uFUkdgVWY9CjEjzgjlU7E0nhYDZRLsPibA/640?wx_fmt=png" data-w="686" src="https://image.jiqizhixin.com/uploads/editor/3759f1ef-a276-4828-8fdc-17ef05186c01/41.jpg" class="fr-fic fr-dib" style="width: 73.2%;"&gt;&lt;/p&gt;&lt;p&gt;模型特点：&lt;/p&gt;&lt;p&gt;记忆（memorization）通过特征叉乘对原始特征做非线性变换，输入为高维度的稀疏向量。通过大量的特征叉乘产生特征相互作用的&amp;ldquo;记忆（Memorization）&amp;rdquo;，高效且可解释。&lt;/p&gt;&lt;p&gt;泛化（generalization）只需要少量的&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;，深度&lt;mark data-id="72b0bcc0-d8f9-4edd-919f-fa7c2560388c" data-type="technologies"&gt;神经网络&lt;/mark&gt;通过embedding的方法，使用低维稠密特征输入，可以更好地泛化训练样本中未出现过的特征组合。&lt;/p&gt;&lt;p&gt;Memorization趋向于更加保守，推荐用户之前有过行为的items。相比之下，generalization更加趋向于提高&lt;mark data-id="6ca1ea2d-6bca-45b7-9c93-725d288739c3" data-type="technologies"&gt;推荐系统&lt;/mark&gt;的多样性（diversity）。&lt;/p&gt;&lt;h4&gt;&lt;strong&gt;2.5 DeepFM&lt;/strong&gt;&lt;/h4&gt;&lt;p&gt;DeepFM是由哈工大与&lt;mark data-id="48d62db6-3e47-4e93-8b9d-b1283a7ea419" data-type="institutions"&gt;华为&lt;/mark&gt;诺亚方舟实验室共同发表的论文中提出的，模型有效的结合了&lt;mark data-id="72b0bcc0-d8f9-4edd-919f-fa7c2560388c" data-type="technologies"&gt;神经网络&lt;/mark&gt;与因子分解机在特征学习中的优点。DeepFM可以同时提取到低阶组合特征与高阶组合特征，并除了得到原始特征之外无需其他&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;。&lt;/p&gt;&lt;p&gt;模型结构：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.58125" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZY1w0gELkmMAGcWlRc30OCUaicckhxvqWuPZ8YkkbN1V6LJB7X5XJJJag/640?wx_fmt=jpeg" data-w="640" src="https://image.jiqizhixin.com/uploads/editor/e6c1ec63-80eb-4c8e-a2dd-2949fbd56d8a/42.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;比起Wide&amp;amp; Deep的LR部分，DeeFM采用FM作为Wide部分的输出，FM部分如下图：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.5359375" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYE2Z2LtiabibZeva7jqb5uur9fxUQ1lGrPtQyJOQXYv1ic1e2bdmibp4kmQ/640?wx_fmt=jpeg" data-w="640" src="https://image.jiqizhixin.com/uploads/editor/3f8b81a8-c1ba-4fb2-8d16-15f1a6ccd519/43.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;Deep component 如下图:&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.5328125" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYbgkIicptY0ewwn003ZXicd7ff8AQpnNKoukWwGM1JYibymgiaZ8cgrCRwA/640?wx_fmt=jpeg" data-w="640" src="https://image.jiqizhixin.com/uploads/editor/7f0581e1-a776-4444-aa05-6276ec0296db/44.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;Deep Component是用来学习高阶组合特征的。网络里面黑色的线是全连接层，&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;需要&lt;mark data-id="72b0bcc0-d8f9-4edd-919f-fa7c2560388c" data-type="technologies"&gt;神经网络&lt;/mark&gt;去学习。&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;由于ctr或&lt;mark data-id="6ca1ea2d-6bca-45b7-9c93-725d288739c3" data-type="technologies"&gt;推荐系统&lt;/mark&gt;的数据One-hot之后特别稀疏，如果直接放入到DNN中，&lt;mark data-id="2e982b73-88e2-41e8-a430-f7ae5a9af4bf" data-type="technologies"&gt;参数&lt;/mark&gt;非常多，我们没有这么多的数据去训练这样一个网络。所以增加了一个Embedding层，用于降低纬度。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;优点：&lt;/strong&gt;首先，FM提取低阶组合特征，Deep提取高阶组合特征。但是和Wide &amp;amp; Deep不同的是，DeepFM是端到端的训练，不需要人工&lt;mark data-id="898dc2c6-690b-4c29-82b6-f79e7b71d329" data-type="technologies"&gt;特征工程&lt;/mark&gt;。&lt;/p&gt;&lt;p&gt;其次，共享feature embedding。FM和Deep共享输入和feature embedding不但使得训练更快，而且使得训练更加准确。&lt;/p&gt;&lt;p&gt;相比之下，Wide &amp;amp; Deep的输入vector非常大，里面包含了大量的人工设计的pairwise组合特征，因此增加了计算复杂度。&lt;/p&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;生态&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;p&gt;说到整个程序化交易广告的生态圈，除了以上介绍的SSP、DSP、Adx等，还有其他大大小小的角色在其中发挥着作用。在此，列举几个如下：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;广告代理商：&lt;/strong&gt;指由一些创作人员和经营管理人员所组成的，能够为广告客户制定广告计划、商业宣传、制作广告和提供其它促销工具的一个独立性机构，收入来源为服务费和合作的各大广告平台的返点。但最近几年，随着代理商之间的竞争激烈，加之返点模式也越来越被诟病，也导致了许多的代理商或转型或退出这个行业。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;广告网络：&lt;/strong&gt;在PC端介于想出售广告资源的Web网站与想在PC端发布广告的广告主之间的平台。拥有大量的媒体资源，一方面帮助媒体将广告位资源整合打包出售，另一方面帮助广告主定向目标人群。广告主按照千次展示数或按点击付费。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;数据交换平台：&lt;/strong&gt;是实现用户标签数据交换的平台，服务项目包括为客户提供统一CookieMapping技术解决方案，以及用户标签数据的私有交换，帮助企业客户提高&lt;mark data-id="6c2b1832-a1ec-4823-952d-1f7c0f3890ec" data-type="technologies"&gt;数据管理&lt;/mark&gt;能力。&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;&lt;strong&gt;第三方监测公司：&lt;/strong&gt;由于程序化广告的交易模式是由多方参与其中，因此，为了保证数据的准确性、避免各方在结算时的数据差异，同时为广告主有效评估在线广告的接触效果(包括接触人数、频次和目标受众特征等)以及互联网广告的投入产出(ROI)，需要引入第三方监测公司。这些公司往往具有完整且成熟的产品或者解决方案，因此目前这些服务都是收费的。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;目前国内完整的生态圈如下图：&lt;/p&gt;&lt;p&gt;&lt;img data-ratio="0.6921875" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/667nlEyAYY9ibsVP9HwvOWBy61slP20ZYxLvhJp5V2UfkCTExXyuCOlfBhNpra5DfEANIasR18atWHjEc8SiaDnA/640?wx_fmt=jpeg" data-w="1280" src="https://image.jiqizhixin.com/uploads/editor/394ab942-8cda-4f71-adc2-f5a56b5a1863/45.jpg" class="fr-fic fr-dib" style="width: 700%;"&gt;&lt;/p&gt;&lt;p&gt;关于趋势，最近有国外的广告科技前沿作者预测，媒体方削减推送给广告交易平台的流量并自主搭建与DSP的直接对接或许会成为趋势，并预测，未来主流大型媒体通过程序化方式售卖的形态很可能是仅和二、三家广告交易平台对接，同时直接和十多家DSP对接，以获得更好的利润和控制权。此趋势如发生，将进一步削弱开放式广告交易平台的作用并进一步减少优质库存通过广告交易平台交易的机会。&lt;/p&gt;&lt;p&gt;对于独立的移动广告技术公司而言，出海的发展机会似乎大于固守本土的机会，2018年广告技术公司上市的情况即是佐证。OTT和OOH以及音频媒体库存正在处于酝酿进入程序化模式的前夜，这或许是未来几年的持续增长点。&lt;/p&gt;&lt;section data-id="1187693" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-color="#0070c0" data-custom="#0070c0" data-id="89226" data-tools="135编辑器"&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;参考文献&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;blockquote&gt;&lt;ul&gt;&lt;li&gt;&lt;p&gt;《计算广告》 刘鹏 / 王超&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;《&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;》 &lt;mark data-id="7414c7ba-5414-4fd0-8010-eb930f18abd7" data-type="experts"&gt;周志华&lt;/mark&gt;&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;https://clearcode.cc/blog/how-the-real-time-bidding-rtb-ad-exchange-works-infographic/&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;http://hadoop.apache.org/&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;http://spark.apache.org/&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;http://lucene.apache.org/&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;http://zookeeper.apache.org/&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;Practical Lessonsfrom Predicting Clicks on Ads at Facebook, 2014&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;DistributedRepresentations of Sentences and Documents, 2014&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;Word2vec Parameter LearningExplained, 2016&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;Wide &amp;amp; Deep Learningfor Recommender Systems, 2016&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;DeepFM: AFactorization-Machine based Neural Network for CTR Prediction, 2017&lt;/p&gt;&lt;/li&gt;&lt;li&gt;&lt;p&gt;http://www.rtbchina.com/china-programmatic-ad-tech-landscape-2018-vq4.html&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/blockquote&gt;&lt;section data-id="1187531" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-id="86449" data-tools="135编辑器"&gt;&lt;section&gt;&lt;section&gt;&lt;section&gt;&lt;h2 data-brushtype="text"&gt;关于作者&lt;/h2&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;blockquote&gt;&lt;section data-id="1187531" data-style-type="5" data-tools="新媒体排版"&gt;&lt;section data-id="86449" data-tools="135编辑器"&gt;&lt;/section&gt;&lt;section&gt;&lt;section&gt;&lt;br&gt;&lt;/section&gt;&lt;section&gt;&lt;p&gt;&lt;strong&gt;吴威骏：&lt;/strong&gt;达观推荐算法工程师，负责推荐算法的研究、应用。先后在SAP、力美、&lt;mark data-id="5896450e-2901-4458-8dc6-36debf202d02" data-type="institutions"&gt;百度&lt;/mark&gt;等公司从事&lt;mark data-id="7904de1e-5ab5-4f0a-aa60-693cb2978766" data-type="technologies"&gt;数据挖掘&lt;/mark&gt;和广告系统的算法开发，对&lt;mark data-id="1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2" data-type="technologies"&gt;机器学习&lt;/mark&gt;算法、广告系统有深入研究。&lt;/p&gt;&lt;/section&gt;&lt;/section&gt;&lt;/section&gt;&lt;/blockquote&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/59412-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E7%B3%BB%E7%BB%9F</guid>
      <pubDate>Mon, 01 Apr 2019 15:15:00 CST</pubDate>
    </item>
    <item>
      <title>信息流广告三国杀 百度上位 腾讯平稳 头条下挫</title>
      <link>https://itindex.net/detail/58644-%E4%BF%A1%E6%81%AF-%E5%B9%BF%E5%91%8A-%E4%B8%89%E5%9B%BD%E6%9D%80</link>
      <description>&lt;div&gt;    &lt;p&gt;&lt;/p&gt;    &lt;p&gt;&lt;/p&gt;    &lt;p&gt;　　在各互联网巨头的商业版图中，广告收入始终是一个重要阵地。随着今日头条的加入，信息流广告在这片阵地上迅速崛起。数据显示，信息流广告的市场占有率在2012年只有1%，到2017年已经达到14.3%，是互联网广告各门类中增长最快的板块。&lt;/p&gt;    &lt;p&gt;　　今日头条虽然是信息流广告的先行者，但随着各大平台的先后入局，信息流广告市场的争夺日渐焦灼，尤其是百度、腾讯的加入，为信息流战场输送了当量更高的重型武器，让竞争更加激烈。&lt;/p&gt;    &lt;p&gt;　　在这片战场上，三家尚在排兵布阵，但各家比拼的不仅是拿到战场上的装备，还有持续供给的能力：对于头条来说，信息流是广告展示平台，也几乎是其唯一的数据来源;对于百度和腾讯来说，其背后有着庞大而丰富的数据矩阵，可谓厚积而薄发。&lt;/p&gt;    &lt;p&gt;　　      &lt;strong&gt;三家角力信息流市场&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;　　今年06月，信息流广告的使用率达到38.8%，首次超过长横幅大尺寸广告，成为所有网络广告形式中，广告主使用最多的一种。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;　　根据艾瑞咨询的判断，信息流广告仍处于快速发展阶段，未来两年内仍将保持50%以上速率增长。&lt;/p&gt;    &lt;p&gt;　　信息流可以帮助平台主动触及客户，随着对客户识别能力的增强，其呈现出来的广告价值也会越来越大，已经成为互联网巨头们的兵家必争之地。&lt;/p&gt;    &lt;p&gt;　　和今日头条不同，各巨头们入局信息流都各自带有鲜明的特征：阿里的电商属性，百度有搜索优势，腾讯有社交数据。&lt;/p&gt;    &lt;p&gt;　　尽管作为先行者的头条仍占据领先地位，但百度、腾讯凭借雄厚的数据能力和领先的AI技术，厚积薄发，已经与头条共同站在第一梯队，形成了“三国杀”的竞争局面。&lt;/p&gt;    &lt;p&gt;　　2016年百度开启信息流业务，到2017年底，信息流业务每日分发量环比增加20%以上，百度App用户总使用时长同比增长约30%。&lt;/p&gt;    &lt;p&gt;　　百度刚刚披露的二季度财报显示，搜索之外，也就是“AI+信息流”的收入已经接近百度总收入的20%，同比增长超过150%。&lt;/p&gt;    &lt;p&gt;　　后来者增长迅猛，头条的领先优势不断缩窄，竞争手段只能愈发向下。据财新网报道，为了拓展一个日均消费不足千元的个体开锁商户，今日头条的销售曾威胁将用恶意点击的方式清空商户的其他账户余额。&lt;/p&gt;    &lt;p&gt;　　对于头条而言，信息流几乎是其全部，是不得不守住的阵地。对于百度和腾讯而言，信息流的作用也绝不仅仅是锦上添花：获得信息流优势，是百度和腾讯发挥整合营销和精准营销的前提，是重要的战役。&lt;/p&gt;    &lt;p&gt;　　      &lt;strong&gt;BT夹击头条显颓势&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;　　在这片战场上，平台之间在三个层面进行比拼：用户的规模和粘性，变现路径以及整合营销能力。&lt;/p&gt;    &lt;p&gt;　　其中，用户的规模和粘性是互联网广告变现的基础。从这个角度看，腾讯拥有月活过10亿的超级APP，用户的规模最大，百度系居中，而头条系核心产品月独立用户数低于2.5亿，排在最末。&lt;/p&gt;    &lt;p&gt;　　不仅如此，头条系产品的日活数据增速从今年1月份开始一路下滑，已经显露出增长的疲态。&lt;/p&gt;    &lt;p&gt;      &lt;img src="http://e.thsi.cn/img/24378053ea2b1a54"&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;　　其次，变现路径决定着变现效率的高低。简单来说，广告促使客户达成交易的路径越短，变现的效率就越高。&lt;/p&gt;    &lt;p&gt;　　在信息流领域里，变现路径体现在精准和用户时长两个方面。广告越是可以精准地满足用户当下的需求，变现效率就越高。举例来说，某汽车品牌需要针对新款车型进行信息流投放，如果广告可以精准地找到有购车意图，并且TA对车辆的需求与推送的广告内容高度重合，那么变现效率就会很高。&lt;/p&gt;    &lt;p&gt;　　在这方面，头条的精准依赖于其打造的“兴趣营销”模式，所谓“你关心的就是头条”，百度和腾讯分别坐拥搜索、社交两大数据源，主打“意图营销”和“社交营销”。&lt;/p&gt;    &lt;p&gt;　　相比之下，头条系产品的依据只有兴趣，但用户感兴趣的，未必就是TA会购买的，腾讯的社交网络对用户的理解相对深入，但朋友喜欢的未必是我喜欢的，而百度依靠搜索平台，通过对用户的主动搜索数据进行分析，可以洞察到用户的“意图”，这是其他两家所不具备的优势。&lt;/p&gt;    &lt;p&gt;　　最后，整合营销能力的比拼是信息流广告的加分项，用户个性化数据的丰富度是整合营销的基础。从这个角度来看，腾讯和百度分别从不同维度拥有庞大的用户数据，都具备明显的后发优势，头条的领先地位岌岌可危。&lt;/p&gt;    &lt;p&gt;　　信息流市场的比拼已近半场，三家尚未分出伯仲，而下半场的竞争更需要深厚的内功和精细作战能力，这场三国杀的最终结局已见端倪。&lt;/p&gt;    &lt;p&gt;&lt;/p&gt;    &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;&lt;/div&gt;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/58644-%E4%BF%A1%E6%81%AF-%E5%B9%BF%E5%91%8A-%E4%B8%89%E5%9B%BD%E6%9D%80</guid>
      <pubDate>Tue, 21 Aug 2018 21:12:26 CST</pubDate>
    </item>
    <item>
      <title>网易二季度财报：传媒业务广告收入与内容建设表现亮眼</title>
      <link>https://itindex.net/detail/58604-%E7%BD%91%E6%98%93-%E5%AD%A3%E5%BA%A6-%E8%B4%A2%E6%8A%A5</link>
      <description>&lt;p&gt;【TechWeb】北京时间8月9日，网易（NASDAQ:NTES）宣布了公司截止到2018年6月30日的第二季度未经审计财务业绩。数据显示，网易第二季度净收入162.84亿元人民币，同比增加21.7%；净利润为21.07亿元，环比大涨180%。广告服务净收入为6.34亿元，同比增加6.5%；其中，网易新闻客户端和门户为网易集团贡献超过85%的广告收入，同比增长10%。受营收超预期影响，网易盘后股价上涨超过3%。&lt;/p&gt;
 &lt;p&gt;“我们高兴地看到，本季度游戏、电商、广告等各业务板块均呈现出不错的增长势头，净利润也显著回升。”网易首席执行官丁磊表示。网易传媒在多元化布局方面频频发力，以精品内容和品牌营销，创造了稳健、高增长的良好前景。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;三大驱动力构建内容消费新生态&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;2017年11月6日，网易CEO丁磊在“2017两岸企业家紫金山峰会”上提出“新消费”概念，他认为：“零售离不开人这个基本核心。所有零售形式的演变，都源于对用户需求的理解，这是一切的原点。”经过数年耕耘，网易在引领商业社会“消费升级”方面取得不俗成绩。&lt;/p&gt;
 &lt;p&gt;网易传媒于2017年在行业中将自身定位成为 “内容消费升级的引领者”。在内容消费升级大潮下，当机器算法成为移动资讯行业的标配之后，网易新闻立足行业的优势就是解决机器无法解决的问题——重新定义好内容。由此，网易新闻明确了内容消费升级的三大驱动力：严选内容、多元文化、体验升级。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="17" border="0" src="http://upload.techweb.com.cn/2018/0809/1533812758309.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;网易新闻致力于建立一个更加开放、友好、公平的内容生产开放平台，从生态化的内容生产体系搭建来真正推动内容消费升级。截至2018年7月，网易号账号数量超过60万个，容纳了内容创业领域的绝大多数生产者。而作为“10年100个让生活更美好的东西”，网易跟贴承载着网易网友的智慧和参与热情，目前日均跟帖条数达到420万。&lt;/p&gt;
 &lt;p&gt;以内容严选为准则，网易新闻通过一整套内容品控与合伙人体系，为用户提供更加优质的内容源，帮助用户构建优质内容阅读标准。网易还携手优质媒体合伙人共建覆盖多样内容品类和丰富内容形式的品牌IP。网易号签约MCN机构超过200家，并于今年年初宣布投入10亿用于补贴短视频及MCN，向MCN机构开放平台50%的资源，全面助力MCN在流量、品牌等方面获得收益。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="18" border="0" src="http://upload.techweb.com.cn/2018/0809/1533812757534.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;用户内容消费需求多元化的另一种体现，是阅读体验的升级。不仅是图文，网易新闻不断升级短视频、互动H5、AI、VR等技术和内容呈现方式，在优质内容和用户之间建立起更加紧密的情感联系和价值联系。截至2018年7月，网易新闻短视频日均播放量达到5亿，而年轻化社交娱乐平台薄荷直播，用户累计观看（直播）时长达到3亿分钟。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;世界杯精品内容与品牌创造共振效应&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;对内容资讯行业而言，世界杯是四年一度的流量盛宴，网易新闻作为业内最早布局世界杯的内容平台，在精品内容和品牌营销方面，实现了共振效应。&lt;/p&gt;
 &lt;p&gt;2018年世界杯，网易传媒在广告营收与客户数量增长这两项硬指标上，都远超2014年的巴西世界杯。而法国队最终夺冠，为网易品牌与合作客户都创造了更全面的影响力。&lt;/p&gt;
 &lt;p&gt;作为法国国家队中国网络媒体合作伙伴，网易新闻在世界杯期间享有法国队球员的集体肖像权、法国队的独家视频、采访、探营权益等报道权益，在媒体领域的地位高于法国著名体育媒体《队报》，仅次于法国国家电视台。世界杯期间，社交话题#法国夺冠网易放假#大热，在2天时间里就覆盖人群3亿，话题量2055万，互动量1.05万。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="19" border="0" src="http://upload.techweb.com.cn/2018/0809/1533812758329.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;从2014年开始，网易新闻便致力于和世界杯豪门球队合作，成为其中国独家互联网媒体合作伙伴。4年间，网易新闻先后签约了巴西队、西班牙队、德国队和法国队，在世界杯历史上，这4支球队一共夺得过12次冠军，在网易用户和行业中留下深刻印象。&lt;/p&gt;
 &lt;p&gt;根据Ipsos《2018年俄罗斯世界杯网易新闻媒体价值研究报告》数据显示，在主要的综合资讯类APP中，网易新闻用户的高知化程度最高。同时，用户年轻化特征明显。在网易新闻的用户中，90后球迷占比最大，而铁杆球迷以80后最多，每天打开网易新闻达到4.69次。而00后球迷在世界杯期间使用网易新闻客户端的平均单次时长最长，达到33.21分钟，在沉浸式阅读方面拔得头筹。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="20" border="0" src="http://upload.techweb.com.cn/2018/0809/1533812758206.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;世界杯期间，网易新闻相关资讯阅读量超过15亿，网友跟贴达到3818万条，全网10w+爆款文章达1433篇。“头号球星”集卡活动、“网易超级球迷俱乐部”等活动得到用户的踊跃参阅。此外，网易传媒还与故宫食品等超级IP携手进行品牌合作，针对世界杯用户需求打造跨界创意食品，并推出合作话题#奉旨看球#，活动24小时内覆盖人群超过2.8亿、互动量近1.5万条。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;网易公开课要解决用户多元化“学习”需求&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;7&lt;/strong&gt;月  &lt;strong&gt;17&lt;/strong&gt;日，网易  &lt;strong&gt;CEO&lt;/strong&gt;丁磊接受财经作家吴晓波采访时，认为：这十年里最重要的事情是做了网易公开课。他认为公开课是互联网创新、分享、公平的核心思想的体现，“能有机会传播国外名校的优质课程内容，是让我自己很自豪的一件事情”。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="21" border="0" src="http://upload.techweb.com.cn/2018/0809/1533812759788.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;作为中国最早的在线免费教育社区，经过  &lt;strong&gt;8&lt;/strong&gt;年沉淀，网易公开课已经拥有超  &lt;strong&gt;8000&lt;/strong&gt;万用户、超  &lt;strong&gt;500&lt;/strong&gt;万活跃用户，推出过  &lt;strong&gt;60000&lt;/strong&gt;个自费翻译课程，课程内容涵盖科学、经济、人文等  &lt;strong&gt;22&lt;/strong&gt;类领域。网易公开课与超过  &lt;strong&gt;1500&lt;/strong&gt;家优质内容合作方进行深度合作，线上视频、音频内容已达  &lt;strong&gt;15&lt;/strong&gt;万条，海量知识内容满足着用户多维多元的学习需求。&lt;/p&gt;
 &lt;p&gt;为了使公开课的平台建设更有层次、更立体化，在继续提供免费的国内外优质课程基础上，“网易公开课”正在全力探索付费教育新模式，满足用户进一步学习的需求。&lt;/p&gt;
 &lt;p&gt;网易公开课推出的陪伴式学习计划“一万分钟计划”免费课程，目前参与人数已达300万人次。公开课还将与国内外  &lt;strong&gt;1000&lt;/strong&gt;个付费内容生产方展开深入合作，输出优质付费内容，扩大内容覆盖品类，涵盖大众精品课程及小众垂类需求，结合网易传媒独有的工作室体系和“内容严选”模式，降低用户筛选课程内容的成本，获得更高效的学习体验。&lt;/p&gt;
 &lt;p&gt;“匠心和创新一直是网易的核心竞争力。二十余年来，我们一直秉承这些理念，将它们融入我们的产品中，形成了网易特有的竞争优势。我们相信网易秉承的理念以及其强大的研发能力和商业敏锐性，将继续推动网易公司未来蓬勃发展。”网易CEO丁磊总结道。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#25991;&amp;#31456;" border="0" src="http://s1.techweb.com.cn/static/img/20180614.png"&gt;&lt;/img&gt;&lt;/p&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>TechWeb</category>
      <guid isPermaLink="true">https://itindex.net/detail/58604-%E7%BD%91%E6%98%93-%E5%AD%A3%E5%BA%A6-%E8%B4%A2%E6%8A%A5</guid>
      <pubDate>Thu, 09 Aug 2018 19:07:47 CST</pubDate>
    </item>
    <item>
      <title>广东移动：终端行业分析报告</title>
      <link>https://itindex.net/detail/58602-%E5%B9%BF%E4%B8%9C-%E7%A7%BB%E5%8A%A8-%E7%BB%88%E7%AB%AF</link>
      <description>&lt;strong&gt;报告结果总览：&lt;/strong&gt; &lt;p&gt;&lt;/p&gt;
 &lt;p&gt;1）相较于第一季度，第二季度市场略有缩小&lt;/p&gt;
 &lt;p&gt;2）华为表现不俗，市场占比，用户忠诚度均优于其他品牌&lt;/p&gt;
 &lt;p&gt;3）选择在6-12月内的换机用户比例有较大幅度增长&lt;/p&gt;
 &lt;p&gt;4）华为、苹果、OPPO、VIVO四大品牌中超50%的用户忠诚于原品牌&lt;/p&gt;
 &lt;p&gt;5）用户更爱换至安卓机，流向苹果用户数量减少&lt;/p&gt;










 &lt;p&gt;  &lt;strong&gt;（一）手机市场总洞察：第二季度销量下滑，华为超过苹果，iPhone以及OPPO机型表现出色&lt;/strong&gt;  &lt;strong&gt; &lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-1014-xdksH1v6ee4AxM3A5lCz2V9iaqfA.jpg"&gt;   &lt;img alt="" height="470" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-1014-xdksH1v6ee4AxM3A5lCz2V9iaqfA.jpg" width="792"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;2018年第二季度的三个月，用户新增手机数量相较于第一季度，减幅达到300多万台。&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-8454-CicSYp1RQ7qmOicibxyaDqtiaKzg.jpg"&gt;   &lt;img alt="" height="534" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-8454-CicSYp1RQ7qmOicibxyaDqtiaKzg.jpg" width="800"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;第二季度用户新增手机品牌中，华为销量超越苹果占第一，国产品牌占据了TOP5中的四席。&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-6914-qBvrcMI2gkRQvzPXUsmRibaOkrXw.jpg"&gt;   &lt;img alt="" height="512" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-6914-qBvrcMI2gkRQvzPXUsmRibaOkrXw.jpg" width="800"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;从用户换机前后的的市场份额占比看，OPPO及华为在第二季度的增长幅度最大，其中华为增长4.16%，OPPO增长4.62%&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-1243-z1X5ibF8A9Zjt12d6ibWHpQg1pZA.jpg"&gt;   &lt;img alt="" height="389" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-1243-z1X5ibF8A9Zjt12d6ibWHpQg1pZA.jpg" width="800"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;iPhone和OPPO机型表现出色，瓜分排名的前10。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（二）用户换机行为总洞察：超3成用户不到半年就换机，四大品牌用户忠诚度超50%&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-9535-RTrkIahHQJ7XOkf0nQWyLej3iaJA.jpg"&gt;   &lt;img alt="" height="387" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-9535-RTrkIahHQJ7XOkf0nQWyLej3iaJA.jpg" width="800"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;相比起第一季度，第二季度依然有34.59%的用户的换机周期是在半年内的，换机周期在6-12个月的用户大幅增长。&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829456-2712-ZibUNFKCIENy3WfTmmmYbw9wS8vQ.jpg"&gt;   &lt;img alt="" height="483" src="http://www.199it.com/wp-content/uploads/2018/08/1533829456-2712-ZibUNFKCIENy3WfTmmmYbw9wS8vQ.jpg" width="743"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;华为、苹果、OPPO及 VIVO的用户忠诚度均高于50%，即超过50%的用户还会换至原品牌。其中，华为的用户忠诚度高于其他品牌。&lt;/p&gt;
 &lt;p&gt;  &lt;a href="http://www.199it.com/wp-content/uploads/2018/08/1533829462-9407-ks25cGsUibqFTticHmKavtNuZurA.jpg"&gt;   &lt;img alt="" height="2520" src="http://www.199it.com/wp-content/uploads/2018/08/1533829462-9407-ks25cGsUibqFTticHmKavtNuZurA.jpg" width="800"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;用户在手机品牌选择更换时有以下几个明显的转变：&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;1、华为用户更倾向于更换至苹果以及OPPO；&lt;/p&gt;
 &lt;p&gt;2、苹果用户更倾向于换至华为及OPPO；&lt;/p&gt;
 &lt;p&gt;3、OPPO用户更倾向于换至VIVO、苹果及华为；&lt;/p&gt;
 &lt;p&gt;4、VIVO用户更倾向于换至OPPO及华为。&lt;/p&gt;
 &lt;p&gt;* 数据来源：中国移动通信集团广东有限公司内部数据&lt;/p&gt;
 &lt;p&gt;* 数据对象：中国移动通信集团广东有限公司用户&lt;/p&gt;
 &lt;p&gt;* 取数时间：2018年4月-6月&lt;/p&gt;
 &lt;p&gt;* 备注：本报告结论均为取数时间段内广东地区移动客户新增手机市场，未包含其他区域及运营商。本数据通过客户使用服务过程中合法数据分析获得。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;来自：   &lt;a href="https://mp.weixin.qq.com/s/JaostDK5WL-BRyWfmjPzzw"&gt;广东移动&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;

 &lt;div&gt;  &lt;div&gt;   &lt;h3&gt;更多阅读：&lt;/h3&gt;   &lt;ul&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/153428.html"&gt;速途研究院：2013年8月份手机市场分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/16948.html"&gt;ZDC：2011年9月中国3G手机市场分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/184847.html"&gt;PDC：2013年中国智能手机市场发展分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/517455.html"&gt;2016年1-6月工业设备及组件行业分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/507950.html"&gt;百度商业生态研究院：海淘行业整体搜索趋势分析报告（附下载）&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/657854.html"&gt;易观：2017中国移动健康管理分析报告（附下载）&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/135589.html"&gt;知微：2013年《中国好声音》第二期微博数据分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/137258.html"&gt;汽车之家：2013上半年中国汽车消费者关注变化趋势分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/105969.html"&gt;GoogleAnalytics：数据显示2013年桌面电脑访问互联网平均速度在6秒之上&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/138555.html"&gt;速途研究院：2013年Q2 PC端搜索引擎分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/204447.html"&gt;2013年上半年家电网络购物分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/644222.html"&gt;毕马威：2017年Q3全球风险投资分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/250494.html"&gt;Dr Augustine Fou：2014年网络广告虚假成份量化分析报告&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/708933.html"&gt;微博数据中心：2017财经用户分析报告（附下载）&lt;/a&gt;&lt;/li&gt;    &lt;li&gt;     &lt;a href="http://www.199it.com/archives/267608.html"&gt;2014年中国半导体市场投资分析报告（上）&lt;/a&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/div&gt;&lt;/div&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>智能手机 分析报告 广东移动 终端行业 终端行业分析报告</category>
      <guid isPermaLink="true">https://itindex.net/detail/58602-%E5%B9%BF%E4%B8%9C-%E7%A7%BB%E5%8A%A8-%E7%BB%88%E7%AB%AF</guid>
      <pubDate>Thu, 09 Aug 2018 23:45:17 CST</pubDate>
    </item>
    <item>
      <title>亚马逊与 Google 竞争愈演愈烈，这次它停止了在搜索引擎购买广告</title>
      <link>https://itindex.net/detail/58353-%E4%BA%9A%E9%A9%AC%E9%80%8A-google-%E7%AB%9E%E4%BA%89</link>
      <description>&lt;p&gt;  &lt;img alt="" src="http://img.qdaily.com/article/article_show/20180512072940C4grSJtsu6GDTHzi.gif?imageMogr2/auto-orient/thumbnail/!640x380r/gravity/Center/crop/640x380/quality/85/ignore-error/1"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;据  &lt;a href="https://www.bloomberg.com/news/articles/2018-05-10/china-s-zte-ceases-major-operations-after-u-s-trade-ban" rel="nofollow"&gt;彭博社&lt;/a&gt;的报道，亚马逊已经停止购买 Google 的商品陈列广告。这是亚马逊和 Google 的又一次对抗，也是电商与搜索引擎争夺流量的标志性事件。&lt;/p&gt; &lt;p&gt;此前，亚马逊购买的是 Google 的商品陈列广告服务。与普通的文字广告相比，这种广告能够展示商品照片与简介，更利于用户在搜索引擎上查看到商品信息后连接到电商。这种服务对电商平台而言是一个流量来源，对搜索引擎而言则是营收来源。过去几年，亚马逊需要与沃尔玛等其他零售商竞价争夺 Google 搜索中的重要展示位置，为办公用品、家具、运动服装等产品获取客流。&lt;/p&gt; &lt;p&gt;但随着亚马逊电商规模越来越大，品牌与用户习惯已经培育成熟，越来越多用户开始跳过搜索引擎，而直接在电商平台上搜索商品。在   &lt;a href="http://www.businessinsider.com/eric-schmidt-says-amazon-is-googles-biggest-search-competitor-2014-10" rel="nofollow"&gt;2014 年的一次采访&lt;/a&gt;中，Google 董事长、前 CEO 艾瑞克·施密特就指出，随着用户变得先在电商搜索商品，以后亚马逊会成为 Google 的最大竞争对手。&lt;/p&gt; &lt;p&gt;国内其实也发生过电商与搜索引擎为争夺流量而“封杀”广告的事件。2010 年，百度和日本乐天共同开设网购平台“乐酷天”的时候，就曾经大规模清理淘宝客网站的动态 API 内容。但后来由于百度的电商业务没有经营起来，百度又重新接受其他电商的广告投放，今天你在百度搜索商品还能看到各种京东、天猫、淘宝的广告。&lt;/p&gt; &lt;p&gt;但亚马逊的电商业务一直高速扩张，对它来说，在 Google 投放广告的边际收益很可能是越来越小的，这可能是停止购买广告服务的直接原因。&lt;/p&gt; &lt;p&gt;更深层次的原因，是亚马逊与 Google 的竞争越来越激烈。亚马逊与 Google 都早已经不再是关注单一业务的互联网公司，其业务包罗万象，在许多新领域，尤其是人工智能、智能家居领域展开竞争。&lt;/p&gt; &lt;p&gt;Google 需要应对电商平台的崛起，以及内容碎片化分布在各个应用中之后，在搜索市场上对于内容发现和引流的力不从心，所以近年全力发展 Google Assistant。试想，如果 Google Assistant 足够发达，所有的搜索和导流在对话之中完成，也就跳过了搜索窗口或 APP 的局限，这会给它带来新的机会。&lt;/p&gt; &lt;p&gt;  &lt;img alt="" src="http://img.qdaily.com/uploads/20160725026790Msgaji5TilWhj7z4.jpg-w600"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;&lt;/p&gt; &lt;p&gt;亚马逊的野心则更大，直接推出了Amazon Alexa和Amazon Echo两款产品，前者是可以嵌入到所有硬件内的语音人工智能系统，后者是具备智能家居控制功能的智能音箱。基于这两款产品，亚马逊有可能实现物联网服务，取代搜索系统，自然也取代了 Google。&lt;/p&gt; &lt;p&gt;在宏大的业务布局和市场争夺中，亚马逊和 Google 竞争加剧、互相“封杀”简直是不可避免的。&lt;/p&gt; &lt;p&gt;去年 9 月，Google 以“在亚马逊设备上 YouTube 服务是不完整的”为由，将  YouYube 从亚马逊的 Echo 系列产品中撤下。随后亚马逊用网页版 YouTube 代替之前内置在 Echo Show 中的 YouTube 服务，让用户得以使用，不过后来网页版 YouTube 也不能使用了。&lt;/p&gt; &lt;p&gt;随后，亚马逊开始在其网站禁售 Google 旗下的智能硬件公司 Nest 推出的新产品。作为反击，Nest 决定将不再在亚马逊上销售任何产品。&lt;/p&gt; &lt;p&gt;此次亚马逊停止购买 Google 的广告服务，也可能是亚马逊要加大开发自身广告业务的先兆。在 2018 年第一季度，亚马逊的广告业务营收同比增长了 139%，超过 20 亿美元，虽然对比 Google 和 Facebook 的广告营收规模来说还很少，但考虑到亚马逊电商本身的访问流量、商家数量，未来在广告业务上的潜力非常大。&lt;/p&gt; &lt;p&gt;垄断人们的生活消费一直是巨大的商业诱惑，可以预期，亚马逊与 Google 未来还会发生相互“封杀”的事件。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;题图来源：  &lt;a href="https://giphy.com/gifs/mrw-comment-see-Pkny92clCrzva" rel="nofollow"&gt;GIPHY&lt;/a&gt;  &lt;br /&gt;&lt;/p&gt; &lt;div&gt;&lt;/div&gt; &lt;div&gt;
      &lt;img alt="" src="http://img.qdaily.com/uploads/20171222175448DuIFGKx5VU4XcYEf.png-w600"&gt;&lt;/img&gt;
&lt;/div&gt; &lt;p&gt;我们做了一个壁纸应用，给你的手机加点好奇心。去 App 商店搜   &lt;a href="http://m.notch.qdaily.com/mobile/downloads.html"&gt;好奇怪&lt;/a&gt; 下载吧。  &lt;br /&gt;&lt;/p&gt;
      &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/58353-%E4%BA%9A%E9%A9%AC%E9%80%8A-google-%E7%AB%9E%E4%BA%89</guid>
      <pubDate>Sat, 12 May 2018 13:07:06 CST</pubDate>
    </item>
    <item>
      <title>美团点评广告实时索引的设计与实现</title>
      <link>https://itindex.net/detail/58343-%E7%BE%8E%E5%9B%A2-%E5%B9%BF%E5%91%8A-%E5%AE%9E%E6%97%B6</link>
      <description>&lt;h1&gt;背景&lt;/h1&gt;
 &lt;p&gt;在线广告是互联网行业常见的商业变现方式。从工程角度看，广告索引的结构和实现方式直接决定了整个系统的服务性能。本文以美团点评的搜索广告系统为蓝本，与读者一起探讨广告系统的工程奥秘。&lt;/p&gt;
 &lt;h2&gt;领域问题&lt;/h2&gt;
 &lt;p&gt;广告索引需具备以下基本特性：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;层次化的索引结构&lt;/li&gt;
  &lt;li&gt;实时化的索引更新&lt;/li&gt;
&lt;/ol&gt;
 &lt;h3&gt;层次投放模型&lt;/h3&gt;
 &lt;p&gt;一般地，广告系统可抽象为如下投放模型，并实现检索、过滤等处理逻辑。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#24191;&amp;#21578;&amp;#25237;&amp;#25918;&amp;#27169;&amp;#22411;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#24191;&amp;#21578;&amp;#25237;&amp;#25918;&amp;#27169;&amp;#22411;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;该层次结构的上下层之间是一对多的关系。一个广告主通常创建若干个推广计划，每个计划对应一个较长周期的KPI，比如一个月的预算和投放地域。一个推广计划中的多个推广单元分别用于更精细的投放控制，比如一次点击的最高出价、每日预算、定向条件等。广告创意是广告曝光使用的素材，根据业务特点，它可以从属于广告主或推广计划层级。&lt;/p&gt;
 &lt;h3&gt;实时更新机制&lt;/h3&gt;
 &lt;p&gt;层次结构可以更准确、更及时地反应广告主的投放控制需求。投放模型的每一层都会定义若干字段，用于实现各类投放控制。广告系统的大部分字段需要支持实时更新，比如审核状态、预算上下线状态等。例如，当一个推广单元由可投放状态变为暂停状态时，若该变更没有在索引中及时生效，就会造成大量的无效投放。&lt;/p&gt;
 &lt;h2&gt;业界调研&lt;/h2&gt;
 &lt;p&gt;目前，生产化的开源索引系统大部分为通用搜索引擎设计，基本无法同时满足上述条件。&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Apache Lucene   &lt;ul&gt;
    &lt;li&gt;全文检索、支持动态脚本；实现为一个Library&lt;/li&gt;
    &lt;li&gt;支持实时索引，但不支持层次结构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
  &lt;li&gt;Sphinx   &lt;ul&gt;
    &lt;li&gt;全文检索；实现为一个完整的Binary，二次开发难度大&lt;/li&gt;
    &lt;li&gt;支持实时索引，但不支持层次结构&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;因此，广告业界要么基于开源方案进行定制，要么从头开发自己的闭源系统。在经过再三考虑成本收益后，我们决定自行设计广告系统的索引系统。&lt;/p&gt;
 &lt;h1&gt;索引设计&lt;/h1&gt;
 &lt;p&gt;工程实践重点关注稳定性、扩展性、高性能等指标。&lt;/p&gt;
 &lt;h2&gt;设计分解&lt;/h2&gt;
 &lt;p&gt;设计阶段可分解为以下子需求。&lt;/p&gt;
 &lt;h3&gt;实时索引&lt;/h3&gt;
 &lt;p&gt;广告场景的更新流，涉及索引字段和各类属性的实时更新。特别是与上下线状态相关的属性字段，需要在若干毫秒内完成更新，对实时性有较高要求。&lt;/p&gt;
 &lt;p&gt;用于召回条件的索引字段，其更新可以滞后一些，如在几秒钟之内完成更新。采用分而治之的策略，可极大降低系统复杂度。&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;属性字段的更新：直接修改正排表的字段值，可以保证毫秒级完成&lt;/li&gt;
  &lt;li&gt;索引字段的更新：涉及更新流实时计算、倒排索引等的处理过程，只需保证秒级完成&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;此外，通过定期切换全量索引并追加增量索引，由索引快照确保数据的正确性。&lt;/p&gt;
 &lt;h3&gt;层次结构&lt;/h3&gt;
 &lt;p&gt;投放模型的主要实体是广告主（Advertiser）、推广计划（Campaign）、广告组（Adgroup）、创意（Creative）等。其中:&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;广告主和推广计划：定义用于控制广告投放的各类状态字段&lt;/li&gt;
  &lt;li&gt;广告组：描述广告相关属性，例如竞价关键词、最高出价等&lt;/li&gt;
  &lt;li&gt;创意：与广告的呈现、点击等相关的字段，如标题、创意地址、点击地址等&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;一般地，广告检索、排序等均基于广告组粒度，广告的倒排索引也是建立在广告组层面。借鉴关系数据库的概念，可以把广告组作为正排主表（即一个Adgroup是一个doc），并对其建立倒排索引；把广告主、推广计划等作为辅表。主表与辅表之间通过外键关联。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#24191;&amp;#21578;&amp;#26816;&amp;#32034;&amp;#27969;&amp;#31243;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#24191;&amp;#21578;&amp;#26816;&amp;#32034;&amp;#27969;&amp;#31243;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;通过查询条件，从倒排索引中查找相关docID列表&lt;/li&gt;
  &lt;li&gt;对每个docID，可从主表获取相关字段信息&lt;/li&gt;
  &lt;li&gt;使用外键字段，分别获取对应辅表的字段信息&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;检索流程中实现对各类字段值的同步过滤。&lt;/p&gt;
 &lt;h3&gt;可靠高效&lt;/h3&gt;
 &lt;p&gt;广告索引结构相对稳定且与具体业务场景耦合较弱，为避免Java虚拟机由于动态内存管理和垃圾回收机制带来的性能抖动，最终采用C++11作为开发语言。虽然Java可使用堆外内存，但是堆外堆内的数据拷贝对高并发访问仍是较大开销。项目严格遵循《Google C++ Style》，大幅降低了编程门槛。&lt;/p&gt;
 &lt;p&gt;在“读多写少”的业务场景，需要优先保证“读”的性能。检索是内存查找过程，属于计算密集型服务，为保证CPU的高并发，一般设计为无锁结构。可采用“一写多读”和延迟删除等技术，确保系统高效稳定运转。此外，巧妙利用数组结构，也进一步优化了读取性能。&lt;/p&gt;
 &lt;h3&gt;灵活扩展&lt;/h3&gt;
 &lt;p&gt;正排表、主辅表间的关系等是相对稳定的，而表内的字段类型需要支持扩展，比如用户自定义数据类型。甚至，倒排表类型也需要支持扩展，例如地理位置索引、关键词索引、携带负载信息的倒排索引等。通过继承接口，实现更多的定制化功能。&lt;/p&gt;
 &lt;h2&gt;逻辑结构&lt;/h2&gt;
 &lt;p&gt;  &lt;img alt="&amp;#24191;&amp;#21578;&amp;#26816;&amp;#32034;&amp;#27969;&amp;#31243;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#36923;&amp;#36753;&amp;#32467;&amp;#26500;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;从功能角度，索引由Table和Index两部分组成。如上图所示，Index实现由Term到主表docID的转换；Table实现正排数据的存储，并通过docID实现主表与辅表的关联。&lt;/p&gt;
 &lt;h2&gt;分层架构&lt;/h2&gt;
 &lt;p&gt;索引库分为三层：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;接口层：以API方式对外提供索引的构建、更新、检索、过滤等功能&lt;/li&gt;
  &lt;li&gt;能力层：实现基于倒排表和正排表的索引功能，是系统的核心&lt;/li&gt;
  &lt;li&gt;存储层：索引数据的内存布局和到文件的持久化存储&lt;/li&gt;
&lt;/ol&gt;
 &lt;h1&gt;索引实现&lt;/h1&gt;
 &lt;p&gt;本节将自底向上，从存储层开始，逐一描述各层的设计细节和挑战点。&lt;/p&gt;
 &lt;h2&gt;存储层&lt;/h2&gt;
 &lt;p&gt;存储层负责内存分配以及数据的持久化，可使用mmap实现到虚拟内存空间的映射，由操作系统实现内存与文件的同步。此外，mmap也便于外部工具访问或校验数据的正确性。&lt;/p&gt;
 &lt;p&gt;将存储层抽象为分配器（Allocator）。针对不同的内存使用场景，如对内存连续性的要求、内存是否需要回收等，可定制实现不同的分配器。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#20869;&amp;#23384;&amp;#20998;&amp;#37197;&amp;#22120;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#20869;&amp;#23384;&amp;#20998;&amp;#37197;&amp;#22120;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;以下均为基于mmap的各类分配器，这里的“内存”是指调用进程的虚拟地址空间。实际的代码逻辑还涉及复杂的Metadata管理，下文并未提及。&lt;/p&gt;
 &lt;h3&gt;简单的分配策略&lt;/h3&gt;
 &lt;ul&gt;
  &lt;li&gt;   &lt;p&gt;LinearAllocator&lt;/p&gt;
   &lt;ul&gt;
    &lt;li&gt;分配连续地址空间的内存，即一整块大内存；当空间需要扩展时，会采用新的mmap文件映射，并延迟卸载旧的文件映射&lt;/li&gt;
    &lt;li&gt;新映射会导致页表重新装载，大块内存映射会导致由物理内存装载带来的性能抖动&lt;/li&gt;
    &lt;li&gt;一般用于空间需求相对固定的场景，如HashMap的bucket数组&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
  &lt;li&gt;   &lt;p&gt;SegmentAllocator&lt;/p&gt;
   &lt;ul&gt;
    &lt;li&gt;为解决LinearAllocator在扩展时的性能抖动问题，可将内存区分段存储，即每次扩展只涉及一段，保证性能稳定&lt;/li&gt;
    &lt;li&gt;分段导致内存空间不连续，但一般应用场景，如倒排索引的存储，很适合此法&lt;/li&gt;
    &lt;li&gt;默认的段大小为64MB&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
 &lt;h3&gt;集约的分配策略&lt;/h3&gt;
 &lt;p&gt;频繁的增加、删除、修改等数据操作将导致大量的外部碎片。采用压缩操作，可以使占用的内存更紧凑，但带来的对象移动成本却很难在性能和复杂度之间找到平衡点。在工程实践中，借鉴Linux物理内存的分配策略，自主实现了更适于业务场景的多个分配器。&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;PageAllocator   &lt;ul&gt;
    &lt;li&gt;页的大小为4KB，使用伙伴系统（Buddy System）的思想实现页的分配和回收&lt;/li&gt;
    &lt;li&gt;页的分配基于SegmentAllocator，即先分段再分页&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;在此简要阐述伙伴分配器的处理过程，为有效管理空闲块，每一级order持有一个空闲块的FreeList。设定最大级别order=4，即从order=0开始，由低到高，每级order块内页数分别为1、2、4、8、16等。分配时先找满足条件的最小块；若找不到则在上一级查找更大的块，并将该块分为两个“伙伴”，其中一个分配使用，另一个置于低一级的FreeList。&lt;/p&gt;
 &lt;p&gt;下图呈现了分配一个页大小的内存块前后的状态变化，分配前，分配器由order=0开始查找FreeList，直到order=4才找到空闲块。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#20249;&amp;#20276;&amp;#20998;&amp;#37197;&amp;#22120;&amp;#31574;&amp;#30053;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#20249;&amp;#20276;&amp;#20998;&amp;#37197;&amp;#31574;&amp;#30053;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;将该空闲块分为页数为8的2个伙伴，使用前一半，并将后一半挂载到order=3的FreeList；逐级重复此过程，直到返回所需的内存块，并将页数为1的空闲块挂在到order=0的FreeList。&lt;/p&gt;
 &lt;p&gt;当块释放时，会及时查看其伙伴是否空闲，并尽可能将两个空闲伙伴合并为更大的空闲块。这是分配过程的逆过程，不再赘述。&lt;/p&gt;
 &lt;p&gt;虽然PageAllocator有效地避免了外部碎片，却无法解决内部碎片的问题。为解决这类小对象的分配问题，实现了对象缓存分配器（SlabAllocator）。&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;SlabAllocator   &lt;ul&gt;
    &lt;li&gt;基于PageAllocator分配对象缓存，slab大小以页为单位&lt;/li&gt;
    &lt;li&gt;空闲对象按内存大小定义为多个SlabManager，每个SlabManager持有一个PartialFreeList，用于放置含有空闲对象的slab&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;对象的内存分配过程，即从对应的PartialFreeList获取含有空闲对象的slab，并从该slab分配对象。反之，释放过程为分配的逆过程。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#23545;&amp;#35937;&amp;#32531;&amp;#23384;&amp;#20998;&amp;#37197;&amp;#22120;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#23545;&amp;#35937;&amp;#32531;&amp;#23384;&amp;#20998;&amp;#37197;&amp;#22120;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;综上，实时索引存储结合了PageAllocator和SlabAllocator，有效地解决了内存管理的外部碎片和内部碎片问题，可确保系统高效稳定地长期运行。&lt;/p&gt;
 &lt;h2&gt;能力层&lt;/h2&gt;
 &lt;p&gt;能力层实现了正排表、倒排表等基础的存储能力，并支持索引能力的灵活扩展。&lt;/p&gt;
 &lt;h3&gt;正向索引&lt;/h3&gt;
 &lt;p&gt;也称为正排索引（Forward Index），即通过主键（Key）检索到文档（Doc）内容，以下简称正排表或Table。不同于搜索引擎的正排表数据结构，Table也可以单独用于NoSQL场景，类似于Kyoto Cabinet的哈希表。&lt;/p&gt;
 &lt;p&gt;Table不仅提供按主键的增加、删除、修改、查询等操作，也配合倒排表实现检索、过滤、读取等功能。作为核心数据结构，Table必须支持频繁的字段读取和各类型的正排过滤，需要高效和紧凑的实现。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#27491;&amp;#25490;&amp;#23384;&amp;#20648;&amp;#32467;&amp;#26500;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#27491;&amp;#25490;&amp;#23384;&amp;#20648;&amp;#32467;&amp;#26500;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;为支持按docID的随机访问，把Table设计为一个大数组结构（data区）。每个doc是数组的一个元素且长度固定。变长字段存储在扩展区（ext区），仅在doc中存储其在扩展区的偏移量和长度。与大部分搜索引擎的列存储不同，将data区按行存储，这样可针对业务场景，尽可能利用CPU与内存之间的缓存来提高访问效率。&lt;/p&gt;
 &lt;p&gt;此外，针对NoSQL场景，可通过HashMap实现主键到docID的映射（idx文件），这样就可支持主键到文档的随机访问。由于倒排索引的docID列表可以直接访问正排表，因此倒排检索并不会使用该idx。&lt;/p&gt;
 &lt;h3&gt;反向索引&lt;/h3&gt;
 &lt;p&gt;也称作倒排索引（Inverted Index），即通过关键词（Keyword）检索到文档内容。为支持复杂的业务场景，如遍历索引表时的算法粗排逻辑，在此抽象了索引器接口Indexer。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32034;&amp;#24341;&amp;#22120;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#22120;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;具体的Indexer仅需实现各接口方法，并将该类型注册到IndexerFactory，可通过工厂的NewIndexer方法获取Indexer实例，类图如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32034;&amp;#24341;&amp;#22120;&amp;#25509;&amp;#21475;&amp;#31867;&amp;#22270;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#22120;&amp;#25509;&amp;#21475;&amp;#31867;&amp;#22270;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;当前实现了三种常用的索引器&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;NoPayloadIndexer：最简单的倒排索引，倒排表为单纯的docID列表&lt;/li&gt;
  &lt;li&gt;DefaultPayloadIndexer：除docID外，倒排表还存储keyword在每个doc的负载信息。针对业务场景，可存储POI在每个Node粒度的静态质量分或最高出价。这样在访问正排表之前，就可完成一定的倒排优选过滤&lt;/li&gt;
  &lt;li&gt;GEOHashIndexer：即基于地理位置的Hash索引&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;上述索引器的设计思路类似，仅阐述其共性的两个特征：&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;词典文件term：存储关键词、签名哈希、posting文件的偏移量和长度等。与Lucene采用的前缀压缩的树结构不同，在此实现为哈希表，虽然空间有所浪费，但可保证稳定的访问性能&lt;/li&gt;
  &lt;li&gt;倒排表文件posting：存储docID列表、Payload等信息。检索操作是顺序扫描倒排列表，并在扫描过程中做一些基于Payload的过滤或倒排链间的布尔运算，如何充分利用高速缓存实现高性能的索引读取是设计和实现需要考虑的重要因素。在此基于segmentAllocator实现分段的内存分配，达到了效率和复杂度之间的微妙平衡&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;img alt="&amp;#20498;&amp;#25490;&amp;#23384;&amp;#20648;&amp;#32467;&amp;#26500;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#20498;&amp;#25490;&amp;#23384;&amp;#20648;&amp;#32467;&amp;#26500;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;出于业务考虑，没有采用Lucene的Skip list结构，因为广告场景的doc数量没有搜索引擎多，且通常为单个倒排列表的操作。此外，若后续doc数量增长过快且索引变更频繁，可考虑对倒排列表的元素构建B+树结构，实现倒排元素的快速定位和修改。&lt;/p&gt;
 &lt;h2&gt;接口层&lt;/h2&gt;
 &lt;p&gt;接口层通过API与外界交互，并屏蔽内部的处理细节，其核心功能是提供检索和更新服务。&lt;/p&gt;
 &lt;h3&gt;配置文件&lt;/h3&gt;
 &lt;p&gt;配置文件用于描述整套索引的Schema，包括Metadata、Table、Index的定义，格式和内容如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32034;&amp;#24341;&amp;#37197;&amp;#32622;&amp;#25991;&amp;#20214;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#37197;&amp;#32622;&amp;#25991;&amp;#20214;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;可见，Index是构建在Table中的，但不是必选项；Table中各个字段的定义是Schema的核心。当Schema变化时，如增加字段、增加索引等，需要重新构建索引。篇幅有限，此处不展开定义的细节。&lt;/p&gt;
 &lt;h3&gt;检索接口&lt;/h3&gt;
 &lt;p&gt;检索由查找和过滤组成，前者产出查找到的docID集合，后者逐个对doc做各类基础过滤和业务过滤。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#26816;&amp;#32034;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#26816;&amp;#32034;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Search：返回正排过滤后的ResultSet，内部组合了对DoSearch和DoFilter的调用&lt;/li&gt;
  &lt;li&gt;DoSearch：查询doc，返回原始的ResultSet，但并未对结果进行正排过滤&lt;/li&gt;
  &lt;li&gt;DoFilter：对DoSearch返回的ResultSet做正排过滤&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;一般仅需调用Search就可实现全部功能；DoSearch和DoFilter可用于实现更复杂的业务逻辑。&lt;/p&gt;
 &lt;p&gt;以下为检索的语法描述:&lt;/p&gt;
 &lt;p&gt;/{table}/{indexer|keyfield}?query=xxxxxx&amp;amp;filter=xxxxx&lt;/p&gt;
 &lt;p&gt;第一部分为路径，用于指定表和索引。第二部分为参数，多个参数由&amp;amp;分隔，与URI参数格式一致，支持query、filter、Payload_filter、index_filter等。&lt;/p&gt;
 &lt;p&gt;由query参数定义对倒排索引的检索规则。目前仅支持单类型索引的检索，可通过index_filter实现组合索引的检索。可支持AND、OR、NOT等布尔运算，如下所示：&lt;/p&gt;
 &lt;p&gt;query=(A&amp;amp;B|C|D)!E&lt;/p&gt;
 &lt;p&gt;查询语法树基于Bison生成代码。针对业务场景常用的多个term求docID并集操作，通过修改Bison文法规则，消除了用于存储相邻两个term的doc合并结果的临时存储，直接将前一个term的doc并入当前结果集。该优化极大地减少了临时对象开销。&lt;/p&gt;
 &lt;p&gt;由filter参数定义各类正排表字段值过滤，多个键值对由“;”分割，支持单值字段的关系运算和多值字段的集合运算。&lt;/p&gt;
 &lt;p&gt;由Payload_filter参数定义Payload索引的过滤，目前仅支持单值字段的关系运算，多个键值对由“;”分割。&lt;/p&gt;
 &lt;p&gt;详细的过滤语法如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#36807;&amp;#28388;&amp;#35821;&amp;#27861;&amp;#26684;&amp;#24335;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#36807;&amp;#28388;&amp;#35821;&amp;#27861;&amp;#26684;&amp;#24335;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;此外，由index_filter参数定义的索引过滤将直接操作倒排链。由于构造检索数据结构比正排过滤更复杂，此参数仅适用于召回的docList特别长但通过索引过滤的docList很短的场景。&lt;/p&gt;
 &lt;h3&gt;结果集&lt;/h3&gt;
 &lt;p&gt;结果集ResultSet的实现，参考了java.sql.ResultSet接口。通过cursor遍历结果集，采用inline函数频繁调用的开销。&lt;/p&gt;
 &lt;p&gt;实现为C++模板类，主要接口定义如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32467;&amp;#26524;&amp;#38598;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32467;&amp;#26524;&amp;#38598;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Next：移动cursor到下一个doc，成功返回true，否则返回false。若已经是集合的最后一条记录，则返回false&lt;/li&gt;
  &lt;li&gt;GetValue：读取单值字段的值，字段类型由泛型参数T指定。如果获取失败返回默认值def_value&lt;/li&gt;
  &lt;li&gt;GetMultiValue：读取多值字段的值，返回指向值数组的指针，数组大小由size参数返回。读取失败返回null，size等于0&lt;/li&gt;
&lt;/ul&gt;
 &lt;h3&gt;更新接口&lt;/h3&gt;
 &lt;p&gt;更新包括对doc的增加、修改、删除等操作。参数类型Document，表示一条doc记录，内容为待更新的doc的字段内容，key为字段名，value为对应的字段值。操作成功返回0，失败返回非0，可通过GetErrorString接口获取错误信息。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#26356;&amp;#26032;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#26356;&amp;#26032;&amp;#25509;&amp;#21475;&amp;#23450;&amp;#20041;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;增加接口Add：将新的doc添加到Table和Index中&lt;/li&gt;
  &lt;li&gt;修改接口Update：修改已存在的doc内容，涉及Table和Index的变更&lt;/li&gt;
  &lt;li&gt;删除接口Delete：删除已存在的doc，涉及从Table和Index删除数据&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;更新服务对接实时更新流，实现真正的广告实时索引。&lt;/p&gt;
 &lt;h1&gt;更新系统&lt;/h1&gt;
 &lt;p&gt;除以上描述的索引实现机制，生产系统还需要打通在线投放引擎与商家端、预算控制、反作弊等的更新流。&lt;/p&gt;
 &lt;h2&gt;挑战与目标&lt;/h2&gt;
 &lt;p&gt;数据更新系统的主要工作是将原始多个维度的信息进行聚合、平铺、计算后，最终输出线上检索引擎需要的维度和内容。&lt;/p&gt;
 &lt;p&gt;业务场景导致上游触发可能极不规律。为避免更新流出现的抖动，必须对实时更新的吞吐量做优化，留出充足的性能余量来应对触发的尖峰。此外，更新系统涉及多对多的维度转换，保持计算、更新触发等逻辑的可维护性是系统面临的主要挑战。&lt;/p&gt;
 &lt;h2&gt;吞吐设计&lt;/h2&gt;
 &lt;p&gt;虽然更新系统需要大量的计算资源，但由于需要对几十种外部数据源进行查询，因此仍属于IO密集型应用。优化外部数据源访问机制，是吞吐量优化的主要目标。&lt;/p&gt;
 &lt;p&gt;在此，采取经典的批量化方法，即集群内部，对于可以批量查询的一类数据源，全部收拢到一类特定的worker上来处理。在短时间内，worker聚合数据源并逐次返回给各个需要数据的数据流。处理一种数据源的worker可以有多个，根据同类型的查询汇集到同一个worker批量查询后返回。在这个划分后，就可以做一系列的逻辑优化来提升吞吐量。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="query-batch" src="https://tech.meituan.com/img/adp-rtidx-ls/query-batch.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h2&gt;分层抽象&lt;/h2&gt;
 &lt;p&gt;除生成商家端的投放模型数据，更新系统还需处理针对各种业务场景的过滤，以及广告呈现的各类专属信息。业务变更可能涉及多个数据源的逻辑调整，只有简洁清晰的分成抽象，才能应对业务迭代的复杂度。&lt;/p&gt;
 &lt;p&gt;工程实践中，将外部数据源抽象为统一的Schema，既做到了数据源对业务逻辑透明，也可借助编译器和类型系统来实现完整的校验，将更多问题提前到编译期解决。&lt;/p&gt;
 &lt;p&gt;将数据定义为表（Table）、记录（Record）、字段（Field）、值（Value）等抽象类型，并将其定义为Scala Path Dependent Type，方便编译器对程序内部的逻辑进行校验。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="type-relation" src="https://tech.meituan.com/img/adp-rtidx-ls/type-relation.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h2&gt;可复用设计&lt;/h2&gt;
 &lt;p&gt;多对多维度的计算场景中，每个字段的处理函数（DFP）应该尽可能地简单、可复用。例如，每个输出字段（DF）的DFP只描述需要的源数据字段（SF）和该字段计算逻辑，并不描述所需的SF(1)到SF(n)之间的查询或路由关系。&lt;/p&gt;
 &lt;p&gt;此外，DFP也不与最终输出的层级绑定。层级绑定在定义输出消息包含的字段时完成，即定义消息的时候需要定义这个消息的主键在哪一个层级上，同时绑定一系列的DFP到消息上。&lt;/p&gt;
 &lt;p&gt;这样，DFP只需单纯地描述字段内容的生成逻辑。如果业务场景需要将同一个DF平铺到不同层级，只要在该层级的输出消息上引用同一个DFP即可。&lt;/p&gt;
 &lt;h2&gt;触发机制&lt;/h2&gt;
 &lt;p&gt;更新系统需要接收数据源的状态变动，判断是否触发更新，并需要更新哪些索引字段、最终生成更新消息。&lt;/p&gt;
 &lt;p&gt;为实现数据源变动的自动触发机制，需要描述以下信息：&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;数据间的关联关系：实现描述关联关系的语法，即在描述外部数据源的同时就描述关联关系，后续字段查询时的路由将由框架处理&lt;/li&gt;
  &lt;li&gt;DFP依赖的SF信息：仅对单子段处理的简单DFP，可通过配置化方式，将依赖的SF固化在编译期；对多种数据源的复杂DFP，可通过源码分析来获取该DFP依赖的SF，无需用户维护依赖关系&lt;/li&gt;
&lt;/ul&gt;
 &lt;h1&gt;生产实践&lt;/h1&gt;
 &lt;p&gt;早期的搜索广告是基于自然搜索的系统架构建的，随着业务的发展，需要根据广告特点进行系统改造。新的广告索引实现了纯粹的实时更新和层次化结构，已经在美团点评搜索广告上线。该架构也适用于各类非搜索的业务场景。&lt;/p&gt;
 &lt;h2&gt;系统架构&lt;/h2&gt;
 &lt;p&gt;作为整个系统的核心，基于实时索引构建的广告检索过滤服务（RS），承担了广告检索和各类业务过滤功能。日常的业务迭代，均可通过升级索引配置完成。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#31995;&amp;#32479;&amp;#26550;&amp;#26500;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#31995;&amp;#32479;&amp;#26550;&amp;#26500;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;此外，为提升系统的吞吐量，多个模块已实现服务端异步化。&lt;/p&gt;
 &lt;h2&gt;性能优化&lt;/h2&gt;
 &lt;p&gt;以下为监控系统的性能曲线，索引中的doc数量为百万级别，时延的单位是毫秒。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32034;&amp;#24341;&amp;#26597;&amp;#35810;&amp;#24615;&amp;#33021;" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#26597;&amp;#35810;&amp;#24615;&amp;#33021;.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h1&gt;后续规划&lt;/h1&gt;
 &lt;p&gt;为便于实时索引与其他生产系统的结合，除进一步的性能优化和功能扩展外，我们还计划完成多项功能支持。&lt;/p&gt;
 &lt;h2&gt;JNI&lt;/h2&gt;
 &lt;p&gt;通过JNI，将Table作为单独的NoSQL，为Java提供本地缓存。如广告系统的实时预估模块，可使用Table存储模型使用的广告特征。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="&amp;#32034;&amp;#24341;&amp;#24211;JNI" src="https://tech.meituan.com/img/adp-rtidx-ls/&amp;#32034;&amp;#24341;&amp;#24211;JNI.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h2&gt;SQL&lt;/h2&gt;
 &lt;p&gt;提供SQL语法，提供简单的SQL支持，进一步降低使用门槛。提供JDBC，进一步简化Java的调用。&lt;/p&gt;
 &lt;h1&gt;参考资料&lt;/h1&gt;
 &lt;ul&gt;
  &lt;li&gt;Apache Lucene    &lt;a href="http://lucene.apache.org/"&gt;http://lucene.apache.org/&lt;/a&gt;&lt;/li&gt;
  &lt;li&gt;Sphinx    &lt;a href="http://sphinxsearch.com/"&gt;http://sphinxsearch.com/&lt;/a&gt;&lt;/li&gt;
  &lt;li&gt;&amp;quot;Understanding the Linux Virtual Memory Manager&amp;quot;    &lt;a href="https://www.kernel.org/doc/gorman/html/understand/"&gt;https://www.kernel.org/doc/gorman/html/understand/&lt;/a&gt;&lt;/li&gt;
  &lt;li&gt;Kyoto Cabinet    &lt;a href="http://fallabs.com/kyotocabinet/"&gt;http://fallabs.com/kyotocabinet/&lt;/a&gt;&lt;/li&gt;
  &lt;li&gt;GNU Bison    &lt;a href="https://www.gnu.org/software/bison/"&gt;https://www.gnu.org/software/bison/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
 &lt;h1&gt;作者简介&lt;/h1&gt;
 &lt;p&gt;仓魁：广告平台搜索广告引擎组架构师，主导实时广告索引系统的设计与实现。擅长C++、Java等多种编程语言，对异步化系统、后台服务调优等有深入研究。&lt;/p&gt;
 &lt;p&gt;晓晖：广告平台搜索广告引擎组核心开发，负责实时更新流的设计与实现。在广告平台率先尝试Scala语言，并将其用于大规模工程实践。&lt;/p&gt;
 &lt;p&gt;刘铮：广告平台搜索广告引擎组负责人，具有多年互联网后台开发经验，曾领导多次系统重构。&lt;/p&gt;
 &lt;p&gt;蔡平：广告平台搜索广告引擎组点评侧负责人，全面负责点评侧系统的架构和优化。&lt;/p&gt;
 &lt;h1&gt;招贤纳士&lt;/h1&gt;
 &lt;p&gt;有志于从事Linux后台开发，对计算广告、高性能计算、分布式系统等有兴趣的朋友，请通过邮箱与我们联系。&lt;/p&gt;
 &lt;p&gt;联系邮箱:  liuzheng04@meituan.com&lt;/p&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/58343-%E7%BE%8E%E5%9B%A2-%E5%B9%BF%E5%91%8A-%E5%AE%9E%E6%97%B6</guid>
      <pubDate>Fri, 11 May 2018 04:05:49 CST</pubDate>
    </item>
    <item>
      <title>从先进走向普遍的广告和推荐系统方法之一: 在线学习 | AlgorithmDog</title>
      <link>https://itindex.net/detail/58251-%E5%B9%BF%E5%91%8A-%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F-%E6%96%B9%E6%B3%95</link>
      <description>&lt;div&gt;    &lt;div&gt;      &lt;p&gt;文章目录&lt;/p&gt;      &lt;ul&gt;        &lt;li&gt;          &lt;a href="http://www.algorithmdog.com/advance-to-normal1#1"&gt;1. 离线预测&lt;/a&gt;&lt;/li&gt;        &lt;li&gt;          &lt;a href="http://www.algorithmdog.com/advance-to-normal1#2"&gt;2. 在线预测&lt;/a&gt;&lt;/li&gt;        &lt;li&gt;          &lt;a href="http://www.algorithmdog.com/advance-to-normal1#3"&gt;3. 在线学习&lt;/a&gt;&lt;/li&gt;        &lt;li&gt;          &lt;a href="http://www.algorithmdog.com/advance-to-normal1#4"&gt;4. 总结&lt;/a&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/div&gt;    &lt;p&gt;      广告和推荐系统作为机器学习领域的“摇钱树”，一直受到广泛的关注。在这 5 年，或者说 10 年的维度上，广告和推荐系统发生了改头换面的变化。传统的方法已经远去，一时先进的新兴的方法广泛走向千家万户。今天介绍的在线学习，就已经从先进走向了千家万户。      &lt;br /&gt;&lt;/p&gt;    &lt;div align="center"&gt;      &lt;a href="http://www.algorithmdog.com/wp-content/uploads/2018/04/ctr.jpg"&gt;        &lt;img alt="" height="280" src="http://www.algorithmdog.com/wp-content/uploads/2018/04/ctr.jpg" width="500"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/div&gt;    &lt;p&gt;      &lt;/p&gt;    &lt;p&gt;      广告和推荐系统的 CTR 预估模型有三种部署形态: 离线预测，在线预测和在线学习，其中在线学习是近几年迅速推广的架构。&lt;/p&gt;    &lt;h3&gt;1. 离线预测&lt;/h3&gt;    &lt;p&gt;      离线预测的架构很简单，其要点离线计算好所有的可能的预测结果。具体过程如下所示：1）在线上，从用户和物品属性抽取用户和物品特征，将抽取的特征合并进日志生成训练数据，训练机器学习模型；将几乎所有可能的请求合并特征，进而生成预测实例，用模型得到预测结果；2）线上就很简单了，接入线下传过来的预测结果。这里稍微难理解的是 “穷尽几乎所有可能的请求”，疑惑那么多可能的请求怎么可能穷尽呢？微博广告系统（虚构的）所有可能的请求貌似很多，但每个用户只需要匹配若干个广告就行了。因此微博广告系统的预测结果 “userid,adid1,adid2…,adidn” 上载到线上，一旦线上传一个 userid 请求展示广告，线上模块就按照一定的逻辑返回预测结果中这个用户对应的广告。&lt;/p&gt;    &lt;div align="center"&gt;      &lt;a href="http://www.algorithmdog.com/wp-content/uploads/2017/01/adrec2.png" rel="attachment wp-att-3793"&gt;        &lt;img alt="adrec2" height="639" src="http://www.algorithmdog.com/wp-content/uploads/2017/01/adrec2.png" width="855"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/div&gt;    &lt;p&gt;      离线预测架构最大的优势是简单，其将机器学习全过程和绝大部分控制逻辑都搬到线下，规避了线上的各种隐患。这样不那么厉害的工程师用不那么厉害的机器也能搞定线上模块了，毕竟线上模块只需要实现少量的控制逻辑和展示。这大大降低了建立一个广告和推荐系统的难度。&lt;/p&gt;    &lt;p&gt;      离线预测架构也有其劣势，其中两个突出问题是系统开销大和灵活性不够。系统开销大主要是预测时需要对所有可能用户物品对进行预测，消耗大量的系统资源。这逼得我们发展出一系列的预测优化技巧，我之前的工作:      &lt;a href="http://www.algorithmdog.com/lr-prediction-optimization"&gt;超大规模 LR 预测优化&lt;/a&gt;便是优化了 LR 的预测性能，使之 10 分钟处理完 380 亿量级的预测实例，应该能够处理万亿级预测数据。腾讯同学可以关注下 km 中 wxg 同学的文章：万亿级实例打分预测，优化了 XGBoost 的预测性能，使之能够处理万亿级预测数据。离线预测架构的另一个大问题就是灵活性不够，比如离线预测架构完全无法支撑用强化学习或者多臂老虎机解决冷启动问题。&lt;/p&gt;    &lt;p&gt;      为了解决这些问题，我们引入在线预测架构。很多大团队直接跳过了离线预测架。我 2010 年在百度实习见识的就是在线预测架构了。&lt;/p&gt;    &lt;h3&gt;2. 在线预测&lt;/h3&gt;    &lt;p&gt;      在线预测的广告和推荐系统过程如下所示：1）线下部分，从用户和物品属性抽取用户和物品特征，把抽取的特征合并进日志生成训练数据用于训练机，并把抽取的特征上载到线上 Redis 服务器；2）线上部分，来了一个请求，从 Redis 服务器取出用户和物品特征，将特征合并进请求生成预测实例，用线上模型得到预测结果。&lt;/p&gt;    &lt;div align="center"&gt;      &lt;a href="http://www.algorithmdog.com/wp-content/uploads/2017/01/adrec1-1.png" rel="attachment wp-att-3788"&gt;        &lt;img alt="adrec1" height="503" src="http://www.algorithmdog.com/wp-content/uploads/2017/01/adrec1-1.png" width="853"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/div&gt;    &lt;p&gt;      在线预测解决了离线预测的问题，系统变得更加灵活，也变得更加复杂了。随着数据量的增加，业务场景多样化，在线预测面临了两个突出问题。&lt;/p&gt;    &lt;p&gt;      第一个问题是系统性能。随着特征工程和深度学习的发展，机器学习要求和能够利用的数据量越来越多。这个时候线下训练需要的系统资源和时间越来越长。训练系统需要利用十亿级，甚至百亿级的训练数据，需要大规模分布式训练，很多时候需要一整天时间。&lt;/p&gt;    &lt;p&gt;      第二个问题是实时性。离线训练差不多要一天收集数据，训练差不多需要半天，上线的模型得到的是一天前的规律。另外还存在一个问题，我们生成训练数据是用日志 userid, itemid, is_click，拼接数据库中用户 (user) 和物品 (item) 的属性。我们使用的用户和物品的属性是一个时间切片的，而日志记录的浏览点击行为发生在不同时间。这些浏览点击行为发生时间的用户和物品属性，和数据库中的用户和物品属性不一致，生成的训练数据就有偏差。用户行为与用户状态紧密关联的情况下，比如刚刚买奶粉就不会再买奶粉，训练数据的偏差就会造成很大的问题。&lt;/p&gt;    &lt;h3&gt;3. 在线学习&lt;/h3&gt;    &lt;p&gt;      为了解决在线预测的系统性能和实时性，人们发展出了在线学习的框架。在线学习是在线预测的基础上更进一步，将模型的训练也搬到了线上。在线学习架构和在线预测架构基本相似，区别在于：业务系统根据广告和推荐系统预测做出相应动作，并得到用户反馈之后，将展示点击记录给还给广告和推荐系统；广告和推荐系统根据业务系统的反馈，在线更新模型。&lt;/p&gt;    &lt;p&gt;      对于广告和推荐系统性能的影响。在线学习并不直接提升训练效率，也不减少训练样本数量。整体训练时间和资源效率并不会减少。但是在线学习改变了模型完全训练完才部署上线的模式，使得模型能够边训练边部署。这样对模型训练的耗时的要求就降下来了。&lt;/p&gt;    &lt;p&gt;      对于广告和推荐系统实时性的影响。这样模型训练能够使用最新训练样本，就能时刻保持最新状态。同时，由于用户和物品属性的迁移会近乎实时地更新到广告和推荐系统中，避免了训练数据中用户物品属性和用户行为直接的时间差。&lt;/p&gt;    &lt;div align="center"&gt;      &lt;a href="http://www.algorithmdog.com/wp-content/uploads/2018/04/online-learning.png"&gt;        &lt;img alt="" height="389" src="http://www.algorithmdog.com/wp-content/uploads/2018/04/online-learning.png" width="553"&gt;&lt;/img&gt;&lt;/a&gt;&lt;/div&gt;    &lt;p&gt;      上图就是在线学习简略框架图。从工程复杂度来说，离线预测最容易，在线预测次之，在线学习最难；从灵活性和效果性来说，离线预测最差，在线预测次之，在线学习最好。&lt;/p&gt;    &lt;h3&gt;4. 总结&lt;/h3&gt;    &lt;p&gt;      在这 5 年，或者说 10 年的维度上，在线学习的广告和推荐系统就从先进走向了普遍。业内很多广告和推荐系统都进入了在线学习模式。这个发展速度是机器学习领域蓬勃发展的一个侧面，反映了整个人工智能技术的快速推进。&lt;/p&gt;    &lt;p&gt;      我们这些计算机同学需要一直适应，利用甚至推动技术的快速进步。因为跟不上，就落后了。这是我们的宿命，也是我们开心的来源吧。停留在 “技术往往体现在‘最恰当’几个字上面” 的同学们还是自勉吧。&lt;/p&gt;&lt;/div&gt;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/58251-%E5%B9%BF%E5%91%8A-%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F-%E6%96%B9%E6%B3%95</guid>
      <pubDate>Sun, 15 Apr 2018 18:27:32 CST</pubDate>
    </item>
    <item>
      <title>广告语（SLOGAN）的设计逻辑</title>
      <link>https://itindex.net/detail/57939-%E5%B9%BF%E5%91%8A-slogan-%E8%AE%BE%E8%AE%A1</link>
      <description>&lt;p&gt;最近看了《那些全球强悍的广告语》，也看了《游戏化实战》，整理了一些自己感觉比较好的广告语，试着从游戏化实战中的八角分析法对一些广告词进行分析。&lt;/p&gt;
 &lt;h2&gt;史诗意义与使命感&lt;/h2&gt;
 &lt;p&gt;关键词：拯救&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;help people help themselves&lt;/li&gt;
  &lt;li&gt;protecing nature, pretecing life&lt;/li&gt;
  &lt;li&gt;save today,save tommorrow.&lt;/li&gt;
  &lt;li&gt;Building a better world&lt;/li&gt;
  &lt;li&gt;Built for living&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：未来&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;The furture is calling&lt;/li&gt;
  &lt;li&gt;Building Furture&lt;/li&gt;
  &lt;li&gt;Come invert the furture&lt;/li&gt;
  &lt;li&gt;Defining the furture&lt;/li&gt;
  &lt;li&gt;Tranceforming furture&lt;/li&gt;
  &lt;li&gt;Inspire the next&lt;/li&gt;
  &lt;li&gt;past present future&lt;/li&gt;
  &lt;li&gt;the world awaits&lt;/li&gt;
  &lt;li&gt;the world is ready, are you?&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：探索&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;keep discoving&lt;/li&gt;
  &lt;li&gt;keep expoloring&lt;/li&gt;
  &lt;li&gt;keep walking&lt;/li&gt;
  &lt;li&gt;never stop exploring&lt;/li&gt;
  &lt;li&gt;never stop thinking&lt;/li&gt;
  &lt;li&gt;relax &amp;amp; explore&lt;/li&gt;
  &lt;li&gt;deeper&lt;/li&gt;
  &lt;li&gt;taking you forward&lt;/li&gt;
  &lt;li&gt;Broaden your life&lt;/li&gt;
  &lt;li&gt;forever new frontiers&lt;/li&gt;
  &lt;li&gt;see more&lt;/li&gt;
  &lt;li&gt;the world at your feet.&lt;/li&gt;
  &lt;li&gt;step out of your world&lt;/li&gt;
  &lt;li&gt;exceed your vision&lt;/li&gt;
  &lt;li&gt;风尚立于独创&lt;/li&gt;
  &lt;li&gt;a new discovery,every time&lt;/li&gt;
  &lt;li&gt;Experience another world&lt;/li&gt;
  &lt;li&gt;发现更大的世界&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：改变&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;we are changing the world&lt;/li&gt;
  &lt;li&gt;Transform yourself.Yourself&lt;/li&gt;
  &lt;li&gt;driving the change&lt;/li&gt;
  &lt;li&gt;shake the world&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：使命&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Choose your own destiny&lt;/li&gt;
  &lt;li&gt;the thing we make, make us&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;进步与成就感&lt;/h2&gt;
 &lt;p&gt;关键词：挑战&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;challenge the limits&lt;/li&gt;
  &lt;li&gt;stay curious&lt;/li&gt;
  &lt;li&gt;be stupid&lt;/li&gt;
  &lt;li&gt;withour compromise&lt;/li&gt;
  &lt;li&gt;no half measures&lt;/li&gt;
  &lt;li&gt;Excellence through passion&lt;/li&gt;
  &lt;li&gt;Be unstoppable&lt;/li&gt;
  &lt;li&gt;we try harder&lt;/li&gt;
  &lt;li&gt;our challenge is life&lt;/li&gt;
  &lt;li&gt;all skills need practice&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：认同&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;be a traveler&lt;/li&gt;
  &lt;li&gt;Be a pioneer&lt;/li&gt;
  &lt;li&gt;why be a tourist when can be a traveler&lt;/li&gt;
  &lt;li&gt;your world your way&lt;/li&gt;
  &lt;li&gt;go out and be you&lt;/li&gt;
  &lt;li&gt;你本来就很美&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：创造&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Go create&lt;/li&gt;
  &lt;li&gt;make believe&lt;/li&gt;
  &lt;li&gt;make a house a home&lt;/li&gt;
  &lt;li&gt;make love happen&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;创意、授权与反馈&lt;/h2&gt;
 &lt;p&gt;关键词：号召&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;here and now&lt;/li&gt;
  &lt;li&gt;Be there&lt;/li&gt;
  &lt;li&gt;Go on, Give in&lt;/li&gt;
  &lt;li&gt;it’s grow time&lt;/li&gt;
  &lt;li&gt;let’s colour&lt;/li&gt;
  &lt;li&gt;adding colour to life&lt;/li&gt;
  &lt;li&gt;live like this&lt;/li&gt;
  &lt;li&gt;sponsor yourself&lt;/li&gt;
  &lt;li&gt;make a statement&lt;/li&gt;
  &lt;li&gt;be kind to your world&lt;/li&gt;
  &lt;li&gt;认真，你就赢了&lt;/li&gt;
  &lt;li&gt;embrace life&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：控制&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;you are in control&lt;/li&gt;
  &lt;li&gt;being in control&lt;/li&gt;
  &lt;li&gt;take charge&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;所有权与拥有感&lt;/h2&gt;
 &lt;p&gt;关键词：获得&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;老乡，参加红军可以分到土地！&lt;/li&gt;
  &lt;li&gt;fuel for the soul&lt;/li&gt;
  &lt;li&gt;turn on the fun&lt;/li&gt;
  &lt;li&gt;Bright light to life&lt;/li&gt;
  &lt;li&gt;where holidays begins&lt;/li&gt;
  &lt;li&gt;where it all begins&lt;/li&gt;
  &lt;li&gt;the weekend starts here&lt;/li&gt;
  &lt;li&gt;Immerse yourself&lt;/li&gt;
  &lt;li&gt;enjoy every mile&lt;/li&gt;
  &lt;li&gt;espress yourself&lt;/li&gt;
  &lt;li&gt;rich as life&lt;/li&gt;
  &lt;li&gt;heve a happy period. always&lt;/li&gt;
  &lt;li&gt;soften your world&lt;/li&gt;
  &lt;li&gt;get it first,get it fast&lt;/li&gt;
  &lt;li&gt;getting you there&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：鼓励&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;love the present&lt;/li&gt;
  &lt;li&gt;feel the moment&lt;/li&gt;
  &lt;li&gt;relaxing moments&lt;/li&gt;
  &lt;li&gt;just do it&lt;/li&gt;
  &lt;li&gt;follow your vision&lt;/li&gt;
  &lt;li&gt;your turn&lt;/li&gt;
  &lt;li&gt;乐享生活&lt;/li&gt;
  &lt;li&gt;Because you can&lt;/li&gt;
  &lt;li&gt;lost at last&lt;/li&gt;
  &lt;li&gt;pleasure makes you beautiful&lt;/li&gt;
  &lt;li&gt;celebrating life&lt;/li&gt;
  &lt;li&gt;live the moment&lt;/li&gt;
  &lt;li&gt;your next vaction is closer than you think&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：满足&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;明白所需，满足所想&lt;/li&gt;
  &lt;li&gt;Quality worth every journey&lt;/li&gt;
  &lt;li&gt;Quality without compromise&lt;/li&gt;
  &lt;li&gt;Classic handmade quality&lt;/li&gt;
  &lt;li&gt;travel to a land of wonders&lt;/li&gt;
  &lt;li&gt;all your need to konw&lt;/li&gt;
  &lt;li&gt;Life made fabulous.&lt;/li&gt;
  &lt;li&gt;心之所属&lt;/li&gt;
  &lt;li&gt;衣美，人更美&lt;/li&gt;
  &lt;li&gt;汇仁牌肾宝，他好我也好。&lt;/li&gt;
  &lt;li&gt;人头马一开，好事自然来&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：发现&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;discover how good it can be&lt;/li&gt;
  &lt;li&gt;discover Nature’s Secret&lt;/li&gt;
  &lt;li&gt;find yourself here&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：值得&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;I’m worth it.&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：选定&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;love ice cream&lt;/li&gt;
  &lt;li&gt;i’m lovein it&lt;/li&gt;
  &lt;li&gt;or not&lt;/li&gt;
  &lt;li&gt;the best or nothing&lt;/li&gt;
  &lt;li&gt;Das auto&lt;/li&gt;
  &lt;li&gt;The one&lt;/li&gt;
  &lt;li&gt;一次体验，终生选定&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：有用&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;makes it work&lt;/li&gt;
  &lt;li&gt;news you can use&lt;/li&gt;
  &lt;li&gt;Because it works&lt;/li&gt;
  &lt;li&gt;the power of Yes&lt;/li&gt;
  &lt;li&gt;know where&lt;/li&gt;
  &lt;li&gt;know how&lt;/li&gt;
  &lt;li&gt;以不变，应万变&lt;/li&gt;
  &lt;li&gt;the useful art&lt;/li&gt;
  &lt;li&gt;just konwledge&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：明智&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Stay smart&lt;/li&gt;
  &lt;li&gt;Travel smart&lt;/li&gt;
  &lt;li&gt;Better Things for Better Living.&lt;/li&gt;
  &lt;li&gt;the smart tool for smart inverstors&lt;/li&gt;
  &lt;li&gt;Sophisticated Food For Sophisticated Dogs.&lt;/li&gt;
  &lt;li&gt;make every journey better&lt;/li&gt;
  &lt;li&gt;a better way forward&lt;/li&gt;
  &lt;li&gt;a better way&lt;/li&gt;
  &lt;li&gt;making space more valuable&lt;/li&gt;
  &lt;li&gt;more colourful&lt;/li&gt;
  &lt;li&gt;forever better&lt;/li&gt;
  &lt;li&gt;Be first&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：优异&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Beyond perfection&lt;/li&gt;
  &lt;li&gt;pure genius&lt;/li&gt;
  &lt;li&gt;pure and natural&lt;/li&gt;
  &lt;li&gt;luxury，pure and simple&lt;/li&gt;
  &lt;li&gt;naturally clear&lt;/li&gt;
  &lt;li&gt;based on reality&lt;/li&gt;
  &lt;li&gt;generation kitchen&lt;/li&gt;
  &lt;li&gt;Enduring Perfection,for today and tommorrow&lt;/li&gt;
  &lt;li&gt;with soul&lt;/li&gt;
  &lt;li&gt;Insight matters&lt;/li&gt;
  &lt;li&gt;Unlimited spirit&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：美梦成真&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Imagination, Solutions.&lt;/li&gt;
  &lt;li&gt;Imagine it, Done&lt;/li&gt;
  &lt;li&gt;where dreams become reality&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;社交影响与关联性&lt;/h2&gt;
 &lt;p&gt;关键词：分享&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;share the fun&lt;/li&gt;
  &lt;li&gt;机会需分享&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;稀缺性与渴望&lt;/h2&gt;
 &lt;p&gt;关键词：与众不同&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Discover the difference&lt;/li&gt;
  &lt;li&gt;Feel the difference&lt;/li&gt;
  &lt;li&gt;The difference&lt;/li&gt;
  &lt;li&gt;Think Different&lt;/li&gt;
  &lt;li&gt;Like nothing else&lt;/li&gt;
  &lt;li&gt;Escape the ordinary&lt;/li&gt;
  &lt;li&gt;out of ordinary&lt;/li&gt;
  &lt;li&gt;for a life less ordinary&lt;/li&gt;
  &lt;li&gt;like no other&lt;/li&gt;
  &lt;li&gt;a totally new vision&lt;/li&gt;
  &lt;li&gt;Source of unusual&lt;/li&gt;
  &lt;li&gt;unforgettable moments&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：重新定义&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;redefining business travel&lt;/li&gt;
  &lt;li&gt;luxury,redrfined&lt;/li&gt;
  &lt;li&gt;汽车发明者 再次发明汽车&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：接地气&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;urban design&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：机会&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;one more time&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：稀有&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Living history&lt;/li&gt;
  &lt;li&gt;钻石恒久远，一颗永流传。&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;未知性与好奇心&lt;/h2&gt;
 &lt;p&gt;关键词：未来&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Driving tomorow’s technology&lt;/li&gt;
  &lt;li&gt;sponsors of tomorrow&lt;/li&gt;
  &lt;li&gt;in touch with tommorrow&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：机会&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;New Thinking/New possibilities&lt;/li&gt;
  &lt;li&gt;rethink possible&lt;/li&gt;
  &lt;li&gt;Impossible is nothing&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：惊奇&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;58同程，一个神奇的网站&lt;/li&gt;
  &lt;li&gt;surprice yourself&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：疑问&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;where else?&lt;/li&gt;
  &lt;li&gt;what is sex?&lt;/li&gt;
  &lt;li&gt;What’s the next?&lt;/li&gt;
  &lt;li&gt;what matters?&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：对比&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;So easy to enjoy,So hard to Forget.&lt;/li&gt;
  &lt;li&gt;clear solutions in a complex world&lt;/li&gt;
  &lt;li&gt;the outside,inside.&lt;/li&gt;
  &lt;li&gt;simply prefect,perfectly simple&lt;/li&gt;
  &lt;li&gt;Motion and emotion&lt;/li&gt;
  &lt;li&gt;history begins every moring&lt;/li&gt;
  &lt;li&gt;身未动，心已远&lt;/li&gt;
  &lt;li&gt;我们不生产水，我们只是大自然的搬运工。&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：联想&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Don’t take photos,take Finepix&lt;/li&gt;
  &lt;li&gt;think sofas,think DFS&lt;/li&gt;
  &lt;li&gt;饭后嚼两粒&lt;/li&gt;
  &lt;li&gt;买保险就是买平安。&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;亏顺与逃避心&lt;/h2&gt;
 &lt;p&gt;关键词：失去&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;miss nothing&lt;/li&gt;
  &lt;li&gt;到户外去，呼吸新鲜的空气。看迷人的日落。孩子，那会让你老的很快。&lt;/li&gt;
  &lt;li&gt;don’t be disturb&lt;/li&gt;
  &lt;li&gt;Yestaday you said tommorrow&lt;/li&gt;
  &lt;li&gt;人类失去联想 世界将会怎样&lt;/li&gt;
  &lt;li&gt;没有人能真正拥有百达翡丽，只不过是为下一代保管而已&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：信任&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;the value of trust&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：承诺&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;for all for ever&lt;/li&gt;
  &lt;li&gt;where ever,when ever.&lt;/li&gt;
  &lt;li&gt;what begins here never ends&lt;/li&gt;
  &lt;li&gt;where ever you go, here we are&lt;/li&gt;
  &lt;li&gt;unbreakable&lt;/li&gt;
  &lt;li&gt;part of your life&lt;/li&gt;
  &lt;li&gt;at your side&lt;/li&gt;
  &lt;li&gt;on your side&lt;/li&gt;
  &lt;li&gt;here for you&lt;/li&gt;
  &lt;li&gt;always there&lt;/li&gt;
  &lt;li&gt;分秒必争&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;关键词：逃避&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Escape to reality&lt;/li&gt;
  &lt;li&gt;让好奇心不再孤单&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;&lt;/p&gt;
 &lt;p&gt;来自薛蚊子的《  &lt;a href="https://mp.weixin.qq.com/s?__biz=MzI1NTEyNzMyNQ==&amp;mid=2650094259&amp;idx=1&amp;sn=f5272dc967b2af337209e0a99938f0bf&amp;scene=1&amp;srcid=0729xxqv0UBydZkEckgxNM78&amp;pass_ticket=PDbyM%2BAXujnMy2Sm%2BA9mmlVQIiC4cGV02JOhccPd0IwvAahM23l4%2BjwjZ4CblCRg#rd"&gt;广告金句，都是神逻辑！&lt;/a&gt;》，有删改：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;虚假许诺型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;学琴的孩子不会变坏（山叶钢琴）&lt;/li&gt;
  &lt;li&gt;人头马一开，好事自然来（人头马）&lt;/li&gt;
  &lt;li&gt;上天猫，就购了&lt;/li&gt;
  &lt;li&gt;今年二十，明年十八（白丽香皂）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;乱拍胸脯型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;全家就是你家（全家便利店）&lt;/li&gt;
  &lt;li&gt;多喝水没事，没事多喝水（味丹）&lt;/li&gt;
  &lt;li&gt;红牛给你翅膀&lt;/li&gt;
  &lt;li&gt;唯一的不同，是处处不同（6S）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;善因恶果型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;有药好的快一些（云南白药创可贴）&lt;/li&gt;
  &lt;li&gt;药材好，药才好（仲景六味地黄丸）&lt;/li&gt;
  &lt;li&gt;钻石恒久远，一颗永流传（DTC钻石）&lt;/li&gt;
  &lt;li&gt;万事皆可达，唯有情无价（万事达卡）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;情怀泛滥型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;世界上最重要的一部车是爸爸的肩膀（中华汽车）&lt;/li&gt;
  &lt;li&gt;我不认识你，但我谢谢你（中华血液基金会）&lt;/li&gt;
  &lt;li&gt;不在乎天成地久，只在乎曾经拥有（铁达时表）&lt;/li&gt;
  &lt;li&gt;以心情调味（小时光面馆）&lt;/li&gt;
  &lt;li&gt;为了下一代，我们决定拿起这一袋（全联）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;以偏概全型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;到服装店培养气质，到书店展示服装（中兴百货）&lt;/li&gt;
  &lt;li&gt;生命就该浪费在美好的事物上(统昂曼仕德咖啡)&lt;/li&gt;
  &lt;li&gt;喝孔府宴酒，做天下文章（孔府宴酒）&lt;/li&gt;
  &lt;li&gt;知识使你更有魅力（中国时报）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;白马非马型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;非可乐（七喜）&lt;/li&gt;
  &lt;li&gt;我们不生产水，我们只是大自然的搬运工（农夫山泉）&lt;/li&gt;
  &lt;li&gt;前所未有，因为之前所有（奔驰）&lt;/li&gt;
  &lt;li&gt;今年过节不收礼，收礼只收脑白金&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;美丽谎言型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;你比你想象的更美丽（多芬）&lt;/li&gt;
  &lt;li&gt;你本来就很美（自然堂）&lt;/li&gt;
  &lt;li&gt;你值得拥有（欧莱雅）&lt;/li&gt;
  &lt;li&gt;认真的女人最美丽（台新银行）&lt;/li&gt;
  &lt;li&gt;你的能量超乎你想象（红牛）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;恐吓吓唬型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;怕上火，喝王老吉（加多宝）&lt;/li&gt;
  &lt;li&gt;要想皮肤好，天天用大宝（大宝）&lt;/li&gt;
  &lt;li&gt;别说你爬过的山，只有早高峰（MINI）&lt;/li&gt;
  &lt;li&gt;别赶路，去感受路（沃尔沃）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;任性装逼型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;敢为天下先（凯迪拉克）&lt;/li&gt;
  &lt;li&gt;我的地盘听我的（动感地带）&lt;/li&gt;
  &lt;li&gt;不走寻常路（美特斯邦威）&lt;/li&gt;
  &lt;li&gt;我就喜欢（M）&lt;/li&gt;
  &lt;li&gt;有空间就有可能（GL8）&lt;/li&gt;
  &lt;li&gt;一切皆有可能（李宁）&lt;/li&gt;
  &lt;li&gt;没有不可能（阿迪）&lt;/li&gt;
  &lt;li&gt;时间因我而存在（罗西尼）&lt;/li&gt;
  &lt;li&gt;将所有一言难尽，一饮而尽（二锅头）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;绝对废话型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;穿森马，就是森马（森马）&lt;/li&gt;
  &lt;li&gt;可怜的旧情人，看不到我的新内衣（思薇尔玩美女人）&lt;/li&gt;
  &lt;li&gt;滴滴香浓意犹未尽（麦斯威尔）&lt;/li&gt;
  &lt;li&gt;懂你说的，懂你没说的（英朗）&lt;/li&gt;
  &lt;li&gt;活，该快乐（3008）&lt;/li&gt;
  &lt;li&gt;世间所有的内向，都是聊错了对象（陌陌）&lt;/li&gt;
  &lt;li&gt;尼采已死——God(新加坡教会）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;&lt;/p&gt;
 &lt;p&gt;来自空手对知乎问题《  &lt;a href="https://www.zhihu.com/question/20027388/answer/45777587"&gt;一句优秀的广告词需要具备哪些特点？&lt;/a&gt;》的答案，有删改。&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;清晰表达产品价值或者品牌理念&lt;/li&gt;
  &lt;li&gt;尽量口语化，琅琅上口，易懂易记&lt;/li&gt;
  &lt;li&gt;能够反映目标用户的个性或者价值观&lt;/li&gt;
  &lt;li&gt;有生活洞察，对生活中的诸多事物有独到的见解，这样才能深入人心。&lt;/li&gt;
  &lt;li&gt;或许要用一点文字技巧。&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;  &lt;strong&gt;价值主张/&lt;/strong&gt;  &lt;strong&gt;定位型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;好空调，格力造&lt;/li&gt;
  &lt;li&gt;怕上火，喝王老吉&lt;/li&gt;
  &lt;li&gt;送礼就送脑白金&lt;/li&gt;
  &lt;li&gt;春节回家金六福&lt;/li&gt;
  &lt;li&gt;送长辈，黄金酒&lt;/li&gt;
  &lt;li&gt;清新口气，你我更亲近（绿箭）&lt;/li&gt;
  &lt;li&gt;关心牙齿，更关心你（益达）&lt;/li&gt;
  &lt;li&gt;头屑去无踪，秀发更出众（海飞丝）&lt;/li&gt;
  &lt;li&gt;中国白酒第一坊（水井坊）&lt;/li&gt;
  &lt;li&gt;不是所有牛奶，都叫特仑苏&lt;/li&gt;
  &lt;li&gt;不是所有的吉普，都叫jeep&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;企业理念型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Think different（苹果）&lt;/li&gt;
  &lt;li&gt;Life is for share（T-mobile）&lt;/li&gt;
  &lt;li&gt;精于心，简于形（飞利浦）&lt;/li&gt;
  &lt;li&gt;因您而变（招商银行）&lt;/li&gt;
  &lt;li&gt;The best or nothing（奔驰）&lt;/li&gt;
  &lt;li&gt;使命必达（联邦快递）&lt;/li&gt;
  &lt;li&gt;让建筑赞美生命（万科）&lt;/li&gt;
  &lt;li&gt;科技以人为本（NOKIA）&lt;/li&gt;
  &lt;li&gt;沟通从心开始（移动）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;口语化&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;我能（全球通）&lt;/li&gt;
  &lt;li&gt;Yes，We Can（奥巴马竞选）&lt;/li&gt;
  &lt;li&gt;我就喜欢（麦当劳）&lt;/li&gt;
  &lt;li&gt;淘我喜欢（淘宝）&lt;/li&gt;
  &lt;li&gt;给你好看（玛丹摩莎化妆品）&lt;/li&gt;
  &lt;li&gt;味道好极了（雀巢）&lt;/li&gt;
  &lt;li&gt;要爽由自己（可口可乐）&lt;/li&gt;
  &lt;li&gt;不走寻常路（美特斯邦威）&lt;/li&gt;
  &lt;li&gt;你值得拥有（欧莱雅-台版因为你值得）&lt;/li&gt;
  &lt;li&gt;我有话要说（司迪麦口香糖）&lt;/li&gt;
  &lt;li&gt;给我小心点（统一小心点拉面丸）&lt;/li&gt;
  &lt;li&gt;就在你身边（CCTV-2）&lt;/li&gt;
  &lt;li&gt;神州行我看行（神州行）&lt;/li&gt;
  &lt;li&gt;我的地盘听我的（动感地带）&lt;/li&gt;
  &lt;li&gt;这种鬼地方都收得到（电讯）&lt;/li&gt;
  &lt;li&gt;多喝水没事，没事多喝水（味丹多喝水）&lt;/li&gt;
  &lt;li&gt;再忙，也要和你喝杯咖啡（雀巢咖啡）&lt;/li&gt;
  &lt;li&gt;我不认识你，但是我谢谢你（中华血液基金会）&lt;/li&gt;
  &lt;li&gt;什么都有，什么都卖，什么都不奇怪！（Yahoo!拍卖）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;青春自我型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;我就喜欢（麦当劳）&lt;/li&gt;
  &lt;li&gt;淘我喜欢（淘宝）&lt;/li&gt;
  &lt;li&gt;Go forth向前闯&lt;/li&gt;
  &lt;li&gt;活出棱角（JEEP）&lt;/li&gt;
  &lt;li&gt;We are animals（Wrangles）&lt;/li&gt;
  &lt;li&gt;爱噪音（CONVERSE）&lt;/li&gt;
  &lt;li&gt;要爽由自己（可口可乐）&lt;/li&gt;
  &lt;li&gt;我有话要说（司迪麦口香糖）&lt;/li&gt;
  &lt;li&gt;我的地盘听我的（动感地带）&lt;/li&gt;
  &lt;li&gt;I Can Play（匹克）&lt;/li&gt;
  &lt;li&gt;一切皆有可能（李宁）&lt;/li&gt;
  &lt;li&gt;放胆做Just do it、&lt;/li&gt;
  &lt;li&gt;Impossbie is nothing&lt;/li&gt;
  &lt;li&gt;无兄弟不篮球&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;成功励志型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Keep walking（尊尼获加）&lt;/li&gt;
  &lt;li&gt;敢为天下先（凯迪拉克出人头地的代价）&lt;/li&gt;
  &lt;li&gt;激扬人生路（宝马X3）&lt;/li&gt;
  &lt;li&gt;敢梦想，敢追寻（轩尼诗）&lt;/li&gt;
  &lt;li&gt;让思想更有力（THINK PAD）&lt;/li&gt;
  &lt;li&gt;创想改变未来（奥迪A6）&lt;/li&gt;
  &lt;li&gt;愈曲折，愈见大风景（途观）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;洞察型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;知识使你更有魅力（中国时报）&lt;/li&gt;
  &lt;li&gt;学琴的孩子不会变坏（功学社）&lt;/li&gt;
  &lt;li&gt;可怜的旧情人，看不到我的新内衣（思薇尔玩美女人）&lt;/li&gt;
  &lt;li&gt;生命就该浪费在美好的事物上（统昂曼仕德咖啡）&lt;/li&gt;
  &lt;li&gt;生活，从下班开始（芝华士）&lt;/li&gt;
  &lt;li&gt;回家，是给亲人最好的礼物（金六福）&lt;/li&gt;
  &lt;li&gt;越不繁，越不凡（三星）&lt;/li&gt;
  &lt;li&gt;山高人为峰（红塔山）&lt;/li&gt;
  &lt;li&gt;没有故事，不成人生（JEEP）&lt;/li&gt;
  &lt;li&gt;万事皆可达，唯有情无价（万事达）&lt;/li&gt;
  &lt;li&gt;不在乎天长地久，只在乎曾经拥有（铁达时）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;反差对比型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;精于心，简于形（飞利浦）&lt;/li&gt;
  &lt;li&gt;越不繁，越不凡（三星）&lt;/li&gt;
  &lt;li&gt;未来就是现在（安泰人寿）&lt;/li&gt;
  &lt;li&gt;离你最近的远见（中海金沙湾）&lt;/li&gt;
  &lt;li&gt;不在乎天长地久，只在乎曾经拥有（铁达时）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;  &lt;strong&gt;押字对仗型&lt;/strong&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;未来，我来&lt;/li&gt;
  &lt;li&gt;专注您所关注（招行金葵花）&lt;/li&gt;
  &lt;li&gt;简约而不简单（利郎）&lt;/li&gt;
  &lt;li&gt;比你更关心你（别克服务）&lt;/li&gt;
  &lt;li&gt;比女人更了解女人（雅芳）&lt;/li&gt;
  &lt;li&gt;起步就与世界同步（广本）&lt;/li&gt;
  &lt;li&gt;自在则无所不在（鹿牌威士忌）&lt;/li&gt;
  &lt;li&gt;全家就是你家（全家便利店）&lt;/li&gt;
  &lt;li&gt;神州行，我看行（神州行）&lt;/li&gt;
  &lt;li&gt;有能量，无限量（红牛）&lt;/li&gt;
  &lt;li&gt;越不繁，越不凡（三星）&lt;/li&gt;
  &lt;li&gt;药材好，药才好（仲景牌六味地黄丸）&lt;/li&gt;
  &lt;li&gt;愈欣赏，愈懂欣赏（轩尼诗）&lt;/li&gt;
  &lt;li&gt;掀波澜，也能挽狂澜（雷克萨斯）&lt;/li&gt;
  &lt;li&gt;没有最好，只有更好（澳柯玛）&lt;/li&gt;
  &lt;li&gt;不见身家，只见家（山外山地产）&lt;/li&gt;
  &lt;li&gt;放下地位，只谈品位（水井坊）&lt;/li&gt;
  &lt;li&gt;心有多大，舞台就有多大（CCTV-2）&lt;/li&gt;
  &lt;li&gt;看到时代左右的人，也在左右这个时代（别克）&lt;/li&gt;
  &lt;li&gt;生活的理想，就是为了理想而生活（房地产）&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;&lt;/p&gt;
 &lt;p&gt;自己觉得最好的广告词：&lt;/p&gt;
 &lt;p&gt;国家地理频道《IF》：&lt;/p&gt;
 &lt;blockquote&gt;  &lt;p&gt;If you are, you breathe.&lt;/p&gt;
  &lt;p&gt;If you breathe, you talk.&lt;/p&gt;
  &lt;p&gt;If you talk, you ask.&lt;/p&gt;
  &lt;p&gt;If you ask, you think.&lt;/p&gt;
  &lt;p&gt;If you think, you search.&lt;/p&gt;
  &lt;p&gt;If you search, you experience.&lt;/p&gt;
  &lt;p&gt;If you experience, you learn.&lt;/p&gt;
  &lt;p&gt;If you learn, you grow.&lt;/p&gt;
  &lt;p&gt;If you grow, you wish.&lt;/p&gt;
  &lt;p&gt;If you wish, you find, and if you find, you doubt.&lt;/p&gt;
  &lt;p&gt;If you doubt, you question.&lt;/p&gt;
  &lt;p&gt;If you question, you understand, and if you understand, you know.&lt;/p&gt;
  &lt;p&gt;If you know, you want to know more.&lt;/p&gt;
  &lt;p&gt;If you want to know more, you are alive.&lt;/p&gt;&lt;/blockquote&gt;
 &lt;p&gt;Apple 《Think different》:&lt;/p&gt;
 &lt;blockquote&gt;  &lt;p&gt;Here’s to the crazy ones.&lt;/p&gt;
  &lt;p&gt;The misfits.&lt;/p&gt;
  &lt;p&gt;The rebels.&lt;/p&gt;
  &lt;p&gt;The troublemakers.&lt;/p&gt;
  &lt;p&gt;The round pegs in the square holes.&lt;/p&gt;
  &lt;p&gt;The ones who see things differently.&lt;/p&gt;
  &lt;p&gt;They’re not fond of rules&lt;/p&gt;
  &lt;p&gt;And they have no respect for the status quo.&lt;/p&gt;
  &lt;p&gt;You can praise them, quote them, disagree with them&lt;/p&gt;
  &lt;p&gt;disbelieve them, glorify or vilify them.&lt;/p&gt;
  &lt;p&gt;About the only thing that you can’t do is ignore them.&lt;/p&gt;
  &lt;p&gt;Because they change things.&lt;/p&gt;
  &lt;p&gt;They invent.They imagine.They heal.&lt;/p&gt;
  &lt;p&gt;They explore.They create.They inspire.&lt;/p&gt;
  &lt;p&gt;They push the human race forward.&lt;/p&gt;
  &lt;p&gt;Maybe they have to be crazy.&lt;/p&gt;
  &lt;p&gt;How else can you stare at an empty canvas and see a work of art?&lt;/p&gt;
  &lt;p&gt;Or sit in silence and hear a song that’s never been written?&lt;/p&gt;
  &lt;p&gt;Or gaze at a red planet and see a laboratory on wheels?&lt;/p&gt;
  &lt;p&gt;We make tools for these kinds of people.&lt;/p&gt;
  &lt;p&gt;While some may see them as the crazy ones, we see genius.&lt;/p&gt;
  &lt;p&gt;Because the people who are crazy enough to think that they can&lt;/p&gt;
  &lt;p&gt;change the world, are the ones who do.&lt;/p&gt;&lt;/blockquote&gt;
 &lt;p&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;最后的问题，如何写出优秀的广告词？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;一些参考：好的创意应该满足六大原则&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;Simple 简约&lt;/li&gt;
  &lt;li&gt;Unexpected 意外&lt;/li&gt;
  &lt;li&gt;Concrete 具体&lt;/li&gt;
  &lt;li&gt;Creditable 可信&lt;/li&gt;
  &lt;li&gt;Emotional 有感情&lt;/li&gt;
  &lt;li&gt;Story 故事&lt;/li&gt;
&lt;/ul&gt;
 &lt;p&gt;优秀的文案都是在写普世的哲学。&lt;/p&gt;
 &lt;p&gt;The post   &lt;a href="https://www.biaodianfu.com/slogan.html" rel="nofollow"&gt;广告语（SLOGAN）的设计逻辑&lt;/a&gt; appeared first on   &lt;a href="https://www.biaodianfu.com" rel="nofollow"&gt;标点符&lt;/a&gt;.&lt;/p&gt;
 &lt;div&gt;
  &lt;p&gt;Related posts:   &lt;ol&gt;
    &lt;li&gt;     &lt;a href="https://www.biaodianfu.com/crazyegg.html" rel="bookmark" title="&amp;#32593;&amp;#31449;&amp;#28909;&amp;#21147;&amp;#22270;&amp;#24037;&amp;#20855;&amp;#65306;CrazyEgg"&gt;网站热力图工具：CrazyEgg &lt;/a&gt;&lt;/li&gt;
    &lt;li&gt;     &lt;a href="https://www.biaodianfu.com/smart.html" rel="bookmark" title="&amp;#30446;&amp;#26631;&amp;#31649;&amp;#29702;&amp;#20043;SMART&amp;#21407;&amp;#21017;"&gt;目标管理之SMART原则 &lt;/a&gt;&lt;/li&gt;
    &lt;li&gt;     &lt;a href="https://www.biaodianfu.com/an-overview-of-the-schwartz-theory-of-basic-values.html" rel="bookmark" title="&amp;#26045;&amp;#29926;&amp;#33576;&amp;#65288;Shalom H. Schwartz&amp;#65289;&amp;#30340;&amp;#26222;&amp;#19990;&amp;#20215;&amp;#20540;&amp;#35266;"&gt;施瓦茨（Shalom H. Schwartz）的普世价值观 &lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>网络营销 广告</category>
      <guid isPermaLink="true">https://itindex.net/detail/57939-%E5%B9%BF%E5%91%8A-slogan-%E8%AE%BE%E8%AE%A1</guid>
      <pubDate>Wed, 17 Jan 2018 18:44:42 CST</pubDate>
    </item>
    <item>
      <title>如何打造高质量的SSP广告引擎(内部干货分享)</title>
      <link>https://itindex.net/detail/57844-%E8%B4%A8%E9%87%8F-ssp-%E5%B9%BF%E5%91%8A</link>
      <description>&lt;div&gt;    &lt;p&gt;      &lt;img width="100%"&gt;&lt;/img&gt;      &lt;br /&gt;      &lt;strong&gt;女主宣言&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;当今互联网有几种主流的商业模式：广告、游戏、增值服务等。毫无疑问“广告推送”带给互联网公司的收入绝对是相当可观。今天小主就为大家分享一篇来自360手机卫士团队分享的SSP广告引擎，这么高质量的内部干货不拿出来分享实在对不起大家。      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;PS：丰富的一线技术、多元化的表现形式，尽在“HULK一线技术杂谈”，点关注哦！&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;一、概述&lt;/strong&gt;      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;当今互联网有几种主流的商业模式：广告、游戏、增值服务等。今天我想谈一谈广告系统中的SSP引擎。SSP（全称：Sell-Side Platform）是一个媒体服务平台，该平台通过人群定向技术，智能的管理媒体广告位库存、优化广告的投放，助网络媒体实现其广告资源优化，提高其广告资源价值，达到帮助媒体提高收益的目的（以上摘自360百科）。大白话就是：各种端（app端）找SSP要广告， SSP选出一批广告， 并告诉这些端，按照某些样式展示。SSP负责如何去选广告， 以及相应的样式是什么样子。SSP不断优化选择广告和确定样式的策略，让各个产品能赚到更多的钱。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;一个好的SSP系统应该具备那些能力？ 我总结了五点，列在下面：&lt;/p&gt;    &lt;ol&gt;      &lt;li&gt;        &lt;p&gt;灵活扩展能力&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;    &lt;ul&gt;      &lt;ul&gt;        &lt;li&gt;          &lt;p&gt;快速接入各种广告源&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;快速接入各个产品&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;快速验证广告的不同样式&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;快速调整广告页面布局&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;快速调整广告策略            &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/ul&gt;    &lt;p&gt;&lt;/p&gt;    &lt;p&gt;   2. 高性能、高并发能力&lt;/p&gt;    &lt;p&gt;   3. 高效发布和在线灰度能力&lt;/p&gt;    &lt;p&gt;   4. 快速调试定位错误能力&lt;/p&gt;    &lt;p&gt;   5. 强大的数据处理和分析能力&lt;/p&gt;    &lt;ul&gt;      &lt;ul&gt;        &lt;li&gt;          &lt;p&gt;精准的用户画像刻画&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;准确的广告推荐&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;分钟级数据监控&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;支持海量数据细粒度的多维数据查询            &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;二、SSP系统架构&lt;/strong&gt;      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;SSP作为一个大型的业务系统， 系统结构还是比较复杂的，架构上可以分为以下六层：产品层、接口层、业务中间层、微服务层、数据处理层、数据存储层。分层系统架构图见图2-1， 详细架构图见图2-2&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;&lt;/strong&gt;      &lt;strong&gt;三、Flexible and Scaling （灵活扩展性）&lt;/strong&gt;      &lt;strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;在上一章 SSP 系统架构图中所展示的，系统灵活扩展能力主要体现在业务中间层，从大到小我们分了四个层次来为系统提供足够的灵活扩展性， 分别是架构层、业务层、广告控制层、广告展示层。 我们抽象出四个概念用来对应，Micro Service对应架构层， Topology Organizer对应的是业务层， Rule Manage System 对应的是广告控制层， Template Manage System对应的广告展示层。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;3.1 Micro Service&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;micro service 翻译过来是微服务， 与微服务对应的是单体式架构（传统方式），单体式架构特点是所有功能打包在一起，基本没有外部依赖，优点是开发管理简单；而微服务架构整个系统由多个子服务组成，各个服务功能独立，服务之间通过消息传递来耦合，最大优点是系统耦合性低，有非常好的扩展性，架构示意图见 图3.1-1 和 图3.1-2。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;从第二章的SSP系统架构图上可以看到， SSP是一个非常复杂的系统， 并且SSP有个特点就是各个子服务（各个DSP， 用户画像，红      &lt;br /&gt;包等）之间几乎没有什么关系， 如果想要快速的接入一个广告源，快速的上线一个产品，具有非常灵活的DSP上下线规则， 那么微服务      &lt;br /&gt;架构是我们唯一的选择。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;3.2 Topology Organizer （based DAG Algorithm）&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;系统架构层我们采用了微服务解决了独立子服务接入的灵活性，那么业务逻辑的多变组合如何来高效解决呢？ 在Topoplogy Organizer 框架中我们给出了比较好的一个解决方案。该框架包含DAG, topology, stage, context四个概念，我们把业务拆解成一个功能单元的组合体， 每个功能单元叫做stage， DAG代表了stage 的执行逻辑图，topology用来控制stage的执行先后顺序，context用来做stage之间的数据交换，这个结构只有数据耦合，具备并行操作的基础（这在migo架构中会详细说）。不同业务可以共用stage模块代码，大大减少了代码的重复开发量，提高了开发效率。示意图如下：&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;图中左右两个业务的DAG表示图，可见初始化规则库、请求解析、用户画像服务、过滤服务、返回广告等stage是可以共用的，      &lt;br /&gt;业务可以由这些stage灵活组合而成。&lt;/p&gt;    &lt;p&gt; &lt;/p&gt;    &lt;p&gt; 3.2.1 DAG      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;  DAG（有向无环图）， 如图3.2-1所示， 业务可以组织成DAG，这种图结构保证了功能模块的执行顺序， 定义好一个DAG也就      &lt;br /&gt;定义好了一个业务的流程。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt; 3.2.2 topology&lt;/p&gt;    &lt;p&gt;  topology算法用来实现DAG的功能块执行顺序，保证功能块的次序不会被颠倒，如图3.2-1的左图， 通过topology会被分解成初始化规则库-&amp;gt; 请求解析-&amp;gt;用户画像-&amp;gt;点睛DSP（或自运营DSP、MAX DSP， 以上可以通过异步技术手段并行化处理）-＞过滤服务 -＞重排服务 -＞返回广告&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt; 3.2.3 stage&lt;/p&gt;    &lt;p&gt;我们把每个功能模块称为stage, 负责完成某一特定功能。stage模块可以逐步沉淀出很多公共模块，为代码共享，加快开发提供了很好的基础。比如各类DSP stage 可以抽象出公共DSP stage， 公共DSP stage负责完成和下游DSP的RPC交互操作，派生的DSP stage 只用改写自己的各种参数即可。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;3.2.4 context&lt;/p&gt;    &lt;p&gt;context 是一种表示上下文信息的数据结构，在Topology Organizer 框架中起到stage之间传递数据的作用，正式由于这个结构的提出，才使得stage之间逻辑解耦，交互完全变成数据依赖，相当于贯穿一个业务的数据总线。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;context结构的定义大致类似如下的结构：&lt;/p&gt;    &lt;blockquote&gt;      &lt;p&gt;&amp;lt;business name=&amp;quot;卫士广告&amp;quot;&amp;gt;        &lt;br /&gt;    &amp;lt;stage name=&amp;quot;用户画像&amp;quot;&amp;gt;        &lt;br /&gt;        &amp;lt;attrlist&amp;gt;{年龄：20；收入：3k；爱好：旅游}&amp;lt;/attrlist&amp;gt;        &lt;br /&gt;    &amp;lt;/stage&amp;gt;        &lt;br /&gt;    &amp;lt;stage name =&amp;quot;点睛DSP&amp;quot;&amp;gt;        &lt;br /&gt;        &amp;lt;adlist&amp;gt;｛ad1:com.mobilesafe.apk ;ad2:com.zhushou.apk; ad3:com.browser.apk｝&amp;lt;/adlist&amp;gt;        &lt;br /&gt;    &amp;lt;/stage&amp;gt;        &lt;br /&gt;。。。。。。        &lt;br /&gt;&amp;lt;/business&amp;gt;&lt;/p&gt;&lt;/blockquote&gt;    &lt;p&gt;支持add, delete, get，set 操作。add, delete用来添加删除context的任意路径的节点， get,set操作用来对context某一路径节      &lt;br /&gt;点取值或者赋值。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;3.3  Rule Manage System&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;我们用micro service 和 Topology Organizer 解决了架构和业务的灵活扩展性，但光做到这两点还不足以提供足够的灵活性。不同业务在同一stage下的数据处理逻辑可能会有一些不同，比如频次控制服务，卫士广告可能每个广告控制10次， 卫士CPM可能是每个广告控制100次。如果我们把这些限制条件写入到代码中，那么随后带来的将是无休止的策略调整和代码上线。下面我们介绍一下Rule Manage System，如何优雅的在数据项这么细的粒度提供灵活性。      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;  3.3.1 rule engine&lt;/p&gt;    &lt;p&gt;    什么是rule ，我们可以认为rule是条件到输出的一个函数映射，形式描述如下：&lt;/p&gt;    &lt;p&gt;    Output = R（condition,condition,....） ； Output为输出， R 为rule映射关系，condtion_list 是条件， 为输入参数。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;我们发现，上节描述的频次控制功能可以描述成一个规则 Output = R（product，ad_control,model），展开成如下两个具体      &lt;br /&gt;规则 ：      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;通过添加上面两个规则，我们不用修改代码即可实现对频次控制策略的运营，如果卫士广告频次想改成15次， 运营改这个规则就可以了，而不用去改引擎代码，避免了引擎测试、上线、重启后续一系列麻烦的事情。&lt;/p&gt;    &lt;p&gt;rule table ： 许多的rule 构成一张规则表， 如果我们想查找符合某种条件的输出是什么， 查这个规则表即可， 如果我们想灵活的控制某一数据项， 向这个规则表插入一条rule即可。图3.3-1 展示了一个规则表实例。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;rule engine：对rule table 进行管理，组织成特定数据结构（可以是上图所示的表的结构， 也可以是其他更加复杂的数据结构），提供插入，删除，查找等操作。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;   3.3.2 quick match rule&lt;/p&gt;    &lt;p&gt;上节我们谈到rule engine 可以不同的组织方式，不同的数据结构带来的查询性能会有很大的区别，SSP引擎由于请求量非常大，而且每个请求都会对rule engine进行规则查询，那么如何快速的进行rule match对SSP的性能影响会非常的大。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;3.4  Template Manage System&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;SSP系统有一项很重要的功能就是管理广告样式以及管理广告展示布局，例子（见图3.4-1 和 图3.4-2）可以形象的展示不同的广告样式和广告布局。 我们的产品往往不断调整广告的样式，如三图变长图；或者增加新的广告样式如视频广告，轮播广告；又或者针对不同产品的不同功能页面会尝试不同的广告组合来布局。 如何支持广告的灵活性运营， 对SSP系统提出非常高的要求。我们使用两个机制来很好的解决了这个问题，base template 机制，polymorphism and combination 机制 。下面我们来具体的介绍这两个机制，以及这两种机制如何结合起来支持广告运营的灵活性。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;  3.4.1 base template&lt;/p&gt;    &lt;p&gt;  base template 我们叫做基础模版，用来解决广告样式的多样性。在处理广告展示的过程中，如果每一个广告都写代码去针对性处理，广告千变万化，这个工作量将是非常复杂的。如果仔细的研究一下，会发现虽然广告千变万化（广告素材、广告标题等）但是广告的样式种类确可以归成很少的几十类，最多几百类。 我们把广告剥离成静态和动态两部分， 静态的是广告样式， 种类只有数十种，这样管理起来就非常的简单， 只需要运营这几十个静态模版类即可；动态的是广告的素材啊，标题啊，跳转连接啊，点击动作啊， 这些可以通过下一节的polymorphism机制进行实例化， 从而实现动态部分的灵活运营化。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt; 3.4.2 polymorphism and combination&lt;/p&gt;    &lt;p&gt;  polymorphism 叫做多态实例化机制， combination叫做组合机制， 这两个机制结合起来用来解决页面广告布局的灵活性。&lt;/p&gt;    &lt;p&gt;base template 可以决定广告的样式，从基本模版库中选中样式模版后，通过polymorphism可以对该模版进行实例化，比如两个同样的长图模版，填入不同的素材链接地址，标题，点击动作可以形成两个广告实例。polymorphism的灵活性如何实现？通过3.3节的规则管理系统可以动态的配置基础样式模版所需要的属性信息， 这样就可以完成polymorphism的实例化，并且可以交付运营来配置管理（实例化形象例子可以参考图3.4-2）。&lt;/p&gt;    &lt;p&gt;有了实例化的模版，我们的工作完成了一半， 产品所需要的不是单一的一个广告，产品端的页面是一系列广告的展示， 但是产品的广告页面布局会不断调整的，不能每个页面写死由那些固定模版组成。 我们通过combination机制（组合机制）很好的解决页面布局的灵活性， 也就是通过3.3节的规则管理系统由运营来动态组合样式实例来形成页面布局（布局形象化例子可以参考图3.4-2）。base template，polymorphism, combination机制结合起来形成页面布局见图3.4-3。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;&lt;/strong&gt;      &lt;strong&gt;四、高性能、高并发引擎架构&lt;/strong&gt;      &lt;strong&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;SSP 每天请求量超过30亿，支持这么大的流量需要一个非常出色的高性能http引擎。http引擎框架大多归为两类，一类是多进程框架，一类是多线程框架， SSP的演进过程中也分别使用过这两类框架，一个是360大流程云引擎部门开发的cloudUcs， 一个是核心安全部门开发的trident，下面我们来详细介绍一下，最后我们来谈谈基于go协程机制的新的http引擎框架。&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;      &lt;strong&gt;4.1  多进程框架（cloudUcs）        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;cloudUcs 是大流程云引擎部门开发的， 是一个比较优秀的高性能http引擎，目前搜索一级引擎还是采用这个框架，框架图见图4.1-1。&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;Ucs的优点有如下几点：&lt;/p&gt;    &lt;blockquote&gt;      &lt;ol&gt;        &lt;li&gt;          &lt;p&gt;master-slave多进程模型，可以保障引擎的可靠性&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;worker进程支持多线程异步化处理各种IO事件&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;网络通讯细节封装良好，业务逻辑不需要关心网络底层细节&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;进程间请求流量均衡            &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;/blockquote&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;Ucs 当时存在如下一些缺点，我们后来改用了trident框架，列一下当时遇到的问题：&lt;/p&gt;    &lt;blockquote&gt;      &lt;ol&gt;        &lt;li&gt;          &lt;p&gt;ucs的多进程模型在加载了短信的预测模型后，导致内存占用特别大，系统负载高；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;在当时ucs的情况下，配置加载必须要进行进程reload，会有丢包现象，不适合ssp这种强运营性的系统；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;ucs的进程模型相比于trident，事件分发速度慢，而且多进程间负载均衡做的不好，work进程负载不均匀；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;ucs编程模型不够友好和搜索业务绑定的比较严重，新人上手门槛高；            &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;/blockquote&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;4.2 多线程框架（trident）        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;trident是大流程云查杀组开发的，现属于核心安全部门， 也是一个比较优秀的高性能http引擎，目前云查杀引擎是采用这个框架，SSP也是采用这个框架，框架图见4.2-1。      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;        &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;trident优点：&lt;/p&gt;    &lt;blockquote&gt;      &lt;ol&gt;        &lt;li&gt;          &lt;p&gt;单进程加载资源，占用系统内存少；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;支持配置的热加载，尽管存在互斥锁的问题；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;trient，顾名思义，单一进程内可以支持tcp、udp、http三种服务；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;worker线程之间的负载，相对于ucs来说，负载更均衡，之前ucs因为worker负载不均衡问题，我们只能把每个worker的队列长度都设置为1以便强制所有worker参与调度，但这也限制了ucs的qps，而trident因为负载叫均衡相对较好，qps要比ucs好些，但是            &lt;br /&gt;这个是理论上，没有做过极限压力测试；&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;/blockquote&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;trident缺点：&lt;/p&gt;    &lt;blockquote&gt;      &lt;ol&gt;        &lt;li&gt;          &lt;p&gt;配置热加载过程采用互斥锁，影响性能，ssp已经规避了该问题；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;当前trident采用的单进程多线程方式，已经整个ssp系统采用的异步stored、异步redis等，造成单进程内线程数量太多，线            &lt;br /&gt;程间同步和竞争关系复杂；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;trident的对外IO事件和分发事件只有一个线程在处理，业务量大时该线程时瓶颈；&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;大量的异步应用，多线程模型，导致开发的debug成本较高，新人入手困难。&lt;/p&gt;&lt;/li&gt;        &lt;li&gt;          &lt;p&gt;还存在一个极端状况下会出现的bug，请求量极速上升，内存占用会急剧上升（接收和处理线程之间的队列无队列长度上            &lt;br /&gt;限）。            &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;/blockquote&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;strong&gt;4.3 go 微服务框架（migo）&lt;/strong&gt;&lt;/p&gt;    &lt;p&gt;  4.3.1 migo简介&lt;/p&gt;    &lt;p&gt;migo是我们团队用go语言重新开发的http引擎框架， 充分挖掘利用了go的协程机制，拥有非常强大的性能。由于多线程模型在发生线程调度的时候代价很高，不能充分利用cpu的时间片，所以人们又提出协程概念，相当于在线程的工作时间片上又切成很多小段，分给协程来工作，有统一协程调度器来调度协程，而不会触发线程的调度，得以充分的利用线程的工作时间片。go 语言在语言层面对协程进行了支持，所以简单易上手，目前在高性能、高并发领域是非常火热的编程语言。所以我们采用go语言重新打造了一个新的微服务引擎框架migo。migo本身我们设计成一个通用的微服务框架，也具备SSP的很多特点，也具有DAG，topology, stage, context，micro service这些组件（组件介绍见第三章）。与C++或者php语言相比，DAG，topology, stage反而更好的把go的协程机制发挥出来，提供充分的并行性。 migo的系统框架图见图4.3-1和图4.3-2。      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;4.3.2 migo 性能评测&lt;/p&gt;    &lt;p&gt;我们分别对migo， php-fpm，trident进行性能测试，用来对比分析这几个框架的性能差异，migo和php -fpm框架性能对比见图4.3-3 和图4.3-4：&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;简单业务migo性能是php-fpm的3-5倍；&lt;/p&gt;    &lt;p&gt;复杂业务migo性能可以达到php-fpm的20倍；&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;4.3.3 总结以及migo 未来规划&lt;/p&gt;    &lt;p&gt;综上我们总结一下migo的特点：&lt;/p&gt;    &lt;ol&gt;      &lt;li&gt;        &lt;p&gt;性能优越，充分利用goroutine机制，最大化的利用cpu的分片时间，不但一个请求可以用goroutine来实现，请求里面还可以分成小段stage，这些小段stage也可以启用goroutine来实现，并行化的粒度变成了一次请求中的小单元而不是线程框架下的一次请          &lt;br /&gt;求；&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;新人上手简单，易学易用；&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;有很好的灵活扩展性，模块很好重用，极大提高业务编写效率；&lt;/p&gt;        &lt;p&gt;          &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;migo未来的规划：&lt;/p&gt;    &lt;ol&gt;      &lt;li&gt;        &lt;p&gt;进一步探索框架性能的提升，提出类似spark RDD概念的的gRdd，研究stage之间数据共享的可行性；&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;研究migo和docker部署的结合；&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;研究migo如何对不同业务（topology）进行调度，提供更高层次的灵活扩展性；&lt;/p&gt;&lt;/li&gt;      &lt;li&gt;        &lt;p&gt;更多公共stage模块的开发，提供更强大的能力；          &lt;br /&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;扫描下方二维码了解更多内容    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;img width="auto"&gt;&lt;/img&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;&lt;/div&gt;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57844-%E8%B4%A8%E9%87%8F-ssp-%E5%B9%BF%E5%91%8A</guid>
      <pubDate>Sun, 31 Dec 2017 09:20:25 CST</pubDate>
    </item>
    <item>
      <title>决策树C4.5预测号码快递送餐与广告骚扰，准确率达到98%以上</title>
      <link>https://itindex.net/detail/57831-%E5%86%B3%E7%AD%96%E6%A0%91-c4-%E9%A2%84%E6%B5%8B</link>
      <description>&lt;div&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;前言&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;笔者最近在做机器学习，设计到数据挖掘几个算法，主要业务用于从高频号码中分类出指定类别。&lt;/p&gt;    &lt;p&gt;从一个开发者转向一个数据分析者，同时兼顾写代码，这感觉不好受啊。      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;不多说，目前的算法因为都有标签，趋向采用监督学习方向方向进行分类，实验了knn不理想，今日使用了C4.5进行分类，采用指定的时间维度，准确率达到98%以上，狠狠激动了一把。&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;ul&gt;      &lt;li&gt;        &lt;p&gt;算法，此算法未剪枝，后期进行二次修复。关于数据集，可联系本人邮箱localhost127001@126.com&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;&amp;apos;&amp;apos;&amp;apos;&lt;/p&gt;    &lt;p&gt;Created on 2017年12月15日&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;@author: Oprcalf&lt;/p&gt;    &lt;p&gt;&amp;apos;&amp;apos;&amp;apos;&lt;/p&gt;    &lt;p&gt;from math import log&lt;/p&gt;    &lt;p&gt;import operator&lt;/p&gt;    &lt;p&gt;import common.arithmetic.tree.treePlotter as tp&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def calcShannonEnt(dataSet):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：数据集&lt;/p&gt;    &lt;p&gt;    输出：数据集的香农熵&lt;/p&gt;    &lt;p&gt;    描述：计算给定数据集的香农熵；熵越大，数据集的混乱程度越大&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    numEntries = len(dataSet)&lt;/p&gt;    &lt;p&gt;    labelCounts = {}&lt;/p&gt;    &lt;p&gt;    for featVec in dataSet:&lt;/p&gt;    &lt;p&gt;        currentLabel = featVec[-1]&lt;/p&gt;    &lt;p&gt;        if currentLabel not in labelCounts.keys():&lt;/p&gt;    &lt;p&gt;            labelCounts[currentLabel] = 0&lt;/p&gt;    &lt;p&gt;        labelCounts[currentLabel] += 1&lt;/p&gt;    &lt;p&gt;    shannonEnt = 0.0&lt;/p&gt;    &lt;p&gt;    for key in labelCounts:&lt;/p&gt;    &lt;p&gt;        prob = float(labelCounts[key]) / numEntries&lt;/p&gt;    &lt;p&gt;        shannonEnt -= prob * log(prob, 2)&lt;/p&gt;    &lt;p&gt;    return shannonEnt&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def splitDataSet(dataSet, axis, value):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：数据集，选择维度，选择值&lt;/p&gt;    &lt;p&gt;    输出：划分数据集&lt;/p&gt;    &lt;p&gt;    描述：按照给定特征划分数据集；去除选择维度中等于选择值的项&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    retDataSet = []&lt;/p&gt;    &lt;p&gt;    for featVec in dataSet:&lt;/p&gt;    &lt;p&gt;        if featVec[axis] == value:&lt;/p&gt;    &lt;p&gt;            reduceFeatVec = featVec[:axis]&lt;/p&gt;    &lt;p&gt;            reduceFeatVec.extend(featVec[axis + 1:])&lt;/p&gt;    &lt;p&gt;            retDataSet.append(reduceFeatVec)&lt;/p&gt;    &lt;p&gt;    return retDataSet&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def chooseBestFeatureToSplit(dataSet):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：数据集&lt;/p&gt;    &lt;p&gt;    输出：最好的划分维度&lt;/p&gt;    &lt;p&gt;    描述：选择最好的数据集划分维度&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    numFeatures = len(dataSet[0]) - 1&lt;/p&gt;    &lt;p&gt;    baseEntropy = calcShannonEnt(dataSet)&lt;/p&gt;    &lt;p&gt;    bestInfoGainRatio = 0.0&lt;/p&gt;    &lt;p&gt;    bestFeature = -1&lt;/p&gt;    &lt;p&gt;    for i in range(numFeatures):&lt;/p&gt;    &lt;p&gt;        featList = [example[i] for example in dataSet]&lt;/p&gt;    &lt;p&gt;        uniqueVals = set(featList)&lt;/p&gt;    &lt;p&gt;        newEntropy = 0.0&lt;/p&gt;    &lt;p&gt;        splitInfo = 0.0&lt;/p&gt;    &lt;p&gt;        for value in uniqueVals:&lt;/p&gt;    &lt;p&gt;            subDataSet = splitDataSet(dataSet, i, value)&lt;/p&gt;    &lt;p&gt;            prob = len(subDataSet) / float(len(dataSet))&lt;/p&gt;    &lt;p&gt;            newEntropy += prob * calcShannonEnt(subDataSet)&lt;/p&gt;    &lt;p&gt;            splitInfo += -prob * log(prob, 2)&lt;/p&gt;    &lt;p&gt;        infoGain = baseEntropy - newEntropy&lt;/p&gt;    &lt;p&gt;        if (splitInfo == 0):  # fix the overflow bug&lt;/p&gt;    &lt;p&gt;            continue&lt;/p&gt;    &lt;p&gt;        infoGainRatio = infoGain / splitInfo&lt;/p&gt;    &lt;p&gt;        if (infoGainRatio &amp;gt; bestInfoGainRatio):&lt;/p&gt;    &lt;p&gt;            bestInfoGainRatio = infoGainRatio&lt;/p&gt;    &lt;p&gt;            bestFeature = i&lt;/p&gt;    &lt;p&gt;    return bestFeature&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def majorityCnt(classList):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：分类类别列表&lt;/p&gt;    &lt;p&gt;    输出：子节点的分类&lt;/p&gt;    &lt;p&gt;    描述：数据集已经处理了所有属性，但是类标签依然不是唯一的，&lt;/p&gt;    &lt;p&gt;          采用多数判决的方法决定该子节点的分类&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    classCount = {}&lt;/p&gt;    &lt;p&gt;    for vote in classList:&lt;/p&gt;    &lt;p&gt;        if vote not in classCount.keys():&lt;/p&gt;    &lt;p&gt;            classCount[vote] = 0&lt;/p&gt;    &lt;p&gt;        classCount[vote] += 1&lt;/p&gt;    &lt;p&gt;    sortedClassCount = sorted(classCount.iteritems(),&lt;/p&gt;    &lt;p&gt;                              key=operator.itemgetter(1), reversed=True)&lt;/p&gt;    &lt;p&gt;    return sortedClassCount[0][0]&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def createTree(dataSet, labels):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：数据集，特征标签&lt;/p&gt;    &lt;p&gt;    输出：决策树&lt;/p&gt;    &lt;p&gt;    描述：递归构建决策树，利用上述的函数&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    classList = [example[-1] for example in dataSet]&lt;/p&gt;    &lt;p&gt;    if classList.count(classList[0]) == len(classList):&lt;/p&gt;    &lt;p&gt;        # 类别完全相同，停止划分&lt;/p&gt;    &lt;p&gt;        return classList[0]&lt;/p&gt;    &lt;p&gt;    if len(dataSet[0]) == 1:&lt;/p&gt;    &lt;p&gt;        # 遍历完所有特征时返回出现次数最多的&lt;/p&gt;    &lt;p&gt;        return majorityCnt(classList)&lt;/p&gt;    &lt;p&gt;    bestFeat = chooseBestFeatureToSplit(dataSet)&lt;/p&gt;    &lt;p&gt;    bestFeatLabel = labels[bestFeat]&lt;/p&gt;    &lt;p&gt;    myTree = {bestFeatLabel: {}}&lt;/p&gt;    &lt;p&gt;    del(labels[bestFeat])&lt;/p&gt;    &lt;p&gt;    # 得到列表包括节点所有的属性值&lt;/p&gt;    &lt;p&gt;    featValues = [example[bestFeat] for example in dataSet]&lt;/p&gt;    &lt;p&gt;    uniqueVals = set(featValues)&lt;/p&gt;    &lt;p&gt;    for value in uniqueVals:&lt;/p&gt;    &lt;p&gt;        subLabels = labels[:]&lt;/p&gt;    &lt;p&gt;        myTree[bestFeatLabel][value] = createTree(&lt;/p&gt;    &lt;p&gt;            splitDataSet(dataSet, bestFeat, value), subLabels)&lt;/p&gt;    &lt;p&gt;    return myTree&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def classify(inputTree, featLabels, testVec):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：决策树，分类标签，测试数据&lt;/p&gt;    &lt;p&gt;    输出：决策结果&lt;/p&gt;    &lt;p&gt;    描述：跑决策树&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    classLabel = &amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    firstStr = list(inputTree.keys())[0]&lt;/p&gt;    &lt;p&gt;    secondDict = inputTree[firstStr]&lt;/p&gt;    &lt;p&gt;    featIndex = featLabels.index(firstStr)&lt;/p&gt;    &lt;p&gt;    for key in secondDict.keys():&lt;/p&gt;    &lt;p&gt;        if testVec[featIndex] == key:&lt;/p&gt;    &lt;p&gt;            if type(secondDict[key]).__name__ == &amp;apos;dict&amp;apos;:&lt;/p&gt;    &lt;p&gt;                classLabel = classify(secondDict[key], featLabels, testVec)&lt;/p&gt;    &lt;p&gt;            else:&lt;/p&gt;    &lt;p&gt;                classLabel = secondDict[key]&lt;/p&gt;    &lt;p&gt;    return classLabel&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def classifyAll(inputTree, featLabels, testDataSet):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：决策树，分类标签，测试数据集&lt;/p&gt;    &lt;p&gt;    输出：决策结果&lt;/p&gt;    &lt;p&gt;    描述：跑决策树&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    classLabelAll = []&lt;/p&gt;    &lt;p&gt;    n = len(testDataSet)&lt;/p&gt;    &lt;p&gt;    correct = 0&lt;/p&gt;    &lt;p&gt;    for testVec in testDataSet:&lt;/p&gt;    &lt;p&gt;        label = classify(inputTree, featLabels, testVec)&lt;/p&gt;    &lt;p&gt;        classLabelAll.append(label)&lt;/p&gt;    &lt;p&gt;        if label == testVec[-1]:&lt;/p&gt;    &lt;p&gt;            correct += 1&lt;/p&gt;    &lt;p&gt;    accuracyRate = &amp;quot;准确率: &amp;quot; + str(correct / float(n))&lt;/p&gt;    &lt;p&gt;    return classLabelAll, accuracyRate&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def storeTree(inputTree, filename):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：决策树，保存文件路径&lt;/p&gt;    &lt;p&gt;    输出：&lt;/p&gt;    &lt;p&gt;    描述：保存决策树到文件&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    import pickle&lt;/p&gt;    &lt;p&gt;    fw = open(filename, &amp;apos;wb&amp;apos;)&lt;/p&gt;    &lt;p&gt;    pickle.dump(inputTree, fw)&lt;/p&gt;    &lt;p&gt;    fw.close()&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def grabTree(filename):&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    输入：文件路径名&lt;/p&gt;    &lt;p&gt;    输出：决策树&lt;/p&gt;    &lt;p&gt;    描述：从文件读取决策树&lt;/p&gt;    &lt;p&gt;    &amp;quot;&amp;quot;&amp;quot;&lt;/p&gt;    &lt;p&gt;    import pickle&lt;/p&gt;    &lt;p&gt;    fr = open(filename, &amp;apos;rb&amp;apos;)&lt;/p&gt;    &lt;p&gt;    return pickle.load(fr)&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def createDataSet(dataset_file):&lt;/p&gt;    &lt;p&gt;    &amp;apos;&amp;apos;&amp;apos;&lt;/p&gt;    &lt;p&gt;    返回dataset(列表集合)和features(列表)&lt;/p&gt;    &lt;p&gt;    &amp;apos;&amp;apos;&amp;apos;&lt;/p&gt;    &lt;p&gt;    dataSet = []&lt;/p&gt;    &lt;p&gt;    for index, line in enumerate(open(dataset_file, &amp;apos;rU&amp;apos;).readlines()):&lt;/p&gt;    &lt;p&gt;        line = line.strip()&lt;/p&gt;    &lt;p&gt;        fea_and_label = line.split(&amp;apos;,&amp;apos;)&lt;/p&gt;    &lt;p&gt;        dataSet.append([float(fea_and_label[i]) for i in range(&lt;/p&gt;    &lt;p&gt;            len(fea_and_label) - 1)] + [fea_and_label[len(fea_and_label) - 1]])&lt;/p&gt;    &lt;p&gt;    labels = [&amp;apos;call1&amp;apos;, &amp;apos;call2&amp;apos;, &amp;apos;call3&amp;apos;, &amp;apos;call4&amp;apos;, &amp;apos;call5&amp;apos;, &amp;apos;call6&amp;apos;]&lt;/p&gt;    &lt;p&gt;    return dataSet, labels&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def createTestSet(dataset_file):&lt;/p&gt;    &lt;p&gt;    dataSet = []&lt;/p&gt;    &lt;p&gt;    for index, line in enumerate(open(dataset_file, &amp;apos;rU&amp;apos;).readlines()):&lt;/p&gt;    &lt;p&gt;        line = line.strip()&lt;/p&gt;    &lt;p&gt;        fea_and_label = line.split(&amp;apos;,&amp;apos;)&lt;/p&gt;    &lt;p&gt;        dataSet.append([float(fea_and_label[i]) for i in range(&lt;/p&gt;    &lt;p&gt;            len(fea_and_label) - 1)] + [fea_and_label[len(fea_and_label) - 1]])&lt;/p&gt;    &lt;p&gt;    return dataSet&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;def main():&lt;/p&gt;    &lt;p&gt;    dataSet, labels = createDataSet(&amp;quot;F:\\train.txt&amp;quot;)&lt;/p&gt;    &lt;p&gt;    labels_tmp = labels[:]  # 拷贝，createTree会改变labels&lt;/p&gt;    &lt;p&gt;    desicionTree = createTree(dataSet, labels_tmp)&lt;/p&gt;    &lt;p&gt;    #storeTree(desicionTree, &amp;apos;classifierStorage.txt&amp;apos;)&lt;/p&gt;    &lt;p&gt;    #desicionTree = grabTree(&amp;apos;classifierStorage.txt&amp;apos;)&lt;/p&gt;    &lt;p&gt;    print(&amp;apos;决策树:\n&amp;apos;, desicionTree)&lt;/p&gt;    &lt;p&gt;    # tp.createPlot(desicionTree)&lt;/p&gt;    &lt;p&gt;    testSet = createTestSet(&amp;quot;F:\\test.txt&amp;quot;)&lt;/p&gt;    &lt;p&gt;    classifResult, accuracyRate = classifyAll(desicionTree, labels, testSet)&lt;/p&gt;    &lt;p&gt;    print(&amp;apos;分析的结果集:\n&amp;apos;, classifResult)&lt;/p&gt;    &lt;p&gt;    print(&amp;apos;分析的准确率:\n&amp;apos;, accuracyRate)&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;    &lt;p&gt;if __name__ == &amp;apos;__main__&amp;apos;:&lt;/p&gt;    &lt;p&gt;    main()&lt;/p&gt;    &lt;p&gt;      &lt;br /&gt;&lt;/p&gt;&lt;/div&gt;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57831-%E5%86%B3%E7%AD%96%E6%A0%91-c4-%E9%A2%84%E6%B5%8B</guid>
      <pubDate>Fri, 29 Dec 2017 14:09:18 CST</pubDate>
    </item>
    <item>
      <title>美团点评联盟广告场景化定向排序机制</title>
      <link>https://itindex.net/detail/57746-%E7%BE%8E%E5%9B%A2-%E8%81%94%E7%9B%9F-%E5%B9%BF%E5%91%8A</link>
      <description>&lt;h1&gt;前言&lt;/h1&gt;
 &lt;p&gt;在美团点评的联盟广告投放系统（DSP）中，广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序，由于召回的候选集合较多，出于工程性能上的考虑，不能一次性在精排过程中完成候选集的全排序，因此在精排之前，需要对候选广告进行粗排，来过滤、筛选出相关性较高的广告集合，供精排使用。 &lt;/p&gt;
 &lt;p&gt;本文首先会对美团点评的广告粗排机制进行概要介绍，之后会详细阐述基于用户、天气、关键词等场景特征的广告粗排策略。&lt;/p&gt;
 &lt;h1&gt;广告粗排机制简介&lt;/h1&gt;
 &lt;p&gt;广告粗排框架对引擎端召回的若干广告进行排序，并将排序的结果进行截断，截断后的候选集会被传递给广告精排模块处理。&lt;/p&gt;
 &lt;p&gt;粗排是为了尽可能在候选广告集合里找到与流量相关性较高的广告，一般以有效转化（通常包括点击后发生后续行为、电话、预约、购买等）为目标。流量因素通常包含媒体、用户（用户包含用户画像、历史搜索、历史点击等各类用户行为）因素。此外，还可包含流量外因素，如LBS、当前实时天气特征等。&lt;/p&gt;
 &lt;p&gt;考虑到不同流量所覆盖的特征不尽相同：如有的流量包含大量丰富的用户画像，而有的流量无用户画像，但有标识性较为明显的媒体特征，如P2P、母婴类媒体等，因此对于不同流量，会使用不同的粗排策略，以更好地应用流量特征。&lt;/p&gt;
 &lt;p&gt;下面将根据不同场景详细介绍各类粗排机制的离线模型，以及线上应用方案。&lt;/p&gt;
 &lt;h1&gt;基于用户画像的广告粗排&lt;/h1&gt;
 &lt;p&gt;用户兴趣对于广告转化有着显著影响。在用户画像基础上，向不同兴趣的用户推荐不同类型的广告，对广告的点击和转化皆能带来较大提升。下面先对用户画像进行简要介绍，之后阐述我们是如何应用用户画像完成广告定向的。&lt;/p&gt;
 &lt;h2&gt;用户画像&lt;/h2&gt;
 &lt;p&gt;用户画像也称用户标签。美团点评的用户画像与用户的站内行为息息相关。用户的原始行为多为用户对店铺的浏览、点击、购买、点评、收藏等，用户画像主要是基于这些用户行为产出的统计型画像。除了原始行为，我们还整合了其他团队的数据，包含通过频繁集挖掘出的用户预估标签，以及一些产品上自定义标签等。此外，联盟广告独有的ADX数据源也被使用进来，ADX日均约数十亿次请求，涵盖了文学、金融、教育、母婴等各类媒体，我们将媒体带来的部分用户信息进行清洗，并整合到用户画像，从而提升用户画像的覆盖率和丰富性。融合以上所有数据源信息，我们产出了针对联盟广告的用户画像。&lt;/p&gt;
 &lt;p&gt;在策略应用的同时，考虑到产品投放，用户标签体系的设计采用了树状结构，以便于投放选择。&lt;/p&gt;
 &lt;p&gt;标签体系分为五大类：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;与目前美团点评的商户分类体系强相关（因为广告主都来自于这些产品分类）的兴趣体系，如“美食/火锅”兴趣人群，“亲子/乐园”兴趣人群等。&lt;/li&gt;
  &lt;li&gt;自然属性，如用户的年龄、性别、常驻城市等。&lt;/li&gt;
  &lt;li&gt;社会属性，如职业、婚恋状态、受教育程度等。&lt;/li&gt;
  &lt;li&gt;心理认知，消费水平、时尚偏好等。&lt;/li&gt;
  &lt;li&gt;根据某些需求衍生的自定义标签，标签可以根据后续需求不断新增。&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;在工程方面，用户画像工程每日例行化运行一次，离线处理各数据源，并进行合并，产出设备ID粒度（IMEI或IDFA）的标准化用户标签。用户标签结果会从Hive表导入Redis缓存，以供线上加载使用。&lt;/p&gt;
 &lt;h2&gt;离线建模&lt;/h2&gt;
 &lt;p&gt;用户定向包含了两层含义：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;策略应用，针对用户的不同兴趣，对召回的广告进行权重调整，以筛选出最适合用户的广告。&lt;/li&gt;
  &lt;li&gt;产品投放，广告精准定向，即某些广告只投放具有某些兴趣的人群，如幼儿教育的广告，只投放给家里有小孩的人群，以获取更好的投放效果。&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;本文所述的用户定向，仅指策略应用。&lt;/p&gt;
 &lt;p&gt;在用户定向上，我们使用了频繁集挖掘方案，因为用户标签与商户分类较为相似，直观上讲，规则的收益可能好于模型。使用频繁集方案，一方面可以挖掘出规则考虑不到的关联关系；另一方面，它的可解释性较强，且后期可以方便地进行人工干预。&lt;/p&gt;
 &lt;p&gt;我们抽取一段时间的用户点击历史数据，来挖掘用户兴趣与广告商户分类的关联关系。同时，考虑到转化（包含电话、预约、购买等种种行为）是一种强行为，我们将其等同于多次点击行为，进行升采样（如一次电话等于两次点击，等等）。之后使用Spark的ML库来进行频繁集挖掘。数据处理上，每条点击纪录会将广告商户的一级、二级、三级分类分别与用户标签关联，即一条记录会拆分成多份，分别使用不同级别的分类与用户标签关联，这样保证在计算频繁集的时候，各个层级分类都不会被遗漏。通过Spark的ML库找出大量频繁集后，剔除掉仅包含广告分类或仅包含用户标签的，仅保留两者共存集合。同时我们限制了用户标签在频繁项中的数量，使其不超过两个，以保证规则可以覆盖较多线上用户。接着，我们对标签与广告分类的关系进行打分，广告分类A与兴趣标签B的打分为：\(\frac{\sum(A \bigcap B)}{A}\)。&lt;/p&gt;
 &lt;p&gt;举例见下表：  &lt;br /&gt;  &lt;img alt="&amp;#25171;&amp;#20998;&amp;#20030;&amp;#20363;" src="https://tech.meituan.com/img/target_agentscore/xsl_1.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;“美食/火锅”更为大众化，因此访问量远大于“亲子/儿童乐园”，上列访问量虽为虚构，但与实际认知相符。上列表格想要说明的是，像“美食/火锅”这样的广告分类，可能与很多用户标签的共生次数都很高，但由于它本身是大众化的分类，因此分母取值也很大，则实际关联打分就会很小（除非是强相关兴趣）。用这种方式打分，可以筛选出指定标签下关联度较高的广告二级分类。&lt;/p&gt;
 &lt;p&gt;得到全部的频繁集及相应打分后，可线下进行人工筛选，剔除掉明显不符合认知的频繁项集。最终结果作为离线模型产出，写入MySQL。&lt;/p&gt;
 &lt;h2&gt;检索端加载&lt;/h2&gt;
 &lt;p&gt;检索端每天定时加载一次离线结果到内存中。对于实时广告请求，先从Redis读取当前用户设备的用户画像，然后根据用户实时位置等条件召回几百条广告后，对于当前流量中有用户画像的，根据离线训练结果，对广告进行打分及排序，排序后会根据线上的设置进行截断。用户定向的整体应用框架如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="ut&amp;#27969;&amp;#31243;" src="https://tech.meituan.com/img/target_agentscore/ut&amp;#27969;&amp;#31243;.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;在业务引擎端，我们会进行A/B分流实验，随机划分一定百分比的流量作为实验流量，用于进行用户定向实验。之后，分析一段时间的累积实验结果，与base分流作对比，以检测用户定向策略带来的转化率提升，同时反馈给上游频繁集模型，用于干预调整离线产出模型。&lt;/p&gt;
 &lt;h1&gt;基于天气场景特征的广告粗排&lt;/h1&gt;
 &lt;p&gt;实时天气情况对用户有一定影响。直观上来说，炎热的天气下，用户会更倾向于点击游泳馆的广告；而寒冷的天气下，飘着热气的星巴克广告会更受欢迎。有些广告行业则跟天气的关系不大，如非实时消费的结婚、摄影、亲子类广告。下面将介绍我们基于天气场景的离线模型及在线打分方案。&lt;/p&gt;
 &lt;h2&gt;数据准备&lt;/h2&gt;
 &lt;p&gt;天气基础数据包括温度、雨量、雪量、天气现象（大雨、雾霾等）、风力等级等。我们需要的天气数据，并不需要实时更新，原因如下：&lt;/p&gt;
 &lt;p&gt;① 从应用角度讲，由于天气情况在短时间内比较稳定，并不需要每时每刻都抓取天气数据；  &lt;br /&gt;② 第三方媒体对DSP（Demand-Side Platform）的响应时间有严格限制，如果每次广告请求都去请求天气数据，对广告引擎的性能将造成较大影响。因此我们以小时粒度来保存天气数据，即在确定的某个城市、某个小时内，天气情况是固定的。&lt;/p&gt;
 &lt;p&gt;天气数据包含两种：  &lt;br /&gt;① 线下模型使用的历史天气数据；  &lt;br /&gt;② 线上检索使用的当前天气数据。&lt;/p&gt;
 &lt;p&gt;两者在相同特征上的数据取值涵义要保证一致，即特征的一致性。美团配送团队对基础天气数据进行清洗和加工，每日提供未来72小时内的天气预报数据，同时保存了稳定的历史数据，与我们的需求完全吻合，因为我们使用了该数据。&lt;/p&gt;
 &lt;h2&gt;离线建模&lt;/h2&gt;
 &lt;p&gt;天气特征的离线模型选用了AdaBoost模型，该模型可使用若干简单的弱分类器训练出一个强大的分类器，且较少出现过拟合现象。考虑到要在线上检索端加载弱分类器进行计算，基础的弱分类器不能太过复杂（以免影响线上性能），基于以上考虑我们选用了AdaBoost常用的树桩模型（即深度为1的决策树）。&lt;/p&gt;
 &lt;p&gt;选定模型后，首先需要对原始数据进行处理，将其处理成适合决策树分类的特征。我们选定温度、湿度、降水量、降雪量、天气情况等特征。以温度举例，将其作为连续变量处理，对于特征为温度的决策树，训练合适的分割点，将温度归类到合适的叶子节点上；而对于天气情况icon-code，由于其仅有几个取值（正常、一般恶劣、非常恶劣等），因此当做离散值对待，进行one-hot编码，散列到有限的几个数值上（如1、2、3）。在树桩模型中，左右叶子节点分别对离散值进行排列组合（如左子树取1、3，右子树取2等），直到左右子树的均方误差值之和为最小。当然，对于离散值较多的情况，出于性能上考虑，多以连续值对待，并训练合适的分割点分离左右子树。&lt;/p&gt;
 &lt;p&gt;对特征进行处理后，可以应用模型对特征进行迭代处理。我们以转化为目标，搜集一段时间的历史点击数据，对数据进行特征化处理，最终训练出合适的离线模型。直观上来讲，天气对不同行业的转化影响有显著差异。某些行业对天气更为敏感，如餐饮、运动等，而有些行业则对天气不敏感，如亲子、结婚（因为转化一般不发生在当下）等，因此我们对不同的广告分类分别做训练，每个行业训练一个模型。考虑到在检索端需要对广告和天气的特征关系进行打分，因此分类模型不能完全满足我们的需求。最终我们选取了AdaBoost的改进版Gentle AdaBoost，有关该模型的论述网上有很多（根据文献1，在采用树桩模型时，该模型效果好于传统的离散AdaBoost），本文不再对其进行数学说明。算法大致流程如下图所示：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="dw topic" src="https://tech.meituan.com/img/target_agentscore/gental-adaboost&amp;#31639;&amp;#27861;.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;另外说明一下我们对该模型的一些工程处理，我们去掉了最后的感知器模型，直接使用回归函数的和作为打分。在每次迭代过程中，我们会保留当前错误率，当迭代达到一定次数，而错误率仍大于给定阈值时，则直接舍弃对该行业的训练，即在天气场景定向中，不对该行业的广告打分。&lt;/p&gt;
 &lt;p&gt;工程上，我们使用Spark进行特征处理和模型训练，并将最终结果写入在线缓存Tair中。其中key为一级及二级行业，value即为AdaBoost模型的多轮迭代结果，同时保留了最后一轮迭代的错误率。保留错误率的原因是在线上检索端加载模型时，可以动态配置错误率阈值，根据模型的错误率超过阈值与否来决定是否对广告打分。另外，考虑到线上加载迭代模型会牺牲性能，我们将迭代轮次控制在100次以内。&lt;/p&gt;
 &lt;p&gt;天气场景的离线数据和线上数据模型如下图所示：  &lt;br /&gt;  &lt;img alt="dw topic" src="https://tech.meituan.com/img/target_agentscore/gental_adaboost-dataflow.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;经过Gentle AdaBoost训练出的多棵树模型，以JSON格式写入Tair中；线上在获取ADX请求后，根据Tair中已经写好的天气预报信息，加载当前小时当前城市的天气情况，检索端根据当前天气和模型，对广告进行打分和排序。&lt;/p&gt;
 &lt;h2&gt;线上优化&lt;/h2&gt;
 &lt;p&gt;广告检索端需要从Tair读取离线模型，来完成广告打分。由于第三方媒体对DSP响应时间要求较高，在线上做迭代模型的加载，是一个较为耗时的操作，因此需要做一些优化处理。我们一共做了三层优化处理：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;   &lt;p&gt;模型缓存：对于检索端召回的几百条广告，对广告一级/二级分类进行缓存处理，对某条广告打分后，其对应的二级分类及相应模型加入缓存，而后续遇到来自同样二级行业的广告，将直接使用缓存模型。&lt;/p&gt;
&lt;/li&gt;
  &lt;li&gt;   &lt;p&gt;打分缓存：由于我们使用了小时级的天气数据，因此对于指定的城市，在指定的小时内，天气状况完全一致，当广告一级/二级行业确定后，模型对于该广告的打分是确定的。因此我们对广告行业+城市的打分进行缓存处理，且每个整点清空一次缓存。对于已经打分过的城市+广告行业，可以直接从缓存中读取并使用打分结果。&lt;/p&gt;
&lt;/li&gt;
  &lt;li&gt;   &lt;p&gt;性能与打分的折中：使用了前面两种缓存方案后，性能仍无法得到足够保证，此时我们需要考虑一个折中方案，牺牲一部分广告打分，以换取性能的提升。即我们使用动态配置的阈值来控制每次检索请求中模型迭代的轮次。举个例子，阈值设为200次，在整点时刻，前五个召回的广告的行业各不相同，且使用的模型分别迭代80、90、60、60、30次结束，则本次请求中我们只对前三个广告打分（80+90+60&amp;lt;200），并将广告打分进行缓存。后续召回广告，其二级分类若能命中缓存，则打分，否则不打分。在第二次广告请求过来时，同样沿用这个策略，对已经缓存的广告打分直接加载，否则迭代模型进行打分，直到达到迭代阈值200为止。通过打分缓存机制，可以保证前面牺牲掉的广告行业被逐步打分。使用该优化策略，可以完全确保上线后的性能，通过调整迭代轮次的阈值，控制打分与性能的折中关系。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;通过以上三层优化处理机制，保证了AdaBoost这样的迭代模型可以在线上被加载使用。另外，我们还会考察离线模型中的错误率，通过线上动态调整阈值，舍弃一些错误率较高的模型，以达到效果的最优化。模型上线后，我们进行A/B testing，以检测使用天气场景模型带来的转化率提升。&lt;/p&gt;
 &lt;h1&gt;基于关键词特征的广告粗排&lt;/h1&gt;
 &lt;p&gt;用户在美团点评站内搜索的关键词，强烈地表达了用户的短期偏好。基于关键词定向（Query Targeting）是许多广告精准定向的利器。尤其对于闭环条件下的应用，如百度凤巢，淘宝的直通车，当用户在站内进行搜索，可以直接根据搜索词展示相关广告，引导用户在站内转化。一般来说，关键词定向的效果都非常出色。联盟的关键词定向，是通过对用户近期搜索词的分析，识别出用户感兴趣的店铺及店铺分类，进而在站外App为用户投放相关广告。下面将介绍联盟广告基于关键词特征的广告排序机制。&lt;/p&gt;
 &lt;h2&gt;离线模型&lt;/h2&gt;
 &lt;p&gt;离线模型需要根据用户搜索词分析出用户的偏好，对于大多数搜索引擎来说，需要使用NLP的相关技术和复杂的基础特征建设工作。对于美团点评的关键词搜索场景，由于大部分搜索词与美团点评店铺及店铺分类强相关（大部分搜索词甚至直接是店铺名称），且新词搜索量增长幅度不大，同时考虑到开发成本，我们的关键词定向舍弃了基础特征构建的方案，而是直接采用一套合理的离线分析模型，来构建搜索词和店铺分类的关系。&lt;/p&gt;
 &lt;p&gt;我们选用了TF/IDF模型，来构建关键词和用户偏好的关系。用这个方案原因是文章-词模型与词-店铺模型非常相似。该方案主要用于计算店铺分类（或商圈）与关键词的相关程度，也是对其打分的依据。该模型相关资料很多，不再做原理性阐述，此处仅举一例如下：&lt;/p&gt;
 &lt;p&gt;用户搜索词为“潮汕火锅”，计算“美食/火锅”的商家分类与该关键词的相似程度。&lt;/p&gt;
 &lt;p&gt;假设：  &lt;br /&gt;c1 = 搜索“潮汕火锅”后的全部点击数，  &lt;br /&gt;c2 = 搜索“潮汕火锅”后点击“美食/火锅”类目店铺的全部点击数，  &lt;br /&gt;c3 = 搜索词总数，  &lt;br /&gt;c4 = 搜索点击“美食/火锅”类目的词总数。则  &lt;br /&gt; $$tfidf = (c2 / c1) × log(c3 / (c4 + 1))$$由此计算出店铺分类与关键词的关系，取topN（根据存储大小及不同店铺对同一词的TF-IDF差距拟定）个店铺分类。&lt;/p&gt;
 &lt;p&gt;单店及商圈计算方法与此类似，它们的计算值会同时与店铺分类的TF-IDF进行比较，不作区分。（此处有一点需注意：如果用户搜索“中山公园 火锅”，可以预见店铺分类与商圈会同等重要，则最终产出两条独立打分规则，分别挂在店铺分类和商圈下面）。&lt;/p&gt;
 &lt;p&gt;我们使用Spark来构建离线模型，提取用户的搜索词和搜索后点击的店铺及店铺分类，运用上述方案来计算每个搜索词的关联店铺及店铺分类，设置阈值，保留分数较大的分类结果。&lt;/p&gt;
 &lt;p&gt;为了提升线上命中率，我们使用了点评分词系统，对长度较长的搜索词进行分词，同时保存原始词和切分后基础词的TF-IDF结果。为了方便线上快速检索，结果同样保存在Tair中。以检索词为key，关联店铺分类和店铺的TF-IDF打分作为value进行保存。&lt;/p&gt;
 &lt;h2&gt;实时流计算&lt;/h2&gt;
 &lt;p&gt;对于关键词定向，与用户定向的一个区别在于前者时效性要求很高，因此需要使用实时计算系统来处理用户行为，并将最后的结果保存在Tair集群。首先通过Kafka订阅用户行为实时流，以五分钟为时间片处理用户行为，查找用户ID和搜索词，如果搜索词过长，则进行分词，接着从Tair中查找出与该搜索词相关的店铺及店铺分类和打分（离线模型给出）。接下来会Tair中查找该用户ID是否有历史结果，若有，则读出，对之前的打分进行衰减（衰减方案见下文），并与当前新的打分进行合并；否则，将新的数据及时间戳写入Tair。该方案的流程图如下：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="dw topic" src="https://tech.meituan.com/img/target_agentscore/kt-flow.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;比较重要的部分是合并新来的数据与Tair里的老数据，合并时，如果新数据包含老数据中某些店铺（店铺分类），就直接使用新数据中的店铺（店铺分类）权重；否则，对老数据中的店铺（店铺分类）权重进行衰减，若衰减后权重小于给定的阈值，则直接将这个店铺（店铺分类）从合并数据中剔除。&lt;/p&gt;
 &lt;p&gt;衰减方案根据时间进行衰减。默认半衰期（即衰减权重从1衰减到0.5的时间长度）为72小时（不同的店铺分类给予不同的半衰期），使用牛顿冷却定律，参数计算公式为： 0.5 = 1 × e  &lt;sup&gt;-α*时间间隔&lt;/sup&gt; ，解出α，并带入下面公式得到实际权重为：$$ w&amp;apos; = w × e ^{-\alpha × 时间间隔} $$  &lt;br /&gt;其中，w为老权重，w&amp;apos;为新权重。&lt;/p&gt;
 &lt;h2&gt;检索端排序&lt;/h2&gt;
 &lt;p&gt;检索端接收到广告请求，根据当前获取的用户ID，从Tair中读取用户偏好的店铺分类，与召回的广告进行匹配，当广告分类与召回广告匹配成功，则可将Tair读出的分数进行时间衰减后，作为该广告的最终打分。检索端采用与实时流同样的时间衰减方案，以保证一致性。举例如下：&lt;/p&gt;
 &lt;p&gt;用户A在早上8:30有火锅类搜索行为，Spark Streaming处理后进入Redis，假设此时最新时间戳为8:30，而该用户在11：00搜索亲子类商铺，Spark Streaming处理该条记录后，之前的火锅权重需要衰减，同时时间戳更新为11:00，假设此时立即有广告检索请求命中该用户，则此时用户火锅类偏好权重为11:00时权重；假设下午16:00有ADX请求命中该用户，则用户火锅类权重需要根据16:00到11:00的时间间隔继续衰减。&lt;/p&gt;
 &lt;p&gt;除了上述三种定向策略，还有其他基于上下文的定向，重定向等，它们方案各异，但大致思路与前述方案类似，本文不再详述。&lt;/p&gt;
 &lt;h1&gt;定向汇总&lt;/h1&gt;
 &lt;p&gt;在经过上述各类定向场景分别打分之后，需要对每个场景打分进行综合，因为不同的广告行业在不同场景下的重要性是不同的。如餐饮行业更注重距离和天气，而丽人、亲子等行业较注重媒体和用户画像。因此，不同行业下，各个定向打分的权重是不同的。我们使用模型的方式对各个场景打分进行权重的训练和预测。   &lt;/p&gt;
 &lt;p&gt;综合打分我们采用了LR模型，分不同广告行业，以点击为样本，转化为模型，以各个场景下的前期打分为特征，进行混合打分权重的离线建模。  &lt;br /&gt;公式如下：$$h_\theta=g(\theta^{T})=\frac{1}{1+e^{-\theta^{T}x}}$$&lt;/p&gt;
 &lt;p&gt;其中θ是向量，θ  &lt;sub&gt;0&lt;/sub&gt;x  &lt;sub&gt;0&lt;/sub&gt; + θ  &lt;sub&gt;1&lt;/sub&gt;x  &lt;sub&gt;1&lt;/sub&gt; + ..., + θ  &lt;sub&gt;n&lt;/sub&gt;x  &lt;sub&gt;n&lt;/sub&gt; = \(\sum_{i=0}^n \theta _ix _i={\theta}^Tx\)，其中，\(x _1\),...，\(x _n\)是各个场景定向下的具体打分，打分分布在[0,1]之间。&lt;/p&gt;
 &lt;p&gt;冷启动时，对每个场景打分给予一个默认权重，积累一定量数据后，使用离线模型训练出各个广告行业下的θ向量，并在引擎端加载使用。引擎端加载各个场景的广告打分，并根据广告行业加载打分权重，最终完成每个广告与当前的流量综合打分。&lt;/p&gt;
 &lt;h1&gt;总结&lt;/h1&gt;
 &lt;p&gt;场景化定向综合考虑了当前流量的种种场景因素（用户、天气、媒体等），分别根据业务需求设计了不同的模型来构建广告打分机制，并对单个场景的广告打分进行综合。通过这种场景化的广告粗排机制，对召回的广告进行排序和筛选，可以保留相关性较强的广告，以用于后续的CTR排序和处理。从实际的A/B testing来看，使用了场景化排序机制的流量，其点击率和转化率的提升效果都较为显著。&lt;/p&gt;
 &lt;p&gt;展望未来，如何丰富各类场景特征（如天气、媒体的更多特征），引入更多的场景因素（如所处环境周边店铺、当前时间用户行为等），尝试不同的模型方案，都是下一步的可探索方向。&lt;/p&gt;
 &lt;h1&gt;参考文献&lt;/h1&gt;
 &lt;ul&gt;
  &lt;li&gt;Friedman J, Hastie T, Tibshirani R.(2000),    &lt;a href="https://web.stanford.edu/~hastie/Papers/AdditiveLogisticRegression/alr.pdf"&gt;Additive Logistic Regression: A Statistical View of Boosting&lt;/a&gt;, Annals of Statistics, 28, 337-307.&lt;/li&gt;
&lt;/ul&gt;
 &lt;h1&gt;招聘&lt;/h1&gt;
 &lt;p&gt;美团点评广告联盟团队招聘各类数据挖掘、算法，以及Java后台开发的技术人才，有兴趣的同学可以发送简历到suxin03#meituan.com。&lt;/p&gt;
 &lt;h1&gt;作者简介&lt;/h1&gt;
 &lt;p&gt;马莹，美团点评高级算法工程师，2012年毕业于浙江大学，同年加入百度联盟研发部。2016年加入美团点评联盟广告部门，长期从事广告行业策略算法研究开发工作。专注于计算广告、用户画像、数据挖掘等方向。&lt;/p&gt;
 &lt;p&gt;一凡，美团点评高级算法工程师，现负责美团点评广告平台联盟广告网盟方向。2011年毕业于华中科技大学，毕业后先后就职于百度、腾讯，2014年加入点评平台，2016年加入美团点评联盟广告部，长期致力于计算广告算法优化、推荐算法、大数据挖掘等方向。&lt;/p&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57746-%E7%BE%8E%E5%9B%A2-%E8%81%94%E7%9B%9F-%E5%B9%BF%E5%91%8A</guid>
      <pubDate>Mon, 04 Dec 2017 17:44:00 CST</pubDate>
    </item>
    <item>
      <title>基于Kafka Streams构建广告消耗预测系统</title>
      <link>https://itindex.net/detail/57653-kafka-streams-%E5%B9%BF%E5%91%8A</link>
      <description>&lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="436" src="http://www.36dsj.com/wp-content/uploads/2017/11/235037-1401140R01329.jpg" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;作者：谢健芬&lt;/p&gt; &lt;p&gt;Pinterest 广告工程团队的宗旨是为我们的广告合作商提供最优质的服务体验，而广告超投，是我们极力要解决的问题之一。在Pinterest，我们使用了 Kafka Streams ，可以实现把广告消耗的预测数据在数秒钟的时间内发送给数千个广告投放服务。本文将会先解释什么是超投，然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。&lt;/p&gt; &lt;h2&gt;  &lt;strong&gt;关于超投&lt;/strong&gt;&lt;/h2&gt; &lt;p&gt;当广告主的预算耗尽时，如果他们的广告被继续投放，这多出来的投放部分将无法再进行收费，这种现象被称之为超投。超投会减少其他还有预算盈余的广告主的广告展现机会，从而降低了他们的产品和服务触及潜在顾客的机会。&lt;/p&gt; &lt;p&gt;要降低超投率，应从两个方面着手：&lt;/p&gt; &lt;ol&gt;  &lt;li&gt;计算实时消耗：广告曝光展示的信息应在数秒内反馈给广告系统，系统才能及时关闭那些已耗尽预算的广告计划。&lt;/li&gt;  &lt;li&gt;进行消耗预测：除了让已发生的消耗数据及时传达以外，系统还应具备预测未来消耗的能力，在预计某些计划快要达到预算上限的时候，应降低它们的投放速度，从而使计划平滑地到达预算上限。因为已经投放出去的广告会停留在用户界面上，用户依然可以对它进行操作。这种行为的滞后性会让短时间内的广告消耗难以准确地衡量。而这种自然延迟是不可避免的，我们唯一能确信的只有广告投放事件。&lt;/li&gt;&lt;/ol&gt; &lt;p&gt;我们举个例子来详细说明一下。假设有一个能提供广告投放的互联网公司，广告主X向该公司购买了出价为$0.10元/  &lt;strong&gt;曝光&lt;/strong&gt; 、预算为$100元/天的广告服务。这意味着该广告每天最多曝光1000次。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="96" src="http://www.36dsj.com/wp-content/uploads/2017/11/1-24.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;该公司为广告主快速实现了一个简单明了的投放系统：&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="377" src="http://www.36dsj.com/wp-content/uploads/2017/11/2-23.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;当网站上出现新的广告展现机会时，前端会向广告库（ad inventory）请求一条广告。广告库根据广告主X的剩余预算来决定是否投放他们的广告。如果预算仍然充足，广告库将通知前端进行一次广告投放（比如在用户端APP的一个广告位上展示出来）。当用户浏览了该广告后，一个曝光事件会发往计费系统。&lt;/p&gt; &lt;p&gt;然而，当该公司检查他们的收入时，发现事情的进展与预想的并不一样。&lt;/p&gt; &lt;p&gt;广告主X的广告实际展示了1100次，由于预算只有$100，因此平均每次曝光的价格实际只有$0.09元。比计划多出来的100次曝光相当于是免费投放了，而且这些曝光机会本来可以用来展示其他广告主的广告。这就是业界常谈的超投问题。&lt;/p&gt; &lt;p&gt;那么为什么会发生超投？在这个例子中，我们假设是由于结算系统的响应时间太长所导致的。假设系统对一次曝光的处理有5分钟的延迟，从而导致了超投。因此，这个互联网公司采取了一些优化手段来提高了系统性能，结果成功地多赚了$9元！因为它把原本100次无效曝光中的90次让给了其他预算充足的广告主，从而把超投率降低到10/1000 = 1%。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="254" src="http://www.36dsj.com/wp-content/uploads/2017/11/3-20.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;不久之后，另一位广告主Y也联系了这家公司，并希望以$100元/天的预算、$2.0元/  &lt;strong&gt;点击&lt;/strong&gt;（例如，一个用户通过点击广告链接到达广告主Y自己的网站）、最多每天50次点击的价格购买广告。这家公司把广告主Y加到他们的广告投放流程里，并在他们的系统增加了点击事件的跟踪。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="380" src="http://www.36dsj.com/wp-content/uploads/2017/11/4-18.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;一天下来，这家公司的广告系统再次发生了超投。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="104" src="http://www.36dsj.com/wp-content/uploads/2017/11/5-15.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;结算下来，广告主Y竟然得到了10个免费点击！而这家互联网公司发现，即使结算系统处理速度足够快，但却无法预知一个投放出去的广告是否会被点击，由于缺乏这些未来的消耗信息，超投将永远都无法避免。&lt;/p&gt; &lt;p&gt;本例子中的主人公最后找到了一个非常聪明的解决办法：给每个广告主计算  &lt;strong&gt;预测消耗&lt;/strong&gt;。预测消耗指的是已经投放出去了但尚未发生消耗的那部分。  &lt;strong&gt;如果实际消耗+预测消耗＞每日预算，则停止该广告主的广告&lt;/strong&gt;  &lt;strong&gt;投放&lt;/strong&gt;。&lt;/p&gt; &lt;h2&gt;  &lt;strong&gt;构建预测系统&lt;/strong&gt;&lt;/h2&gt; &lt;h3&gt;  &lt;strong&gt;初衷&lt;/strong&gt;&lt;/h3&gt; &lt;p&gt;我们的用户每天在Pinterest上进行浏览以获取新的灵感：从个性化推荐，到搜索，再到运营推荐位。我们需要构建一个兼具可靠性和可扩展性的广告系统来进行广告投放，并确保利用好我们广告主的每一笔预算。&lt;/p&gt; &lt;h3&gt;  &lt;strong&gt;需求&lt;/strong&gt;&lt;/h3&gt; &lt;p&gt;我们着手设计了一个消耗预测系统，系统目标如下：&lt;/p&gt; &lt;ul&gt;  &lt;li&gt;能处理不同的广告类型（曝光、点击）&lt;/li&gt;  &lt;li&gt;必须具备每秒能处理数以万计的事件的能力&lt;/li&gt;  &lt;li&gt;能向超过1000个消费者广播更新消息&lt;/li&gt;  &lt;li&gt;端到端的延迟不能超过10秒&lt;/li&gt;  &lt;li&gt;保证100%的运行时间（Uptime）&lt;/li&gt;  &lt;li&gt;在工程上应尽量保持轻量和可维护性&lt;/li&gt;&lt;/ul&gt; &lt;h3&gt;  &lt;strong&gt;为什么选择Kafka Streams&lt;/strong&gt;&lt;/h3&gt; &lt;p&gt;我们评估过不同类型的流式服务，其中也包括 Spark 和 Flink 。这些技术在数据规模上都能满足我们的要求，但对我们来说，Kafka Streams还具备了一些特殊的优势：&lt;/p&gt; &lt;ul&gt;  &lt;li&gt;毫秒级延迟：Kafka Streams提供毫秒级的延迟保证，这一点是Spark和Flink做不到的&lt;/li&gt;  &lt;li&gt;轻量：Kafka Streams是一个没有重度外部依赖（比如专用集群）的Java应用，这会减轻我们的维护成本。&lt;/li&gt;&lt;/ul&gt; &lt;h2&gt;  &lt;strong&gt;具体实施&lt;/strong&gt;&lt;/h2&gt; &lt;p&gt;下图在高层次上展示了加入了消耗预测之后的系统结构：&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="305" src="http://www.36dsj.com/wp-content/uploads/2017/11/6-15.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;ul&gt;  &lt;li&gt;广告投放系统（Ads serving）：负责分发广告到用户端、记录广告投放、并从消耗预测服务（”inflight spend” service）中获取预测消耗数据。&lt;/li&gt;  &lt;li&gt;结算系统（Spend system）：对广告事件进行聚合并把每个广告主的当前消耗信息告知给广告投放系统。&lt;/li&gt;  &lt;li&gt;消耗预测服务（Inflight spend）：   &lt;ul&gt;    &lt;li&gt;广告投放记录（Ad insertion input）：每发生一次投放，投放系统应向“input” topic发送如下消息：{key: adgroupId, value: inflight_spend}，其中：     &lt;ul&gt;      &lt;li&gt;adgroupId是指在相同的预算约束下的广告组的id&lt;/li&gt;      &lt;li&gt;inflight_spend = price * impression_rate * action_rate，其中：       &lt;ul&gt;        &lt;li&gt;price: 当前广告的出价&lt;/li&gt;        &lt;li&gt;impression_rate：广告从投放到曝光的转化率的历史经验值。注意并不是每次投放的广告都一定能被曝光给用户&lt;/li&gt;        &lt;li&gt;action_rate：对按点击付费的广告主来说，这表示用户点击这条广告的概率；对按曝光付费的广告主来说，这个值为1&lt;/li&gt;&lt;/ul&gt;&lt;/li&gt;&lt;/ul&gt;&lt;/li&gt;    &lt;li&gt;消耗聚合器（spend aggregator）：订阅 “input” topic 并利用Kafka Streams对每个 adgroup 进行消耗数据的聚合。我们使用了一个10秒的窗口（window） 来计算每个 adgroup 的预测消耗。而“output” topic会被投放系统进行消费，当收到新的消息时，投放系统会更新预测消耗的数据。&lt;/li&gt;&lt;/ul&gt;&lt;/li&gt;&lt;/ul&gt; &lt;p&gt;在实际应用中，我们的消耗预测的准确率非常高。在整个预算预测系统上线之后，我们的超投率明显下降了。下图是我们的实际消耗与预测消耗的一个对比测试结果样例。&lt;/p&gt; &lt;p&gt;  &lt;img alt="&amp;#22823;&amp;#25968;&amp;#25454;" height="264" src="http://www.36dsj.com/wp-content/uploads/2017/11/7-14.png" width="640"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;  &lt;em&gt;说明&lt;/em&gt;：图中的横轴是以3分钟为单位的时间轴；纵轴表示单位时间内的消耗。其中蓝线表示预测消耗，绿线表示实际消耗&lt;/p&gt; &lt;h2&gt;  &lt;strong&gt;一些经验&lt;/strong&gt;&lt;/h2&gt; &lt;ol&gt;  &lt;li&gt;窗口（Window）如果取得不好会严重影响性能。我们在使滚动窗口（tumbling  windows）代替原有的跳跃窗口（hopping windows）后得到了18倍的性能提升。最初我们的实现是使用跳跃窗口去计算3分钟内的预测消耗。在我们的实际案例中，一个窗口的大小是3分钟，前进步长是10秒，这样就会产生180秒 / 10秒 = 18个开放窗口。每一个通过Kafka Streams处理的事件会同时更新到18个窗口中，导致很多不必要的计算。为了解决这个问题，我们把跳跃窗口改成了滚动窗口。相比起跳跃窗口，滚动窗口的特点是每个窗口之间不会互相重叠，意味着每收到一个事件只需要更新一个窗口就可以了。因为把更新操作从18减到了1，因此这个窗口类型更换的操作使整体吞吐量增加了18倍。&lt;/li&gt;  &lt;li&gt;信息压缩策略：为了降低对消费者广播的数据量，我们对 adgroup ID进行了差分编码，并使用查找表存储消耗数据。经过压缩后，我们把信息传输大小压缩到原有的四分之一。&lt;/li&gt;&lt;/ol&gt; &lt;h2&gt;  &lt;strong&gt;结论&lt;/strong&gt;&lt;/h2&gt; &lt;p&gt;使用Apache Kafka Streams来构建预测消耗系统是我们广告基础组件的一个新的尝试，而该系统也达到了高效、稳定、高容错与可扩展的要求。我们计划在未来将会持续探索由Confluent推出的 Kafka 1.0 和 KSQL 并应用到系统设计上。&lt;/p&gt; &lt;p&gt;End.&lt;/p&gt; &lt;p&gt;转载请注明来自36大数据（36dsj.com)：  &lt;a href="http://www.36dsj.com"&gt;36大数据&lt;/a&gt;»  &lt;a href="http://www.36dsj.com/archives/102002"&gt;基于Kafka Streams构建广告消耗预测系统&lt;/a&gt;&lt;/p&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>bigdata</category>
      <guid isPermaLink="true">https://itindex.net/detail/57653-kafka-streams-%E5%B9%BF%E5%91%8A</guid>
      <pubDate>Fri, 10 Nov 2017 08:00:00 CST</pubDate>
    </item>
    <item>
      <title>计算广告点击率预估算法总结</title>
      <link>https://itindex.net/detail/57617-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E7%82%B9%E5%87%BB%E7%8E%87</link>
      <description>&lt;h2&gt;前言&lt;/h2&gt;
 &lt;p&gt;谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到各种诸如龟壳、铜钱等等家伙事，在沐浴更衣、净手煴香后，最后一通预测，发现完全扯淡，被人暴打一顿，更有甚者，在以前关系国家危亡、异或争国本这种情况时，也通常会算上一卦，国家的兴衰、。其实CTR和这个一样，以前经常和小伙伴吐槽，其实做机器学习、无论是推荐还是计算广告，都和以前的算命先生没什么差别，做的好的官至国师，不好的吃不了饱饭也是有的。要想把你CTR模型做的好好的，必须要先了解那些前辈们都是怎么玩的。&lt;/p&gt;
 &lt;h2&gt;CTR架构&lt;/h2&gt;
 &lt;p&gt;一个典型的CTR流程如下图所示：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="ctr&amp;#27969;&amp;#31243;&amp;#22270;" src="http://images.duanshishi.com/mac_blogs_ctr_01.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;如上图，主要包括两大部分：离线部分、在线部分，其中离线部分目标主要是训练出可用模型，而在线部分则考虑模型上线后，性能可能随时间而出现下降，弱出现这种情况，可选择使用Online-Learning来在线更新模型：：&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;
   &lt;p&gt;离线部分：&lt;/p&gt;
   &lt;ul&gt;
    &lt;li&gt;数据收集：主要收集和业务相关的数据，通常会有专门的同事在app位置进行埋点，拿到业务数据；&lt;/li&gt;
    &lt;li&gt;预处理：对埋点拿到的业务数据进行去脏去重；&lt;/li&gt;
    &lt;li&gt;构造数据集：经过预处理的业务数据，构造数据集，在切分训练、测试、验证集时应该合理根据业务逻辑来进行切分；&lt;/li&gt;
    &lt;li&gt;特征工程：对原始数据进行基本的特征处理，包括去除相关性大的特征，离散变量one-hot，连续特征离散化等等；&lt;/li&gt;
    &lt;li&gt;模型选择：选择合理的机器学习模型来完成相应工作，原则是先从简入深，先找到baseline，然后逐步优化；&lt;/li&gt;
    &lt;li&gt;超参选择：利用gridsearch、randomsearch或者hyperopt来进行超参选择，选择在离线数据集中性能最好的超参组合；&lt;/li&gt;
    &lt;li&gt;在线A/B Test：选择优化过后的模型和原先模型（如baseline）进行A/B Test，若性能有提升则替换原先模型；&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
  &lt;li&gt;
   &lt;p&gt;在线部分&lt;/p&gt;
   &lt;ul&gt;
    &lt;li&gt;Cache &amp;amp; Logic：设定简单过滤规则，过滤异常数据；&lt;/li&gt;
    &lt;li&gt;模型更新：当Cache &amp;amp; Logic收集到合适大小数据时，对模型进行pretrain+finetuning，若在测试集上比原始模型性能高，则更新model server的模型参数；&lt;/li&gt;
    &lt;li&gt;Model Server：接受数据请求，返回预测结果；&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
 &lt;h3&gt;Logistic Regression&lt;/h3&gt;
 &lt;p&gt;最简单的模型也应该是工业界应用最广的方法，Logistic Regression算法简单易于调参，属于线性模型，原理如下图：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="Logistic Regression&amp;#20844;&amp;#24335;" src="http://images.duanshishi.com/mac_blogs_ctr_02.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;将CTR模型建模为一个分类问题，利用LR预测用户点击的概率； 通常我们只需要离线收集好数据样本构造数据集，选择好合适的特征空间，离线训练好模型，测试在离线数据集上的性能之后，即可上线，也可以适应数据分布随时间突变严重的情况，采用online-learning的策略来对模型进行相对频繁的更新，模型的简单能够保证这部分的需求能够得到保障。&lt;/p&gt;
 &lt;h3&gt;PLOY2&lt;/h3&gt;
 &lt;p&gt;LR优点是简单高效，缺点也很明显，它太简单，视特征空间内特征之间彼此独立，没有任何交叉或者组合关系，这与实际不符合，比如在预测是否会点击某件t恤是否会点击，如果在夏天可能大部分地区的用户都会点击，但是综合季节比如在秋天，北方城市可能完全不需要，所以这是从数据特征维度不同特征之间才能体现出来的。因此，必须复杂到能够建模非线性关系才能够比较准确地建模复杂的内在关系，而PLOY2就是通过特征的二项式组合来建模这类特征的复杂的内在关系,二项式部分如下图公式：   &lt;img alt="PLOY2" src="http://images.duanshishi.com/mac_blogs_ctr_03.png"&gt;&lt;/img&gt; 然而理想是美好的，现实却是残酷的，PLOY2有一个明显的问题，就是在实际场景中，大部分特征都是稀疏的，即大部分特征值为0，对这些稀疏的特征做二项式组合，会发现最后大部分特征值都是0，而在梯度更新时，当大部分feature为0时，其实梯度并不更新，所以PLOY2的方法在实际场景中并不能比较好地解决这类特征组合来建模更复杂线性关系的问题。&lt;/p&gt;
 &lt;h3&gt;Factorization Machine&lt;/h3&gt;
 &lt;p&gt;上面PLOY2虽然理论上能够建模二项式关系，但是在实际场景下稀疏数据时，无法使用，而FM就是为了解决这里PLOY2的短板的，FM的基本原理是将这些二项式矩阵做矩阵分解，将高维稀疏的特征向量映射到低维连续向量空间，然后根据内积表示二项式特征关系：   &lt;img alt="FM" src="http://images.duanshishi.com/mac_blogs_ctr_04.png"&gt;&lt;/img&gt;   &lt;img alt="FM2" src="http://images.duanshishi.com/mac_blogs_ctr_05.png"&gt;&lt;/img&gt; 复杂度为$O(kn^2)$，作者提出了一种简化的算法：   &lt;img alt="FM3" src="http://images.duanshishi.com/mac_blogs_ctr_06.png"&gt;&lt;/img&gt; 将复杂度简化为$O(kn)$ 然后就是SGD来更新模型参数，使模型收敛（这里还有很多其他替代SGD的方法，在FFM中有提到）：   &lt;img alt="FM4" src="http://images.duanshishi.com/mac_blogs_ctr_07.png"&gt;&lt;/img&gt; 训练时间复杂度也是$O(kn)$，也就是线性时间，FM通过对二项式稀疏进行低维连续空间的转换，能够有效地解决PLOY2中存在的二次项系数在大规模系数数据下不更新的问题，另外由于训练预测复杂度均为线性，PLOY2+SVM这样逻辑下由于要计算多项式核，复杂度是n^2，由于FM的这几个特征，在实际场景中，FM也大规模的应用在CTR中，尤其是在数据极其系数的场景下，FM效果相对于其他算法有很明星的改善。&lt;/p&gt;
 &lt;h3&gt;Field-aware FM&lt;/h3&gt;
 &lt;p&gt;FMM全程是 Field-aware Factorization Machine，相对于FM增加了Field信息，每个特征属于一个field，举个例子：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_09.png"&gt;&lt;/img&gt; 而相对于FM，只有Feature_index相同个数的低维连续表示，而FFM则不同，每一个feature对不同的field有不同的表示，所以有#Field_index*#Feature_index个不同的表示：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_08.png"&gt;&lt;/img&gt;，通常由于每个低维隐变量表示只学习特定field的表示，所以FFM的隐变量长度相对于FM的隐变量维度要小的多。FFM的优化问题相对其比较简单，可以看看FFM这篇paper，里面比较详细地描述优化过程，还有相关的伪代码   &lt;a href="https://www.andrew.cmu.edu/user/yongzhua/conferences/ffm.pdf"&gt;https://www.andrew.cmu.edu/user/yongzhua/conferences/ffm.pdf&lt;/a&gt;。&lt;/p&gt;
 &lt;h3&gt;FNN&lt;/h3&gt;
 &lt;p&gt;从12年在ImageNet上深度学习超过经典模型之后，在计算机视觉、语音、NLP都有很多相关的工作，而在CTR上，深度学习的建模能力也有一些应用，FNN和SNN就是其中的一些尝试，来源于  &lt;a href="https://arxiv.org/pdf/1601.02376.pdf"&gt;Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction&lt;/a&gt;，这里稍微描述下相关的做法：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_10.png"&gt;&lt;/img&gt; 网络底层由FM来进行参数初始化，W的元素由FM中的低维连续空间向量表示来做初始化：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_11.png"&gt;&lt;/img&gt; 而构成W的低维连续空间向量表示预先由FM在数据集 上生成，模型在训练过程中，会通过BP来更新FM层参数，其他步骤和常见的MLP没有什么区别，这里重点就是底层如何介入FM层参数的问题；&lt;/p&gt;
 &lt;h3&gt;CCPM&lt;/h3&gt;
 &lt;p&gt;CCPM利用卷积网络来做点击率预测，看了文章，没有太明白其中的所以然，贴下网络结构的图吧：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_18.png"&gt;&lt;/img&gt; 有弄清楚这篇文章的小伙伴可以讨论下。&lt;/p&gt;
 &lt;h3&gt;PNN&lt;/h3&gt;
 &lt;p&gt;PNN主要是在深度学习网络中增加了一个inner/outer product layer，用来建模特征之前的关系，如下图，Product layer部分Z是weight*feature，P部分weight*I(feature_i,feature_j)用来建模二项式关系：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_12.png"&gt;&lt;/img&gt; PNN按product层的功能分为inner product layer和outer product layer，区别如下：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_13.png"&gt;&lt;/img&gt; 和FM类似，构造好网络之后，对输入数据做embedding处理之后得到低维的连续向量表示，经过任意两个feature的进行inner product or outer product（1也为feature的一部分，所以可以建模线性关系），这里很容易发现，这部分特征大小会变大很多（二次项数量级）,尤其是稀疏空间，和PLOY2遇到的问题类似，变得很难训练，受FM启发，可以把这个大矩阵转换矩阵分解为小矩阵和它的转置相乘，表征到低维度连续向量空间，来减少模型复杂度：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_14.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h3&gt;DeepFM&lt;/h3&gt;
 &lt;p&gt;DeepFM更有意思的地方是WDL和FM结合了，其实就是把PNN和WDL结合了，PNN即将FM用神经网络的方式构造了一遍，作为wide的补充，原始的Wide and Deep，Wide的部分只是LR，构造线性关系，Deep部分建模更高阶的关系，所以在Wide and Deep中还需要做一些特征的东西，如Cross Column的工作，而我们知道FM是可以建模二阶关系达到Cross column的效果，DeepFM就是把FM和NN结合，无需再对特征做诸如Cross Column的工作了，这个是我感觉最吸引人的地方，其实FM的部分感觉就是PNN的一次描述，这里只描述下结构图，PNN的部分前面都描述, FM部分：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_15.png"&gt;&lt;/img&gt; Deep部分：   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_16.png"&gt;&lt;/img&gt; DeepFM相对于FNN、PNN，能够利用其Deep部分建模更高阶信息（二阶以上），而相对于Wide and Deep能够减少特征工程的部分工作，wide部分类似FM建模一、二阶特征间关系， 算是NN和FM的一个更完美的结合方向，另外不同的是如下图，DeepFM的wide和deep部分共享embedding向量空间，wide和deep均可以更新embedding部分，虽说wide部分纯是PNN的工作，但感觉还是蛮有意思的。   &lt;img alt="" src="http://images.duanshishi.com/mac_blogs_ctr_17.png"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h3&gt;其他的一些方法&lt;/h3&gt;
 &lt;ul&gt;
  &lt;li&gt;GBDT+LR：Facebook提出利用GBDT探索海量特征空间的特征组合，减少特征工程工作量，性能很好；&lt;/li&gt;
  &lt;li&gt;MLR：阿里妈妈前端时间提出的一种增强LR模型，将region的划分考虑进去来建模非线性关系，感觉类似于深度学习的Attention机制，据说在阿里妈妈相关业务提升很多；&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;总结&lt;/h2&gt;
 &lt;p&gt;前面讨论了一些CTR常见的方法，重点介绍了Factorization Machine及其变种Field-Aware Factorizaååtion Machine，还有和深度学习的结合，个人感觉PNN的逻辑比较有意思，完全使用神经网络的思维模型重塑了FM，为后面DeepFM扩展wide and deep的工作打下基础，减少了wide and deep中需要的一些基本的特征工程工作（wide部分二次项工作），上面只是涉及到模型的算法部分，在实际中可以去探讨，并不能说明一定性能就好，另外由于架构的限制，综合考虑其他方面的因素，如请求时间、模型复杂度，也是最终是否采用相关算法的考虑因素，各位对此有兴趣讨论的小伙伴，欢迎回复讨论。&lt;/p&gt;
&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>计算广告 计算广告学 fm fnn pnn</category>
      <guid isPermaLink="true">https://itindex.net/detail/57617-%E8%AE%A1%E7%AE%97-%E5%B9%BF%E5%91%8A-%E7%82%B9%E5%87%BB%E7%8E%87</guid>
      <pubDate>Mon, 04 Sep 2017 19:48:13 CST</pubDate>
    </item>
    <item>
      <title>九个问题，搞清楚Facebook的广告系统是如何运作的</title>
      <link>https://itindex.net/detail/57566-%E9%97%AE%E9%A2%98-facebook-%E5%B9%BF%E5%91%8A</link>
      <description>&lt;p&gt;根据国外的科技媒体报道，谷歌和 Facebook 几乎合占全球数字广告市场的半壁江山。谷歌自是不消多说，它的搜索引擎业务有着极为庞大的用户群体，依靠搜索广告和与网页内容相关的广告，它被称为新时代的“印钞机”。但是，Facebook 则不相同，它是一个社交媒体网络服务平台，虽然用户众多，但在它的应用场景中，广告变现并不占优势。它是怎样做到在广告业务上与谷歌分庭抗礼呢？近日，  &lt;a href="https://www.nytimes.com/2017/10/12/technology/how-facebook-ads-work.html" target="_blank"&gt;The New York Times 发表了一篇文章&lt;/a&gt;介绍了 Facebook 的广告系统的运作方式，由 36 氪编译。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" src="http://images2017.cnblogs.com/news/66372/201710/66372-20171017123619646-1523772911.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;Facebook 的广告比其他广告更特殊吗？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;Facebook 的主要广告系统，可以直接插入到作为其社交网络的主要界面的动态消息流（News Feed）之中。这个广告系统的创建是为了达到一种效果，让广告可以像互联网公司所谓的“有机内容”一样，能够有效地吸引用户的注意力。&lt;/p&gt;
 &lt;p&gt;实际上，广告的形式往往和“有机内容”一样，只是背后有金钱交易。宾夕法尼亚大学沃顿商学院市场营销学教授 Ron Berman 说：“这是一种广告销售机制，但广告本身并不是真正的广告，而是一种内容。”他对 Facebook 广告系统在内的在线广告业务颇有研究。&lt;/p&gt;
 &lt;p&gt;过去 10 年，Facebook 作为一种重要力量，促进了在线广告领域缓慢发生了重大的变化。随着越来越多的人将在线活动从个人电脑转移到移动手机上，广告和“有机内容”之间的界限越来越模糊，尤其是在 Instagram、Twitter 和 Facebook 等流行的社交网络服务上。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;为什么手机会促进这种改变？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;最直接的原因在于，移动手机在屏幕上提供的广告空间更小。通常只有一个信息栏的空间，来同时容纳广告和其他内容。所以，就出现了这种广告进入更为显著位置的结果。&lt;/p&gt;
 &lt;p&gt;可以拿谷歌的搜索引擎做个例子。如果用户在笔记本电脑上输入“三星”一词，三星的广告很可能会出现在屏幕上方，超过谷歌给出的搜索结果列表。当你在普通的智能手机上做同样的事情，这则广告可能会占据整个屏幕。&lt;/p&gt;
 &lt;p&gt;为了应对这种屏幕的限制，Facebook 采取了一个更加“深入”的解决办法。它创造了一个新的广告系统，使广告成为在移动电话屏幕上占据主导地位的 News Feed 的一个组成部分。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;Facebook 的广告到底是什么？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;简单来说，就是由企业和其他组织在社交网络上建立起来的 Facebook 页面。Facebook 允许企业和其他广告商根据特定兴趣和行为，将页面直接送达到与他们没有任何关联的用户的 News Feed 中。&lt;/p&gt;
 &lt;p&gt;随着这些页面的出现，人们可以对它们发表评论，并“喜欢（Like）”它们，就像信息流中显示的其他内容一样。如果人们点击“Like”按钮，这些页面将继续显示在他们的信息流中，以及他们 Facebook“好友”的信息流中。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;客户投放的广告能有多精准？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;在 Facebook 上，人们会自我描述，留下各种各样的数字面包屑（bread crumbs ）来显示他们的兴趣。根据 Facebook 官方的介绍，主要数据来源为：用户在 Facebook 分享的信息（例如： 您点赞的主页）来自用户 Facebook 帐户的其他个人信息（例如：年龄、性别、位置和访问 Facebook 所用的设备等）广告主和市场营销合作伙伴向我们分享的关于用户的信息，如用户的电子邮箱用户在 Facebook 之外的网站和应用中的活动。然后 Facebook 将这些数据与它收集的其他数据进行匹配。&lt;/p&gt;
 &lt;p&gt;Facebook 的广告系统提供了基于地理位置、个人兴趣、特征和行为的方法，包括在其他互联网服务上的活动，甚至在线下的活动。广告主可以根据政治立场来“命中”目标用户;他们有多大可能参与政治内容;他们是否喜欢慢跑、远足或打猎;他们喜欢什么样的啤酒;诸如此类的信息。&lt;/p&gt;
 &lt;p&gt;如果广告主提供了一个电子邮件地址列表，Facebook 可以尝试将这些地址所有者作为目标。它还可以做“相似匹配”。在这种情况下，Facebook 的算法会向被认为与这些地址所有者类似的用户提供广告。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;这一切是怎么发生的？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;考虑到有许多广告主的出价，与谷歌和其他公司一样，Facebook 对每一个广告投放进行实时的“数字拍卖”。广告主可能会出价 2 美元在特定情况下投放广告。然后，Facebook 对这些报价进行了权衡，看广告是否与这种特定的情况有关。如果广告是相关的，那么广告主就不没有必要出太高的价格去赢得拍卖。&lt;/p&gt;
 &lt;p&gt;与其他在线网站提供的类似服务不同，Facebook 并不仅仅只考虑广告与其他广告的相关性。它还会考虑广告与其他内容的相关性如何，会根据其与“有机内容”的竞争程度来选择广告。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;广告和内容难道不应该分开吗？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;谷歌表示，提供“有机内容”和广告管理的团队是分开的，而且独立的技术。“有机内容”的推荐算法不考虑广告，反之亦然。&lt;/p&gt;
 &lt;p&gt;Facebook 的安排略有不同，因为广告招标也考虑了与“有机内容”的契合度。此外，广告还会通过算法和管理员来审核，以确定广告是否违反了公司的政策。Facebook 最近表示，它将在审查广告的团队中再增加 1000 名版主。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;Instagram 和 Twitter 呢？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;从 2015 年秋天开始，Facebook 的广告引擎也开始在 Instagram 上推送广告。Twitter 与这些服务略有不同，但基础的逻辑是相似的。Twitter 的广告，仅仅是企业和其他公司付费，在符合特定标准的人的信息流中发布内容。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;Facebook 中广告与常规内容没有分离吗？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;正如这些公司所指出的那样，付费广告是广告或“赞助”或“推广”的内容。Facebook 的高管们补充说，广告通常也包括一些行动呼吁，比如“Liking”。&lt;/p&gt;
 &lt;p&gt;Facebook 负责广告产品的副总裁 Rob Goldman 在一份声明中表示，管理广告的用户和管理广告的人可以协调自己的工作，但在目标和政策各不相同的组织中工作。&lt;/p&gt;
 &lt;p&gt;“我们的目标是，在 Facebook 上投放广告，对用户来说，和他们从朋友和家人那里看到的帖子一样有用，”Goldman 说，“但我们也希望用户知道他们在看的内容是广告，所以我们清楚地把这些内容标记为‘赞助’。”&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" src="http://images2017.cnblogs.com/news/66372/201710/66372-20171017123619646-1803481078.jpg"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;但是，广告和“有机内容”之间的界限已经变得模糊，这可能是不明显的。例如，如果你“Like”一个广告，来自同一个账户的帖子会自动出现在你的信息流中，没有付费推广，也没有“赞助”标签。&lt;/p&gt;
 &lt;p&gt;Berman 说，这些帖子不仅仅是免费的广告，还包括人们认为更可信的东西，而且 Facebook 更有可能在这些人的“朋友”的信息流中分享。在 Facebook 这样的服务上，广告的效果远远超出了广告主的付费范围。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;还有哪些细节需要注意？&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;Berman 表示，当前已经发表的学术研究，包括他自己的一项研究表明，人们更有可能分享耸人听闻的内容，因为这些会让用户产生情感反应。其中可能包括与枪支管制、同性恋权利或种族关系相关的帖子。&lt;/p&gt;
 &lt;p&gt;如果一个广告商发布了一个被广泛分享或者“Like”的广告，将会有跟多的免费广告被投放。这意味着下一个广告的成本会下降。就目前而言，这种循环还在继续。&lt;/p&gt; &lt;p&gt;  &lt;a href="http://news.cnblogs.com/n/580328/" target="_blank"&gt;本文链接&lt;/a&gt;&lt;/p&gt; &lt;img alt="" height="1" src="http://news.cnblogs.com/news/rssclick.aspx?id=580328" width="1"&gt;&lt;/img&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57566-%E9%97%AE%E9%A2%98-facebook-%E5%B9%BF%E5%91%8A</guid>
      <pubDate>Tue, 17 Oct 2017 12:39:01 CST</pubDate>
    </item>
    <item>
      <title>『干货』不懂点社会心理学，怎么好意思说自己是广告人？</title>
      <link>https://itindex.net/detail/57396-%E5%B9%B2%E8%B4%A7-%E7%A4%BE%E4%BC%9A-%E5%BF%83%E7%90%86%E5%AD%A6</link>
      <description>&lt;div class="rich_media_content " id="js_content"&gt;&lt;p class="" style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; line-height: 25.6px; color: rgb(127, 127, 127); font-size: 14px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;img class="__bg_gif" data-ratio="0.5" data-src="http://mmbiz.qpic.cn/mmbiz/YTI67xfsN51SUI0eicjtUOEpehXNIIMJgGb2UiaM27o0VZQXsdMEKPhFlmZibrmmibsFC3yXD3kIIdNwWnibeibdYMcQ/0/mmbizgif?wx_fmt=gif" data-type="gif" data-w="22" style="color: rgb(62, 62, 62); line-height: 25.6px; box-sizing: border-box !important; word-wrap: break-word !important; visibility: visible !important; width: auto !important;" width="auto"&gt;&lt;span style="max-width: 100%; color: rgb(62, 62, 62); line-height: 25.6px;"&gt;&amp;nbsp;&lt;/span&gt;提示：点击上方↑↑“&lt;span style="max-width: 100%; line-height: 25.6px; color: rgb(0, 112, 192);"&gt;文案发烧友&lt;/span&gt;”一键关注&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; color: rgb(127, 127, 127); font-size: 14px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;为发烧文案而生！&lt;span style="max-width: 100%; color: rgb(84, 141, 212);"&gt;文案发烧友&lt;/span&gt;（WenanFashaoyou)&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; color: rgb(127, 127, 127); font-size: 14px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;strong style="max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;strong style="max-width: 100%; line-height: 22.4px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; color: rgb(192, 0, 0); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;strong style="max-width: 100%; font-size: 12px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; font-size: 14px; color: rgb(127, 127, 127); font-family: 宋体; letter-spacing: 1px; line-height: 22.4px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;▼&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/strong&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: right; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; font-size: 14px; color: rgb(136, 136, 136); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;来源：数英DIGITALING（ID：digitaling）&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: right; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;广告是一个复杂的行业，当我们在服务不同客户的时候，经常会要懂得其他行业的很多知识。所以凡是优秀的广告人，大多对商业社会和消费心理都有很深的理解。然而现实中，加班却成了广告人一种不能承受之重。因为种种原因，我们在协调工作和生活上耗费太多时间，很少有机会和精力去吸收和充电。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;然而在关注那么多热点新闻后，我发现不管是刷屏案例，还是10W+阅读的爆款文章。在创意和洞察之外，还有心理学规律在背后起着作用。如果能够多懂一些相关的效应和原理，在专业之外尝试用社会心理学的工具去分析。也许能够帮助我们更好的理解消费者，创造更好的创意。当然，还有……搞定客户。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;01 幸存者偏差&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;依据大数据的营销，可能一开始就是错的&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;span style="font-size: 14px;"&gt;&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="1.3014112903225807" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxdFaYqsUNLZlDG4sgSUPCqEXZPU0p8BBwcnGMXWpTpiaibgMPYAJRrhTA/640?wx_fmt=jpeg" data-type="jpeg" data-w="992" height="651" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="500"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;关于幸存者偏差理论，有一个经常被引用的案例。在二战时期，人们发现所有战斗后返回基地的飞机，通常两侧的机翼中弹比较多，而其他部位的弹孔很少。于是军队决定在中弹较多的部位加强装甲，减少飞机的战损，但这时有为数学家提出质疑。他认为能在战斗后返回基地的飞机，都是没有被击中关键部位，受了轻伤而已。而受到致命攻击的飞机，已经被击落在战场，他们是无法被统计的样本，即“沉默的大多数”。&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;这个例子就很好地说明了，当我们去试图用统计结果推算某种规律时，一定要注意是否存在一些容易被忽视的关键信息，导致最终的结果“失真”。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;它是人们非常容易犯的错误之一，因为人们很容易就根据现有情况，对未来作出推论和假设。例如现在流行的精准营销概念，其实就存在一种幸存者偏差认知。品牌通过监测用户的行为大数据，锁定对产品感兴趣的消费者，并在电商平台投放针对性广告。看似合情合理，然而事实上，这些广告大多是无效的。因为当人们搜索某件产品并购买之后，往往今后一段时间内，都不会再搜索同样产品，也不会对同类产品感兴趣。这种错误的广告投放策略，就是没有考虑到数据“沉默”的可能。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;02 马太效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;预算不够，什么都玩不转&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="0.6117216117216118" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxR6cGmLSj47VNFxiaB1nW8jGrj4evXL5oDgxsUSjKezoib3doaJicXEic3g/640?wx_fmt=jpeg" data-type="jpeg" data-w="1092" height="428" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;马太效应出自圣经《新约·马太福音》里的寓言，耶稣谈到“凡有的，还要加倍给他多余的；没有的，连他所有的也要夺过来”。这里先不谈宗教的阐述，马太效应这其实就是在描述，强者愈强、弱者愈弱的现象。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;作为一个常用的经济和社会术语，它被广泛应用于社会心理学、教育、金融以及科学领域。当人们一开始获得不错的成绩后，往往能得到正面评价和资源支持，而之后就会利用这些不断正面刺激，做出更好的成绩。相反，如果开始不顺利的话，时间越往后推迟，能够“逆转”的机会就越小。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;之前滴滴和快的红包补贴，共享单车的疯狂投放，大部分也是因为这个原因。有些观点认为，这些烧钱抢用户的行为太浪费，还没盈利就先画大饼，凭空制造虚假繁荣。然而我们假设其中的一方出于成本考虑，不参与疯狂推广的比拼。那么无论在商业规模和传播口碑，都会落于竞争对手的下风。即使能在短暂阶段内保持盈利，但随着市场的扩大、竞争的加剧。弱小的一方会面临融资困难、招不到人才、话语权弱等情况，陷入被动，当然无法避免今后被收购的处境。所以为了保持经营独立和市场主动权，必须要参与到烧钱大战之中。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 14px;"&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;03 羊群效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;关于刷数据，我会给你一个不得不接受的理由&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="0.6666666666666666" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxAfo1oK2GwztnuDZjiaRGZSlhqYNatE8Rj4WibqGQcbu7pnzgSlVmTbCg/640?wx_fmt=jpeg" data-type="jpeg" data-w="1125" height="466" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;羊群效应又称“从众效应”，是指个人的观念或行为由于真实的或想象的群体的影响或压力，而向与多数人相一致的方向变化的现象。因为每个人的信息接收渠道都是有限的，所以当出现未曾了解的新事物时，大部分倾向于观察周围人的反应，并从中寻找示范和参照。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;利用从众心理，是营销的常用手段之一。比如人们在逛街时，会下意识觉得需要排队的奶茶店，会比较好喝。所以有时候老板会去雇人排队，造成热销的假象。但其实排队的奶茶店并不一定好喝，可能只是制作速度慢，材料供应不及时等等。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;不仅是线下，线上营销也可以利用这种心理。在许多品牌的眼中，网红大V只是一个个小型媒体，找他们合作也只是换个平台投放广告。所以他们会深恶痛绝刷数据等造假情况。但如果把网红看作内容生产者，只是在推销自己的内容“产品”的话，他们其实更类似于沿街叫卖的商贩。如果一篇内容的阅读、点赞等数据很不错，那么在粉丝（消费者）的眼中价值会更高、更有说服力。所以适当地增加“数据”，反而会帮助品牌传播。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;但这个行为有一个风险，就是要考虑内容质量，以及粉丝的心理落差。如果排了两个小时队伍，结果发现并不好喝，或是不是“那么的”好喝，就会对品牌留下极深的负面印象。发誓说“再也不喝了”的例子，其实并不少见。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;04 口红效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;色号试得多，可能是因为穷&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;span style="font-size: 14px;"&gt;&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="1" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxx6Y4HzwH3qFWLUT6NKRicCpwiaicOqdlcfBBibsOJQsZlCfT6z1unic1tdQ/640?wx_fmt=jpeg" data-type="jpeg" data-w="750" height="700" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;口红效应是20世纪30年代美国大萧条时期提出的经济理论。由于当时社会经济不景气，许多人没有工作，生活拮据。然而人们发现即使如此，口红的销量却不减反增。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;为什么没什么钱的人，会去买口红这个非必需品？因为在人们普遍观念中，口红是一个“低价的奢侈品”。当人们受限于经济条件，无法购买大宗商品满足消费欲望时，口红则是一个性价比很高的替代品。同时在使用口红的过程，会使人们更加自信，对生活的困境和未来的更加乐观。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;其实不只是口红，许多娱乐消费品也存在“口红效应”的现象。例如经济下行时期，电影市场通常比较火热，文化市场也会更加繁荣。这些商品会使人们满足消费欲望，从现实的烦扰中挣脱出来，价格通常也可以负担的起。好莱坞的崛起，日本动漫产业腾飞，都是在社会经济萧条的阶段出现。所以也可以从这个思路去思考，为什么国内的电影和动漫，一直很难达到美国日本的高度。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;&amp;nbsp;&lt;/span&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;05 肥皂水效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;客户：我有一个好消息和坏消息，你想听哪个？&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;img border="0" class="" data-ratio="0.5967078189300411" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxIoXUwSFSscjXtQhsEuT27eURtbCbAHibXIFk2VPcPTXs6nlia1TCpIAA/640?wx_fmt=jpeg" data-type="jpeg" data-w="486" height="418" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;这是美国前总统约翰·卡尔文·柯立芝提出的概念：当批评夹杂在赞美中，能减少被批评人的抵触，使得批评更容易被接收。也就是说当正面和负面信息混杂时，人们对负面信息应激反应会下降。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;在日常的营销活动中，品牌有时会遇到一些突发的负面事件。这时候就需要立刻引入危机公关处理，防止事态进一步恶化。而很多品牌在公关声明时，对已经既定的负面事实，习惯采用推迟、避重就轻的手段，试图模糊概念。但往往收效甚微，得不到消费者理解和认可。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;而如果灵活运用肥皂水效应，向公众及时公布阶段性的补救措施，或一些有利情况。同时，积极承认负面状况的存在。消费者的注意力将从事件的恶劣后果，转移到品牌的后续补救上，其实一定程度上会削弱品牌负面的关注度。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;06 锚定效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;为什么每到双11，就是忍不住剁手？&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="0.616" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnx2sI8EcZvEa5vviceic5lFr5NfsKsKAwxcnFFpBMEUtD40Nnk5If2o0Zw/640?wx_fmt=jpeg" data-type="jpeg" data-w="1000" height="431" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;锚定效应指人们在对人或事物判断时，会被第一时间接受信息所影响，并以此为参照不断调整。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;锚定效应在生活中很常见。比如面试时如何让别人青睐你呢？一般面试时间通常有几十分钟，但其实在前5分钟之内，面试官就已经能判断求职者是否合适。而接下来的交谈，仅仅是对细节的补充和略微调整。所以可以看到许多的求职攻略，尤其强调打造第一印象的重要性。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;除了求职找工作，电商平台的促销活动，也是运用了这个心理效应。人们为什么会喜欢在网上买打折商品？除了不用出门购买以外，促销力度的夸张展示，也是电商购物充满诱惑力的重要原因。在人们搜索商品时，会将原价和折扣价作比较，减免越多越能提升商品的诱惑力。尽管商家可能永远不会按“原价”来买，但作为消费者的角度来看，仍会觉得占了很大便宜。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;07 诱饵效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;给你三个选择，A买、B一定要买、C不买干嘛？&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/strong&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;img border="0" class="" data-ratio="0.4152410575427683" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnx7Fes3n7P5S7mfS12zMP1Mq53ndkpARq0UFFb3dlAkA9ckV0JyN2yjg/640?wx_fmt=jpeg" data-type="jpeg" data-w="643" height="291" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;如果出现各有优劣的两个选项，我们会变得难以抉择。而假如能引入新的选择，就会迅速打破原先的平衡，引导人们选择其中之一，这就是诱饵效应。也就是说，当我们拥有多种选择的时候，其实是被剥夺了选择的权利。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;被“诱饵”帮助的选项通常称为“目标”，而另一选项被称为“竞争者”。当我们在商场购物时，经常会遇到导购员的解说推荐。他们常用的推销方式，就是将主推商品和质量不占优势的商品作比较，加强主推品的说服力，这是一种非常奏效的推销手段。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;除了推销时会运用诱饵效应，在新产品上市时也可以利用它。例如手机厂商在发布新品时，大多会同时发布3款产品。“低配版”、“豪华版”、“豪华升级版”，这3款产品通常在价格和性能上呈阶梯式分布，但差距并不相等。之所以发布三款，并不是为了满足不同人的需求。而是利用诱饵效应，凸显其中一款产品的性能、价格的相对优势，使它成为销量提升的主力爆款。而剩下的两款产品，则充当干扰消费者购买抉择的“诱饵”。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;08 曝光效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;品牌为什么要追热点？&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;span style="font-size: 14px;"&gt;&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;img border="0" class="" data-ratio="0.5722713864306784" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnxSFss5Nr53gRabIvHYdpaK59Sico7TLic5jvP849ic5XE4LsXFo39iadOEg/640?wx_fmt=jpeg" data-type="jpeg" data-w="339" height="401" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;曝光效应是一种心理现象，指的是我们会偏好自己熟悉的事物。在20世纪60年代，心理学家扎荣茨进行了一系列实验，证明只要让被试者多次看到不熟悉的刺激，他们对该刺激的评价就要高于其他被试没有看到过的类似刺激。而这一系列实验，也使得曝光效应被发现和研究。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;尽管楼下的小饭店价格比较贵，但你还是会觉得比其他饭店好吃；同样都是陌生人，老乡就是比较热心实诚。而广告就是曝光效应的产物，著名的AIDAS理论模型，也将曝光的“吸引注意”作用，排在了创意“诱发兴趣”之前。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;如今品牌社会化上蹭热点、借势等营销行为，其实就是一种曝光效应。企业在微博、微信等平台上开设账号，发布内容。这不仅是单纯地“戏多”刷存在感，而是通过发布内容获得多次曝光。一旦消费者有了熟悉感后，就会影响购买的决策。比如说到安全套，你最先想起哪个品牌呢？&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;但人们研究发现曝光效应，也有负面作用：&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;“&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;一开始就让人感到厌恶的事物，无法产生曝光作用；&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;如果两个人彼此之间已经有一些冲突，或是性格上本来就不合，越常见面反而愈扩大彼此的冲突；&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;过多的曝光会引起厌烦。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;09 沉没成本效应&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;沉迷农药、无法自拔，你也配姓赵？&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="0.7796257796257796" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnx5WZOSMLDdX57GDfxkict8mWK4fGPMWz6O7UkSqzGic6EiaRNx1uHe0K1Q/640?wx_fmt=jpeg" data-type="jpeg" data-w="962" height="546" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;沉没成本是指那些已经发生，未来无法改变的决策成本。人们在决定是否去做一件事情的时候，不仅是看这件事对自己有没有好处，而且也看过去是不是已经在这件事情上有过投入。如果已经付出的成本大于维持现状的损失，人们会倾向于维持原状。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;而对沉没成本理解最深刻的绝对是游戏行业，为什么玩游戏很容易就会上瘾？当用户还处于新手阶段时，游戏往往会安排一些简单的任务。这些任务通常很简单，轻轻松松就能够完成，而之后“通关”的难度会越来越大，但玩家们却难以自拔。因为当玩家在其中投入时间和金钱时，受到沉没成本效应的影响，如果要求玩家放弃游戏，等于变相否认之前的努力，“弃坑”对玩家来说损失实在太大了。只好被迫继续游戏。而为了鼓励玩家保持活跃度，游戏运营方总会会提供各种礼包或是任务活动，不断提升玩家的付出成本，让他们更难以离开游戏。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;h3 style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="color: rgb(255, 0, 0); font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="color: rgb(255, 0, 0);"&gt;10 墨菲定律&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/h3&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em; text-align: center;"&gt;&lt;span style="font-size: 15px;"&gt;&lt;strong&gt;&lt;span style="font-size: 14px;"&gt;千万不要改……不要改……好吧，改！&lt;/span&gt;&lt;/strong&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;img border="0" class="" data-ratio="0.6625441696113075" data-src="https://mmbiz.qpic.cn/mmbiz_jpg/JVqP76tia2RkiazreicBKsUzOqA2617rNnx5FYJEibIiapE1XG5BmvBRFbS9IC8UCScKUIq3zfvIIhiaZamX41RCMibyQ/640?wx_fmt=jpeg" data-type="jpeg" data-w="1132" height="464" style="max-width: 700px; border-width: 0px; border-style: none; border-color: initial; display: inline; width: auto !important; visibility: visible !important;" title="不懂点社会心理学，怎么好意思说是广告人？" vspace="0" width="700"&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;墨菲定律由爱德华·墨菲提出，他发现如果事情有变坏的可能，不管这种可能性有多小，它总会发生。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;在一次实验的项目中，要求受试者要求将16个火箭加速度计进行悬空装置，每个加速度计有两种方法可以安装。但最后却发现，竟然有人将16个加速度计全部安装在错误位置，而这种情况发生的几率是2的16次方——六万五千五百三十六分之一。&lt;/span&gt;&lt;/p&gt;&lt;p style="letter-spacing: 1px; line-height: 1.75em;"&gt;&lt;span style="font-size: 14px;"&gt;墨菲定律的成立，要建立在两个基础条件上：发生几率大于0，且样本数量要足够大。墨菲定律的存在，不是宣扬宿命论。而是提醒人们不要盲目乐观，重视所有糟糕事件的可能性，即使它发生几率非常低。如果觉得自己会搞砸事情，一定要做好预备应急方案。如果觉得时间很紧，就一定要及早寻求帮助。当然，如果认为工作只是混口饭而已，并不打心底里认为，自己会成为优秀的广告人。那么迎娶白富美，走上人生巅峰，可能真的不会实现哦。&lt;/span&gt;&lt;/p&gt;&lt;p&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;p&gt;&lt;span style="max-width: 100%; color: rgb(178, 178, 178); font-size: 12px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;由数英编辑 Roy 整理发布&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-bottom: 20px; max-width: 100%; min-height: 1em; font-size: 16px; white-space: normal; background-color: rgb(255, 255, 255); line-height: 2em; color: rgb(51, 51, 51); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; color: rgb(178, 178, 178); font-size: 12px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;数英网(digitaling.com)是中国顶级数字业界平台，探讨品牌营销、市场传播、广告创意设计等&lt;/span&gt;&lt;br style="max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; font-family: 微软雅黑; line-height: 23.2727px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; font-size: 12px; box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;span style="max-width: 100%; color: rgb(255, 255, 255); background-color: rgb(192, 0, 0); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="max-width: 100%; min-height: 1em; color: rgb(62, 62, 62); font-size: 16px; white-space: normal; line-height: 25.6px; text-align: center; background-color: rgb(255, 255, 255); box-sizing: border-box !important; word-wrap: break-word !important;"&gt;&lt;img class="" data-ratio="0.65" data-s="300,640" data-src="http://mmbiz.qpic.cn/mmbiz/2Tv8S7ZqVcDeAC74kia76APicgyUDQHGk2gJhvNclbz25DpQUwtwZJJ9zMXOv0Rwia96HTgTI2Ouft0fWn17z1B4w/640?wx_fmt=jpeg" data-type="jpeg" data-w="640" style="line-height: 25.6px; box-sizing: border-box !important; word-wrap: break-word !important; visibility: visible !important; width: auto !important;" width="auto"&gt;&lt;/p&gt;&lt;/div&gt;&#xD;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57396-%E5%B9%B2%E8%B4%A7-%E7%A4%BE%E4%BC%9A-%E5%BF%83%E7%90%86%E5%AD%A6</guid>
      <pubDate>Mon, 28 Aug 2017 22:12:15 CST</pubDate>
    </item>
    <item>
      <title>大型广告系统架构概述 - TigerMee        - CSDN博客</title>
      <link>https://itindex.net/detail/57312-%E5%B9%BF%E5%91%8A-%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84-tigermee</link>
      <description>&lt;div class="article_content tracking-ad" data-dsm="post" data-mod="popu_307" id="article_content"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;img alt="" src="http://img.blog.csdn.net/20160403233215524?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" style="line-height:25.6px; text-indent:0em"&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;在互联网江湖中，始终流传着三大赚钱法宝：广告、游戏、电商。三杰之中，又以大哥广告的历史最为悠久，地位也最为不可撼动。君不见很多电商和游戏公司，也通过广告业务赚的盆满钵满。其发迹于Y公司，被G公司发扬光大，又在F公司阶段性地完成了其历史使命。F公司，&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;在移动互联网兴起之际，利用其得天独厚的数据优势，终于能够回答困扰了广告主几百年的问题：我的广告究竟被谁看到了？浪费的一半的钱到底去了哪里？&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;从用户角度来看，广告其实是充斥着互联网的每个角落，但正如习惯成自然一样，对于越常见的事物，越少有人究其根本。对于互联网技术人员来说，由于广告业务具有高度的垄断性，能够接触到其本质的工程师相对较少，尤其有过大型系统经验的人更加稀缺。本文的目的在于对大型广告系统的整体架构和其中的设计权衡点有一个全面的介绍，为有志从事该行业的工程师提供一套思考的思路。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;另外有几点说明。第一，广告系统一般分为搜索广告和上下文广告，由于上下文广告系统面临的问题要比搜索广告系统更加丰富，因此本文专注于讨论上下文广告系统。第二，本文适合对广告业务有一定了解的工程师，对于业务不了解的同学，推荐阅读刘鹏博士的&amp;lt;&amp;lt;计算广告&amp;gt;&amp;gt;。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;hr style="margin:0px; padding:0px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:2em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;俗话说，离开业务谈架构都是耍流氓&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;。&lt;/strong&gt;用一句标准的报告性语言介绍大型广告系统的特点就是：&lt;span style="margin:0px; padding:0px"&gt;&lt;strong&gt;处理的&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;数据量特别巨大，响应速度要求特别快，数据实时性要求特别高，系统可用性要求特别高&lt;/strong&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;。面对种种不可思议的困难，&lt;strong&gt;最初的一批误打误撞进入广告行业的的互联网工程师们，本着&lt;/strong&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;赚钱&lt;/strong&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;的目的，通过演杂技一般的对各种技术的拼接，出色地完成了任务&lt;/strong&gt;。下面逐条分析一下系统特点。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;ul class=" list-paddingleft-2" style="margin:0px; padding:0px 0px 0px 30px; width:528.188px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;li style="margin:0px; padding:0px; clear:both"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;数据量特别巨大&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;在上下文广告中，系统中一般主要包含四种数据（广告系统所有问题的讨论一般都围绕这四种数据展开）&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;广告本身的数据&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;。一般包括名字、出价、投放时间、有效性（预算）、标题、描述、跳转链接、图片、视频等。这里的数据量一般不会特别巨大。几十万的广告主，已经足以支撑起业内顶尖的广告公司，广告的数量会比广告主的数量大2个数量级左右。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;广告的定向数据&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;。其数据量和系统提供的定向维度有关。例如用户的搜索记录定向，网页分词定向，购买的商品记录定向，APP安装列表定向，用户人群定向等。其中每一种定向维度中，广告主都可以设置大量的定向数据。例如搜索记录定向中，广告+关键词的组合个数甚至会超过int最大值，如果在内存中高效地组织这些数据，是一个挑战。&lt;/span&gt;&lt;/p&gt;&lt;blockquote style="margin:0px; padding:0px 0px 0px 10px; border-left-width:3px; border-left-style:solid; border-left-color:rgb(219,219,219); font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;插一条案例。在团购大战时代，某美国团购鼻祖高调杀入中国，曾经创下过购买百万级关键词的记录，当然最后被中国的资本市场实实在在地教训了一把，结果大家都知道。类似的不理智行为还曾发生在视频大战、电商大战、分类信息网站大战，最终要么合并，要么抱大腿，唯留得广告公司内心窃喜，期待下一场大战爆发。&lt;/span&gt;&lt;/p&gt;&lt;/blockquote&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;用户的特征数据&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;。&lt;/strong&gt;其数据量和面向的市场有关。如果面向的是中国市场，那么就要做好处理世界上最复杂问题的准备（下一个这样体量的市场是印度）。君不见各家PR稿，没有3亿用户都不好意思出来打招呼，且不说数据量是真是假以及是否有用，起码这表明了大家都认可“用户数量是衡量广告系统优劣的一大标准”。进一步说，特征数据是根据用户的行为数据计算出来的（例如浏览过哪些页面，购买过什么物品）。数亿的用户，一般都会用历史一段时间的行为数据和当天的行为数据，计算出用户的历史特征和实时特征。注意，&lt;span style="margin:0px; padding:0px"&gt;用户的行为数据包括用户在广告系统内部和外部两种行为数据&lt;/span&gt;。用户在广告系统内部的行为数据包括用户看到广告的展示、点击广告、以及发生转化行为（CPA结算方式）等。用户在广告系统外部的行为数据包括网页浏览记录、交易记录、APP使用记录等。&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;总体数据量是TB级别，而且也涉及到大量的计算，如何高效地计算和存储这些数据，并且保证高效的查询，是用户数据处理的核心问题。当然，用户数据是需要实时更新的，如果保证实时性在下文中讨论。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;广告展示环境的特征数据&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;。&lt;/strong&gt;展示环境一般分为网页和APP。处理方法和用户特征数据类似，区别在于量级更加大，涉及的运算更加多。试想，将中国所有（重要的）网站的页面爬取下来并分词，再从其中提取出页面的特征信息，需要处理的数据量级有多少。同时，页面可能会经常变化，因此这项工作需要定期重做。这里存在着投入和产出的衡量，例如访问量很小的网站就没必要抓取；小说类网站页面量巨大，但对广告投放的指导性很差，也可以不抓取；但垂直类网站一般都包含了明确的定向信息，是处理的重点。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;一般来说，用户特征和广告展示环境特征的数据会存储在独立的分布式集群中。数据存储在内存和磁盘两级，内存中存放热点数据，磁盘中存放全量数据。同时，内存中的数据包括历史数据和实时数据两部分，实时数据流会更新实时数据，在查询的时候，集群负责同时查历史和实时两份数据，合并后将结果返回。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;广告数据和广告的定向数据一般存储在检索服务内部，在初期都是全内存的数据结构。当数据逐渐增长，超出单机内存存储极限之后，可以先进行水平拆分，即多个检索服务器组成一个分组，一个分组维护全库数据，在查询时同时查询一个分组内的每台机器，由上游机器对结果做合并。再进一步，因为并不是所有数据都可以进行拆分，数据仍然可能超出单机存储极限，这时可以采用内存-磁盘两级存储的结构，也可以拆分出单独的服务。由于广告系统一般都存在热点数据，因此内存-磁盘两级存储是优先的考虑方案。同时，仔细地设计内存中的数据结构，高效地建立索引，能带来巨大的收益。&lt;/p&gt;&lt;blockquote style="margin:0px; padding:0px 0px 0px 10px; border-left-width:3px; border-left-style:solid; border-left-color:rgb(219,219,219); font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;一般系统使用的存储结构是B+树，如果使用不当会造成内存的巨大浪费，在后续的文章中会有专门的篇幅讨论这个问题&lt;/p&gt;&lt;/blockquote&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;ul class=" list-paddingleft-2" style="margin:0px; padding:0px 0px 0px 30px; width:528.188px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;li style="margin:0px; padding:0px; clear:both"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;响应速度要求特别快&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;这一点毋庸置疑，广告对于网站或者APP是附加功能，只能比内容更快地展现给用户。同时，一些特定的广告形式对用户有跳出感，例如开屏、插屏广告，对响应时间要求更加短。另外，在RTB系统中，由于exchange的存在，增加了一次网络请求，DSP系统的响应时间就要更加短。&lt;span style="margin:0px; padding:0px; text-indent:0em; line-height:1.6"&gt;一般来说，一次对广告系统的请求必须在100ms以内完成。&lt;/span&gt;&lt;span style="margin:0px; padding:0px; text-indent:0em; line-height:1.6"&gt;其中60%-70%的时间消耗在网络中，另外的部分是主要消耗在核心检索模块中。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; text-indent:0em; line-height:1.6"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:0em"&gt;网络包括媒体和广告系统之间的网络，和广告系统各模块之间的网络交互。在设计架构时，既要保持系统一定的可扩展性和可伸缩性，也要考虑尽可能地减少内部网络请求次数。同时，在设计和选择RPC框架时，要充分考虑QPS，latency，请求长度三个因素。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;核心检索模块中，一次请求会触发多个定向策略同时检索，因此索引数据设计的是否高效是决定检索性性能的核心要素。因为大量的查询操作，CPU往往会成为检索系统的瓶颈，所以很多检索模块的QPS并不高。在实战中，对索引的使用不当也会造成性能的下降，因此需要工程能力比较强的人做 code review 把关。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;ul class=" list-paddingleft-2" style="margin:0px; padding:0px 0px 0px 30px; width:528.188px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;li style="margin:0px; padding:0px; clear:both"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;实时性要求特别高&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;实时性是指数据更新的实时性。下面逐条讨论。&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;广告数据的实时性&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;。&lt;/strong&gt;这里最频繁变化的是广告有效性和出价。例如，广告必须在广告主指定的时间段内投放，时间变化时，必须及时上下线。广告主出价发生变化时，必须立即反馈到系统中。广告预算消费完毕后，必须立即将广告下线。&lt;/span&gt;&lt;/p&gt;&lt;blockquote style="margin:0px; padding:0px 0px 0px 10px; border-left-width:3px; border-left-style:solid; border-left-color:rgb(219,219,219); font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;以CPC系统为例，曾经有很长一段时间，很多广告主利用广告系统计费的延迟性骗取大量的点击。例如，给广告设定一个很小的预算（可能只够一次点击），实际产生点击和检索系统接收到计费数据之间，可能会有分钟级的延迟，这期间发生的其他点击，产生的费用广告主就无需支付。&lt;/span&gt;&lt;/p&gt;&lt;/blockquote&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;广告定向数据的实时性&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;。&lt;/strong&gt;与广告数据类似，不展开讨论。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;strong&gt;&lt;span style="margin:0px; padding:0px"&gt;用户特征数据的实时性&lt;/span&gt;。&lt;/strong&gt;用户特征数据往往是根据用户的历史行为计算出的一些兴趣点数据，在起初对实时性的要求并不是很高，主要是因为用户的兴趣点形成往往是一个长期过程，并且变化很平缓。例如，喜欢足球的用户可能每天都会看一下体育新闻的足球页面，餐饮、母婴、装修、军事等垂直领域的用户，也会长期关注相关网站。然而随着电商的兴起，以及移动互联网将时间更加碎片化，用户的兴趣点转移变得非常快。例如，某用户最近对相机比较感兴趣，在某电商网站浏览了10分钟相机产品后离开，打开门户网站开始浏览新闻，这时如果出现了相机广告，将很可能引起转化，这其实是电商类广告最有效的定向方式——retargeting。当然，这只是为了说明实时性的重要程度而举的一个非常粗浅的例子，其中有很多细节有待考量。例如用户如果发生了购买行为之后，显然不应该再推送相机广告。有些快消类产品，重复购买率高，可以定期给用户推荐，但类似相机、汽车、房产等大宗商品，在用户发生购买后，显然不应该再继续投放，而应该投放与此相关的其他广告。在策略处理上，对不同类型的兴趣点的时效性应该区别对待。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;另外，在RTB系统中，这一点尤为重要。试想相机的例子，当用户已经发生购买之后，DSP如果没有识别出该行为，认为用户仍然具有该兴趣点，继续出高价购买流量，显然是收益极低甚至可能亏损的。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;span style="margin:0px; padding:0px; line-height:25.6px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;广告展示环境的特征数据的实时性&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;strong&gt;。&lt;/strong&gt;网页和APP的内容一般不经常发生变化，抓取一次可以在很长一段时间内是有效的。比较特殊的是新页面，尤其是内容类网站（例如旅游攻略，实时新闻），每天会产生大量的新页面，如果不能及时抓取，在广告投放过程中就无法利用广告展示环境的数据。尤其在移动端，用户的场景化更加强烈，在未来场景定向的重要程度很可能会超过用户定向。在传统的PC广告系统中，一般是将网站分级，优先级越高的网站爬去的频率越高，甚至是API对接。在移动端，有一种方案是在请求中带入网页的重要特征，例如标题、重要关键词等，这需要媒体的支持，广泛使用还有待时日。另外，实战中还往往采用&#xD;
 near line 的设计模型，即当发现请求中出现了新的页面，实时通知爬虫立即爬去并分析，在处理后续的请求中使用。&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:32px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;用户特征数据和网页/APP的特征数据往往数据量巨大，&lt;span style="margin:0px; padding:0px"&gt;为了能够高效地利用内存，存储这些数据的缓存集群往往使用了只能提供读取功能的数据结构&lt;/span&gt;。因此，一般是将历史的特征和实时的特征分开存储在不同的数据结构中，实时的特征可以随时更新，只存储当天数据，在查询时，同时查询两个数据结构，将结果合并后返回。&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px; line-height:1.6; text-indent:2em"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;ul class=" list-paddingleft-2" style="margin:0px; padding:0px 0px 0px 30px; width:528.188px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;li style="margin:0px; padding:0px; clear:both"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; text-indent:0em"&gt;&lt;span style="margin:0px; padding:0px"&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;strong&gt;系统可用性要求特别高&lt;/strong&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="margin:0px; padding:0px; text-indent:2em; line-height:1.6"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;这一点比较容易理解，分分钟都是钱，所以广告系统一般都有大量的热备冗余机器，部署在多地多个机房。除了常见的分布式系统高可用方案之外，广告系统还有如下两个重要的方案。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;strong&gt;&lt;span style="margin:0px; padding:0px"&gt;自动降级&lt;/span&gt;。&lt;/strong&gt;由于上文讨论的实时性问题，广告系统很难像传统用户类网站一样，提供一些静态的只读内容，以备在集群全体宕机的时候使用。但在系统内部设计中，可以做到模块级别的容灾，系统化点的称为叫自动降级。&lt;span style="margin:0px; padding:0px"&gt;即当某些模块出现问题的时候，或者系统资源不够用的时候，系统能够自动地移除出问题的模块，或者非核心模块，保证基本功能可用。&lt;/span&gt;比较典型的例子是，如果某一种策略的计算逻辑出现问题，或者CTR预估集群整体宕机，系统还能够正常返回广告，只是收益不如原来高。当然，自动降级只是一种防御手段，当发生这种情况的时候，应该视为线上集群整体宕机同等严重的事故，必须第一时间处理。例外的情况是自动降级是人为预期的，例如有些业务激增场景一年只发生一次，公司不可能为此常年准备大量机器，此时也可以用自动降级的手段保证业务基本可用。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;strong&gt;&lt;span style="margin:0px; padding:0px"&gt;减少启动时间&lt;/span&gt;。&lt;/strong&gt;前文提到，大型广告系统使用的数据量甚至会超过单机内存极限，这时系统的启动时间会非常可观。例如笔者曾经开发过的广告系统，即使进行了水平拆库，单机使用内存仍然达到50G以上，启动时间在30分钟左右，经过后续的优化减少到15分钟。&lt;span style="margin:0px; padding:0px"&gt;&lt;strong&gt;减少启动时间，主要好处有两个：减少运维成本，减少容灾成本&lt;/strong&gt;。&lt;/span&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;减少运维成本。和其他互联网系统一样，广告系统也会采用快速迭代的上线方案。有几千台服务器的广告系统，可能会一周多次上线。上线时，为了使服务仍然可用，会分批操作，例如一次只操作5%的机器。这对运维人员是非常痛苦的一个过程。例如1000台机器，每次操作5%，每台机器启动时间在30分钟，整体上线流程将达到10小时，这样的事情每周发生几次，显然是无法接受的。当然，可以选择流量低谷的时间段上线，增加每次操作的机器数量，这样又引入了运维成本。因此减少系统启动时间意义重大。&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;减少容灾成本。&lt;span style="margin:0px; padding:0px; line-height:1.6"&gt;很长的启动时间，会使系统在请求量激增的情况下无法及时使用冷备机器扩容，而增加很多热备机器，第一会增加成本，第二实际情况还是可能会超出预留。而且，当热备机器也难以处理所有请求时，很可能会导致刚刚启动完毕的机器也被打满而无法正常提供服务，触发雪崩效应。此时，必须切断所有服务，重启集群，等所有服务都重启并检验数据完毕后，才能开始对外提供服务。一般来说，当我们听说一些大型网站发生整体宕机，若干小时后才恢复，很可能都是发生了雪崩事故。&lt;/span&gt;&lt;/p&gt;&lt;blockquote style="margin:0px; padding:0px 0px 0px 10px; border-left-width:3px; border-left-style:solid; border-left-color:rgb(219,219,219); font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both"&gt;据说，历史上某E字辈美国购物网站曾经发生过一次这样的案例，导致整体服务宕机8小时。近两年Amazon的公开的几次事故恢复时间也都在小时甚至天级别，都和复杂的启动流程有关。&lt;/p&gt;&lt;/blockquote&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;hr style="margin:0px; padding:0px; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;&lt;br style="margin:0px; padding:0px"&gt;&lt;br&gt;&lt;/p&gt;&lt;p style="margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; clear:both; font-family:'Helvetica Neue',Helvetica,'Hiragino Sans GB','Microsoft YaHei',Arial,sans-serif; font-size:16px; line-height:25.6px"&gt;作为大型广告系统架构的开篇，本文主要阐述了大型广告系统面临的核心问题的业务来源、处理方案、以及选择方案的时候考虑的一些权衡点。在接下来的文章中，会深入每个模块，详细地讨论技术细节。下一篇会重点讨论&lt;span style="margin:0px; padding:0px"&gt;检索模块，&lt;/span&gt;欢迎关注。&lt;/p&gt;&lt;/div&gt;&#xD;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57312-%E5%B9%BF%E5%91%8A-%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84-tigermee</guid>
      <pubDate>Thu, 03 Aug 2017 08:44:36 CST</pubDate>
    </item>
    <item>
      <title>广告点击率预估是怎么回事？ - 知乎专栏</title>
      <link>https://itindex.net/detail/57296-%E5%B9%BF%E5%91%8A-%E7%82%B9%E5%87%BB%E7%8E%87-%E7%9F%A5%E4%B9%8E</link>
      <description>&lt;span style="font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;2016-11-08 欧阳辰 互联居&lt;/span&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;点击率预估是广告技术的核心算法之一，它是很多广告算法工程师喜爱的战场。一直想介绍一下点击率预估，但是涉及公式和模型理论太多，怕说不清楚，读者也不明白。所以，这段时间花了一些时间整理点击率预估的知识，希望在尽量不使用数据公式的情况下，把大道理讲清楚，给一些不愿意看公式的同学一个Cook Book。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;点击率预测是什么？&lt;/strong&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;ul style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: initial; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;点击率预测是对每次广告的点击情况做出预测，可以判定这次为点击或不点击，也可以给出点击的概率，有时也称作pClick。&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;点击率预测和推荐算法的不同？&lt;/strong&gt;&lt;/p&gt;&lt;ul style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: initial; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;广告中点击率预估需要给出精准的点击概率，A点击率0.3% , B点击率0.13%等，需要结合出价用于排序使用；推荐算法很多时候只需要得出一个最优的次序A&amp;gt;B&amp;gt;C即可；&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;搜索和非搜索广告点击率预测的区别&lt;/strong&gt;&lt;/p&gt;&lt;ul style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: initial; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;搜索中有强搜索信号-“查询词(Query)”，查询词和广告内容的匹配程度很大程度影响了点击概率； 点击率也高，PC搜索能到达百分之几的点击率。&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: initial; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;非搜索广告（例如展示广告，信息流广告），点击率的计算很多来源于用户的兴趣和广告特征，上下文环境；移动信息流广告的屏幕比较大，用户关注度也比较集中，好位置也能到百分之几的点击率。对于很多文章底部的广告，点击率非常低，用户关注度也不高，常常是千分之几，甚至更低；&lt;/p&gt;&lt;/li&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/ul&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;如何衡量点击率预测的准确性？&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;AUC是常常被用于衡量点击率预估的准确性的方法；理解AUC之前，需要理解一下Precision/Recall；对于一个分类器，我们通常将结果分为：TP,TN,FP,FN。&lt;/p&gt;&lt;img src="https://pic3.zhimg.com/v2-1641631d510e3c660c208780a0b9d11e_b.png" data-rawwidth="986" data-rawheight="493" class="origin_image zh-lightbox-thumb lazy" width="986" data-original="https://pic3.zhimg.com/v2-1641631d510e3c660c208780a0b9d11e_r.png" data-actualsrc="https://pic3.zhimg.com/v2-1641631d510e3c660c208780a0b9d11e_b.png" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;本来用Precision=TP/(TP+FP)，Recall=TP/P，也可以用于评估点击率算法的好坏，毕竟这是一种监督学习，每一次预测都有正确答案。但是，这种方法对于测试数据样本的依赖性非常大，稍微不同的测试数据集合，结果差异非常大。那么，既然无法使用简单的单点Precision/Recall来描述，我们可以考虑使用一系列的点来描述准确性。做法如下：&lt;/p&gt;&lt;ol style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;找到一系列的测试数据，点击率预估分别会对每个测试数据给出点击/不点击，和Confidence Score。&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;按照给出的Score进行排序，那么考虑如果将Score作为一个Thresholds的话，考虑这个时候所有数据的 TP Rate 和 FP Rate； 当Thresholds分数非常高时，例如0.9，TP数很小，NP数很大，因此TP率不会太高；&lt;/p&gt;&lt;/li&gt;&lt;img src="https://pic3.zhimg.com/v2-77e1e16ee58697a316cfe2728be86efe_b.png" data-rawwidth="718" data-rawheight="620" class="origin_image zh-lightbox-thumb lazy" width="718" data-original="https://pic3.zhimg.com/v2-77e1e16ee58697a316cfe2728be86efe_r.png" data-actualsrc="https://pic3.zhimg.com/v2-77e1e16ee58697a316cfe2728be86efe_b.png" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in;"&gt;&lt;img src="https://pic4.zhimg.com/v2-10666128633da6ea072a4c87f21d6bdf_b.png" data-rawwidth="632" data-rawheight="555" class="origin_image zh-lightbox-thumb lazy" width="632" data-original="https://pic4.zhimg.com/v2-10666128633da6ea072a4c87f21d6bdf_r.png" data-actualsrc="https://pic4.zhimg.com/v2-10666128633da6ea072a4c87f21d6bdf_b.png" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in;"&gt;&lt;img src="https://pic4.zhimg.com/v2-d70746453ced3e20a04f297169bd12bf_b.jpg" data-rawwidth="541" data-rawheight="350" class="origin_image zh-lightbox-thumb lazy" width="541" data-original="https://pic4.zhimg.com/v2-d70746453ced3e20a04f297169bd12bf_r.jpg" data-actualsrc="https://pic4.zhimg.com/v2-d70746453ced3e20a04f297169bd12bf_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in;"&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;当选用不同Threshold时候，画出来的ROC曲线，以及下方AUC面积&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;我们计算这个曲线下面的面积就是所谓的AUC值；AUC值越大，预测约准确。&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;为什么要使用AUC曲线&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。AUC对样本的比例变化有一定的容忍性。AUC的值通常在0.6-0.85之间。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;如何来进行点击率预测？&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;点击率预测可以考虑为一个黑盒，输入一堆信号，输出点击的概率。这些信号就包括如下信号&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;广告：&lt;/strong&gt;历史点击率，文字，格式，图片等等&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;环境：&lt;/strong&gt;手机型号，时间媒体，位置，尺寸，曝光时间，网络IP，上网方式，代理等&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;用户：&lt;/strong&gt;基础属性（男女，年龄等），兴趣属性（游戏，旅游等），历史浏览，点击行为，电商行为&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;信号的粒度：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Low Level : 数据来自一些原始访问行为的记录，例如用户是否点击过Landing Page，流量IP等。这些特征可以用于粗选，模型简单，&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;High Level: 特征来自一些可解释的数据，例如兴趣标签，性别等&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;特征编码Feature Encoding：&lt;/strong&gt;&lt;/p&gt;&lt;ol style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;特征离散化：&lt;/strong&gt;把连续的数字，变成离散化，例如温度值可以办成多个温度区间。&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;特征交叉：&amp;nbsp;&lt;/strong&gt;把多个特征进行叫交叉的出的值，用于训练，这种值可以表示一些非线性的关系。例如，点击率预估中应用最多的就是广告跟用户的交叉特征、广告跟性别的交叉特征，广告跟年龄的交叉特征，广告跟手机平台的交叉特征，广告跟地域的交叉特征等等。&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;特征选取（&lt;strong style="box-sizing: inherit;"&gt;Feature Selection&lt;/strong&gt;）：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;特征选择就是选择那些靠谱的Feature，去掉冗余的Feature，对于搜索广告Query和广告的匹配程度很关键；对于展示广告，广告本身的历史表现，往往是最重要的Feature。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;独热编码（One-Hot encoding）&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;假设有三组特征，分别表示年龄，城市，设备；&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["男", "女"]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["北京", "上海", "广州"]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["苹果", "小米", "华为", "微软"]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;传统变化：&lt;/strong&gt;&amp;nbsp;对每一组特征，使用枚举类型，从0开始；&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["男“，”上海“，”小米“]=[ 0,1,1]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["女“，”北京“，”苹果“] =[1,0,0]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;传统变化后的数据不是连续的，而是随机分配的，不容易应用在分类器中。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;热独编码是一种经典编码，是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["男“，”上海“，”小米“]=[ 1,0,0,1,0,0,1,0,0]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;["女“，”北京“，”苹果“] =[0,1,1,0,0,1,0,0,0]&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;经过热独编码，数据会变成稀疏的，方便分类器处理。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;点击率预估整理过程：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;三个基本过程：特征工程，模型训练，线上服务&lt;/p&gt;&lt;img src="https://pic3.zhimg.com/v2-a238723a7c09cd540c3c874f9a4777d2_b.jpg" data-rawwidth="2068" data-rawheight="1112" class="origin_image zh-lightbox-thumb lazy" width="2068" data-original="https://pic3.zhimg.com/v2-a238723a7c09cd540c3c874f9a4777d2_r.jpg" data-actualsrc="https://pic3.zhimg.com/v2-a238723a7c09cd540c3c874f9a4777d2_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;特征工程&lt;/strong&gt;：准备各种特征，编码，去掉冗余特征（用PCA等）&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;模型训练&lt;/strong&gt;：选定训练，测试等数据集，计算AUC，如果AUC有提升，通常可以在进一步在线上分流实验。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;线上服务&lt;/strong&gt;：线上服务，需要实时计算CTR，实时计算相关特征和利用模型计算CTR，对于不同来源的CTR，可能需要一个Calibration的服务。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;点击率预测的算法&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;-逻辑回归(Logic Regression)：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Logistic回归是点击率预估必须入门的一种方法，使用简单，理论容易理解，甚至有些问题可以进行Debug，了解问题原因。它的核心想法就是通过Sigmoid函数，将Y值转化成0-1；其基本公式如下：&lt;/p&gt;&lt;img src="https://pic2.zhimg.com/v2-1cc8104eda362e1e6e01001e519b7739_b.jpg" data-rawwidth="1297" data-rawheight="729" class="origin_image zh-lightbox-thumb lazy" width="1297" data-original="https://pic2.zhimg.com/v2-1cc8104eda362e1e6e01001e519b7739_r.jpg" data-actualsrc="https://pic2.zhimg.com/v2-1cc8104eda362e1e6e01001e519b7739_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;LR_SGD(随机梯度下降):&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;LR的模型有了，在训练过程中，为了提高训练的速度，常用的是SGD的优化方法。 SGD解决了梯度下降的两个问题： 收敛速度慢和陷入局部最优。梯度下降是一种常规的优化方法，但是SGD的S表示一定的随机性；梯度下降是每次都朝着全局优化方向前进，而SGD却由于随机性，有一定的曲折后，可能达到全局最优，也可能深陷于局部最优，但SGD的运行性能确实出色。&lt;/p&gt;&lt;img src="https://pic4.zhimg.com/v2-191a2369d3c675b5cc367078b7052dff_b.jpg" data-rawwidth="1464" data-rawheight="651" class="origin_image zh-lightbox-thumb lazy" width="1464" data-original="https://pic4.zhimg.com/v2-191a2369d3c675b5cc367078b7052dff_r.jpg" data-actualsrc="https://pic4.zhimg.com/v2-191a2369d3c675b5cc367078b7052dff_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;LR-FTRL&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;谷歌点击率预估在在线学习(Online Learning)积累好多年的经验，所谓在线学习就是通过线上实时处理数据而进行模型训练，而不是传统模式，把所有数据都放到一起处理(Batch Learning)，得到离线的最优解。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;LR-FTRL (Follow-the-regularized-Leader)，Google在10年就提出了一些理论基础，在13年给出了Paper，并且带有FTRL的实现伪代码，在此之后，FTRL才大规模应用在工业界。&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;img src="https://pic2.zhimg.com/v2-2d3c3f6223c436765990a853c1f447f9_b.jpg" data-rawwidth="1396" data-rawheight="1029" class="origin_image zh-lightbox-thumb lazy" width="1396" data-original="https://pic2.zhimg.com/v2-2d3c3f6223c436765990a853c1f447f9_r.jpg" data-actualsrc="https://pic2.zhimg.com/v2-2d3c3f6223c436765990a853c1f447f9_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;-FM(Factorization Machines)：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Steffen Rendle于2010年提出Factorization Machines（FM），并发布开源工具libFM。凭借这单个模型，他在KDD Cup 2012上，取得Track1的第2名和Track2的第3名。在Kaggle的主流的点击率比赛中和实际广告系统的经验，factorization machine的效果完胜LR。FM的内核和LR也非常类似，但是多增加了一部分引入特征之间的交互因素，所以FM是非线性函数内核，它非常类似我们在特征工程中采用的特征交叉，但是FM是通过训练找到那些有用的特征叉值。&lt;/p&gt;&lt;img src="https://pic3.zhimg.com/v2-acdf25859a1f0f1c08221305e0a89386_b.jpg" data-rawwidth="979" data-rawheight="401" class="origin_image zh-lightbox-thumb lazy" width="979" data-original="https://pic3.zhimg.com/v2-acdf25859a1f0f1c08221305e0a89386_r.jpg" data-actualsrc="https://pic3.zhimg.com/v2-acdf25859a1f0f1c08221305e0a89386_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;深度学习DNN&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;深度学习采用神经网络技术也在不断影响点击率技术的发展。特别是DNN的开发平台，更多的广告和用户数据，更大的计算资源（包括GPU），这都给深度学习解决点击率预估的问题，奠定了好的基础。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Google、百度等搜索引擎公司以 Logistic Regression（LR）作为预估模型。而从 2012 年开始，百度开始意识到模型的结构对广告 CTR 预估的重要性：使用扁平结构的 LR 严重限制了模型学习与抽象特征的能力。为了突破这样的限制，百度尝试将 DNN 作用于搜索广告，而这其中最大的挑战在于当前的计算能力还无法接受 10^11 级别的原始广告特征作为输入。作为解决，在百度的 DNN 系统里，特征数从10^11 数量级被降到了10^3，从而能被 DNN 正常地学习。这套深度学习系统已于 2013 年 5 月开始上线服务于百度搜索广告系统，初期与LR并存，后期通过组合方法共同提升点击准确率。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;现在越来越多的深度学习的平台，例如谷歌的TensorFlow，使用起来也非常方便，大部分工程师1-2星期就可以上手实验，对于特征工程的要求没有LR高，DNN能够对特征进行自主的优取，但是对于大规模的计算，能够直接匹敌LR算法的，还需要一段长长的时间。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;集成学习（Ensemble Learning）&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;集成学习通过训练多个分类器，然后把这些分类器组合起来使用，以达到更好效果。集成学习算法主要有Boosting和Bagging两种类型。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Boosting：通过迭代地训练一系列的分类器，每个分类器采用的样本的选择方式都和上一轮的学习结果有关。比如在一个年龄的预测器，第一个分类器的结果和真正答案间的距离（残差），这个残差的预测可以训练一个新的预测器进行预测。XGBoost是非常出色的Boosting工具，支持DT的快速实现。&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;Bagging：每个分类器的样本按这样的方式产生，每个分类器都随机从原样本中做有放回的采样，然后分别在这些采样后的样本上训练分类器，然后再把这些分类器组合起来。简单的多数投票一般就可以。这个类别有个非常著名的算法叫Random Forest,它的每个基分类器都是一棵决策树，最后用组合投票的方法获得最后的结果。&lt;/p&gt;&lt;img src="https://pic3.zhimg.com/v2-3a90a49fb4a5469d043498a9a61a556e_b.jpg" data-rawwidth="600" data-rawheight="216" class="origin_image zh-lightbox-thumb lazy" width="600" data-original="https://pic3.zhimg.com/v2-3a90a49fb4a5469d043498a9a61a556e_r.jpg" data-actualsrc="https://pic3.zhimg.com/v2-3a90a49fb4a5469d043498a9a61a556e_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;br style="box-sizing: inherit; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;各大公司的一些点击率预估的算法：&lt;/p&gt;&lt;ol style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; margin-left: 0px; padding-left: 40px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;微软 ：&lt;/strong&gt;微软在２０１０年曾经有一篇文章是关于使用《Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine 》，但这并不代表这是微软现在的技术，据说现在的技术也是Online-learning和一些组合技术的融合，另外也在尝试DNN的解决方案。&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;谷歌：&lt;/strong&gt;谷歌是比较开放的公司，LR-FTRL对整个行业的online-learning都有整体的促进作用。《Ad Click Prediction: a View from the Trenches》，谷歌内部也在不断尝试引入深度学习方法解决点击率问题，也包括展示广告的点击率预估。&lt;/p&gt;&lt;/li&gt;&lt;li style="box-sizing: inherit; list-style-type: decimal; margin-top: 10px; list-style-position: outside;"&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;Facebook:&lt;/strong&gt;&lt;/p&gt;&lt;/li&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;Facebook广告大部分情况下是没有关键词的，因此Facebook的点击率预估，其实是非常更难的问题。Facebook有一篇文章，《Practical Lessons from Predicting Clicks on Ads at Facebook》，其中介绍Facebook结合GBDT训练出一些feature，然后再传入LR进行分类；&lt;img src="https://pic4.zhimg.com/v2-d5e2b11a389c49d7d366f55ccd08a313_b.jpg" data-rawwidth="615" data-rawheight="658" class="origin_image zh-lightbox-thumb lazy" width="615" data-original="https://pic4.zhimg.com/v2-d5e2b11a389c49d7d366f55ccd08a313_r.jpg" data-actualsrc="https://pic4.zhimg.com/v2-d5e2b11a389c49d7d366f55ccd08a313_b.jpg" style="box-sizing: inherit; overflow: hidden; display: block; margin: 0.72em auto; cursor: -webkit-zoom-in;"&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;百度：&lt;/strong&gt;基本全面使用DNN的训练和之前的一些LR；&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px;"&gt;&lt;strong style="box-sizing: inherit;"&gt;小米：&lt;/strong&gt;小米使用过多种方法，包括LR-SGD, LR-FTRL, FM等，同时也在通过组合的方式提升综合效果，另外也在积极探索DNN的解决方案。&lt;/p&gt;&lt;/ol&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;点击率预测的成功要素&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;点击率预估的成功来源于两面：一面是实力，一面是运气，加油和好运！&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;strong style="box-sizing: inherit;"&gt;作者简介：&lt;/strong&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;欧阳辰，互联网广告技术老兵，小米MIUI架构师/主管，负责广告平台架构和数据分析平台，曾负责微软移动Contexual Ads广告平台，参与Bing搜索引擎IndexServe的核心模块研发，有空也会在个人微信公众号“互联居”中，分享一些互联网技术心得，订阅&lt;strong style="box-sizing: inherit;"&gt;“互联居”&lt;/strong&gt;公众号，与作者直接交流。&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;我的文章列表：&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;数据分析&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761672%26idx%3D1%26sn%3D9633ba64f5d29f7ecb2b93ecf3f62893%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;逆流而上，独辟蹊径的Oracle Exadata数据库&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761638%26idx%3D1%26sn%3D0341270411cfc8f080f2d6beba614bf9%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;彪悍开源的分析数据库-ClickHouse&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;广告技术&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761627%26idx%3D1%26sn%3D3ccae824cf5a7fc5b7c55164a6db964c%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;“自由即奴役”的Google AMP&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761497%26idx%3D1%26sn%3Da9a421564e9423447158a6672a59cb10%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;两分钟搞明白Beacon,iBeacon和EddyStone&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761489%26idx%3D1%26sn%3Ddd6b5632d5b07f207107a03622bb4768%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;预算平滑(Budget Smooth)是怎样花钱的？&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761457%26idx%3D1%26sn%3Dfd5be4e1f68df3700c51c0bbc3519faa%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;互联网广告CPM,CPC,CPA的魔咒和圣杯&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D2652761436%26idx%3D1%26sn%3Dc1938dc5427287ed5a6bf972f3a68ddb%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;拒绝垄断，走向开放的Header Bidding&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D405277759%26idx%3D1%26sn%3D441658113d7f3a798222b4a88c8372ec%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;自由之设备，独立之人格：从设备识别到跨屏营销&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D405127204%26idx%3D1%26sn%3D43119f4e1bdc2aaa5a0b2a84473fc914%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;DSP的繁华和伤心&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D404578715%26idx%3D1%26sn%3Dec2c0d3ba680a16efebe79bb3d5a5055%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;移动DeepLink的前生今世&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D404386254%26idx%3D1%26sn%3Dc135e0ac55a3a7e6f111d657416c9bbd%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;谈谈广告平台的竞价原理：GFP,GSP,VCG&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;br style="box-sizing: inherit;"&gt;&lt;/p&gt;&lt;p style="box-sizing: inherit; margin-top: 20px; margin-bottom: 20px; font-family: -apple-system, &amp;quot;Helvetica Neue&amp;quot;, Arial, &amp;quot;PingFang SC&amp;quot;, &amp;quot;Hiragino Sans GB&amp;quot;, &amp;quot;Microsoft YaHei&amp;quot;, &amp;quot;WenQuanYi Micro Hei&amp;quot;, sans-serif; font-size: medium;"&gt;&lt;a href="http://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAxMTMxNjUxMA%3D%3D%26mid%3D401541605%26idx%3D1%26sn%3Db266d3ed9018d38cc3c10c010e13a545%26scene%3D21%23wechat_redirect" class=" wrap external" target="_blank" rel="nofollow noreferrer" style="box-sizing: inherit; color: rgb(34, 85, 153); border-bottom: 1px solid rgba(64, 64, 64, 0.721569); word-break: break-all; cursor: pointer;"&gt;聊一聊小米广告平台的构建、底层模块和坑&lt;span class="icon-external" style="box-sizing: inherit; font-size: 24px; speak: none; line-height: 1; width: 16px; height: 16px; background-image: url(&amp;quot;data:image/svg+xml;utf8,&lt;svg xmlns=\&amp;quot;http://www.w3.org/2000/svg\&amp;quot; width=\&amp;quot;24\&amp;quot; height=\&amp;quot;24\&amp;quot; viewBox=\&amp;quot;0 0 24 24\&amp;quot;&gt;&lt;path fill=\&amp;quot;#262626\&amp;quot; fill-rule=\&amp;quot;evenodd\&amp;quot; d=\&amp;quot;M16.558 6H14c-.552 0-1-.448-1-1s.448-1 1-1h5c.276 0 .526.112.707.293.18.18.293.43.293.707v5c0 .552-.448 1-1 1s-1-.448-1-1V7.386l-5.03 5.03c-.39.39-1.024.39-1.414 0-.39-.39-.39-1.023 0-1.414L16.558 6zM9 4c.552 0 1 .448 1 1s-.448 1-1 1H6v12h12v-3c0-.552.448-1 1-1s1 .448 1 1v3c0 1.105-.895 2-2 2H6c-1.105 0-2-.895-2-2V6c0-1.105.895-2 2-2h3z\&amp;quot;/&gt;&lt;/svg&gt;&amp;quot;); background-size: cover; background-position-y: 2px; font-family: icomoon !important;"&gt;&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;&#xD;
     &#xD;
    &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category />
      <guid isPermaLink="true">https://itindex.net/detail/57296-%E5%B9%BF%E5%91%8A-%E7%82%B9%E5%87%BB%E7%8E%87-%E7%9F%A5%E4%B9%8E</guid>
      <pubDate>Mon, 31 Jul 2017 17:47:20 CST</pubDate>
    </item>
    <item>
      <title>你是如何被微信广告选中的？微信广告引擎与社交传播算法实践</title>
      <link>https://itindex.net/detail/57170-%E5%BE%AE%E4%BF%A1-%E5%B9%BF%E5%91%8A-%E5%BE%AE%E4%BF%A1</link>
      <description>&lt;p&gt;  &lt;em&gt;编者按：本文来自微信公众号   &lt;a href="http://mp.weixin.qq.com/s?__biz=MjM5MDE0Mjc4MA==&amp;mid=2650996734&amp;idx=1&amp;sn=b6922ea03adf11799faf04018943a614&amp;chksm=bdbf07ad8ac88ebb4a9bcc427ba15f487f3c3ad8875cac3c40b6ac2b620854854bb21c460f34&amp;scene=0#rd" target="_self"&gt;“InfoQ”（ID：infoqchina）&lt;/a&gt;，作者陈功；36氪经授权发布。&lt;/em&gt;&lt;/p&gt; &lt;blockquote&gt;微信广告自 2014 年上线以来，分别发布了公众号与朋友圈广告。微信广告系统承载了每天十亿级以上的访问量，紧密与微信平台生态相结合，同时利用了腾讯大数据体系进行效果优化。本文首先会给大家展示微信广告的整体系统架构，并介绍重要的功能模块和数据流程。其中会深入讲解广告投放时的播放节奏算法，看如何解决微信环境下的投放优化问题。&lt;/blockquote&gt; &lt;h3&gt;写在前面  &lt;br /&gt;&lt;/h3&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/b598s6igbfiu5vbv!heading"&gt;&lt;/img&gt;图中这句话，也许大家曾在朋友圈中看到过，这就是比亚迪汽车投放广告的文案。该广告效果反响非常的好，于是有人就说，这是借着大数据的商业炒作，也有人说，所谓的选中其实是被广告算法选中，微信在其后有一个复杂网络在支持。那么这背后真正的逻辑是怎么样的呢？就让本文来揭秘吧。&lt;/p&gt; &lt;p&gt;本文将分为两个部分：第一部分，由于首次对外分享，先介绍一下微信广告的产品形态以及系统架构；第二部分，介绍微信广告是如何区别于传统效果广告，在品牌社交广告上曾做过的探索与思考。&lt;/p&gt; &lt;p&gt;由于篇幅限制，微信广告引擎核心算法策略模块就不展开一一介绍。这里选择品牌广告社交投放模块介绍，一个是因为它是我们微信广告核心特色模块之一，另外业界在品牌广告播放算法层面上的分享也十分少，所以希望能够通过本文和大家多做交流。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;h3&gt;微信广告介绍&lt;/h3&gt; &lt;strong&gt;公众号广告&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/cx5lucqmhz8guuc8!heading"&gt;&lt;/img&gt;通过图中可以看到，除了传统的下载与图文外链形式之外，还有平台特色的关注类与卡券类广告。&lt;/p&gt; &lt;p&gt;最近我们也发布了广告互选平台，让流量主和广告主可以在上面进行自行交易，这也是广告产品的新形态。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;朋友圈广告&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/hx7y0qzk2a9m7yem!heading"&gt;&lt;/img&gt;如图所示的三个商业广告：宝马、可口可乐、VIVO 智能手机，在最初投放时期引发了社会热议。有些人表示收到的广告是可口可乐，有些人表示看见的是宝马广告，而有些人却在分析该类人背后的性格特点。然而，无论如何，他们讨论的话题恰好就是社交广告的精髓所在。&lt;/p&gt; &lt;p&gt;社交广告的效果，如下图右边所显示的第一个数字，其首次覆盖人群超过一亿；而第二个数字，点击互动率已超过 40%，40% 是极高的点击率，能产生这样的效果，广告的社交属性功不可没。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;h3&gt;微信广告系统介绍&lt;/h3&gt; &lt;strong&gt;投放模块视图&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/3r223l78iqhltgrm!heading"&gt;&lt;/img&gt;先来看下系统的整体模块视图，我们分为 4 个层面。&lt;/p&gt; &lt;p&gt;第一层是投放端，除了可以在腾讯广告官网上投放外，还能在公众号平台内部闭环投放。&lt;/p&gt; &lt;p&gt;第二层是播放引擎，这里主要分为检索，粗选，精选。检索就是当一个用户来了之后，根据他自身的属性，比如年龄性别地域，以及广告投放的人群，做个匹配，选择出适合该用户的广告，可能有几千个。粗选就是将这上万条广告筛选 100 个再给后面的精选模块，精选再选择一个给到用户。可见粗选是注重速度，效果次之。这里会考虑新广告的扶持，类目的多样性，和预算不要花超等问题。最后是精选，会考虑更为细致。首先就是播放的节奏控制，这是我们后面重点要讲的，就是广告以一个什么样的节奏来投放。其次，也会考虑用户体验和生态等问题。&lt;/p&gt; &lt;p&gt;第三层，主要是数据相关的模块，之后会逐个介绍一下。&lt;/p&gt; &lt;p&gt;最后是一些支持的模块，比如反作弊，监控，审核等，我们也用了很多公司的基础组件。&lt;/p&gt; &lt;p&gt;这里是从模块层面整体看了下，下面再从数据流的角度来看下广告的业务场景。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;业务数据流&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/9u0ycdccm4ucwuv9!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;首先，当用户刷朋友圈的时候，朋友圈后台就会把这个请求丢到广告引擎了，广告引擎根据自身的算法和其他数据模块综合计算给出一条合适的广告。引擎算法其中主要还会调用社交传播控制模块，在广告排序之前，先根据社交传播过程动态选定人群。用户拉取到广告之后，会对广告有各种行为，分别是曝光，点击和转化，在经过我们的反作弊模块鉴别之后，就用来计费和更新相关的数据模块。&lt;/p&gt; &lt;p&gt;而社交行为，还会进入到专门的社交扩散模块进行计算，供引擎使用。这个后面会详细讲到。&lt;/p&gt; &lt;p&gt;可以看到广告引擎的位置至关重要。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;引擎在微信广告系统下如何考虑？&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/riktl9ernop3bh6d!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;广告引擎的作用是不断调整广告主、用户、广告平台、生态方平台这四者之间的价值利益。对于用户而言，用户希望提升自己的体验，不愿看见过多的广告，不接受过多的广告骚扰，并且希望得到有价值的信息；而对于广告主，它想提升自己的效果或者品牌力；对于平台，它不仅仅为了赚钱，也要兼顾口碑；而对于生态方，即对朋友圈和公众号而言，不能有损生态方的利益，相反地，我们应该促进它的更好发展。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;用户画像体系&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/zd2v6shsxrevjnup!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;要做好广告，首先得识别准用户。那么用户画像就是帮我们做这件事的。腾讯有近千款产品，分别覆盖了社交平台，游戏平台，电商平台等，提供了丰富的行为日志。帮助我们识别用户的基本人口属性，兴趣爱好等。&lt;/p&gt; &lt;p&gt;举个例子，我们通过用户在公众号中阅读的文章，就能挖掘出用户的阅读兴趣，也可以挖掘出用户的个人状态，比如是否高端等。那如果我们再加上时间的维度，我们就能知道用户的轨迹 -- 恋爱，结婚，生子，那么也就可以推送对应阶段的广告了。&lt;/p&gt; &lt;p&gt;在移动互联网时代，我们也对用户做了设备画像，这样就可以打通多个平台的数据，大大丰富了我们的原始数据。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;互动和点击率预估模块&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/vt5qx8thyt620ooz!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;在知道用户属性之后，我们自然就想知道这个用户发生某种行为的概率，也就是广告领域里一直在说的点击率或者转化率预估问题。我们的系统已经做到全流程的实时化，从数据的收集到模块的训练更新。实时化对效果的提升是十分之大的。其次在模型的选择方面，我们也是经历了从 LR 到 FM，最后到 DNN。这也是业界发展的方向。最后也是比较特殊的地方在于我们的多目标预估问题，朋友圈广告有许多行为，比如头像点击，图片点击，名称点击等，我们需要在 10ms 内完成十几种行为的预估，这对算法和系统都是一种考验。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;h3&gt;社交播放算法实践&lt;/h3&gt; &lt;strong&gt;为什么要做社交广告？&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;首先，我们为什么要做社交广告呢？这是因为微信广告诞生在微信平台之上，而微信是目前国内最大最有影响力的社交平台，所以广告也被寄予厚望。正如之前提到我们的初衷 -- 尝试做些改变。所以，我们在设计朋友圈广告产品时候，就希望让朋友圈广告，也像朋友圈的其他内容一样，成为一个话题，在朋友间流传开来，让好友去给这个品牌代言。于是我们就这样去设计了社交广告。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/m54t3cjaoqj5ipa9!heading"&gt;&lt;/img&gt;品牌广告在朋友圈场景下，它的话题传播会更有优势。&lt;/p&gt; &lt;p&gt;首先，朋友圈广告本身就是一条普通的内容，而且收到且互动之后就会沉淀在朋友圈 timeline 中，这样后续的互动提醒都是可以全程参与的，而市面上其他的社交平台广告产品都是在出卖广告位。&lt;/p&gt; &lt;p&gt;其次，朋友圈是一个熟人网络，而且是目前市面上最优质的熟人关系网。直观的想，熟人的推荐和口碑肯定是比陌生人要有力量的多。大家想想微商为什么能火，靠得是什么。这是因为现在的营销方式已经发生变化了。传统的效果广告，我们优化素材，吸引点击，进去还要想办法促成转化，一系列的链条。而现在基于社交传播的营销越来越火，不管是微信里的微商，还是微博的大 V 推荐和软文，都是利用社交关系在做营销。这里关键点是，社交影响力越强，营销的效果就越大。&lt;/p&gt; &lt;p&gt;举个朋友圈中例子，如果你看到一个好友做微商发布一个广告后，可能嗤之以鼻，把他拉黑，然后默默同情他怎么堕落到如此地步了。但如果很多好友都在同时推荐一个商品，你还能保证不受影响吗，这可就不好说了。我们希望社交广告也能有如此的效果。&lt;/p&gt; &lt;p&gt;  &lt;strong&gt;社交广告推荐过程&lt;/strong&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/w26x5urlhu4wo279!heading"&gt;&lt;/img&gt;我们先来看下传统的效果广告推荐过程：首先，用户通过检索系统，检索出 100 条广告。然后经过基于个人兴趣的点击率预估，得出对这 100 条广告每个的点击概率，再结合广告出价，统一进行排序，排第一的广告返回给用户。&lt;/p&gt; &lt;p&gt;而在朋友圈的社交广告中，首先当然还是经过检索。然后这里不再只是根据用户点击兴趣推荐，还需要考虑用户对这个广告的社交意愿。然后，在排序之前，我们还要经过一次社交传播的投放节奏控制。看看每个广告当前适合给哪些人群投放，对用户做一轮筛选，此时 100 个广告可能只有 50 个适合投放给该用户。最后，再经过考虑社交因素的广告排序，返回一个广告给到用户。&lt;/p&gt; &lt;p&gt;下面就来具体看看这 3 个过程&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033313/dhyvnx3vqvtome10!heading"&gt;&lt;/img&gt;社交意愿、社交传播节奏控制、基于社交广告排序是社交广告投放三部曲。&lt;/p&gt; &lt;p&gt;第一阶段，社交意愿计算阶段，假设此刻有三个用户同时访问朋友圈，有宝马和可口可乐两个广告在线，该三个用户对这两个广告两两社交互动意愿；&lt;/p&gt; &lt;p&gt;第二个阶段，社交传播节奏控制，它是广告选人阶段，假如这个时刻是让三个人中最好那两个人才能收到广告，那么根据分数计算，发现此时小明此时此刻是没办法收到宝马和可乐这两个广告。但这仅仅只代表此时此刻，随着传播范围的扩散，以及小明受到越来越多的好友的影响，他在之后的某个时刻还是可能继续收到广告的。&lt;/p&gt; &lt;p&gt;第三个阶段，基于社交的排序阶段。此时用户已经拿到了那些他可以收到的广告列表，然后再把社交意愿分加入到排序公式之中，选择最合适的那条广告给到用户。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;社交意愿的计算&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033314/zbufttnjcu6dnl41!heading"&gt;&lt;/img&gt;用户的社交意愿，除了受个人主动的互动兴趣外，还受好友的影响。可以看下图下面影响力作用的几个阶段。首先，最中间，用户对两个广告有一个主动兴趣，这是不受其他人影响的。左边，有两个好友分别对两个广告进行了互动，他们与该用户的影响力都是不同的。右边，是一个传播的过程，表示假如我收到广告后，我的互动可能对其他人造成的影响。&lt;/p&gt; &lt;p&gt;我们通过一个例子来看下影响力在朋友圈环境下和品牌力感知的关系。假如你看到一个洗发水广告，可能就是超市常见的牌子，没用过也没怎么留意过。但此时已经有许多你的好友在下面点赞评论了，而且反应去屑效果真的很棒。这个时候，你可能会想到我的洗发水貌似用了还有头屑啊，那么要不要试试这个呢？此时，你可能回复一个好友说“我也试试去”，但也可能你就不回复了，不过此时你对这个品牌的印象一定是加深的。再想想这些讨论的好友中，假如还有一个是你的老板，可能平时你们都没机会说话，那这个时候要不要也点个赞表达下赞同呢？还可能能吸引下关注。这个就是社交影响力的作用，而这里的主要问题是影响力如何量化。&lt;/p&gt; &lt;p&gt;首先，好友之间的影响力评估，越是亲密的两位好友影响力越大，因此一般会基于亲密度进行模型建设。但我们通过限量的系统发现其带来的收益很小，便对其进一步的数据分析发现主要原因是目标不一致。&lt;/p&gt; &lt;p&gt;举个例子，我们与父母特别亲密，但是我们却不会在他们的朋友圈发表的内容进行评论。于是，我们进一步改进通过更加相关的行为评价影响力，即 A 能影响 B 日常互动的概率，将其定义为影响力，但该数据在一定置信度下十分稀疏，所以通过模型预估方式进行计算。&lt;/p&gt; &lt;p&gt;这里，除了基础的一些特征之外，我们还运用了几个网络特征。比如，好友关系网，正常情况下微信用户有 8 亿，那么这就是一个 8 亿 *8 亿的邻接矩阵。这个是很难用作模型训练的 feature 的。同时，还有其他的一些关系网，比如消息互动，文章阅读等。那么这里，我们采用一种叫 node2vec 的方法将这些图节点映射为一个向量。这个向量维度比较低，我们就能拿这些来进行训练。最终通过 GBDT 和 LR 来进行影响力的预估。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033314/tq61ewn1q5nr54jq!heading"&gt;&lt;/img&gt;Node2vec 是一种 embedding。首先，就是如何采用图中的节点信息可以尽量保留多一些原始的网络信息。 换到自然语言处理的场景，一般个词可以用它周围的词来表示它，这个也就是 word2vec 的思想。那同理到图中，我们就是可以用一个节点的周围节点来代表它，node2vec 就是用解决如何抽样的问题。&lt;/p&gt; &lt;p&gt;那么，我们拿到抽样后的向量就可以用 word2vec 的方法来进行训练，得出每个网络节点可表示的向量。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033314/7htiauktfnnhyaln!heading"&gt;&lt;/img&gt;前面我们已经知道了两个好友对自己的影响，那么多个好友又是如何互相影响呢？这里我们就引入了传播力模型来对这个问题建模求解。&lt;/p&gt; &lt;p&gt;传统的影响力模型有许多种，这里我列了最为常见的独立级联模型。它的原理是这样的，一个用户每个好友都对自己有一个影响力，这个影响力可以用前面我们提到的方法计算出来。初始时刻，已经有一些人是被激活的，这些人就是种子用户，具体的选择我后面会说到。然后，一个用户的每个已经被激活的好友，根据他们之前的影响力去计算一个激活概率，轮流去激活该用户。这样子迭代下去直到每轮没有新激活用户位置。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033315/jxd6gwb51ys78fj1!heading"&gt;&lt;/img&gt;传统独立级联模型直接应用会存在图中说的一些问题，所以改为上图中下面的形式（示意），但这样直接做还会存在工程上的问题。主要在于广告系统的时延要求是十分低的，假如用户有 5000 个好友，分布在几百台存储机器上，要在 20ms 内读完，这几乎是不可能完成的事情。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033315/w02bzbl29egcyuuu!heading"&gt;&lt;/img&gt;那么这种读扩散的方式不行，我们就换一个思考，采用写扩散的方式。当用户的一个点赞评论数据接收到之后，我们放入消息队列之后，然后社交扩散模块取出，根据关系链，权威度，传播力在内存中计算他对每个好友的影响，然后再告知所有好友这个信息。但是，假如是一一告知，5000 个好友就要 5000 次网络调用，这个开销也是接受不了的。所以，我们会根据路由规则和机器列表，将属于一台机器的用户合并起来写入，最小化网络调用。&lt;/p&gt; &lt;p&gt;完成这些之后，当一个用户来拉取广告时候，只需要一次网络调用，就可以拿到好友对他的影响力了。&lt;/p&gt; &lt;p&gt;注：目前为了引入更多的特征做实时推荐，我们已经将上面架构改为基于图形数据库的形式，架构上更加复杂和巧妙，之后会有文章专门再介绍。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;社交传播节奏控制&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;社交传播节奏控制的核心思想是先传播给优质人群，再让优质人群带动其他人。如下图所示，Ripple 扩散传播系统。&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033315/zcyhnvhtmiq2ay2m!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;所谓优质人群，在投放初期被定义为种子用户。他们可以通过一些方法进行挖掘：第一，广告主的粉丝，铁杆粉丝用户；第二，广告主最为了解自己的用户，因此根据广告主的需求做出定向挖掘，历史行为用户。正如大家所了解的，InfoQ 粉丝群体庞大，我们之前将粉丝和行业影响力大的人群选择出来进行投放，确定优质人群。与此同时，如果觉得量级不够，我们还可以通过 lookalike 的方法进行用户扩展，在大盘里面找到与之前两步得到的相似用户。&lt;/p&gt; &lt;p&gt;那么投放中如何确定优质人群？我们通过引入一个全局的实时排名队列来分析每个用户与每个广告实时的社交价值，在不同的时段，我们定义优质人群的函数是不同的。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;选取优质用户之后，就会在我们的 ripple 扩散传播系统中进行扩散，从种子用户阶段投放，然后逐渐向外扩展，一直到广告预算结束。过程看似简单，但实际投放是一个较为复杂的过程。&lt;/p&gt; &lt;p&gt;首先，影响力是实时动态变化的过程；其次，朋友圈广告是基于用户的拉取，而不是简单的推送，所以无法理想化的扩散。&lt;/p&gt; &lt;p&gt;在这两个背景之后，还需要面临具体如何扩散的问题，比如扩散的比例值如何确定；另外，一般品牌广告主也需要合约保量，在保量需求下完成社交扩散动作，这对系统实时性与算法都有很高要求。下面的图中列举了波纹传播系统的几个组成。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033315/kl9t10vpx421yjhk!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;strong&gt;基于社交的排序&lt;/strong&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;  &lt;img src="https://pic.36krcnd.com/201707/04033315/52xrvk0x7qig4cth!heading"&gt;&lt;/img&gt;&lt;/p&gt; &lt;p&gt;能换取别人的关注、评论、点赞的事物都可以称之为社交货币。系统内所引入的变量将它价值化、货币化。将货币化的值放入总的价值排序之中和广告主的初价以及广告主的信息进行排序，广告价值的放大代表着我们对社交传播的重视。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;h3&gt;写在最后&lt;/h3&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;p&gt;当初有很多人问，什么是社交广告？回答普遍都是在社交平台上的广告就是社交广告。开始我也以为就是这样，可是经历了一个一个优秀的案例，以及一波又一波的社会热点，我觉得，那些能让我们抒发情感，聆听好友心声的广告才称得上社交广告。我们也会继续在社交广告上继续做出创新，因为我们的目标是让广告，也可以成为生活的一部分。&lt;/p&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt; &lt;em&gt;作者介绍：陈功，腾讯微信广告引擎逻辑负责人。浙江大学计算机研究生毕业，2011 年加入腾讯微信，负责微信数据计算系统建设，以及微信基础数据的分析与挖掘工作。2014 年加入微信广告项目团队，主要负责广告引擎精选的系统架构与算法策略设计，现任微信广告引擎策略 Team Leader。平时对广告业界动态，大型系统架构，模型算法，都十分感兴趣。&lt;/em&gt; &lt;p&gt;  &lt;br /&gt;&lt;/p&gt;
      &lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>技能GET</category>
      <guid isPermaLink="true">https://itindex.net/detail/57170-%E5%BE%AE%E4%BF%A1-%E5%B9%BF%E5%91%8A-%E5%BE%AE%E4%BF%A1</guid>
      <pubDate>Tue, 04 Jul 2017 11:47:04 CST</pubDate>
    </item>
    <item>
      <title>微博广告 Hubble 系统：秒级大规模分布式智能监控平台架构实践</title>
      <link>https://itindex.net/detail/57165-%E5%BE%AE%E5%8D%9A-%E5%B9%BF%E5%91%8A-hubble</link>
      <description>&lt;div&gt;  &lt;p&gt;   &lt;strong&gt;关键词：&lt;/strong&gt;微博广告 Hubble 监控平台 D+ 大数据 机器学习 LSTM Tensorflow&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;业务背景&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Hubble（哈勃，其含义是数据如浩瀚宇宙之大，Hubble 如太空望远镜，能窥见璀璨的星辰，发现数据的真正价值）平台定位为   &lt;strong&gt;微博广告智能全景监控、数据透视和商业洞察&lt;/strong&gt;。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;计算广告系统是集智能流量分发、投放、结算、CTR 预估、客户关系管理等为一体的大型互联网业务系统。&lt;/strong&gt;随着微博业务的快速增长，广告系统复杂度越来越高，成千上万的模块需要不停地进行计算和通信，如何保证这么复杂的系统正常健康运行是一个巨大的挑战。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;微博广告 Hubble 平台每日处理 TB 级别的监控数据和万级别的报警规则，Hubble 平台利用机器学习技术进行趋势预测和报警阈值的智能调整，保证商业产品上千台服务器和数百个系统及服务的正常运行。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;下面我将详细介绍一下微博商业广告 Hubble 系统的设计原理及在智能全景监控实践中的一些思考。&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;核心问题&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;设计系统架构之前，应该首先从业务和系统等角度深度挖掘架构要解决的核心问题，对于监控平台而言，可以从平台化视角、业务视角及系统架构视角三个层面解析核心问题。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;从平台化视角考虑，监控报警平台要解决的问题是&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;    &lt;p&gt;是否能指导 RD 快速定位问题？&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;是否为业务发展的预估提供参考？&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;从业务视角考虑，监控和报警平台所要解决的核心问题主要有以下几个方面&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;    &lt;p&gt;监控指标：精准性和覆盖率（Accuracy and Coverage rate）&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;报警：实效性和准确性（real-time performance and Accuracy）&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;故障诊断（fault diagnosis）&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;自动处理（Automatic processing）&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;从系统架构及设计视角考虑，监控报警平台要能解决：&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;    &lt;p&gt;大数据分析处理能力，包括数据采集、ETL和数据抽象分析&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;数据分析处理实时性&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;大规模监控指标等时序数据存储、报警规则存储及报警触发&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;高可用性&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;数据聚合能力&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;简单的讲，Hubble 全景监控的核心功能包括提供基础监控、报警、预警服务，&lt;/strong&gt;如图1所示。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图1 Hubble全景监控服务核心功能&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;整体架构&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;Hubble 平台的整体架构如图2所示。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图2 Hubble平台整体架构图&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;如图2，Hubble 整体设计包含三个层次&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;数据采集层（data collection layer）&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;数据采集层负责将系统日志、系统指标、业务日志、业务指标等数据进行实时采集。对于日志数据，支持 flume、scribe 等日志搜集工具，也支持 filebeat、metricbeat 等文件及指标搜集工具。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;对于系统及业务指标，可以通过我们开发的 w-agent 客户端进行数据搜集，w-agent 是 Hubble 的轻量级、低资源消耗的数据采集工具，它作为微博广告标准基础工具集里的一部分，在服务器初始化时进行安装配置，通过 zookeeper 进行配置管理，支持远程更新数据采集配置和配置变更实时生效。同时，数据采集层支持通过 API 的方式直接提交数据，方便数据个性化定制以适应不同的业务需求。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;数据分析层（data analyzation layer）&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;数据分析层负责将采集到的数据进行 ETL、预处理、分析和聚合。为了提高可用性，采集到的数据同时将写入 HDFS 进行持久化，数据分析层可以根据需要，从 HDFS 中 reload 并重新计算。另外，离线部分的监控预估模块会定时进行模型训练，并将训练后的模型存储在 HDFS 中。alert trigger 模块负责根据报警规则进行报警触发监测。&lt;/p&gt;  &lt;p&gt;   &lt;em&gt;    &lt;br /&gt;&lt;/em&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;可视化层（visualization layer）&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;em&gt;    &lt;br /&gt;&lt;/em&gt;&lt;/p&gt;  &lt;p&gt;经过分析处理的数据写入到可视化层的存储系统中（Druid、ElasticSearch 和 MySQL），可视化层负责根据业务方需求，进行监控图表的展示、配置和管理，以及报警信息及规则的管理。另外，可视化层提供 APIs，允许第三方通过 API 的方式获取聚合分析后的数据以及对报警的管理。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;三层各个模块相互协作，完成从数据搜集到可视化整个流程。&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;核心功能&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;监控指标&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;经常听到同学说系统处理百万级别的监控指标，以此来形容监控平台的处理能力，当然，这个数据在一定程度上可以反映监控平台的复杂度和能力，但是我们业务真的需要这么庞大的监控指标么？实际上，很大一部分的监控指标是毫无价值或多余的，这些指标要么根本无法真实反应系统或者业务的状态，要么可以直接被其他指标取代，要么是需要结合更多的信息来分析。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;抽象出来，监控指标应该有以下几个分类。&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;机器（系统）指标&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;这部分指标，从机器资源角度，尤其是从硬件瓶颈相关的早期迹象并捕获硬件故障信号进行监控。抽象概括起来包括机器 CPU、Memory、Disk IO / Space、Net IO。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;系统指标监测的目的是：&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;ol&gt;   &lt;li&gt;    &lt;p&gt;发现机器故障&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;限流与扩容&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;应用指标&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;应用指标分为基础应用指标和非基础应用指标。基础应用指标是指能被标准化和常见应用的监控，比如 Nginx / Apache 服务器的请求状态和 access 日志及端口、MySQL 数据库端口、Hadoop 集群运行状态等。非基础应用指标，指针对基础应用指标以外的应用指标，比如某个服务的端口号指标、进程个数等。另外，对于应用的日志抽取出来的指标，也可以归类于非基础应用指标。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;业务指标&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;业务指标关注具体业务、产品的指标，如日收入走势、订单数、广告计划数等业务层面的。&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;智能化全景监控实践&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;基础监控&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;基础监控要求实时反应真实的指标波动情况，其中关键技术之一是对时序数据进行聚合，其聚合的粒度根据业务不同而有一定差异，当然也会因指标及数据处理量等因素制约。目前 Twitter、Facebook 等国外公司一般做的 30 秒甚至分钟级别聚合，大部分公司做到 10 秒级聚合已经满足业务需求。微博广告监控根据业务需求，对部分指标聚合粒度为 1 秒级。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;基础监控底层使用   &lt;strong&gt;D+&lt;/strong&gt;（Data Plus）平台提供实时的数据服务，其中   &lt;strong&gt;D+&lt;/strong&gt;平台是微博广告商业数据基础设施，负责数据搜集、存储、监测、聚合及管理，提供高可用的实时流和离线数据服务，在   &lt;strong&gt;D+&lt;/strong&gt;上可以对不同数据源及实时数据与离线数据的关联，关于   &lt;strong&gt;D+&lt;/strong&gt;技术架构细节，后续文章会进一步分享。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;D+&lt;/strong&gt;的整体架构如图3所示。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图3 D+系统架构图   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;基础指标数据、日志数据会从 D+ 流出到 ETL 部分进行数据处理，然后输入到 Druid 提供上层 Graph 展示，同时输出一部分数据（日志）进入 ElasticSearch，以便后续查询，D+ 位于 Hubble 整体架构的 data collection layer 和 data analyzation layer，具体可结合参考图2。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;趋势预测&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;目前很多企业都在尝试通过趋势预测的方式，提前预测系统或者业务的未来发展，以期望未雨绸缪，业内普遍的做法是通过统计学的方法，如 Holt Winter，ARIMA，3Sigma 等。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;此类方法的特点是简单，能结合部分历史数据进行趋势预测，然而也有很多不足，如 ARIMA 算法的一个技术难点就是时间序列的平稳化，平稳化的时间序列对于预测结果的好坏起着至关重要的作用。另一个问题是滑动平均操作带来的结果如波动锯齿明显，容易造成误报干扰的化，则加大监控监测周期。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;微博广告团队率先尝试通过机器学习的方法来预测系统指标的变化趋势，取得了一定的效果，目前已经应用于广告曝光量、互动量的趋势预测。&lt;/p&gt;  &lt;p&gt;   &lt;em&gt;    &lt;br /&gt;&lt;/em&gt;&lt;/p&gt;  &lt;p&gt;趋势预测的架构图4如下：&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图4 基于机器学习的趋势预测架构图&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;主要分两部分：离线模型训练和在线计算。离线部分的数据来源是 HDFS 存储的历史指标数据，输出为模型；在线部分根据模型进行计算后导入到 Druid 进行存储和部分聚合，通过 dashboard 可以实时展示。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;由于 LSTM（长短时记忆网络，RNN 变体）能很好抓住时间序列上下文可能存在的联系的特性，因此模型训练方面，我们选择了 LSTM 模型，Python 中有不少包可以直接调用来构建 LSTM 模型，比如 Keras，Tensorflow，Theano 等，我们选用 Keras 作为本文模型定义与算法实现的机器学习框架，选择 backend 为 TensorFlow，同时使用均方误差（mean squared error）作为误差的计算方式，并采用 RMSprop 算法作为权重参数的迭代更新方案。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;图5展示了微博广告某产品曝光量（pv）趋势预测效果图。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图5 趋势预测曲线效果图&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;注：红色为训练数据；蓝色为实际值；绿色为测试输出   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;图6展示了微博某广告产品曝光量预测值与实际值偏差的占比分布。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图6 趋势预测效果图   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;可以看到，对于 pv 预测值与实际值小于 1000 的大概占比为 73%，小于 1500pv 的占比约为 96%，按照 1000 次曝光（pv量）转化为广告计量单位为 1CPM，1.5CPM 内的误差占比 96%。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;然而，基于机器学习的趋势预测目前还不能很好支持对精度要求非常高的指标，如按点击收费的广告互动数指标。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;动态阈值&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;系统报警往往结合监控来做，是指对于某个指标触发某一个设定阈值后向相关人员发送消息提醒。目前大部分的做法是固定阈值，这个阈值是根据经验设定，其优点是简单直接、操控性强，其缺点是经验值不准，设定的 GAP 太小，报警会增加，导致误报率增加，GAP 设置过大，又会导致漏报。另外，很多数据指标的波动成周期性变化，通过经验或者人工很难设定一个合适的 GAP。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;对此，我们在趋势预测的基础上增加动态阈值，比如报警条件为趋势预测曲线上下10%，这个百分比可以根据业务进行调整。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;服务全景图——两个维度&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;假设对监控平台的要求是只允许一到两个视图，来清楚的展现服务监控状态，把所有的需求和指标进行优先级排序，可以抽取出两个关键维度，即机器维度和服务维度。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;机器维度&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;这个视图下，我们的核心是要清楚确定所有机器的基本状态，可以简化为：健康、亚健康和病态三种。健康的状态表示，机器资源使用（cpu、memory、netio、band、load 等）一切正常，可能未来一段时间（如 7 天）也会正常，机器使用者可以完全不用担心这部分机器；亚健康状态表示，机器资源存在一定风险，如高峰期网络 IO 太高，但仍然未达到影响机器正常运行的程度，机器使用者需要考虑机器 IO 类型或者扩容，以便应对短期可能产生的压力；病态是指机器已经出现某个资源的消耗上限，如磁盘满，需要机器使用者立即处理。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;根据这样的需求，我们需要设计的是这样一个视图，如图7所示：&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图7 服务全景图：机器维度&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;当某个机器有异常，能展示当前机器异常级别、时间及具体异常信息。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;服务维度&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;在这个视图下，我们关心的核心问题是，业务应用运行是否正常，整个链路是否通畅，是否有异常和告警，影响了多少节点。能够查看命名空间下的所有关联服务上下游整体健康状态，针对异常节点可以展示异常原因和监控报表。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;同时，结合自动化平台，将服务之间的上下游关系（拓扑图）进行展示，如图8所示。 &lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;&lt;/p&gt;  &lt;p&gt;   &lt;img&gt;&lt;/img&gt;&lt;/p&gt;  &lt;p&gt;图8 服务全景图：服务维度&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;br /&gt;&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;智能恢复触发器&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;恢复触发器的功能是在某条报警被触发时，由系统来进行一定程度的维护工作，比如降级或者迁移。其设定目标一定是要可扩展的，而且要能支持用户自定义触发器。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;目前 Hubble 系统设计上只是简单支持了类似服务 restart、reload、stop 等标准触发器，还有不少的路要走。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;后记&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;监控系统首要解决的问题是指标覆盖率，大而全，在此基础上做深耕，提高准确性，最后是精简和抽象，发现数据后面最本质的东西。&lt;/strong&gt;微博广告基础架构团队在监控方面有一定的积累，并率先在监控中利用机器学习技术进行了一部分尝试，未来将在智能预测和服务自动化处理（降级、恢复等）方面进行更深入的尝试。&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;作者介绍&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;blockquote&gt;   &lt;p&gt;彭冬 Andrew（微博 @    &lt;strong&gt;AndrewPD&lt;/strong&gt;，微信    &lt;strong&gt;justAstriver&lt;/strong&gt;）&lt;/p&gt;   &lt;p&gt;    &lt;br /&gt;&lt;/p&gt;   &lt;p&gt;新浪微博商业产品部架构师，目前负责广告核心引擎基础架构、Hubble 系统、D+ 商业基础数据平台建设及相关管理工作。关注于计算广告、大数据、人工智能、高可用系统架构设计。&lt;/p&gt;   &lt;p&gt;    &lt;br /&gt;&lt;/p&gt;   &lt;p&gt;IOTEP - 开放创新，崇尚技术，追求极致    &lt;em&gt;Innovation and Open, Technical, Extremely Perfect&lt;/em&gt;&lt;/p&gt;&lt;/blockquote&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;推荐阅读&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;ul&gt;   &lt;li&gt;    &lt;p&gt;     &lt;a href="http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&amp;mid=2653548547&amp;idx=1&amp;sn=bffe32cb7e0365a00e0cc60609ba644b&amp;chksm=813a619bb64de88d12da51aff3cdcf29f6c8ef1f47c0defa32fcb3e86276607565a21bdfdff3&amp;scene=21#wechat_redirect" target="_blank"&gt;如何构建日请求数十亿次高性能高可用广告系统：微博广告架构解密&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;     &lt;a href="http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&amp;mid=405484332&amp;idx=1&amp;sn=3c68a053ab3ef82f27c29a9ba942507b&amp;scene=21#wechat_redirect" target="_blank"&gt;小米开源监控系统OpenFalcon应对高并发7种手段&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;     &lt;a href="http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&amp;mid=2653548190&amp;idx=1&amp;sn=af554ae5fb8c437f78989bc4a05f0674&amp;chksm=813a7f06b64df610a31da1cf470b56bbce0c98ec59a71871f1e4787dc607a33bcdfdf40aaf35&amp;scene=21#wechat_redirect" target="_blank"&gt;基于Spark GraphX实现微博二度关系推荐&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;   &lt;li&gt;    &lt;p&gt;     &lt;a href="http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&amp;mid=2653547643&amp;idx=1&amp;sn=c06dc9b0f59e8ae3d2f9feb734da4459&amp;scene=21#wechat_redirect" target="_blank"&gt;Mercury:唯品会全链路应用监控系统解决方案详解(含PPT)&lt;/a&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ul&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;本文作者彭冬，转载译文请注明出处，技术原创及架构实践文章，欢迎通过公众号菜单「联系我们」进行投稿。   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;br /&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;高可用架构&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;改变互联网的构建方式&lt;/strong&gt;&lt;/p&gt;  &lt;p&gt;   &lt;strong&gt;    &lt;img width="auto"&gt;&lt;/img&gt;    &lt;br /&gt;&lt;/strong&gt;长按二维码 关注「高可用架构」公众号&lt;/p&gt;&lt;/div&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>dev</category>
      <guid isPermaLink="true">https://itindex.net/detail/57165-%E5%BE%AE%E5%8D%9A-%E5%B9%BF%E5%91%8A-hubble</guid>
      <pubDate>Mon, 03 Jul 2017 08:00:00 CST</pubDate>
    </item>
    <item>
      <title>万字干货｜移动应用广告之商业变现的实现策略</title>
      <link>https://itindex.net/detail/56996-%E4%B8%87%E5%AD%97-%E5%B9%B2%E8%B4%A7-%E7%A7%BB%E5%8A%A8%E5%BA%94%E7%94%A8</link>
      <description>&lt;blockquote&gt;  &lt;p&gt;从事移动广告商业变现多年，总是觉得产品与商务的同事是一对“欢喜冤家”。站在开发者的角度，关注用户体验最优是无可厚非的，但“养家糊口”的问题关系着我们的生存。其实两者并没有那么根本地对立，只是缺乏一个统一的目标和相对协调的方法。&lt;/p&gt;&lt;/blockquote&gt;
 &lt;p&gt;  &lt;img alt="" height="350" src="http://image.woshipm.com/wp-files/2017/06/23KzscxAKVlKhZOsd6bK.png" width="800"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;本文大纲如下：&lt;/p&gt;
 &lt;blockquote&gt;  &lt;p&gt;01 概述&lt;/p&gt;
  &lt;p&gt;02 广告交易模式&lt;/p&gt;
  &lt;p&gt;03 参与者&lt;/p&gt;
  &lt;p&gt;04 广告样式设计&lt;/p&gt;
  &lt;p&gt;05 变现实验流程&lt;/p&gt;
  &lt;p&gt;06 技术对接流程&lt;/p&gt;
  &lt;p&gt;07 推广物料设计&lt;/p&gt;
  &lt;p&gt;08 相关的数据指标&lt;/p&gt;
  &lt;p&gt;09 去广告化&lt;/p&gt;
  &lt;p&gt;10 结语&lt;/p&gt;&lt;/blockquote&gt;
 &lt;h2&gt;01 概述&lt;/h2&gt;
 &lt;p&gt;端午节期间，又有不少亲戚来向我询问那些每年他们都会问一次的问题：“其实你的工作是干啥的？”我曾经回答：我是做商务拓展的、商务运营的又或者是商务策略的，然后后面附上一大堆专业名词的解释。而今年，我做了一个自认为非常接地气的回答：“我就是帮你们手机里面安装的那些app赚钱的”，这样他们似乎立刻就懂了。&lt;/p&gt;
 &lt;p&gt;如果换在几年前，可能你说app这个词汇的时候，也只有40岁以下的人能立刻明白你在说移动应用，当时app开发者还是把所有的精力放在拉新和用户盘活的问题上。但在用户跟随市场不断被教育的大环境下，我90岁的外婆今年也用微信发出了人生第一个红包。这昭示着移动app时代已经从抢占入口向可持续发展完全转型了。随着后发app的准入门槛越来越高，单纯从拉新到用户盘活的阶段，就很有可能烧光了投资者的资金。所以，这明快的节奏要求开发者必须把用户盘活和用户变现，放在同一阶段进行。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;移动应用变现的六大模式&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;能称之为模式的，必须能够符合“可持续发展”这个原则。例如，在手游开始爆发的2012~2013年，不少观点认为融资上市是一种最为便捷的变现模式。但近几年随着VC们越来越谨慎的投资态度，能够IPO的移动应用少之又少，而且就算得到一个良好的起点，也不代表能够支撑app的长远发展。因此，细挑一下，能够符合可持续原则的常用模式，有以下六个：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;1、增值服务&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;免费应用+IAP（应用内购买）这个符合“中国特色”的变现潮流无可否认还是最受热捧。大部分的用户愿意花费更多的资金在喜欢的免费应用的增值服务上，而不倾向花费哪怕一元去购买一个未曾使用过的应用。游戏类应用的IAP更多是通过“加速”来促使用户付费，简单来说就是用金钱来买时间。而社交类应用有诸如表情商店这样的虚拟商品来促成消费。工具类应用则会给你提供更多更高级的功能和特权享受，诸如人工服务或者是更大的储存空间。&lt;/p&gt;
 &lt;p&gt;增值服务变现无疑是最为传统并且比较理想化的变现模式，但能促使用户产生付费行为的前提，是用户具备非常好的粘度，且增值功能具备很强的不可替代性。不少开发者会尝试把一些基础功能也放在增值服务当中促使用户付费，那么这所必然带来的是用户的大量流失。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;2、广告服务&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;说到广告服务，必然又会触及开发者们的敏感神经。原因在于其与用户体验总是背道而驰。但原生广告的出现无疑是最大程度的降低了对用户体验的损害。原生广告不限形式，融入产品，不妨碍用户的正常使用体验，我们将会在后面铺开详叙。&lt;/p&gt;
 &lt;p&gt;而我认为广告服务是对比起IAP更具备可持续变现能力的模式，原因在于它并不需要用户为了使用你的app功能而买单。而对广告产生点击兴趣，并且最终形成购买的用户来说，广告并没有对其产生负面体验，反而是一种需求的满足。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;3、电商导购&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;从严格意义上说，电商导购也属于广告服务的一种，但他的潜在价值却比起其他广告服务模式高出很多。最明显的例子就是在新浪微博大部分的流量都导入了天猫和淘宝之后，其广告收入就已经超过了新浪门户收入的一半。并且对比起其他的广告服务，电商导购似乎对于用户体验的破坏是最小的。原因在于购物俨然已经成为了用户的最基本需求，也似乎变成了移动app的基本功能板块。&lt;/p&gt;
 &lt;p&gt;但并非所有的移动app使用电商导购模式都能创造出可观的收入。它要求开发者具备良好的技术对用户进行个性化的商品推荐。并且在不具备大流量的前提基础下，做电商导购往往掷地无声。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;4、应用分发&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;同样地，应用分发其实也属于广告服务变现模式的一个分支。但它更倾向于工具类的超级app使用。只要能让用户更为方便快速地获得想要的APP，那么应用分发的变现潜力无疑是巨大的。&lt;/p&gt;
 &lt;p&gt;但移动分发市场的争夺异常残酷，百度、豌豆荚、腾讯应用宝、360手机助手呈现出瓜分天下之势。正所谓“得入口者得天下”，不是“装机必备”类的超级app，通过应用分发来变现无论规模还是可持续性，都显得捉襟见肘。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;5、硬件销售&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;易信的“青果摄像头”、墨迹天气的“空气果智能空气监测仪”，有小部分的app已经走上了“软硬结合”这条非常具备情怀的变现之路。他们依靠用户对于app某种功能极高的使用粘度，去进行硬件配套。又或者是在某个领域具备一定的用户权威，进而发布一系列的周边产品。就反响来说，这无疑是最受聚光灯关注的变现模式。&lt;/p&gt;
 &lt;p&gt;但移动app做硬件销售，最符合“雷声大雨点小”的特征。就变现程度本身而言可谓是少之又少。无可否认存在佼佼者，但大部分都是仅仅赢得一片掌声。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;6、线下服务&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;从硬件销售转变成为提供线下服务，路子就立马宽了很多。这也是许多O2O类型的app能够持续变现的原因。照相应用推出证件照功能、养生应用上门看诊、美食社区应用提供外卖服务，出行导航类应用给你打车租车。最近几年，O2O在国内已经呈现出无所不能的态势。想必不少吃瓜群众也认为这些应用已经赚疯了。&lt;/p&gt;
 &lt;p&gt;但不难看出，在一波“烧钱”之后，能够存活下来的O2O移动应用都具备一些特点。要么能够重度垂直聚焦特色行业（美甲、医疗），要么触及了广大用户的高频刚需（打车、吃饭），要么是一些在互联网+上已经形成线上线下营销闭环的零售大佬（苏宁）。因此不得不说，线下服务的变现模式的确很美，但适用范围有限。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;广告变现的必然性&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;在看完这“诸多”的变现模式之后，如果你产生了我的路子还很多的想法，那我必须说明白这残酷的现实。其实六大变现模式不外乎两类，广告变现（广告服务、电商导购、应用分发）与非广告变现（IAP、硬件销售、线下服务）。我相信还愿意花上一点时间看这篇文章的开发者，必定已经是对钱产生了紧急且迫切的欲望。那么你就几乎只剩下广告变现这一种选择。&lt;/p&gt;
 &lt;p&gt;就如我们开文的时候提到，在如今的移动应用市场，用户盘活与用户变现必须放在同一阶段进行，这其实说白了就是一个“以战养战”的思路。非广告变现的三种模式要么就是适用范围特别窄，要么就是需要我们先花上大量的时间去培养用户粘度，积累产品优势。可惜，我们最缺的就是时间。“三军未动，粮草先行”，比竞争对手更快积累资金优势，往往才是产品发展的最大保障。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;开发者所处困境&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;我承认把手中的移动应用进行广告商务化不是一个容易的决定，因为接下来将面临一大堆的问题。在这里，我打算把开发者可能面临的疑惑以提问的形式一一列出，如果里面存在你的困惑，那么就有你继续看下去的价值：&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;我应该选取怎样的位置来尝试做广告？&lt;/li&gt;
  &lt;li&gt;广告与用户体验是必然违背的吗？有没有两全其美的方法？&lt;/li&gt;
  &lt;li&gt;是不是只售卖品牌广告，会对产品的危害度更小？&lt;/li&gt;
  &lt;li&gt;我的广告位应该如何定价？&lt;/li&gt;
  &lt;li&gt;接入第三方广告平台，是一件非常麻烦且耗费成本的事情吗？&lt;/li&gt;
  &lt;li&gt;如何把握广告主的资质审核？&lt;/li&gt;
  &lt;li&gt;广告主的投放物料设计水平参差不齐，怎样才可以更加规范？&lt;/li&gt;
  &lt;li&gt;为什么很多广告主在投放一段时间之后，都因为效果原因放弃投放了？&lt;/li&gt;
  &lt;li&gt;我的广告位置创造的收入，如何评定是优秀还是不够呢？&lt;/li&gt;
  &lt;li&gt;我现在又想把广告位去掉了，这相当于我做了无用功吗？&lt;/li&gt;
&lt;/ul&gt;
 &lt;h2&gt;02 广告交易模式&lt;/h2&gt;
 &lt;p&gt;在回答上述问题之前，我们首先要了解一些广告交易的基本知识。如果站在广告主的角度看，目前市场上存在至少五种广告交易模式：程序化直接保量交易、首选交易、头部竞价、RTB实时竞价公开交易、私有交易等。多种交易模式是根据是否存在竞价、是否保量、展示优先级别以及计费方式来划分的。具体可以参照下图。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/13h6ngFFioULbpl6K7tH.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;而站在我们开发者的角度，我们只需要弄懂其中的两个大类：一是程序化直接交易，也就是我们俗称的品牌广告；二是RTB实时竞价交易，也有人直接把它说成效果广告。而在我们的移动应用广告变现过程中，基本离不开这两种模式。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;程序化直接交易（品牌广告）&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;程序化直接交易（Programmatic Direct）简单来说就是一种不竞价的模式。媒体跟广告主协商好价格以及基本的流量预估，就可以直接进行一对一交易。一般来说会采用CPD（按天付费）或者CPM（按展示付费）的结算形式。这种包断流量的采购模式一般比较符合品牌广告主的铺量需求，因此也称为品牌广告。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;RTB实时竞价交易（效果广告）&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;RTB实时竞价（Real-Time Bidding），就是媒体将广告资源接入RTB交易市场，让广告主参与实时竞价购买流量。对比起程序化直接交易，RTB实时竞价交易的流量库存和价格都是不固定的，竞价规则为“价高者得，次高价结算”。由于广告主往往会根据自身的转化成本来设定出价，因此大部分的竞价广告也称为效果广告。效果广告的可采购库存流量，一般都是在品牌广告售出后剩下的部分，也称为剩余流量。换句话说，对于广告主而言，流量获取的优先级是品牌广告大于效果广告。移动app在广告变现的探索中，一般迈向成熟阶段的标志，就是接入RTB的交易市场，这会使整体的广告变现效率更高，售出率更稳定且更可持续。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;品牌广告 VS 效果广告&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;对于一些产品质量比较过硬的移动应用的开发者来说，售卖品牌广告几乎是广告商业化的第一步选择。当我们在陆陆续续的收到品牌广告回款的时候，不禁会提出这样的问题：我们还有必要接入RTB竞价市场，去售卖效果广告吗？&lt;/p&gt;
 &lt;p&gt;品牌广告的确存在一些天然的优势使得它更容易受到媒体的青睐。首先愿意包断流量购买品牌广告的广告主，一般都是资质齐全，具备一定知名度的品牌广告主，这样的广告用户的接受程度会更高。另一方面，品牌广告主的物料设计专业度普遍来说会更好。最后，由于其包断性质，品牌广告的售价一般会更高，就单个流量的变现水平来看，是十分可观的。&lt;/p&gt;
 &lt;p&gt;尽管如此，但我依然坚持认为，开发者们必须将广告资源尽可能地接入RTB交易市场，让更多的广告主进行竞价投放，理由如下：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;1. 品牌广告的售出率不能长期保证在60%以上，更不要说100%&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;特别对于一些属性比较垂直的移动应用来说，本来针对的广告主行业市场就很窄。如果恰逢遇到行业淡季，售出率就会更加惨淡。而竞价效果广告几乎可以保证每天都有广告主进行竞价投放，运营得好可以常年保持100%的售出率，广告变现更加可观，可持续。因此品牌广告优先售出，效果广告竞价剩余流量才是最稳定的广告变现模式。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;2. 在这个品效合一的年代，品牌广告与效果广告的界限已经逐渐模糊，品牌广告主也不是傻子&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;因此对于每个季度调整一次的刊例，我们做不做溢价好呢？我们溢价的依据又在哪里呢？答案就在效果广告的点击单价中。如果效果广告主普遍承认媒体的质量，在流量争夺的过程当中就会逐渐的提升点击单价，从单价的提升幅度，我们就可以判断出品牌广告的售价是否需要调整。一般来说，品牌广告的单天售价定在效果广告收入的3倍较为合适。因此，效果广告才是促进我们媒体整体流量变现水平提升的基石。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;3. 用户体验&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;多好的广告物料质量，整天看同一个广告主的广告谁都烦。而且在这广告即内容的原生时代，我们同样要给用户看到不一样的东西，来激发他们的点击和购买欲望。一个个品牌广告主去洽谈显然是效率低下的，因此接入RTB竞价市场，是广告主数量充裕的起码保证。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;4. 并不是所有的广告位都能作为品牌广告来售卖的&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;现在的品牌广告主更偏向购买面积大，具备一定互动性质的广告位置。例如开屏广告，线上活动，皮肤定制等等。就算是图文信息流，也未必能够受欢迎。但恰恰相反的是，效果广告主却非常喜欢这样的位置，因为更加原生的广告设计往往能够带来更好的效果。移动应用就一个开屏，但却可能存在多个tab，多个功能区域。因此只有效果广告，才能够普遍适用所有的广告形式。&lt;/p&gt;
 &lt;h2&gt;03 参与者&lt;/h2&gt;
 &lt;p&gt;在开发者进行广告变现的过程当中，会跟许许多多的人打交道，他们在整个广告投放节点上面充当着不同的角色。如果非常“粗暴”的划分的话，不外乎流量的拥有者【媒体】、为媒体服务的【供应方平台】、流量的消费者【广告主】以及为广告主或代理服务的【需求方平台】。但如果更加细致的看，开发者在整个广告变现的推进过程中，有可能接触到职能更为具体的人员，如产品PM、审核人员，物料设计师等等。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;媒体&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;从广告载体的维度来划分，媒体分为PC网页、移动网页和移动APP三种。在本文，我们仅讨论移动APP这一种媒体。媒体在整个广告投放流程当中充当“供货商”的角色。提供什么样的广告位，划分多少的流量，允许什么行业的广告主进行投放，定什么样的售出价格等等一切决策，严格意义上都是媒体最终决定的。作为广告变现过程的源头，媒体的决策很多时候将会决定起步是否正确。但往往开发者对于广告投放细节的了解又是最少的。这种落差会导致非常多的媒体在广告商务化的进程当中困难重重，这时候就需要更多的角色参与到里面来。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;供应方平台&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;供应方平台就是我们常说的SSP（Sell-Side Platform）。但目前SSP和广告交易平台Adx（Ad Exchange）的职能在国内基本上已经合体。媒体就是将广告资源对接到Adx进行售卖。Adx一般分两种：一种是聚合了各种媒体流量的第三方Adx；另一种是一些拥有自有流量的大型媒体的私有Adx。而一般在媒体资源的对接过程当中，我们会首先与广告交易平台的三种人打交道：&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/90wyM6HbEm9l4RkJbo2X.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;   &lt;strong&gt;商务拓展（BD）：&lt;/strong&gt;确定接入具体的广告资源、售价、分成方式与比例。&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;产品/运营（PM/PO）：&lt;/strong&gt;确定具体的接入方式（JS/API/SDK），以及跟进整个技术对接流程。&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;审核人员：&lt;/strong&gt;确定允许投放的广告主行业、品类，以及需要具备的基本资质。确定可投放的广告形式（落地页表单，一键下载等）。&lt;/li&gt;
&lt;/ul&gt;
 &lt;h3&gt;  &lt;strong&gt;需求方平台&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;需求方平台又称为DSP（Demand-Side Platform），简单来说就是给广告主和代理提供广告实时竞价投放的平台。可以比较粗暴的认为，上文提到的广告交易平台是对接媒体的，而需求方平台则是对接广告主的。那么我们媒体开发者会跟需求方平台产生什么交集吗？答案还是有的。&lt;/p&gt;
 &lt;p&gt;市场上现在存在很多混合型的DSP公司，意思就是他们除了对接Adx以外，还会自建广告交易平台来进行流量采购。也就是说广告交易平台与需求方平台合二为一。有道智选，360MAX就是这方面的代表。而面对这样的混合型DSP公司，作为媒体开发者的我们同样会有机会接触三种人：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;   &lt;strong&gt;商务运营：&lt;/strong&gt;从宏观上清楚整个广告资源投放情况的人，他们会定时制作一些数据报表，给媒体开发者呈现广告位置的广告主结构，变现优劣甚至广告主的效果情况。并且对于媒体的广告商业化进程提供合理的建议（诸如应该设置多少的限价，流量释放的节奏，品牌销售政策如何制定等等）&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;物料设计师：&lt;/strong&gt;帮助广告主进行广告物料的设计，在保证广告主效果的同时，需要优先考虑媒体的用户体验，因此跟媒体开发者存在交集。&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;一线销售与广告投放顾问：&lt;/strong&gt;最清楚广告主情况的一线业务人员，具体执行广告主引入以及管理广告活动及其投放策略的人。&lt;/li&gt;
&lt;/ol&gt;
 &lt;h3&gt;  &lt;strong&gt;广告主/代理&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;购买流量进行广告投放的最终需求方。广告主购买流量的需求是多样的，有些是为了单纯的曝光，有些会是注重考核用户的前端行为（注册、下载等），更有甚者会精细的分析用户的后端行为（呈现意向、下单购买等）。广告主通过种种的考核方式来判断媒体的质量，最终选择是否投放以及分拨多少的广告预算进行投放。因此对于需要进行广告变现的媒体来说，广告主才是最终的“衣食父母”。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/0eiSuvIDklfMA6cOjhtX.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h2&gt;04 广告样式设计&lt;/h2&gt;
 &lt;p&gt;如果你已经坚持阅读到这里，那么接下来肯定关心如何执行的问题。但在此之前，我们先要关注的是，我们的广告都长成什么样？这就必须得提及我们前文提到的原生广告。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;原生广告（Native Advertising）&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;原谅我没有什么礼貌的说一句，现在是个广告交易平台都说自己卖的是原生广告。自2012年底这个名词被提出之后，它的定义域就被拓得越来越宽，并且逐渐模糊。这里，我认为不少关注用户体验的开发者是被“欺骗”的。我想把原生广告回归到最为本质的三个特征，大家姑且可以看看自己手中app的广告，真的都很原生吗？&lt;/p&gt;
 &lt;ul&gt;
  &lt;li&gt;   &lt;strong&gt;原生广告是从用户体验出发的盈利模式。&lt;/strong&gt;这句大白话告诉开发者两个最为根本的问题—你要关注用户体验，以及你要盈利。因此在判断你的广告位能不能带来很多钱的同时，你得留意你的日活用户量趋势，NPS值的变化以及用户在评论区是否已经炸毛了。&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;广告具备有价值的内容。&lt;/strong&gt;这里面区别于传统广告的是，原生广告不能是单纯的广告信息，而是能对用户产生价值的广告内容。这就是从“要你读”到“我想读”的转变。当然，大家对于“有价值”的判断是存在差异的。但是纯交易型的广告信息显然违背了原生广告的初衷。&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;广告的呈现符合视觉整合原则。&lt;/strong&gt;原生广告讲求的是广告即产品本身，植入不破坏页面本身的和谐，构筑不影响用户的使用体验。因此，你硬要跟我说浮动banner也是原生广告我是不服的。如果广告对产品原有内容产生了遮挡，那其实本身就没有遵循视觉整合，也没有从用户体验出发。&lt;/li&gt;
&lt;/ul&gt;
 &lt;h3&gt;  &lt;strong&gt;具体广告样式&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;下面列举一些常见的广告样式：&lt;/p&gt;
 &lt;p&gt;信息流广告最早于2006年出现在Facebook上，随后就应用在了各种社交媒体的用户好友动态之中。而发展到了现在，信息流广告已经不限于社交媒体，只要具备一定的内容（不论内容是由用户产出还是媒体自身产出），都可以安插信息流广告。下图从左到右分别为正常的图文信息流广告、大图形信息流广告以及icon功能型小信息流广告。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/MHvW15PZm1vAMFkf4eg6.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;按钮广告也叫图标广告。早期的按钮广告是由banner通栏广告演变而来的。而在app原生广告时代，按钮广告往往会跟产品的功能按钮放在同样的页面，在视觉整合上更加统一。但缺点在于可传达的内容信息受尺寸限制而变得很少。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/zh9C2U4bcwnH7ECbRNzR.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;开屏广告是APP里面面积最大的广告，同时也是最受品牌广告主青睐的广告位。其实开屏广告从严格意义上称不上原生，对用户也存在启动延时的干扰。但由于“启动app正常来说都是有启动页”这个印象已经对用户教育完全，因此大家都能比较顺从的接受这样的设定。不过许多开发者为了进一步降低对用户的干扰，会增加跳过按钮或者缩小广告素材的尺寸等等。&lt;/p&gt;
 &lt;p&gt;仅次于开屏广告展示面积的样式，一般来说就是焦点图广告了。但焦点图广告会显得更加的原生。原因在于焦点图出现在内容位，用户下意识的都会认为是具备可读内容的。并且图文样式+自动轮播机制，会更容易吸引用户眼球。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/hzAGvOPJaQYE2o9TbGDq.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;激励视频广告在最近也成为了国内移动app广告市场的新宠。我们其实在很多的国外游戏里面很早就接触过这种广告，就是让你看一段游戏视频，就能给你几百金币或者某些特殊道具的广告。对于广告主而言（以CPC结算为例），激励视频广告的效果比较取决于计费节点设置在什么位置。如果用户点击视频就计费，效果一般很差（用户只是冲着奖励去）。但市面上也有不少良心广告平台将计费节点设置在视频播放结束后的落地页点击上。这样做能够过滤掉一大批的无效用户，广告主的效果会有相当好的保证，同时也对用户提供了实实在在的福利。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/HkJid5vuBQSrSnVzLBBU.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;不在这里一一列举的原因还是我开始所说的，对于开发者而言，这些类型的广告样式严格意义上来说是“假原生”（当然也有例外）。它们都会不同程度的对用户正常使用app功能产生较大的干扰，对此判断的标准，还是我前文所说的三大本质特征。&lt;/p&gt;
 &lt;h2&gt;05 变现实验流程&lt;/h2&gt;
 &lt;p&gt;弄清楚了广告样式，让我们立即进入正题，这可能是整篇文章大家最关心的部分。从零做起，我们来模拟一下移动app变现的起步实验阶段如何进行。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;广告位置选取&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;我们应当选取app哪个位置来放第一个广告？这个问题我们需要从用户体验和变现潜力两个方面来探讨。首先是用户体验方面，我们需要给用户提供一个从无广告环境逐渐转移到有可接受广告环境的适应期，这里面需要注意到这样一些问题：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（1）避免立刻在首页设置广告&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;你希望你还在进行测试的广告一下子就被所有用户看到吗？答案当然是否定的。当然我们还可以通过流量切分的方法来控制看到广告的用户数量。但不要忘记，站在长远的角度看，一个移动app最具变现潜力的位置绝有可能就在首页。在我们还没有选择合适的广告主以及还不清楚广告测试数据的前提下，立即在首页进行广告测试很容易使我们判断错误。这无论对用户体验还是变现进程来说，都显得操之过急。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（2）避免设置大面积广告&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;优先考虑内容，优先考虑内容，优先考虑内容，重要的事情说三遍。这也是我在上面提到的原生广告原则之一。而在非常有限的手机屏幕上，没有一个用户希望无效信息占据太多的位置。现在很多用户讨厌一些门户网站的web端首页，就是因为顶部的双份加大矩形广告+对联广告+浮窗广告使得他们只可以看到新闻头条的一个标题……&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（3）放在下面与右面&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;没有用户在打开app之后的浏览目的是看广告的，因此我们需要让用户立刻达到他们的首要目的。从上而下，从左到右的阅读习惯决定了我们需要把广告放在下面或者右面。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（4）不要放在最下面&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;看完第三点之后看第四点，你一定觉得我是一个神经病。我需要解释的是，广告不是用户阅读目标的部分，因此如果在整个手机屏幕里面，广告处于可读内容的最底部，那么它往往会被立刻忽略。这时候，广告会成为用户的阅读中止符。因为在阅读到广告为止的内容时，用户已经认为整个阅读任务完成了。&lt;/p&gt;
 &lt;p&gt;因此我们需要把广告从任务中止符的角色，转变为增加下一个任务起始符的角色。意思是，在广告的下面，你必须再次露出小部分的可读内容。这一点在信息流广告上面尤其重要。具体的操作方法就是，研究市面上主流手机屏幕的大小，然后让广告出现在第一屏接近底部而又露出一些第二屏内容提示的位置上。那么用户在从上而下阅读的时候，必然会经过你的广告位置，这不会对他们造成太大干扰，还可以起到“客官请休息片刻”的作用。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="279" src="http://image.woshipm.com/wp-files/2017/06/wk0QknXyOmJ70wu4aGno.png" width="554"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（5）不要去尝试浮动遮挡&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;在首次广告变现的测试上，我认为对于浮动类型的广告应该是0考虑的。所有直接遮挡用户阅读信息的广告带给你的都只有用户的投诉以及广告的误点击。&lt;/p&gt;
 &lt;p&gt;说完了牌坊，我们来开始丢点节操。除了用户体验外，变现潜力同样是我们需要考虑的因素。在这个维度上，我们选取测试广告位置同样需要注意一些方面：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（1）需要具备一定的流量&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;虽然我们说过不要在首页立刻进行广告测试，但不代表我们就去选择一些非常边角又或者跳转个二三级页面的位置。因此太少的流量没有任何的测试价值，或者说难以得出可信的测试结论。我们可以选择一些用户通过一次点击之后会常进的功能区域，例如“我的”这样的位置。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="288" src="http://image.woshipm.com/wp-files/2017/06/wxSU12VCFUK7Mh4R3MMe.png" width="555"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（2）选取点击率有可能高的位置&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;没有进行过任何的广告测试，我们怎么判断哪些位置的点击率有可能高呢？这时候我们就需要去看内容的点击率。原生广告的样式一般来说都会跟当前页面的可读内容的样式保持基本一致，因此可以用内容的点击率作出一定的折损来推测广告位的可能性点击率。但这里需要注意的，部分含有引导或者激励用户点击的位置，点击率不可以参考（例如签到位置），也不适合选取作为广告位置。因为含有激励措施的位置会导致用户的非真实点击，造成广告主效果崩盘。（可参考前文对激励视频广告的描述）&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（3）需要斟酌是否选择用开屏来进行首次测试&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;不少移动app开发者会比较热衷用开屏来进行广告变现的首次测试。但其实我认为，开屏位置具有很多的特殊性，以至于他其实并不能代表这个app的广告变现潜力。况且，开屏广告代表着整个app“最具价值”的部分，我们不太可能用很低的测试价格来放上市面，必然也是使用品牌刊例的方式来进行售卖。那么一般情况下也只有追求曝光的品牌广告主来进行投放，往往这些品牌广告主不会提供任何的广告后续效果反馈。换句话说，用开屏广告来代表某个移动app的广告变现潜力来进行测试，是测试不充分并且欠缺说服力的。&lt;/p&gt;
 &lt;p&gt;说了一大堆，就让我举个合适作为首次变现测试的广告位置。这是某个工作效率类APP。我们选择【我的】页面的小信息流来进行测试。大家可以发现，这个广告位符合我们说到的很多原则：不在首页、日均流量仅次于首页、样式原生（不遮挡内容）、面积小、放在页面中下部分（用户阅读完整功能区视觉必然经过）。&lt;/p&gt;
 &lt;p&gt;在最后需要强调的是，上面所说的原则全部都是针对单个移动app第一次的广告变现测试来说的。在起步阶段我们需要更加保守且谨慎，但不是说首页广告、开屏广告等这些样式不可行，只是他们应该放在后面来做。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;实验广告主选取&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;我们到底用什么类型的广告主来进行首次的广告测试？这里面需要再一次围绕我们的测试目的：在不大尺度破坏用户体验的前提下，评估某广告位置的变现潜力。不难看出，对用户有益的广告是既能够满足用户体验，又能够带来广告效果的。因此，我们需要先了解我们的用户是什么类型的用户。&lt;/p&gt;
 &lt;p&gt;清晰具体的用户画像几乎是所有广告变现测试的前提。他直接决定着我们应该选取的广告主行业、具体产品、客单价范围以及物料制作风格。理论暂且不说，我们就直接看几个例子。&lt;/p&gt;
 &lt;p&gt;之前替某个工作效率类的移动app做信息流的广告测试。由于我们起步的测试价格比较优惠，因此当时有游戏、电商、教育、金融四个行业的广告主产生了测试意向，而我们只能选择一个。四个广告主分别推广的产品是手游、化妆品打折季活动、儿童早教产品、信用卡黑卡免费办理服务。我们详细地看了该app的用户画像：男性用户占比在73%，这让我们首先排除了电商广告主的测试；年龄分布在21~26岁，儿童早教产品似乎不会有太多转化，因为这个年龄段的父母很少；企业管理者以及职员占比60%以上，因此我们觉得游戏的表现预估不会太好。最后我们选择金融信用卡黑卡产品进行测试，因为用户画像的属性非常符合：税前收入5K以上的用户占50%以上，具备一定的收入能力；一二线城市占比超60%；本科以上学历人士占58%。总体来说，我们可以把该app的用户定义为具备一定收入水平的男性商务人士。&lt;/p&gt;
 &lt;p&gt;好的用户画像可以使得我们在进行广告主选取时候少走很多弯路。甚至对物料设计风格也是如此，曾经我们在某个电商的打折季活动物料上，放了一个粉红色的保温瓶。当后来得知他们的男性用户占比更大的时候，把保温瓶的颜色更换为黑色，点击率就翻了一倍。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="362" src="http://image.woshipm.com/wp-files/2017/06/2c1z0QTfUkB3CPqQoPCC.png" width="722"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;资质与物料审核&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;一般来说，很多广告交易平台都会自带审核部门，他们具备标准化的审核流程、规范的审核系统以及高效的自动审核机制。但在我们进行首次广告变现测试的时候，往往不能立刻适用这些标准化流程。究其核心原因，就是对于首次广告测试，我们需要非常的谨慎，务必要选择资质优秀素材优质的广告主进行测试。站在这个角度，“哪些广告主不能投”的黑名单审核机制并不适用。“只允许哪些广告主可以投”的白名单机制更为稳妥。况且在人工运营的测试阶段，广告主数量不会很多，我们理应先抛弃自动化的系统，而更为细致的case by case去选择广告主和投放素材。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;人工运营实验流程&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;有了广告位置，准备好了测试广告主和广告素材，就可以正式“开干”了。在没有接入系统之前，整个广告投放的实验流程，几乎都是全手动运营的：&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（1）广告上线前准备&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;上线前充分测试，确保新上线的广告产品功能正常，广告展示/点击等数据上报无误。此外，还需要对测试广告主提供的投放链接进行测试。这里面包括，链接是否能正常打开，打开的响应速度是否会过慢。在页面里面进行注册、下载、下单等行为时，效果是否能成功监测。说到转化跟踪监控，一般来说广告主与媒体都不会完全信任对方提供的数据，因此大部分没有接入系统的非标准测试环境下，都是采用第三方进行效果监控。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（2）广告上线&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;是否应该让所有用户立刻看到广告，这是一个值得斟酌的问题。一般来说，比较稳妥的做法是先划分一部分的流量上线广告（如20%），一方面可以进一步在线上测试广告功能和流程是否存在bug。另一方面可以看看用户对此的反弹程度是否强烈。&lt;/p&gt;
 &lt;p&gt;  &lt;img alt="" height="272" src="http://image.woshipm.com/wp-files/2017/06/YOVjEW0sm93bI2yCTj2c.png" width="552"&gt;&lt;/img&gt;&lt;/p&gt;
 &lt;p&gt;另外，我们需要珍惜每一次的测试机会。能够做到尽量细的数据监控是最好的。例如分时段的查看广告的流量和点击情况。以此来判断广告位置的前端数据分布情况。例如我们会发现工作效率类的app在早上9点钟的流量与点击比较大，阅读类的app在下午6点之后呈现数值高峰等等，这都会对我们日后的运营提供很多重要的信息。&lt;/p&gt;
 &lt;p&gt;同时，我们应该在广告投放期间，尽可能多的搜集广告主的数据反馈。包括落地页面的到达PV，实时的转化数据等等。如果广告的跳出率异常的高又或者转化数据异常的差，我们都需要进一步的去确认广告的线上流程是否存在问题。在首次的广告投放测试当中，首要任务就是要保证广告正常的投放出去。&lt;/p&gt;
 &lt;p&gt;  &lt;strong&gt;（3）广告上线后反馈&lt;/strong&gt;&lt;/p&gt;
 &lt;p&gt;这可能是整个广告变现测试最重要的一环。我们需要通过这次测试得出一些怎样的结论？整体来说，我们至少需要从用户体验、变现水平和运营成本三个方面进行评估。&lt;/p&gt;
 &lt;p&gt;说到用户体验，大部分开发者可能第一时间想起的就是通过NPS值来判断，但我不得不说这可能相当困难。因为一般来说，我们都不会为了上线一个广告功能而单独发一个包，因为这样用户体验会非常糟糕。所以捆绑一些用户功能来发一个新版本显得更为合理。而NPS的测量则是针对这整个版本而言的，你无法因此而判断是否广告功能影响了这个数值。因此，更为直接的方法应该是，我们直接去看用户评论区，是否有大量的用户针对新上线的广告功能进行投诉或者抨击，这样虽然看上去不那么客观，但却是最有效和快速的。&lt;/p&gt;
 &lt;p&gt;变现水平的评估，只要方法得当，则会比用户体验评估来得更加“有理有据”。很多时候，我们会按照一定的测试价格来收取广告费用，但这个测试费用其实并不代表我们未来的可能预估收益。这里举两个例子会更加直接：&lt;/p&gt;
 &lt;ol&gt;
  &lt;li&gt;   &lt;strong&gt;我们跟某广告主进行信息流广告首次测试合作，以一个成功注册40元的价格进行CPA结算。&lt;/strong&gt;我们划分了20%的流量进行此次测试，测试三天，最终给广告主带来了300个注册，因此我们收取了40*300共12000元的广告测试费用，日均收入为12000/3=4000元。倘若未来全量投放，日均收入会是4000元/20%=20000元&lt;/li&gt;
  &lt;li&gt;   &lt;strong&gt;事实上，这个广告位置的全流量有300W，这次测试监控的点击率为1%。&lt;/strong&gt;也就是说，如果未来全量上线的话，会产生300W*1%=3W个点击。我们在划分了20%流量的前提下，日均给广告主完成了100个注册，因此转化率为100/20%/3W=1.67%。对比同类型的媒体，67%转化率的媒体，平均出价水平大概在2.5元左右。我们打算未来实现CPC全量竞价投放的收入预期就是3W*2.5=75000元。&lt;/li&gt;
&lt;/ol&gt;
 &lt;p&gt;发现了吗？实际上我们看到的测试费用并不等于我们未来可能的变现能力。这里面的原因是，在没有接入系统之前，数据的监控会显得尤其困难，广告主更多的会偏向于使用CPA来进行结算。并且在没有其他广告主竞争的情况下，点击单价和点击率都不会呈现一个峰值状态。所以我们在做预估的时候，就需要向B的思路那样，做出更有可能接近真实值的评估。&lt;/p&gt;
 &lt;p&gt;在进行了用户体验和变现水平的评估之后，基本上我们就会得出是否对此广告位进行完全商业化的结论了。当然，有时候一次的测试不能够说明问题，我们还需要进行多几轮的测试，将测试的流量占比逐步放大，并且更换一些不同行业不同品类的广告主来尝试。但需要注意的是，我们的测试是建立在全手工运营的基础上，这必定会耗费我们大量的人力成本。从物料审核、上线操作到数据监控、费用结算都没有系统支持。因此，我们需要评估整个运营成本跟我们预估的变现收入是否对等。不过归根到底，如果在测试结论稳定的前提下，作出了此广告位全面商业化的决定后，尽快接入广告交易平台实现标准化系统投放，才是最高效的途径。&lt;/p&gt;
 &lt;h2&gt;06 技术对接流程&lt;/h2&gt;
 &lt;p&gt;媒体实现广告的标准化系统投放，其实并不是一件很“重”的事情，但却能在运营效率以及变现收入上都带来非常大的提升。目前市场上基本上都是使用API对接或者SDK对接两种模式。接下来，我们会分别简单介绍一下。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;API对接&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;服务端对接即可，其优点是可快速对接并上线，且媒体方对流量的分配、控制也更加灵活便利，因此导致客户端出bug的风险也会较小。但缺点是难以实现广告SDK的全部功能，例如用户的上下文信息捕获、广告的预加载、渲染加速、性能监测等。这些功能的缺失可能影响广告系统的自动优化，进而对广告点击率、填充率、广告收入产生影响。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;SDK对接&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;SDK对接需要改动客户端，开发量相对API对接来说会稍大一些。我们同时需要确保广告SDK足够稳定，不会给产品带来bug。因为毕竟是客户端集成，如果出现bug，需要客户端发新版才能修复。但其优点是可利用到SDK的全部广告优化功能，通过收集详细的用户信息、加速广告加载渲染、完善广告数据监测等方法，来提升媒体流量的变现效率。&lt;/p&gt;
 &lt;p&gt;综合来说，在前期筛选广告合作方的阶段，用API对接更加灵活可控一些，当基本确定深度合作的广告平台伙伴之后，SDK对接是一个更好的选择。&lt;/p&gt;
 &lt;h2&gt;07 推广物料设计&lt;/h2&gt;
 &lt;p&gt;很多开发者认为他们对于广告物料的重视程度已经十分足够了。因为我们已经充分考虑物料会否破坏用户体验，影响产品调性，破坏视觉界面，违反法律规定等等。所以我们对广告主素材会执行非常“严格”的审核，从尺寸、大小、格式到色调、文字内容、排版样式。&lt;/p&gt;
 &lt;p&gt;这样做是完全没有问题的，但我在这里说的推广物料设计，考虑的却不仅仅是“合法”的标准。就如我上文提到的粉红色保温瓶换成黑色的问题一样，好的设计素材可以直接提升我们的变现效率。&lt;/p&gt;
 &lt;p&gt;但现实情况却是，市场上大部分的推广物料都是由广告主自己提供的。倘若广告主制作的素材已经达到了“合法”的标准，那么作为媒体的我们没有理由去要求广告主作出频繁修改。况且，很多时候我们不知道修改的标准是什么，只是提出一些肉眼看上去更“美丽”的建议。这就等于我们对于品牌广告主物料的态度，我们经常认为他们的物料质量是高的，因为看上去“高端打次上档次”。但我们却忽略了，品牌广告主往往不会关注物料的后续效果数据情况，又或者不是不关注，只是无法度量（传统的奢饰品和快消行业，很难把他们的最终销量跟某个广告效果关联起来）。但效果广告主则不一样，每一个物料的真实效果，都会影响他们的最终出价，从而影响媒体的真实变现。&lt;/p&gt;
 &lt;p&gt;怎么解决这个问题？需要对媒体广告变现负上责任的，除了我们开发者自身还有的就是广告交易平台。对，我们必须在推广物料设计上对广告交易平台有更严格的要求。一方面对广告主的推广效果负责，另一方面对媒体的变现效率负责。这使得广告交易平台必须真正花上精力，去研究优秀推广物料的事情。&lt;/p&gt;
 &lt;p&gt;接下来就是选择的问题，市面上有哪些在这方面做得比较出色的广告交易平台？对此，我可以先大概告诉你，他们是怎么做的。他们会用大量的素材投放到媒体当中，持续的收集点击率、转化率等数据。然后将一张素材按照版式、色调、元素、文案等单位拆分开来。跟踪这些单位在不同素材和不同媒体里面的数据表现，然后重新组合。不断的通过A/B test和定量分析，最终形成适合这个媒体投放的若干个素材模板，进而推荐给广告主或者接入程序化创意后台，形成普遍的投放。没错，这绝对不是广告主自己能做到的，也不是通过媒体审核可以做到的。这需要一个团队持续的研究和运营。在市面上，目前能做到这一点的，拥有高智能程序化创意后台的广点通算一个；拥有一个庞大设计师团队，给广告主持续提供广告素材制作的有道智选算一个。&lt;/p&gt;
 &lt;h2&gt;08 相关的数据指标&lt;/h2&gt;
 &lt;p&gt;在整个广告商业变现的进程当中，无论是人工运营阶段还是接入系统后的标准化运营阶段。给我们提供一切决策依据的，就是数据，那我们一般需要关注哪些数据？&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;每日活用户贡献收入&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;一个移动应用广告创造多少收入算高？如何判断这个位置的广告价值如何？就是看这个指标。直接用该广告位置的收入除以日活用户。这个指标可以针对单个产品页面来看，也可以针对整个移动应用来看。广告变现良好的应用这个数值一般在3分钱以上。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;每日活用户接受展示&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;广告展示数/日活用户数。这个指标更多的是站在用户体验角度考虑的。简单来说就是用户使用app，一天会看到多少次广告。这个指标的好坏没有标准，全在于我们的接受程度以及与之匹配的NPS值的变化。但如果这个数值大于10，我们得考虑一下，广告是否放得太多了。&lt;/p&gt;
 &lt;h3&gt;  &lt;strong&gt;ECPM值&lt;/strong&gt;&lt;/h3&gt;
 &lt;p&gt;广告每千次展示可以获得的收入。该指标能够更加直接的体现具体某个位置的变现能力。ECPM = 收入/广告展示次数×1000，而放在效果广告领域，收入=广告展示次数×点击率×点击单价，因此ECPM=点击率×点击单价×1000。点击率大部分时候会收到物料素材吸引度的影响，而点击单价很多时候会受到广告主后端ROI的影响。因此ECPM能够更为全面的体现单一广告位的价值。&lt;/p&gt;
 &lt;h2&gt;09 去广告化&lt;/h2&gt;
 &lt;p&gt;小时候学政治的时候，我就一直有一个疑问。原始社会按需分配，到了共产主义社会也是按需分配，这中间都经历了啥？老师告诉我们，他们的区别在于生产力在不同的水平上。这个问题似乎跟我们的广告商业变现有异曲同工之妙。在我们没有广告的时候，要把广告放上去。而当广告变现到达一定的发展瓶颈的时候，我们又会把一部分拿掉。&lt;/p&gt;
 &lt;p&gt;我就更为直接一点吧，所谓的去广告化，我们常用的手段就是会员制度。市面上所有的app会员服务，第一条福利几乎都是去除广告。这部分选择成为会员而去除广告的用户，往往也是认为广告体验较差，不会去点击任何广告的用户。也就是说会员制其实是筛选掉一部分对于广告收入贡献无效的流量。而且通过会员制，我们还能从这批用户里面重新创造一笔财富。来到这个阶段，品效合一、系统标准化运营、会员制度三者结合，移动应用的商业变现就基本形成一个稳定且可持续发展的模式。&lt;/p&gt;
 &lt;h2&gt;10 结语&lt;/h2&gt;
 &lt;p&gt;从事移动广告商业变现多年，总是觉得产品与商务的同事是一对“欢喜冤家”。站在开发者的角度，关注用户体验最优是无可厚非的，但“养家糊口”的问题关系着我们的生存。其实两者并没有那么根本地对立，只是缺乏一个统一的目标和相对协调的方法。&lt;/p&gt;
 &lt;p&gt;根据可考究的历史记载，中国早在公元前3000年就出现了实物广告。当一个部落需要用布匹来交换隔壁的小羊羔时，他们就开始用尽方法来“宣传”他们的衣服。那个时候的人们对广告更多是一种原始的需要。难道到了今天，我们可爱的用户就不需要广告了吗？&lt;/p&gt;
 &lt;p&gt;写这篇文章，给予所有的移动应用开发者，写给那些已经走在或者即将踏上广告商业变现之路的“部落人们”，愿你们获得成功并且给我们分享你的经验。另外，也不妨带上你们的“小羊羔”找到我们，我们期待跟各位有更深层次的合作。&lt;/p&gt;
 &lt;p&gt; &lt;/p&gt;
 &lt;p&gt;本文由 @有道智选 原创发布于人人都是产品经理。未经许可，禁止转载。&lt;/p&gt;
 &lt;a href="http://www.qidianla.com/course/pm.html?channel=wm" target="_blank"&gt;  &lt;img src="http://api.woshipm.com/images/ads/pm.jpg"&gt;&lt;/img&gt;&lt;/a&gt;&lt;div&gt; &lt;a href="https://itindex.net/"  title="IT 资讯"&gt;&lt;img src="https://itindex.net/images/iconWarning.gif" title="IT 资讯" border="0"/&gt; &lt;/a&gt;</description>
      <category>产品运营 商业变现 广告变现 移动应用</category>
      <guid isPermaLink="true">https://itindex.net/detail/56996-%E4%B8%87%E5%AD%97-%E5%B9%B2%E8%B4%A7-%E7%A7%BB%E5%8A%A8%E5%BA%94%E7%94%A8</guid>
      <pubDate>Wed, 07 Jun 2017 17:37:50 CST</pubDate>
    </item>
  </channel>
</rss>

