腾讯数据平台部总经理蒋杰:数十亿广告的基础是精准实时推荐

标签: 腾讯 数据 平台 | 发表时间:2014-10-07 12:24 | 作者:
出处:http://news.cnblogs.com/

专访腾讯数据平台部总经理蒋杰:腾讯数十亿广告的基础是精准实时推荐

本文是福布斯中文网“数据大玩家”专栏中的一篇文章。接受提问的蒋杰先生,是腾讯数据平台部总经理,在加入腾讯前,他曾经是支付宝的数据经理。提问的车品觉先生,是中国信息协会大数据分会副会长。

在过去几年,你在腾讯做了什么来推动大数据的应用?

过去三年,我一直在坚持一件事:推动大数据的实时应用。现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力。有了这个能力,就可以做很多商业化行为的模式。

目前腾讯收集的数据已经超过了 1 万亿条, 计算机规模已经超过了 8 千 8 百台。这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值。这个商业价值就是精准推荐。

每年腾讯几十亿的广告,其基础来自于数据的精准推荐。实时数据推荐还可以用于视频的推荐,腾讯音乐推荐,新闻客户端的推荐,游戏道具的推荐,等等。

目前我们做到从数据进来到投放数据,延时不会超过 50 毫秒。有这个技术基础,腾讯的精准推荐才有了基础。

从内部管理而言,实时也降低了成本。因为实时数据处理可以用足“每一秒”。传统的数据仓库一般从晚上零点到第二天早上八点,做数据截断、抽取和处理,因为早上九点老板就要看数据报告了。数据处理的时间只有一天之中的三分之一,其他时间都是空闲的。

当我们把数据做到实时处理的事后,实际意义是将分析时间成本分摊到全天,成本更低。同时这也有利于控制风险,因为只要一出错马上可以监控,迅速回滚。

所以你将大部分精力放在了“实时”上,你为什么认定“实时”会为腾讯增加更多的商业价值?

数据首先是有时效性的,一秒钟前的行为和一秒钟后的行为有着天差地别。

以往我们通过统计数据,得出规律,找到用户喜好。而现在实时变得更为重要。前一秒你看了母婴内容,那么几秒内就应该推送相关广告,转化率会比较高。如果你还在推送几天前,这个用户看足球的数据信息,这个生意就很难做下去了。

在腾讯,我们分三个领域各自研究精准推荐:数据整理、实时计算、算法研究。我深知,实时计算是关键核心。

在我的脑海中,一切数据必须以消息为中心,实时处理、提炼瓜分。实在解决不了的数据,再做离线分析。

比如一张照片,在数据处理端口肯定首先被实时过滤,这张照片是在哪里拍的?其中几个人,通过什么方式拍摄的?在所有数据收集处理完之后,我可能还需要找这张图片与其他图片的关联关系,这时才会做离线处理。

腾讯基本上 90% 以上的数据都是在线实时处理。我一直在坚持将腾讯的数据集中起来,放在一个平台体系之下,这其实是来自阿里巴巴的教训。(蒋杰原来在支付宝数据部门工作)阿里巴巴的数据直到今天还是四分五裂。

其实,我对于数据的实时经验也是在支付宝时期积累的。当时我学到的一点是,如果没有搜索引擎的支撑,就根本无法做数据分析。当时很多人都说,没有办法让数据在 6 秒内被搜索出来,而我坚持认为可以达到。

实际上,现在在腾讯,一万五千个字段,在 3 秒之内所有的数据交叉都可以实现。这是一个做技术的本分。

在实时这个领域,技术上的难点是什么?

我一直在慢慢弱化数据仓库,逐步走向实时数据仓库。其中最大的问题是,如何实现数据实时获取?

数据实时处理的前提,首先是实时采集。我的办法是一方面和业务部门谈好,另一方面我将数据采集文件部署到所有的机器里,从安装操作系统的时候就写入数据采集文件。这样,腾讯所有 40 万台机器都可以协同操作。

过去两年,腾讯从原来的一小时响应,到现在一秒钟精准推送,CTR (点击率)能提升 20%。规模越大效果越明显。

精准推荐有三大要素,第一是数据,第二是实时,第三是算法。

首先要有强大的数据,如果数据缺失什么都干不了;第二,效果明显的是实时,第三才是优化算法。这是整个精准推荐体系的核心。实时在其中排在第二,我们的实践证明, 在什么都没变的情况下,频率改变带来了整体收入的提升。

在解决了获取数据之后,数据底层所遭遇的最大困难是什么?

眼下的挑战在于深度学习。大数据时代,腾讯有 200PB 的图片数据,如何去挖掘图片数据的价值?如何去挖掘语音数据的价值?

我们正在做的是从结构化数据分析转向非结构化数据。如何从非结构化数据中提炼商业价值?这包括了深度学习的 DNN 和 CNN 技术,包括如何做文本之间相似度的关系。这都是需要突破的点。

微信所有的语音训练都是深度学习的办法来处理。比如,每当你在用微信放语音的时候,机器自动翻译成文字,就是靠深度学习网络来训练的。但目前,计算能力依然是一个门槛,这个能力并非我们想象这么轻松,需要更多计算技术来改进。

未来数据处理会有剧烈的改变么?

硬件决定了数据的能效。数据规模越大,数据展现的方式会越多,未来实时计算的处理需求会越来越旺盛。相信未来,能贴合更多应用场景的高效计算引擎会出现,这是我对未来的判断。

很明显的是,如果当前一秒的数据没有处理完整,提炼清楚,随后的分析成本就会越来越高,而数据的价值则越来越低。所以,在未来,高效计算引擎和存储引擎的出现,会对大数据发展有突飞猛进的效用。

后记:

在蒋杰看来,没什么比实时更重要。在腾讯,他敏感意识到实时数据对于广告的价值,所以把大部分精力放到实时处理数据以及如何优化广告投放上。

今天很多公司的数据仓库是离线的,也因此数据距离实际业务很遥远,这个距离不仅仅是无法实时反应,更多在于无法保证数据的稳定和质量。

以此而言,数据实时化是业务与数据的结合的关键。

但实时数据并非终点。

每秒都在生产新数据,新数据与既有数据之间的关系如何梳理?假如我们一直通过数据收集、分析得知,电脑前坐着的是一只狗,但假如某天的数据收集显示,它会猫叫。那么我们能判断电脑前的其实是一只猫么?

这不仅仅是数据更新变化这么简单,而关系到我们如何判断和分析。

所以,此时,延时判断变得很重要。

如何在庞大数据面前,做出延时判断?尽管你有实时数据分析的能力。

这可能是下一个更有趣的话题。 

本文链接

相关 [腾讯 数据 平台] 推荐:

腾讯开放平台用户数据及行为分析

- - 36氪
在今天腾讯开放平台年会上,腾讯社交平台部总经理Peter表示,“根据腾讯最新一季财报,QQ空间已经有5.5亿活跃用户,QQ有7.2亿活跃用户,朋友网有2亿活跃用户. ”在现场发布的《互联网开放平台白皮书》里,除了 马化腾写给开发者的一封信,腾讯还公布了最新的开放平台数据以及用户行为数据,无论是对于创业者还是开发者,都有很好的参考价值.

腾讯大数据平台质量保障之道

- - 标点符
大数据时代,业界各巨头都在投入重兵打造自己的大数据平台,分析挖掘蕴藏在数据金矿中的价值. 在腾讯数据平台部承建了公司级大数据平台,腾讯的测试团队也有幸一起搭上了大数据的航母. 因为大数据平台的技术复杂度、机器规模、容量、发展速度等都远非传统的后台系统可比,以前积累的测试方法和建设的工具平台很多并不适用于大数据测试,业界也没有很成熟的方法可以借鉴.

为什么腾讯 QQ 的大数据平台选择了这款数据库?

- - IT瘾-tuicool
来源:大数据DT(ID:hzdashuju). 00 为什么QQ要选择InfluxDB. 从2016年起,笔者在腾讯公司负责QQ后台的海量服务分布式组件的架构设计和研发工作,如微服务开发框架、名字路由、名字服务、配置中心等,做了大量分布式架构、高性能架构、海量服务、过载保护、柔性可用、负载均衡、容灾、水平扩展等方面的工作,以公共组件的形式支撑来自QQ后台和其他BG海量服务的海量流量.

腾讯数据平台部总经理蒋杰:数十亿广告的基础是精准实时推荐

- - 博客园_新闻
本文是福布斯中文网“数据大玩家”专栏中的一篇文章. 接受提问的蒋杰先生,是腾讯数据平台部总经理,在加入腾讯前,他曾经是支付宝的数据经理. 提问的车品觉先生,是中国信息协会大数据分会副会长. 在过去几年,你在腾讯做了什么来推动大数据的应用. 过去三年,我一直在坚持一件事:推动大数据的实时应用. 现在从国外数据中心的数据,一秒钟可以达到深圳数据中心,这就是腾讯具备的数据能力.

腾讯推出QQ开放平台Q+

- Wuvist - Solidot
慕容鱼吐的新闻泡 写道 "腾讯推出QQ开放平台Q+,宣称促进开放互联网. 网站的视频显示,Qplus提供的功能是将腾讯制作的一些Widget直接在桌面运行,腾讯很可能将该功能捆绑进QQ客户端.

腾讯的广告和开放平台

- Frank - It Talks--上海魏武挥的博客
数字世界中有两个公认为最大的开放平台,其一为谷歌,其二为Facebook. 前者在公开的财报中显示,有97%的收入来自广告. 后者则在向高盛提供的文件中表示:大部分收入来自在线广告. 这两个平台有一个非常重要的类似特征:它们都是广告平台——请注意,我并不是说是媒体平台. 谷歌和Facebook自己并不创造内容,它们是真正的平台角色:让信息供给者、广告供给者、信息消费者在自己的服务中云集,从中获取收益.

腾讯陈军:腾讯云平台与技术实践分享

- Sepher - 服务器运维与网站架构|Linux运维|互联网研究
[第三届中国云计算大会]2011年最受瞩目的IT业界盛会——第三届中国云计算大会于2011年5月18-20日在北京国家会议中心隆重举行. 本次大会由中国电子学会主办,中国电子学会云计算专家委员会、中国云计算技术与产业联盟承办,CSDN网站、《程序员》杂志和电子工业出版社协办. 5月20日,在第三节云计算大会分论坛二“云计算平台与应用实践”中,腾讯网络平台部技术总监陈军带来了主题为《腾讯云平台与技术实践》精彩演讲.

腾讯内部数据治理实践

- -
导读:本文主要介绍目前腾讯数据治理的所在阶段和实践经验,以及基于目前的经验所沉淀的数据治理平台:WeData. 今天的介绍会围绕下面三方面展开:. WeData 数据治理平台能力. 分享嘉宾|王浩仙 腾讯云 技术产品. 首先和大家分享腾讯在数据治理上所面临的挑战. 在数据治理的过程中会遇到很多问题,我们简单分成三类: 管理类挑战:数据信息分散在不同的业务部门的业务库中,数据上报也分散在不同的位置,难以对这些分散的数据进行统一的管理.

腾讯数据仓库TDW元数据重构方案

- - 标点符
大规模应用场景下HIVE暴露出的问题. HIVE进程内存占用高,GC频繁. 元数据接口性能下降(秒级->分钟级). 元数据库压力大,不堪重负. HIVE进程间各个session容易相互影响. HIVE出现session卡死现象. 高并发下容易发生死锁和死循环. HQL Translator层. 重构步骤一:去除ORM层,直接使用JDBC.

腾讯与新浪微博开放平台之比较

- zeng - 36氪
编者按:本文由深圳乐荐网络科技有限公司联合创始人@邵宝麟 供稿,哥伦比亚大学计算机在读博士,2007年获得华中科技大学软件工程学士学位. 曾在印度Infosys SETLab和美国IBM T.J Watson研究中心进行关于“下一代高性能分布计算”的研究. 深圳乐荐网络是一家由美国名校辍学生、美国名校博士、成功创业者组成的创业公司,目前正在研发Web 3.0 时代的高性能推荐互联网产品,目前他们正在寻求人才,感兴趣加入的朋友可以联系@邵宝麟 或者@戴虎宁.