[个推 CTO 谈数据智能] 之本质及技术体系要求

标签: cto 数据 智能 | 发表时间:2019-08-07 01:34 | 作者:jack
出处:https://www.diycode.cc/

安森,个推CTO
毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案。

曾任MSN中国首席架构师,拥有十余年资深技术开发与项目管理经验,在大数据处理系统、大规模并发平台、分布搜索系统、手机应用开发、无线通信领域和智慧金融系统等领域拥有丰富实践经验。

引言
中国移动互联网的发展见证了中国大数据行业的蓬勃发展。数据智能作为移动互联网时代的自然产物,也是未来很长一段发展阶段的核心所在。个推(每日互动)和业界的共识不谋而合,从2010年成立到现在,经过多年的发展,从一家移动互联网时代服务于开发者的基础推送平台服务商,已经成长为创业板的上市公司,也是国内首家在A股上市的数据智能公司。作为专业的数据智能服务商,个推立足开发者服务,将不断致力于用数据推动产业智变。

围绕“数据智能”主题,我将通过一系列文章进行阐述。本文主要从技术角度来探讨数据智能中涉及的各个方面,希望通过这一系列内容,能让大家对数据智能以及所涉及的技术体系有一个比较清晰的了解。

本系列将从以下五方面展开:
01数据智能时代的来临:本质和技术体系要求
核心内容:我们根据个推在数据智能领域多年的实践来讲讲我们对于数据智能的理解,并且从总体上提出对应的技术体系要求。

02数据智能下的数据资产治理思路

核心内容:主要探讨作为资产后的数据如何进行治理,需要具备的基础,具体如何实施,最终保证数据资产的安全、合理使用、以及价值创造。

03数据智能下的安全计算体系

核心内容:在保证数据资产的所有权和使用权分开的前提下,目前可以采用的技术和方法论。

04数据智能下的数据质量保证体系

核心内容:大数据之所以为大,是因为其规模以及多样性,不同于传统的小数据,可以很快去验证其正确性,那么可以采取什么方法去保证数据的质量及可检验性呢?

05数据智能下的不同行业的业务探索实践
核心内容:隔行如隔山,数据智能也具有鲜明的行业区分性,这个主题会讲述几个我们涉及比较深的行业的探索实践,并总结一些经验和教训。

正文
大数据的发展历程
本文是系列文章的开篇,首先聊一聊我们理解中的数据智能的本质;同时作为公司技术负责人,和大家探讨一下基于技术体系的要求,也就是数据智能时代,要从数据中体现智能,从技术方面需要做哪些事情。

什么是数据智能,这个概念怎么来的呢?

记得从2010年开始,随着移动互联网的兴起,大数据也随之出现在各个媒体网站和行业论坛,大家见面都会问一句:“你们搞大数据了吗?” 其实大家对大数据该如何加以应用都不太清楚。

大数据的发展过程是什么样的呢?下图比较清楚地对此进行了诠释。

我把它称之为大数据成熟度模型。这个过程实质上我们理解也是数据从工具变成为资产的过程,从一个辅助的东西变成生产资料的过程。现在在提的数字经济,很多人试图对此进行理论定义,以便把数字经济和实体经济从概念上区分开来,我的建议是就从数字是否作为主要生产资料,是否作为核心资产这个角度去界定,会比较简单明了。

从这几年的实际发展来看,大数据基本上按照上图的这个模型在演进发展。

2013年左右,企业已经开始认知到数据价值,各个具有大数据生产环境的行业如电信运营商、政府、公安、金融等开始建设大数据平台,收集并存储企业业务产生的数据。同时,金融等行业也开始大量购买外部数据,希望通过外部数据快速挖掘数据的价值,弥补自身数据短缺的问题,不少从事数据聚合和相关服务公司获得了发展机遇。

2015年,大数据进入到了监测阶段,通过数据大屏等形式,实现对业务的监测,这是大数据最早、最先成熟的应用方向。对于政府、央企及大型国企而言,数据大屏、领导看板等数据展现应用是大数据最直接能够反映价值的方式。

2017年,大数据平台建设基本完善,单纯数据展现开始难以满足企业的多样化需求,大数据开始与业务场景结合,基于大数据实现对业务问题的洞察,呈现出百花齐放的局面,分别应用在金融领域的精准营销和风控反欺诈,公安领域的刑侦破案,工业领域的故障预测预警等。

企业对业务场景的洞察,单纯靠简单的数理统计已经不足以满足要求,因此,数据挖掘、数据建模技术应运而生。AI建模平台、数据科学平台开始进入人们的视野,出现了一些主打建模平台的创业公司,但更多公司将AI建模平台内化成自身的能力,基于AI建模平台,形成解决方案,帮助企业客户落地大数据应用。

在2019年左右,大数据开始进入到业务决策阶段,也就是说,由机器形成数据报表或者数据报告,业务人员进行决策变成机器直接给出决策建议,让机器具备推理能力。例如,在外卖、出行场景,美团和滴滴的系统直接形成最佳调度方式,系统自动完成决策环节,将任务下发给骑手和司机。这种消费互联网相对常见的场景,将在产业互联网、企业业务场景中逐渐出现。也就是说,大数据开始从业务数字化阶段向数据智能化阶段迈进。

数据智能的特征和定义
从上节中的大数据发展历程中,我们看到数据智能目前对应的是决策、优化以及商业重塑阶段,也就是说让机器具备推理能力;而这些能力意味着自然语言处理(NLP)、知识图谱(Knowledge Graph) 等认知技术的逐渐成熟,这也是为何2018年NLP、知识图谱成为市场的热点的原因。因此,数据驱动决策,数据驱动业务发展的企业新需求,也必然会带动一批数据智能公司的兴起。

未来,随着技术更加成熟,大数据会从决策进入到最后一个环节,也就是业务重塑。很多执行环节可以由机器来实现,但仍然有很多环节需要人参与其中。因此,人机协同会迎来迅猛发展,从人工智能 AI (Artificial Intelligence ) 向人类智力增强 IA (Intelligence Augmented) 进发。

至此, 我们试着给数据智能做一个定义:数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在制定决策时提供有效的数据智能支持,减少或者消除不确定性。

大数据的发展历程
数据智能首先需要有数据提供,而且数据在其中充当着核心资产和生产资料的角色,那么对于数据的治理就显得尤为重要。什么是数据治理(Data Governance) 呢? 我们经常听到公司治理这个词,公司治理在经济学上主要解决几个问题:
所有权和经营权如何分离?
公司所有者如何向职业经理人进行科学的授权及监督?
那么对应地,数据治理也要解决类似的几个问题:
数据(资产)有哪些?
如何让数据所有权和使用权分离?
数据资产所有者如何向数据使用者进行科学的授权及监督?

数据智能的所有手段其实都是在解决上述的几个问题。关于数据治理方面的内容我将在本系列的第二部分进行详细描述。

同时,我们知道穷人和富人之间的差别在于对待财富的态度,富人更多的是从资产增值的角度去对待财富,想的是如何创造更多资产,并且让资产不断增值;穷人更偏向于从消费的角度去看待财富,赚来的钱更多的是用于消费。那么在数据智能时代,如果我们想成为一个“富人”,就需要考虑如何让数据发挥更大的价值,如何找到其他合作者去联合创造价值,但是数据不同于别的资产,其具有可复制性、难确权的性质,这就需要我们去解决数据安全问题,也就是目前行业内比较关注的安全计算技术,在本系列的第三部分我将对此进行详细阐述。

还有一个需要我们关注的点是:大数据由于其具备的 4V 特性,特别是量大、种类多,有时候会让我们对于其聚合或者产生的结果存疑,虽然有一些可以通过常识或者直觉去判断,但是总是有说不出的味道。这就需要有一个质量保证体系来让我们对于数据从产生到最终的各个环节有一个完整的检验过程,本系列的第四部分会对质量保证体系进行详细描述。

在这里小结一下,数据智能的技术体系至少需要包含三个方面:
数据治理系统
数据质量保证系统
数据安全计算体系

结语
数据智能作为大数据时代一个重要且激动人心的阶段,机会与挑战并存。作为本系列开篇文章,本文对该主题内容进行了一个整体概述,后续会对具体内容逐步展开,希望对大家有所帮助。

番外

文章构思于2019年7月24日,忽然发现这个数字很应景。7*24 是很多行业中服务的态度和承诺,表示一周每天24小时提供服务。在数据智能时代,个推的产品和服务也必定是全天在线,一周七天!

我们一直深耕于开发者服务领域,以消息推送为基础,发展了“用户画像”、“应用统计”、“一键认证”等一系列面向APP开发和运营的产品,构建开发者新生态。同时,个推不断拓宽以数据智能为核心的服务边界,以创新的技术为移动互联网、品牌营销、金融风控、智慧城市和公共服务等各垂直领域提供定制化的大数据解决方案。未来,个推希望用数据和技术的力量与更多的行业共筑数据智能共赢生态!

更多精彩内容,请关注:个推技术学院

相关 [cto 数据 智能] 推荐:

[个推 CTO 谈数据智能] 之本质及技术体系要求

- - DiyCode - 致力于构建开发工程师高端交流分享社区社区
毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案. 曾任MSN中国首席架构师,拥有十余年资深技术开发与项目管理经验,在大数据处理系统、大规模并发平台、分布搜索系统、手机应用开发、无线通信领域和智慧金融系统等领域拥有丰富实践经验.

[个推 CTO 谈数据智能] 之多维度分析系统的选型方法

- - DiyCode - 致力于构建开发工程师高端交流分享社区社区
“最近看到一句话:“架构设计的关键思维是判断和取舍,程序设计的关键思维是逻辑和实现”,深以为然. 文 | 个推CTO Anson. 前文回顾:《数据智能时代来临:本质及技术体系要求》作为本系列的第一篇文章,概括性地阐述了对于数据智能的理解以及推出了对应的核心技术体系要求:. 数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在基于数据制定决策时提供有效的智能支持,减少或者消除不确定性.

CTO这点事

- - 博海拾贝
几乎整个互联网行业都缺CTO,特别是一些草根背景的创业者,这个问题更加显著. 从我自己的感受,身边各种朋友委托我找CTO的需求,嗯,算下来超过两位数了,光最近一个月就有3个,而且这三家都是刚拿了A轮的. 其他那些公司CTO大部分空缺了一两年,或者其他高管临时暂代过渡. 实话说,我觉得每个公司都不错的,但通常也只能遗憾的说,真没有能推荐的.

奇才CTO——Nathan Myhrvold

- Kindy - 《程序员》杂志官网
这期我们要介绍的人物,实在是太有趣了. 当时,IBM公司推出了一套名为TopView的多任务环境,并准备把这个环境作为PC的用户界面. 比尔·盖茨自然不肯容忍自己在这方面落后,也想要搞一套类似的多任务环境. 就在这个时候,盖茨听说,在加州奥克兰,有一家Dynamical System Research公司开发了一套效果几乎一模一样的多任务环境,而且消耗的资源更少,运行速度更快.

谈谈CTO的职责

- zhengyun - 互联网旁观者
想想技术人员的职业道路,很多人都希望成为公司的技术领袖,把握公司及其产品技术方向的人. 技术色彩浓厚的创始人/CEO、CTO、总工程师、工程副总裁、技术总监、研究员院长、首席科学家等都可以纳入技术领袖的范畴. 既然梦寐以求的是CTO,但什么是CTO. 雾里看花,还真是说不清道不明呀. 业内公认的最优秀的CTO之一Amazon的Werner Vogels,还专门为CTO的角色定义写过一篇文章.

Twitter CTO 离职了,他是谁?

- yat - 爱范儿 · Beats of Bits
Twitter 是硅谷的创业传奇. 几位创始人的故事之前也有介绍过. 上周末,Twitter CTO Greg Pass 离职. 相信大部分的反应是:Twitter CTO. Greg Pass 相比几位创始人确实不太知名. 从 LinkedIn 的信息来看,他于 1997 年毕业于康奈尔大学,获计算机和认知科学学士学位,创办过 ToFish,后来加入了风险投资和私募股权公司 Walker Ventures.

未来你是CTO还是架构师?

- - SegmentFault 最新的文章
春节就要到了,每到年末就非常适合总结、反思,思考过去一年的成长(就),过去一年的收获,过去一年的改变,所以接下来两三周的时间,我想给大家分享一些技术以外的思考. 这次先跟大家分享关于未来的思考, 职业目标和规划决定了你以后的职业高度、职业角色,你本来想成架构师、技术VP、CTO,结果就是没有了结果.

从程序员到CTO的Java技术路线图

- - ITeye博客
 总感觉需要提升自己,也摸索了一下路子. 但有如此清晰的指示图供参考还是非常不错的,不是需要我们完全掌握,只是扩展思维.               反射、泛型、注释符、自动装箱和拆箱、枚举类、可变.               参数、可变返回类型、增强循环、静态导入.         核心编程.              IO、多线程、实体类、.

腾讯CTO张志东(Tony)培训笔记

- - 标点符
公司请来了Tony给我们培训(感谢公司),以下为Pony培训中涉及到的内容,膜拜前辈真的是非常的兴奋,同时也是学习到了不少知识. 对于这样的前辈,最深的感受就是谦逊与实在. 1、关于网传的QQ架构从建立初期一直沿用到现在的解释. 林军的《沸腾十五年》中关于“腾讯创始人们”的章节中,有一段关于张志东技术能力的描述: QICQ最开始只是一个纯汉化的版本,毕竟是系统集成项目中很小的一部分,但之后要放在网上,因此,张志东带着小光、夜猫又重新写了一遍,从客户端到服务器端,这个架构沿用至今,没有做大的修改,只是不断扩充用户和升级系统,张志东真天才也.

联想CTO:我们为什么要预装Superfish

- - cnBeta.COM
联想集团CTO彼得·霍腾休斯(Peter Hortensius)近日就预装Superfish一事接受了《纽约时报》专访,就此事发生的原因做出了解释,并公开道歉,还透露了该公司的一些解决方案. 在用户发现这家全球最大PC制造商预装了Superfish广告软件,并将其隐藏在用户和杀毒软件难以发现的地方后,舆论哗然.