对于大数据的应用场景,谈的文章已经相当多,包括各行各业对大数据处理和分析的应用,在此仅仅思考在各种不同的行业如何来发现潜在存在的大数据应用场景。
首先可以从大数据的4V特性入手来进行思考和分析,在数据类型上更加强调了多种异构类型数据形成的混合存储,对于传统单纯的结构化数据或单纯的文档类非结构化数据都有解决方案,而真正难的是混合存储并提供统一的大数据服务开放能力接口。拿企业内部信息化应用场景来说,如果从单一入口原则入手,某个关键字能够搜索到邮件,业务系统,文本文档,互联网等多种渠道来源的异构混合数据,即可形成一个典型的大数据场景。
对于海量的问题一定要区分结构化数据和非结构化数据分别对待,对于完全的结构化数据往往上10T已经是一个海量的数据库,如果仅仅从单节点考虑这种数据库已经很难真正满足大数据分析所需要的速度要求,转而才是需要的类似MPP+ShareNothing机制或Hadoop分布式存储加分析机制来解决OLAP层面的问题。因此对于传统的BI应用面对海量数据无法满足准实时性数据分析需求的时候,需要考虑的是大数据分析和应用。
在速度和时效上是我们考虑的另外一个重要问题,传统的ODS库或OLAP分析往往很难满足实时性的要求。而基于增量的实时数据采集,流处理机制等很好的解决了这个问题。在这里并不是强调的数据量和数据的异构情况,而是更加强调了对数据的增量实时采集和分析机制。那么对于传统ODS构建无法满足实时或即席查询的场景往往也存在大数据技术的应用。
其次从大数据带来的一些思维转变上来分析大数据的场景,首先是对于企业的大数据分析和应用,首先就是要将视线从传统的企业内部拓展到企业外部,特别是在用户行为分析,市场营销等方面基于企业内部传统业务系统收集的数据是远远不够的,只有基于大量外部数据的相关性分析往往才能得出更加有价值的推论。这也是往往互联网行业对大数据应用最先发展和成熟一样,来自企业外围的用户行为,社交,交易,行动路线等数据,来自各种传感设备采集的视频,流量,温度数据才真正构成了一个大数据环境。
大数据关注的是全量数据而非抽样数据,那么这带来的思维转变就是原来采用抽样数据分析和统计的场景是否可以转化为大数据场景,而需要采集全量数据一定不可能靠人工来完成,转化的替代思维就是需要通过传感网和各种传感设备自动采集完成。因此抽样-》全量-》传感设备实时采集全量数据-》全量数据存储和分析即构成一个完整的大数据思维的转变。
分析评估或预测模型,类似交通行业的交通流预测或诱导模型,金融行业的信用评估和风控模型,医疗行业的疾病预测模型,保险行业的精算模型等,当我们对这些模型进行重新思考的时候会发现,原有建模和模型分析思路往往并没有错,但是在原来本身就会遇到数据收集困难性,如涉及到大量外部协同单位数据的开放和收集,涉及到用户行为和习惯数据的收集等,而这些也正是大数据的重要应用场景。大数据下我们强调相关性,但是不能否定因果关系。其实很多时候实际情况还是我们首先在思考一个价值目标,然后再考虑围绕这个价值目标所涉及到的所有相关因素和因子,再考虑这些因子间的相互关系权重,因素的采集和分析方法等。
不论是哪个行业的大数据分析和应用场景,可以看到一个典型的特点还是无法离开以人为中心所产生的各种用户行为数据,用户业务活动和交易记录,用户社交数据,这些核心数据的相关性再加上可感知设备的智能数据采集就构成一个完整的大数据生态环境。
单纯的数据采集,数据存储,数据处理往往都只是大数据中应用到的技术能力,而大数据场景的本质还是业务价值驱动下的大数据分析和挖掘,为了达到这个目标往往则涉及到数据采集,集成,存储,处理,分析,挖掘等大数据的全生命周期管理过程。
青春就应该这样绽放 游戏测试:三国时期谁是你最好的兄弟!! 你不得不信的星座秘密