国内数据分析“七宗罪” 美国进入“非结构化”数据分析新时代
199IT数据中心微信账户:i199IT
目前,对国内大部分企业级客户而言,大数据时代已经真正到来了。
虽然,近年来“大数据”及“数据分析”概念被炒得很火,但国内,国内很多CIO/CTO们仍很“害怕数据”——一方面,企业充斥着无从分析的非结构化数据;另一方面,结构化数据分析方面,与非结构一样面临着方法不科学、周期冗长、性价比低、不能直接产生经济效益等典型的问题。国内大数据分析越来越陷入到一种不得要领、颇为鸡肋的僵局。
而反观大洋彼岸的美国,新技术正推动着美国数据分析产业进入到一个新的阶段——目前美国很多企业客户不仅开始分析非结构化数据,并通过引入“实时分析”、“数据驱动”(Data-driven)、“人机互动”等最新的数据分析理念,实现了企业数据分析与经济效益的有效联动。
每一次产业升级都会孕育出多个独角兽公司,而此次推动数据分析产业变革的正是以Taste Analytics为代表的从美国顶尖级数据可视化中心走出来的数据科学家们。
“这是一场不可思议的革命,你很难想象企业非结构化数据中蕴含的宝藏,我们在启用Taste平台的第一天就发现了一年以来客户邮件一直在抱怨的一个纰漏,从而及时挽回了品牌声誉。”美国某著名家电厂商CIO告诉我。
国内数据分析“七宗罪”
每一个做过调研的人,都会惊讶于中美两国在大数据分析理念和客户心态上的巨大差别。
“企业数据分析,中美在理念方面相差2-3年,而在实际执行层面或许有5年左右的差距。”美国数据分析科学家、Taste Analytics创始人及全美五大可视化研究中心的Derek Wang(汪晓宇)博士表示。
目前,国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主,而对于内涵丰富的非结构化数据,市面上并没有有效的工具进行分析。
同时,在进行结构化数据分析时,仍采用了“招标+外包”的传统模式,即需要大数据分析服务的企业按照历史经验首先建立自己的数据分析KPI(关键绩效指标),然后将整个数据分析任务外包给第三方大数据公司,经过数月的时间后,大数据公司将数据分析的结果返还给甲方企业。
Derek Wang博士表示,这种数据分析的模式,会产生以下几方面的问题,这些问题也正是目前国内的CIO/CTO们颇为头痛的问题。
首先,错过了内涵丰富的非结构化数据。相比结构化数据,非结构化数据对企业同样重要,而目前,国内企业在进行非结构化数据分析方面仍在初始阶段。
第二,KPI非数据驱动生成,缺乏科学性。国内大数据KPI的制定常常以人为经验为准,而不是由数据驱动并且实时生成的,这就有可能造成KPI常年不变,并且缺乏科学性。
第三,数据分析过程冗长。国内企业在进行大数据分析时采用“招标-乙方返还数据分析结果”的方式,整个周期少则也需要1-2个月的时间,往往返还回结果时,企业内部的相关数据已经完全改变了。
第四,浪费了企业内部的分析师资源。采用外包的方式,其实完全浪费了企业内部的分析师资源,从经济效益上很不划算。
第五,数据安全性无法保障。外包的另一个问题就是数据的安全性问题,企业想确保数据以安全的方式交予第三方大数据公司,往往需要耗费额外的时间和经济成本。
第六,数据分析结果不能与企业经济效益直接挂钩。国内企业在进行数据分析时,不仅往往需要数月的时间,而且常常为了分析而分析,分析完之后并不能很好地将分析结果运用到企业经济效益的改善上。
第七,第三方大数据公司分析能力有限。企业看似将数据分析的重任交予了第三方公司,但第三方公司由于缺乏动态、数据驱动的数据分析工具,它其实也是在按照经验制定KPI和进行数据分析,这样分析出的结果难言科学有效。
对此,业内受访专家表示,目前国内企业陷入的数据分析困局,一部分是理念问题,而更多的是技术的制约以及工具的缺乏。“比如对于非结构化数据,其实每个企业都是非常渴望分析,并且希望实时分析的,但目前仍苦于在公开市场上没有好用的分析平台。”
新技术推动形成数据分析新理念
事实上,中国企业遇到的问题,美国企业客户也曾经经历过。美国某著名家电厂商相关受访人士告诉认为,自己也经历过对非结构化数据头大、不能实时科学地分析企业内部数据等问题。
但今年以来,随着美国在非结构化语义分析以及人机互动的图像可视化等技术领域取得关键性突破,尤其伴随着全美五大图像可视化中心之一的北卡罗来纳大学(UNC)夏洛特图像可视化中心的科学家们从学术界走到工业界,推出了实时动态的、结果易读的综合智能数据分析平台The Taste Signals Platform,对美国的企业级用户而言,不论是非结构化数据,还是实时数据分析——以往常见的数据分析难点都被一一攻克了。
“从学术研究成果到工业界,科技再次显示出了它强大的生产力,”美国某著名家电厂商相关受访人士表示,“我们以前不知道怎么处理像雪片一样涌来的客户邮件,有了Taste的新平台和技术,我们内部的分析师第一天就发现了,一年以来客户一直在邮件中抱怨我们一个产品实际的序列号位数与网站注册位数严重不匹配。这是一个我们常规思维中所预想不到的严重的产品问题,但在没有非结构化数据分析工具之前,我们完全无从发现这样的问题。”
不仅上述家电厂商,全美某著名银行IT部门的受访人士也表示,按照经验,他们的管理层曾经想花重金建立银行的某项支付功能,但通过对十几万条客户网络聊天信息进行非结构化数据的分析,他们发现仅有100多条客户谈及该支付功能,“数据驱动的分析让我们学会相信数据而不是跟随潮流,我们最终愉快地决定暂缓该功能的开发——非结构化数据分析让我们优化了我们的产品结构,更加有效的利用了我们的资金,实现了对于我们主营业务的提升”。
可以看到,目前在美国,很多主流的企业已经进入到了以非结构化数据分析以及数据驱动、实时分析、人机互动、结果易读等为特点的数据分析的新纪元。据了解,在The Taste Signals Platform等强大数据分析平台支持下,相比国内客户,目前美国客户已经形成了在数据分析方面的新理念。
首先,信任数据而不是经验。国内客户在制定数据分析KPI时,更多地依靠既往的经验,而美国客户则更多地相信通过机器学习的数据平台工具得出的数据挖掘的结果,即使这些结果有可能背离传统的经验(上述美国某银行就是一个很好的例子)。
其次,数据分析重要的不是工具本身,而是通过工具提升内部分析师的生产力。在美国客户眼中,数据分析更重要的在于充分调动起企业内部分析师的能动性,对他们而言,数据分析不是一个外包或者被动等结果的过程,而是一个利用更先进的数据分析平台工具提升内部人员生产力以及实时的人机互动的过程。
再次,非机构化数据与结构化数据同样重要。美国客户不仅希望看到“树木”,更希望看到“森林”,这就意味着他们不仅希望实时分析结构化数据,也希望分析非结构化的数据,并且对于每一个科学分析出的关键指标,他们都会分别建立舆情模型,再进行更加细化的数据分析。 这是一个循序渐进的过程。
第四,将数据分析与经济效益直接挂钩。美国客户更希望将数据分析的结果用于改善经济效益,比如美国某银行就通过数据分析节省了几千万的某支付功能的开发成本;而上述家电厂商也通过数据分析提升了用户满意度以及品牌形象。
年末重新定义国内“数据分析平台”
正如苹果定义了智能手机,将手机产业带入一个新的时代,每一次技术变革的背后往往都会孕育出优秀的甚至独角兽公司。而在此次美国的数据分析产业升级换代中,由美国夏洛特图像可视化中心的几个年轻的科学家就扮演了这样的角色。
他们开发的系统是一套可用于每一个企业日常经营的实时的智能数据分析平台,其最独特的地方在于强大的非结构化数据的分析能力,目前其不仅可以分析传统的结构化数据,也可以分析包括中文在内的12种文字、语音等非结构化数据。
“我们可以分析各种非结构数据,其中既包括企业内部邮件、客户聊天记录、电话中心数据等一手的非机构化数据,也包括企业在电商上的二手数据,以及社交网络、新闻、博客等第三方数据。”创始人Derek Wang博士表示。
同时,在对数据、文字以及语音进行分析时,其系统也定义了“人机互动”、“实时分析”、“数据驱动”、“结果易读”等新型数据分析平台的典型特征。
传统的数据分析更像是一个被动的等结果的过程,而新一代的数据分析更讲究企业内部分析师与机器的互动,我们将数据分析的过程分为三大步,第一步是数据驱动的语义分析,客户将成百上千万条数据导入系统中,系统会快速分析出机器学习到的各种结果信息和图表;第二步,客户通过我们简洁易读的图像可视化的界面,根据自身需求观察、解读和分析机器学习出来的结果;第三步是根据第二步的结果,客户可以利用系统建立自己的舆情分析模型,而从再次将该模型代入到分析平台中形成新的数据监控流。”Derek Wang博士如是说,“可以看到整个数据分析的过程形成了一个实时的正向的循环。
摘自:CSDN