不学点数据分析怎么混

标签: 极客互联 | 发表时间:2017-10-08 14:49 | 作者:shendao
出处:http://www.shellsec.com

今天简单分享一下数据分析的学习心得。

何谓数据分析:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化的开发数据的功能,发挥数据的作用。

数据分析的目的是把隐藏在一批杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的规律。

数据分析分为:描述性数据分析,探索性数据分析,验证性数据分析

而数据分析在企业的日常经营中主要有三大作用:现状分析-过去发生了什么,原因分析-为什么会发生,预测分析-将来会发生什么

数据分析有六大步骤:明确分析目的和思路->数据收集->数据处理->数据分析->数据展现->报告撰写

第一:明确分析目的和思路

梳理分析思路,搭建分析框架,把分析目的分解程若干个不同的分析要点,即如何开展数据分析,需要从哪几个角度进行分析

经典分析理论
理论1 :PEST-政治,经济,社会,技术的宏观环境分析

政治环境:包括一个国家的社会制度,执政党的性质,政府的方针,政策,法令等;构成政治环境的

关键指标有:政治体制,经济体制,财政政策,税收政策,产业政策,投资政策,专利数量,国防开支水平,政府补贴水平,民众对政治的参与度等

经济环境:
  • 宏观经济:国民收入,国民生产总值及其变化情况
  • 微观经济:消费者的收入水平,消费偏好,储蓄情况,就业程度等因素
  • 构成经济环境的关键指标:GDP及其增长率,进出口总额及增长率,利率,汇率,通货膨胀,消费价格指数,居民可支配收入,失业率,劳动生产率等
社会环境
  • 一个国家或地区的居民受教育程度和文化水平,宗教信仰,风俗习惯,审美观点,价值观念等
  • 关键指标:人口规模,性别比例,年龄结构,出生率 ,死亡率,种族结构,妇女生育率,生活方式,购买习惯,教育状况,城市特点,宗教信仰状况等
技术环境

新技术的发明与进展,折旧与报废速度,技术更新速度,技术传播速度,技术商品化速度,国家重点支持项目,国家投入的研发费用,专利个数,专利保护情况等

理论2:5W2H:why ,what,who,when,where,how,hou much

举例说明:用户购买行为分析

  • why:用户购买的目的是什么,产品哪方面吸引用户
  • what:公司提供什么产品或服务,与用户需求是否一致
  • who:谁是我们的用户,用户有何特点
  • when:何时购买,多久再次购买
  • where:用户在哪里购买,用户在各地区的构成怎样
  • how:用户购买支付方式是怎样的
  • how much:用户购买花费的时间,交通等成本各是多少
理论3:逻辑树

以终为始的分析思路,从树根到树枝,推导到便于操作的任务

逻辑树的使用必须遵循以下三个原则:

  • 要素化:把相同问题总结归纳成要素
  • 框架化:将各个要素组织成框架,遵守不重不漏原则
  • 关联化:各要素保持必要的相互关系
理论4:4P营销理论-产品,价格,渠道,促销

举例:

  • 产品:公司提供什么样的产品或服务;哪个产品销量最好;与用户需求是否一致;购买产品的用户都是些什么人
  • 价格:公司销售收入怎样;增长还是减少;用户接受的合理价格是多少;用户购买支付方式是怎样
  • 渠道:公司在各地区有多少的销售渠道;是否未覆盖到或覆盖率较低;用户通过何种渠道购买;用户在各个地区的构成是怎样;公司的渠道政策是否有吸引力
    促销:投入多少促销资源;效果如何;投放多少宣传广告,效果如何
理论5:用户行为理论

用户使用行为指的是用户为获取,使用物品或服务所采取的各种行动。

认知->熟悉->试用->使用->忠诚

依照该顺序分析用户访问网站的行为:

  • 网站访问:IP,PV,人均页面访问量,访问来源
  • 网站浏览:平均停留市场,跳出率,页面偏好
  • 站内搜索:搜索访问次数
  • 用户注册:注册用户数,注册转化率
  • 用户登录:登录用户数,人均登录,访问登录比
  • 用户订购:订购量,订购频次,内容,转化率
  • 用户黏性:回访比率,访问深度
  • 用户流失:用户流失数,流失率
理论6:金字塔理论
理论7:生命周期理论

第二:数据准备

获取数据的来源一般是两种:自己录入和外部导入。

数据一般是由数字,文字,日期,货币,等等类型。

第三:数据处理

1、数据清洗-重复数据,缺失数据,错误数据的处理

2、数据加工-数据抽取,数据计算,数据分组,数据转换

3、数据抽样-普查和抽样调查,Random函数

第四:数据分析

1.数据分析方法——对比,细分,预测三大基本方法

  • 对比分析法:将两个及以上数据进行比较,分析他们的差异,从而揭示数据所代表的事物发展变化情况和规律性。直观看出差距
  • 分类:
  • 静态比较,也称横向比较,不同部门,地区,国家的比较
  • 动态比较,纵向比较,不同时期的数值
  • 结构分析法:被分析总体内的各部分与总体之间进行对比的分析方法,比如市场占有率
  • 平均分析法:运用计算平均数的方法来反映总体在一定时间,地点条件下某一数量特征的一般水平
  • 交叉分析法:同时将两个有一定联系的变量及其值交叉排列在一张表格内
  • 综合评价分析法:
    1. 确定综合评价指标体系,即包含哪些指标,是综合评价的基础和依据
    2. 收集数据,并对不同计量单位的指标数据进行标准化处理
    3. 确定指标体系中各指标的权重,以保证评价的科学性
    4. 对经处理后的指标再进行汇总,计算出综合评价指数或综合评价分值
    5. 根据评价指数或分值对参评单位排序,并由此得出结论

确定权重的方法很多,比如专家访谈法,德尔菲法,层次分析法,主成分分析法,因子分析法,回归分析法和目标优化矩阵(如下图,通过两两对比计算排序)

不学点数据分析怎么混

屏幕快照 2017-10-06 20.24.07.png

  • 杜邦分析法:将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机的结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映。如下图:
不学点数据分析怎么混

屏幕快照 2017-10-06 20.27.40.png

  • 漏斗图分析法:适合业务流程比较规范,周期比较长,各流程环节涉及复杂业务过程比较多的管理分析工具。结合对比法效果更佳。如下图
不学点数据分析怎么混

屏幕快照 2017-10-06 20.29.28.png

  • 矩阵分析法:根据事物的两个重要属性作为分析依据,进行分类关联分析,找出解决问题的一种分析方法。如下图
不学点数据分析怎么混

屏幕快照 2017-10-06 20.31.29.png

  • 发展矩阵:
不学点数据分析怎么混

屏幕快照 2017-10-06 20.32.24.png

  • 改进难易矩阵:用气泡大小来区分难易程度
不学点数据分析怎么混

屏幕快照 2017-10-06 20.33.06.png

第五:数据展现:电梯法则(30S内读懂)

1、经济适用表——饼图,条形图,柱形图,折线图,散点图,表格

不学点数据分析怎么混

屏幕快照 2017-10-06 20.35.19.png

如何选择图表?

通过数据间的关系

  • 成分:饼图,柱形图
  • 排序:柱形图,条形图,气泡图,帕累托图?
  • 时间序列:折线图,柱形图
  • 频率分布:柱形图,条形图,折线图
  • 相关性:柱形图,条形图,散点图,气泡图
  • 多重数据比较:雷达图

作图五步法:

  1. 确定所要表达的主题或目的
  2. 确定哪种图表最适合你的目的
  3. 选择数据制作图表
  4. 检查是否真实有效的展示数据
  5. 检查是否表达了你的观点

在制作过程中

  • 可以用颜色突出显示
不学点数据分析怎么混

屏幕快照 2017-10-06 20.43.32.png

  • 用数据条长度展示大小
不学点数据分析怎么混

屏幕快照 2017-10-06 20.43.54.png

  • 用图标分组
不学点数据分析怎么混

屏幕快照 2017-10-06 20.44.19.png

  • 用迷你图形象化表达
不学点数据分析怎么混

屏幕快照 2017-10-06 20.44.33.png

给图表换装:针对较为复杂的问题,在基础图之上做些处理,形式有以下几种:

  • 1、平均线图
  • 2、双坐标图
  • 3、瀑布图
  • 4、帕累托图
  • 5、旋风图
  • 6、漏斗图
  • 7、矩阵图
  • 8、发展矩阵图
  • 9、改进难易矩阵图

第六:图表美化

简洁,整齐,对比

第七:数据报告

what?数据分析报告是根据数据分析原理和方法,运用数据来反映,研究和分析某项事物的现状,问题,原因,本质和归来,并得出结论,提出解决办法的一种分析应用文体。

一般采用总分总的格式:

  1. 标题:
    1. 解释基本观点
    2. 概括主要内容
    3. 交代分析主题
    4. 提出问题
  2. 目录
  3. 章节,页码
  4. 前言
    1. 分析背景
    2. 分析目的
    3. 分析思路
  5. 正文
    1. 报告最长的部分
    2. 包含数据分析事实和观点
    3. 通过数据图表和相关的文字结合分析
    4. 正文各部分具有逻辑关系
  6. 结论与建议:结合具体情况给出合理建议
  7. 附录:涉及的专业词汇,计算方法,重要原始数据,地图等内容

总结:数据在工作中扮演着越来越重要的角色,总结过去,预测未来,有个哲学大师说过,世界的本源是数,数的推演结果甚至比人的感官更为准确,数无处不在。所以要成为浪潮的引领者,学点数据分析很有必要。

相关 [数据分析] 推荐:

Excel 数据分析

- - ITeye博客
用Excel做数据分析——直方图. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

扯扯数据分析

- - 互联网分析
在别人的眼里数据分析既是很深奥的职业,也是被人挑战的职业,更是让你又恨又爱的职业. 其实这些都不重要的,重要的是对此行感兴趣,骨子里有量化一切的 意识. 很多人首先脑海中出现的是1、2、3……等等,为何有这样的印象. 其实是我们数据分析师为了更好的运用“统计学”所以要将许多 数据想尽办法来转化为1、2、3这样的数据形式,从而更深入、科学的分析data,不扯这个了,这个没什么意思,看图:.

数据分析那些事

- - 小蚊子乐园
今早突然有个想法,就是经常有网友会对数据分析方面有一些困惑,并且咨询我该怎么办. 并且经常是同样的问题,所以觉得有必要对一些经典共性的问题进行整理,与大家分享,这里并非标准答案,仅作参考. 欢迎提出自己对数据方面的疑问,将在此篇将持续更新,敬请关注. ----------------------------------------我不是完美的分割线--------------------------------------- .

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

Twitter收购数据分析公司BackType

- zou guangxian - 36氪
Twitter刚刚宣布已经收购BackType,一家帮助公司和品牌衡量社交媒体影响力的数据分析公司. BackType在博客上宣布这一消息时称团队将集中精力为Twitter发布商合作伙伴开发工具. 总部位于旧金山的BackType是一家由YC孵化的创业公司,自2008年以来已获得130万美元投资. 作为交易的一部分,BackType将停止BackTweets(帮助内容发布商了解推讯是如何转化为网站流量和销售额)的新用户注册.

数据分析中遇到的“圆”

- simple - 所有文章 - UCD大社区
与十年前不同,当今令数据分析师迷茫的,可能不再是数据很少,而是数据很多;今天不是不知道玩好数据的重要性,而是不知道玩错数据的危害性,即所谓甜蜜的烦恼. 一个数据分析师,如果能体会到,当下数据存在的核心问题,并且能清楚解决办法,就可以精益求精了. 这次想跟大家讲的是一个由受、想、行、识四个部份所组成生生不息的圈(Feedback Loop),彼此互相推进.

数据分析师的基本素质

- AWard - 小蚊子乐园
摘自《谁说菜鸟不会数据分析》第一章.     Mr.林看到小白斗志昂扬的样子非常高兴:别光说不做啊,要成为一名优秀的数据分析师,并非一件容易的事. 虽然所学的专业与数据分析不相关,但你可以通过工作中的实践学习数据分析,需要付出大量的时间和精力,不经一番寒彻骨,怎得梅花扑鼻香.     下面,我给你介绍一名合格的数据分析师需要具备的五大基本能力和素质.

新读图时代:500px.com数据分析

- holic536 - 东西
500px是一个由世界各地的摄影爱好者组成的高品质图片社区. 网站旨在寻找最优秀的摄影人才,分享和发现精彩的照片,找到志同道合的朋友. 网站创建于2003年,2009年500px重新改版升级成为2.0版. 从2009年的1000用户发展到现如今的4.5万用户,也就是在社交网络兴起之后,网站发展更加迅猛.

数据分析如何反恐 ?

- Chin - 未来趋势 电子商务趋势
喜欢做数据分析源于因为每个数据背后都有一个故事. 从少到大都有一个兴趣从来没变过,就是Forecast, 跟朋友说我其实不喜欢数据没人相信,但心底里其实想得到的是那仲Discover的快感. 曾经当个警察,喜欢风水算命,帮过职业赌徒做数据分析,这一切的快感就是来自类似以下这样的经历.  (节录自: 超级魔鬼经济学).

数据分析师的级别

- - 博客 - 伯乐在线
虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,. 这样的人,只能通过×××系统看到有限的数据,并且很少去处理数据,甚至不理解数据的由来和含义,只是机械的把自己看到的数据拷贝出来,转发给相应的人. 这类人发出来的数据,是否有意义,怎么解读,他自己是不知道的,只能期望收到数据的人了.