数据归一化和两种常用的归一化方法

标签: 数据 归一化 归一化 | 发表时间:2016-05-06 09:59 | 作者:
出处:http://m635674608.iteye.com

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和 量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准 化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:

一、min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:

clip_image002

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

二、Z-score标准化方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

clip_image004

其中 clip_image006为所有样本数据的均值, clip_image008为所有样本数据的标准差。

 

一、 归一化的作用是:将数据去掉量纲的影响。简单的讲,由于数据单位不一致,故需将不同的数据进行格式化,使之在指定的范围内  (比如在0~1之间)。

二、归一化方法:

1、线性函数转换:y=(x-MinValue)/(MaxValue-MinValue)
说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
2、对数函数转换:y=lg(x)
说明:以10为底的对数函数转换。
3、反余切函数转换:y=atan(x)*2/pi
 
_score * (1d / (1d + exp(-log(doc['saleCount'].value+1d)/10)))

参考文献:

http://webdataanalysis.net/data-analysis-method/data-normalization/

 

http://www.cnblogs.com/chaosimple/archive/2013/07/31/3227271.html



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [数据 归一化 归一化] 推荐:

数据归一化和两种常用的归一化方法

- - zzm
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和 量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性. 原始数据经过数据标准 化处理后,各指标处于同一数量级,适合进行综合对比评价. 一、min-max标准化(Min-Max Normalization).

数据归一化,标准化的几种方法

- - zzm
归一化方法(Normalization Method). 把数变为(0,1)之间的小数. 主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内. 把有量纲表达式变为无量纲表达式. 归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量.

使用Python对数据进行归一化规格化

- - 标点符
数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待. 先前的文章中已经介绍了几种常见的 数据归一化的方法,这里对主要整理了如何将这些公式和方法转化程Python代码.

为什么一些机器学习模型需要对数据进行归一化? - zhanlijun

- - 博客园_首页
为什么一些机器学习模型需要对数据进行归一化.     针对这个问题参考了wiki的解释: http://en.wikipedia.org/wiki/Feature_scaling. “归一化后有两个好处:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度”. 1 归一化为什么能提高梯度下降法求解最优解的速度.

【计算机视觉】对检测的人脸进行剪切和归一化

- - CSDN博客综合推荐文章
要进行人脸的识别,尤其是复杂环境下的人脸识别,就要在捕获人脸图像之后对图像进行预处理的工作,如图像的大小和灰度的归一化,头部姿态的矫正,图像分割等. 这样做的目的是改善图像质量,消除噪声,统一图像灰度值及尺寸,为后序特征提取和分类识别打好基础. 该文将就人脸的剪切和归一化操作进行学习探讨,并做一笔记备用.

数据仓库

- Ran - Linux@SOHU
翻译:马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高,以及服务器价格的降低,让人们能够负担起大量的服务器,但是商业软件应用和监控工具快速的增加,还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者,以及初级数据库管理员发现,他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语,概念或工具.

数据抽取

- - 数据库 - ITeye博客
转自: http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96#.   数据抽取是指从源数据源系统抽取目的数据源系统需要的. 实际应用中,数据源较多采用的是. 数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式.

数据库sharding

- - 数据库 - ITeye博客
当团队决定自行实现sharding的时候,DAO层可能是嵌入sharding逻辑的首选位置,因为在这个层面上,每一个DAO的方法都明确地知道需要访问的数据表以及查询参数,借助这些信息可以直接定位到目标shard上,而不必像框架那样需要对SQL进行解析然后再依据配置的规则进行路由. 另一个优势是不会受ORM框架的制约.

数据脱敏

- - IT瘾-bigdata
作者|李呈祥,其中部分内容由十一城补充. 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形. 百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护. 这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集.

数据分析之如何用数据?

- - 互联网分析沙龙
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.