为什么一些机器学习模型需要对数据进行归一化? - zhanlijun

标签: 机器学习 模型 需要 | 发表时间:2015-04-20 08:02 | 作者:zhanlijun
出处:

为什么一些机器学习模型需要对数据进行归一化?

http://www.cnblogs.com/LBSer/p/4440590.html

    针对这个问题参考了wiki的解释: http://en.wikipedia.org/wiki/Feature_scaling。“归一化后有两个好处:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度”。

1 归一化为什么能提高梯度下降法求解最优解的速度?

      斯坦福机器学习视频做了很好的解释: https://class.coursera.org/ml-003/lecture/21

      如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大,X1区间是[0,2000],X2区间是[1,5],其所形成的等高线非常尖。当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;

      而右图对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛。

      因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则很难收敛甚至不能收敛。

2 归一化有可能提高精度

     一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

3 归一化的类型

1)线性归一化

x' = \frac{x - \text{min}(x)}{\text{max}(x)-\text{min}(x)}

      这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量来替代max和min。

2)标准差标准化

  经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:

  其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

3)非线性归一化

     经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

     


本文链接: 为什么一些机器学习模型需要对数据进行归一化?,转载请注明。

相关 [机器学习 模型 需要] 推荐:

为什么一些机器学习模型需要对数据进行归一化? - zhanlijun

- - 博客园_首页
为什么一些机器学习模型需要对数据进行归一化.     针对这个问题参考了wiki的解释: http://en.wikipedia.org/wiki/Feature_scaling. “归一化后有两个好处:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度”. 1 归一化为什么能提高梯度下降法求解最优解的速度.

通过 Flask, Docker, Jenkins 和 Kubernets 部署机器学习模型

- - 吴良超的学习笔记
本文主要介绍部署机器学习模型的一种自动化方式,如题所示,通过 Flask, Docker, Jenkins 和 Kubernets 实现. 基本原理就是通过 Fflask 提供暴露出 RESTful API 接收客户端的 predict 请求,然后将这个服务打包成一个 docker image 便于部署和迁移,当代码或模型更新时通过 Jenkins 触发自动构建新的 docker image,而通过 kubernets 管理容器则让整个服务具备伸缩性和可靠性.

PMML模型文件在机器学习的实践经验 - CSDN博客

- -
算法工程师和业务开发工程师,所掌握的技能容易在长期的工作中出现比较深的鸿沟,算法工程师辛辛苦苦调参的成果,业务工程师可能不清楚如何使用,如何为线上决策给予支持. 本文介绍一种基于PMML的模型上线方法. 这种方案,在本次参加 QCon 大会时,Paypal的机器学习平台中也有所提及:. 预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言.

机器学习之类别不平衡问题:模型的评价指标

- - IT瘾-dev
本系列文章主要介绍机器学习中类别不平衡问题的处理,在实际应用中类别不平衡问题是非常常见的,文章主要包括以下部分. (2).不平衡问题的常用指标. (3).从数据集角度处理不平衡问题. (4).从算法角度处理不平衡问题. 本次文章主要是第一部分模型的评价指标,如果对模型的评价指标不了解,那么后续模型的好坏也无从谈起.

如何使用机器学习解决实际问题-以关键词相关性模型为例

- - Dustinsea
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现. 包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化. 该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现. 目标设定:提升关键词搜索相关性. 作为一个搜索+推荐产品,百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词.

如何用Python和机器学习训练中文文本情感分类模型?

- - 神刀安全网
利用Python机器学习框架scikit-learn,我们自己做一个分类模型,对中文评论信息做情感分析. 其中还会介绍中文停用词的处理方法. 前些日子,我在微信后台收到了一则读者的留言. 我一下子有些懵——这怎么还带点播了呢. 但是旋即我醒悟过来,好像是我自己之前挖了个坑. 如何用Python从海量文本抽取主题.

将搜索引擎的机器学习技术用于风控,氪信希望指数级提高金融模型的训练效率

- - 36氪
氪信的创始人朱明杰之前是搜索引擎的数据工程师,现在他把技术应用在了金融风控上,近期获得了真格基金700万人民币的天使投资. 氪信的产品包括非或然引擎(下文简称“引擎”)和XCloud两部分,“引擎”是一套数据模型处理系统,解决的是不同场景下的风控模型校正问题. 以物流行业为例,通过输入企业ERP数据、位置信息数据等场景内数据,以机器学习的技术调整各数据维度的权重,从而建立针对场景的风控模型.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.