机器学习的流程是怎样的呢?如何应用到实践中去呢?

标签: AI人工智能 3年 中级 机器学习 | 发表时间:2019-03-01 08:13 | 作者:梦想在起飞
出处:http://www.woshipm.com

机器学习是一种能够实现人工智能的技术,可以通过大量的数据,训练出来一个处理数据的模型。本文笔者将与大家分享:机器学习的相关实践应用。

我所理解的机器学习是一种能够实现人工智能的技术,建立能从经验(数据)中进行学习的模型,从而使这个模型可以达到自行处理此类数据的能力。

也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型。使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。

想要了解机器学习你需要知道以下几点:

一、机器学习的流程

从实际的应用场景出发,要训练出来一个能够适应某场景的模型需要经过以下几步:

图1

1. 场景解析

场景解析就是将业务逻辑,抽象成为通过算法能够解决的问题。

比如:做一个心脏病预测系统,那么就可以抽象为二分类问题——要么有心脏病,要么没有。然后,根据已有的数据看看有没有目标值,可以判断出:是监督学习还是无监督学习,还是半监督学习。从而,选择出能够处理好此类数据的算法。

(不同场景采用的算法是不同的)高频的有以下几种类型的场景:

  1. 分类场景:广告投放预测,网站用户点击预测。
  2. 聚类场景:人群划分,产品种类划分。
  3. 回归场景
  4. 文本分析类场景:新闻的标签提取,文本自动分类和文本关键信息抽取。

关系图算法:社交网络关系,网络关系挖掘和金融风险控制。

模式识别:语音识别,图像识别和手写文字识别。

2. 数据预处理

场景解析完,选择适合处理此类数据的算法后,需要对数据进行预处理——就是对数据进行清洗工作,对空值,乱码进行处理。

数据预处理的主要目的就是:减少噪音数据对训练数据的影响。

3. 特征工程

特征工程是机器学习中最重要的一部分,因为根据已有的训练数据,可选用的算法是有限的,那么在同样的算法下特征的选取是不同的,100个人对一件事情会有100种看法,也就有100种特征,最后特征的质量决定模型的好坏。特征工程需要做的包括:特征抽象,特征重要性的评估,特征衍生,特征降维。

4. 模拟训练

在经过以上过成后,进入训练模块,生成模型。

5. 模型评估

对生成模型的成熟度进行评估。

6. 离线/在线服务

在实际运用过程中,需要配合调度系统来使用。

案例场景:每天将用户当日新增的数据量流入数据库表里,通过调度系统启用离线训练服务,生成最新的离线模型,然后通过在线预测服务进行实时预测。

7. 数据源结构

结构化数据:机构化数据是指以矩阵结构储存的数据。

数据库里的数据就是以这种结构存在,可以通过二维结构来显示,如下图:
图2结构化数据中,有两个重要的概念需要介绍一下:特征列和目标列。

上图里age,sex,cp列都是特征列,ifhealth是目标列。

  1. 非结构化数据:典型的非结构化数据是图像,文本,语音等文件。这些数据不能以矩阵的结构储存,目前的做法也是通过把非结构化的数据转化为二进制储存格式。
  2. 半结构化数据:半结构化数据是指按照一定的结构储存,但不一定是二维的数据库行存储形态的数据。还有一种是以二维数据形态储存的,但某些字段是文本类型,某些字段是数值类型的。如下图:

图3

8. 算法分类

监督学习:是指每个进入算法的训练样本数据都有对应的目标值。

如上图2所示,Ifhealth为目标值。

常见的监督学习算法:

图4

无监督学习:就是训练样本的数据里没有目标列,不依赖于打标好的机器学习算法。

那么,这样的数据可能对一些分类和回归的场景就不太适合了。

无监督学习主要是来解决一些聚类场景的问题。

图5

半监督学习:

通过上面的监督学习和无监督学习的概念,再来看半监督学习就比较好理解了。

也就是说,训练数据里只有部分数据是打标的。目前,半监督学习的算法,都是监督学习算法的变形。

强化学习:

强化学习是一种比较复杂的机器学习种类。强调的是:系统与外界不断的交换,获得外界的反馈,然后决定自身的行为。

如:无人驾驶,阿尔法狗下围棋就是强化学习的应用。

9. 过拟合问题(欠拟合这里不做详细的介绍)

过拟合是数据挖掘(通过大量数据,训练模型的过程也称为数据挖掘)领域中最常见的问题,是指:通过训练集训练了一个模型,这个模型对于训练集的预测准确率很高,可以达到95%以上,但是换一份儿数据集进行预测,准确率大幅度下降。

出现这种情况的原因可能是:训练的过拟合现象。

导致过拟合问题的原因有以下三种:

  1. 训练数据集样本单一。
  2. 训练样本噪音数据干扰过大。
  3. 模型过于复杂。

10. 结果评估

机器学习最终的目的是:生成模型。

模型生成后需要一些指标来评估这个模型的好坏。

常用到的概念有:精确率,召回率,F1值,ROC和AUC几种。

首先介绍一下精确率,召回率和F1值。这3个指标是由:TP,TN,FP,FN这4个值计算而来的(这里不做解释了)。

  • 精确率=TP/(TP+FP)
  • 召回率=TP/(TP+FN)
  • F1=(2*精确率*召回率)/(精确率*召回率)

图6

ROC曲线是常用的二分类场景的模型评估算法曲线,下图齿状弧形曲线就是ROC曲线。

如图所示:

图7

通过ROC曲线可以清晰的展示出来,只要模型曲线越来越接近左上角就说明模型的效果越好。

AUC的值是ROC与横轴所围起来的面积(图中带阴影的部分),这个AUC的值越大说明模型的效果越好。

AUC的值取0~1之间,通常大于0.5,当AUC的值大于0.9以上时,证明这个模型的效果比较好。

 

本文由 @梦想在起飞 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于CC0协议。

相关 [机器学习 应用 实践] 推荐:

微信的机器学习与人工智能应用实践

- -
大家好,我是来自微信的张重阳,很荣幸有这个机会和大家一起交流一下机器学习和人工智能技术在微信的应用实践. 谈起人工智能,大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术,然而人工智能所涉及的应用场景和商业价值却远不止此. 在日常的经营和管理中,任何一个企业都会维护客户关系,都有销售数据需要分析,都会在生产,销售和运营的各个环节中面对不同的决策问题,新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案,从而驱动业务快速增长.

机器学习的流程是怎样的呢?如何应用到实践中去呢?

- - 人人都是产品经理
机器学习是一种能够实现人工智能的技术,可以通过大量的数据,训练出来一个处理数据的模型. 本文笔者将与大家分享:机器学习的相关实践应用. 我所理解的机器学习是一种能够实现人工智能的技术,建立能从经验(数据)中进行学习的模型,从而使这个模型可以达到自行处理此类数据的能力. 也可以理解为:通过大量的数据,训练出一个能处理此类数据的模型.

Google 发布关于机器学习工程的最佳实践

- -
本文档旨在帮助已掌握机器学习基础知识的人员从 Google 机器学习的最佳实践中受益. 它介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南. 如果您学习过机器学习方面的课程,或者拥有机器学习模型的构建或开发经验,则具备阅读本文档所必需的背景知识. 在我们讨论有效的机器学习的过程中,会反复提到下列术语:.

观远AI实战 | 机器学习系统的工程实践

- - 机器之心
「观远AI实战」 栏目文章由观远算法天团倾力打造,观小编整理编辑. 这里将不定期推送关于机器学习,数据挖掘,特征重要性等干货分享. 本文8千多字,约需要16分钟阅读时间. 机器学习作为时下最为火热的技术之一受到了广泛的关注. 我们每天打开公众号都能收到各种前沿进展、论文解读、最新教程的推送. 这些文章中绝大多数内容都跟酷炫的新模型、高大上的数学推导有关.

机器学习在金融领域有哪些应用?

- - IT瘾-bigdata
由于交易量比较大,交易历史数据精确完备,以及金融领域的量化分析特点,金融领域是比较适合人工智能技术应用的领域. 现在机器学习已经成为金融生态中不可或缺的组成部分,从贷款审批到资产管理,到风险评估. 但是,很少有专业人士能够准确地知道机器学习在日常金融中的应用. 小编在Quora上提取了关于这个问题的一些针对性的回答.

PMML模型文件在机器学习的实践经验 - CSDN博客

- -
算法工程师和业务开发工程师,所掌握的技能容易在长期的工作中出现比较深的鸿沟,算法工程师辛辛苦苦调参的成果,业务工程师可能不清楚如何使用,如何为线上决策给予支持. 本文介绍一种基于PMML的模型上线方法. 这种方案,在本次参加 QCon 大会时,Paypal的机器学习平台中也有所提及:. 预测模型标记语言(Predictive Model Markup Language,PMML)是一种可以呈现预测分析模型的事实标准语言.

机器学习在互联网应用面临的 10 大挑战

- - Resys China
原内容出自:@张栋_机器学习  http://weibo.com/1686830902/xAkL3EV4p. 1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏. 比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 ….

[原]机器学习在热门微博推荐系统的应用

- - CSDN人工智能
近年来,机器学习在搜索、广告、推荐等领域取得了非常突出的成果,成为最引人注目的技术热点之一. 微博也在机器学习方面做了广泛的探索,其中在推荐领域,将机器学习技术应用于微博最主要的产品之一——热门微博,并取得了显著的效果提升. 热门微博是基于微博原生内容的个性化兴趣阅读产品. 提供最新最热优质内容阅读服务,更好地保障用户阅读效率和质量,同时达到激励微博上内容作者更好的创作和推广内容.

机器学习实践系列之5 - 目标跟踪 - 跟随技术的脚步-linolzhang的专栏 - CSDN博客

- -
目标跟踪(Object Tracking),很多专业人士都不陌生,它是计算机视觉里面 用于视频分析的一个很大的分类,就像目标检测一样,是视频分析算法的底层支撑.        目标跟踪的算法有很多,像 Mean-Shift、光流法、粒子滤波、卡尔曼滤波等 传统方法,也有 TLD、CT、Struct、KCF 等掺杂了某些 “外力”,不那么纯粹的方法.

算法在社区氛围的应用(三): 机器学习在答非所问识别上的运用

- - 知乎每日精选
现在,瓦力可直接识别并处理该题中的答非所问内容. 我们鼓励认真、专业的分享,期待每一次讨论都能碰撞出更多有价值的信息,并希望每一个用心的回答都能够得到好的展示,为他人带来更多帮助. 但是,我们也发现在社区中出现了答非所问类的内容,影响知友们获取有价值内容的效率. 为了更好地识别答非所问类内容,我们采用了多种模型,包括传统的机器学习模型和比较新的深度学习模型.