AI工程师基础能力:机器学习

标签: tuicool | 发表时间:2018-02-11 00:00 | 作者:
出处:http://itindex.net/relian

看新闻很累?看技术新闻更累?试试 下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料!

本文首发于洪亮劼在极客时间App上开始的独家专栏 《AI技术内参》,更多精彩文章,正在专栏更新。

点击 此处,或扫描下图二维码订阅,永久阅读专栏内所有内容。

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特别是机器学习基础需要不少的数学知识,这对于想进入这一领域的工程师而言,无疑是一个比较高的门槛。

今天,我来和你聊一聊如何学习和掌握机器学习基础知识,又如何通过核心的知识脉络快速掌握更多的机器学习算法和模型。

监督学习和无监督学习

要问机器学习主要能解决什么问题,抛开各式各样的机器学习流派和层出不穷的算法模型不谈,机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习这两类问题,掌握解决这两类问题的基本思路。

什么是解决这两类问题的基本思路呢?基本思路,简而言之就是“套路”。放在这里的语境,那就是指:

  1. 如何把现实场景中的问题抽象成相应的数学模型,并知道在这个抽象过程中,数学模型有怎样的假设。

  2. 如何利用数学工具,对相应的数学模型参数进行求解。

  3. 如何根据实际问题提出评估方案,对应用的数学模型进行评估,看是否解决了实际问题。

这三步就是我们学习监督学习和无监督学习,乃至所有的机器学习算法的核心思路。机器学习中不同模型、不同算法都是围绕这三步来展开的,我们不妨把这个思路叫作“三步套路”。

那什么是监督学习呢?监督学习是指这么一个过程,我们通过外部的响应变量(Response Variable)来指导模型学习我们关心的任务,并达到我们需要的目的。这也就是“监督学习”中“监督”两字的由来。

也就是说,监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。比如,我们希望通过一系列特征来预测某个地区的房屋销售价格,希望预测电影的票房,或者希望预测用户可能购买的商品。这里的“销售价格”、“电影票房”以及“可能购买的商品”都是监督学习中的响应变量。

那什么是无监督学习呢?通常情况下,无监督学习并没有明显的响应变量。无监督学习的核心,往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。典型的无监督学习就是希望能够利用数据特征来把数据分组,机器学习语境下叫作“聚类”。

根据不同的应用场景,聚类又有很多变种,比如认为某一个数据点属于一个类别,或者认为某一个数据点同时属于好几个类别,只是属于每个类别的概率不同等等。

无监督学习的另外一个作用是为监督学习提供更加有力的特征。通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,因此监督学习中往往也需要无监督学习来进行辅助。

我们简要回顾了机器学习中两大类问题的定义。在学习这两大类模型和算法的时候,有这么一个技巧,就是要不断地回归到上面提到的基本思路上去,就是这个“三步套路”,反复用这三个方面来审视当前的模型。另外,我们也可以慢慢地体会到,任何新的模型或者算法的诞生,往往都是基于旧有的模型算法,在以上三个方面中的某一个或几个方向有所创新。

监督学习的基础

监督学习的基础是三类模型:

  1. 线性模型

  2. 决策树模型

  3. 神经网络模型

掌握这三类模型就掌握了监督学习的主干。利用监督学习来解决的问题,占所有机器学习或者人工智能任务的绝大多数。这里面,有 90% 甚至更多的监督学习问题,都可以用这三类模型得到比较好的解决。

这三类监督学习模型又可以细分为处理两类问题:

  1. 分类问题

  2. 回归问题

分类问题的核心是如何利用模型来判别一个数据点的类别。这个类别一般是离散的,比如两类或者多类。 回归问题的核心则是利用模型来输出一个预测的数值。这个数值一般是一个实数,是连续的。

有了这个基本的认识以后,我们利用前面的思路来看一下如何梳理监督学习的思路。这里用线性模型的回归问题来做例子。但整个思路可以推广到所有的监督学习模型。

线性回归模型(Linear Regression)是所有回归模型中最简单也是最核心的一个模型。我们依次来看上面所讲的“三步套路”。

首先第一步,我们需要回答的问题是,线性回归对现实场景是如何抽象的。顾名思义,线性回归认为现实场景中的响应变量(比如房价、比如票房)和数据特征之间存在线性关系。而线性回归的数学假设有两个部分:

  1. 响应变量的预测值是数据特征的线性变换。这里的参数是一组系数。而预测值是系数和数据特征的线性组合。

  2. 响应变量的预测值和真实值之间有一个误差。这个误差服从一个正态(高斯)分布,分布的期望值是 0,方差是σ的平方。

有了这样的假设以后。第二步就要看线性回归模型的参数是如何求解的。这里从历史上就衍生出了很多方法。比如在教科书中一般会介绍线性回归的解析解(Closed-form Solution)。线性回归的解析解虽然简单优美,但是在现实计算中一般不直接采用,因为需要对矩阵进行逆运算,而矩阵求逆运算量很大。解析解主要用于各种理论分析中。

线性回归的参数还可以用数值计算的办法,比如梯度下降(Gradient Descent)的方法求得近似结果。然而梯度下降需要对所有的数据点进行扫描。当数据量很多的时候,梯度下降会变得很慢。于是随机梯度下降(Stochastic Gradient Descent)算法就应运而生。随机梯度下降并不需要对所有的数据点扫描后才对参数进行更新,而可以对一部分数据,有时甚至是一个数据点进行更新。

从这里我们也可以看到,对于同一个模型而言,可以用不同的算法来求解模型的参数。这是机器学习的一个核心特点。

最后第三步,我们来看如何评估线性回归模型。由于线性回归是对问题的响应变量进行一个实数预测。那么,最简单的评估方式就是看这个预测值和真实值之间的绝对误差。如果对于每一个数据点我们都可以计算这么一个误差,那么对于所有的数据点而言,我们就可以计算一个平均误差。

上述对于线性回归的讨论可以扩展到监督学习的三类基本模型。这样你就可以很快掌握这些模型的特点和这些模型算法之间的联系。

无监督学习的基础

现实中绝大多数的应用场景并不需要无监督学习。然而无监督学习中很多有价值的思想非常值得初学者掌握。另外,无监督学习,特别是深度学习支持下的无监督学习,是目前机器学习乃至深度学习的前沿研究方向。所以从长远来看,了解无监督学习是非常必要的。

我们前面说到,无监督学习的主要目的就是挖掘出数据内在的联系。这里的根本问题是,不同的无监督学习方法对数据内部的结构有不同的假设。因此,无监督学习不同模型之间常常有很大的差别。在众多无监督学习模型中,聚类模型无疑是重要的代表。了解和熟悉聚类模型有助于我们了解数据的一些基本信息。

聚类模型也有很多种类。这里我们就用最常见的、非常重要的 K 均值算法(K-means),来看看如何通过前面讲过的“三步套路”来掌握其核心思路。

首先,K 均值算法认为数据由 K 个类别组成。每个类别内部的数据相距比较近,而距离所有其他类别中的数据都比较遥远。这里面的数学假设,需要定义数据到一个类别的距离以及距离函数本身。在 K 均值算法中,数据到一个类别的距离被定义为到这个类别的平均点的距离。这也是 K 均值名字的由来。而距离函数则采用了欧几里得距离,来衡量两个数据点之间的远近。

直接求解 K 均值的目标函数是一个 NP 难(NP-hard)的问题。于是大多数现有的方法都是用迭代的贪心算法来求解。

一直以来,对聚类问题、对无监督学习任务的评估都是机器学习的一个难点。无监督学习没有一个真正的目标,或者是我们之前提到的响应变量,因此无法真正客观地衡量模型或者算法的好坏。

对于 K 均值算法而言,比较简单的衡量指标就是,看所有类别内部的数据点的平均距离和类别两两之间的所有点的平均距离的大小。如果聚类成功,则类别内部的数据点会相距较近,而类别两两之间的所有点的平均距离则比较远。

以上我们通过“三步套路”的三个方面讨论了 K 均值算法的核心思路,这种讨论方法也适用所有的聚类模型和算法。

小结

当你可以熟练使用我今天介绍的“三步套路”,去分析更多监督学习和无监督学习的模型算法以后,对于基础的内容,也就是教科书上经常讲到的内容,你就可以去看这些内容究竟是在讲解这三个方面的哪个方面。

对于绝大多数模型来说,第一部分往往是最重要的,也就是说,这个模型究竟和现实问题的联系是什么。第二部分,也就是模型的求解,取决于模型本身的复杂度和成熟度,现在很多模型往往都有现成的软件包提供求解过程。而第三部分,模型的评估则在现实生产中至关重要。牢牢把握这三个方面,来对机器学习模型算法进行讨论,是成长为成熟数据科学家必不可少的过程。

今天我为你讲了掌握机器学习基础知识的一些核心思路。一起来回顾下要点:第一,机器学习主要的任务有监督学习和无监督学习。这两种机器学习任务的很多模型和算法都可以用一个“三步套路”的思路来进行分析。第二,我们用线性回归作为例子探讨了如何用这个“三步套路”来分析监督学习的模型和算法。第三,我们用 K 均值聚类算法作为例子探讨了如何用“三步套路”来分析无监督学习的模型和算法。

最后,给你留一个思考题,在现实场景中,当你发现一个模型并没有很好地解决你的问题时,从这个“三步套路”的角度来看,究竟哪个方面最容易出问题?

本文首发于洪亮劼在极客时间App上开始的独家专栏 《AI技术内参》,更多精彩文章,正在专栏更新。

点击 此处,或扫描下图二维码订阅,永久阅读专栏内所有内容。

相关 [ai 工程师 基础] 推荐:

AI工程师基础能力:机器学习

- - IT瘾-tuicool
试试 下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料. 本文首发于洪亮劼在极客时间App上开始的独家专栏 《AI技术内参》,更多精彩文章,正在专栏更新. 点击 此处,或扫描下图二维码订阅,永久阅读专栏内所有内容. 想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基础知识是必不可少的.

AI时代的全链路监控,阿里工程师怎么做?

- - 博客园_新闻
阿里妹导读:全链路监控从业务的视角出发,监控整个业务流程的健康状况,无需多个系统切换,直观看到全局和上下游,方便快速发现、定位问题. 今天,我们一起来看看阿里基础设施技术团队在这方面的实践经验. 近年来,随着阿里新业务、新技术的快速发展,传统的业务总量“监控大盘”已经越来越不能满足监控需求,主要表现在以下几个方面:.

AI vs AI--当AI与自己聊天

- Tim - Solidot
Shawn the R0ck 写道 "最烦人的事情之一莫过于被强迫与一个白痴对话. 但当你发现你最讨厌与之交谈的白痴其实就是你自己的基于人工智能程序的拷贝...康奈尔创造性机器实验室决定看看当AI尝试跟自己交谈会发生什么. 他们的健谈的AI程序Cleverbot与自己进行文本交互,之后朗读出文本并且显示到视频中.

[酷工作] [美团点评基础研发平台-前端技术中心招聘] 高级前端工程师

- - V2EX
根据产品设计需求,配合后台开发人员实现业务页面,维护及优化前端页面性能;. 学习前沿前端技术并进行实践和分享,参与制定前端开发规范并推进执行;. 熟练使用各种 Web 前端技术,包括但不限于 HTML(5)/CSS(3)/JavaScript(ES6+),熟悉前端开发规范和 W3C 标准;. 熟悉 Vue 或 React 等 MV * 框架技术栈,至少掌握一种前端项目构建工具;.

贪吃蛇AI挑战赛第二季

- 温柔一刀 - 黑客志
如果你对这个活动感兴趣,可以先从这里开始,编写一个AI程序,然后将你的AI程序以及你对平台的改进建议发送到jin.cai20#gmail.com,主办方将会从中选择12名选手参加6月24到25持续一个周末的编程派对,并提供往返交通及住宿费用,下面是活动的详情:. 时间: June 24th – June 26th *.

AI 政策引发失业担忧

- - 最新更新 – Solidot
政府智库——中国发展研究基金会和红杉中国的报告 显示,中国出口制造业省份浙江、江苏和广东的几家公司在这三年内因自动化削减了 30% 至 40% 的劳动力. 北京正在实施雄心勃勃的政策以升级制造技术. 官方媒体对包括人工智能领域在内的政府发展目标的报道都集中在积极因素上. 然而,有关当局悄然对此类政策导致的裁员表示了担忧.

与其迷恋AI 不如“摸摸”这些开源平台|AI科技评论周刊

- - 雷锋网
自Open AI的成立把AI平台的开源推向高潮后,Google,Facebook,微软,Twitter等公司也“半推半就” 地踏上了自家平台的开源之路,以此来吸引学术界, 工业界的研究人员,让他们更多地分享自己的研究成果. 不管这些巨头的所为(公开分享软件和硬件设计),是为了加速人工智能行业的整体发展进度的初心,还是出于应对竞争对手的被迫之举,对于那些迷恋AI的人来说,都是一件好事.

5天内,Google和百度各自发表AI计划,AI时代真的要来了

- - 今日话题 - 雪球
当$谷歌(GOOG)$ 去年提出要从“Mobile First”转向“AI First”,我就在想这会不会影响今年Google I/O的走向. 果然,上周的Google I/O 2017开发者大会上,“劈柴哥”就强调了这一点,然后全程围绕AI展开. 虽说如此,但其实Google只拿出了Google Lens这一个新玩意,其他基本上都是把Assistant、Home、Photos等前几年I/O的亮点产品拿出来冷饭热炒.

人工智能复杂的商业需求,正促使博弈 AI 的崛起 | AI大师圆桌会

- - 钛媒体:网罗天下创新事
卡耐基梅隆大学计算机系教授、德扑AI之父 Tuomas Sandholm. “人工智能时代,针对机器的算法是机器学习,针对人类的算法是博弈论. ”这是清华大学交叉信息研究院青年千人助理教授、博士生导师、计算经济学研究室主任唐平中,在2017年7月20日钛媒体与杉数科技联合举办的 “AI大师圆桌会之AI时代的博弈与行为分析”活动上提出的观点.

遭遇工程师

- Chrisoul - 槽边往事
谢谢大家的关心,几个小时前Google Plus恢复了我的帐号,看来暂时我还不用离开. 因为前一篇Blog的缘故,有些网友猜测是因为博文而使得我获释. 虚荣心让我想立即承认这一点,但是对不起,真的不是这样的,我的Blog并没有那么大影响力,尤其是在英文世界里. 而且,因为我上次张贴了一张人类进化谱系的漫画,我在国外驻京记者圈里成功赢得了“种族主义者”这一臭名昭著的称号,大概没有什么人愿意帮助一个黄种人中的“种族主义者”.