通过身边小事解释机器学习是什么?

标签: 科研 机器学习 | 发表时间:2012-12-30 14:40 | 作者:丕子
出处:http://www.zhizhihu.com

一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法。

今天从 quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲明白什么是机器学习和数据挖掘。

其中有个答案很不错,拿买芒果的例子来给大家解释。老师们也应该多用用类似的一些例子,启发下学生的思考。

===

买芒果

有一天,你想吃芒果了,你就到地边的小摊上去买芒果,小摊上有好多芒果啊,你可以自己用手挑芒果。跳完之后,摊主会给你称称,多少斤?根据重量来付钱。

买芒果嘛,你只要不是重口味或者口味独特,还是选择最甜的,熟透了的芒果。因为你是根据重量来付钱的,又不是根据甜的程度或者熟了的程度,虽然摊主有时候会把好的芒果挑出一堆来单独涨价,但是这里这个摊主没这么做。

你奶奶曾经告诉你说,买芒果要买金黄色的,黄橙橙黄灿灿的,这样的最甜,不要买那些浅黄色的,那些还没熟。

好吧,这样你就有了一点经验,虽然这点经验是别人直接教给你的:买芒果,就买金黄色的。你在小摊上,挑了些金黄色的,过磅付钱,回家。这事就这么完了?别急,下文。

生活没那么简单

你回家,高高兴兴吃芒果,但是你发现,并不是每个芒果都那么甜,有部分不甜啊。唉,老奶奶的经验还是不足啊,虽然吃的盐比我走的路多,但是只通过颜色判断芒果甜不甜,不是很靠谱。

你回忆回忆看看到底什么样子的芒果甜?好像是又大又金黄色的比较甜,那些小点的金黄色的芒果,得有一半是不甜的。(买了100个金黄色的芒果,有50个大的,都是甜的;另外有50个小的,其中有25个是不甜的。)

嗯,你总算总结出来一条经验规则了:大的金黄色的是最甜的,哈哈。你又高高兴兴的去买芒果。Shit,你熟悉的、你信得过的那个摊主走了。所以你得换一个小摊买芒果了,但是新的摊主的芒果是产自不同的地方,你之前总结的经验可能不行了,你不知道能不能迁移过去(transfer learning),于是你从头再开始尝试吧,发现这里小的,浅黄色的是最甜的!

一天,你表妹来找你玩,想吃芒果,但是她不在乎甜不甜,她喜欢吃多汁的。唉,以前的经验又不顶用了。你只能进行新的一轮实验,目标就是多汁的芒果(优化目标变了)。你又总结出,越软的越多汁。

你出国了读PhD,这里的芒果跟你家乡的差不太大了,这里绿色的最好吃。PhD毕业后,你结婚了,老婆不喜欢吃芒果,喜欢吃苹果。你积累的丰富的挑选芒果的经验规则都不行了,或许有些你可以transfer过去。你不得不从头再开始一轮一轮的实验尝试,看看苹果的一些特征跟好吃不好吃的关系如何?虽然这个过程很枯燥,但是你去做了,因为你爱她。

规则列表

你想把如何挑选芒果(苹果)的这些东西用程序实现出来,这样在电脑上,甚至用你的手机扫描一下,就能自动挑选出很多好吃的芒果。因为你积累了一些规则,可以这么实现:

if (color is bright yellow  and size is big  and sold by favorite vendor): mango is sweet.
if (soft): mango is juicy.
etc.

但是你想啊,这些规则越来越多的话,特征之间的组合啥的就越来越麻烦了,管理、使用都很麻烦。包括写程序实现啊,谁会笨到写这么多If Then。

机器学习

机器学习算法是普通算法的进化,更加聪明和自动。看如何把选芒果的问题定义成标准的机器学习问题吧。

随机的选择了一个市场上的芒果,作为要研究的目标(training data)。你可以用一个表格描述芒果属性和类型的关系,每一行可以放一个芒果的数据,包括芒果的物理属性(feature):颜色、大小、形状、软硬度、产地,等等,还有这么芒果的类型( output variables):甜度、成熟度、多汁度。然后这就是一个多分类问题,或者回归问题,自动的从数据中学习出特征与芒果类型的各种关系等。

如果你用决策树算法,那么这个模型的样子就是你的规则库了;当然你可以使用其他模型,例如线性模型,这样就是特征的线性组合了。

下次你去市场,采集了一个芒果的各个指标特征,扔进你的模型,模型告诉你这个芒果是什么类型的?熟的?多汁的?

各种方法

甚至你的选择芒果的模型,稍微变化下就可以选择苹果了,迁移学习。

甚至你的模型会随着新的样本、新芒果种类进来后,变的越来越好,增量学习。

。。。。。

有点知道机器学习什么事了么?

您可能也喜欢:

第12届中国机器学习会议征文通知

Free Mind:机器学习物语(1)-世界观设定

[收藏]机器学习的几本书:list of cool machine learning books

R机器学习包

机器学习相关书籍
无觅

相关文章

相关 [过身 解释 机器学习] 推荐:

通过身边小事解释机器学习是什么?

- - 丕子
一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法. 今天从 quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲明白什么是机器学习和数据挖掘. 其中有个答案很不错,拿买芒果的例子来给大家解释. 老师们也应该多用用类似的一些例子,启发下学生的思考. 有一天,你想吃芒果了,你就到地边的小摊上去买芒果,小摊上有好多芒果啊,你可以自己用手挑芒果.

微软开源可解释机器学习工具包lnterpretML

- - 雷锋网
【 图片来源: Microsoft Research Blog  所有者:Microsoft Research Blog 】. 雷锋网按:人类创造出人工智能,并且被人工智能影响着自己的生活. 如果人工智能的行为具有可理解性,那么人类可以更进一步地利用人工智能. 近期,微软研究院就机器学习的可理解性发表了相关文章,雷锋网全文编译如下.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客
使用命令:mahout -h.   在Mahout实现的机器学习算法见下表:. EM聚类(期望最大化聚类). 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能.

国内的机器学习几个人

- - 丕子
转: http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛:. 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习.

Apache Mahout 0.8 发布,机器学习库

- - 开源中国社区最新新闻
Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头,目前只有一个公共发行版.

Ruby的机器学习项目

- - 阳志平的网志-技术类
作者是辉瑞公司的小牛,可惜烂尾了. 我在改啊改啊,可惜现在是商业项目,暂时不能放出改掉的部分. 对了,顺便做个小广告,去年组织翻译的一本小书:社会网络分析:方法与实践. 已经上市了,感兴趣的可以翻翻:. 社会网络分析:探索关系背后的科学与技术. treat:自然语言处理. 类似于igraph,也是桥接处理nlp.

机器学习该如何入门

- - CSDN博客综合推荐文章
  对于这个问题的解释,说实话我很有压力,因为在分享篇文章之前就有朋友告诉我,这个百度上一搜一大片,还需要你讲吗. 正如同一千个读者眼里有一千个林黛玉一样,我解释的当然是我个人自从读研到工作这么多年对机器学习的学习到应用过程的独特见解.   首先我们看下图了解一下机器学习在AI(Artificial Intelligence 人工智能)领域的地位.