[译] 每个人都应该知道的十个机器学习常识

标签: tuicool | 发表时间:2017-12-28 00:00 | 作者:
出处:http://itindex.net/relian

当别人在高谈阔论机器学习时,你却插不上嘴,这是一种怎样的体验?不懂机器学习没有关系,但你一定要知道下面的十个机器学习基本常识。曾经在Endeca、谷歌和LinkedIn领导机器学习开发的Daniel Tunkelang为我们概括总结了这十个常识。

1. 机器学习就是从数据中挖掘洞见,而人工智能是炒作。

只要使用了正确的训练数据和算法,机器学习可以解决大部分问题。而所谓的人工智能,只不过是一种包装。只要有助于营销,你要把它叫作什么都可以。

2. 数据和算法是机器学习的核心,而数据更为重要。

虽然人们热衷于研究机器学习算法,但数据才是机器学习的关键要素。机器学习可以没有复杂完备的算法,但没有高质量的数据就不行。

3. 如果你没有大量数据,就不要使用太复杂的模型。

机器学习根据输入参数来探索模型空间,参数越多,越有可能出现过拟合,所以应该要尽量遵循简单模型的原则。

4. 机器学习的成果取决于数据的质量。

种瓜得瓜,种豆得豆。机器学习只能发现已经存在于数据中的模式。比如在解决分类问题时,就要求训练数据具有清晰的特征。

5. 只有当训练数据具有代表性时,机器学习才能奏效。

过去不能代表未来。要时刻警惕训练数据和生产数据之间出现倾斜,经常性地训练数据,避免数据模型过时。

6. 机器学习最困难的部分其实是数据转换。

机器学习的大肆炒作可能会给你造成一种印象,就是机器学习主要是如何选择和调整算法。但实际上,机器学习工作的大部分时间花在了数据清理和特征工程上,也就是将数据的原始特征转换成更具表示性的特征。

7. 深度学习是革命性的,但不是银弹。

深度学习对部分传统的特征工程进行了自动化,特别是在图像和视频处理领域。但深度学习不是银弹,我们无法在它擅长的领域之外应用它,况且,我们仍然要花很多精力进行数据清理和转换。

8. 机器学习系统也是高度脆弱的。

机器学习算法不会干掉人类,干掉人类的是人类自己。机器学习系统如果出现故障,通常都不是因为机器学习算法本身,而是人类在训练数据中引入了错误。要时刻警惕,软件工程中出现的错误在机器学习系统中同样会出现。

9. 机器学习可能在无意之中创造出可自我实现的预言。

今天通过机器学习做出的决策,将会影响未来收集到的训练数据。如果你在机器学习系统中嵌入了某种偏见,它会持续不断地生成新的训练数据,这些数据反过来增强了这种偏见,而有些偏见会毁掉人类的生活。所以,不要让机器学习系统有机会创造出可自我实现的预言。

10. 人工智能不会自我感知,也不会崛起到要干掉人类。

很多吃瓜群众从科幻电影中看到人工智能。但要注意,我们可以从科幻电影中获得灵感,但它们毕竟不是现实,我们真正要担心的是人类无意识地在机器学习系统中嵌入偏见。所以,我们根本不需要去担心什么“天网”或“超智能”。

相关 [个人 知道 机器学习] 推荐:

[译] 每个人都应该知道的十个机器学习常识

- - IT瘾-tuicool
当别人在高谈阔论机器学习时,你却插不上嘴,这是一种怎样的体验. 不懂机器学习没有关系,但你一定要知道下面的十个机器学习基本常识. 曾经在Endeca、谷歌和LinkedIn领导机器学习开发的Daniel Tunkelang为我们概括总结了这十个常识. 机器学习就是从数据中挖掘洞见,而人工智能是炒作.

国内的机器学习几个人

- - 丕子
转: http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛:. 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习.

基于机器学习的知道推荐—Enlister

- - 搜索引擎技术博客
基于机器学习的知道推荐—Enlister.         Enlister—最大的中文问答网站“百度知道”的问题推荐系统名字. 这个由几个百度一线工程师研发的系统,自2012年1月上线以来,承担着百度知道千万级登录用户的问题推荐计算.          百度知道这样的问答社区型网站有个典型特点:有些用户在平台上提出问题,这些问题被另一些用户发现,其中有能力且有意愿的人回答了这几个问题.

关于机器学习,你应该知道的 3 个热门专业术语

- - IT瘾-dev
编者按:如果你是刚入门机器学习的AI探索者,你知道什么是胶囊网络吗. 为了帮大家节省查阅晦涩难懂的论文的时间,我们邀请微软亚洲研究院机器学习组实习生吴郦军、罗人千帮大家用最通俗的语言解释了这三个机器学习领域的热门词汇,赶紧收藏吧. 胶囊网络Capsule Networks 胶囊网络(Capsule Networks)是深度学习三巨头之一的Geoffrey Hinton提出的一种全新的神经网络.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客
使用命令:mahout -h.   在Mahout实现的机器学习算法见下表:. EM聚类(期望最大化聚类). 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能.

Apache Mahout 0.8 发布,机器学习库

- - 开源中国社区最新新闻
Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头,目前只有一个公共发行版.

Ruby的机器学习项目

- - 阳志平的网志-技术类
作者是辉瑞公司的小牛,可惜烂尾了. 我在改啊改啊,可惜现在是商业项目,暂时不能放出改掉的部分. 对了,顺便做个小广告,去年组织翻译的一本小书:社会网络分析:方法与实践. 已经上市了,感兴趣的可以翻翻:. 社会网络分析:探索关系背后的科学与技术. treat:自然语言处理. 类似于igraph,也是桥接处理nlp.