在数据分析、挖掘方面,有哪些好书值得推荐?

标签: 数据分析 值得 | 发表时间:2014-07-03 00:00 | 作者:肖智博
出处:http://www.zhihu.com
2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下。

入门读物:
  1. 深入浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
  2. 啤酒与尿布 (豆瓣) 通过案例来说事情,而且是最经典的例子。难易程度:非常易。
  3. 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
  4. 数学之美 (豆瓣) 这本书非常棒啦,入门读起来很不错!
数据分析:
  1. SciPy and NumPy (豆瓣) 这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
  3. Bad Data Handbook (豆瓣) 很好玩的书,作者的角度很不同。
适合入门的教程:
  1. 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
  2. Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣) 。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
  4. 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。

稍微专业些的:
  1. Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
  2. Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
  4. 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!

机器学习教材:
  1. The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版: 统计学习基础 (豆瓣) 。书中配有R包,非常赞!可以参照着代码学习算法。
  2. 统计学习方法 (豆瓣) 李航老师的扛鼎之作,强烈推荐。难易程度:难。
  3. Machine Learning (豆瓣) 去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
  4. Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
  5. Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
  6. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
  7. Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
  8. Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。


— 完 —
本文作者: 肖智博

【知乎日报】 你都看到这啦,快来点我嘛 Σ(▼□▼メ)

此问题还有 24 个回答,查看全部。
延伸阅读:
数据分析/挖掘工作的疑惑?
国内有哪些数据分析 数据挖掘的牛人

相关 [数据分析 值得] 推荐:

在数据分析、挖掘方面,有哪些好书值得推荐?

- - 知乎每日精选
2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下. 深入浅出数据分析 (豆瓣). 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分. 通过案例来说事情,而且是最经典的例子. 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助.

Excel 数据分析

- - ITeye博客
用Excel做数据分析——直方图. 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.

扯扯数据分析

- - 互联网分析
在别人的眼里数据分析既是很深奥的职业,也是被人挑战的职业,更是让你又恨又爱的职业. 其实这些都不重要的,重要的是对此行感兴趣,骨子里有量化一切的 意识. 很多人首先脑海中出现的是1、2、3……等等,为何有这样的印象. 其实是我们数据分析师为了更好的运用“统计学”所以要将许多 数据想尽办法来转化为1、2、3这样的数据形式,从而更深入、科学的分析data,不扯这个了,这个没什么意思,看图:.

数据分析那些事

- - 小蚊子乐园
今早突然有个想法,就是经常有网友会对数据分析方面有一些困惑,并且咨询我该怎么办. 并且经常是同样的问题,所以觉得有必要对一些经典共性的问题进行整理,与大家分享,这里并非标准答案,仅作参考. 欢迎提出自己对数据方面的疑问,将在此篇将持续更新,敬请关注. ----------------------------------------我不是完美的分割线--------------------------------------- .

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

Twitter收购数据分析公司BackType

- zou guangxian - 36氪
Twitter刚刚宣布已经收购BackType,一家帮助公司和品牌衡量社交媒体影响力的数据分析公司. BackType在博客上宣布这一消息时称团队将集中精力为Twitter发布商合作伙伴开发工具. 总部位于旧金山的BackType是一家由YC孵化的创业公司,自2008年以来已获得130万美元投资. 作为交易的一部分,BackType将停止BackTweets(帮助内容发布商了解推讯是如何转化为网站流量和销售额)的新用户注册.

数据分析中遇到的“圆”

- simple - 所有文章 - UCD大社区
与十年前不同,当今令数据分析师迷茫的,可能不再是数据很少,而是数据很多;今天不是不知道玩好数据的重要性,而是不知道玩错数据的危害性,即所谓甜蜜的烦恼. 一个数据分析师,如果能体会到,当下数据存在的核心问题,并且能清楚解决办法,就可以精益求精了. 这次想跟大家讲的是一个由受、想、行、识四个部份所组成生生不息的圈(Feedback Loop),彼此互相推进.

数据分析师的基本素质

- AWard - 小蚊子乐园
摘自《谁说菜鸟不会数据分析》第一章.     Mr.林看到小白斗志昂扬的样子非常高兴:别光说不做啊,要成为一名优秀的数据分析师,并非一件容易的事. 虽然所学的专业与数据分析不相关,但你可以通过工作中的实践学习数据分析,需要付出大量的时间和精力,不经一番寒彻骨,怎得梅花扑鼻香.     下面,我给你介绍一名合格的数据分析师需要具备的五大基本能力和素质.

新读图时代:500px.com数据分析

- holic536 - 东西
500px是一个由世界各地的摄影爱好者组成的高品质图片社区. 网站旨在寻找最优秀的摄影人才,分享和发现精彩的照片,找到志同道合的朋友. 网站创建于2003年,2009年500px重新改版升级成为2.0版. 从2009年的1000用户发展到现如今的4.5万用户,也就是在社交网络兴起之后,网站发展更加迅猛.

数据分析如何反恐 ?

- Chin - 未来趋势 电子商务趋势
喜欢做数据分析源于因为每个数据背后都有一个故事. 从少到大都有一个兴趣从来没变过,就是Forecast, 跟朋友说我其实不喜欢数据没人相信,但心底里其实想得到的是那仲Discover的快感. 曾经当个警察,喜欢风水算命,帮过职业赌徒做数据分析,这一切的快感就是来自类似以下这样的经历.  (节录自: 超级魔鬼经济学).