构建基于Spark的推荐引擎（Python）

UI	i1	i2	i3
u1	3.0	3.0	?
u2	?	2.0	4.0
u3	?	5.0	?

- - SegmentFault 最新的文章

构建基于Spark的推荐引擎（Python）. 推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程. 在学习Spark机器学习这本书时，书上用scala完成，自己不熟悉遂用pyshark完成，更深入的理解了spark对协同过滤的实现. 在这里我们的推荐模型选用协同过滤这种类型，使用Spark的MLlib中推荐模型库中基于矩阵分解（matrix factorization）的实现.

大数据-推荐引擎

- - 人月神话的BLOG

推荐引擎在当前电商平台用的相当多，本文简单理解下常见的几张推荐方式. 首先说明下大数据用户画像可以用于针对性营销和单品推荐，但是即使没做用户画像也可以进行商品推荐. 推荐引擎是不是为不同的用户推荐不同的数据根据这个指标，推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎. 大众行为的推荐引擎，对每个用户都给出同样的推荐，这些推荐可以是静态的由系统管理员人工设定的，或者基于系统所有用户的反馈统计计算出的当下比较流行的物品.

初识推荐机制、推荐引擎

- 山河之外 - 互联网的那点事...

随着互联网的发展估计大多数的产品都会遇到推荐机制的策划，作为互联网产品人员也需要研究一下推荐机制的核心算法，这篇文章是我看到的言简意赅讲了一些基础的推荐机制的文章，转过来分享给大家. 如今已经进入了一个数据爆炸的时代，随着 Web 2.0 的发展， Web 已经变成数据分享的平台，那么，如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难.

从Web 2.0到推荐引擎2.0

- Race forward! - 学而时嘻之

(《新知客》，2010年9月). 互联网应用的新概念似乎总是层出不穷，然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”，此时此刻的互联网业界似乎有点沉闷. 人们开始谈论，互联网下一个有趣的事情是什么. 百姓网 CEO 王建硕，最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》，提出一个五年周期理论，认为每隔五年左右就会有一批人出来创业，就会有一批风险投资周转完毕转而支持新的项目，这样经过这两年的沉闷，2011年必将有新东西爆发.

协同过滤和推荐引擎

- - 刘思喆@贝吉塔行星

推荐系统在个性化领域有着广泛的应用，从技术上讲涉及概率、抽样、最优化、机器学习、数据挖掘、搜索引擎、自然语言处理等多个领域. 东西太多，我也不准备写连载，今天仅从基本算法这个很小的切入点来聊聊推荐引擎的原理. 推荐引擎（系统）从不同的角度看有不同的划分，比如：. 按照数据的分类：协同过滤、内容过滤、社会化过滤.

推荐引擎：信息逆流

- - 《商业价值》杂志

信息时代用户链接内容的方式将再次产生深刻变化，而这一变化的驱动者，正是推荐引擎技术. 如果回到20世纪80年代，面对一台当时的电脑，你很可能会不知所措. 原因很简单，当时要访问电脑内的内容——不管是软件或者游戏，你起码必须掌握基本的Dos命令. 换句话说，当时用户与内容链接的方式，是输入大量电脑“听得懂”的命令，再让电脑将其执行出来.

Spotify推荐引擎Discover Weekly的故事

- - Solidot

Spotify的软件工程师Edward Newett说，赋权自下而上的创新，奇迹将会发生. 他在上周举行的@Scale 会议上分享了开发Discover Weekly推荐引擎的故事. Discover Weekly设计帮助用户发现他们从未听过的新音乐，于一年前上线，至今已积累了4000多万的用户. Newett最初的工作是开发个性化网页，其中包含了向用户推荐他们可能感兴趣的专辑的系统.

探索推荐引擎内部的秘密：推荐引擎初探

- adow - 互联网的那点事...

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用. 同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法. 本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它们各自的优缺点和适用场景，帮助用户清楚的了解和快速构建适合自己的推荐引擎.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

Spark与Mapreduce？

- - 崔永键的博客

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

构建基于Spark的推荐引擎（Python）

构建基于Spark的推荐引擎（Python）

协同过滤（Collaborative Filtering）

基于用户的协同过滤推荐机制的基本原理

矩阵分解

最小二乘法实现协同

使用PySpark实现

训练ALS模型

检查推荐内容

推荐模型效果的评估

均方差（Mean Squared Error,MSE）

均方根误差（Root Mean Squared Error,RMSE）

相关 [spark 推荐引擎 python] 推荐：