Spark MLlib中的协同过滤

- - JavaChen Blog

本文主要通过Spark官方的例子理解ALS协同过滤算法的原理和编码过程，然后通过对电影进行推荐来熟悉一个完整的推荐过程. 协同过滤常被应用于推荐系统，旨在补充用户-商品关联矩阵中所缺失的部分. MLlib当前支持基于模型的协同过滤，其中用户和商品通过一小组隐语义因子进行表达，并且这些因子也用于预测缺失的元素.

基于Spark MLlib平台的协同过滤算法---电影推荐系统

- - zzm

又好一阵子没有写文章了，阿弥陀佛...最近项目中要做理财推荐，所以，回过头来回顾一下协同过滤算法在推荐系统中的应用. 说到推荐系统，大家可能立马会想到协同过滤算法. 本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用. 基于模型的协同过滤应用---电影推荐. 一、协同过滤算法概述.

[原]Spark MLlib系列(二):基于协同过滤的电影推荐系统

- -

随着大数据时代的到来，数据当中挖取金子的工作越来越有吸引力. 利用Spark在内存迭代运算、机器学习领域强悍性能的优势，使用spark处理数据挖掘问题就显得很有实际价值. 这篇文章给大家分享一个spark MLlib 的推荐实战例子. 我将会分享怎样用spark MLlib做一个电影评分的推荐系统.

使用Mahout实现协同过滤 spark

- - zzm

Mahout使用了Taste来提高协同过滤算法的实现，它是一个基于Java实现的可扩展的，高效的推荐引擎. Taste既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法. 同时，Taste不仅仅只适用于Java应用程序，它可以作为内部服务器的一个组件以HTTP和Web Service的形式向外界提供推荐的逻辑.

Spark机器学习案例 spark-example: spark mllib example

- -

#这是一个Spark MLlib实例 . ##1 K-means基础实例 . 命名为kmeans_data.txt，且上传到hdfs的/spark/mllib/data/路径中. 在Intellij中，点击file->选择project structure->选择Artifact->添加jar->把乱七八糟的依赖移除->勾选Build on make.

GitHub - allwefantasy/streamingpro: Build Spark Batch/Streaming/MLlib Application by SQL

- -

StreamingPro 中文文档. 应用模式：写json配置文件，StreamingPro启动后执行该文件，可以作为批处理或者流式程序. 服务模式：启动一个StreamingPro Server作为常驻程序,然后通过http接口发送MLSQL脚本进行交互. 我们强烈推荐使用第二种模式，第一种模式现在已经不太更新了，现在迅速迭代的是第二种模式，并且第二种模式可以构建AI平台.

如何使用Spark ALS实现协同过滤

- - 鸟窝

转载自 JavaChen Blog，作者： Junez. 本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结，希望对大家熟悉Spark ALS算法有所帮助. 【2016.06.12】Spark1.4.0中MatrixFactorizationModel提供了recommendForAll方法实现离线批量推荐，见 SPARK-3066.

【实践】Spark 协同过滤ALS之Item2Item相似度计算优化 - CSDN博客

- -

CF召回优化，自之前第一版自己实现的基于item的协同过滤算法. http://blog.csdn.net/dengxing1234/article/details/76122465，考虑到用户隐型评分的. 稀疏性问题，所以尝试用Spark ml包（非mllib）中的ALS算法的中间产物item的隐性向量，进行进一步item到item的余弦相似度计算.

使用Spark MLlib给豆瓣用户推荐电影

- - 鸟窝

推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西. 随着电子商务规模的不断扩大，商品数量和种类不断增长，用户对于检索和推荐提出了更高的要求. 由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同，以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生.

Spark-mllib 文本特征提取算法 - CSDN博客

- -

Spark MLlib 提供三种文本特征提取方法，分别为TF-IDF、Word2Vec以及CountVectorizer，. 词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示，文档由d表示，语料库由D表示. 词频TF(t,,d)是词语t在文档d中出现的次数.

Spark MLlib中的协同过滤

协同过滤

隐性反馈 vs 显性反馈

代码示例

Scala 示例

Java示例

Python示例

总结

参考文章

相关 [spark mllib 协同过滤] 推荐：