推荐系统开源软件列表汇总和逐一点评

标签： 推荐系统 开源软件 列表 | 发表时间：2013-11-07 02:35 | 作者：cserchen

出处：http://blog.csdn.net

我收集和整理的目前互联网上所能找到的知名开源推荐系统，并附上了个人的一些简单点评（未必全面准确），

这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助

陈运文

SVDFeature

由上海交大的同学开发的，C++语言，代码质量很高。去年我们参加KDD竞赛时用过，非常好用，而且出自咱们国人之手，所以置顶推荐！

项目地址：

http://svdfeature.apexlab.org/wiki/Main_Page

SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种。SVDFeature代码精炼，可以用相对较少的内存实现较大规模的单机版矩阵分解运算。

另外含有Logistic regression的model，可以很方便的用来进行ensemble运算

Crab

项目地址：

http://geektell.com/story/crab-recommender-systems-in-python/

系统的Tutorial可以看这里：

http://muricoca.github.io/crab/

Crab是基于Python开发的开源推荐软件，其中实现有item和user的协同过滤。据说更多算法还在开发中，

Crab的python代码看上去很清晰明了，适合一读

CofiRank

C++开发的 Collaborative Filtering算法的开源推荐系统，但似乎2009年后作者就没有更新了，

CofiRank依赖boost库，联编会比较麻烦。不是特别推荐

项目地址：

http://www.cofirank.org/

EasyRec

Java开发的推荐系统，感觉更像一个完整的推荐产品，包括了数据录入模块、管理模块、推荐挖掘、离线分析等，整个系统比较完备。

项目地址：

http://easyrec.org/

GraphLab

项目地址：

http://graphlab.org/

Graphlab是基于C++开发的一个高性能分布式graph处理挖掘系统，特点是对迭代的并行计算处理能力强（这方面是hadoop的弱项），

由于功能独到，GraphLab在业界名声很响

用GraphLab来进行大数据量的random walk或graph-based的推荐算法非常有效。

Graphlab虽然名气比较响亮（CMU开发），但是对一般数据量的应用来说可能还用不上

Lenskit

http://lenskit.grouplens.org/

这个Java开发的开源推荐系统，来自美国的明尼苏达大学，也是推荐领域知名的测试数据集Movielens的作者，

他们的推荐系统团队，在学术圈内的影响力很大，很多新的学术思想会放到这里

Mahout

网址

http://mahout.apache.org/

这个名气很响，是Apache基金资助的重要项目，在国内流传很广，并已经有一些中文相关书籍了。注意Mahout是一个分布式机器学习算法的集合，协同过滤只是其中的一部分。除了被称为Taste的分布式协同过滤的实现（Hadoop-based，另有pure Java版本），Mahout里还有其他常见的机器学习算法的分布式实现方案。

另外Mahout的作者之一Sean Owen基于Mahout开发了一个试验性质的推荐系统，称为Myrrix, 可以看这里：

http://myrrix.com/quick-start/

MyMediaLite

http://mymedialite.net/index.html

基于.NET框架的C#开发（也有Java版本），作者基本来自德国、英国等欧洲的一些高校。

除了提供了常见场景的推荐算法，MyMediaLite也有Social Matrix Factorization这样独特的功能

尽管是.Net框架，但也提供了Python、Ruby等脚本语言的调用API

MyMediaLite的作者之一Lars Schmidt在2012年KDD会议上专门介绍过他们系统的一些情况，可惜由于.Net开发框架日渐式微，MyMediaLite对Windows NT Server的系统吸引力大些，LAMP网站用得很少

LibFM

项目网址：

http://www.libfm.org/

作者是德国Konstanz University的Steffen Rendle，去年KDD Cup竞赛上我们的老对手，他用LibFM同时玩转Track1和Track2两个子竞赛单元，都取得了很好的成绩，说明LibFM是非常管用的利器（虽然在Track1上被我们打败了，hiahia）

顾名思义，LibFM是专门用于矩阵分解的利器，尤其是其中实现了MCMC（Markov Chain Monte Carlo）优化算法，比常见的SGD（随即梯度下降）优化方法精度要高（当然也会慢一些）

顺便八卦下，去年KDD会议上和Steffen当面聊过，他很腼腆而且喜欢偷笑，呵呵挺可爱。

PREA

全名是 Personalized Recommendation Algorithms Toolkit, 开发语言为Java。也是一个轻量级的开源项目

项目网址：

http://mloss.org/software/view/420/

放在Mloss这个大project下。我个人感觉PREA还是比较简陋的，参加开发的三位工程师Joonseok Lee, Mingxuan Sun, Guy Lebanon更新频率很低，提供的资料也少。

不过Mloss下倒是能找到其他一些推荐开源项目

http://mloss.org/software/tags/collaborative-filtering/

Python-recsys

一个非常轻量级的开源推荐系统，python开发，作者似乎只有一位，

Python-recsys主要实现了SVD、Neighborhood SVD推荐算法，

这个项目麻雀虽小五脏俱全，评估数据（Movielens，Last.fm）、评估框架也都有

API也很简单清晰，代码简洁，属于推荐入门的良好教材。

不过真正要用到实际系统中，还是得补充很多内容

github的地址位于

https://github.com/ocelma/python-recsys

项目的介绍见：

http://ocelma.net/software/python-recsys/build/html/

RapidMiner

项目网址为：

http://rapidminer.com/

Java语言开发，RapidMiner（前身是Yale）已经是一个比较成熟的数据挖掘解决方案了，包括常见的机器学习、NLP、推荐、预测等方法（推荐只占其中很小一部分），而且带有GUI的数据分析环境，数据ETL、预处理、可视化、评估、部署等整套系统都有。

另外RapidMiner提供commercial license，提供R语言接口，感觉在向着一个商用的数据挖掘公司的方向在前进。

Recommendable

基于Ruby语言开发，实现了一些评分预测的推荐算法，但是整体感觉比较单薄，

github上地址如下：

https://github.com/davidcelis/recommendable/

Recommenderlab

基于R语言开发的开源推荐程序，对经常使用R语言的工程师或者BI数据分析师来说，recommenderlab的出现绝对算得上是福音了

项目地址：

http://cran.r-project.org/web/packages/recommenderlab/index.html

基于Recommenderlab来开发推荐系统，代码会非常精简，因为推荐系统所依赖的user-item rating matrix对擅长处理向量运算的R语言来说再方便不过了，

但是在实际推荐系统中，需要考虑的问题和逻辑都比较复杂，用Recommenderlab不是很灵活。另外受限于R语言对内存的限制，Recommenderlab不太适用于过大规模的推荐应用

Waffles

SF地址：

http://waffles.sourceforge.net/

Waffles英文原意是蜂蜜甜饼（见logo），在这里却指代一个非常强大的机器学习的开源工具包，基于C++语言开发。

Waffles里包含的算法特别多，涉及机器学习的方方面面，推荐系统位于其中的Waffles_recommend tool，大概只占整个Waffles的1/10的内容（其它还有分类、聚类、采样、降维、数据可视化、音频处理等许许多多工具包，估计能与之媲美的也就数Weka了）

作者：cserchen 发表于2013-11-6 18:35:47 原文链接

阅读：200 评论：0 查看评论

相关 [推荐系统开源软件列表] 推荐：

推荐系统开源软件列表汇总和逐一点评

- - CSDN博客数据库推荐文章

我收集和整理的目前互联网上所能找到的知名开源推荐系统，并附上了个人的一些简单点评（未必全面准确），. 这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助. 由上海交大的同学开发的，C++语言，代码质量很高. 去年我们参加KDD竞赛时用过，非常好用，而且出自咱们国人之手，所以置顶推荐. SVDFeature包含一个很灵活的Matrix Factorization推荐框架，能方便的实现SVD、SVD++等方法, 是单模型推荐算法中精度最高的一种.

人人网使用的开源软件列表

- - ugc

作者：人人网架构师张洁人人网UGC团队博客首发. 关系型数据库存储系统，我们的DBA团队很强大，每人管理上百台MySQL服务器，其他就不多说了，网上资料太多了. 一个key-value的存储引擎，日本人开发，国内很多公司也开始使用，我们内部很多地方也用它来代替MySQL来做存储，比如我们的搜索结果页的用户资料，就是用它来做一层MySQL外的冗余存储，目的是加快搜索结果页的显示.

Min-Hash和推荐系统

- - xlvector - Recommender System

前几年看Google News Recommendation的那篇Paper，对里面提到的MinHash的算法基本没有注意，因为之前的习惯都是只注意论文的模型那块，至于怎么优化模型一般都只是扫一眼. 不过最近看了大量的Google Paper，发现Google在实现一个算法方面确实有很多独到之处. 其实，Min-Hash是LSH（Locality Sensitive Hash）的一种，我之前对LSH的了解仅仅限于知道它能把两个相似的东西Hash成两个汉明距离接近的2进制数.

推荐系统实战

- - 博客园_首页

推荐算法：基于特征的推荐算法. 推荐算法准确度度量公式：. 其中，R(u)表示对用户推荐的N个物品，T(u)表示用户u在测试集上喜欢的物品集合. 集合相似度度量公式(N维向量的距离度量公式)：. 其中，N(u)表示用户u有过正反馈的物品集合. 其中，S(u,k)表示和用户u兴趣最接近的K个用户集合；N(i)表示对物品i有过正反馈的用户集合；w(u,v)表示用户u和用户v的兴趣相似度；r(v,i)表示用户v对物品i的兴趣.

推荐系统杂谈

- - 后端技术杂谈 | 飒然Hang

推荐系统是近些年非常火的技术，不管是电商类软件还是新闻类app，都号称有精准的推荐系统能给你推送你最感兴趣的内容. 现象级的资讯类app“今日头条”就得益于此成为了势头非常猛的一款产品. 本文就针对推荐系统讲述一些相关概念和实践经验. 首先需要明确的就是推荐系统的目标，一般来说不外乎以下几个：. 用户满意性：首当其冲的，推荐系统主要就是为了满足用户的需求，因此准确率是评判一个推荐系统好坏的最关键指标.

盛大开源软件

- - kernelchina

盛大研究院在其网站 http://www.sndacode.com/projects开源了不少应用. 很多都是上层应用相关，我感兴趣的有如下几个：. 在手机上看code的人估计是个傻帽，但是在PAD上面还可能是一件爽快的事情. 作为google reader的中毒使用者，这个功能还是很有价值的，是盛大电子书的亮点.

个性化推荐系统综述

- Tony - 所有文章 - UCD大社区

上个月写过一篇产品推荐的文章，详情请见《我所了解的产品推荐》，内容很泛，多为工作心得. 本周读了几篇相关的论文，收获颇多，分享点干货. 以下内容摘自《个性化推荐系统的研究进展》，该文发表于2009年1月的《自然科学进展》专题评述，作者是刘建国、周涛、汪秉宏. 我略去了具体的算法和许多公式，重点看原理、思路和比较.

推荐系统开源工具 – SVDFeature

- Roger - Resys China

SVDFeature是我们（上海交大Apex实验室）在参加KDDCUP 2011期间开发的. 通过这个工具，我们和港科大（HKUST）的联合小组InnerPeace在KDDCUP 2011中获得Track 1第三名，并创造单模型最好成绩. 在此分享给大家，并希望和大家有更多的交流. （1）基于feature的可扩展性 —— SVDFeature实现了我们的基础模型feature-based matrix factorization.

Reculike : 开源论文推荐系统

- votis - Resys China

今天这篇博文主要总结一下reculike的系统架构. 两周前我们宣布发布了reculike的alpha版. 本着分享的原则，今天在这儿介绍一下我们的各个模块的设计方法. 我们这个项目一开始叫paperlens，这是因为我们想学习业界的前辈movielens，开发一个源代码和数据都开源的系统. 关于数据的开源，我想当用户数达到一定程度后，每个月会dump一次我们所有的数据库（密码等隐私信息除外），放到网络上供大家下载.

推荐系统那些事儿1

- - 冰火岛

知识库：用户知识库，Item知识库，用户评分数据（显性和隐性）等.不同的业务背景不一样，譬如电商，社交网络，视频，app应用等. 协同过滤引擎：根据用户评分数据集，通过collaborative filtering方法，计算用户喜欢的top N item. 数据格式： userid， itemid，score.