[转]Mahout推荐算法基础

标签： | 发表时间：2013-03-23 21:48 | 作者：zeo112140

出处：http://blog.csdn.net/zeo112140

Mahout主要推荐算法

Mahout推荐算法分为以下几大类

GenericUserBasedRecommender

算法：

1.基于用户的相似度

2.相近的用户定义与数量

特点：

1.易于理解

2.用户数较少时计算速度快

GenericItemBasedRecommender

算法：

1.基于item的相似度

特点：

1.item较少时就算速度更快

2.当item的外部概念易于理解和获得是非常有用

SlopeOneRecommender（itemBased）

算法：

1基于SlopeOne算法（打分差异规则）

特点

速度快

需要预先计算

当item数目十分少了也很有效

需要限制diffs的存储数目否则内存增长太快

SVDRecommender （item-based）

算法

基于支持向量机（item的特征以向量表示，每个维度的评价值）

特点

需要预计算

推荐效果佳

KnnItemBasedRecommender （item-based）

类似于GenericUserBasedRecommender 中基于相似用户的实现（基于相似的item）

与GenericItemBasedRecommender 的主要区别是权重方式计算的不同（but, the weights are not the results of some similarity metric. Instead, the algorithm calculates the optimal set of weights to use between all pairs of items=>看的费劲）

TreeClusteringRecommender

算法

基于树形聚类的推荐算法

特点

用户数目少的时候非常合适

计算速度快

需要预先计算

基于模型的推荐算法、基于满意度得推荐算法（未实现）

Mahout中的数据输入

DataModel

以下包含

GenericDataModel

数据接口类基于内存

内部使用FastByIDMap 保存PreferenceArray，在PreferenceArray内保存用户->Item的评价值

GenericBooleanPrefDataModel.

基于内存的数据接口类

但是无用户偏好值

使用FastByIDMap<FastIDSet>为用户或者Item保存相关的Item或者用户。

FileDataModel

基于文件的数据接口内，内部使用GenericDataModel 保存实际的用户评价数据

增加了压缩文件（.zip .gz）等文件类型的支持

支持动态更新（更新文件文件名必须保存为一定的格式例如 foo.txt.gz 后续更新文件必须为foo.1.txt.gz）

查了以下代码好像是自定义时间间隔后可以更新，但是好像是全部更新（以后看代码）

JDBCDataModel

基于数据库的数据接口目前已经实现MySQLJDBCDataModel（支持MySQL 5.x）可以使用MysqlDataSource生成MySQLJDBCDataModel

注：0.7版本里面没有找到MySQLJDBCDataModel类多了一个MySQLJDBCIDMigrator

不知道关系如何

PlusAnonymousUserDataModel.

用于匿名用户推荐的数据类将全部匿名用户视为一个用户（内部包装其他的DataModel类型）

Mahout中的相似度计算

主要按照基于User，基于Item等

以内存方式保存相似度计算结果使用FastByIDMap<FastByIDMap<Double>>保存计算结果

CachingItemSimilarity

CachingUserSimilarity

以cache方式保存相似度计算结果防止每次请求是重复计算

内部使用 Cache<LongPair,Double> similarityCache保存相似度

与 GenericUserSimilarity用法和区别暂时看不懂

Mathout中实现的基于不同算法相似度度量的：

PearsonCorrelationSimilarity 皮尔逊距离

EuclideanDistanceSimilarity 欧几里德距离

CosineMeasureSimilarity 余弦距离（0.7变成了 UncenteredCosineSimilarity）

SpearmanCorrelationSimilarity 斯皮尔曼等级相关

TanimotoCoefficientSimilarity 谷本相关系数

LogLikelihoodSimilarity 一般好于TanimotoCoefficientSimilarity（不懂）

CityBlockSimilarity基于曼哈顿距离

相似度使用的典型用法

UserSimilarity similarity = new CachingUserSimilarity(

new SpearmanCorrelationSimilarity(model), model);

对缺失数据的处理

PreferenceInferrer 数据丢失或者数据太少时可能用到具体实现有 AveragingPreferenceInferrer 以平均值填充缺失数据

一般来说PreferenceInferrer除了增加计算量对推荐结果无任何影响（缺失值根据已有数据得出）所以一般只用于研究领域。

聚类的相似度

ClusterSimilarity

聚类的相似度用于两个不同的聚类之间的距离（类似坐标系内的距离）

目前聚类之间的距离计算只包含以下两个实现（暂时没有更好的实现算法）

NearestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最小距离

FarthestNeighborClusterSimilarity 计算两个聚类中所有项距离中的最大距离

作者：zeo112140 发表于2013-3-23 21:48:50 原文链接

阅读：6 评论：0 查看评论

[转]Mahout推荐算法基础

- - 小鸥的博客

Mahout推荐算法分为以下几大类. 2.相近的用户定义与数量. 2.用户数较少时计算速度快. 1.基于item的相似度. 1.item较少时就算速度更快. 2.当item的外部概念易于理解和获得是非常有用. 1基于SlopeOne算法（打分差异规则）. 当item数目十分少了也很有效. 需要限制diffs的存储数目否则内存增长太快.

Mahout: SVDRecommender SVD推荐算法

- -

Mahout推荐算法API详解

- - zzm

Mahout推荐算法API详解. Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等.

【甘道夫】Mahout推荐算法编程实践

- - CSDN博客云计算推荐文章

Taste是曾经风靡一时的推荐算法框架，后来被并入Mahout中，Mahout的部分推荐算法基于Taste实现. 下文介绍基于Taste实现最常用的UserCF和ItemCF. 本文不涉及UserCF和ItemCF算法的介绍，这方面网上资料很多，本文仅介绍如何基于Mahout编程实现. UserCF和ItemCF算法的输入数据是用户偏好，用户偏好数据可以有两种形式：.

Mahout介绍

- - 互联网 - ITeye博客

Mahout 是机器学习和数据挖掘的一个分布式框架，区别于其他的开源数据挖掘软件，它是基于hadoop之上的；所以hadoop的优势就是Mahout的优势. http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性. Mahout用map-reduce实现了部分数据挖掘算法，解决了并行挖掘的问题.

mahout部署实践

- - CSDN博客云计算推荐文章

一下载mahout并解压. JAVA_HOME mahout运行需指定jdk的目录. MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值. HADOOP_HOME 如果配置，则在hadoop分布式平台上运行，否则单机运行. HADOOP_CONF_DIR指定hadoop的配置文件目录.

社会化推荐算法

- - CSDN博客云计算推荐文章

本文是论文《一种结合推荐对象间关联关系的社会化推荐算法》（以下简称论文）的笔记（下）. 该论文提出的算法是以PMF为框架基础的. 因而若对PMF不太了解的话，可以参考我的上一篇文章脑补一下，当然，那篇文章只是概述，详细了解PMF还需要阅读初始论文，但读完那篇文章后，对本文的理解应该没有问题. 所谓社会化推荐算法，是将社交网络的特性加入到推荐系统中来.

常用推荐算法

- - 互联网 - ITeye博客

在推荐系统简介中，我们给出了推荐系统的一般框架. 很明显，推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣. 目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐. 基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料.

mahout 实用教程之一

- - CSDN博客云计算推荐文章

mahout 实用教程 (一). 本文力求把mahout从使用的角度为读者建立一个框架，为后续的使用打下基础. 本文为原创文章转载请注明原网址 http://blog.csdn.net/comaple，谢谢. 下面首先给出源代码svn地址以及用于测试的公共数据集，大家可以下载并测试. mahout svn仓库地址： http://svn.apache.org/repos/asf/mahout/trunk.

[转]Mahout推荐算法基础

相关 [mahout 推荐算法基础] 推荐：

[转]Mahout推荐算法基础

Mahout: SVDRecommender SVD推荐算法

Mahout推荐算法API详解

【甘道夫】Mahout推荐算法编程实践

Mahout介绍

mahout部署实践

社会化推荐算法

常用推荐算法

mahout 实用教程之一

推荐算法Slope One初探

相关文章

订阅

[转]Mahout推荐算法基础

相关 [mahout 推荐算法 基础] 推荐：

相关文章

订阅

相关 [mahout 推荐算法基础] 推荐：