Mahout中相似度计算方法介绍

标签： mahout 相似计算 | 发表时间：2016-01-05 12:00 | 作者：

出处：http://eric-gcm.iteye.com

（转自： http://www.cnblogs.com/dlts26/archive/2012/06/20/2555772.html）

在现实中广泛使用的推荐系统一般都是基于协同过滤算法的，这类算法通常都需要计算用户与用户或者项目与项目之间的相似度，对于数据量以及数据类型不同的数据源，需要不同的相似度计算方法来提高推荐性能，在mahout提供了大量用于计算相似度的组件，这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系：

图1、项目相似度计算组件

图2、用户相似度计算组件

下面就几个重点相似度计算方法做介绍：

皮尔森相关度

类名：PearsonCorrelationSimilarity

原理：用来反映两个变量线性相关程度的统计量

范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。

说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。

该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

欧式距离相似度

类名：EuclideanDistanceSimilarity

原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。

范围：[0,1]，值越大，说明d越小，也就是距离越近，则相似度越大。

说明：同皮尔森相似度一样，该相似度也没有考虑重叠数对结果的影响，同样地，Mahout通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。

余弦相似度

类名：PearsonCorrelationSimilarity和UncenteredCosineSimilarity

原理：多维空间两点与所设定的点形成夹角的余弦值。

范围：[-1,1]，值越大，说明夹角越大，两点相距就越远，相似度就越小。

说明：在数学表达中，如果对两个项的属性进行了 数据中心化，计算出来的余弦相似度和皮尔森相似度是一样的，在 mahout中，实现了数据中心化的过程，所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中，Mahout提供了 UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。

Spearman秩相关系数

类名：SpearmanCorrelationSimilarity

原理：Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。

范围：{-1.0,1.0}，当一致时为1.0，不一致时为-1.0。

说明：计算非常慢，有大量排序。针对推荐系统中的数据集来讲，用Spearman秩相关系数作为相似度量是不合适的。

曼哈顿距离

类名：CityBlockSimilarity

原理：曼哈顿距离的实现，同欧式距离相似，都是用于多维数据空间距离的测度

范围：[0,1]，同欧式距离一致，值越小，说明距离值越大，相似度越大。

说明：比欧式距离计算量少，性能相对高。

Tanimoto系数

类名：TanimotoCoefficientSimilarity

原理：又名广义Jaccard系数，是对Jaccard系数的扩展，等式为

范围：[0,1]，完全重叠时为1，无重叠项时为0，越接近1说明越相似。

说明：处理无打分的偏好数据。

对数似然相似度

类名：LogLikelihoodSimilarity

原理：重叠的个数，不重叠的个数，都没有的个数

范围：具体可去百度文库中查找论文《Accurate Methods for the Statistics of Surprise and Coincidence》

说明：处理无打分的偏好数据，比Tanimoto系数的计算方法更为智能。

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

Mahout中相似度计算方法介绍

- -

（转自： http://www.cnblogs.com/dlts26/archive/2012/06/20/2555772.html）. 在现实中广泛使用的推荐系统一般都是基于协同过滤算法的，这类算法通常都需要计算用户与用户或者项目与项目之间的相似度，对于数据量以及数据类型不同的数据源，需要不同的相似度计算方法来提高推荐性能，在mahout提供了大量用于计算相似度的组件，这些组件分别实现了不同的相似度计算方法.

Mahout介绍

- - 互联网 - ITeye博客

Mahout 是机器学习和数据挖掘的一个分布式框架，区别于其他的开源数据挖掘软件，它是基于hadoop之上的；所以hadoop的优势就是Mahout的优势. http://mahout.apache.org/ 上说的Scalable就是指hadoop的可扩展性. Mahout用map-reduce实现了部分数据挖掘算法，解决了并行挖掘的问题.

mahout部署实践

- - CSDN博客云计算推荐文章

一下载mahout并解压. JAVA_HOME mahout运行需指定jdk的目录. MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值. HADOOP_HOME 如果配置，则在hadoop分布式平台上运行，否则单机运行. HADOOP_CONF_DIR指定hadoop的配置文件目录.

URL相似度计算的思考

- - IT技术博客大学习

在做一些web相关的工作的时候，我们往往可能需要做一些对url的处理，其中包括对相似的url的识别和处理. 这就需要计算两个url的相似度. 那么怎么进行url相似度的计算的. 我首先想到的是把一个url看作是一个字符串，这样就简化成两个字符串相似度的计算. 字符串相似度计算有很多已经比较成熟的算法，比如“ 编辑距离算法”，该算法描述了两个字符串之间转换需要的最小的编辑次数；还有一些其他的比如“ 最长公共字串”等方法.

词向量加权计算相似度

- - 编程语言 - ITeye博客

基于词向量的几种计算文本相似度方法：. 1）使用词向量求平均计算相似度. 2）词向量tfidf加权求平均计算相似度. 3）词向量加权-PCA计算相似度. # 将所有词向量的woed2vec向量相加到句向量. # 计算每个词向量的权重，并将词向量加到句向量. return sentenceSet # ===============word2vec词向量+tfidf================== def sentenceByW2VTfidf(corpus_tfidf, token2id, sentenceList, model, embeddingSize):.

Mahout中相似度计算方法介绍

皮尔森相关度

欧式距离相似度

余弦相似度

Spearman秩相关系数

曼哈顿距离

Tanimoto系数

对数似然相似度

相关 [mahout 相似计算] 推荐：

Mahout中相似度计算方法介绍

Mahout介绍

mahout部署实践

URL相似度计算的思考

词向量加权计算相似度

mahout 实用教程之一

Mahout: SVDRecommender SVD推荐算法

相似度计算常用方法综述

如何计算两个文档的相似度（一）

如何计算两个文档的相似度（三）

相关文章

订阅

Mahout中相似度计算方法介绍

皮尔森相关度

欧式距离相似度

余弦相似度

Spearman秩相关系数

曼哈顿距离

Tanimoto系数

对数似然相似度

相关 [mahout 相似 计算] 推荐：

相关文章

订阅

相关 [mahout 相似计算] 推荐：