协同过滤推荐系统的那些不足点

标签： 程序设计 | 发表时间：2011-12-29 12:34 | 作者：标点符

出处：http://www.biaodianfu.com

类目（种类）推荐杂很多情境下行不通，因为有太多的产品属性，而每个属性（比如价钱，颜色，风格，面料，等等）在不同的时候对于消费者的重要程度都是不一样的。取而代之的是协同过滤推荐系统。但是协同过滤推荐系统也不是那么完美无缺，他或多或少的会有那么一些问题~

1、数据稀疏问题

协同过滤的精度主要取决于用户数据的多少。如果一个系统有很多用户的历史数据，他就能更好的对用户的喜欢做出预测。所以，目前推荐系统做的最好的都是那些有着很大量用户数据的公司，比如Google, Yahoo, Netflix, Amazon等等。一个好的推荐系统首先需要类目（种类）数据（从目录或者其它形式得到），然后系统必须捕获并且分析这些用户数据（用户行为），然后，再应用神奇的算法工作。分析越多的类目（种类）和用户数据，系统越有可能生产好的推荐。但是，这又是一个蛋和鸡的问题：要形成好的推荐，首先需要有大量的用户，这样才能得到大量的推荐数据。

2、新用户问题（新产品问题）

这个问题和数据稀疏问题有一些相似性，他是指如何对新用户做出推荐。当一个新用户进入一个站点时，我们对他的兴趣爱好还一无所知，这时如何做出推荐是一个很重要的问题。一般在这个时候，我们只是向用户推荐那写普遍反映比较好的物品，也就是说，推荐完全是基于物品的。对于新的产品，同样存在如上的问题。

3、长尾问题（长尾用户/长尾商品）

新用户问题还有一个变种就是长尾(long tail)问题，在Amazon中，不是所有的用户都对很多书给出了评分，很多用户只给少数的书给出了评分，这些用户就处在一个长尾中，如何处理那些不太表露自己兴趣的用户，也是推荐系统的一个主要问题。除此之外，图书的长尾也是一个不可忽视的问题。

4、 不断变化的用户喜好

用户的兴趣不是永远不变的，随着年龄和阅历的变化，用户的行为会发生变化。协同过滤其实还应该加入一个时间因子。今天自己浏览amazon时是会有特定意图的，明天或许会有另一个特定意图。举个典型的例子：有可能某天我会上amazon为自己买本书，但第二天我到amazon的原因可能是要为姐姐找一份生日礼物。对于用户喜好，推荐系统也可能错误的标注。

5、隐性喜好难处理

在现在的推荐系统中，用户的喜欢是通过用户对某些物品进行评分获得的。这种获得用户兴趣的方法是一种很直接的方法。但在实际的互联网中，用户有很多隐性的方法表露他们的喜欢。比如用户的文字评论，我们可以通过自然语言处理从用户的评论中获得用户的兴趣；或者是用户的浏览行为，比如用户长时间的浏览一个物品，或者用户经常浏览一个物品，或者用户
购买了一个物品，这些行为都可以作为模式识别系统中的特征。

6、偏激的用户和另类的产品

世界上有一些用户是很偏激的。他们和大多数人的观点是相反的。对于这种用户，现有的推荐系统做出的预测往往是很差的。如何处理偏激的用户，是推荐系统中的一个重要问题。和偏激用户相对应的，是颠覆性的产品。比如一些古怪（特别）的电影会有一些问题，有一些电影观众对它又爱又恨，这种类型的电影是很难去做推荐的，因为用户对它们会有各种反映而且无法预计。

7、 马太效应的影响

在互联网中，物品实在是太多了，而推荐系统只能推荐有限的物品。被推荐系统所推荐的物品将会越来越热门，这就导致了大量很好的物品可能会被推荐系统所淹没。解决这个问题的主要方法是增加推荐系统的多样性，比如一个推荐系统发现一个用户非常喜欢吃德芙巧克力，那么他给这个用户推荐10个产品，不需要都是德芙巧克力，也可以推荐别的一些巧克力，或者一些和巧克力相似的甜品。在推荐时，不仅要推荐用户喜欢的东西，而且要通过推荐让用户喜欢一些东西，有的时候，用户自己也不知道他喜欢什么，通过推荐系统，他可能会发现一些新东西他比较喜欢。

8、 推荐系统的作弊行为

只要涉及到经济利益，就有人作弊。搜索引擎作弊是一个被研究了很久的问题，因为在搜索引擎中，自己的网站排名越高，就能获得越多的经济利益。在推荐系统中也是如此，比如在淘宝中，如果一个卖家的物品经常被推荐，他就可能获得很多经济利益。很多电子商务的推荐系统都遭受到了作弊的干扰，一些人通过一些技术手段，对自己卖的物品给出非常高的评分，这就是一种作弊行为。作弊行为相当于人为的向系统中注入了噪声。目前解决作弊的算法主要是基于信任度和信用的。现在很多电子商务网站都引入了信用系统，比如淘宝等等。如何设计信用系统和推荐系统更好的融合，是一个重要的研究问题。

No related posts.

协同过滤推荐系统的那些不足点

相关 [协同过滤推荐系统] 推荐：