[翻译]Is the KDD Cup really music recommendation?
原文链接:http://musicmachinery.com/2011/02/22/is-the-kdd-cup-really-music-recommendation/
KDD Cup:http://kddcup.yahoo.com/index.php
其实个人认为,即使有了用户评分和资源数据,类似这样以特定目标函数为优化对象的竞赛,距离实际应用的音乐推荐系统还有蛮大的差别。毕竟我们没办法拿几个prediction指标来评价效果,更何况对于一个日常实际应用来讲,在更新相对缓慢的音乐数据集合上想要做的不是一个单次推荐。还是那句正确的废话,数据、算法、产品一个都不能少。
译文
KDD Cup是一年一度的数据挖掘和知识发现竞赛,由the ACM Special Interest Group on Knowledge Discovery and Data Mining主办。今年KDD Cup的主题是learn the rhythm, predict the musical scores(理解节奏韵律,预测音乐评分)。雅虎音乐提供了超过1百万匿名用户的3亿条评分数据,这些评分分别针对歌曲、专辑、艺术家和音乐流派。这次比赛的目标是:(1)准确的预测用户的评分(2)区分用户喜爱的歌曲与其他歌曲。
3|14 # user ID 3 has 14 ratings 5980 90 3811 13:24:00 # item 5980 got a score of 90/100 11059 90 3811 13:24:00 # 3811 is a day offset from an 21931 90 3811 13:24:00 # undisclosed date 74262 90 3811 13:24:00 # 146781 90 3811 13:24:00 # 13:24 is the time on day 3811 173094 90 3811 13:24:00 175835 90 3811 13:24:00 180037 90 3811 13:24:00 194044 90 3811 13:24:00 267723 90 3811 13:24:00 290303 90 3811 13:24:00 366723 90 3811 13:24:00 432968 90 3811 13:24:00 451800 90 3811 13:24:00
无法将item ID与实际的音乐item对应,使得这项比赛更像是一场关于协同过滤算法(CF)而非音乐推荐的竞赛了。正如Oscar Celma(《Music Recommendation and Discovery》的作者)在KDD Cup论坛中说的那样:
- 没有歌手/歌曲名,我对这数据集不感兴趣(如果不能理解你要预测得东西,那么预测本身便毫无疑义)。现如今,这并不是一个真正的“音乐数据集”或“音乐推荐”竞赛,而仅仅是要将CF算法应用于一个巨大的数据集。在某种程度上,这确实是CF研究者的利好消息。但对于这个领域来讲并不能产生任何新知识…恕我直言,它没有任何意义。
研究者Amelie Anglade补充到:
- 如果拿到真实的艺术家和曲目名,便能有很多可以做的事情:使用音乐信息检索技术,我们可以分析音频数据(节奏、和弦、旋律、音色等)、得分、歌词、艺术家间关联等等等等。实际上越来越多的人正在进行这些方向上的工作,本次竞赛除了流派(作用很有限)外不提供任何内容信息,是对整个研究分支的忽视。
慷慨提供数据的雅虎员工实际上也认识到,真实音乐信息的缺失对音乐信息检索社区的研究人员参与竞赛带来的困难。但今年KDD Cup的组织者之一Noam Koenigstein说,提供匿名数据主要是考虑到围绕用户评分数据的大量法律争议和诉讼风险(见Netflix的诉讼)。Noam强调:
- 经过在这个数据集上6个月的工作,我可以很大胆的说,基于音乐的CF和其他类型CF存在差异。比如音乐和电影(Netflix)在流行趋势上的不同;因此,需要考虑时间效应的CF系统在音乐领域也会不同。还存在其他方面的差异,但我不便透露更多了。
我赞同Noam的观点,音乐评分数据与其他数据间存在很多有意思的差异,研究这些差异将提升CF的研究状况和技艺水平。但我也赞同Oscar和Amelie:如果我们知道实际被评分的item就可以做的更多。
音乐推荐领域已经有两个非常活跃的研究社区。RecSys社区采取传统推荐系统的方法,依靠协同过滤技术产生推荐。在这个社区看来,基于用户行为数据的挖掘就足以进行推荐了。音乐信息检索(MIR)社区则非常注重音乐本身,基于音频数据分析和content-based(CB)的方法来构建推荐应用。每种方法都有自己的长处和短处(CF具有冷启动、头部叠加反馈、对hack水平敏感等问题,而CB方法则面临更大的计算挑战、同时区分好坏音乐也是一个问题)。最好的系统往往需要结合这两种方法。
KDD Cup数据集是一套很棒的数据,我敢肯定,这些数据将帮助RecSys社区改善CF算法。而MIR社区也在生成自己工业量级的研究数据——最近将发布的Million Song Data Set用来改善CB技术。我希望有一天我们将能够提供综合数据集,包含大量的评分数据和内容数据。如果把这些数据交到研究人员的手中,所得将不言而喻。或许,这就是真正的问题。正如Jeremy Reed的推特所言:生物医学研究人员可以获取非法物质的研究,但我们却不能;因为这样我们可能会找出那些没品的用户!