[翻译]Is the KDD Cup really music recommendation?

标签: 算法学术 | 发表时间:2011-02-23 10:24 | 作者:raully7 Forrest
出处:http://www.resyschina.com

原文链接:http://musicmachinery.com/2011/02/22/is-the-kdd-cup-really-music-recommendation/

KDD Cup:http://kddcup.yahoo.com/index.php

背景

KDD Cup 2011的主题是音乐推荐,虽然数据集还没有正式公布,但相关的讨论已经开始预热了。本次数据集合的一个特点,是评分对象不光是歌曲,还包括专辑、艺术家和音乐流派,这使得用户的偏好相对更丰富和层次化;但content-based的研究者意见很大,音乐信息也被搞成匿名使得他们基本没法玩了。

其实个人认为,即使有了用户评分和资源数据,类似这样以特定目标函数为优化对象的竞赛,距离实际应用的音乐推荐系统还有蛮大的差别。毕竟我们没办法拿几个prediction指标来评价效果,更何况对于一个日常实际应用来讲,在更新相对缓慢的音乐数据集合上想要做的不是一个单次推荐。还是那句正确的废话,数据、算法、产品一个都不能少。

译文

KDD Cup是一年一度的数据挖掘和知识发现竞赛,由the ACM Special Interest Group on Knowledge Discovery and Data Mining主办。今年KDD Cup的主题是learn the rhythm, predict the musical scores(理解节奏韵律,预测音乐评分)。雅虎音乐提供了超过1百万匿名用户的3亿条评分数据,这些评分分别针对歌曲、专辑、艺术家和音乐流派。这次比赛的目标是:(1)准确的预测用户的评分(2)区分用户喜爱的歌曲与其他歌曲。

这是一个非常令人兴奋的数据集;也许是有史以来最大的公开音乐数据集。一定程度上我们可以期待这个数据集在音乐推荐领域带来类似Netflix奖的巨大推动作用。然而存在一个问题,这些数据是完全匿名的:不光用户匿名,歌曲、专辑、艺术家、流派,所有东东都是匿名的。所以每条数据看上去不是“用户X给了春哥一个5星评价”,而是“用户X给了歌手Y一个五星评价”。下面是一个数据样本:
3|14  # user ID 3 has 14 ratings
5980    90      3811    13:24:00   # item 5980 got a score of 90/100
11059   90      3811    13:24:00   # 3811 is a day offset from an
21931   90      3811    13:24:00   #     undisclosed date
74262   90      3811    13:24:00   #
146781  90      3811    13:24:00   # 13:24 is the time on day 3811
173094  90      3811    13:24:00
175835  90      3811    13:24:00
180037  90      3811    13:24:00
194044  90      3811    13:24:00
267723  90      3811    13:24:00
290303  90      3811    13:24:00
366723  90      3811    13:24:00
432968  90      3811    13:24:00
451800  90      3811    13:24:00

无法将item ID与实际的音乐item对应,使得这项比赛更像是一场关于协同过滤算法(CF)而非音乐推荐的竞赛了。正如Oscar Celma(《Music Recommendation and Discovery》的作者)在KDD Cup论坛中说的那样:

  • 没有歌手/歌曲名,我对这数据集不感兴趣(如果不能理解你要预测得东西,那么预测本身便毫无疑义)。现如今,这并不是一个真正的“音乐数据集”或“音乐推荐”竞赛,而仅仅是要将CF算法应用于一个巨大的数据集。在某种程度上,这确实是CF研究者的利好消息。但对于这个领域来讲并不能产生任何新知识…恕我直言,它没有任何意义。

研究者Amelie Anglade补充到:

  • 如果拿到真实的艺术家和曲目名,便能有很多可以做的事情:使用音乐信息检索技术,我们可以分析音频数据(节奏、和弦、旋律、音色等)、得分、歌词、艺术家间关联等等等等。实际上越来越多的人正在进行这些方向上的工作,本次竞赛除了流派(作用很有限)外不提供任何内容信息,是对整个研究分支的忽视。

慷慨提供数据的雅虎员工实际上也认识到,真实音乐信息的缺失对音乐信息检索社区的研究人员参与竞赛带来的困难。但今年KDD Cup的组织者之一Noam Koenigstein说,提供匿名数据主要是考虑到围绕用户评分数据的大量法律争议和诉讼风险(见Netflix的诉讼)。Noam强调:

  • 经过在这个数据集上6个月的工作,我可以很大胆的说,基于音乐的CF和其他类型CF存在差异。比如音乐和电影(Netflix)在流行趋势上的不同;因此,需要考虑时间效应的CF系统在音乐领域也会不同。还存在其他方面的差异,但我不便透露更多了。

我赞同Noam的观点,音乐评分数据与其他数据间存在很多有意思的差异,研究这些差异将提升CF的研究状况和技艺水平。但我也赞同Oscar和Amelie:如果我们知道实际被评分的item就可以做的更多。

音乐推荐领域已经有两个非常活跃的研究社区。RecSys社区采取传统推荐系统的方法,依靠协同过滤技术产生推荐。在这个社区看来,基于用户行为数据的挖掘就足以进行推荐了。音乐信息检索(MIR)社区则非常注重音乐本身,基于音频数据分析和content-based(CB)的方法来构建推荐应用。每种方法都有自己的长处和短处(CF具有冷启动、头部叠加反馈、对hack水平敏感等问题,而CB方法则面临更大的计算挑战、同时区分好坏音乐也是一个问题)。最好的系统往往需要结合这两种方法。

KDD Cup数据集是一套很棒的数据,我敢肯定,这些数据将帮助RecSys社区改善CF算法。而MIR社区也在生成自己工业量级的研究数据——最近将发布的Million Song Data Set用来改善CB技术。我希望有一天我们将能够提供综合数据集,包含大量的评分数据和内容数据。如果把这些数据交到研究人员的手中,所得将不言而喻。或许,这就是真正的问题。正如Jeremy Reed的推特所言:生物医学研究人员可以获取非法物质的研究,但我们却不能;因为这样我们可能会找出那些没品的用户!

您可能也喜欢:

KDD Cup 2011:Yahoo赞助的音乐推荐

KDD Cup2010:教育方面的数据挖掘竞赛

转载:音乐推荐系统的评估

转载:探析数字音乐个性化推荐系统

Hulu发布新的推荐系统页面

来自无觅网络的相关文章:

Google发布云音乐服务Google Music 测试阶段免费 (@alibuybuy)

添加MSN机器人:为12种语言无障碍翻译 (@alibuybuy)

自动化时代的机械工,记KDD2009的获胜者报告 (@wentrue)

翻译软件 Babylon Pro 7.0.3.24 18 种语言的全文翻译 (@alibuybuy)

Toby’s Lessons on recommendation systems (@guwendong)
无觅

相关 [翻译 is the] 推荐:

翻译《The rsync algorithm》

- AWard - CSDN博客推荐文章
     最近在学习Rsync工具,在对Rsync算法大加赞赏之余,决定将《The rsync algorithm 》翻译,有不正之处 还请指正. 安德鲁Tridgell 保罗马克拉斯  部计算机科学 澳大利亚国立大学 堪培拉,ACT 0200,澳大利亚.        本报告介绍了将一台计算机上的文件内容同步到另一台机器上的文件的算法(同步后保证文件内容需要一致).

闲谈翻译

- Frank - 乱象,印迹
算起来,我也算有一些翻译经验的人了,最近接连做了两次关于翻译的分享,发现对翻译有兴趣的人很多,索性,将自己关于翻译的经验做个总结,发在这里. 我是因为很偶然的机会接触翻译的. 当时还在学校,考完了TOFEL和GRE,美国对伊拉克动武,国内的报道非常奇怪,为了在论坛上争论,我开始翻译一些外国媒体的报道,发在论坛里.

翻译:WebKit for Developers

- - TaoBaoUED
Paul Irish 大湿为我们带来了这篇开年大作,文章深入浅出的阐述了各 Webkit port 的迥异,文笔细腻,是一篇不可多得的 Webkit 入门开胃菜. 为了让大家第一时间更好的品尝这道大菜,一丝特别邀请了几位 Webkit 专业开发人士作为本文的翻译顾问,在此表示由衷的感谢. 原文链接:  http://paulirish.com/2013/webkit-for-developers/.

翻译与字体

- Chenta - Apple4.us
胡天翼今天在 Twitter 上说:. 这次关于《乔布斯传》的讨论怎么都在讲翻译. 我以前从来没见过大家对一本书的翻译那么痛心疾首且富有参与精神地讨论,以至于产生了两种幻觉:1. 以前人们读的译本都很好,这次的翻译烂到让人不能相信;2. 这么多年头一次读厚书一定要抓紧机会多叫几声. 我认为这个设问的答案很明显,但不在于上述两点.

Google翻译的内涵

- hahahaha哈 - 大家都是中国人
非PS图,可以自行前往http://translate.google.com/验证.

英文笑话,带翻译

- iSingle - 河蟹娱乐
感谢河蟹网友moai的分享,来源Misc Joke,译者heather_pan,转自译言. A few days after Christmas, a mother was working in the kitchen listening to her young son playing with his new electric train in the living room.

[转载]The C10K problem翻译

- jin - 新浪开发者博客
如今的web服务器需要同时处理一万个以上的客户端了,难道不是吗. 毕竟如今的网络是个big place了. 现在的计算机也很强大了,你只需要花大概$1200就可以买一个1000MHz的处理器,2G的内存, 1000Mbit/sec的网卡的机器. 让我们来看看–20000个客户,每个为50KHz,100Kbyes和 50Kbit/sec,那么没有什么比为这两万个客户端的每个每秒从硬盘读取4千字节然后发送到网络上 去更消耗资源的了.

[翻译]Is the KDD Cup really music recommendation?

- Forrest - Resys China
原文链接:http://musicmachinery.com/2011/02/22/is-the-kdd-cup-really-music-recommendation/. KDD Cup 2011的主题是音乐推荐,虽然数据集还没有正式公布,但相关的讨论已经开始预热了. 本次数据集合的一个特点,是评分对象不光是歌曲,还包括专辑、艺术家和音乐流派,这使得用户的偏好相对更丰富和层次化;但content-based的研究者意见很大,音乐信息也被搞成匿名使得他们基本没法玩了.

[翻译]学习 Objective-C

- Season - Some reminiscences, some memories
接到 ceo 通知,招聘、培训都不用我再负责了,所有人从“闲人”要变成“战斗人员”. 于是撸撸袖子,潜心学习 cocoa 和 Object-c. 不经意看到这篇,好文,兴起,翻译之⋯⋯. 原文地址:http://cocoadevcentral.com/d/learn_objectivec/. Objective-C 是编写 Mac 软件的主要语言.

中土翻译大全

- 果 - 牛博山寨头条
都说Pearl harbour是“ 珍珠港”的意思,其实还有更中土的翻译: 蚌埠. 都说Greenland是“格陵兰”的意思,其实还有更中土的翻译:青岛. 都说Deep River是宇多田光的专辑,其实它还有另外一个神奇的名字叫"深圳". 都说Newfoundland是纽芬兰,其实有更北京的翻译:新发地.