推荐系统那些事儿1

标签: 个性化推荐与搜索 | 发表时间:2012-08-30 13:00 | 作者:bicloud
出处:http://blog.sina.com.cn/bicloud

simple model + large scale data



知识库:用户知识库,Item知识库,用户评分数据(显性和隐性)等.不同的业务背景不一样,譬如电商,社交网络,视频,app应用等

协同过滤引擎:根据用户评分数据集,通过collaborative filtering方法,计算用户喜欢的top N item。数据格式: userid, itemid,score

PS:注意数据预处理,尤其是评分数据,可以优化

Context 引擎服务:用户profile数据与item数据匹配,类似搜索引擎服务,譬如常见的用户特征(基本,行为,社会)。数据格式: userid,itemid,score

实时数据引擎:收集用户实时数据特征,简单实时预处理

业务规则引擎:业务规则处理,主要是定制化的业务,信息过滤

核心引擎:根据应用类型进行服务响应。(1)基于context推荐服务结合实时数据特征(譬如电子商务中的用户购物前的推荐服务),为用户推荐item。(2)基于协同过滤推荐服务结合实时数据特征(没有明显的业务背景),为用户推荐item。Rec(u,v) = w1 * OnlineScore(u,v) + w2 * OfflineScore(u,v) + b。排序,Online Ranking,通过机器学习算法,训练在线和离线的权重;或者,通过人工方法,设定权重,在线AB测试,不断尝试。

技术选型

数据存储:voldemort,BDB, postgresql, hbase

实时数据处理:kafka, storm

计算平台:hadoop,hive,Pig, oracle

DM、ML平台:pig,mahout,weka, libsvm, liblinear等。常用的算法协同过滤,线性回归,logistics 回归,GBDT,聚类(AP)

数据分析与可视化:R python SAS data.js PATTERN

工作流管理:Azkaban

评测:在线AB测试,离线测试,数据指标NDGC,MAE,RMSE,Recall, Precision, CTR, CVR

- REC: number of recommendations presented in a list.

- LOC: places where the recommendation lists are placed.

- CER: total of clicks in the recommendations

- CTR (%): rate of clicks in the recommendations

- TPR (%): proportion of orders with recommendations

- TIR (%): proportion of recommended items per order with recommendation

- IAT (%): increase in the average ticket

- IR (%): increase in the revenue

应用开发:python+flask+bootstrap+memcached+sqlachemy或者其他java,php

人员配置

前期:

超强战斗力性1人 ,个人综合能力强(算法,存储,数据,应用开发)

精编型3人:算法,数据和分析(1人), 存储和工作流(1人),应用开发(1人,前端和应用)

后期:

标配型6人:算法和数据(2人),分析和评测(1人),存储和工作流管理(2人),应用开发(1人,前端和应用)

正规部队10人:算法和数据(4人), 分析和评测(2人), 存储和工作流管理(2人), 应用开发(2人,前端和应用)

http://weibo.com/bicloud


  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [推荐系统] 推荐:

Min-Hash和推荐系统

- - xlvector - Recommender System
前几年看Google News Recommendation的那篇Paper,对里面提到的MinHash的算法基本没有注意,因为之前的习惯都是只注意论文的模型那块,至于怎么优化模型一般都只是扫一眼. 不过最近看了大量的Google Paper,发现Google在实现一个算法方面确实有很多独到之处. 其实,Min-Hash是LSH(Locality Sensitive Hash)的一种,我之前对LSH的了解仅仅限于知道它能把两个相似的东西Hash成两个汉明距离接近的2进制数.

推荐系统实战

- - 博客园_首页
推荐算法:基于特征的推荐算法. 推荐算法准确度度量公式:. 其中,R(u)表示对用户推荐的N个物品,T(u)表示用户u在测试集上喜欢的物品集合. 集合相似度度量公式(N维向量的距离度量公式):. 其中,N(u)表示用户u有过正反馈的物品集合. 其中,S(u,k)表示和用户u兴趣最接近的K个用户集合;N(i)表示对物品i有过正反馈的用户集合;w(u,v)表示用户u和用户v的兴趣相似度;r(v,i)表示用户v对物品i的兴趣.

推荐系统杂谈

- - 后端技术杂谈 | 飒然Hang
推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容. 现象级的资讯类app“今日头条”就得益于此成为了势头非常猛的一款产品. 本文就针对推荐系统讲述一些相关概念和实践经验. 首先需要明确的就是推荐系统的目标,一般来说不外乎以下几个:. 用户满意性:首当其冲的,推荐系统主要就是为了满足用户的需求,因此准确率是评判一个推荐系统好坏的最关键指标.

个性化推荐系统综述

- Tony - 所有文章 - UCD大社区
上个月写过一篇产品推荐的文章,详情请见《我所了解的产品推荐》,内容很泛,多为工作心得. 本周读了几篇相关的论文,收获颇多,分享点干货. 以下内容摘自《个性化推荐系统的研究进展》,该文发表于2009年1月的《自然科学进展》专题评述,作者是刘建国、周涛、汪秉宏. 我略去了具体的算法和许多公式,重点看原理、思路和比较.

推荐系统开源工具 – SVDFeature

- Roger - Resys China
SVDFeature是我们(上海交大Apex实验室)在参加KDDCUP 2011期间开发的. 通过这个工具,我们和港科大(HKUST)的联合小组InnerPeace在KDDCUP 2011中获得Track 1第三名,并创造单模型最好成绩. 在此分享给大家,并希望和大家有更多的交流. (1)基于feature的可扩展性 —— SVDFeature实现了我们的基础模型feature-based matrix factorization.

Reculike : 开源论文推荐系统

- votis - Resys China
今天这篇博文主要总结一下reculike的系统架构. 两周前我们宣布发布了reculike的alpha版. 本着分享的原则,今天在这儿介绍一下我们的各个模块的设计方法. 我们这个项目一开始叫paperlens,这是因为我们想学习业界的前辈movielens,开发一个源代码和数据都开源的系统. 关于数据的开源,我想当用户数达到一定程度后,每个月会dump一次我们所有的数据库(密码等隐私信息除外),放到网络上供大家下载.

推荐系统那些事儿1

- - 冰火岛
知识库:用户知识库,Item知识库,用户评分数据(显性和隐性)等.不同的业务背景不一样,譬如电商,社交网络,视频,app应用等. 协同过滤引擎:根据用户评分数据集,通过collaborative filtering方法,计算用户喜欢的top N item. 数据格式: userid, itemid,score.

下一代个性化推荐系统

- - 技术改变世界 创新驱动中国 - 《程序员》官网
本文结合技术及社会需求发展的大背景,讲述了当前推荐系统的价值及所面临的挑战,并指出了下一代个性化推荐系统的设计思路及需要注意的问题. 作为个性化推荐系统核心的协同过滤(Collabora-tive Filtering)算法,是Goldberg等人在1992年的一篇学术论文中最早提出的. 他们在这篇文章中提出一种方法,在一个新闻组中,根据 用户下载的新闻计算他们之间在口味上的相似程度,并利用这种相似程度为他们进一步推荐相关的新闻.

淘宝推荐系统的学习

- - 标点符
维基百科:推荐系统属于资讯过滤的一种应用. 推荐系统能够将可能受喜好的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图片、网页)推荐给使用者. 推荐系统大体可分为两类,即个性化推荐和非个性化推荐. 好的推荐系统更像一个有经验的网站导购员. 不同点:搜索是通过用户主动输入的关键字进行查询. 推荐则是用户在浏览网站的过程中,不一定需要用户输入,根据当前网页的上下文进行个性化的信息输出.

推荐系统那些事儿2

- - 冰火岛
学名:co –occurrence. 隐性数据:视频,社交网络,电子商务中的共同浏览,共同购买,互粉等等,对于一些隐性数据,计算共同行为,这也是最简单的. 一般的方式是,写个sql 自连接. 部分人定义为协同过滤思想,姑且看做狭义定义. 实际处理中,需要经过数据预处理,包括业务上的和技术上的. 这里,可以采用LoglikelihoodSimilarity作为相似性度量方式.