手机淘宝推荐中的排序学习-博客-云栖社区-阿里云

标签: | 发表时间:2018-08-20 16:38 | 作者:
出处:https://yq.aliyun.com


周梁:淘宝推荐机器学习技术专家,中国科学院自动化研究所机器学习博士,主要研究工作方向是机器学习、大规模并行算法优化。先后从事过广告CTR预估,MPI机器学习平台搭建,手淘个性化推荐等多方面工作。

排序学习是推荐、搜索、广告的核心问题。在手机淘宝的推荐场景中,受制于展示空间的限制,排序学习显得尤为重要。在淘宝,如何从十亿的商品中,挑选出用户 今天喜欢的商品,也是个巨大的挑战。 本次我们分享排序学习在手机淘宝中的应用,其中包括:解决了哪些问题,遇到了哪些挑战,以及做了哪些改进。

 

手淘推荐介绍

 

图1手淘推荐业务全覆盖

用户提升体验,千人千面;商家提供流量,提升转换;平台引导行为,流量分配。

图2手淘推荐系统

Match:基于内容,行为的推荐。场景,社交,人群,个人的长期兴趣,短期行为。

图3排序学习的原因

排序学习分类:PointWise:

PairWise:

ListWise:直接优化整个集合序列,不再做Transform,优化目标NDCG.

业务实例

 图4店铺内推荐业务

业务:只可以推荐同店铺商品,可以是相似搭配。目标:CTR.方法:PointWise。

 图5模型

样本构造:

模型目标:预测<user,item> ctr,并按照ctr排序。

手机埋点的困难:曝光,点击收集,Native 版本,H5 版本。

正负样本处理:

1.      点击/曝光PV

2.      (点击 + 折算成交)/曝光PV

3.      (点击 + 折算的成交)/(有效点击以上PV截断)

4.      (点击 + 折算的成交)/(泊松采样的虚拟PV)

特征设计

ID类特征,User、Item 、Context基本特征,移动特定场景相关特征:设备ID  VS 用户ID;城市区域特征;手机型号特征,PC & Mobile 特征融合。

每个特征权重反映该特征在数据中的统计意义,方便进行特征组合和模型debug,比较方便引入在线学习。

特征工程

 

  图6年龄匹配

图7年龄匹配

特征组合,交叉特征,例如年龄匹配。

个性化模型,特征交叉

–       User:U1={张三,男,年龄35},U2={李四,男,年龄29}

–       Item:I1={鼠标},I2={枕头}

–       训练集:U1点了I1,没点I2

–       预测:U2对I1、I2的喜好

–       特征归并,{张三,男,年龄35,鼠标},无泛化能力

–       特征交叉:{张三,男,年龄35,鼠标,男_鼠标}

–       对常见问题的解决方法

–       性别匹配:user性别与item性别交叉

–       年龄匹配:user年龄与item年龄交叉

–       购买力匹配:user购买力与item购买力交叉

–       用户类目偏好:user id与item类目id交叉

–       Position bias:训练时引入pos id为特征

–       多Matchtype融合:引入Matchtype id为特征

–       人群属性偏好:人群特征同item id做交叉

实时用户特征

 用户的Session 特征 怎么办?:用户当前时刻看了多少本类目商品;用户是否已经在别的场景下看过了本商品;用户是否已经购买本类目同款商品。

在线学习:离线特征提取,在线模型学习(FTRL)


图8在线学习

行业市场业务

图9

业务:个性化行业模块排序,个性化图文排序,最大化点击。

目标:行业流量的均衡。

方法:优化auc,Pairwise-ranknet。

PairWise思考:只考虑了两篇文档的相对顺序,对于不同的查询相关文档集的数量差异很大,投入产出比看,pairwise最佳。

业务场景Position因素:前两个图的面积明显占优,统计数据显示CTR明显占优。

流量均衡考虑。

图10 BPR模型

BPR:Bayesian Personalized Ranking。

构造pair样本是关键:

1.      Click > Skip Above

2.      Last Click > Skip Above

3.      Click > Earlier Click

4.      Click > No-Click Next

 图11女装瀑布流

业务:瀑布流个性化,多目标优化。目标:CTR,CVR,客单价。方法:优化NDCG,listwise-lambdamart。

        

        图12多目标融合

优化NDCG

DCG (Discounted Cumulative Gain)

NDCG(Normalized Version)

 图13

左图pairwise错误相比右图小(13 VS 11);希望出现红色的梯度方向和强度;直接优化NDCG。

 

LambdaRank 不再从Cost Function出发推导梯度,反而直接计算梯度来优化NDCG等一类的IR指标。

Mart(Multiple Additive Regression Tree)  与 Lambda 结合 , 得到 LambdaMart。

 

特征表示:

  1.   连续特征表示,便于Mart训练以及特征选择、组合
  2. User,Item,Context的各个维度反馈特征
  3. User Session 维度特征
  4. 各种子目标模型的Score
  5. LBS特征反馈

 


图14样本构造

  多目标构成ListWise,输入Lambdamart,按照等权重构造梯度权重。

等权重构造梯度权重的问题:样本有偏;训练较慢。

改进策略:按人工加权方式修正梯度强度;针对多种不同等级pair构造中,每个List只挑选最大违反的同类型pair做当前轮训练。

 

  图15计划&展望

日志:手机日志收集,终端较多,多App间协作。

特征:家庭用户特征同账户问题,地域特征,PC、Mobile 特征对齐。

目标:业务目标多,LTR有较大的应用空间。

实时:在线模型更新,用户行为特征挖掘。

 

 

 

 

 

相关 [手机 淘宝 排序] 推荐:

手机淘宝推荐中的排序学习-博客-云栖社区-阿里云

- -
周梁:淘宝推荐机器学习技术专家,中国科学院自动化研究所机器学习博士,主要研究工作方向是机器学习、大规模并行算法优化. 先后从事过广告CTR预估,MPI机器学习平台搭建,手淘个性化推荐等多方面工作. 排序学习是推荐、搜索、广告的核心问题. 在手机淘宝的推荐场景中,受制于展示空间的限制,排序学习显得尤为重要.

手机淘宝构架演化实践

- - 博客园_知识库
  李敏主要负责淘宝无线客户端和无线网站基础服务、购物主链路的架构、研发方面的工作. 从09年开始参与手机淘宝研发团队的组建和线上产品研发,先后负责过无线部门的社区、会员、营销、交易等多条产品线的技术工作,构建和发展了阿里无线技术体系中包括交易链路、百亿级别高性能API网关、WebApp平台等多个重要技术产品,经历和见证了阿里巴巴无线从开始之初到成为日活上亿级别电商应用技术变迁和积累.

[转]排名算法(二)--淘宝搜索排序算法分析

- - 工作笔记
原文:https://blog.csdn.net/u011966339/article/details/78052569 . 淘宝搜索排序的目的是帮助用户快速的找到需要的商品. 从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置. 为了更好的实现这个目标,算法排序系统基本按三个方面来推进:.

淘宝头条指数发布“2016上半年淘宝手机网购报告”

- - 爱搞机
魅族一月连开4场发布会,华为、乐视、中兴、酷派等频推新品,iPhone7面世的传言不绝于耳……2016年上半年的手机行业在各个厂商的“机海战术”中残酷厮杀. 近日,淘宝头条指数联合淘宝潮电街,发布“2016上半年淘宝手机网购报告”,排出“最热卖手机品牌”、“最吸金手机品牌”、“网购手机最多的省份top20”、“男/女性最青睐的十大手机品牌”等多份榜单,以淘宝网购大数据洞窥整个手机行业的特征和趋势.

阿里云手机:淘宝手机马甲?

- Chengkun - cnBeta.COM
按阿里云总裁王坚说法,它指的是使用阿里操作系统的手机,而不是阿里自己造手机了――王坚坚称,永远不做手机. 把手机一些信息同步到服务器上,是一种“云功能”. 在阿里云手机中,可以把手机联系人、通话记录、相册等手机信息存储到云端账号. 我觉得,这个功能背后,有一系列隐私问题. 阿里会不会利用这些信息展开进一步商业动作,是需要打个问号的.

淘宝手机电子锁Android版,全新发布

- guangtao - cnBeta全文版
2011年5月13日,淘宝网最新开发的新一代安全产品――淘宝手机电子锁 Android 1.1.0版正式对外发布. 淘宝手机电子锁是基于OTP且结合移动设备在淘宝二次验证上进行安全校验的新兴安全产品,它结合高安全、携带便捷和用户体验良好等诸多优点于一身,同时考 虑到用户对自己账号有主动的安全操作需求,特别提供了各种“锁操作”,如账号登陆历史记录、店铺打烊等.

雷锋读图:两百款Android手机上的淘宝

- - 雷锋网
随着移动互联网的发展、智能手机的普及,日常生活中,那些曾依托于电脑与传统互联网的生活已经慢慢的转嫁到移动终端上. 包括网购、转账、订票、旅游查询还有社交活动,都能通过移动互联网得以满足. 淘宝就曾宣布,通过淘宝手机客户端查询商品、查看物流的日用户超过200万,而Android客户端就占了其中的44%,每日有将近百万的用户在使用淘宝Android客户端.

淘宝“伤”城

- 品味视界 - FT中文网_英国《金融时报》(Financial Times)
秦苏为英国《金融时报》中文网撰稿. 中国互联网的野蛮生长,再次震惊了电子商务市场. 10月11日晚间,为抗议淘宝商城大幅提高技术服务年费和保证金,约7000家中小卖家通过YY网络语音等组织方式,对韩都衣舍、欧莎、七格格、优衣库等大卖家进行攻击,包括利用规则进行购物、给差评、到货付款或申请退款等. 通过集中拍下某商品,导致这些商家的大部分商品下架“被拍死”.

淘宝维权记

- loudly - 马日拉
我先是在八月上旬从淘宝卖家“偶遇燕燕”处购买了两张高凳. 货送到时仅用塑料气泡纸包装,无硬纸包装. 因为外包装并无破损,所以当时就签收了. 快递走后,拆开包装,发现其中一个凳子凳面完全裂成两半,一个凳脚连接处完全碎裂. 两张凳子平放在一起,高度有一公分以上的落差,说明:1.卖家为减小货物体积,省略了硬质外包装,虽然物品表面由于有气泡纸保护完全无损,但运送途中,一个外形不规则的货物用脚指头想想也知道会因为堆叠、搬运等等情况,造成结构性的损毁.

淘宝养活谁

- - 《商业价值》杂志
成长在互联网时代的我们恐怕无人不知淘宝了,淘宝网由于其巨大的用户群成为了中国电子商务领域的航母. 然而这艘航母在行进过程中,伴生了无数相关联行业的成长. 首先获利的当然是淘宝的600多万商家,凭借着成本优势,电子商务已经在很大程度上深入人心,过亿的日成交额让不少淘宝商家获利颇丰. 数据显示,2011年TMALL平台品牌电商进一步增加,品牌数达7万多个,相较上年的3万个,品牌数增幅超过1倍.