用户画像之标签权重算法

标签: 用户 画像 标签 | 发表时间:2017-10-25 09:19 | 作者:
出处:https://ask.hellobi.com

image.png

感谢大家长期以来对专栏的关注,最近工作比较忙,好久没更新了。接下来的几篇文章想和大家分享下关于用户画像的一些东西。今天我们先从用户画像的标签权重开始聊起吧。

用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。

先举个场景,程序员小Z在某电商平台上注册了账号,经过一段时间在该电商平台的web端/app端进行浏览、所搜、收藏商品、下单购物等系列行为,该电商平台数据库已全程记录该用户在平台上的行为,通过系列建模算法,给程序员小Z打上了符合其特征的标签(如下图所示)。此后程序员小Z在该电商平台的相关推荐版块上总能发现自己想买的商品,总能在下单前犹豫不决时收到优惠券的推送,总是在平台上越逛越喜欢....

image.png

上面的例子是用户画像一些应用场景。而本文主要分享的是打在用户身上标签的权重是如何确定的。

image.png



如上图所示,一个用户标签表里面包括常见的字段如:用户id、用户姓名、标签id、标签名称、用户与该标签发生行为的次数(如搜索了两次“大数据”这个关键词)、行为类型(不同的行为类型对应用户对商品不同的意愿强度,如购买某商品>收藏某商品>浏览某商品>搜索某商品),行为时间(越久远的时间对用户当前的影响越小,如5年前你会搜索一本高考的书,而现在你会搜索一本考研的书)。最后非常重要的一个字段是标签权重,该权重影响着对用户属性的归类,属性归类不准确,接下来基于画像对用户进行推荐、营销的准确性也就无从谈起了。下面我们来讲两种权重的划分方法:

1、基于TF-IDF算法的权重归类

TF-IDF算法是什么思想,这里不做详细展开,简而言之:一个词语的重要性随着它在该文章出现的次数成正比,随它在整个文档集中出现的次数成反比。

image.png

比如说我们这里有3个用户和4个标签,标签和用户之间的关系将会在一定程度上反应出标签之间的关系。这里我们用w(P , T)表示一个标签T被用于标记用户P的次数。TF(P , T)表示这个标记次数在用户P所有标签中所占的比重,公式如下图:

image.png

对上面的图来说,用户1身上打了标签A 5个,标签B 2个,标签C 1个,那么用户1身上的A标签TF=5/(5+2+1) 。 相应的IDF(P , T)表示标签T在全部标签中的稀缺程度,即这个标签的出现几率。如果一个标签T出现几率很小,并且同时被用于标记某用户,这就使得该用户与该标签T之间的关系更加紧密。

image.png

然后我们根据TF * IDF即可得到该用户该标签的权重值。到这里还没结束,此时的权重是不考虑业务场景,仅考虑用户与标签之间的关系,显然是不够的。还需要考虑到该标签所处的业务场景、发生的时间距今多久、用户产生该标签的行为次数等等因素。我用个图总结下:

image.png

2、基于相关系数矩阵的权重归类

这个相关系数矩阵听title挺困难,其实道理十分简单。举个例子:用户1身上打上了5个A标签、2个B标签、1个C标签;用户2身上打上了4个A标签,3个B标签;用户3身上打上了4个C标签、1个D标签。

用个图形象表示一下:

image.png

那么同时打上A、B标签的用户有两个人,这就说明AB之间可能存在某种相关性,当用户量、标签量级越多时,标签两两之间的相关性也越明显。

今天先聊这么多,大家可以留言交流。后面再更新 ...

    相关 [用户 画像 标签] 推荐:

    用户画像之标签权重算法

    - -
    感谢大家长期以来对专栏的关注,最近工作比较忙,好久没更新了. 接下来的几篇文章想和大家分享下关于用户画像的一些东西. 今天我们先从用户画像的标签权重开始聊起吧. 用户画像:即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件.

    用户画像(三)|通过用户对不同文章的不同行为(浏览、点赞、评论、分享)提取用户标签 - 简书

    - -
    最近我们对我们平台的用户进行了一个用户标签提取,这中间的主要流程如下图3-1所示:. 一、梳理做用户画像需要的数据. 用户画像是基于业务数据而进行的,如果前期没有考虑好这一点,那么在真正实操时会发现做分析需要的数据存在不同的业务表里面,甚至有些数据根本没有保存. 所以,在做用户画像之前最需要做的事就是梳理清楚到底需要哪些数据,如果业务上没有保存,那么就增加保存,如果数据非常分散,最好是集中保存下,否则后面随着数据越来越大,从多个业务表里面汇总数据也是一个非常麻烦的事.

    细说 用户画像

    - - 神刀安全网
    对于互联网从业者,经常会提到一个词——用户画像. 作为一名刚主要做用户画像DMP的数据PM,工作中总是会被需求方问到——. 我要查看XXX的用户画像 或是 能否能够XXXX类用户的画像. 抑或是有别的产品会问到:你们是怎么做用户画像的. 然而在沟通的过程中,我发现,不同的人对用户画像的理解差异还是非常大的.

    用户画像TGI指标

    - - 标点符
    对于TGI指数,百科是这样解释的——TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势. TGI指数计算公式 = 目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例 * 标准数100. 举个例子,假设一家外语学校里面有家烧烤店,每天晚上男生和女生顾客都是50%,你觉得男生还是女生更倾向于光顾这个烧烤店呢.

    创建定性用户画像

    - - 腾讯CDC
      在产品研发过程中,确定明确的目标用户至关重要. 不同类型的用户往往有不同甚至相冲突的需求,我们不可能做出一个满足所有用户的产品.   为了让团队成员在研发过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上,Alan Cooper提出了Persona这一概念. “赢在用户”这本书将其翻译为“人物角色”,在腾讯我们习惯了使用“用户画像”这个术语.

    族群歧视与用户画像

    - - IT瘾-tuicool
    题图是这两天的新闻人物美籍越南人 Dr. 美国朋友觉得奇怪,为什么要说他是越南人. 另一位 Asian,估计是位澳大利亚籍香港人,发了一条推特说——Dr. Dao 当时反抗的暴力其实是合法的强制执法. 第三位 Asian,相信是位中国籍大陆知友,读了这条推特很愤慨,挥键写就高赞爆款推送《比打人更可怕的是国人的落井下石》.

    大数据下的用户画像

    - - 人月神话的BLOG
    简单点来说用户画像,即是 根据用户的静态基本属性和动态行为数据来构建一个可标签化的用户模型. 静态属性:个人基本信息(地域,年龄,性别,婚姻),家庭信息,工作信息等. 动态行为:购买行为,点击行为,浏览,评论,营销活动参与行为,退换货行为,支付行为等. 为何要进行用户画像,核心还是后续的针对性营销,当我们组织一次针对性营销的时候,首先要确定的就是营销的用户群体,那么就要从用户标签中精确定位这个群体.

    用户画像从入门到挖坑

    - - leejun2005的个人页面
    用户画像承载了两个业务目标:一是如何准确的了解现有用户;二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户. 比如在了解用户的基础上明确产品定位,“投其所好”;获取一个新用户/新订单;售前的精准营销、售中的个性化推荐匹配,以及售后的增值服务等. 1.2 用户流量的三大终极问题:认知用户. 现存客户 (Existing Customer) - 我的现存客户是怎么样,喜欢什么,什么消费习惯,哪些客户最值钱等等.

    数据驱动与用户画像

    - -
    最近不少客户提出,希望与神策数据共同建设“用户画像”以驱动产品智能,但什么才是用户画像呢. 我们通过这篇文章,介绍我们理解的两种用户画像(User Persona 和 User Profile),以及如何构建用户画像(User Profile)的标签体系并驱动产品智能. 第一种用户画像(User Persona)是产品设计、运营人员从用户群体中抽象出来的典型用户:.

    你真的懂用户画像吗?

    - -
    在移动互联网时代,精细化运营成为企业重要的竞争力,此时,“用户画像”的概念也应运而生. 用户画像是指,在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务. 在下文中,我们将以个推用户画像产品为例,为你详解“用户画像”的技术特点和使用价值.