大数据风控用了什么模型?有效性如何?

标签: 大数据 模型 有效性 | 发表时间:2017-07-13 14:00 | 作者:京东白条
出处:http://www.zhihu.com

由于题主提出的问题围绕着风控模型,而讨论模型必定和实际的应用场景和数据源相关,因此就前四个问题一并回答。

首先金融科技公司大致分为三类,基于线上垂直领域(教育、医疗、电商)、基于特定客群(学生、蓝领、白领)、基于线下场景(车贷、租房)。不同公司在数据维度、授信客群、产品上都有较大区别。基本而言,风险主要集中于 信用风险欺诈风险

在此简单介绍下消费信贷产品在贷款各个环节风控主要模型对两类风险的把控。


一、模型在信用风险的用途:

1.授信准入阶段

首先是授信准入阶段,此阶段最重要的模型是 进件评分卡模型,数据来源主要分为申请信息、历史消费信息、外部信息(例如多投借贷、公积金等)。常用模型包含LR、Xgboost、FFM等。不同模型的选取由是否需要在线更新、可解释性、线上部署环境等多种因素决定。LR的研究非常成熟,有完整的工业分布式解决方案和在线增量学习的理论基础,包括各种带正则项的变种,是非常理想的建模方法,很多时候它还会作为基准型,用于评价复杂模型的提升效果。

一般的线性模型会遇到两个问题:

一是非线性特征的学习,比如年龄。一般使用的方法是进行变量离散化,把年龄分成不同的段或者使用稀疏编码或者自编码等算法对品类或者其他信息进行重构。

二是交互影响,例如收入特征和年龄特征的交叉。高收入的中年人是干爹和干妈,高收入的年轻人是高富帅和白富美,两者的特点完全不一样。所以我们也会使用Xgboost等模型加工非线性特征,或使用FM/FFM类算法学习交叉特征,以此提升模型拟合能力。

此外在这个环节需要注意的是,由于很多公司的数据维度是有限的,分数低的用户并不一定是逾期风险较高的,而可能仅仅是留下数据较少的用户,随着业务的逐步扩张,怎么再去找更多的维度或者在原有数据维度上构建更细腻度的特征来刻画之前无法覆盖的用户群体是关键。

其次由于黑产的猖獗,时刻需要提防刷分、养号的用户,最好的解决方式是通过分析异常群体的行为,构建有区分度的特征或者引入更多数据维度使得可以更加细腻的刻画正常用户的行为,最后还需要结合产品去完善模型。

业务扩张的时候,客群的分布可能发生较大变化,引起的概念漂移也是值得关注的。


2.用户生命周期阶段

当用户准入后需要进行用户生命周期管理,常用到模型是 行为评分卡

和准入阶段不一样,在这个阶段,用户由于大多已经有过至少一次的还款行为,因此可以在数据维度加入借贷数据。

除此之外,需要考虑如何调整额度和息费,保证优质的用户得到更低的息费和更高的额度,而数据表现较差的用户需要用更高的息费来覆盖风险。

但不顾风险的一味最求高收益和不求收益的低风险都是没有意义的。定价模型的重点在于对用户需求和风险的合理预估,调整各个用户群体的息费和额度档次。实则可以看成对资金在不同风险回报的分配,使得在一定的风险下,总体风险收益最大化,技术上会涉及很多带约束的优化问题。


3.催收阶段

最后一个阶段,一小部分用户会逾期进入催收阶段。

这个时期重点是失联修复和催收评分卡,即刻画用户经过一定的催收动作后还款的可能性。

失联修复很好理解,就是通过各种社交数据,建立起关系网络找出与欠款人可能相关的人或者欠款人的其他联系方式。而催收评分卡需要使用到催收数据,催收数据大多是文本音频类型文件备份,因此对这种非结构类型数据的挖掘是这个阶段的核心。

催收的时机,是催收成功最重要的因素。由于催收资源有限,我们需要按照一定的分配规则来分配催收资源。在逾期的较早时期,应该将更多的资源放在较难催收的用户上,而其他的用户可能由于是忘记还款或者其他的非恶意拖欠原因没有还钱,可能给予一段时间会自我救赎;而在催收晚期,则需要放置更多催收资源在能够催回的用户上,尽最大可能降低损失。


二、模型在反欺诈风险方面的用途:

除了上述的信用风险,还有一块较大的职责就是欺诈风险。

现阶段,业界更多关注的是有组织参与的中介欺诈,常见的如批注、盗号、薅羊毛、养号、套现等诸多行为的识别。由于是团伙作案,更多是基于社交网络的社团发现算法来对中介的识别,或者是利用套现中的地址集中性相似性等特点来识别中介,或使用时间序列算法来分析用户的历史行为轨迹,手机传感器信息等生物指纹数据来核实身份。

欺诈风险的难点有别于信用风险,在较多场景下很难定义好坏用户。因此关键在于标签的获得。通常需要同案件调查人员配合,因为他们能够准确定义欺诈,同时能够还原犯罪手法,针对于模型Y变量定义,X变量设计都很有帮助。

其次,由于对抗性强,因此如何检测未发现的欺诈模式和模型的更新速度更加关键。目前这一块工作业界发展都比较滞后。

最后,授信客群的变化或者欺诈团伙作案手法的变化导致原有模型可能失效,加上风险的滞后性,最新可用的训练数据可能已经离目前较远,如何从最新的数据获取模式与旧的数据模式的遗忘是难点。


三、补充

最后,补充如下几点模型评测的注意事项:

1. 由于线下训练环境和线上真实用户群体存在差异,模型的泛化能力很重要,需要确保模型学习到的是有区分度的模式而不是数据中的噪音。

2. 线下使用评测指标主要是刻画准确度与区分度的ks、auc、洛伦兹曲线和Lift曲线等和模型稳定性指标psi。

3. 客群逾期率的高低和公司产品的形态有重要关系,短期提升可以通过反欺诈技术得到改善、而中长期需要依托信用风险模型、但最终还得看产品的授信客群,面向不同客群的风控模型的指标对比试没有意义的。


感谢风险管理-决策智能部提供回答。



来源:知乎 www.zhihu.com
作者: 京东白条

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载

此问题还有 36 个回答,查看全部。
延伸阅读:
无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别?
在统计学中为什么要对变量取对数?

相关 [大数据 模型 有效性] 推荐:

大数据风控用了什么模型?有效性如何?

- - 知乎每日精选
由于题主提出的问题围绕着风控模型,而讨论模型必定和实际的应用场景和数据源相关,因此就前四个问题一并回答. 首先金融科技公司大致分为三类,基于线上垂直领域(教育、医疗、电商)、基于特定客群(学生、蓝领、白领)、基于线下场景(车贷、租房). 不同公司在数据维度、授信客群、产品上都有较大区别. 基本而言,风险主要集中于 信用风险及 欺诈风险.

【大数据】揭秘谷歌的票房预测模型

- - 互联网分析
【导语】近日,谷歌公布了一项重要研究成果 – 电影票房预测模型. 该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%. 这在业内引起了强烈讨论,不少内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略,但同时也有吐槽者暗示谷歌的票房预测模型别有用心,旨在鼓动电影公司购买其搜索引擎广告.

谈大数据(2)

- - 人月神话的BLOG
对于大数据,后面会作为一个系列来谈,大数据涉及的方面特别多,包括主数据,数据中心和ODS,SOA,云计算,业务BI等很多方面的内容. 前面看到一个提法,即大数据会让我们更加关注业务方面的内容,而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了,再系统来看大数据的完整解决方案和体系化.

大数据之惑

- - 互联网分析
算起来,接触大数据、和互联网之外的客户谈大数据也有快2年了. 也该是时候整理下一些感受,和大家分享下我看到的国内大数据应用的一些困惑了. 云和大数据,应该是近几年IT炒的最热的两个话题了. 在我看来,这两者之间的不同就是: 云是做新的瓶,装旧的酒; 大数据是找合适的瓶,酿新的酒. 云说到底是一种基础架构的革命.

白话大数据

- - 互联网分析
这个时代,你在外面混,无论是技术还是产品还是运营还是商务,如果嘴里说不出“大数据”“云存储”“云计算”,真不好意思在同行面前抬头. 是千万级别的用户信息还是动辄XXXTB的数据量. 其实,大数据在我的眼里,不是一门技术,而是一种技能,从数据中去发现价值挖掘价值的技能. ”当我掷地有声用这句话开场时,正好一个妹子推门而入,听到这句话,微微一怔,低头坐下.

交通大数据

- - 人月神话的BLOG
本文简单谈下智慧交通场景下可能出现的大数据需求和具体应用价值. 对于公交线路规划和设计是一个大数据潜在的应用场景,传统的公交线路规划往往需要在前期投入大量的人力进行OD调查和数据收集. 特别是在公交卡普及后可以看到,对于OD流量数据完全可以从公交一卡通中采集到相关的交通流量和流向数据,包括同一张卡每天的行走路线和换乘次数等详细信息.

模型制作

- 小鱼儿 - 非正常人类研究中心 – Mtime时光网
1.材料:一大袋的一次性筷子(花了60块钱);5支502胶水;5张粗砂纸;记号笔一只;锋利的美工刀片若干,破剪刀一把. 就是这种屌毛筷子,质量也太他妈的差了点,80%都是弯的 . 随便提一下:我的脚丫子还是蛮性感滴 . 开始动工了!!  先做门框跟房子的底架. 3.不好意思,忘了交代一下了,我是先画图纸的,看到那张纸了没有.

全球10大数据库

- - 译言-电脑/网络/数码科技
原文: Fiorenttini   译者: julie20098. [非商业性转载必须注明译者julie20098和相关链接. ,否则视为侵权,追究转载责任. 世界气候数据中心:气候全球数据中心, 220TB 的网络数据, 6PB 的其它数据. 国家能源研究科学计算中心,有 2.8PB 容量.

谈大数据分析

- - 人月神话的BLOG
对于数据分析层,我们可以看到,其核心重点是针对海量数据形成一个分布式可弹性伸缩的,高查询性能的,支持标准sql语法的一个ODS库. 我们看到对于Hive,impala,InfoBright更多的都是解决这个层面的问题,即解决数据采集问题,解决采集后数据行列混合存储和压缩的问题,然后形成一个支撑标准sql预防的数据分析库.

大数据的一致性

- - 阳振坤的博客
看到了一篇关于数据一致性的文章:下一代NoSQL:最终一致性的末日. (  http://www.csdn.net/article/2013-11-07/2817420 ),其中说到: 相比关系型数据库,NoSQL解决方案提供了shared-nothing、容错和可扩展的分布式架构等特性,同时也放弃了关系型数据库的强数据一致性和隔离性,美其名曰:“最终一致性”.