大数据风控用了什么模型？有效性如何？

标签： 大数据 模型 有效性 | 发表时间：2017-07-13 22:00 | 作者：京东白条

出处：http://www.zhihu.com

由于题主提出的问题围绕着风控模型，而讨论模型必定和实际的应用场景和数据源相关，因此就前四个问题一并回答。

首先金融科技公司大致分为三类，基于线上垂直领域（教育、医疗、电商）、基于特定客群（学生、蓝领、白领）、基于线下场景（车贷、租房）。不同公司在数据维度、授信客群、产品上都有较大区别。基本而言，风险主要集中于 信用风险及 欺诈风险。

在此简单介绍下消费信贷产品在贷款各个环节风控主要模型对两类风险的把控。

一、模型在信用风险的用途：

1.授信准入阶段

首先是授信准入阶段，此阶段最重要的模型是 进件评分卡模型，数据来源主要分为申请信息、历史消费信息、外部信息（例如多投借贷、公积金等）。常用模型包含LR、Xgboost、FFM等。不同模型的选取由是否需要在线更新、可解释性、线上部署环境等多种因素决定。LR的研究非常成熟，有完整的工业分布式解决方案和在线增量学习的理论基础，包括各种带正则项的变种，是非常理想的建模方法，很多时候它还会作为基准型，用于评价复杂模型的提升效果。

一般的线性模型会遇到两个问题：

一是非线性特征的学习，比如年龄。一般使用的方法是进行变量离散化，把年龄分成不同的段或者使用稀疏编码或者自编码等算法对品类或者其他信息进行重构。

二是交互影响，例如收入特征和年龄特征的交叉。高收入的中年人是干爹和干妈，高收入的年轻人是高富帅和白富美，两者的特点完全不一样。所以我们也会使用Xgboost等模型加工非线性特征，或使用FM/FFM类算法学习交叉特征，以此提升模型拟合能力。

此外在这个环节需要注意的是，由于很多公司的数据维度是有限的，分数低的用户并不一定是逾期风险较高的，而可能仅仅是留下数据较少的用户，随着业务的逐步扩张，怎么再去找更多的维度或者在原有数据维度上构建更细腻度的特征来刻画之前无法覆盖的用户群体是关键。

其次由于黑产的猖獗，时刻需要提防刷分、养号的用户，最好的解决方式是通过分析异常群体的行为，构建有区分度的特征或者引入更多数据维度使得可以更加细腻的刻画正常用户的行为，最后还需要结合产品去完善模型。

业务扩张的时候，客群的分布可能发生较大变化，引起的概念漂移也是值得关注的。

2.用户生命周期阶段

当用户准入后需要进行用户生命周期管理，常用到模型是 行为评分卡。

和准入阶段不一样，在这个阶段，用户由于大多已经有过至少一次的还款行为，因此可以在数据维度加入借贷数据。

除此之外，需要考虑如何调整额度和息费，保证优质的用户得到更低的息费和更高的额度，而数据表现较差的用户需要用更高的息费来覆盖风险。

但不顾风险的一味最求高收益和不求收益的低风险都是没有意义的。定价模型的重点在于对用户需求和风险的合理预估，调整各个用户群体的息费和额度档次。实则可以看成对资金在不同风险回报的分配，使得在一定的风险下，总体风险收益最大化，技术上会涉及很多带约束的优化问题。

3.催收阶段

最后一个阶段，一小部分用户会逾期进入催收阶段。

这个时期重点是失联修复和催收评分卡，即刻画用户经过一定的催收动作后还款的可能性。

失联修复很好理解，就是通过各种社交数据，建立起关系网络找出与欠款人可能相关的人或者欠款人的其他联系方式。而催收评分卡需要使用到催收数据，催收数据大多是文本音频类型文件备份，因此对这种非结构类型数据的挖掘是这个阶段的核心。

催收的时机，是催收成功最重要的因素。由于催收资源有限，我们需要按照一定的分配规则来分配催收资源。在逾期的较早时期，应该将更多的资源放在较难催收的用户上，而其他的用户可能由于是忘记还款或者其他的非恶意拖欠原因没有还钱，可能给予一段时间会自我救赎；而在催收晚期，则需要放置更多催收资源在能够催回的用户上，尽最大可能降低损失。

二、模型在反欺诈风险方面的用途：

除了上述的信用风险，还有一块较大的职责就是欺诈风险。

现阶段，业界更多关注的是有组织参与的中介欺诈，常见的如批注、盗号、薅羊毛、养号、套现等诸多行为的识别。由于是团伙作案，更多是基于社交网络的社团发现算法来对中介的识别，或者是利用套现中的地址集中性相似性等特点来识别中介，或使用时间序列算法来分析用户的历史行为轨迹，手机传感器信息等生物指纹数据来核实身份。

欺诈风险的难点有别于信用风险，在较多场景下很难定义好坏用户。因此关键在于标签的获得。通常需要同案件调查人员配合，因为他们能够准确定义欺诈，同时能够还原犯罪手法，针对于模型Y变量定义，X变量设计都很有帮助。

其次，由于对抗性强，因此如何检测未发现的欺诈模式和模型的更新速度更加关键。目前这一块工作业界发展都比较滞后。

最后，授信客群的变化或者欺诈团伙作案手法的变化导致原有模型可能失效，加上风险的滞后性，最新可用的训练数据可能已经离目前较远，如何从最新的数据获取模式与旧的数据模式的遗忘是难点。

三、补充

最后，补充如下几点模型评测的注意事项：

1. 由于线下训练环境和线上真实用户群体存在差异，模型的泛化能力很重要，需要确保模型学习到的是有区分度的模式而不是数据中的噪音。

2. 线下使用评测指标主要是刻画准确度与区分度的ks、auc、洛伦兹曲线和Lift曲线等和模型稳定性指标psi。

3. 客群逾期率的高低和公司产品的形态有重要关系，短期提升可以通过反欺诈技术得到改善、而中长期需要依托信用风险模型、但最终还得看产品的授信客群，面向不同客群的风控模型的指标对比试没有意义的。

感谢风险管理-决策智能部提供回答。

来源：知乎 www.zhihu.com
作者：京东白条

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。点击下载

此问题还有 36 个回答，查看全部。
延伸阅读：
无常数项的线性多元回归模型和有常数项的线性多元回归模型有何区别？
在统计学中为什么要对变量取对数？

大数据风控用了什么模型？有效性如何？

相关 [大数据模型有效性] 推荐：