wepay:基于机器学习的自动化欺诈检测系统

标签: 数据挖掘 | 发表时间:2016-02-17 20:29 | 作者:bicloud
出处:http://blog.sina.com.cn/bicloud

wepay:基于机器学习的自动化欺诈检测系统

第三方支付平台,https://go.wepay.com/about-wepay

wepay


https://en.wikipedia.org/wiki/WePay

wepay基于机器学习进行欺诈检测,减少资损。

you have to be able to spot fraud with a high degree of accuracy so that you can shut it down before it results in a loss.

人工经验+机器学习,实现自动化,减少人力成本,提升性能和效率

At WePay, it increasingly also means machine learning models which can spot complicated fraud patterns faster with less human intervention.

目前基于机器学习进行反欺诈存在的挑战

(1)欺诈不是静止不变的

道高一尺魔高一丈,fraud is constantly changing

Machine learning models are great for spotting fraud, but they aren’t psychic — they rely on past data to make predictions about the transactions they’re currently looking at. Since the patterns aren’t constant, that means they go out of date quickly.模型性能衰减较快

根据wepay的经验,Beyond the month, its accuracy may drop by 50%, and will continue to slowly decrease after that.

(2)更新模型比较困难

Retraining a model by running the full machine learning pipeline can take hours. This includes extraction and transformation (ETL) of incremental new data, feature creation and engineering, model training, performance evaluation, and model deployment.

为了减少复杂度,某些公司采用简单的模型,logistic regression,但是治标不治本。the newest data might not be the most useful for model training purposes because new fraud can take time to mature — it can often take two or more months for a cardholder to see and report fraud. This means new data can be labeled good before it’s seen as bad, and training models with the latest data can actually hurt model accuracy.

wepay欺诈检测自动化

wepay 自动化方法:

+ Pull new, incremental retraining data daily 增量计算

+ Refresh the model by running it again with combined new and existing fraud data

+ Test the new models, evaluating each on Area Under Curve (AUC), precision and recall

+ Transfer models that meet initial test criteria into a pseudo-production environment for additional assessment against test cases + Deploy upon satisfactory completion of all performance and test case validation

基于python实现机器学习自动化

wepay采用python作为模型原型和生产环境语言。

基于python做web服务,flask,django

基于python scikit-learn pandas numpy构建机器学习模型,快速,方便,简洁

Just copy the model files to production instance and import the same libraries in production as in development, and you are almost good to go!

都是基于python开发,部署到迁移,完全兼容

Putting it all together

模型日更新,When we’re training our models, we simply exclude transactions flagged as good in the most recent time period while including every transaction flagged as fraud that we can. This lets us train on data that includes the most recent fraud patterns while also not contaminating our model with bad data.

总结

数据科学自动化,提升性能,减少成本,增加效率

持续学习新技术,优化方法,提升反欺诈效果

fraud doesn’t stand still. If we’re to be successful in fighting crime and protecting our customers’ money, we must constantly be working to improve our approach, explore new techniques, and create new systems that let us tackle newer and more sophisticated attacks.

比如深度学习算法,ensemble technique等

from:

http://blog.wepay.com/automating-machine-learning-for-platform-fraud-detection/

感受:

基于业务的机器学习平台,自动化系统和平台化,增量计算,模型日更新,借鉴应用到实际工作。



 

相关 [wepay 机器学习 自动化] 推荐:

wepay:基于机器学习的自动化欺诈检测系统

- - 冰火岛
wepay:基于机器学习的自动化欺诈检测系统. 第三方支付平台,https://go.wepay.com/about-wepay. wepay基于机器学习进行欺诈检测,减少资损. you have to be able to spot fraud with a high degree of accuracy so that you can shut it down before it results in a loss..

把机器学习自动化,AutoML 要做出人人可用的人工智能〡IF19

- - 极客公园
随着概念的普及,科技公司对人工智能的要求越来越高,成本、准确度、效率都影响着人工智能能否落地融入日常的使用中. 对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求. 近年来,在深度学习领域里,出现了一种「新式学习法」,很多人视它改变了设计复杂的深度学习网络,把看似高不可攀的深度学习,「拉」到了人人触手可及的程度.

PayPal 开发者大会的不速之客:WePay CEO 来砸场!

- Isis - 爱范儿 · Beats of Bits
PayPal 年度开发者大会 PayPal X Developer Conference 昨天在旧金山 Moscone Center 开幕. 不过树大招风,竞争对手 WePay 拉来一块 600 磅重的冰块,里面冰封了成百上千的美刀,上面还写了字:PAYPAL FREEZES YOUR ACCOUNTS (PayPal 封了你的帐号)UNFREEZE YOUR MONEY (开始解封你的钱吧).

Adobe送给Apple的爱心广告和WePay送给PayPal的冰块

- zxsky1 - tombkeeper的和谐Blog
1、Adobe送给Apple的爱心广告. Apple的iPhone、iPod、iPad等产品上允许安装什么软件,控制权是在Apple手里的. Apple一直没有在这些产品上支持Flash,也不允许用户安装. 虽然也有黑客研究出了一些“越狱”后的Flash安装方案,但也只是Geek们的游戏,对绝大多数用户来说,仍然就是没有Flash.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客
使用命令:mahout -h.   在Mahout实现的机器学习算法见下表:. EM聚类(期望最大化聚类). 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能.

国内的机器学习几个人

- - 丕子
转: http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛:. 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习.

Apache Mahout 0.8 发布,机器学习库

- - 开源中国社区最新新闻
Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头,目前只有一个公共发行版.