贝叶斯在淘宝

标签: 淘宝 | 发表时间:2010-12-23 17:47 | 作者:(author unknown) Dash
出处:http://www.searchtb.com
Shared by 车东
搜狐邮箱不幸上榜…… @qiuyingbo

          随着电子商务的快速发展,淘宝的规模也逐渐壮大,淘宝在业界的影响力也越来越大。目前,淘宝网的日独立访问数已逾4000万,而注册的用户数现在已经达到1.63亿,中国网民也就3.3亿,在所有的中国网民中,几乎有一半都是淘宝的用户。现在每天独立访问淘宝的用户数,已达到2000+w,可以说,中国互联网网民,每天近9%左右的人会上淘宝,而他们上淘宝的目的也很明确,就是消费。这个规模,这个市场,这样优质的消费流量,同样也受到很多“不法分子”的觊觎和青睐。

          “不法分子”们在淘宝上也看到强大的商机,那就是垃圾账号的注册器的研发。随着每天用户注册数的剧增,每天的垃圾小号也在不断飙升,所谓垃圾小号,是指不符常理的,都是乱七八糟的中文会员、英文会员、数字组合会员和邮箱前缀,其中重点高危的邮箱有:@tom、@126、@hao240、@yahoo.cn、@sogou、@不知名的但大量注册的邮箱、也包括大量注册不符常理的知名邮箱,或者是存在关联的中文或英文会员,如金鼠报春01、金鼠报春02…… ;a789887865、a786645565……,这些垃圾小号一般通过注册机自动或半自动完成用户的注册和激活,他们通常的在淘宝上的活动就是用小号发布旺旺垃圾消息,在淘宝邮箱发送垃圾邮件,或用小号进行信誉炒作,严重影响淘宝上的用户体验和交易安全。而现在每天的注册量中,垃圾小号基本过半,在这样的数量级上,通过人工审核和排查机制来降低垃圾小号数量已是浮云了。

      于是查杀垃圾小号的需求也就应运而生。

       查杀垃圾小号其实与垃圾邮件的查杀原理一致,只是垃圾邮件包含的信息比垃圾小号更加丰富一些。其基本原理是相通的,换汤不换药。在所有反垃圾邮件的技术中,最简单、有效而且在实际应用中较成功的分类器就属贝叶斯了,根据2003年5月BBC专题报道称,贝叶斯应用在垃圾邮件的识别上,其识别率可以达到99.7%的,同时误判率极低。是目前最有效的反垃圾邮件技术。

     下面花小点时间介绍下贝叶斯相关的基础知识,Thomas Bayes, 托马斯·贝叶斯是一位英国牧师数学家,他发表了贝叶斯统计理论,即根据已经发生的事件来预测事件发生的可能性,贝叶斯理论假设:如果事件的结果不确定,那么量化它的唯一方法就是事件的发生概率。如果过去试验中事件的出现率已知,那么根据数学的方法可以计算出未来试验中事件出现的概率。贝叶斯定理可以用一个数学公式表达,那就是贝叶斯公式。说起贝叶斯公式,大家可能都不会很陌生,大学的必修课,概率论与数理统计这门课程,没记错的话,教材的第一章讲述的是随机事件及其概率,其中在介绍条件概率时,就有详细介绍贝叶斯公式和全概率公式。

       贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:

       1、已知类条件概率密度参数表达式和先验概率。

       2、利用贝叶斯公式转换成后验概率。

        3、根据后验概率大小进行决策分类。

        他对统计推理的主要贡献是使用了”逆概率”这个概念,并把它作为一种普遍的推理方法提出来。假定B1,B2,……是某个过程的若干可能的前提,则P(Bi)是人们事先对各前提条件出现可能性大小的估计,称之为先验概率。如果这个过程得到了一个结果A,那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法。P(Bi∣A)既是对以A为前提下Bi的出现概率的重新认识,称 P(Bi∣A)为后验概率。

        朴素贝叶斯(Naïve Bayes)是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式识别方法,用这种方法可以确定一个给定样本属于一个特定类的概率。应用朴素贝叶斯分类器时,训练时,对于n个类别,计算每个特征在类别的先验概率。测试时,对于一个由m个特征组合成特征向量,使后验概率最大的类作为分类结果。   

        朴素贝叶斯分类是基于特征之间的独立性假设的基础上的,即给定一个实例的类标签,实例中每个属性的出现独立于实例中其它属性的出现,也就是说特征之间是相互独立的。尽管这种假设在一定程度上限制了朴素贝叶斯模型的适用范围,然而从目前的许多研究看,即使在违背这种假设的条件下,朴素贝叶斯分类方法也能得到很好的效果。由于后验概率是文档在某一个类别上的概率,因此可以设定当后验概率满足某一阈值就划分为该类,这样就满足了多类标注的要求。

         再回到淘宝查杀垃圾小号上来,其实查杀垃圾小号是一件具有相当难度的事情,垃圾小号每天都在增加和变化。而且现在的垃圾小号注册器变得更加狡猾,之前采用静态查杀垃圾小号技术也很难防范。注册器的研发者们只要简单的研究一下现在采用了哪些静态查杀小号规则,然后相应的改变一下注册内容,就可以逃避查杀了。因此,必须采用一种新的方法来克服静态查杀的弱点,于是我们选用了贝叶斯过滤技术。将贝叶斯理论(即根据已经发生的事件可以预测未来事件发生的可能性)运用到查杀垃圾小号上:若已知某些字词的组合,注册行为,或邮件后缀等等,经常出现在垃圾小号的行为中,却很少出现在正常用户的行为中,那么若一个会员符合这个特征时,那么他是垃圾小号的可能性就很大。

所以基于这个理论,首先,把注册用户分成2个类别:垃圾小号和正常用户。

其次,利用注册信息将用户映射到上面两个类别。

再次,分析用户的活动和行为,分别映射到两个类别;

最后,用naïve Bayes模型进行分类。

如从以下几个字段提取信息:

昵称           e-mail             ip        注册时段    xxx

98524w7gz8b3  [email protected] 123.8.220.253     14    ……

      从上述几个简单的字段信息,便可抽取到10几个静态的特征如:昵称的长度,nick中英文字母数,汉字的个数,数字的个数,nick中文字的bigram,注册的时段,email前缀的长度,email中name英文个数,汉字个数,数字个数,以及文字的 bigram,email后缀是否为常用的垃圾邮箱后缀等等特征,简写如下:

             f1.   nick-name长度,

             f2.  nick-name中汉字个数,

             f3.  nick-name英文字母个数,

             f4.  nick-name标点字符个数,

             f5.   nick-name数字个数,

             f6.   e-mail中所含id长度,

             f7.   email的服务商(yahoo.cn, 163.com…..),

             f8.   email-id 中汉字个数,

             f9.   email-id 英文字母个数,

             f10.  email-id 标点字符个数,

             f11.  email-id 数字个数,

             f12.  注册时段

             f13.   Nick-name中文字的bigram, eg. piaoxue -> bigrams.  pi, ia,ao,ox,xu,ue

             f14.  Email-id的bigram                   eg. p[email protected], email-id   piaoxue -> bigrams.  pi, ia,ao,ox,xu,ue

        通过选取正样本(正常用户,淘宝上正常的活动用户)和负样本(垃圾小号,Alisoft通过事后行为,即已经发生垃圾旺旺消息发送被查杀的垃圾账号),把样本的信息转换到一组一组的feature list上。 贝叶斯的分类器就会统计出每个feature在垃圾小号中出现的概率以及在正常用户中出现的概率,然后根据公式计算出当会员的特征包含某些feature时则为垃圾小号的概率。

例如:

   121686195  hfdz3wm   [email protected] 124.229.24.4    12 ……

   其feature list为:

     nick-name长度: uid_7

     nick-name中Bigrams:  hf fd dz z3 3w wm

     email-id长度: email_7

     email中bigrams:  f3 3q qi i8 8a a3

     email服务商:163.com

      ip:124.22.9.24

     注册时段:hour_12

      nick-name汉字个数:unc_0

      nick-name英文字母个数:une_6

      nick-name数字个数:und_1

      nick-name字符标点个数: unnt_0

     email汉字 个数:unc_0

    email英文字母个数:une_4

    email数字个数:und_3

    email字符标点个数: unnt_0

      根据训练集上数据,统计各个特征在正常用户和非正常用户概率(eg.  wm在正常账号数据出现2次,在垃圾小号数据出现8次,则p(wm)是正常账号概率为0.2,垃圾小号0.8.),  然后计算上述特征在正常用户联合概率 和垃圾小号的联合概率。

   在正常账号的联合概率:P(f1)*P(f2)……*P(f14)……*P(fn)

和垃圾小号上面联合概率:P(f1)*P(f2)……*P(f14) ……*P(fn)

 联合概率取对数 ,在正常用户类别      -181.639

联合概率取对数,在垃圾小号类别       -177.095

故其被判断为垃圾小号 。

   使用贝叶斯过滤的优点在于:

     1、 贝叶斯过滤技术基于样本的内容进行分析,不仅仅是其中的某些关键词;  

     2、 贝叶斯过滤技术具备自适应功能――通过学习新的垃圾小号及正常用户样本,贝叶斯将能查杀最新的垃圾小号;

     3、 贝叶斯过滤技术支持多语种或者说与编码无关。对于贝叶斯而言,他分析的是字串,无论他是字、词、符号、还是别的什么,当然更与语言无关。

     如何才能训练出一个好的贝叶斯分类器呢?贝叶斯的样本数并不是越多越好,但一般需要超过一定的数量才能工作,只有达到一定的量级才具有一定的统计意义。要训练出一个比较好的贝叶斯,有如下建议:

      1、  不要过多的重复某种分类或某一类特征,以免概率失真(失衡),最好是分批分时间多次进行,这样样本分布广泛和均匀。

     2、  对会员的类别归类一定要认真,不能让分类器学习到错误的知识。

     3、  如果存在有垃圾小号,但是跟正常会员很接近,最好不要分类。

     4、在追求precision的应用需求上,应采用不同的决策规则。

相关 [淘宝] 推荐:

淘宝“伤”城

- 品味视界 - FT中文网_英国《金融时报》(Financial Times)
秦苏为英国《金融时报》中文网撰稿. 中国互联网的野蛮生长,再次震惊了电子商务市场. 10月11日晚间,为抗议淘宝商城大幅提高技术服务年费和保证金,约7000家中小卖家通过YY网络语音等组织方式,对韩都衣舍、欧莎、七格格、优衣库等大卖家进行攻击,包括利用规则进行购物、给差评、到货付款或申请退款等. 通过集中拍下某商品,导致这些商家的大部分商品下架“被拍死”.

淘宝维权记

- loudly - 马日拉
我先是在八月上旬从淘宝卖家“偶遇燕燕”处购买了两张高凳. 货送到时仅用塑料气泡纸包装,无硬纸包装. 因为外包装并无破损,所以当时就签收了. 快递走后,拆开包装,发现其中一个凳子凳面完全裂成两半,一个凳脚连接处完全碎裂. 两张凳子平放在一起,高度有一公分以上的落差,说明:1.卖家为减小货物体积,省略了硬质外包装,虽然物品表面由于有气泡纸保护完全无损,但运送途中,一个外形不规则的货物用脚指头想想也知道会因为堆叠、搬运等等情况,造成结构性的损毁.

淘宝养活谁

- - 《商业价值》杂志
成长在互联网时代的我们恐怕无人不知淘宝了,淘宝网由于其巨大的用户群成为了中国电子商务领域的航母. 然而这艘航母在行进过程中,伴生了无数相关联行业的成长. 首先获利的当然是淘宝的600多万商家,凭借着成本优势,电子商务已经在很大程度上深入人心,过亿的日成交额让不少淘宝商家获利颇丰. 数据显示,2011年TMALL平台品牌电商进一步增加,品牌数达7万多个,相较上年的3万个,品牌数增幅超过1倍.

马云致全淘宝同仁公开信:淘宝是大家的淘宝

- Yu - cnBeta.COM
针对近期淘宝更改新规所引发的争议和群体事件,网络上悄然出现了一封马云的公开信,以下为公开信内容. 全体淘宝亲们:大家下午好!首先我代表阿里巴巴及淘宝公司所有员工向大家表示衷心的感谢. 感谢大家九年来对淘宝及我马云本人自始至终的信任和大力支持,感谢你们把淘宝培养成了中国最好最强最受欢迎的网络商业零售圈.

贝叶斯在淘宝

- Dash - 搜索技术博客-淘宝
Shared by 车东. 搜狐邮箱不幸上榜…… @qiuyingbo.           随着电子商务的快速发展,淘宝的规模也逐渐壮大,淘宝在业界的影响力也越来越大. 目前,淘宝网的日独立访问数已逾4000万,而注册的用户数现在已经达到1.63亿,中国网民也就3.3亿,在所有的中国网民中,几乎有一半都是淘宝的用户.

淘宝店主太强了

- Pan - 水木社区 Joke/笑话连篇 保留区
发信人: richal (areer_Plaza), 信区: Joke. 发信站: 水木社区 (Wed Jul 20 14:39:34 2011), 站内. 刚买的新车,选车号时没弄成自选的,. 在网上看到有那种金属字母,贴到车尾. 我想如果把姓名缩写贴上去,应该挺酷的. 结果刚下单不久,淘宝店主就打来电话.

淘宝提价很粗暴

- 宋大妈 - FT中文网_英国《金融时报》(Financial Times)
笨狸为英国《金融时报》中文网撰稿. 据报道,马云曾经说过这样一段话:“2001年的时候,我犯了一个错误,我告诉我的18位共同创业的同仁,他们只能做小组经理,而所有的副总裁都得从外面聘请. 现在十年过去了,我从外面聘请的人才都走了,而我之前曾怀疑过其能力的人都成了副总裁或董事. 现在,马云告诉淘宝上的中小商家说他们不适合继续呆在商城里,而且也不给安排什么出路,简单粗暴的一条提价协议就把曾经帮助淘宝发家的中小商家拒....

利用淘宝 API 在新浪微博上分享淘宝商品,赚取淘宝客返利

- Ken - python.cn(jobs, news)
前段时间做了个新浪应用,在新浪微博上分享淘宝商品. 淘宝api申请好几次都没能通过审核. 于是把代码共享,为学习flask的朋友多一个参考项目. 项目地址:https://github.com/laoqiu/sinaapp. 项目实例:http://tuibei.viimii.li (网站功能已无法正常使用).

拿淘宝说对内品牌管理

- htmlor - 胖胡斐:发现 美好
以后我要从事品牌方面的一些工作,所以这几天在整理自己的一些有关品牌的知识和思路. 偶然想起,何不就用我最熟悉的一个品牌,淘宝,从品牌管理的角度,来谈一点呢. 我算是伴随淘宝的品牌成长起来的人,看着它一点点发展. 从弱小,到强大,到逐渐混乱,再到现在的几乎失去管理. 品牌管理是个系统工程,要规范和控制整个品牌在企业内部和外部的各种形象,使其和企业发展和经营目标相贴合.

Tair: 淘宝的key/value解决方案

- duxin - 若海的blog
今天我们对外开源了Tair,Tair是由淘宝开发的key/value解决方案,你可以在这里获取更多信息. Tair在淘宝有着大规模的应用,在你登录淘宝、查看商品详情页面、在淘江湖和好友“捣浆糊”等等时候,后面都在直接或间接的和Tair交互. Tair是一个分布式的key/value结构数据的解决方案,系统默认支持基于内存和文件的存储引擎,对应于通常我们所说的缓存和持久化存储.