机器学习之恶意流量检测的特征工程

标签: WEB安全 恶意流量 机器学习 特征工程 | 发表时间:2020-01-14 10:00 | 作者:邹先生007
出处:https://www.freebuf.com

背景

传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式,还可以通过定义不同维度的特征来做特征工程,这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力。这种方法举个例子来说可以这样理解,我的输入是姚明,此时我在特征工程阶段需要将姚明转化为身高2.2米、体重400斤等等数值特征,再经过标准化等转化为机器可以识别的量纲单位进行学习预测。

机器学习流程& 特征工程

传统的机器学习可以理解成是生产算法的算法。需要人来先做特征提取,然后在把特征向量化后交给机器去训练。为什么要做特征工程,有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。我们做特征工程的目的是为了让训练后的结果达到最优的状态。

本例中我们的目的是从流量中识别恶意流量,首先需要在所有的负例样本中筛选出最具代表的特征,在所有的负例样本中筛选出最具代表的特征,我们先从简单关键词特征开始。观察正例样本基本没有类似information_schema.table、 sleep() 、alert(/1/)这种的特殊字符。

     

format=xml&platform=ppap&channel=withoutchannelfilename=sgim_eng.zip&h=B2EF665558623D671FC19AC78CA2F0F3&v=8.0.0.8381&ifauto=1

md5=d10015a0eb30bd33bb917e1d527c649num=8&PaperCode=600054daid=41&clientuin=1264523260

clientkey=00015947C124007000F19A1CB5D10832A25TAG=ieg.qqpenguin.desktopdaid=41&clientuin=1264523260

观察负例样本可以将如下负例样本看作是请求的value部份如 http://x.x.x/path?key1=value1&key2=value2,可以观察到同类型攻击具有很多相同的特征,比如xss来说具有很多javascript、alert、onerror=等特征,sql注入具有information_schema、information_schema.table、select、from、where等关键词特征

  <form id="test" /><button form="test"formaction="javascript:alert(123)">TESTHTML5FORMACTION<scriptitworksinallbrowsers>/<script */alert(1)</script<metahttp-equiv="refresh" content="0;url=javascript:confirm(1)"></textarea><script>alert(/xss/)</script>'><script>alert(document.cookie)</script><form><isindexformaction="javascript&colon;confirm(1)"alert(String.fromCharCode(88,83,83));'))"><inputtype="text" value=``<div/onmouseover='alert(1)'>X</div><BODY ONLOAD=alert('helloxworldss')><![><img src="]><img src=x onerror=alert(XSS)//"><inputonblur=write(XSS) autofocus><input autofocus>

本例抽取部份的xss负例样本,从中可以抽取的特征规则大致可以这样表示

onmouseover= onload= onerror= alert() prompt()
javascript: <script> </script> confirm() onblur=

即便如此仍然会存在很多变形特征,比如<script/**/>、console.log()、<Script>,所以进行一步完善特征工程这一次我们将特征分为两个维度,第一个维度是词特征,第二是符号纬度,同时对所有的大小写进行统一转换为小写,对于请求的value是url这种可能会存在很多特殊符号的链接特征,在本例中可以进行统一降噪转换为”x”避免受到此类特征等影响学习结果

关键词纬度
Javascript: script Confirm= Onblur= Src=
Onmouseover= Onload= Onerror= alert prompt
符号纬度
* /
= :
` \

这里特别说明一下特征除此之外的纬度还有很多,playload的长度、请求响应时间、该ip或该来源指纹请求次数等等,这里我们只用了2个维度来简单说明。我们继续将特征进行进行量化,可以大致得到如下每条playload内容对应的特征向量

playload 关键词纬度 符号维度 特征编码
<form id=”test” /><button form=”test” formaction=”javascript:alert(1)”> javascriptalert ():”"<> [2,7]
num=”><img src=x onerror=window.open(‘ https://www.x.com/’);> onerror “><’/: [2,6]

在处理请求的过程中难免会出现特质编码[8,40],[9,35]类似这样具有奇异性的特征编码,在机器学习领域中我们需要将量纲和量纲单位限定在一个空间同样的数量级范围内,经过处理后的数据会消除奇异值带来的影响,以便我们进行综合对比评判。

min-max标准化

这里简单说一下标准化,min-Max就是把数据按比例缩放,使之落入一个小的空间里。同时不改变原有的正态分布,特征数据的取值范围并不在[ 0,1 ]之间,着点跟归一化不同。如下其中X代表要转换的对象,[New_max,New_min]代表范围区间。

收入范围最低收入12000,最高收入98000,标准化映射到[0,1]之间,现在要将一个人收入是73600进行标准化,映射后的结果如下

代码示例

数据预处理,这里正负样本数据结构就不再重复了,保证一个都是恶意样本,一个是正常样本即可。

  def loadFile():
    badXss = "./badx.txt"
    goodXss = "./goox.txt"
    bf = [x.strip().lower() for x inopen(badXss, "r").readlines()]
    gf = [x.strip().lower() for x inopen(goodXss, "r").readlines()]
    return bf, gf

特征工程阶段,一条playload或者正常样本后进行特征提取,特征拆分成两个维度,一个维度是关键词特征,一个维度是关键符号特征

  def MakeFeature(x):
    charList = ["onmouseover=","onload=", "onerror=", "javascript","alert", "src=", "confirm", "onblur"]
    markList = ["=", ":",">", "<", '"', "'", ")","(", "."]
    featureList = []
    for i in x:
        char_count, mark_count = 0, 0
        payload =urllib.parse.unquote(i.lower().strip())
        for charts in charList:
            char_count = payload.count(charts)+ char_count
        for marks in markList:
            mark_count = payload.count(marks) +mark_count
        featureList.append([char_count,mark_count])
    return featureList

训练阶段拆分40%测试集,这里笔者使用了多个算法分别进行训练,目的是想看一下几个算法在相同数据集下的训练时间和效果

  def train(x, y):
    x_train, x_test, y_train, y_test =train_test_split(x, y, test_size=0.4, random_state=666)
    param = {'n_estimators': 200, 'max_depth':200, 'min_samples_split': 2, 'learning_rate': 0.01}
    NBM = [MultinomialNB(alpha=0.01),  # 多项式模型-朴素贝叶斯
           BernoulliNB(alpha=0.01),
          DecisionTreeClassifier(max_depth=100),
          RandomForestClassifier(criterion='gini', max_depth=100,n_estimators=200),
           LogisticRegression(random_state=40,solver='lbfgs', max_iter=10000, penalty='l2',multi_class='multinomial',class_weight='balanced', C=100),
           LinearSVC(class_weight='balanced',random_state=100, penalty='l2',loss='squared_hinge', C=0.92, dual=False),
           SVC(kernel='rbf', gamma=0.7, C=1),
           # GradientBoostingClassifier(param)
           ]
    NAME = ["多项式", "伯努利", "决策树", "随机森林", "线性回归", "linerSVC", "svc-rbf"]
    for model, modelName in zip(NBM, NAME):
        model.fit(x_train, y_train)
        pred = model.predict(x_test)
        dts = len(np.where(pred == y_test)[0])/ len(y_test)
        print("{} 精度:{:.5f} ".format(modelName, dts * 100))
        joblib.dump(model, './model.pkl')

预测概率,加载模型进行精度预测

  def predicts(x):
    clf = joblib.load('./model.pkl')
    return clf.predict(x)

def run():
    badx, goodx = loadFile()
    goodx = MakeFeature(goodx)
    badx = MakeFeature(badx)
    goody = [0] * len(goodx)
    bady = [1] * len(badx)
    min_max_scaler = preprocessing.MinMaxScaler()
    X_train_minmax =min_max_scaler.fit_transform(bady)
    x = np.array(goodx + badx).reshape(-1, 2)
    y = np.array(goody + bady).reshape(-1, 1)
    train(x, y)
     testX =["<script>alert(1)</script>", "123123sadas","onloads2s", "scriptsad23asdasczxc","onload=alert(1)"]
     x =MakeFeature(testX)
     forres, req in zip(predicts(x), testX):
         print("XSS==>" if res == 1else "None==>", req)

预测结果

XSS==><script>alert(1)</script>

None==> 123123sadas

None==> onloads2s

None==>scriptsad23asdasczxc

XSS==>onload=alert(1)“””

结果

可以看到由于特征工程阶段做的特征维度不够多特征保留的不够充分,在白样本中存在大量的干扰特征,导致最后准确率召回率都不是很高,精度大约只有74%左右,使用这种特征工程的方法笔者不是很推荐,虽然有监督方式的机器学习具有良好的可解释性,但是维护特征是一个永无止尽的过程,难度你真的想有多少智能就有多少人工吗。 :D

模型名称 预测精度
多项式 74.9%
伯努利 72.5%
决策树 73.9%
线性回归 72.5%
SVM 74.7%

*本文原创作者:邹先生007,本文属于FreeBuf原创奖励计划,未经许可禁止转载

相关 [机器学习 流量 特征] 推荐:

机器学习之恶意流量检测的特征工程

- - FreeBuf互联网安全新媒体平台
传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式,还可以通过定义不同维度的特征来做特征工程,这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力. 这种方法举个例子来说可以这样理解,我的输入是姚明,此时我在特征工程阶段需要将姚明转化为身高2.2米、体重400斤等等数值特征,再经过标准化等转化为机器可以识别的量纲单位进行学习预测.

机器学习-特征选择(降维) 线性判别式分析(LDA)

- - 博客园_首页
  特征选择(亦即降维)是数据预处理中非常重要的一个步骤. 对于分类来说,特征选择可以从众多的特征中选择对分类最重要的那些特征,去除原数据中的噪音. 主成分分析(PCA)与线性判别式分析(LDA)是两种最常用的特征选择算法. 关于PCA的介绍,可以见我的 另一篇博文. 这里主要介绍线性判别式分析(LDA),主要基于Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]两篇文献.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客
使用命令:mahout -h.   在Mahout实现的机器学习算法见下表:. EM聚类(期望最大化聚类). 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能.

国内的机器学习几个人

- - 丕子
转: http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛:. 李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习.

Apache Mahout 0.8 发布,机器学习库

- - 开源中国社区最新新闻
Apache Mahout 0.8 发布了,Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头,目前只有一个公共发行版.

Ruby的机器学习项目

- - 阳志平的网志-技术类
作者是辉瑞公司的小牛,可惜烂尾了. 我在改啊改啊,可惜现在是商业项目,暂时不能放出改掉的部分. 对了,顺便做个小广告,去年组织翻译的一本小书:社会网络分析:方法与实践. 已经上市了,感兴趣的可以翻翻:. 社会网络分析:探索关系背后的科学与技术. treat:自然语言处理. 类似于igraph,也是桥接处理nlp.

机器学习该如何入门

- - CSDN博客综合推荐文章
  对于这个问题的解释,说实话我很有压力,因为在分享篇文章之前就有朋友告诉我,这个百度上一搜一大片,还需要你讲吗. 正如同一千个读者眼里有一千个林黛玉一样,我解释的当然是我个人自从读研到工作这么多年对机器学习的学习到应用过程的独特见解.   首先我们看下图了解一下机器学习在AI(Artificial Intelligence 人工智能)领域的地位.