为Nginx加入一个使用深度学习的软WAF

标签： WEB安全 nginx waf 工具 | 发表时间：2019-02-17 09:00 | 作者：rochek

出处：https://www.freebuf.com

一、前言

本文介绍如何向Nginx增加了一个使用Tensorflow C库的软WAF模块，模块主体基于Naxsi。

二、获取数据及训练数据

这里，之前有Dalao发表过这样一篇文章：基于卷积神经网络的SQL注入检测。

这是一个开源的项目，但是由于速度的关系，我不打算使用这篇文章的模型，仅仅采用这篇文章使用的数据集。这样可以节省很多特征工程的时间。

数据训练并不是这篇文章的重点，这里仅仅说一下训练结果，这里为了防止CUDA周期对检测时间的影响，使用CPU跑推理过程。

如果您对数据的训练感兴趣，可以看我之前写的一篇文章：使用CNN做SQL和XSS的识别。

三、使用Tensorflow C库做推理

我们的目标是向Nginx加入一个使用Tensorflow C库的软WAF模块。如果从头开始写一个软WAF，想必会占用相当多的时间，并且这个也和这篇文章的主旨偏离。

在Nginx的开源的软WAF模块中，Naxsi是一个很受欢迎的模块。这个模块使用C作为主开发语言，因此，如果我们想基于这个模块加一个推理过程，很大可能性需要加入Tensorflow C库。那么，首先应该做的是，试着使用Tensorflow C库做单次推理，并做好模块测试。

Main文件如下：

编译完成后，可以跑一下数据，这里为了节省篇幅，仅测试一条

可见这部分代码已经可以正常工作了。

四、向Naxsi内加入代码

首先，回忆下Nginx的一些原理，Nginx在运行时使用fork，创建了一个master进程和若干worker进程，worker进程是实际处理数据的进程。每个模块的初始化函数，实际上是由初始化的进程来完成的，在这之后，如果配置了daemon，初始化的进程自动退出。

同时，为了便于理解，我们可以把推理流程拆分成这样几个部分：

1. 初始化模型

2. 将输入转化为Tensorflow识别的格式

3. 运行模型，获取结果

其中，步骤1仅需运行一次，步骤2，3在每次运行这个模块时都需要进行。

我对于Nginx理解不深，DaLao轻拍。

由于worker进程是fork产生的，实际上是无法使用初始化进程产生的model，所以，每个worker进程需要自己初始化一次自己的model相关资源。因此，新加入的函数应该类似这样：

这里，我仅仅检测uri内部的注入请求，其它部分的检测代码应该是非常相似的，这里就不再重复罗嗦了。

由于tf_model是在第一次调用模块时才会自动载入，因此，在这个服务器的每个worker进程第一次接受到数据时，可能会稍卡顿一下。

五、编译运行

将Naxsi和Nginx的代码同时复制到编译服务器内部，然后在编译Nginx时，包含下Naxsi的代码部分。

由于Nginx在编译时是不使用Tensorflow库的，所以我们需要手动修改下Makefile，在链接时自动加入Tensorflow库，最后编译。

然后，需要将Naxsi的配置文件复制到Nginx的conf文件夹内，配置Naxsi，并修改Nginx的配置文件，加入Naxsi模块。自定义一个403的Page，作为注入发生时的替换界面。然后，运行Nginx。

六、手注测试

这里使用简单的手注，测试模块是否正常运行。这里实际是不可能出现注入的情况的，如果有兴趣的话，可以加入DVWA等靶机，使用sqlmap等工具实际攻击。

七、总结

经过以上几个步骤，我们就得到了一个使用DL的Nginx的软WAF模块，并把它加入到了Nginx内。相比普通的规则匹配类的引擎，一般而言，这种方法的防御效果更加优秀。考虑漏报和误报率的话，使用测试集测试，可靠性提高了数倍。

当然，推理流程会对服务器本身的性能造成一定的影响，因此在实际的环境中，可能需要使用Tensorflow C GPU库来跑运算，或者将Nginx作为代理使用。

*本文作者：rochek，转载请注明来自FreeBuf.COM

相关 [nginx 深度学习 waf] 推荐：

为Nginx加入一个使用深度学习的软WAF

- - FreeBuf互联网安全新媒体平台

本文介绍如何向Nginx增加了一个使用Tensorflow C库的软WAF模块，模块主体基于Naxsi. 这里，之前有Dalao发表过这样一篇文章：基于卷积神经网络的SQL注入检测. 这是一个开源的项目，但是由于速度的关系，我不打算使用这篇文章的模型，仅仅采用这篇文章使用的数据集. 这样可以节省很多特征工程的时间.

浅谈绕过WAF的数种方法

- Lynn - 80sec

08年初诞生了一种SQL群注攻击，黑客在全球范围内对asp，asp.net加MSSQL架构的网站进行了疯狂扫荡. 由于MSSQL支持多语句注入，黑客通过一条结合游标的SQL语句就能将整个数据库的字段内容自动进行篡改，可以在网站上无差别的进行网页木马攻击. 互联网是快速更新迭代的，但是很多没有开发能力的单位都是通过外包建立网站，网站的程序一上线就再也无人维护，很多程序存在各种漏洞无法修补，于是WAF便有了市场，现今门槛低且最能解决问题的是针对IIS/apache的软件WAF，通常一个模块一个扩展就能搞定，当然也有耗资百万千万的硬件WAF，然而如果WAF拦截规则出现漏洞，这百万千万的硬件也就是一堆废铁.

ModSecurity：一款优秀的开源WAF

- - FreeBuf互联网安全新媒体平台

一、ModSecurity3.0介绍. ModSecurity是一个开源的跨平台Web应用程序防火墙（WAF）引擎，用于Apache，IIS和Nginx，由Trustwave的SpiderLabs开发. 作为WAF产品，ModSecurity专门关注HTTP流量，当发出HTTP请求时，ModSecurity检查请求的所有部分，如果请求是恶意的，它会被阻止和记录.

openresty+lua实现WAF应用防火墙

- - C1G军火库

pcre没找到,编辑时加上–with-pcre=../pcre-8.30 \. 4.下载ngx_cache_purge清缓组件. 伪装openresty为xcdn. 4.下载和配置 ngx_lua_waf. nginx下常见的开源 waf 有 mod_security、naxsi、ngx_lua_waf 这三个，ngx_lua_waf 性能高和易用性强，基本上零配置，而且常见的攻击类型都能防御，是比较省心的选择.

深度学习二三事

- - FreeBuf.COM | 关注黑客与极客

我知道博客标题中使用否定词很奇怪，但是前几天有一波讨论正好相应于我正在思考的一些问题. 这一切开始于 Jeff Leek 发表的一篇有关说明在小样本范围内使用深度学习的文章. 要言之，他认为当样本较小时（生物领域中属于常见现象），带有少许参数的线性模型甚至比带有少量层和隐藏单元的深度网络性能更优.

关于深度学习——Deep Learning

- - 互联网旁观者

转载自： http://blog.csdn.net/abcjennifer/article/details/7826917. Deep Learning是机器学习中一个非常接近AI的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，最近研究了机器学习中一些深度学习的相关知识，本文给出一些很有用的资料和心得.

深度学习的本质探究？？

- - ITeye博客

原创 2016-10-07 朱洁 . 标志型事件，阿尔法围棋（AlphaGo）战胜李世石. alphago是一款围棋人工智能程序，由谷歌（Google）旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发，这个程序利用“价值网络”去计算局面，用“策略网络”去选择下子. 2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾；2016年3月对战世界围棋冠军、职业九段选手李世石，并以4:1的总比分获胜.

深度学习利器：TensorFlow实战

- - 孟飞阳的博客

深度学习及TensorFlow简介. 深度学习目前已经被应用到图像识别，语音识别，自然语言处理，机器翻译等场景并取得了很好的行业应用效果. 至今已有数种深度学习框架，如TensorFlow、Caffe、Theano、Torch、MXNet，这些框架都能够支持深度神经网络、卷积神经网络、深度信念网络和递归神经网络等模型.

深度学习三大框架对比

- -

| 导语 Science is NOT a battle, it is a collaboration. 人工智能的浪潮正席卷全球，诸多词汇时刻萦绕在我们的耳边，如人工智能，机器学习，深度学习等. “人工智能”的概念早在1956年就被提出，顾名思义用计算机来构造复杂的，拥有与人类智慧同样本质特性的机器.

Nimbus: Hulu的深度学习平台

- - 董的博客

Hulu是美国领先的互联网专业视频服务平台，目前在美国拥有超过2500万付费用户. Hulu的目标是帮助用户在任意时刻、任何地点、以任何方式查找并欣赏到高质量的电视剧、电影和电视直播. 实现这一目标离不开各个团队的努力，而AI在其中扮演者越来越重要的角色. 在Hulu, 我们拥有诸多的researcher团队，如广告团队，推荐团队，视频理解团队等ji等.