[译] 巧妙使用机器学习的方法来检测 IoT 设备中的 DDoS 攻击

标签: dev | 发表时间:2018-05-06 00:00 | 作者:
出处:http://itindex.net/relian

网络异常检测

异常检测是识别数据中与预期行为有所不同的数据模式。异常检测技术可以用来区别常用流量与异常攻击流量。常用简单的基于门阀值的检测技术并不适用于IOT的攻击本质。而使用机器学习算法的异常检测模型可以有效降低检测中的假阳性。

网络中间件的限制

网络中间件的内存和处理能力有限,导致在异常检测方面在算法上有一定的限制。智慧家庭网关路由器用的异常检测框架有以下的特征:

·轻量级的特征:路由器必须要处理高带宽的流量,所以所有的特征都要说轻量级的。一个能够处理高带宽应用的算法必须依赖网络流数据和深度的包检测。

·协议无关的特征:路由器必须要处理不同协议的包,所以算法必须考虑所有协议共享的一些包特征。

·低内存实现:路由器因为内存的限制,缓存添加的延迟和复杂度,只能处理有限的状态信息。所以最佳的算法应该是无状态的或者需要在很短的时间窗口内存储流信息。

威胁模型

image.png

对家用IoT网络的一些假设条件有网关路由器和其他中间件,可以监测本地网络上的客户IOT设备上的流量。本地网络上的Wi-Fi设备和设备与Internet之间的流量都要经过中间件。

异常检测方法

异常检测方法一共分为四个步骤:

·流量获取:流量获取过程记录了源IP地址、源端口、目的IP地址、目的端口、包大小、从智能家庭设备发送到所有IP包的时间戳。

·把包按设备和时间分组:每个IOT设备的包按源IP地址进行分组,然后根据中间件中的时间戳分割为不重叠的时间窗口。

·特征提取:基于IOT设备行为的域名知识为每个包生成无状态和有状态的特征。无状态的特征是主要的包头域,有状态的特征是短时间窗口内聚集的流信息,需要有限的内存来支持在路由器上的应用。

·二分类:K近邻(KNN)算法,随机森林,决策树,支持向量机,深度神经网络可以高精度地区分正常流量和DoS攻击流量。

image.png

流量收集

研究人员创建了一个IoT设备网络模型来收集真实的正常和恶意设备流量。

image.png

为了收集正常的流量,研究人员收集了10分钟内三个IoT设备交互的所有包。

与之相比,收集DoS流量就比较难了。为了避免运行真实Mirai僵尸代码的安全威胁和复杂性,研究人员模拟了三种最常见的Mirai感染设备的DoS攻击:TCP SYN洪泛,UDP洪泛,HTTP GET洪泛。研究人员用Kali linux虚拟机作DoS源,用Raspberry Pi 2运行Apache web服务器作为被攻击者。

最后,研究人员把正常流量和DoS流量按照IP地址、MAC地址、包发送时间等融合在一起,让模拟的流量更像真实环境中产生的流量。

特征过程

研究人员对两类特征进行归类,并分析了正常流量和攻击IoT流量的区别。可以通过独立包的独立流特征来提取无状态的特征。这些特征的生成是不需要分割入流量(incoming traffic stream)的。所以,这些特征就是轻量级的。

无状态特征

包大小:包大小的分布是与攻击流量和正常流量明显不同的。超过90%的攻击包上小于100字节的,而正常的包是在100~1200字节之间的。TCP SYN洪泛这样的DOS攻击会尝试建立尽可能多的连接来耗尽受害者服务器的资源。这样,攻击者就会让包的大小尽可能的小,来以最小的代价最大化连接数。而正常的流量包的大小从小到大都有,小的表示连接正常,大的表示视频流数据。

image.png

包间隔:正常的IoT流量有突发性的限制。大多数的包都会有正常的发送间隔。这可能反映在IOT网络ping或其他自动化网络活动上。而DOS攻击的流量的包间隔的时间一般都很短。

image.png

协议:不同的流量的协议分布也不同。正常流量中,UDP流量包数量上超过TCP流量包数量的,因为流视频是UDP包。相比,攻击流量的TCP包数量上超过UCP包数量的。而且,攻击流量的协议种类总的来说比较少。

image.png

有状态特征

带宽:带宽的使用特征也可以作为IOT设备网络流量模型的特征。研究人员将源设备的网络流量进行分割,每10秒钟计算一次平均带宽来衡量每个设备的平均带宽。正常流量和攻击流量的带宽分布差别较小,研究人员认为机器学习模型可以更好地发现这些微小的不同。

image.png

IP目的地址:IoT设备可以按照其通信的终端设备(数量)进行分类。另一个IoT设备流量的重要特征是目的IP地址集很少变化。

研究人员构造了反映这些行为的两个特征:第一个特征是10秒的时间窗口中不同目的IP地址,如果终端过多就说明书攻击流量;第二个特征是时间窗口内不同的目的IP地址数量的变化,出现新的终端表明设备正在发起攻击。

image.png

运用机器学习方法对IoT流量检测分类的结果如下图:

image.png

本文翻译自:https://arxiv.org/pdf/1804.04159.pdf如若转载,请注明原文地址: http://www.4hou.com/web/11280.html?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

相关 [机器学习 方法 iot] 推荐:

[译] 巧妙使用机器学习的方法来检测 IoT 设备中的 DDoS 攻击

- - IT瘾-dev
异常检测是识别数据中与预期行为有所不同的数据模式. 异常检测技术可以用来区别常用流量与异常攻击流量. 常用简单的基于门阀值的检测技术并不适用于IOT的攻击本质. 而使用机器学习算法的异常检测模型可以有效降低检测中的假阳性. 网络中间件的内存和处理能力有限,导致在异常检测方面在算法上有一定的限制. 智慧家庭网关路由器用的异常检测框架有以下的特征:.

基于机器学习方法的POI品类推荐算法 -

- -
在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等). 如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据. 例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类.

使用python+机器学习方法进行情感分析(详细步骤) - 51CTO.COM

- -
【限时免费】年底最强一次云计算大会,看传统、社区、互联网企业如何碰撞. 不是有词典匹配的方法了吗?怎么还搞多个机器学习方法. 因为词典方法和机器学习方法各有千秋. 机器学习的方法精确度更高,因为词典匹配会由于语义表达的丰富性而出现很大误差,而机器学习方法不会. 无论是主客观分类还是正负面情感分类,机器学习都可以完成任务.

大数据和AI策略–面向投资的机器学习和另类数据方法(附280页报告)

- - 互联网数据中心-199IT
J.P.摩根最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》,极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义. 大数据,特别是另类数据集的构建和利用,已经极大地改变了投资领域的面貌.

NB-IoT 的 “前世今生”

- - DiyCode - 致力于构建开发工程师高端交流分享社区社区
作者:个推B2D研发工程师 海晏. 根据《爱立信2018移动报告》(Ericsson Mobility Report,June 2018)的预测,蜂窝物联网设备连接数将在2023年达到35亿,年增长率达到30%. 图片来源:《爱立信2018移动报告》(Ericsson Mobility Report,June 2018).

机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用?

- - 知乎每日精选
尝试回答一下这个问题,也算是对自己阅读的一些论文的总结,顺带谈下一点自己的思考. 前一阵子被吐槽说中英夹杂,也不是为了装逼,因为其实翻译过来,意思反而有了偏差. 如果你去搜索早期的神经网络、SVM的相关论文,会发现不少是做股票预测的. 原因很简单,因为似乎我们可以天然地把股票投资的问题看成一个分类问题或者回归问题.

机器学习五步走

- - 我爱机器学习
经常会有人问“我该如何在机器学习方面更进一步,我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习,保持较强的求知欲,并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的,你可以选择选一门课,注册MOOC,参加一些讨论班.

机器学习之路

- - 我爱机器学习
自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始. 如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作,尤其对于贝叶斯方法,介绍非常完善.

机器学习算法Boosting

- - 标点符
机器学习通常会被分为2大类:监督学习和非监督学习. 在监督学习中,训练数据由输入和期望的输出组成,然后对非训练数据进行预测输出,也就是找出输入x与输出y之间的函数关系F:y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归,或者说是连续变量预测.

IoT云服务连接性的方式

- -
物联网(IoT)的开发者可以选择很多方法来创建与物联网云服务的连接,每一个都有不同的优劣权衡. 将物联网连接到云服务时,最快最简单的方法就是使用一个全功能的物联网软件代理,就像那些物联网平台供应商提供的那样. 产品代理被集成到无线物联网模块硬件中,代表了黑箱方法. 物联网云连接的另一种简单方法是使用由亚马逊AWS、微软Azure等IoT平台提供的SDK,这就是白箱方法.