使用sklearn进行异常检测

- - 标点符

sklearn提供了一些机器学习方法，可用于奇异（Novelty）点或异常（Outlier）点检测，包括OneClassSVM、Isolation Forest、Local Outlier Factor (LOF) 等. 其中OneClassSVM可用于Novelty Detection，而后两者可用于Outlier Detection.

异常检测机制

- - 奇虎360-addops

传统的异常检测系统通过设置一个固定的阈值来保证监控项处于正常水平，一旦超过设定的阈值，就会触发报警来提醒人们的注意. 静态阈值法适用于在一定范围内波动的监控项，比如磁盘使用率，CPU使用率等，但是如果遇到网络流量这种不具有明显上限，波动比较剧烈的情况，单纯利用静态阈值法如果设置的阈值比较小，会出现很多误报的情况，增加人工成本；而如果将阈值设置的比较大，又会出现漏报的情况.

[原]异常检测--综述

- - 工作笔记

异常点检测，有时也叫离群点检测，英文一般叫做Novelty Detection或者Outlier Detection，这里就对异常点检测算法做一个总结. 1. 异常点检测算法使用场景. 　　　　什么时候我们需要异常点检测算法呢. 一是在做特征工程的时候需要对异常的数据做过滤，防止对归一化等处理的结果产生影响.

其实之前介绍过3倍方差，只是，这里的3倍方差讲的是在时间序列异常检测中的应用. 一个很直接的异常判定思路是，拿最新3个数据点的平均值（tail_avg方法）和整个序列比较，看是否偏离历史总体平均水平太多，如果偏离太多，就报警. 和上述算法基本一致，只是比较对象不是整个序列，而是开始一个小时（其实这种这种思想可以推广，只要是时间序列刚开始的一段时间即可）的以内的数据，求出这段时间的均值和标准差和尾部数据（新产生的数据）用三本方差的方法比较即可.

使用sklearn进行数据挖掘

- - IT瘾-tuicool

1 使用sklearn进行数据挖掘. 数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤. 使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和fit_transform，fit方法居然和模型训练方法fit同名（不光同名，参数列表都一样），这难道都是巧合.

Netflix异常检测工具Surus初探

- - 标点符

Surus是NetFlix开源的UDFs，是基于pig和hive的数据分析工具. Surus中的功能能够解决多种多样的问题，例如评分预测模型、异常检测与模式匹配等. 目前开源的UDF功能主要包括两个，包括ScorePMML和Robust Anomaly Detection (RAD). 预测模型的应用随处可见，然而这些应用都不相同，唯独相同的是模型的创建和部署是相同的.

基于Spark自动扩展scikit-learn (spark-sklearn) - CSDN博客

- -

1、基于Spark自动扩展scikit-learn(spark-sklearn). Spark MLlib 将传统的单机机器学习算法改造成分布式机器学习算法，比如在梯度下降算法中，单机做法是计算所有样本的梯度值，单机算法是以全体样本为计算单位；而分布式算法的逻辑是以每个样本为单位，在集群上分布式的计算每个样本的梯度值，然后再对每个样本的梯度进行聚合操作等.

时间序列异常检测算法梳理

- - 标点符

时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点. 虽然有很多的异常类型，但是我们只关注业务角度中最重要的类型，比如意外的峰值、下降、趋势变化以及等级转换（level shifts）. 革新性异常：innovational outlier (IO)，造成离群点的干扰不仅作用于$X_T$，而且影响T时刻以后序列的所有观察值.

如何基于Flink+TensorFlow打造实时智能异常检测平台？只看这一篇就够了

- - zhisheng的博客

本文转自 AI 前线公众号，作者 | 潘国庆编辑 | Natalie. Flink 已经渐渐成为实时计算引擎的首选之一，从简单的实时 ETL 到复杂的 CEP 场景，Flink 都能够很好地驾驭. 本文整理自携程实时计算负责人潘国庆在 QCon 全球软件开发大会（北京站）2019 的演讲，他介绍了携程如何基于 Flink 与 TensorFlow 构建实时智能异常检测平台，以解决规则告警系统准确率低、时效性低、规则配置复杂与耗费人力等诸多问题，实现了业务指标毫秒级延迟与智能化检测，同时依托 Flink 实现了强大的容错机制.

使用sklearn进行异常检测

OneClassSVM

Isolation Forest（隔离森林）

Local Outlier Factor（局部离群因子）

Fitting an elliptic envelope（椭圆模型拟合）

异常检测算法比较

相关 [sklearn 异常检测] 推荐：