机器学习之恶意流量检测的特征工程

模型名称	预测精度
多项式	74.9%
伯努利	72.5%
决策树	73.9%
线性回归	72.5%
SVM	74.7%

- - FreeBuf互联网安全新媒体平台

传统的机器学习除了使用Tfidf-ngram的方式外还有其他做特征工程方式，还可以通过定义不同维度的特征来做特征工程，这种特征工程方式需要安全工程师对每一种攻击有良好特征提取能力. 这种方法举个例子来说可以这样理解，我的输入是姚明，此时我在特征工程阶段需要将姚明转化为身高2.2米、体重400斤等等数值特征，再经过标准化等转化为机器可以识别的量纲单位进行学习预测.

特征选择(亦即降维)是数据预处理中非常重要的一个步骤. 对于分类来说，特征选择可以从众多的特征中选择对分类最重要的那些特征，去除原数据中的噪音. 主成分分析(PCA)与线性判别式分析(LDA)是两种最常用的特征选择算法. 关于PCA的介绍，可以见我的另一篇博文. 这里主要介绍线性判别式分析(LDA)，主要基于Fisher Discriminant Analysis with Kernals[1]和Fisher Linear Discriminant Analysis[2]两篇文献.

机器学习五步走

- - 我爱机器学习

经常会有人问“我该如何在机器学习方面更进一步，我不知道我接下来要学什么了. 一般我都会给出继续钻研教科书的答案. 每当这时候我都会收到一种大惑不解的表情. 但是进步确实就是持续的练习，保持较强的求知欲，并尽你可能的完成具有挑战性的工作. 因为他是为数不多的几种可以让你真真让你获取坚实知识的媒介. 是的，你可以选择选一门课，注册MOOC，参加一些讨论班.

机器学习之路

- - 我爱机器学习

自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今，转眼间半年已经过去了，感谢简博士分享和开源精神的鼓舞，这也正是本系列关于机器学习介绍博客的动力来源. 之前有些网友，师弟们问我，学习机器学习怎么入手，从看什么书开始. 如果你只愿意看一本书，那么推荐Bishop的PRML，全名Pattern Recognition and Machine Learning. 这本书是机器学习的圣经之作，尤其对于贝叶斯方法，介绍非常完善.

机器学习算法Boosting

- - 标点符

机器学习通常会被分为2大类：监督学习和非监督学习. 在监督学习中，训练数据由输入和期望的输出组成，然后对非训练数据进行预测输出，也就是找出输入x与输出y之间的函数关系F：y = F(x). 根据输出的精确特性又可以分为分类和回归. 分类和回归的区别在于输出变量的类型. 定量输出称为回归，或者说是连续变量预测.

Mahout实现的机器学习算法

- - ITeye博客

使用命令:mahout -h. 在Mahout实现的机器学习算法见下表：. EM聚类（期望最大化聚类）. 并行FP Growth算法. 并行化了Watchmaker框架. 非Map-Reduce算法. 扩展了java的Collections类. Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能.

国内的机器学习几个人

- - 丕子

转： http://blog.csdn.net/playoffs/article/details/7588597. 推荐几个机器学习和数据挖掘领域相关的中国大牛：. 李航：http://research.microsoft.com/en-us/people/hangli/，是MSRA Web Search and Mining Group高级研究员和主管，主要研究领域是信息检索，自然语言处理和统计学习.

Apache Mahout 0.8 发布，机器学习库

- - 开源中国社区最新新闻

Apache Mahout 0.8 发布了，Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用. 该项目已经发展到了它的最二个年头，目前只有一个公共发行版.

Ruby的机器学习项目

- - 阳志平的网志-技术类

作者是辉瑞公司的小牛，可惜烂尾了. 我在改啊改啊，可惜现在是商业项目，暂时不能放出改掉的部分. 对了，顺便做个小广告，去年组织翻译的一本小书：社会网络分析：方法与实践. 已经上市了，感兴趣的可以翻翻：. 社会网络分析：探索关系背后的科学与技术. treat：自然语言处理. 类似于igraph，也是桥接处理nlp.

机器学习该如何入门

- - CSDN博客综合推荐文章

　　对于这个问题的解释，说实话我很有压力，因为在分享篇文章之前就有朋友告诉我，这个百度上一搜一大片，还需要你讲吗. 正如同一千个读者眼里有一千个林黛玉一样，我解释的当然是我个人自从读研到工作这么多年对机器学习的学习到应用过程的独特见解. 　　首先我们看下图了解一下机器学习在AI（Artificial Intelligence 人工智能）领域的地位.

onmouseover=	onload=	onerror=	alert()	prompt()
javascript:	<script>	</script>	confirm()	onblur=

关键词纬度
Javascript:	script	Confirm=	Onblur=	Src=
Onmouseover=	Onload=	Onerror=	alert	prompt
符号纬度
>	‘	”	*	/
=	:	（	）	<
`	\	；	<	>

playload	关键词纬度	符号维度	特征编码
<form id=”test” /><button form=”test” formaction=”javascript:alert(1)”>	javascriptalert	():”"<>	[2,7]
num=”><img src=x onerror=window.open(‘ https://www.x.com/’);>	onerror	“><’/:	[2,6]

机器学习之恶意流量检测的特征工程

背景

机器学习流程& 特征工程

代码示例

结果

相关 [机器学习流量特征] 推荐：