4.Spark特征提取、转换和选择 - 简书

id	texts
0	Array("a", "b", "c")
1	Array("a", "b", "b", "c", "a")

id	texts	vector
0	Array("a", "b", "c")	(3,[0,1,2],[1.0,1.0,1.0])
1	Array("a", "b", "b", "c", "a")	(3,[0,1,2],[2.0,2.0,1.0])

id	raw
0	[I, saw, the, red, baloon]
1	[Mary, had, a, little, lamb]

id	raw	filtered
0	[I, saw, the, red, baloon]	[saw, red, baloon]
1	[Mary, had, a, little, lamb]	[Mary, little, lamb]

id	category
0	a
1	b
2	c
3	a
4	a
5	c

id	category
0	a
1	b
2	c
3	a
4	a
5	c

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0
3	a	0.0
4	a	0.0
5	c	1.0

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0
3	a	0.0
4	a	0.0
5	c	1.0

id	category
0	a
1	b
2	c
3	d

id	category
0	a
1	b
2	c
3	d

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0

id	category	categoryIndex
0	a	0.0
1	b	2.0
2	c	1.0

id	categoryIndex
0	0.0
1	2.0
2	1.0
3	0.0
4	0.0
5	1.0

id	categoryIndex
0	0.0
1	2.0
2	1.0
3	0.0
4	0.0
5	1.0

id	categoryIndex	originalCategory
0	0.0	a
1	2.0	b
2	1.0	c
3	0.0	a
4	0.0	a
5	1.0	c

id	categoryIndex	originalCategory
0	0.0	a
1	2.0	b
2	1.0	c
3	0.0	a
4	0.0	a
5	1.0	c

id1	vec1	vec2
1	[1.0,2.0,3.0]	[8.0,4.0,5.0]
2	[4.0,3.0,8.0]	[7.0,9.0,8.0]
3	[6.0,1.0,9.0]	[2.0,3.0,6.0]
4	[10.0,8.0,6.0]	[9.0,4.0,5.0]
5	[9.0,2.0,7.0]	[10.0,7.0,3.0]
6	[1.0,1.0,4.0]	[2.0,8.0,4.0]

id1	vec1	vec2	interactedCol
1	[1.0,2.0,3.0]	[8.0,4.0,5.0]	[8.0,4.0,5.0,16.0,8.0,10.0,24.0,12.0,15.0]
2	[4.0,3.0,8.0]	[7.0,9.0,8.0]	[56.0,72.0,64.0,42.0,54.0,48.0,112.0,144.0,128.0]
3	[6.0,1.0,9.0]	[2.0,3.0,6.0]	[36.0,54.0,108.0,6.0,9.0,18.0,54.0,81.0,162.0]
4	[10.0,8.0,6.0]	[9.0,4.0,5.0]	[360.0,160.0,200.0,288.0,128.0,160.0,216.0,96.0,120.0]
5	[9.0,2.0,7.0]	[10.0,7.0,3.0]	[450.0,315.0,135.0,100.0,70.0,30.0,350.0,245.0,105.0]
6	[1.0,1.0,4.0]	[2.0,8.0,4.0]	[12.0,48.0,24.0,12.0,48.0,24.0,48.0,192.0,96.0]

id	v1	v2
0	1.0	3.0
2	2.0	5.0

id	v1	v2	v3	v4
0	1.0	3.0	4.0	3.0
2	2.0	5.0	7.0	10.0

id	hour	mobile	userFeatures	clicked
0	18	1.0	[0.0, 10.0, 0.5]	1.0

id	hour	mobile	userFeatures	clicked	features
0	18	1.0	[0.0, 10.0, 0.5]	1.0	[18.0, 1.0, 0.0, 10.0, 0.5]

id	hour
0	18.0
----	------
1	19.0
----	------
2	8.0
----	------
3	5.0
----	------
4	2.2

id	hour	result
0	18.0	2.0
----	------	------
1	19.0	2.0
----	------	------
2	8.0	1.0
----	------	------
3	5.0	1.0
----	------	------
4	2.2	0.0

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]

userFeatures	features
[0.0, 10.0, 0.5]	[10.0, 0.5]
["f1", "f2", "f3"]	["f2", "f3"]

id	country	hour	clicked
7	"US"	18	1.0
8	"CA"	12	0.0
9	"NZ"	15	0.0

id	country	hour	clicked	features	label
7	"US"	18	1.0	[0.0, 0.0, 18.0]	1.0
8	"CA"	12	0.0	[0.0, 1.0, 12.0]	0.0
9	"NZ"	15	0.0	[1.0, 0.0, 15.0]	0.0

id	features	clicked
7	[0.0, 0.0, 18.0, 1.0]	1.0
8	[0.0, 1.0, 12.0, 0.0]	0.0
9	[1.0, 0.0, 15.0, 0.1]	0.0

id	features	clicked	selectedFeatures
7	[0.0, 0.0, 18.0, 1.0]	1.0	[1.0]
8	[0.0, 1.0, 12.0, 0.0]	0.0	[0.0]
9	[1.0, 0.0, 15.0, 0.1]	0.0	[0.1]

- -

在实际机器学习项目中，我们获取的数据往往是不规范、不一致、有很多缺失数据，甚至不少错误数据，这些数据有时又称为脏数据或噪音，在模型训练前，务必对这些脏数据进行处理，否则，再好的模型，也只能脏数据进，脏数据出. 这章我们主要介绍对数据处理涉及的一些操作，主要包括：. 特征提取一般指从原始数据中抽取特征.

Spark-mllib 文本特征提取算法 - CSDN博客

- -

Spark MLlib 提供三种文本特征提取方法，分别为TF-IDF、Word2Vec以及CountVectorizer，. 词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示，文档由d表示，语料库由D表示. 词频TF(t,,d)是词语t在文档d中出现的次数.

scikit-learn中的文本特征提取

- - 标点符

文本分析是机器学习算法的主要应用领域. 由于大部分机器学习算法只能接收固定长度的数值型矩阵特征，导致文本字符串等并不能直接被使用，针对此问题scikit-learn提供了将文本转化为数值型特征的方法，今天就一起来学习下. scikit-learn中的sklearn.feature_extraction.text提供了将文本转化为特征向量的工具：.

【图像分析】低层次特征提取

- - CSDN博客推荐文章

本节主要介绍提取低层次特征信息的方要方法. 在有些情形下，这些信息对理解图是足够的. 但是，低层次特征提取函数的目的通常是为更高级分析提供信息. 用于边界，角点和运动提取的方法，非常具有Robustness以及性能特久所必备的特性. 低层次特征是不需要任何形状/空间关系的信息就可以从图像中自动提取的基本特征，如：常用地阈值方法就是作为点处理的一种低层次特征提方式.

浅谈模式识别中的特征提取

- - CSDN博客综合推荐文章

这两天一直在看深度学习的东西，看的头晕脑胀，不过晕乎归晕乎，感觉对模式识别中的特征提取有了更深一点的小理解，暂时记载下来. 　　突然觉得，模式识别的所有问题都绕不过两个关键门槛，第一是分类器，第二便是特征提取. 而且几乎所有模式识别方面的研究都是在优化这两个问题，要么是造一个更牛的分类器，要么是找出一些表现力更高的特征形式.

图像处理之特征提取 - 简书

- -

目前火热的 Deep Learning 会灭绝传统的 SIFT / SURF 特征提取方法吗. 由于之前研究过SIFT和HOG这两种传统的特征提取方法，故本篇文章先对SIFT和HOG作一综述，并比较二者优缺点. 之后，将SIFT和HOG同神经网络特征提取做一对比，浅谈对上述问题的看法. 如果能写得快一些，再简单介绍其他几种传统的特征提取的方法——SURF、ORB、LBP、HAAR等等.

Spark概览

- - 简单文本

Spark具有先进的DAG执行引擎，支持cyclic data flow和内存计算. 因此，它的运行速度，在内存中是Hadoop MapReduce的100倍，在磁盘中是10倍. 这样的性能指标，真的让人心动啊. Spark的API更为简单，提供了80个High Level的操作，可以很好地支持并行应用.

我本人是类似Hive平台的系统工程师，我对MapReduce的熟悉程度是一般，它是我的底层框架. 我隔壁组在实验Spark，想将一部分计算迁移到Spark上. 年初的时候，看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性. 但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了.

Spark迷思

- - ITeye博客

目前在媒体上有很大的关于Apache Spark框架的声音，渐渐的它成为了大数据领域的下一个大的东西. 证明这件事的最简单的方式就是看google的趋势图：. 上图展示的过去两年Hadoop和Spark的趋势. Spark在终端用户之间变得越来越受欢迎，而且这些用户经常在网上找Spark相关资料. 这给了Spark起了很大的宣传作用；同时围绕着它的也有误区和思维错误，而且很多人还把这些误区作为银弹，认为它可以解决他们的问题并提供比Hadoop好100倍的性能.

Spark 优化

- - CSDN博客推荐文章

提到Spark与Hadoop的区别，基本最常说的就是Spark采用基于内存的计算方式，尽管这种方式对数据处理的效率很高，但也会往往引发各种各样的问题，Spark中常见的OOM等等. 效率高的特点，注定了Spark对性能的严苛要求，那Spark不同程序的性能会碰到不同的资源瓶颈，比如：CPU，带宽、内存.

4.Spark特征提取、转换和选择 - 简书

4.1 特征提取

4.1.1 词频－逆向文件频率（TF-IDF）

4.1.2 Word2Vec

4.1.3 计数向量器

4.2 特征转换

4.2.1分词器

4.2.2 移除停用词

4.2.3 n-gram

4.2.4 二值化

4.2.5 主成分分析

4.2.6 多项式展开

4.2.7 离散余弦变换

4.2.8 字符串－索引变换

4.2.9 索引－字符串变换

4.2.10 独热编码

4.2.11 向量－索引变换

4.2.12交互式

4.2.13正则化

4.2.14规范化(StandardScaler)

4.2.15最大值－最小值缩放

4.2.16最大值－绝对值缩放

4.2.17离散化重组

4.2.18元素乘积

4.2.19 SQL转换器

4.2.20向量汇编

4.2.21分位数离散化

4.3 特征选择

4.3.1 向量机

userFeatures

4.3.2 R公式

4.3.3 卡方特征选择

4.4 小结

相关 [spark 特征提取 选择] 推荐：

相关文章

订阅

相关 [spark 特征提取选择] 推荐：