浅谈模式识别中的特征提取

标签: 模式识别 特征提取 | 发表时间:2015-05-25 00:04 | 作者:u013088062
出处:http://blog.csdn.net

      这两天一直在看深度学习的东西,看的头晕脑胀,不过晕乎归晕乎,感觉对模式识别中的特征提取有了更深一点的小理解,暂时记载下来。

  突然觉得,模式识别的所有问题都绕不过两个关键门槛,第一是分类器,第二便是特征提取。而且几乎所有模式识别方面的研究都是在优化这两个问题,要么是造一个更牛的分类器,要么是找出一些表现力更高的特征形式。

  然而这个问题再最近几年变得不那么明朗了,分类器的研究不用多说,从刚开始的K近邻分类器,贝叶斯分类器,到曾经风靡一时的SVM,再到目前处在浪潮之巅的DeepLearning(谷歌大脑主要就是用的这个,与其说是分类器,这应该更倾向于特征提取),分类器越来越复杂,性能越来越高。特征提取呢,大致也是如此。但存在这样一个问题,就是对经典的模式分类问题,比如指纹识别,文字识别等等,有规矩可循,特征提取自然举足轻重(角点,拐点之类的);但对于那些更抽象、更智能、更拟人的模式分类问题,比如美丽度识别、警觉度识别、表情识别等等,我们用什么特征来描述它们呢?特征提取充当什么样的角色?

  其实对于没搞过模式识别或者是模式识别的初学者来说,这的确值得思考。做惯了传统的识别,再去研究美丽度、表情、警觉度这些抽象的东西,确实有点不适应。究其原因,就是找不到实实在在的东西去描述美丽度、表情、警觉度这些抽象的概念,提不到特征,分类识别自然也就无从谈起。

  难道抽象形式的分类问题无从解决了吗?这个命题显然是错的,但提不到特征怎么解决呢?这就是问题的关键,不是提不到特征,只是提取不到客观的、可见的、可衡量的特征。按照稀疏表示人脸识别的先驱Ma Yi的观点:“图像本身是图像内容信息表示最冗余、也是最全面的存在”,也就是说,图像本身就是特征的存在。换句话说,感觉实在提取不到特征了,那就千拳归一路,把图像本身直接送给分类器去吧。

  用分类器直接处理图像本身,看似鲁莽,其实蕴藏着真正至简的大道理。每种特征都有自身的局限性,都是有意突出图像某些方面的特征,简化甚至忽略别的方面的特征,导致的最终结果就是信息的丢失。Gabor特征搞人脸识别效果好,但它直接忽略了整体的亮度特征,那白人和黑人怎么办?所以只要能提去出具体的、客观实在的特征,就不可避免的存在着信息的丢失,那些丢失的次要信息,对于某些问题的影响可以忽略(如指纹识别、文字识别),但对有些主观问题的影响却是不可估量的。总之,这种机械的选择特征来替代原图像,是机器的思维方式,不是人的思维方式。

  当今对于那些无法用具体特征描述的分类问题,存在两种主流的处理方式,要么干脆直接把图像送给分类器去,这是稀疏表示问题(Ma Yi在文章《Robust Face Recognition via Sparse Representation》中证实稀疏表示分类器的人脸识别性能对特征选择的依赖程度很小);要么然机器自己去学习该用那些特征,机器根据样本自己决定特征的取舍,这更是一种类人的智能化的做法,这也就衍生出了当今如火如荼的东西:深度学习(Deep Learning),名噪一时的谷歌大脑就是这样弄出来的。换句话说,如果不能判断解决一个识别问题应该用哪些特征,那就让机器自己去找好了。就好像支持向量机一样,既然人工找不到最优的分类超平面,就让机器自己去映射,自己去找。恰巧的是,人的大脑也是这么干的。

  总之,在当今这个面向数据的年代,特征选择这个任务越来越不适合人工来做了,典型费力不讨好的工作,让机器自己去找,更符合人的思维。但特征提取是不存在了吗?不是的,因为Deep Learning就是在提特征,只不过让机器自己来做。

作者:u013088062 发表于2015/5/24 16:04:27 原文链接
阅读:59 评论:0 查看评论

相关 [模式识别 特征提取] 推荐:

浅谈模式识别中的特征提取

- - CSDN博客综合推荐文章
      这两天一直在看深度学习的东西,看的头晕脑胀,不过晕乎归晕乎,感觉对模式识别中的特征提取有了更深一点的小理解,暂时记载下来.   突然觉得,模式识别的所有问题都绕不过两个关键门槛,第一是分类器,第二便是特征提取. 而且几乎所有模式识别方面的研究都是在优化这两个问题,要么是造一个更牛的分类器,要么是找出一些表现力更高的特征形式.

scikit-learn中的文本特征提取

- - 标点符
文本分析是机器学习算法的主要应用领域. 由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题scikit-learn提供了将文本转化为数值型特征的方法,今天就一起来学习下. scikit-learn中的sklearn.feature_extraction.text提供了将文本转化为特征向量的工具:.

【图像分析】低层次特征提取

- - CSDN博客推荐文章
本节主要介绍提取低层次特征信息的方要方法. 在有些情形下,这些信息对理解图是足够的. 但是,低层次特征提取函数的目的通常是为更高级分析提供信息. 用于边界,角点和运动提取的方法,非常具有Robustness以及性能特久所必备的特性. 低层次特征是不需要任何形状/空间关系的信息就可以从图像中自动提取的基本特征,如:常用地阈值方法就是作为点处理的一种低层次特征提方式.

Spark-mllib 文本特征提取算法 - CSDN博客

- -
Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer,. 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示. 词频TF(t,,d)是词语t在文档d中出现的次数.

4.Spark特征提取、转换和选择 - 简书

- -
在实际机器学习项目中,我们获取的数据往往是不规范、不一致、有很多缺失数据,甚至不少错误数据,这些数据有时又称为脏数据或噪音,在模型训练前,务必对这些脏数据进行处理,否则,再好的模型,也只能脏数据进,脏数据出. 这章我们主要介绍对数据处理涉及的一些操作,主要包括:. 特征提取一般指从原始数据中抽取特征.

图像处理之特征提取 - 简书

- -
目前火热的 Deep Learning 会灭绝传统的 SIFT / SURF 特征提取方法吗. 由于之前研究过SIFT和HOG这两种传统的特征提取方法,故本篇文章先对SIFT和HOG作一综述,并比较二者优缺点. 之后,将SIFT和HOG同神经网络特征提取做一对比,浅谈对上述问题的看法. 如果能写得快一些,再简单介绍其他几种传统的特征提取的方法——SURF、ORB、LBP、HAAR等等.