文本分析漫谈-分类器中的关键词提取
作者:人人网UGC团队成员 刘威 人人网UGC团队博客
面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一。在推荐系统中,分类器是个非常重要的部分。
分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类。下图为关键词提取在分类器中的位置
下文简单介绍关键词提取常用的方法。
基于词频(TFIDF)统计的方法
思想:常用TFIDF计算文本特征权重,权重高的为关键词,该方法简单,效果也不错。
在实际操作中常会对文本进行聚类处理,计算文本特征权重后,先对文本向量(在聚类操作中,常用文本的句子做为向量单位)利用余弦定理计算文本相似度或距离,然后通过聚类算法,将相似文本聚类。最后在各文本类中选择关键词,合并得出最终结果。这样先通过文本相似度聚类,提高了关键词准确率。下图为k-means聚类算法过程
TFIDF:TF(term frequency)为特征在文本中出现频率,IDF(inverse document frequency)文档中出现该词的频率log(D/Dw),该公式的思想是:特征权重除了和出现频率成正比外,还和文档频率成反比(如果只有文本中包含该特征,则认为该特征更能体现文本的专有特性)。
特征权重=TF*IDF。
特征权重计算方法还有:用于VSM的信息熵算法,基于增益的对TFIDF改进算法算法等。
该方法常结合聚类算法一同使用。
基于词语共现图提取方法
思想:文本中两个特征经常共现在文本的同一段落,则认为两个特征在意义上是相互关联的,共现概率越高,关联越紧密。
由此计算每个特征节点重要性,即与其他特征同现指数连乘,选取最重要的节点作为关键词。
其中最简单的特征同现指数可以用两个特征同现频率表示。
该方法在小规模文本集时并不能很好的反映特征间的关系。
因此文本集的大小会影响算法的稳定性和准确性。
基于词语网络的方法
思想:它是词语共现图的发展,因此与同现图类似,每个特征为网络中的节点,网络的边表示特征间的关系,不同的是该算法引入了图论的模型及算法。
首先要提到最小世界网络(Small-World-Network)这个概念:具有高聚类系数,且平均路径长度短的网络。
其中图的聚类系数为所有节点的(实际边数/最多可能边数)和平均值;
图的平均路径长度即:网络图中,任意两个节点间最短路径边数的平均值。
这种网络和我们以人为节点,人与人之间关系为边,构成的现实世界具有同样的特性:聚类系数高,平均路径短。同理,该模型适用于词语网络。下图为SWN的模型图
在该网络中,特征即为节点,边表示除了前面说的特征同现频率外,还有jaccard系数等计算方法。网络图构建完成后,提取关键词工作即转换为对关键节点的选择。而由于我们认为词语网络是适用于SWN模型的,那关键节点即为影响SWN性质的节点。在现实世界网络中,就相当于去寻找影响社会发展的人,一个公司中的关键人物一样。
通常寻找关键节点的方法有两种,一是直接衡量节点的属性值来判断节点的重要程度,如节点的度(节点到其他节点距离和的倒数)、节点中介性指标(Betweenness Centrality:其他节点间最短路径 经过该节点的概率)等。另一种是通过衡量删除节点后,对SWN性质的破坏程度,即衡量删除节点后聚类系数和平均路径长度的变化,决定该节点的重要度。
本期就先介绍到这里,下期将对词语网络中的一些关键点进行详细介绍,敬请关注文本分析系列!
注:本文纯属个人理解,如有失误,请不吝赐教!