文本分析漫谈-分类器中的关键词提取

标签: 生产力电台 | 发表时间:2010-02-01 18:51 | 作者:liuw086 flychen50
出处:http://ugc.renren.com

作者:人人网UGC团队成员 刘威 人人网UGC团队博客

面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一。在推荐系统中,分类器是个非常重要的部分。

分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类。下图为关键词提取在分类器中的位置

text-classifer

下文简单介绍关键词提取常用的方法。

基于词频(TFIDF)统计的方法

思想:常用TFIDF计算文本特征权重,权重高的为关键词,该方法简单,效果也不错。

在实际操作中常会对文本进行聚类处理,计算文本特征权重后,先对文本向量(在聚类操作中,常用文本的句子做为向量单位)利用余弦定理计算文本相似度或距离,然后通过聚类算法,将相似文本聚类。最后在各文本类中选择关键词,合并得出最终结果。这样先通过文本相似度聚类,提高了关键词准确率。下图为k-means聚类算法过程

k-means

TFIDF:TF(term frequency)为特征在文本中出现频率,IDF(inverse document frequency文档中出现该词的频率log(D/Dw),该公式的思想是:特征权重除了和出现频率成正比外,还和文档频率成反比(如果只有文本中包含该特征,则认为该特征更能体现文本的专有特性)。

特征权重=TF*IDF。

特征权重计算方法还有:用于VSM的信息熵算法,基于增益的对TFIDF改进算法算法等。

该方法常结合聚类算法一同使用。


基于词语共现图提取方法

思想:文本中两个特征经常共现在文本的同一段落,则认为两个特征在意义上是相互关联的,共现概率越高,关联越紧密。

由此计算每个特征节点重要性,即与其他特征同现指数连乘,选取最重要的节点作为关键词。

其中最简单的特征同现指数可以用两个特征同现频率表示。

该方法在小规模文本集时并不能很好的反映特征间的关系。

因此文本集的大小会影响算法的稳定性和准确性。

co-occurrence-network

基于词语网络的方法

思想:它是词语共现图的发展,因此与同现图类似,每个特征为网络中的节点,网络的边表示特征间的关系,不同的是该算法引入了图论的模型及算法。

首先要提到最小世界网络(Small-World-Network)这个概念:具有高聚类系数,且平均路径长度短的网络。

其中图的聚类系数为所有节点的(实际边数/最多可能边数)和平均值;

图的平均路径长度即:网络图中,任意两个节点间最短路径边数的平均值。

这种网络和我们以人为节点,人与人之间关系为边,构成的现实世界具有同样的特性:聚类系数高,平均路径短。同理,该模型适用于词语网络。下图为SWN的模型图

small-world-network

在该网络中,特征即为节点,边表示除了前面说的特征同现频率外,还有jaccard系数等计算方法。网络图构建完成后,提取关键词工作即转换为对关键节点的选择。而由于我们认为词语网络是适用于SWN模型的,那关键节点即为影响SWN性质的节点。在现实世界网络中,就相当于去寻找影响社会发展的人,一个公司中的关键人物一样。

通常寻找关键节点的方法有两种,一是直接衡量节点的属性值来判断节点的重要程度,如节点的度(节点到其他节点距离和的倒数)、节点中介性指标(Betweenness Centrality:其他节点间最短路径 经过该节点的概率)等。另一种是通过衡量删除节点后,对SWN性质的破坏程度,即衡量删除节点后聚类系数和平均路径长度的变化,决定该节点的重要度。

本期就先介绍到这里,下期将对词语网络中的一些关键点进行详细介绍,敬请关注文本分析系列!

注:本文纯属个人理解,如有失误,请不吝赐教!

相关 [文本分析 分类 关键词] 推荐:

文本分析漫谈-分类器中的关键词提取

- flychen50 - UGC广播站
作者:人人网UGC团队成员 刘威 人人网UGC团队博客. 面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一. 在推荐系统中,分类器是个非常重要的部分. 分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类.

新浪微博文本分析初探

- - 统计之都
自从lijian大哥的Rweibo包问世以来,便成了R爱好者们获取新浪微博数据的最为重要的工具. 在该包的中文主页上,作者对如何连接新浪微博的API,获取授权,并以此为基础开发应用的原理讲解的非常清楚. 对于我这种连基本的网页开发神马原理都一点也不清楚的菜鸟来说,Rweibo是一种非常趁手的获取微博数据的工具.

[原]文本分析论文资料

- - Soul Joy Hub
《一揽子高效文本分类技巧》论文阅读. 计算字符串相似度在机器学习领域是一个非常基本的操作,主要用在信息检索,自然语言处理,生物信息学等领域. 本算法支持Levenshtein Distance,Longest Common SubString,String Subsequence Kernel,Cosine,simhash_hamming五种相似度计算方式.

App Store Top 1000 关键词分析

- - 标点符
做这个分析的主要目的是分析用户的搜索习惯及用户的需求方向,寻找可能的机会. 以下分析是7月初进行的,数据比较老,供参考. 在Top 1000的关键词中,82% 是品牌词,足见品牌(口碑)对应App的下载量还是非常的重要. 而另外18%的非品牌词也展现了一些打造品牌的机会(用户在该品类下还没有产生思维定势,新的App还存在一定的机会),以下为另外18%的非品牌关键词:.

官方媒体谴责新浪微博过滤关键词

- ivan - Solidot
官方媒体新华社-中国网事在腾讯微博发帖谴责新浪微博,指责新浪微博过滤关键词“达芬奇”. 中国网事称,“新浪微博为何助纣为虐. 近一段时间以来,凡是在新浪微博上发布的有关“达芬奇”的帖子都无端被“封杀”:帖子只有自己能看见,而粉丝和公屏都不显示,其中包括新华社中国网事昨日发布的有关帖子. 经过有关交涉后,该微博于12日下午六时左右暂时恢复“达芬奇”这个它们设定的敏感词.

Tango 的蛛丝马迹:关键词是诺基亚,低价…

- SotongDJ - 爱范儿 · Beats of Bits
直到今天为止,关于微软 Windows Phone 演进版本的信息仍然不多,大概的关键词是这么几个:. Mango :今年秋天的重要版本,有数百项更新,已经进入 RTM 阶段. Tango:在 Mango 之后的版本. Apollo:Windows Phone 8 的开发代号. 微软这次的习惯是,开发代号皆以“o”结尾(包括之前的 NoDo).

Google开始审查BitTorrent、RapidShare等关键词

- bubble - Solidot
Google屈从于MPAA和RIAA等的压力,开始在即时搜索和自动完成功能中审查BitTorrent、torrent、utorrent、RapidShare和Megaupload等关键词. 数周前,Google宣布它将在即时搜索和自动完成功能中过滤到与盗版相关的关键词. 26日,在没有发表正式声明的情况下它开始部署这项功能,部分地区的Google用户在搜索框内输入BitTorrent、torrent、utorrent、RapidShare和Megaupload等关键词将不会显示搜索提示.

未来互联网的六大关键词 你猜到几个?

- Googmr - cnBeta.COM
如果让你挑选六个词汇来描述互联网的未来,你会选哪几个词呢?美国《连线》杂志创办人、绰号“资深独行侠”的凯文・凯利就在年度NExTWORK技术大会上选出了他描绘互联网未来主要趋势的六大关键词,并认为互联网正在加速向视频、移动和云发展. 下面就是凯利所挑选的描述互联网未来发展趋势的六大关键词.

耶稣成Facebook万能关键词 粉丝直逼Lady Gaga

- 陆以诺 - cnBeta.COM
据国外媒体报道,知道什么是Facebook万能关键词吗. 不是明星,也不是运动员,而是――耶稣. Aaron Tabor是名医生,今年41岁. 他Facebook中“耶稣日记(Jesus Daily)”的账号专用来写耶稣语录. 他本人还有几个推销婴儿保健品的账号.