TextRank算法提取关键词和摘要 - 小昇的博客 | Xs Blog

标签: textrank 算法 关键词 | 发表时间:2017-10-20 09:15 | 作者:
出处:http://xiaosheng.me

提到从文本中提取关键词,我们第一想到的肯定是通过计算词语的TF-IDF值来完成,简单又粗暴。但是由于 TF-IDF 的结构过于简单,有时提取关键词的效果会很不理想。

本文将介绍一个由 Google 著名的网页排序算法PageRank改编而来的算法——TextRank,它利用图模型来提取文章中的关键词。

PageRank

PageRank 是一种通过网页之间的超链接来计算网页重要性的技术,以 Google 创办人 Larry Page 之姓来命名,Google 用它来体现网页的相关性和重要性。PageRank 通过网络浩瀚的超链接关系来确定一个页面的等级,把从 A 页面到 B 页面的链接解释为 A 页面给 B 页面投票,Google 根据 A 页面(甚至链接到 A 的页面)的等级和投票目标的等级来决定 B 的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

整个互联网可以看作是一张有向图图,网页是图中的节点,网页之间的链接就是图中的边。如果网页 A 存在到网页 B 的链接,那么就有一条从网页 A 指向网页 B 的有向边。

构造完图后,使用下面的公式来计算网页 $i$ 的重要性(PR值):

$d$ 是阻尼系数,一般设置为 0.85。$In(V_i)$ 是存在指向网页 $i$ 的链接的网页集合。$Out(V_j)$ 是网页 $j$ 中的链接指向的网页的集合。$|Out(V_j)|$ 是集合中元素的个数。PageRank 需要使用上面的公式多次迭代才能得到结果。初始时,可以设置每个网页的重要性为 1。

TextRank

TextRank 公式在 PageRank 公式的基础上,为图中的边引入了权值的概念:

$w_{ij}$ 就是是为图中节点 $V_i$ 到 $V_j$ 的边的权值 。$d$ 依然为阻尼系数,代表从图中某一节点指向其他任意节点的概率,一般取值为0.85。$In(V_i)$ 和 $Out(V_i)$ 也和 PageRank 类似,分别为指向节点 $V_i$ 的节点集合和从节点 $V_i$ 出发的边指向的节点集合。

在 TextRank 构建的图中,默认节点就是句子,权值 $w_{ij}$ 就是两个句子 $S_i$ 和 $S_j$ 的相似程度。两个句子的相似度使用下面的公式来计算:

分子是在两个句子中都出现的单词的数量,$|S_i|$是句子 i 中的单词数。

使用 TextRank 算法计算图中各节点的得分时,同样需要给图中的节点指定任意的初值,通常都设为1。然后递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时就可以达到收敛,一般该极限值取 0.0001。

使用 TextRank 提取关键词

现在是要提取关键词,如果把单词视作图中的节点(即把单词看成句子),那么所有边的权值都为 0(两个单词没有相似性),所以通常简单地把所有的权值都设为 1。此时算法退化为 PageRank,因而把关键字提取算法称为 PageRank 也不为过。

我们把文本拆分为单词,过滤掉停用词(可选),并只保留指定词性的单词(可选),就得到了单词的集合。假设一段文本依次由下面的单词组成:

如果我们设定窗口大小为 $k$,那么 $[w_1,w_2,…,w_k]$、$[w_2,w_3,…,w_{k+1}]$、$[w_3,w_4,…,w_{k+2}]$ 等都是一个窗口。

现在将每个单词作为图中的一个节点,同一个窗口中的任意两个单词对应的节点之间存在着一条边。然后利用投票的原理,将边看成是单词之间的互相投票,经过不断迭代,每个单词的得票数都会趋于稳定。一个单词的得票数越多,就认为这个单词越重要。

例如要从下面的文本中提取关键词:

程序员(英文Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。

对这句话分词,去掉里面的停用词,然后保留词性为名词、动词、形容词、副词的单词。得出实际有用的词语:

程序员, 英文, 程序, 开发, 维护, 专业, 人员, 程序员, 分为, 程序, 设计, 人员, 程序, 编码, 人员, 界限, 特别, 中国, 软件, 人员, 分为, 程序员, 高级, 程序员, 系统, 分析员, 项目, 经理

现在建立一个大小为 9 的窗口,即相当于每个单词要将票投给它身前身后距离 5 以内的单词:

开发=[专业, 程序员, 维护, 英文, 程序, 人员]
软件=[程序员, 分为, 界限, 高级, 中国, 特别, 人员]
程序员=[开发, 软件, 分析员, 维护, 系统, 项目, 经理, 分为, 英文, 程序, 专业, 设计, 高级, 人员, 中国]
分析员=[程序员, 系统, 项目, 经理, 高级]
维护=[专业, 开发, 程序员, 分为, 英文, 程序, 人员]
系统=[程序员, 分析员, 项目, 经理, 分为, 高级]
项目=[程序员, 分析员, 系统, 经理, 高级]
经理=[程序员, 分析员, 系统, 项目]
分为=[专业, 软件, 设计, 程序员, 维护, 系统, 高级, 程序, 中国, 特别, 人员]
英文=[专业, 开发, 程序员, 维护, 程序]
程序=[专业, 开发, 设计, 程序员, 编码, 维护, 界限, 分为, 英文, 特别, 人员]
特别=[软件, 编码, 分为, 界限, 程序, 中国, 人员]
专业=[开发, 程序员, 维护, 分为, 英文, 程序, 人员]
设计=[程序员, 编码, 分为, 程序, 人员]
编码=[设计, 界限, 程序, 中国, 特别, 人员]
界限=[软件, 编码, 程序, 中国, 特别, 人员]
高级=[程序员, 软件, 分析员, 系统, 项目, 分为, 人员]
中国=[程序员, 软件, 编码, 分为, 界限, 特别, 人员]
人员=[开发, 程序员, 软件, 维护, 分为, 程序, 特别, 专业, 设计, 编码, 界限, 高级, 中国]

然后开始迭代投票,直至收敛:

程序员=1.9249977,
人员=1.6290349,
分为=1.4027836,
程序=1.4025855,
高级=0.9747374,
软件=0.93525416,
中国=0.93414587,
特别=0.93352026,
维护=0.9321688,
专业=0.9321688,
系统=0.885048,
编码=0.82671607,
界限=0.82206935,
开发=0.82074183,
分析员=0.77101076,
项目=0.77101076,
英文=0.7098714,
设计=0.6992446,
经理=0.64640945

可以看到“程序员”的得票数最多,因而它是整段文本最重要的单词。我们将文本中得票数多的若干单词作为该段文本的关键词,若多个关键词相邻,这些关键词还可以构成关键短语。

使用 TextRank 提取摘要

自动摘要,就是从文章中自动抽取关键句。人类对关键句的理解通常是能够概括文章中心的句子,而机器只能模拟人类的理解,即拟定一个权重的评分标准,给每个句子打分,之后给出排名靠前的几个句子。基于 TextRank 的自动文摘属于自动摘录,通过选取文本中重要度较高的句子形成文摘。

依然使用 TextRank 公式:

等式左边表示一个句子的权重(WS 是 weight_sum 的缩写),右侧的求和表示每个相邻句子对本句子的贡献程度。与提取关键字的时候不同,一般认为全部句子都是相邻的,不再通过窗口提取

边的权值 $w_{ij}$ 代表句子 $S_i$ 和 $S_j$ 的相似度,既可以使用上面介绍过的基于句子间内容覆盖率的方法计算,也可以使用基于编辑距离,基于语义词典,余弦相似度,BM25 算法等等。

因为我们是要抽取关键句,因而是以句子为基本单位。使用 TextRank 提取摘要的整个过程如下:

  1. 预处理:将文本分割成句子 $S_1,S_2,\cdots,S_m$,以句子为节点构建图。
  2. 计算句子相似度:对句子进行分词、取停用词等处理,以便于计算任意两个句子之间的相似度。将计算好的句子相似度作为两个句子构成的边的权值。
  3. 句子权重:根据公式,迭代传播权重计算各句子的得分。
  4. 抽取文摘句:得到的句子得分进行倒序排序,抽取重要度最高的 N 个句子作为候选文摘句。
  5. 形成文摘:根据字数或句子数要求,从候选文摘句中抽取句子组成文摘。

开源项目

  • 乐天使用 Python 编写的TextRank4ZH,可以用来从文本中提取关键词和摘要(关键句)。
  • Hankcs 使用 Java 编写的全功能汉语言处理包HanLP,提供了“TextRank关键词提取”和“TextRank自动摘要”的功能。
  • 啊哈自然语言处理包AHANLP,句子之间的相似程度使用 Word2Vec 提供的函数计算。

参考

维基百科《佩奇排名》

乐天《使用TextRank算法为文本生成关键字和摘要》

Hankcs《TextRank算法提取关键词的Java实现》

Hankcs《TextRank算法自动摘要的Java实现》

flystarhe《TextRank探索与实践》

bbking《TextRank 自动文摘》

    相关 [textrank 算法 关键词] 推荐:

    NLP----关键词提取算法(TextRank,TF/IDF)

    - - IT瘾-geek
    参考书目:python自然语言处理实战——核心技术与算法. 基本思想:TF是计算一个词在一篇文档中出现的频率,IDF是一个词在多少篇文档中出现过,显然TF越高证明这个词在这篇文章中的代表性就越强,而INF越低则证明这个词在具有越强的区分能力. 因此中和这两个数,就能较好地算出文档的关键词. |D_i|是文档中出现词i的文档数量,|D|是文档数.

    TextRank算法提取关键词和摘要 - 小昇的博客 | Xs Blog

    - -
    提到从文本中提取关键词,我们第一想到的肯定是通过计算词语的TF-IDF值来完成,简单又粗暴. 但是由于 TF-IDF 的结构过于简单,有时提取关键词的效果会很不理想. 本文将介绍一个由 Google 著名的网页排序算法PageRank改编而来的算法——TextRank,它利用图模型来提取文章中的关键词.

    关键词权重计算算法:TF-IDF

    - - 标点符
    TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术. TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度. 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降.

    关键词抽取算法的研究 | 吴良超的学习笔记

    - -
    分词–>过滤停止词,得到候选关键词–>从候选关键词中选出文章的关键词. 从候选关键词中选出文章的关键词需要通过关键词抽取算法实现,而关键词抽取算法可以根据是否需要人工标注的语料进行训练而分为有监督的提取和无监督的提取. 有监督的提取需要人工标注的语料进行训练,人工预处理的代价较高. 而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取,因此适用性较强.

    App Store Top 1000 关键词分析

    - - 标点符
    做这个分析的主要目的是分析用户的搜索习惯及用户的需求方向,寻找可能的机会. 以下分析是7月初进行的,数据比较老,供参考. 在Top 1000的关键词中,82% 是品牌词,足见品牌(口碑)对应App的下载量还是非常的重要. 而另外18%的非品牌词也展现了一些打造品牌的机会(用户在该品类下还没有产生思维定势,新的App还存在一定的机会),以下为另外18%的非品牌关键词:.

    官方媒体谴责新浪微博过滤关键词

    - ivan - Solidot
    官方媒体新华社-中国网事在腾讯微博发帖谴责新浪微博,指责新浪微博过滤关键词“达芬奇”. 中国网事称,“新浪微博为何助纣为虐. 近一段时间以来,凡是在新浪微博上发布的有关“达芬奇”的帖子都无端被“封杀”:帖子只有自己能看见,而粉丝和公屏都不显示,其中包括新华社中国网事昨日发布的有关帖子. 经过有关交涉后,该微博于12日下午六时左右暂时恢复“达芬奇”这个它们设定的敏感词.

    Tango 的蛛丝马迹:关键词是诺基亚,低价…

    - SotongDJ - 爱范儿 · Beats of Bits
    直到今天为止,关于微软 Windows Phone 演进版本的信息仍然不多,大概的关键词是这么几个:. Mango :今年秋天的重要版本,有数百项更新,已经进入 RTM 阶段. Tango:在 Mango 之后的版本. Apollo:Windows Phone 8 的开发代号. 微软这次的习惯是,开发代号皆以“o”结尾(包括之前的 NoDo).

    Google开始审查BitTorrent、RapidShare等关键词

    - bubble - Solidot
    Google屈从于MPAA和RIAA等的压力,开始在即时搜索和自动完成功能中审查BitTorrent、torrent、utorrent、RapidShare和Megaupload等关键词. 数周前,Google宣布它将在即时搜索和自动完成功能中过滤到与盗版相关的关键词. 26日,在没有发表正式声明的情况下它开始部署这项功能,部分地区的Google用户在搜索框内输入BitTorrent、torrent、utorrent、RapidShare和Megaupload等关键词将不会显示搜索提示.

    文本分析漫谈-分类器中的关键词提取

    - flychen50 - UGC广播站
    作者:人人网UGC团队成员 刘威 人人网UGC团队博客. 面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一. 在推荐系统中,分类器是个非常重要的部分. 分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类.