【读书笔记】-- 文本可视化研究综述

标签: 读书 笔记 文本 | 发表时间:2013-11-19 04:04 | 作者:zhang__tianxu
出处:http://blog.csdn.net

1、一些背景

1.1 文本可视化简介

文本可视化技术综合了文本分析、数据挖掘、数据可视化、计算机图形学、人机交互、认知科学等学科的理论和方法,为人们 理解复杂的文本内容、结构和内在的规律等信息的有效手段。

1.2文本可视化作用和重要性

问题

海量信息使人们处理和理解的难度日益增大,传统的文本分析技术提取的信息仍然 无法满足人们利用浏览及筛选等方式对其进行合理的分析理解和应用

作用

将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,同时向人们提供与视觉信息进行快速交互的功能,使人们能够利用与生俱来的视觉感知的并行化处理能力 快速获取大数据中所蕴含的的关键信息

重要性

文本可视化涵盖了信息收集、数据预处理、知识表示、视觉呈现和交互等过程。

其中,数据挖掘和自然语言处理等技术充分发挥计算机的自动处理能力,将无结构的文本信息自动转换为可视的有结构信息。

而可视化呈现使人类视觉认知、关联、推理的能力得到充分的发挥。

因此, 文本可视化有效的结合后了机器智能和人工智能,为人们更好的理解文本和发现知识听过了新的有效途径。


2文本可视化的基本框架:

2.1文本分析

文本可视化依赖于自然语言处理,因此词袋模型、命名实体识别、关键词抽取、主题分析、情感分析等是较常用的文本分析技术。

文本分析的过程主要包括

(1)特征提取,通过分词、抽取、归一化等操作提取出文本词汇及的内容;

(2)利用特征构建 向量空间模型(vector space model,VSM)并进行降维,以便将其呈现在低维空间,或者利用 主题模型处理特征;

(3)最终以灵活有效的形式表示这些过程处理过的数据,以便进行 可视化呈现和交互

2.2可视化对象类型

(1)信息图

文本内容的视觉编码主要涉及尺寸、颜色、形状、方位、文理等; 文本间关系的视觉编码主要涉及网络图、维恩图、树状图、坐标轴等。

文本可视化的一个重要任务

选择合适的视觉编码呈现文本信息的各种特征:例如词频通常由字体的大小表示,不同的命名实体类别用颜色加以区分。

(2)交互

便于用户能够通过可视化有效地发现文本信息的特征和规律,通常会根据使用的场景为系统设置一定程度的交互功能。

交互方式类型:

高亮(highlighting)、缩放(zooming)、动态转换(animated transitions)、关联更新(brushing and linking)、焦点加上下文(focus+context)等。

3文本可视化典型的方法和方案

3.1方案一、文本内容

如何快速获取文本内容的重点,快速理解文本的大体内容

方法一、基于词频的可视化

思路:将文本看成词汇的集合(词袋模型),用词频表现文本特征

计算方法:TFIDF

可视化形式:标签云(tag cloud)

标签云将关键词按照一定的顺序和规律排列,如频度递减、字母顺序等,并以文字的大小代表词语的重要性。

应用:广泛用于与报纸、杂志等传统媒体和互联网,甚至T恤等实物中。

类型:

(1)一行一行水平排列

(2)词语布局遵循严格的条件,文字间的空隙得以充分利用

Wordle:


(3)文字轮廓

Tagxedo:


(4)上下文信息卡

DocumentCard

方法二、基于词汇分布的可视化

思路:反映词频在文本中的命中位置

计算方法:词汇做索引

可视化形式:TitleBars

应用:查询任务中快速了解文本内容与查询意图的相关度

3.2方案二、文本关系

理解文本内容和发现规律

方法一、文本内在关系

思路:反映文本内在结构和语义关系

可视化形式:

(1)网络图

应用:呈现命名实体在同一文本的同现关系

(2)后缀树(suffix tree)

应用:查询词的上下文关系

Word Tree:

NETAPANK:用此方法

应用:展现文本集中常见上下文关系,帮助写作时选用词汇

(3)链路图

Phrase Net:

应用:呈现文本中命名实体的从属关系、并列关系等。

(4)径向空间填充:

FanLens

应用:呈现命名实体的层次关系

DocuBurst

应用:呈现词语在Wordnet中的上下位关系,及词频

方法二、文本外在关系

思路:反映文本间的引用关系、网页的超链关系等直接关系以及主题相似性等潜在关系(一般基于聚类算法用来呈现主题分布,并展示与特定主题相关的关键词,主要应用于信息检索、主题检测、话题演变等方面)

可视化形式:

(1)网络图

应用:对文本集的引用关系

网络节点代表文本,有向线代表引用关系

(2)FP-tree

应用:展现文献共引关系,便于领域研究

比CiteSpace这种传统网络图可视化方案呈现文献更为细致的信息

(3)标签云改造

呈现由jaccard系数计算出的聚类结果,同行同主题,相邻行主题相似


插播:

文本主题分析除了基于统计的方法之外还有基于特征降维的方法

(1)高维SVM表示文本

(2)投影将高维特征向量投影到2D,3D能表示的维数

降维方式:

a、基于奇异值分解(singular value decomposition,SVD)的潜在语义索引(latent semantic indexing,LSI)

b、主成分分析(principal component analysis,PCA)

c、对应分析(correspondence analysis,CA)

d、多维尺度分析(multidimensional scaling,MDS)

e、基于人工神经网络的自组织映射图网络(self-organizating map,SOM)

特征降维的可视化:

(1)文本地图

(2)标签云

ProjCloud:

用k-means算法聚类,用标签云展示相似文本和此类关键词集合

(3)嵌套长方形(分层次可视化)

解决降维过程信息丢失,带来的可视化缺乏扩展性

长方形的方向表示层次的变化,大小表示重要程度,图形复杂,文本标签缺乏可读性

news map

展示新闻文本

Map of the Market

展示股票市场的概览

ThemeCrowds

与标签云结合展示主题的层次关系及主题关键词

(4)力导向图(force-directed placement,FDP)

InfoSky

生成层次聚类树聚类信息的分层级展示

3.3方案三、多层面信息

结合信息的多个方面帮助用户更深层的理解文本数据发现其中的规律,特别是包含时间关系的文本

方法一、时间与其他信息结合的可视化

思路:时间信息提供文本内容变化、数据规律的信息

可视化形式:

(1)引入时间轴,信息按时间顺序排列

(2)标签云与时间结合

a、词语下引入折线图,表示词语使用频度的变化

SparkCloud:

b、标签云上标上不同颜色和图形

c、时间折线图,时间点标签云,折线图上值越大表示此时刻的标签云标签越多


(3)叠式图(stacked graph)

每层代表一个事物,以颜色区分,粗细代表频度

a、ThemeRiver

做了平滑和堆叠处理

 MemTracker

b、ThemeRiver扩展

NewsRiver,VisualBackchannel

跟踪博客,微博,twitter的变化

TIARA结合标签云

通过主题分析技术(Latent Dirichlet allocation,LDA)抽取文本主题融入ThemeRiver,并在每层上显示关键词

c、Tag River

河流结合标签云

d、TextFlow

河流+主题的产生,分流合并

e、EventRiver

f、History Flow

文档内容随时间变化

(3)、螺旋图

文本信息的周期性变化

多层次螺旋图还可以对比不同数据集

(4)、动态呈现包含时间的数据

TwitterScope

地图形式呈现twitter内容,并以颜色区分不同主题,内容会随着时间动态消失、融合

Streamit

以动画的形式从左到右实时地呈现文本的聚合和分化

(5)结合时间空间信息

信息在监测Twitter上的突发事件并显示在地图上

信息在twitter上的传播过程和规律

Whisper:

TwitterMood

以颜色表示心情,显示情绪的变化

方法二、其他多层信息的可视化

(1)parallel Tag Cloud

结合标签云和常用于多维数据展示的平行坐标轴

(2)FacetAtlas

两种糖尿病,红色表示相似并发症,绿色表示相似症状

(3)Jigsaw、FeatureLens、ASE

通过协同展示多个视角


4、总结

(1)常见文本分析技术及可视化方式


(2)常见文本可视化方式的核心算法


5、评价

(1)可用性测试(usability testing):用户使用反馈,指导设计

(2)可用性检查(usability inspection):专家检查,测试技术细节

(3)个案研究(case study):应用场景得到研究结论

(4)对比测试:对比主客观数据

题录:唐家渝, 刘知远, 孙茂松. 文本可视化研究综述[J]. 计算机辅助设计与图形学学报, 2013, 25(3): 273-285.


张天旭_IR&TM研究组每周总结(4)-文本可视化-13-11-16

[email protected];[email protected]

思考:总结的比较全面、系统。毕设的综述可视化部分就靠它了

作者:zhang__tianxu 发表于2013-11-18 20:04:00 原文链接
阅读:112 评论:0 查看评论

相关 [读书 笔记 文本] 推荐:

【读书笔记】-- 文本可视化研究综述

- - CSDN博客云计算推荐文章
文本可视化技术综合了文本分析、数据挖掘、数据可视化、计算机图形学、人机交互、认知科学等学科的理论和方法,为人们 理解复杂的文本内容、结构和内在的规律等信息的有效手段. 海量信息使人们处理和理解的难度日益增大,传统的文本分析技术提取的信息仍然 无法满足人们利用浏览及筛选等方式对其进行合理的分析理解和应用.

《精力管理》读书笔记-1

- 黎明 - 战隼的学习探索
这本书是我前几天阅读的,这是当时的阅读记录:. #每天一本书#,70天,2011年2月25日,阅读书籍《精力管理》这本书的理念不错,但内容水分很大. 但这个理论正好给自己的时间管理观点和规划做个补充,评价3.5分. 时间管理应该根据自己的精力进行安排和调整,周期性地补充精力,来平衡精力消耗. 需要对你的精力进行海战略性的规划和应用,并把它当成一种习惯.

分享读书笔记 Data Mining Concepts and Techniques

- redhobor - BlogJava-首页技术区
Data Mining涵盖的内容非常多,学着学着就走进乱石阵,看不到大的picture了,Data Mining Concepts and Techniques是本经典的好书,虽然有些细节并不详尽,(如果详尽就变成圣经了)可以用它来把data mining的知识点结成一张网. 它包括数据的预处理,frequent patterns,decision tree, netural network, regression, clustering, time series等等很多方面.

读书笔记:少有人走的路

- zhoujg - 博客园-周金根
       记得好像是五六年前在公司投稿后得到一本书,这本书叫做《少有人走的路》. 当时看了一下,简单翻阅之后发现看不下去了,于是一直搁置着. 后来有同事知道我有这本书,她们想我借阅,并且说是听别人介绍才知道这本书的. 我也不知道她们后来得了之后有什么感受,反正还给我之后我还是放着. 这本书于是就静静的在我这个搁置了好几年.

云计算读书笔记(二)

- Gabriel - 博客园-首页原创精华区
google云计算服务包括:google文件系统GFS,分布式计算编程模形MapReduce,分布式锁服务Chubby,分布式结构化数据表Bigtable,分布式存储系统Megastore以及分布式监控系统Dapper等. GFS提供了海量数据的存储和访问能力. 分为三类角色,client(客户端),Master(主服务器)和Chunk Server(数据块服务器).

《思维导图》读书笔记

- Spectrophobia. - 读书笔记
今天分享的图书《思维导图》英国著名心理学家东尼·博赞在研究大脑的力量和潜能过程中,发现伟大的艺术家达·芬奇在他的笔记中使用了许多图画、代号和连线. 他意识到,这正是达芬奇拥有超级头脑的秘密所在. 在此基础上,博赞于19世纪60年代发明了思维导图这一风靡世界的思维工具. 这本书中过于夸大思维导图的作用而且废话过多,没有必须细读.

读书笔记 - How Google Test Software

- - CSDN博客研发管理推荐文章
(《谷歌如何测试软件》)的确为神秘谷歌公司揭开一层面纱,讲到了谷歌的代码文化和测试文化,讲到了角色划分,职责划分,测试种类划分,讲到优秀的不同角色的人应该具有什么样子的,讲到测试的创新和工具,还有大量的人物访谈. 这里的笔记主要包含:个人感兴趣的,值得备忘的,需要后续关注的东西记录.

《百问知识管理》读书笔记

- - 海涛的成长碎碎念
当时是为了买给妹子买 @秋叶 的大项目售前的那本书的,为了凑单免运费顺手把这本书也扔到了购物车里面,这也算是真爱了,支持大叔的同时还不忘支持下大叔的红颜知己,整本书大概花了两趟地铁的时间加上晚上睡觉前的一个多小时的时间看完的,不是很厚的一本很实用的工具手册. 公司部门在年中开会的时候提到了知识管理这块的一些东西,因为之前我一直在做个人知识管理的一些东西,业界除了一些企业知识管理的内容,所以部门知识管理这块就交给我在负责了,因为对企业知识管理大多了解都是理论上的,实践性的东西还真没怎么做过,还是有点发虚的,读完这本书算是松了口气.

《精益创业》读书笔记

- - CSDN博客推荐文章
        创业的过程是否可以总结、规范、提炼出共性和成功的方法. 《精益创业》无疑是这样的一本书,书中提到的很多创业观点其实平时我也领悟过,但是能以书面、可描述的语言总结出来,这是作者的厉害之处.         精益创业 (Lean Startup) 总结起来就是用3个动词驱动3个名词的轮回迭代过程:IPD -> BML ,即: .

《营养品的真相》读书笔记(1)

- Xiaoxi - 牛博山寨 编辑推荐
今天把我前段时间看的《营养品的真相》的阅读心得分享,本书的作者是营养学家布赖恩•克莱门特医生,书中书中的核心内容也就一二句话:在全世界销售的所谓天然营养补充品实际上都是在制药业的实验室里人工合成制造出来的,服用的结果是,它们对你的身体只有毒化作用. 所以现在应该尽量食用蔬果,谷物,最好是有机的,然后得搜寻安全产生的营养补充剂.