文本数据的价值

标签: 图书推荐 | 发表时间:2013-02-04 11:40 | 作者:baiyuzhong
出处:http://www.programmer.com.cn

文/Bill Franks

当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果赌场老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。

我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术却是相同的。而且,不同行业还可以使用相同的大数据源。大数据并非只有单一的用途,它的影响将会非常深远。

文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在,电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。

文本分析一般会从解析文本开始,然后将各种单词、短语以及包含文本的部分赋予语义。我们可以通过简单的词频统计,或更复杂的操作来进行文本分析。自然语言处理中已经有很多诸如此类的分析了,这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的组成部分。此外,我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基于规则的方法,用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习和其他算法自动地发现数据模式。每种方法都各有利弊,其相关论述已经超出了本书的范围。我们关心的是如何使用生成的结果,而不是使用工具产生结果的过程。

做完文本解析和分类以后,我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出结果通常是其他分析流程的输入。例如,如果能够分析出客户使用电子邮件的情感,就能利用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据,可以作为分析流程的输入。使用非结构化的文本创建结构化的数据,这个过程通常称为信息提取。

另一个例子是,假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价,我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标,可以用来做分析。上述这些例子解释了如何捕获非结构化数据片段,并从中提取出相关的结构化数据。

文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。

解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。

文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪音或含义模糊时,这一点也成立。

使用文本数据

一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。

  • 公司或产品的口碑怎么样?
  • 大家正在讨论的是公司的哪些活动?
  • 大家对公司、产品和服务的评价是好是坏?

如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服互动信息的趋势,这会对规划下一步的工作有很大的价值。

如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息可以让我们知道要说服这名客户购买该产品的难易程度。

文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到困难时的焦躁情绪。

欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加速处理,同时将更多的资源投入高风险的投诉中。

法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例如,哪些电子邮件中有隐藏的内幕消息?哪些人在和别人交流时说的是假话?威胁背后的实质是什么?

在法律案件中应用文本分析的做法称为电子侦察。所有预先进行的分析将帮助起诉获得成功。不使用文本分析,仅通过人工的方式将无法浏览所有的所需文档。即使我们可以做到人工浏览那些文档,但因为任务本身过于单调枯燥,我们很可能会漏掉其中的一些关键信息。

文本数据可能会对所有的行业都产生影响。它可能是如今使用最广泛的一类大数据。对企业来讲,掌握如何收集、解析和分析文本是很重要的。文本是我们必须驾驭的一种大数据源。

Bill Franks,是Teradata公司全球合作伙伴计划的首席分析专家,他负责跟踪研究分析领域的前端趋势,帮助客户理解Teradata和其分析合作伙 伴如何为客户创造价值。Bill还负责管理Teradata与SAS合作成立的业务分析创新中心,并专注于帮助客户获得创新分析能力。此外,Bill负责 制定Teradata公司在高级分析领域的战略与定位。

本文节选自《驾驭大数据》一书。 Bill Franks 著,黄海、车皓阳、王悦 等译,由人民邮电出版社出版发行。


 

相关 [文本 数据 价值] 推荐:

文本数据的价值

- - 技术改变世界 创新驱动中国 - 《程序员》官网
文/Bill Franks. 当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒. 如果赌场老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动. 如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙. 我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术却是相同的.

大数据如何发挥大价值?

- - 《商业价值》杂志
大数据时代,CIO的竞争优势从信息技术转变为围绕客户体验、数据分析、流程管理领域,让数据发挥大价值. 全球每秒钟发送2900万封电子邮件,推特上每天发布 5000万条消息;亚马逊每天产生 630万笔订单;Google每天需要处理24PB 的数据……. 海量数据的处理,以及如何用数据创造更大的价值,给CIO们提出了更多的挑战.

【观点】大数据的四个价值

- - SocialBeta
大数据是当今热门的话题,对于大数据很多人提出过这样那样的观点,那么大数据到底是什么,能够给我们带来怎样的价值呢. 瑞意趋势CEO 梁海宏来和大家做一下解读. 数量巨大,情境微观结合的运行记录信息最终的结果就是大数据. 尽管运行记录信息不是大数据的全部,但却应该是以后大数据的主流. 目前我们看到的金融、电信、航空、电商、零售渠道等领域中的大数据,多数也都是运行记录信息.

运营数据价值如何发掘

- - 人人都是产品经理
运营以产品为基础,数据为参考,活动为主要手段. 产品因人而异,各有不同;但是数据不一样,数据具有统一性,规范性,那么咱们在聊数据的时候,必须先知道,数据可以干什么. 可以告诉我们用户有多少、他们喜欢玩什么、喜欢做什么. 好的运营工作以数据为参考切入点,又以数据为参考审核点,那么数据价值如何发掘. (1)平均同时在线人数(ACU: Average concurrent users):即在一定时间段抓取一次数据,以一定周期为期限;周期内的ACU可取时间段的平均数据.

大数据的价值密度

- - Parallel Labs
注:原文刊载于《程序员》2014年第5期,略有删改. 在大数据和云计算如火如荼的今天,怎样将数据的商业价值变现成为各位老板和技术男们最关心的问题. 马云经常讲,我不懂技术,所以我才要发力做云计算,做大数据. 相信马总一定因为看到了云计算和大数据的潜在商业价值才做出上述决定的. 在各位大佬争相跑马圈地的年代,各大公司都开始占领数据源头,从构建自己线上应用的生态圈入手,将用户的数据牢牢掌握在自己手中,以期望将来能从这些数据中挖掘出“潜在”的商业价值,例如在2014年风生水起的互联网金融行业就是其中典型.

数据就是最有价值的资产

- - 《商业价值》杂志
大数据蕴藏着丰富的信息和价值,如何运用好大数据,发挥数据资产的商业价值,这是大数据时代最核心的挑战. 我们生活在一个信息爆炸时代. 据IDC的预测,2012年的数字化内容将增长到2.7ZB,较2011年增长48%. 至2015年,数字化内容将以火箭式的速度逼近8ZB. 在大数据方面,IDC预测超过90%的数据将是非结构化数据(例如图像、视频、MP3音乐文件、以及其他基于社交媒体的文件和在Web上进行的工作).

实现挖掘大数据价值的三大因素

- - 行业应用 - ITeye博客
很多公司都在探索如何挖掘大数据的价值,但有一类公司不得不擅长做这项工作,那就是:数据分析提供商. 这些公司的商业模式决定了其必须能够有效、持续地提供客户愿意买单的数据产品和服务.   下面将分享一家伟大的数据分析提供商- ComScore,如何通过3个关键因素(一个便捷、可扩展的平台,一支深悟数据分析的员工团队,以及对客户的深刻理解)来实现对大数据价值的挖掘.

BAT金融大数据体系拆解与价值挖掘

- - 虎嗅网
金融创新很大一部分原因在于大数据和金融之间的结合. 纵观BAT、京东、小米、万达、平安这些把触角伸到互联网金融领域的巨头,无一不是在大数据层面上有所布局. 大数据和金融相结合,几乎已经成为金融领域的通用做法. 谈数据必须先谈数据的完整度和价值含量. 就像煤矿一样,大数据中的价值含量、挖掘成本比数量更为重要.

GNU Recutils 1.6 发布,文本数据库

- - 开源中国社区最新新闻
GNU Recutils 1.6 发布,增加对联合查询和外键的支持,支持字段分组和排序,重写了字段表达式的规则,支持聚合函数,改进了 emacs 模式,完善了用户手册等等. GNU Recutils 是一组工具和开发包用来访问名为 recfiles 的文本数据库. recfile 包含了顺序记录的数据结构,rec格式支持数据集成和记录描述 (keys, mandatory fields, field types, etc.) ,可用来存储一些简单的中等规模的数据.

[How-To]如何将社交反馈转化为有价值的商业数据?

- - SocialBeta
本文译者张宇,博晓通科技联合创始人,研究垂直搜索应用,关注社交媒体发展,注重语义技术落地,喜欢社交数据分析. 微博交流 @inter3i社交媒体分析. 您或许已经建立了公司级的Facebook网页和Twitter账号,组建了一只社交媒体队伍来开始激发互动,并且现在你有不错的受众参与关于你的品牌交流.