[原]为何需要可视化: 信息到智慧的升华
掌握的专业知识越多,需要学习的也越多,我承认自己懂得的还远远不够……当你坦诚自己还不懂时,才更迫切地想问为什么,才能更好地学习。
——Richard Sual Wuraman,《渴望知识2》(Information Anxiety 2)
最近有人问我,拥有怎样的特性才能更好地投身于可视化与信息图表这种事业。我的回答是:“永不满足的、孩子般的好奇心。”
好奇,趋于对任何事情都希望找出原因。正是好奇,使我从事新闻工作,而后专注于信息图表。如果你没有那种几乎对所有事情都感兴趣的高昂热情,比如,对那些怪异多变、不相关的主题,你也极其想弄明白为什么,那么,就不太可能成为一名优秀的交流者。可视化交流者的生活应该是自成体系的,是杂乱无章的有理化。就我而言,则有序地转换于新闻业、认知心理学、国际政策和历史。而你,则可能是运动、音乐、建筑或者其他的任何事情。
接下来,我举个例子说明良性好奇心可以带来多大的好处。
理性乐观派
原本我打算在这章的开头讲述几个有关信息可视化、信息设计和信息图表的正式定义,但没有这样做,一些事情改变了我的想法。一次,我随意浏览《纽约时报》(The New York Times)网站时,一篇关于《理性乐观派:一部人类经济进步史》(The Rational Optimist: How Prospersity Evolves)(2010年)的评论引起了我的注意,该书的作者是英国科学评论家Matt Ridley。
这篇评论1非常苛刻,但是Ridley提出的假设听起来很有趣。这本书配得上这个名字,它让我们对未来的生活无限憧憬。我曾经读过Ridley的其他书籍,非常喜欢他的《基因组:23章讲述物种的自传》(Genome: The Autobiography of a Species in 23 Chapters)(2006年),所以,我比较偏向于Ridley。
我的好奇心由此被引发了,非常激动,于是购买了一本。下载这本书虽然只花了1分钟,但是那天我剩余的时间全部用于阅读该书(这里需要对本书的编辑说:“我保证,这么做完全是为了让这章更完美!”)。这本书写得非常好,让我欲罢不能,想一次读完。
书中关于出生率,即各个国家的妇女平均生育孩子数的那章引起了我的关注。你应该听说过灾难预言家Malthusiam,他说过,贫穷地区的高出生率导致地球需要供养70亿的人口,并预测20年后会达到90亿,而且将来会更多。
另一名灾难预言家则关注于发达国家的人口年龄,这些国家的出生率小于2.1,该值也称为“替代率”。如果一个国家的人口替代率显著低于2.1,那么这个国家的人口将面临“缩水”。相反,如果替代率大大高于2.1,青年人的数量就会增多,这也会引起一些问题。例如,因青年人数量增加而可能引发的更多暴力和犯罪。
Ridley通过对两种有趣趋势的讨论来反驳上述两种预测。平均来看,富裕国家的出生率很低,但是最近几年,有微小的上升趋势;另一方面,贫穷国家的平均出生率正在下降。这两种趋势恰好与传统观念相反,经济即将处于领先地位的许多国家,如巴西,出生率下降显著:从1950年每位妇女生育的孩子数超过6个下降到2010年的少于2个。
基于这两种互补趋势,Ridley认为,几十年后全球各地的出生率都将趋于2.1,全球的人口数量将稳定在90亿。这个结果与直觉不符,不是吗?
Ridley的分析不无道理,其支撑数据来自联合国(UN)和世界银行2等,真实可靠。但是,我在阅读书中提供的证据时,总感觉不舒服。为此,我花费了一些时间来看清楚其中的缘由。Ridley提供了曲线和趋势,但是关于出生率和人口的那章只有一张图表,类似于图1.1。
这张图简单明了,但是却不足以支撑Ridley的见解。该图表明,从时间上看,人口增长的趋势是呈下降趋势的。越接近现在,人口增长率越低。
这张图表汇聚了全球各国的数据,但是却有碍于我们看清Ridley讨论的多种模式。
富裕国家出生率有所上升的数据在哪里?又从哪里能够看出诸如巴西、中国和印度等发展中国家的人口正趋于稳定?
之前说过,我总是充满好奇心。所以,除了用一天的时间阅读这本《理性乐观派》(The Rational Optimist),我也搜寻了书中关于人口那章使用的数据。通过这些数据,能证明作者的假设吗?
我做的第一件事是访问联合国网站。搜索“联合国数据”,你将很快找到这个网站(http://data.un.org/), 如果想查找关于人口、教育、经济和社会发展等大型数据,这里就是你要找的“天堂”。在联合国网站,我搜索了出生率数据,这些数据始于1950年,预测数据远至2100年。
忽略2010年以后的数据,我只对在此之前的真实数据(那时)进行分析。通过网站的筛选功能,我选择了联合国做过全面研究的150多个国家的数据,图1.2所示为我获得的数据表的截图。
我下载了这张数据表,准备用这些数据做一次低技术可视化练习并展示给我的学生——绝大多数为新闻工作者,而且没有技术背景——向他们说明,学习创建信息图表并不总是很难。
运用办公软件套件(包含数据表功能的一种开源软件套件),删除部分单元并对这些数据进行重组。因为要删除部分单元,所以需要一些手动调整——调整量并不大。图1.3所示为调整后的图表。
还跟着我的思路吗?现在,有趣的事情发生了。在计算机里,我们拥有了这份数据表,但是它有意义吗?几乎没有,我们很难从数据表中获取有用的信息。阅读这些数据,你能发现有趣的规律吗?如果回答是肯定的,那么恭喜你,你拥有超强的记忆力。绝大部分普通人不善于处理海量数据。不信的话,我们可以做个测试:回到图1.3,请告诉我,1950年—1975年,西班牙和瑞典的出生率在哪个时间段的差距变大, 哪个时间段的变小?
这件看似简单的事情做起来却不那么容易:看一个数据记住它,再看下一个, 记住并与前一个比较,如此循环直到最后一个数据。这是一件很麻烦的事情,我不会这样做。
但是,如果我们把这些数据做成简单的图表呢?这个结果(图1.4)就是能够帮助我们轻松回答上述问题的可视化工具。图中展示的信息非常清楚:从1950年开始,西班牙的出生率高于瑞典,1970年后,西班牙的出生率显著降低,在时间轴上的最后5年里有略微上升;另一方面,最近60年,瑞典的出生率虽然低于替代率2.1,但一直很稳定。
给数据一种合适的形貌,编码后以图表的形式展现,与未这样处理的数据表相比,分析这种图表将节省更多的时间和精力。
任何图表与可视化的首要和最终目的是作为协助我们的眼睛和大脑发掘现象背后隐藏信息3的一种工具。
显然,与展示100个国家的数据相比,再现两个国家的数据非常容易,这就是我们在判断Matt Ridley的一些观点时可能需要做的。如果把所有国家的数据信息都展示在图中,结果则与图1.5类似。这些意大利面条般的彩色线条看起来可能有趣,但是于我们的目的无用。这张图仅仅用一个软件就可以实现。
记住,我们想要寻找的是这些线条出现(代表富裕国家出生率有所上升的线条和代表贫穷国家出生率有所降低的线条)在2.1左右的预计交汇处。如果研究图1.5的时间足够长,可能会发现一些规律,但是你更多会选择放弃。
要解决这个问题,可以给这些混乱的线条加入可视化层级关系。显然,不能让所有线条的可视化程度一样,否则没有任何意义。
在信息图表中,展示的与被隐藏的同样重要。
我通过Adobe Illustrator打开这张利用办公软件生成的图表,对代表少数富裕国家和发展中国家的线条进行彩色高亮显示。
对于代表其他国家的线条,我采用灰度显示,这些数据仍然保留可见但是并不会模糊信息。为什么不丢掉这些灰度信息?因为它们为重点显示的信息提供依托。
如果所有的背景线条都采用一种颜色,就不可能分别以个体看待它们。这些线条整体呈现下降的趋势——你会发现,始端1950年,许多国家的出生率为6.0~8.0,2010年时,只有少数国家的出生率仍然保持在这个数值范围。与图1.5相比,图1.6看起来更加清晰明了。
带着对这些发现的兴奋,我分析了《理性的乐观者》的其他论断。Ridley认为, 一个国家出生率的突然降低受几个因素影响:人均收入的增加、女性受教育程度的提高和婴幼儿死亡率的降低。事实上,婴幼儿死亡率的降低和女性受教育程度的提高都与越来越好的家庭规划有关。
从经济方面讲,Ridley认为,在富裕国家,空闲时可做的选择很多,而且需要投入的财力和精力相对较少。现代社会让我们关注更多,从毫无控制的传宗接代任务中获得解放,尽管只是部分的。我们可以用一种非科学的说法来解释这种现象: 一对夫妇生育孩子的平均数与他们关注其他任何事情花费的平均时间成反比。这可不是开玩笑的。
为了弄清楚出生率、收入及女性受教育程度间的关系,我在同一数据表中作了两张离散点图。如图1.7所示,图中每个点代表一个国家,横轴代表出生率,纵轴代表人均收入(第1张小图)和中学女生的比例(第2张小图)。
图中的黑色曲线为趋势线或回归线:离散点距离这条曲线越近,纵横轴两个变量间的关系越紧密。你会发现,有些点与这条曲线非常吻合,所以,纵横轴两个变量是紧密相关的。总地来说,在某个国家,家庭越富裕,孩子越少;中学女生的比例越小,孩子越多。
从这个实践中我得到的经验是:完成这个项目仅仅花了3~4个小时,通过该项目我找到了那些支撑Matt Ridley关于出生率演变规律的证据。当然,他的假设也存在一些偏差。
但是,如果没有把数据展示给读者,让读者看见它们、阅读它们并进行挖掘和分析, 他们又怎会相信你?
这是许多新闻工作者,尤其是那些评论者更应该经常思考的问题。
为何将数据转换成图表
刚才的例子并非我随意选择的。它有助于深入一些主题,这些主题对于我们理解图表作为一种交流形式的现状必不可少。我们能够读懂图表,并且利用它们发现肉眼不能看见的其他事实,这难道不神奇吗?二三十年前,心理学揭示了许多涉及这种理解方式的大脑机制。另一个思考:是否注意到,我使用的数据都是可以从互联网上免费得到的?所以,我用来证明Matt Ridley论断的方法适用于每个人,而且只需几个小时就可以学会,这不是很棒吗?
这3种趋势的汇集把可视化推向主流。10年前,数据量小、软件贵而且难用的时候,图表设计并不大众化。目前,指导设计的法则还未清晰明朗,所以,我们具有这种潜能,可以利用更加科学的方法发挥图表的作用。
研究图表与可视化还需要更多的投入。引用国际数据公司(IDC)的研究,《经济学家》(The Economist)报道,仅2010年的信息量就达到了1 200EB4,相当于著名英国杂志上成千上万个数10亿的议题。也就是说,现在存储的所有数字信息已经达到了几个ZB。我们面临的挑战到底有多大,以下说明可以帮助你理解。
1bit,二进制位,计算机存储信息的基本单位,代表0或1
1B=8bit(1B:编码一个字母或数字需要的信息量)
1KB=1 000B
1MB=1 000KB=1 000 000B(106)
1GB=1 000MB=1 000 000 000B(109)
1TB=1 000GB=1 000 000 000 000B(1012)
1PB=1 000TB=1 000 000 000 000 000B(1015)
1EB=1 000PB=1 000 000 000 000 000 000B(1018)
1ZB=1 000EB=1 000 000 000 000 000 000 000B(1021)
1YB=1 000ZB=1 000 000 000 000 000 000 000 000B(1024)
是不是很困惑?不用着急,你不只是一个人,还有我们。1YB的信息量是巨大的,根本就难以想象。2010年8月,Google的前任CEO Erich Schmidt在一次会议上宣布,有史以来到2003年,粗略估计的数据量已经达到了5EB,而今,我们每两天就会产生这么大的数据量。
Schmidt说过:“信息膨胀的速度比任何人想象的都要快得多。”5EB比以DVD存储的200 000年的视频信息数据量还要多5。
确切地说,并非所有“信息”都是人们交谈中所谓的信息。信息绝大部分来自计算机、手机和其他设备间的通信,以及设备本身处理需要而自动产生的,这些信息对人类而言没有任何意义,但也是信息。
该议题到此为止,我们接着看后面的内容。
信息到智慧的升华
20世纪70年代,互联网还未全球化的前几年,北卡罗莱纳州的建筑学专家Richard Saul Wurman曾经预测,随着信息膨胀,必将产生一种新的专业领域来实现数据重组并让这些数据变得有意义。Wurman认为,我们人类面临的最大挑战是,如何应对即将来临的数据风暴。
Wurman将这些人称为信息架构师,其他人对信息架构学定义如下。
-
z共享信息环境的结构设计。
-
组织、标记、搜索、网站和内部网间导航系统的结合。
-
具有可用性和查找功能,能够塑造信息产品和经验的艺术和科学。
-
将设计与构建法则应用于数字范畴的一种新的学科和实用体系。
Wurman认为,信息架构学的主要目的是帮助用户远离信息焦虑,即“数据与知识间的黑洞”。
对于如何掌握那些以纳秒级速率更新的知识,人们仍然感到焦虑……
我们已经懂得的和我们认为应该懂得的之间的缺口越来越大,信息焦虑由此而生。
图1.8展示了这种缺口。基于DIKW(Data、Information、Knowledge、Wisdom) 模式,图中分解了Wurman法则中的两个极端因子。虽然该模式被认为过于简单和模糊7,但是有助于解释可视化与图表。
图中,未构建信息代表现实,即外部世界极其错综复杂的事物。能够感知或者检测到的任何现象都可以称为信息。
数据是对观测现象的记录,可以编码成描述并代表现实的符号(数字和文字等)。未构建信息和数据之间存在第一次编码。假如,一名研究员正在研究出生率,数据就是电子数据表中的记录,如2、5、6、2、2、2、1、1、4、3、3(这些数字代表每位妇女生育的孩子数)等。
第二次编码将我们从数据带至构建后的信息。当一名交流者(研究员、新闻工作者或其他人士)用文本、图形或其他方式表达数据时,该过程发生。也可以说,这名交流者将数据成形,使相关模式呈现。
通过对这些模式或数据的感知和理解,读者的知识可以得到提升。这不是一个被动的过程,我们的大脑并非像硬盘那样随意存储信息。当人们看到、读到或听到的时候,会把这些内容与曾经的记忆和经验关联起来。
当我们对得到的知识进行更深层次的理解时,当我们结合之前的经验和新的信息并类推运用于其他情形而不只是“得到”时,甚至是仅仅与我们的原始知识相关时,我们便到达了智慧这一层次。正如并非所有得到的信息都可以变成知识一样,不是所有的知识都可以转变为智慧。
图表中的每一步都是逐级上升的次序。面对这个世界时,我们无意识地强行组织那些眼睛看见并传递给大脑的未构建信息。我们运用层级关系,而不是一次感知所有的眼前事物,这在后续内容中将进一步说明。举例说明,运动的事物之所以比静止的更吸引我们的注意力,是因为运动的事物可能预示更大的威胁。因此,相对于其他,我们更关心运动的事物及其位置。我们的大脑首先关注运动的事物,至于为什么也许连我们自己都不知道。
著名的技术哲学家Kevin Kelly在其著作《科技需要什么》(What Thechnology Wants)(2010年)中说过:“思想就是对现实信息的高度提炼。当我们说理解了,就是那个意思,它的产生是有次序的。”
所以,大脑总是无意地拉近现象与那些有助于我们生存的知识或智慧间的关系。这就是所谓的认知能力。
信息架构师的作用就是,在人们自己处理信息前参与这个过程并给他们提供一种步骤和方法。
现实可视化
现今,信息架构师有泛指的和专业的,他们采用的工具和理论大相径庭。除了学术界,信息架构师可以是编写技术手册的人员,也可以是软件工程师、网页设计师、导航设计师(当然,这是一名专业人员,试想,谁能轻易地创建那些难以驾驭的公共空间?),还有那些仅仅因为有趣而制作出生率图表的人士都可以是信息架构师。
所有这些专家的共同目的都是为了帮助读者更容易地认识这个世界,如此宏伟的目标用一个框架来实现是不大可能的。本书的目的就是,把信息图表与可视化作为信息架构的一种形式。但是,怎样才能更加准确地描述分支与主干间的关系呢?
如图1.9所示,把信息架构学看做一个大圆圈,圈内是用于处理信息的定律集合。最相关的定律之一是斯坦福大学Robert E.Horn提出的信息设计,定义为“人们能够有效地用于信息处理的艺术与科学8”。信息设计者的目的是准备文档(包括模拟的和数字的)和空间以便于轻松驾驭。
信息设计的一个重要部分是信息图表与可视化。学术著作有时将信息图表从可视化中分离出来,并将后者定义为“支持计算机、交互式的数据可视化表达并放大感知的一种应用9”。我倾向于著名西班牙设计专家Joan Costa更直接的说法,可视化就是“让一些现象或现实可见并且易懂;这些现象大多是肉眼观察不到的,有些甚至不具备可见性10。”
为何Costa加入可见性非必要?因为图表既可以采用模拟的形式展示,也可以采用非模拟的形式。何为模拟?想象一张按比例绘制的地理图,或指导你如何使用新洗衣机的手册,或一张关于飞机坠毁的信息图表,如图1.11所示。这张大图来自Público,一个中等规模的西班牙新闻社,其编辑部虽小却不乏天才。
另外一些展示抽象现象的图表属于非模拟类。在这些图表中,描述和被描述之间不存在模拟,二者之间的关系是约定俗成的,而非本然(如图1.10所示)。失业率根本不是方形的彩色格子,不是吗?
可视化是一种技术
首先,我要向大家介绍一个重要观念:可视化应该被看成是一种技术。这听起来可能有些奇怪。说起技术,通常我们会想到这样一些设备:MP3、汽车、冰箱、电动牙刷、割草机和计算机等。这些设备有何共性?我指的并不是它们本身,而是内在本质。
1.是我们自身的外延。半个世纪之前,加拿大传媒思想家 Marshall Mcluhan首次提出这个概念。不是徒手,而是在割草机的帮助下花园变得整洁;电动牙刷可以清洗那些连牙签都不能解决的齿间缝隙——顺便说一下,牙签也是一种技术产品;MP3不仅仅是一个播放器,它还帮助我们记住那些承载着美好或悲伤记忆的歌曲。
2.是实现目的的方法和手段。有时是一个目的——冰箱保持食物新鲜——也可以是几个目的。如计算机,其功能取决于安装的软件等其他技术。一种技术还可以嵌入另一种技术。
作为技术,可视化也具有这些特征。其实,技术一词本来就有多种意思,其解释是开放的。这里,我引用W. Brian Arthur的著作《技术的本质》(The Nature of Technology)(2009年)中的意思。从该书可知,我们可以从3个层次来理解技术一词,如图1.12所示。
Arthur的意思是,技术首先是辅助完成任务的任何事物、过程或方法,即“一种达到目的的方法和手段”。这就是技术个体,前面提到的冰箱等设备都属于技术个体。运行软件的算法,以及交流使用的字母、句子和段落都是技术个体,甚至一个微小的钉子也是技术个体。
技术群体是“实例与部件的集合”,也就是技术个体的组合,而且这些个体组合在一起能够形成新的东西。电子系、生物化学及各种工程学都是技术群体,W. Brian Arthur也将技术群体称为“技术组合体”。
技术的第3层含义是“一种文明拥有的设备与工程实践的全体组合”,即技术全体。
信息图表与可视化之间是怎样的关系?首先,作为新起的学科,其形成仍然借鉴了其他领域的概念、方法和工序,这些领域包括:地图设计原则(来自制图学),运用图表展示数据的指导方针(来自统计学),巧用字体、布局和色彩的规则(来自图表设计),以及写作风格原则(来自新闻学)等,此外,还包括大量软件工具。
第二,也是更重要的,独立的信息图表也是技术,是实现目的的方法,是帮助读者完成相关任务的设备。这是显而易见的,后文会具体说明。如果你认同可视化首先是一种工具,也就说明你同意它所归属的学科不仅仅是艺术,也是实用艺术,其表现的美感并非源自画家或雕刻家的任意主观发挥,而归因于工程师仔细的思考和受限的斟酌。
《不只是美:信息图表设计原理与经典案例》汇集了大量信息图表与可视化的实践案例。
主要内容包括:
为什么应该将数据可视化称为“实用艺术”;
如何巧用颜色、类型和图形工具,让信息图表更加实用有效,而不仅仅是美观;
大脑感知和记忆信息的科学原理;
创作交互式信息图表的最佳案例实践;
来自全球顶尖设计师和视觉大师、最具启发性的经典之作赏析。
专家推荐
“欢迎来到Aberto的世界。在这本书中,Cairo囊括了可视化的所有内容:理论、实践和具体案例。关于现实世界的信息图表,这本书讲述得非常清晰易懂;而且今后很长一段时间,我们不再需要另外一本类似的书籍。”
——Nigel Holmes,解释型图表创始人、《时代》杂志前任图表总监
人邮IT书坊ID:ptpressitbooks