大数据时代下,如何识别垃圾信息?

标签: 行业动态 3年 中级 识别垃圾信息 | 发表时间:2022-08-16 14:14 | 作者:米可
出处:https://www.yunyingpai.com

编辑导语:大数据时代之下,信息繁杂多样,其中也充斥着大量的假话和谬论。怎么在纷繁复杂的信息里面,去伪存真,需要我们有一定的思辨能力,去识别信息中的垃圾信息。而如何识别辨别这些垃圾信息呢?本篇文章分析了如何识别垃圾信息的方法,感兴趣的话一起来看看吧。

短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都日渐以“短娱乐”的方式出现,并成为一种文化习惯。

但是这些容易传播的短视频、短信息,大量充斥着假话和谬论。

基思·斯坦诺维奇说,伪科学的传播所造成的代价是巨大的。怎么在纷繁复杂的信息里面,去伪存真,帮助自己解读判断,需要我们有一定的思辨能力,去识别信息中的垃圾信息。

一、如何识别垃圾信息?

1. 大话、空话;让人不知所云

在表达中使用一堆假大空的词汇,每个词你都认识,组合在一起也仿佛说得都对,但是就是不知道对方在说什么。比如各种黑话指南:

  • 2016年:资本寒冬、护城河、上半场、下半场、brief、知识付费、赛道、黑科技、网红、闭环。
  • 2017年:赋能、边界、共享经济、消费升级、新物种、互联网金融、ICO、区块链。
  • 2018-2019 年:打法、优化、下沉、社交电商、壁垒、流量池、组合拳、心智。
  • 2020-至今:抓手、Web 3,去中心化、底层逻辑、第一曲线、第二曲线。

并不是说只要有这些词汇,就是垃圾信息。而是表达者通过一顿组合,让你不知道所云,只有空话的,肯定是垃圾信息。比如:

这次 Campaign 我们要以价格为抓手,横向打通品类覆盖,还要提高内容可复制性,注重投放颗粒度,覆盖消费升级到下沉市场的全域流量,发力打出一套组合拳。

看完之后,一脸问号,他在说啥?

向飙说:“社会生活里有很多问题都是老问题,一定要把老问题吃透。不要制造新的词汇,没有太大的意思”。

2. 缺失的信息

之前文章《如何正确读数和更优决策》,讲了一个关于缺失数据做决策的故事。赛车队成员需要决定是否要参与一场重要的比赛。依据之前的经验,24 场比赛中有 7 场汽车引擎出现故障,故障情况和天气温度之间的关系如下图:

大数据时代下,如何识别 bullshit

图片来源于《成长边界》

团队里面大部分人的判断都是要参赛。但是当我们把缺失的比赛数据补齐时,我们看到:

大数据时代下,如何识别 bullshit

图片来源于《成长边界》

40华氏度引擎出问题的概率很高,参赛的结果可想而知。赛车队故事背后是 NASA 真实的案例。1986 年,在一次火箭发射事件中,NASA 的高层基于部分数据,对于密封火箭助推器一个连接处的 O 型圈失效可能性做出了判断。最终结果是,剧烈燃烧的气体直接从连接处冲向外部,“挑战者号”在升空 73 秒后就爆炸了,7 位宇航员全部丧生。

当有人和你阐明数据和观点的时候,你可以思考以下几个问题:

  • 谁在告诉我这些
  • 他们是如何知道的
  • 这些信息里面还有什么,还有哪些信息没有表露出

3. 错把关联当因果

还有一类经常被大家搞错的是,误把关联关系当作因果关系。

多年前,台湾地区有一个研究表明,家用电器的数量和避孕工具的使用最相关。但是你应该不会有这样的想法,在高中发放免费的烤箱以解决青年早孕的问题。因为这两个变量存在相关,但是没有因果关系。

比如你发现汽车儿童座椅销量变高,同时婴儿出生数量也在变高,是一个正相关的关系。但是不能说,因为儿童座椅销量变高了,所以导致婴儿出生率变高。这是逻辑是谬论。

导致两个变量之间产生误导性关联的第三变量,有时候很容易看出来。比如,冰淇淋卖得越多,溺水就越多。是因为吃冰淇淋的人很多,游泳的人也很多,所以溺水的人才很多。

我们在研究一个现象的时候,会带着自己的预设偏见理解为,两个相关因素是因果关系。而相关关系之所以产生,可能是因为这两个变量都与某个甚至尚未被测量的第三变量相关。

读数据的时候,当我们看到相关关系,需要继续提问或者反思,背后的原因是什么,是否还有其他可能性。

4. 小心平均值和中位数

平均数代表一个样本的平均水平。但是当你在查看平均值的时候要留意,样本里面是否有极值(极大值,极小值这些 outliers),如果有的话,平均值就会不准。此外,如果你的样本小,也容易产生更多极端的值。这个时候用中位数更合适。如下图:

大数据时代下,如何识别 bullshit

图片来源于 B 站公开课程

5. 正确理解 p 值

什么是 p 值?

我们来说一个故事。假设你是一个律师,现在法官要审判一起杀人案件,而你的辩护人被指认谋杀。但是案发时,你当事人在蛋糕房里面做蛋糕,并不在案发现场。现在你要为他辩护。

庭上法官拿出 DNA 检测报告表明,案发现场凶器上的 DNA 和你当事人 DNA 完全吻合。所以你的当事人才被指认。

作为律师你说,“等一等,法官你确定 DNA 匹配不是巧合?”

法官说,“当然,DNA 匹配概率是百万分之一。你的当事人是凶手无疑。”

你说,“别急,我们来画一个图。百万分之一的可能性表达的是所有人群里面,错误识别的可能性。但是我们这里应该要看的是,识别出来的结果里面,被误识别的可能性。”

大数据时代下,如何识别 bullshit

图片来源于 B 站公开课程

“虽然对于整体样本来说,检错概率很低,为百万分之一。但是在判断为凶手的结果里,总共 5 个人,只有 1 个是真正的凶手,其他 4 个都是误判,只有 20% 的正确率。没有办法判断我当事人就是凶手。”

这则小故事告诉你不能绝对相信 p 值。因为 p 值不是用来告诉你假设的正确性的。而是用来告诉你,在整个群体中检测错误的可能性有多大。

所以对于一个很低的 p 值,不要认为这事就肯定成立了。

6. 误导性坐标轴(misleading axes )

数据可视化可以降低看数据的难度,但是在数据以图表的方式呈现出来之后,我们也需要去关注一些细节。因为图表会给出一些诱导性的表达方式,影响我们判断。比如误导性坐标轴(misleading axes )。

以下图为例,作者给你看的图是这样的,我们会快速认为,yes 和 no 的比例是 5/5 开。但是细看我们会发现,这两个分类左边的 y 轴并不一样,根本不是 5/5 开的关系。

大数据时代下,如何识别 bullshit

图片来源于 B 站公开课程

7. 操作箱尺寸

图表也可以操控每个箱子的尺寸大小来表达他想要的意思。比如下文是华尔街一篇臭名昭著的报道。这张图乍一看中间部分的 y 值最大。

大数据时代下,如何识别 bullshit

图片来源于 B 站公开课程

但是当我们放大横坐标的时候仔细一看,会发现,横坐标根本不是等分的。从最开始的每 5k 一个间隔,到后面 5百万一个单位。

大数据时代下,如何识别 bullshit

图片来源于 B 站公开课程

8. 过度装饰

过度装饰的图被称作 data visulization ducks。ducks 原意是用在建筑领域指过度装饰的建筑。图表也是如此,好的图表不要过度装饰,过度装饰反而会失去了他本来想要表达的内容。因为 ducks 会阻碍信息的交流。

大数据时代下,如何识别 bullshit

(假新闻 & 过度装饰)图片来源于 B 站公开课程

大数据时代下,如何识别 bullshit

(画个人形,读数反而变得很困难)图片来源于 B 站公开课程

大数据时代下,如何识别 bullshit

(视觉注意力都被大汉堡和苏打水抢走了)图片来源于 B 站公开课程

大数据时代下,如何识别 bullshit

(用嘴型来表达家庭的财务安全度)图片来源于 B 站公开课程

大数据时代下,如何识别 bullshit

(非要用栅栏表达房屋价格,让人看不懂)图片来源于 B 站公开课程

大数据时代下,如何识别 bullshit

(过度装饰 & 误导性坐标轴)图片来源于 B 站公开课程

9. 科学的可复制和可重复性

‍你看到的信息能否被复制和重复,这也是结论是否科学的一个重要判断因素。要将一个研究发现认定为确凿的科学事实,它的可重复性至关重要。因为科学理论的一个重要定义就是可证伪性。

可证伪性标准声明,一个理论要有用,对其所做的预测必须是具体的。它在告诉我们哪些事情会发生的同时,必须指出哪些事情不会发生。如果不会发生的事情确实发生了,我们就得到了一个明确的信号,这个理论有问题。

越具体的预测在被证实后,给我们的触动越大。预测越具体,越精确,有可能证伪它的观察现象就越多。

只有当一个理论并不试图预知一切,而是做出具体的预测,提前告诉我们世界上会发生什么具体的事情时,该理论才会进步。

所以伪科学/信息的另外一个特征就是不可证伪。不管怎么解释它,都对的。

这些不可证伪理论有着巨大心理吸引力,其奥秘在于它们解释一切的能力。预先知道无论发生什么,你都能理解它,不仅给你一种掌握知识的感觉,而且更重要的是,给你应对这个世界所需要的情绪上的安全感。

但是这种安全感是以知识发展的停滞为代价的。比如我们常常沉迷的占星、星座解释、通灵术等。

二、最后

Steven Pink 说过:活着好过死亡,健康好过疾病,富足好过匮乏,自由好过胁迫,幸福好过苦难,知识好过迷信和无知。

在这个不确定性极高的后疫情时代,多多提高自己对信息的辨别能力,更好的生活,从驳斥垃圾信息开始。

参考资料:

《大数据时代,如何识别 bullshit》,https://www.bilibili.com/video/BV13E411s74P?spm_id_from=333.337.search-card.all.click

《The social dilemma》2020 on Youtube, https://www.youtube.com/watch?v=rvg0eY_Ls4Y

《成长边界》

《这就是心理学》

 

作者:圈圈,微信公众号:lovepm

本文由 @圈圈 授权发布于运营派。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

相关 [大数据 时代 垃圾信息] 推荐:

大数据时代下,如何识别垃圾信息?

- - 运营派
编辑导语:大数据时代之下,信息繁杂多样,其中也充斥着大量的假话和谬论. 怎么在纷繁复杂的信息里面,去伪存真,需要我们有一定的思辨能力,去识别信息中的垃圾信息. 本篇文章分析了如何识别垃圾信息的方法,感兴趣的话一起来看看吧. 短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都日渐以“短娱乐”的方式出现,并成为一种文化习惯.

Facebook主动出击,向垃圾信息说“不”

- - TECH2IPO创见
Facebook 的软件工程师 Erich Owens 和 产品经理 Chris Turirzin 在公司博客上 公布了这个消息. 看来 Facebook 也认为靠 无脑点赞、 转发重复内容、 错误的链接等拉动 Facebook 的活跃度,不是长久之计. 所以 Facebook 的工程师们主动开始了对 Facebook 用户时间线当中垃圾内容的清理工作.

移动应用流量暴增的秘密:色情与垃圾信息泛滥

- - 行业资讯
  美国《连线》杂志日前发表署名为瑞安-泰特(RyanTate)的评论文章称,垃圾信息、色情内容以及欺诈数据已逐渐成为移动应用世界中一夜暴富的捷径,而包括Viddy、SocialCam等知名公司都乐于利用这些手段为公司获取有利的数据统计,并借机“骗取”融资.    以下是文章主要内容:.   随着资金流大量流入应用程序世界,应用程序开发商开始变得越来越疑神疑鬼.

垃圾信息越来越多,但作为创业者你该知道如何从中筛选创投机会

- - IT瘾-tuicool
上周关于王宝强的头条铺天盖地,想不看到都难,再自律的人也会看到,看1篇和看100篇同样都可以知道王宝强离婚了,财产被卷跑了…但是消耗的时间却相差百倍,互联网制造了太多这样的垃圾信息占据了人们有限的时间. 但这些垃圾信息带来了问题,却也带来了更多的新的互联网创业和投资机会. 对于绝大多数精英群体,收入的增长速度是高于开销的增长速度的,这就意味着会有越来越多的闲置资金产生.

大数据告诉我们:小时代属于谁的小时代

- - i黑马
整个7月,有关《小时代》的争议都在不断发酵. 从新浪微博的“大V联合论战”( 史航、周黎明微博联手对抗《小时代》粉丝围攻)到《人民日报》发文批判,在各界对《小时代》的口诛笔伐中,处处可见“大神级”的高端黑. 对立的一边,则是《小时代》庞大粉丝群自发地持续地坚强地激烈地捍卫着他们偶像的利益. 在一片争议声中,成本仅2000万元的《小时代》获得了接近5亿元的票房(截至本刊发稿时).

大数据时代SEO数据如何搜集和分析

- - 月光博客
  在这个人人都高喊“大数据时代”的今天,数据似乎被提到一个前所未有的高度. 无论是个人站长还是大中型公司,亦或是大型跨国集团,无论是网络营销还是线下的市场营销都在意识到数据的重要性,凡是都以数据来说话. 但是,据笔者了解,在很多中小型公司和个人站长中,对于数据重视有余,却利用不足.   很多人不清楚需要搜集什么样的数据;也有的不清楚通过什么渠道来搜集数据;还有大部分不清楚搜集整理的数据如何去分析,进而也就不清楚怎么去利用这些数据.

大数据时代,让一群脑残为你选书

- - Digital Meme
(本文首发 纽约时报中文网,转载请注明. 相比于作者所著同样谈论大数据话题的 《删除:大数据取舍之道》一书,《大数据时代》结构紧密,逻辑清晰,论证过程也更为严谨. 本书在何为大数据、大数据有何典型特征、大数据的实际应用和未来以及大数据的隐忧等关键问题上,通过案例和通畅晓白的解释,梳理清楚了“大数据”这个看起来高深复杂但其实无处不在的概念.

互联网金融:大数据和技术为王的时代

- - 动点科技
(编者:本文作者李张鲁Dennis Roudenko,是青年投资家俱乐部发起人、华创资本资深分析师. 华创资本投资了10多家互联网金融公司,同时与IDG合有互联网金融投资基金,投资范围在20-2000万美金. 互联网金融本身只是一个概念,是泛指那些通过互联网和大数据手段来完成并优化的金融业务. 历来现有的机构都在尝试运用这些手段去优化自己的业务,但2012年这一领域才开始火起来是因为时机成熟了,大可归功于两大点:大数据的出现与技术的普及与应用.

数据的征服:读《大数据时代》

- - It Talks--上海魏武挥的博客 - It Talks--上海魏武挥的博客
谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字). 近日,这个工具发出警告,全美的流感已经进入“紧张”级别. 它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能够很好地帮助到疾病暴发的跟踪和处理. 事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公共健康紧急状态.

大数据时代 五大商业分析技术趋势

- - 互联网分析
目 前,趋势中心对如何应对分析挑战的关注力度并不亚于他们考虑在新商业视角中如何充分利用机遇的力度. 例如,随着越来越多的公司开始不得不面对海量数据以及 考虑如何利用这些数据,管理与分析大型不同数据集的技术开始出现. 提前分析成本与性能趋势意味着公司能够提出比以前更为复杂的问题,提供更为有用的信息以 帮助他们运营业务.