漫谈大数据平台安全风险与建设

标签: 数据安全 大数据 平台安全 | 发表时间:2019-12-28 08:00 | 作者:superhuawei
出处:https://www.freebuf.com

上篇文章【 漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设。

大数据平台安全伴随着大数据平台而生。随着互联网和大数据应用的普及,新闻头条上发布的数据泄露、滥用、诈骗层出不穷,引发了一系列发人深思的社会事件和问题。

本文主要分三个部分:

1)大数据发现面临的安全挑战

2)大厂大数据安全实践

3)总结

本文以大数据发展面临的安全挑战开篇。

一、大数据发现面临的安全挑战

(1)传统安全保护手段失效:大数据应用使用开放的分布式计算和存储框架来提供海量数据分布式存储和计算服务。新技术、新架构、新型攻击手段带来新的挑战,使得传统的安全保护手段暴露出严重的不足。

(2)大数据平台安全机制缺陷:Hadoop生态架构在设计初期对用户身份鉴别、访问控制、密钥管理、安全审计等方面考虑较少,并且大数据应用中多采用第三方开源组件,对这些组件缺乏严格的测试管理和安全认证。

(3)数据应用访问控制难度大:有在大厂工作经验的人都知道,数据应用有报表类、运营类、取数类等等,各类数据应用通常要为不同身份和目的的用户提供服务,在身份鉴别、访问控制、审计溯源上都带来了巨大的挑战。

(4)数据量大、潜在价值高,极易成为攻击目标:大数据平台处理环节多,需要针对数据采集、传输、存储、处理、交换和销毁等生命周期各阶段进行安全防护,在不同阶段采取适合的安全技术保护机制。

(5)数据滥用或伪脱敏风险增长:随着数据挖掘、机器学习、人工智能等学科领域技术研究的深入,数据滥用情况加剧。并且很多公开说明脱敏或者匿名处理的数据,有可能分析出对应的真实明细信息。

(6)数据所有者权限问题突显:数据共享和流通是大数据发展的关键,但是在很多大数据应用场景中,存在数据所有权不清晰的情况,例如:数据挖掘分析人员会对原始数据进行处理,分析出新的数据,这些数据的所有权到底属于原始数据所有方还是数据挖掘方,这个问题还很多场景下还没有定论。

(7)大数据安全法规标准不完善:不论是在公司内部还是国家范围内,大数据应用的使用促进了经济的发展,数据价值的最大化。然而要推进大数据健康发展,要加强政策、监管、法律的统筹协调,加快法律法规建设。

二、大厂大数据安全实践

看到上述如此多的挑战。大家是不是对大厂的大数据安全实践充满了好奇,废话不多说,下面直插主题:

2.1阿里云大数据安全管控体系架构

核心安全措施:

1)访问控制和隔离:实施多租户访问隔离措施,数据安全分类分级划分,支持基于标签的强制访问控制,提供基于ACL的数据访问授权模型,提供数据视图的访问控制。

2)敏感信息保护:提供数据脱敏和加密功能。

3)密钥管理和鉴权:提供统一的密钥管理和访问鉴权服务,支持多因素鉴权模型。

4)安全审计:提供数据访问审计日志。

5)数据血缘:支持数据血缘追踪,可跟踪数据流向。

6)审批和预警:支持数据导出控制,支持人工审批或系统预警;提供数据质量保障系统,对交换的数据进行数据质量评测和监控预警。

7)数据生命周期管理:提供从采集、存储、使用、传输、共享、发布、销毁等基于数据生命周期的技术和管理措施

2.2蚂蚁金服大数据安全防护体系

核心安全措施:

1)持续进行数据安全顶层治理:数据安全策略à数据安全管理à数据安全执行。

2)建立健全数据安全制度流程:确保在业务运营过程中的数据安全风险可控,数据使用有章可循。

3)建立数据安全内控体系和审计监督机制:通过统一身份管理、统一健全、统一日志等方式建立体系化的审计监督机制,利用大数据风险分析技术,建立数据使用异常分析控制,及时识别业务运营过程中的数据使用风险。

4)建立以数据为中心的风险管理体系:从数据、人员、产品三个方面重点进行风险管理体系建设。数据方面,覆盖采集、分析处理、输出等多个大学虎踞管理重点;人员方面,建立了信息安全评分及员工行为风险量化机制,准确识别和管控员工使用、处理数据过程中的各维度风险;产品方面,对用户隐私进行全方位保护。

5)构建生态数据安全赋能产品,联合生态伙伴,共同提升生态数据安全能力:在与合作伙伴合作的过程中,建立一套完整的合作伙伴数据安全风险识别机制,通过敏感数据检测、调用历史基线偏离、离群行为等大数据异常检测技术,实现对生态或作伙伴的敏感信息泄露等风险的监控。也通过差分隐私和K匿名等技术措施提升个人隐私和数据安全保障能力。并将该能力产品化赋能生态企业。

2.3中国移动大数据安全保障体系

核心安全措施:

1)安全策略体系:从顶层设计层面明确安全保障工作总体要求及方向指南。

2)安全管理体系:通过管理制度建设,明确运营方安全主体责任,落实安全管理措施。

3)安全运营体系:通过定义运营角色,明确运营机构安全职责,实现对大数据业务及数据的全流程、全周期安全管理。

4)安全技术体系:公司开展大数据安全防护建设相关要求和实施方法,体系设计涵盖数据流转各环节数据安全防护通用技术要求、大数据平台各类基础设施及应用组件安全基线配置能力要求等。

5)安全合规评测体系:包括安全运营管理合规评测和安全技术合规评测方法、评测手段和评测流程。

6)大数据服务支撑体系:基于大数据资源为信息安全保障提供支撑服务,开展大数据在安全领域的研究及推广应用,为公司信息安全治理提供新型技术手段,并支撑对外安全服务,实现数据增值。

2.4IBM Security Guardium 数据安全保护体系

核心安全措施:

1)对来自各种应用和用户的hadoop和nosql的数据访问进行全面实时监控。在应用或用户违反安全策略时进行实时预警并在SIEM仪表盘中显示警告信息。

2)通过审计和报告方式来满足合规要求并能提供法律所要求的合规证据。

3)对高流量、高速度、多类型的大数据进行全面的变更管理。

4)对企业的全部数据(数据库、应用、文件、大数据)等进行集中式、自动化的管控。

5)通过加密、屏蔽、掩码等方式保护敏感数据。

6)评估和解决大数据环境中的漏洞,保证大数据系统自身是安全的。

2.5Microsoft大数据安全框架

核心安全措施:

1)网络安全:企业管理员可在虚拟网络 (VNET) 中创建群集,并使用网络安全组 (NSG) 限制对虚拟网络的访问。只有入站 NSG 规则中允许的 IP 地址才能与 HDInsight 群集通信。

2)身份认证:提供基于 Active Directory 的身份验证、多用户支持和基于角色的访问控制。

3)授权:管理员可以配置基于角色的访问控制 (RBAC) 来确保Apache HiveHBaseKafka的安全性,只需使用 Apache Ranger 中的这些插件即可。可以通过配置 RBAC 策略将权限与组织中的角色相关联。

4)审核:管理员可以查看和报告对 HDInsight 群集资源与数据的所有访问,跟踪对资源的未经授权或非故意的访问。管理员还可以查看和报告对在 Apache Ranger 支持的终结点中创建的访问控制策略进行的所有更改。

5)加密:应对数据加密。

三、结束语:

综上所述,结合笔者自己的实践,大数据平台安全建设应根据平台规模、大数据安全建设人员投入数量、历史案件比例等因素做调整,最合适的是才是最好的。

(1)最基本需要具备:权限管理、访问控制、审计溯源、下载管控;

(2)进阶需要具备:账号体系管理、资源管理(资源呈现与检索)、数据管理(分类分级、脱敏、加密、血缘、标签和敏感数据识别等);

(3)高阶需要具备:统一配置管理、统一运维管理、统一告警管理、大数据代码审计产品。

上述仅代表个人当前意见,如有异议可以多沟通多交流。

*本文作者:superhuawei,转载请注明来自FreeBuf.COM

相关 [大数据 平台 安全] 推荐:

漫谈大数据平台安全风险与建设

- - FreeBuf互联网安全新媒体平台
上篇文章【 漫谈大数据平台架构】大家应该对大数据平台有了一个整体架构上的理解和认识,作为姊妹篇,本篇着重讲解大数据平台安全风险与建设. 大数据平台安全伴随着大数据平台而生. 随着互联网和大数据应用的普及,新闻头条上发布的数据泄露、滥用、诈骗层出不穷,引发了一系列发人深思的社会事件和问题. 本文以大数据发展面临的安全挑战开篇.

大数据下的数据分析平台架构

- vento - 《程序员》杂志官网
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”. 多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上.

腾讯大数据平台质量保障之道

- - 标点符
大数据时代,业界各巨头都在投入重兵打造自己的大数据平台,分析挖掘蕴藏在数据金矿中的价值. 在腾讯数据平台部承建了公司级大数据平台,腾讯的测试团队也有幸一起搭上了大数据的航母. 因为大数据平台的技术复杂度、机器规模、容量、发展速度等都远非传统的后台系统可比,以前积累的测试方法和建设的工具平台很多并不适用于大数据测试,业界也没有很成熟的方法可以借鉴.

如何挑选合适的大数据或Hadoop平台

- - 互联网旁观者
今年,大数据在很多公司都成为相关话题. 虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop已经成为事实上的标准. IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop. 然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.

Ambari——大数据平台的搭建利器

- - 企业架构 - ITeye博客
Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目. 目前最新的发布版本是 2.0.1,未来不久将发布 2.1 版本. 就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop.

大数据平台在互联网行业的应用

- - CSDN博客综合推荐文章
本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结. 以实际经验讲解了大数据从雏形到发展,以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用. 所有公司在一开始时,数据的建设都是比较落后的,但随着互联网的环境推动,以及公司计划2013年在纽约交易所上市,这时候面临一个很大的问题.

浅谈大数据平台基建的逻辑

- - 透明思考
这篇文章主要目的是面向初接触大数据的朋友简单介绍大数据平台基础建设所需要的各个模块以及缘由. 按照 Ralph Hughes的观点,企业数据仓库参考架构由下列几层构成:. 接入层(Landing):以和源系统相同的结构暂存原始数据. 整合层(Integration):持久存储整合后的企业数据,针对企业信息实体和业务事件建模,代表组织的“唯一真相来源”.

Uber 大数据平台的演进(2014~2019)

- - IT瘾-dev
也可以到我个人博客阅读(点击下面阅读原文即可) https://www.iteblog.com/archives/2557.html. Uber 致力于在全球市场上提供更安全,更可靠的运输服务. 为了实现这一目标,Uber 在很大程度上依赖于数据驱动的决策,从预测高流量事件期间骑手的需求到识别和解决我们的驾驶员-合作伙伴注册流程中的瓶颈.