配用电大数据项目中的架构研究与思考
作者:穆晨
前言
智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。
电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率。如开展电网设备状态监测的大数据应用,实现电网设备状态的智能监测,实时分析电网线损、配电负载等等。
本文旨在跟读者分享某电网公司在配用电大数据项目中所采用的多维架构(包含数据架构、业务架构、技术架构等),为本系列的后续文章打下铺垫。
业务架构
上图的业务架构主要将业务划分为了五大层次,其中最为关键的是数据源层和应用层:
1. 数据源层:规定配用电大数据项目能从哪些地方获得数据资源。这是非常重要的一环,尤其是在电网领域。因为当前电力信息系统中的“网络孤岛”现象比较严重,要梳理清楚哪些数据能采、哪些数据采上来有意义,是非常不容易的。
2. 应用层:明确配用电大数据能为电力系统实现哪些业务。规划该层次时,行业化大数据从业人员需要和电力专业的人员进行多次深入地沟通交流。从笔者亲身经历来看,这一层切不可假大空,一定要确保落地。通俗点来说,若这层写得太虚,可能会把后续开发人员,甚至是自己给坑了…
至于其他几个层,则是从一个较为宏观的角度去设计系统组件。一般来说在业务架构的侧重点在系统的功能性方面,对于技术细节不过多纠结。
数据架构
1. 电力设备数据:主要包括电网设备监测数据、设备地理位置数据、设备状态数据等;
2. 企业管理数据:主要包括跨单位、跨部门的电网企业职工数据、财务数据等;
3. 企业运营数据:主要包括客户信息、客户用电数据、电费数据等。
但是上述只是一个特粗略的分类。笔者在项目实施过程中发现,数据的分类在每一个环节都需要按照不同标准重新做一次。
为何要这么麻烦?这是因为,[数据类型]+[业务需求]将决定你选用何种大数据组件去处理它。
这里先以电网的拓扑结构数据为例:这类数据大都存在电力系统的RDBMS里,那么我们显然可以考虑使用Sqoop来做同步;而其后为高效实现电网拓扑分析业务,显然应将其放至HIVE这类数据仓库工具里合适。
再以电网设备检测数据为例:这类数据由于具有事实性,用Storm或者Spark Streaming来同步就显然更加合适了;而这类数据有部分业务环境是不需要做太多数据分析的,因此可考虑将其导入到HBase这类NoSql数据里,实现高效存取。
读者看到这里,应该明白了需要时刻思考数据分类的原因了吧?上述两个例子都属于电力设备数据,然而它们被处理的方式显然是不同的。在实际中,我们往往根据当前架构所在层次的属性来决定使用何种组件来处理数据。个人真心建议针对将来数据特别复杂的情况,可以考虑引入“数据画像”这个概念,根据不同的处理方式为各类数据打上标签,以便于管理。
技术架构
1. 数据集成层面:研究电力系统中多源数据的分类方式、集成与融合方法,并设计出面向云环境的多源异构数据集成模型。
2. 基础架构层面:结合在线流处理与离线批处理的应用需求,研究可拓扑分解的流处理计算技术、分布式并行批处理计算技术,并提供应用编程接口。
3. 支持系统层面:研究电力大数据项目的建设规范,大数据集群系统的综合管理工具、大数据可视化组件,并提供多种形式的集成接口,以便支持不同上层应用对大数据以及分析结构的调用需求。
需要特别说明的是,在这三个层面之上是真正的“电力应用层”。本系列后续文章将对其进行较为深入的剖析,这部分将真正涉及到电力专业与信息类专业的结合,敬请期待。
实施架构
这部分内容比较繁杂,以下仅针对其中某类实时数据的处理做个大致的介绍:
1. 各业务系统和数据采集系统的秒级数据通过专线网络,经过加密压缩传输到总部的负载均衡器;
2. 负载均衡器将数据分发给Kafka集群落地;
3. Storm集群从Kalfa集群接收所订阅的数据,负责对数据进行清洗、按照设定的告警条件实时监测数据并发出告警;
4. Storm清洗和标注后的数据,直接存入HDFS落地;
5. HDFS中的数据同步到数据存储和查询模块(时序数据管理平台),方便在其中进行在线查询;
6. 数据分析平台上根据预订的作业队列,调度数据分析程序在Hadoop集群中运行,结果存入HDFS或者按用户程序定义写入相应存储位置;
7. 数据分析平台将秒级数据汇总成十分钟级数据、根据定义的数据种类、数据格式和存储方式将数据分发给计算存储群组及HBase数据库;统计报表程序通过Hive集群执行各种类SQL完成统计查询和报表生成。
-> 再强调一次,上述介绍仅是针对其中某类实时数据的处理,而不同类型数据的处理方式是不同的。
示范架构
在本文给出的参考架构中,我们首先利用高速4G专网和GPRS /230M无线专网实现低压居民用户和专变/公变终端的采集;采集的数据通过智能一体化终端进行简单转换后,上传至区域分布式大数据中心;区域大数据中心将对电量和非电量数据,结构化与非结构化数据进行大数据集成与融合。
在区域大数据中心,可基于大数据聚类与分析技术,实现用电用户类型的精细化划分、分析用户的用电行为、评估非介入式用户的能效水平,形成一系列面向配用电网的通用知识模型与关键技术,为省级大数据中心提供数据与关键算法支撑。
小结
作为该系列博文的开篇,本文从各类架构的角度出发让读者对配用电大数据的项目有了全方位的整体认识。
后续的文章将涉及到真正的电力+大数据研究,这也是电力专业与计算机专业的综合领域,读者或许需要具备一定的电力系统知识才能消化。
简单回顾下电力系统相关的知识,然后一起开始智能电网之旅吧^_^。
End.
转载请注明来自36大数据(36dsj.com): 36大数据» 配用电大数据项目中的架构研究与思考