配用电大数据项目中的架构研究与思考

标签: bigdata | 发表时间:2017-06-14 00:00 | 作者:
出处:http://itindex.net/admin/pagedetail

大数据

作者:穆晨

前言

智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。

电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率。如开展电网设备状态监测的大数据应用,实现电网设备状态的智能监测,实时分析电网线损、配电负载等等。

本文旨在跟读者分享某电网公司在配用电大数据项目中所采用的多维架构(包含数据架构、业务架构、技术架构等),为本系列的后续文章打下铺垫。

业务架构

大数据
配用电大数据项目的业务架构,是指从业务角度说明配用电大数据项目要做什么事。此架构不会过多牵涉技术细节,它的重要性要高于其他几类架构。一般来说,这类架构要在项目启动前,通过多次的调研、分析、专家研讨后方可决定。

上图的业务架构主要将业务划分为了五大层次,其中最为关键的是数据源层和应用层:

1. 数据源层:规定配用电大数据项目能从哪些地方获得数据资源。这是非常重要的一环,尤其是在电网领域。因为当前电力信息系统中的“网络孤岛”现象比较严重,要梳理清楚哪些数据能采、哪些数据采上来有意义,是非常不容易的。

2. 应用层:明确配用电大数据能为电力系统实现哪些业务。规划该层次时,行业化大数据从业人员需要和电力专业的人员进行多次深入地沟通交流。从笔者亲身经历来看,这一层切不可假大空,一定要确保落地。通俗点来说,若这层写得太虚,可能会把后续开发人员,甚至是自己给坑了…

至于其他几个层,则是从一个较为宏观的角度去设计系统组件。一般来说在业务架构的侧重点在系统的功能性方面,对于技术细节不过多纠结。

数据架构

大数据
电网企业的数据主要包括三类:

1. 电力设备数据:主要包括电网设备监测数据、设备地理位置数据、设备状态数据等;

2. 企业管理数据:主要包括跨单位、跨部门的电网企业职工数据、财务数据等;

3. 企业运营数据:主要包括客户信息、客户用电数据、电费数据等。

但是上述只是一个特粗略的分类。笔者在项目实施过程中发现,数据的分类在每一个环节都需要按照不同标准重新做一次。

为何要这么麻烦?这是因为,[数据类型]+[业务需求]将决定你选用何种大数据组件去处理它。

这里先以电网的拓扑结构数据为例:这类数据大都存在电力系统的RDBMS里,那么我们显然可以考虑使用Sqoop来做同步;而其后为高效实现电网拓扑分析业务,显然应将其放至HIVE这类数据仓库工具里合适。

再以电网设备检测数据为例:这类数据由于具有事实性,用Storm或者Spark Streaming来同步就显然更加合适了;而这类数据有部分业务环境是不需要做太多数据分析的,因此可考虑将其导入到HBase这类NoSql数据里,实现高效存取。

读者看到这里,应该明白了需要时刻思考数据分类的原因了吧?上述两个例子都属于电力设备数据,然而它们被处理的方式显然是不同的。在实际中,我们往往根据当前架构所在层次的属性来决定使用何种组件来处理数据。个人真心建议针对将来数据特别复杂的情况,可以考虑引入“数据画像”这个概念,根据不同的处理方式为各类数据打上标签,以便于管理。

技术架构

大数据
总的来说,针对配用电大数据的技术研究可以分为三个层面来展开:

1. 数据集成层面:研究电力系统中多源数据的分类方式、集成与融合方法,并设计出面向云环境的多源异构数据集成模型。

2. 基础架构层面:结合在线流处理与离线批处理的应用需求,研究可拓扑分解的流处理计算技术、分布式并行批处理计算技术,并提供应用编程接口。

3. 支持系统层面:研究电力大数据项目的建设规范,大数据集群系统的综合管理工具、大数据可视化组件,并提供多种形式的集成接口,以便支持不同上层应用对大数据以及分析结构的调用需求。

需要特别说明的是,在这三个层面之上是真正的“电力应用层”。本系列后续文章将对其进行较为深入的剖析,这部分将真正涉及到电力专业与信息类专业的结合,敬请期待。

实施架构

大数据
对于配用电大数据项目的具体实施,需要明确的主要是将计算机集群具体分成哪些区,每个区又具体采用哪些组件。

这部分内容比较繁杂,以下仅针对其中某类实时数据的处理做个大致的介绍:

1. 各业务系统和数据采集系统的秒级数据通过专线网络,经过加密压缩传输到总部的负载均衡器;

2. 负载均衡器将数据分发给Kafka集群落地;

3. Storm集群从Kalfa集群接收所订阅的数据,负责对数据进行清洗、按照设定的告警条件实时监测数据并发出告警;

4. Storm清洗和标注后的数据,直接存入HDFS落地;

5. HDFS中的数据同步到数据存储和查询模块(时序数据管理平台),方便在其中进行在线查询;

6. 数据分析平台上根据预订的作业队列,调度数据分析程序在Hadoop集群中运行,结果存入HDFS或者按用户程序定义写入相应存储位置;

7. 数据分析平台将秒级数据汇总成十分钟级数据、根据定义的数据种类、数据格式和存储方式将数据分发给计算存储群组及HBase数据库;统计报表程序通过Hive集群执行各种类SQL完成统计查询和报表生成。

-> 再强调一次,上述介绍仅是针对其中某类实时数据的处理,而不同类型数据的处理方式是不同的。

示范架构

大数据
在项目后期,需要将配用电大数据平台部署到部分地市局来进行试点,因而需要明确网 – 省两地,或者网 – 省 – 市三地的综合示范架构。

在本文给出的参考架构中,我们首先利用高速4G专网和GPRS /230M无线专网实现低压居民用户和专变/公变终端的采集;采集的数据通过智能一体化终端进行简单转换后,上传至区域分布式大数据中心;区域大数据中心将对电量和非电量数据,结构化与非结构化数据进行大数据集成与融合。

在区域大数据中心,可基于大数据聚类与分析技术,实现用电用户类型的精细化划分、分析用户的用电行为、评估非介入式用户的能效水平,形成一系列面向配用电网的通用知识模型与关键技术,为省级大数据中心提供数据与关键算法支撑。

小结

作为该系列博文的开篇,本文从各类架构的角度出发让读者对配用电大数据的项目有了全方位的整体认识。

后续的文章将涉及到真正的电力+大数据研究,这也是电力专业与计算机专业的综合领域,读者或许需要具备一定的电力系统知识才能消化。

简单回顾下电力系统相关的知识,然后一起开始智能电网之旅吧^_^。

End.

转载请注明来自36大数据(36dsj.com): 36大数据» 配用电大数据项目中的架构研究与思考

相关 [电大 数据 项目] 推荐:

配用电大数据项目中的架构研究与思考

- - IT瘾-bigdata
智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网. 电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率.

Google ADK DIY 项目:显示音乐频谱数据

- 可可 - 谷安——谷奥Android专题站
如果你有一个 Google ADK 板(开发板)并有相应的技术你会想做什么样的东西呢. DIY 达人 yergacheffe 就做了一个很酷的东西. 他使用 ADK 板以及一些 LED 矩阵构建了一个显示器,这东西可以显示在 Android 设备上通过 music beta 服务播放的歌曲的频谱数据.

从git服务器获取只读项目数据

- - Marshal's Blog
从git服务器获取和同步只读的项目数据. 比如说,通过github,获取人家的项目数据,而且还要和它保持同步,需要以下操作. 拿我现在写的一个发布在github上的项目举例,见: https://github.com/MarshalW/WebBook/tree/gh-pages. 可以通过如下命名clone项目(相当于svn的checkout)数据:.

十个让人惊叫的数据可视化项目

- - IT经理网
数据可视化是科学、艺术和设计的结合,当枯燥隐晦的数据被数据科学家们以优雅、简明、直观的视觉方式呈现时,带给人们的不仅仅是一种全新的观察世界的方法,而且往往具备艺术作品般的强大冲击力和说服力. 如今数据可视化已经不局限于商业领域,在社会和人文领域的影响力也正在显现,以下我们将介绍的是是个让人耳目一新、拍案叫绝的数据可视化项目.

Spark:比Hadoop更强大的分布式数据计算项目

- - 标点符
Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法.

阿里巴巴开源项目:分布式数据库同步系统otter(解决中美异地机房)

- - agapple
   阿里巴巴B2B公司,因为业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,同时为了提升用户体验,整个机房的架构为双A,两边均可写,由此诞生了otter这样一个产品.    otter第一版本可追溯到04~05年,此次外部开源的版本为第4版,开发时间从2011年7月份一直持续到现在,目前阿里巴巴B2B内部的本地/异地机房的同步需求基本全上了otte4.

阿里巴巴开源项目: 基于mysql数据库binlog的增量订阅&消费

- - zzm
   早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求. 不过早期的数据库同步业务,主要是基于trigger的方式获取增 量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此 开启了一段新纪元.

阿里巴巴开源项目: 阿里巴巴去Oracle数据迁移同步工具

- - agapple
   08年左右,阿里巴巴开始尝试MySQL的相关研究,并开发了基于MySQL分库分表技术的相关产品,Cobar/TDDL(目前为阿里云DRDS产品),解决了单机Oracle无法满足的扩展性问题,当时也掀起一股去IOE项目的浪潮,愚公这项目因此而诞生,其要解决的目标就是帮助用户完成从Oracle数据迁移到MySQL上,完成去IOE的第一步. .

reCAPTCHA项目

- - 四火的唠叨
文章系本人原创,转载请保持完整性并注明出自 《四火的唠叨》. 要说reCAPTCHA,就要先说一说CAPTCHA,全称是Completely Automated Public Turing test to tell Computers and Humans Apart,即全自动区分计算机和人类的图灵测试,也就是通常说的“验证码”,目的就是要把计算机和人区分开来.

项目集成项目管理之项目范围管理

- - CSDN博客系统运维推荐文章
7.1项目范围和项目范围管理.    项目范围:为完成具有规定特征和功能的产品、服务或结果,而必须完成的项目工作. 7.1.2项目范围管理的作用.    确定在项目内包括什么工作和不包括什么工作;由此界定的项目范围在项目的全生命周期内可能因某种原因而变化,项目范围管理也对这种变化进行管理. 7.1.3项目范围管理的主要过程.