配用电大数据项目中的架构研究与思考

标签: bigdata | 发表时间:2017-06-14 08:00 | 作者:
出处:http://itindex.net/admin/pagedetail

大数据

作者:穆晨

前言

智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网。

电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率。如开展电网设备状态监测的大数据应用,实现电网设备状态的智能监测,实时分析电网线损、配电负载等等。

本文旨在跟读者分享某电网公司在配用电大数据项目中所采用的多维架构(包含数据架构、业务架构、技术架构等),为本系列的后续文章打下铺垫。

业务架构

大数据
配用电大数据项目的业务架构,是指从业务角度说明配用电大数据项目要做什么事。此架构不会过多牵涉技术细节,它的重要性要高于其他几类架构。一般来说,这类架构要在项目启动前,通过多次的调研、分析、专家研讨后方可决定。

上图的业务架构主要将业务划分为了五大层次,其中最为关键的是数据源层和应用层:

1. 数据源层:规定配用电大数据项目能从哪些地方获得数据资源。这是非常重要的一环,尤其是在电网领域。因为当前电力信息系统中的“网络孤岛”现象比较严重,要梳理清楚哪些数据能采、哪些数据采上来有意义,是非常不容易的。

2. 应用层:明确配用电大数据能为电力系统实现哪些业务。规划该层次时,行业化大数据从业人员需要和电力专业的人员进行多次深入地沟通交流。从笔者亲身经历来看,这一层切不可假大空,一定要确保落地。通俗点来说,若这层写得太虚,可能会把后续开发人员,甚至是自己给坑了…

至于其他几个层,则是从一个较为宏观的角度去设计系统组件。一般来说在业务架构的侧重点在系统的功能性方面,对于技术细节不过多纠结。

数据架构

大数据
电网企业的数据主要包括三类:

1. 电力设备数据:主要包括电网设备监测数据、设备地理位置数据、设备状态数据等;

2. 企业管理数据:主要包括跨单位、跨部门的电网企业职工数据、财务数据等;

3. 企业运营数据:主要包括客户信息、客户用电数据、电费数据等。

但是上述只是一个特粗略的分类。笔者在项目实施过程中发现,数据的分类在每一个环节都需要按照不同标准重新做一次。

为何要这么麻烦?这是因为,[数据类型]+[业务需求]将决定你选用何种大数据组件去处理它。

这里先以电网的拓扑结构数据为例:这类数据大都存在电力系统的RDBMS里,那么我们显然可以考虑使用Sqoop来做同步;而其后为高效实现电网拓扑分析业务,显然应将其放至HIVE这类数据仓库工具里合适。

再以电网设备检测数据为例:这类数据由于具有事实性,用Storm或者Spark Streaming来同步就显然更加合适了;而这类数据有部分业务环境是不需要做太多数据分析的,因此可考虑将其导入到HBase这类NoSql数据里,实现高效存取。

读者看到这里,应该明白了需要时刻思考数据分类的原因了吧?上述两个例子都属于电力设备数据,然而它们被处理的方式显然是不同的。在实际中,我们往往根据当前架构所在层次的属性来决定使用何种组件来处理数据。个人真心建议针对将来数据特别复杂的情况,可以考虑引入“数据画像”这个概念,根据不同的处理方式为各类数据打上标签,以便于管理。

技术架构

大数据
总的来说,针对配用电大数据的技术研究可以分为三个层面来展开:

1. 数据集成层面:研究电力系统中多源数据的分类方式、集成与融合方法,并设计出面向云环境的多源异构数据集成模型。

2. 基础架构层面:结合在线流处理与离线批处理的应用需求,研究可拓扑分解的流处理计算技术、分布式并行批处理计算技术,并提供应用编程接口。

3. 支持系统层面:研究电力大数据项目的建设规范,大数据集群系统的综合管理工具、大数据可视化组件,并提供多种形式的集成接口,以便支持不同上层应用对大数据以及分析结构的调用需求。

需要特别说明的是,在这三个层面之上是真正的“电力应用层”。本系列后续文章将对其进行较为深入的剖析,这部分将真正涉及到电力专业与信息类专业的结合,敬请期待。

实施架构

大数据
对于配用电大数据项目的具体实施,需要明确的主要是将计算机集群具体分成哪些区,每个区又具体采用哪些组件。

这部分内容比较繁杂,以下仅针对其中某类实时数据的处理做个大致的介绍:

1. 各业务系统和数据采集系统的秒级数据通过专线网络,经过加密压缩传输到总部的负载均衡器;

2. 负载均衡器将数据分发给Kafka集群落地;

3. Storm集群从Kalfa集群接收所订阅的数据,负责对数据进行清洗、按照设定的告警条件实时监测数据并发出告警;

4. Storm清洗和标注后的数据,直接存入HDFS落地;

5. HDFS中的数据同步到数据存储和查询模块(时序数据管理平台),方便在其中进行在线查询;

6. 数据分析平台上根据预订的作业队列,调度数据分析程序在Hadoop集群中运行,结果存入HDFS或者按用户程序定义写入相应存储位置;

7. 数据分析平台将秒级数据汇总成十分钟级数据、根据定义的数据种类、数据格式和存储方式将数据分发给计算存储群组及HBase数据库;统计报表程序通过Hive集群执行各种类SQL完成统计查询和报表生成。

-> 再强调一次,上述介绍仅是针对其中某类实时数据的处理,而不同类型数据的处理方式是不同的。

示范架构

大数据
在项目后期,需要将配用电大数据平台部署到部分地市局来进行试点,因而需要明确网 – 省两地,或者网 – 省 – 市三地的综合示范架构。

在本文给出的参考架构中,我们首先利用高速4G专网和GPRS /230M无线专网实现低压居民用户和专变/公变终端的采集;采集的数据通过智能一体化终端进行简单转换后,上传至区域分布式大数据中心;区域大数据中心将对电量和非电量数据,结构化与非结构化数据进行大数据集成与融合。

在区域大数据中心,可基于大数据聚类与分析技术,实现用电用户类型的精细化划分、分析用户的用电行为、评估非介入式用户的能效水平,形成一系列面向配用电网的通用知识模型与关键技术,为省级大数据中心提供数据与关键算法支撑。

小结

作为该系列博文的开篇,本文从各类架构的角度出发让读者对配用电大数据的项目有了全方位的整体认识。

后续的文章将涉及到真正的电力+大数据研究,这也是电力专业与计算机专业的综合领域,读者或许需要具备一定的电力系统知识才能消化。

简单回顾下电力系统相关的知识,然后一起开始智能电网之旅吧^_^。

End.

转载请注明来自36大数据(36dsj.com): 36大数据» 配用电大数据项目中的架构研究与思考

相关 [电大 数据 项目] 推荐:

配用电大数据项目中的架构研究与思考

- - IT瘾-bigdata
智能电网(Smart Grid)是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网. 电力大数据(Power Big Data)是实现智能电网的关键技术之一,它通过挖掘数据之间的关系与规律,提高电网企业在生产、经营、管理等方面的质量与效率.

Google ADK DIY 项目:显示音乐频谱数据

- 可可 - 谷安——谷奥Android专题站
如果你有一个 Google ADK 板(开发板)并有相应的技术你会想做什么样的东西呢. DIY 达人 yergacheffe 就做了一个很酷的东西. 他使用 ADK 板以及一些 LED 矩阵构建了一个显示器,这东西可以显示在 Android 设备上通过 music beta 服务播放的歌曲的频谱数据.

从git服务器获取只读项目数据

- - Marshal's Blog
从git服务器获取和同步只读的项目数据. 比如说,通过github,获取人家的项目数据,而且还要和它保持同步,需要以下操作. 拿我现在写的一个发布在github上的项目举例,见: https://github.com/MarshalW/WebBook/tree/gh-pages. 可以通过如下命名clone项目(相当于svn的checkout)数据:.

十个让人惊叫的数据可视化项目

- - IT经理网
数据可视化是科学、艺术和设计的结合,当枯燥隐晦的数据被数据科学家们以优雅、简明、直观的视觉方式呈现时,带给人们的不仅仅是一种全新的观察世界的方法,而且往往具备艺术作品般的强大冲击力和说服力. 如今数据可视化已经不局限于商业领域,在社会和人文领域的影响力也正在显现,以下我们将介绍的是是个让人耳目一新、拍案叫绝的数据可视化项目.

Spark:比Hadoop更强大的分布式数据计算项目

- - 标点符
Spark是一个由加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目. 它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法.

otter 数据同步项目 at master · alibaba/otter · GitHub

- -
进入$otter_home目录. 执行:mvn clean install. 如果eclipse下报"Missing artifact com.oracle:ojdbc14:jar:10.2.0.3.0",修改$otter_home/pom.xml中"${user.dir}/lib/ojdbc14-10.2.0.3.0.jar"为绝对路径,比如"d:/lib/ojdbc14-10.2.0.3.0.jar".

数据治理项目失败,90%都被这样搞垮了

- -
数字化时代,数据作为新的生产要素受到了各界前所未有的重视. 随着数据越来越多,怎么管好、用好数据,让数据发挥价值,成为了很多企业的一个难题,而且还是一个必选题. 有效的数据治理可以确保企业数据全面、一致、可信,从而全面释放数据的价值,提高业务流程效率、提升业务增长的机会,驱动企业数字化转型. 这听起来很简单,但事实上数据治理对每个企业都是一项很大的挑战.

工信部:2018年大数据产业发展试点示范项目名单

- - 互联网数据资讯中心-199IT
2018年大数据产业发展试点示范项目名单进行公示. 根据《工业和信息化部办公厅关于组织开展2018年大数据产业发展试点示范项目申报工作的通知》(工厅信软〔2017〕987号)要求,工业和信息化部组织开展了相关申报和评审工作. 现将2018年大数据产业发展试点示范项目名单进行公示,请社会各界监督. 公示时间:2018年9月25日-2018年9月30日.

常见电商项目的数据库表设计(MySQL版) - 简书

- -
电商常用功能模块的数据库设计. 改进1:第三范式:将依赖传递的列分离出来. 比如:登录名<-用户级别<-级别积分上限,级别积分下限. 改进2:尽量做到冷热数据的分离,减小表的宽度. 用户登录表(customer_login). 用户信息表(customer_inf). 用户级别表(customer_level_inf).

初创公司数据科学项目全流程指南,一位资深数据科学家的经验谈

- - 机器之心
无论是管理人员还是创业公司中的不同团队,都可能会发现数据科学项目与软件开发之间的差异并不直观. 如果没有明确的说明与解释,可能会导致数据科学家与其同行之间的误解和冲突. 来自学术界(或高度研究型的行业研究小组)的研究人员在初入初创公司或小型公司时可能会面临各自的挑战. 他们可能会发现将新型输入(例如产品和业务需求、更严格的基础架构和计算约束以及客户反馈)纳入其研发过程中是很有挑战性的.