教学工作的资源分享

基于大数据技术的智能仪表运行状态分析系统研究——常绿

中专

中专

基于大数据技术的智能仪表运行状态分析系统研究长青等基于大数据技术的智能仪表运行状态分析系统研究常青、严小文、陶晓峰、付峰21221

(南瑞集团公司(国网电力科学研究院)江苏南京,211106 )。2(国电南瑞科技股份有限公司江苏南京、211106 )。

摘要:基于大数据技术的智能仪表运行状态分析系统通过分布式存储、分布式分析计算和数据挖掘,使用能耗信息采集系统综合生产调度平台、营销业务系统等系统中的电表信息,将测量到的海量数据转化为智能电表的运行状态报告,指导员工进行电表的运行经过校订或轮换,解决了现行电表管理方式浪费人力物力资源的问题。 阐述了大数据技术和数据挖掘的概念和关键技术,详细阐述了详细介绍了分层结构智能电表运行状态分析系统的大数据平台。关键词:智能电表; 大数据技术; 数据挖掘; MOHOUT

DOI代码: 10.14016/j.cn ki.1001-9227.2015.12.004

abstract:analysissystemofrunningstateofintelligentelectricmetersonbigdatatechnologyputtingthehugeamountsofda -:

taofmeters’informationwhichintheacquisitionsystemofelectricityinformation,measuringplatformofproductionschedulingand marketing business system,etcintoasmartmeterrunningstatusreportbythetechnologyofthedistributedstorage,分布式analysis computing and data mining,toguidethestafftoschoolorrotationmeters,itsolvedtheproblemsthatthecurrentmerman -agementmethodwastemanpowerandresources.paperexpoundstheconceptsandkeypointsofthebigdatatechnologyanddatamining,andintroducesthehierarchicalstructurebigdataplatformofsmartmeterrunningstateanalysissystem。:Key words:Smart meters; big数据技术; 数据调整; MAHOUT图中分类编号: TP391.77文献识别码: a文章编号: 1001-9227(2015 ) 12-0004-040前言不佳,无法实时获取电能表的准确运行状态。

随着国家电网公司“三集五大”体系建设的深入,“大营目前正在将电表运行信息分散到用电信息采集系统中,对生产进行计量

“接脚”推进的用电信息采集集系统建设已具规模,特别是智能电能表 调度平台、SG186营销业务系统中,还没有一个计量业务系统对 已获得大范围的推广应用。公司自2010年起全面推进用电信息 所有类型的电能表的运行状态进行全面的实时监测和状态评

采集系统建设以来,截至2013年8月末,公司系统累计完成1.68 估。基于大数据技术的电能表运行状态分析系统开发可以对这 亿只智能电能表,其中直供直管 1.4 亿只,公司系统的智能电能 多个系统的海量数据进行挖掘和综合分析,在同一系统中实现 表覆盖率为51.2%,其中直供直管覆盖率为65.9%。公司系统累 不同信息源的电能表数据的对接应用,较为及时、准确、真实地 计实现用电信息采集 1.68 亿户,其中直供直管范围实现 1.38 亿 开展运行状态分析和评估。 户,公司系统采集覆盖率为 51.4%,其中直供直管采集覆盖率为 64.9% [1-2] 。如此庞大数量的电能表的运行状态的稳定可靠与否, 1 大数据技术概述

直接关系到百姓的切身利益与社会的和谐稳定。 智能电网中的大数据具备“4V”特征:即规模大(volume)、类 随着电能表智能化程度的提高,智能电能表应用以及用电 型多(variety)、价值密度低(value)和变化快(velocity) 。 [3] 信息采集系统建设的覆盖率的不断扩大,运行故障越来越多地 大数据的处理包括:获取 à 存储 à 分析处理 à 展示,从大 呈现出突发性、多面性、复杂性、难复现的特征。同时,经济发展 数据管理生命周期的四个阶段来看,数据的存储和处理是大数 也促进了大气环境、电磁环境的变化,使得电能表的运行环境呈 据处理的关键。 现多种极端气候特征和负荷特性复杂的特点。2002年国家发布 1.1 大数据存储技术 了 DL/T 448-2000《电能表技术管理规程》,对电能表的分类、配 大数据的存储主要有关系数据库集群、分布式数据库、分布 置、运行等方面的要求进一步的规范和提高,明确主要以现场检 式文件系统、NoSQL 数据库和分布式缓存几种。这几种技术手 验、周期轮换抽检等方式来维护电能表的运行可靠性。延续至 段分别适用不同的场景:关系数据库集群和分布式数据库适用 今,公司系统内主要通过现场校验仪定期到现场校验的方式来 于结构化、交易特征较明显的数据;分布式文件系统(HDFS)适用 获取电能表误差、压降、故障等方面的状态信息,以此来对电能 于大规模非结构化归档数据;NoSQL 数据库适用于大规模非结 表进行状态评价与处置。然而,现场检验受运行环境因素影响 构化、半结构化流式数据。 较大,随时波动的负荷给电能表综合误差的测量带来较大的偏 HDFS是分布式计算的存储基础,它可以部署在分散的廉价 硬件设备上,用来存储海量数据集,并且提供了对数据读写的高 收稿日期:2015-05-04 吞吐率。 作者简介:常青(1991-),男,山东潍坊人,硕士研究生,主要从事电 HDFS体系结构图如1所示 。 [4] 力系统大数据的研究与开发工作。

4

《自动化与仪器仪表》2015年12期(总第194期) 1.3 数据挖掘技术 数据挖掘,就是从大型数据库的数据中识别出存在于数据库 中的有效的、新颖的、具有潜在价值的乃至最终可理解的模式的非 平凡过程。提取的知识可表示为概念、规则、规律、模式等形式 。 [5] 数据挖掘技术是针对数据库技术进行研究和扩展的成果之一。目 前,数据挖掘技术已经在市场分析、政府管理、医疗卫生、科学探 索、金融及制造业得到应用 。图4是数据挖掘过程模型: [6-7] 知识 图1 分布式文件系统HDFS架构图 评估与表示 1.2 大数据分析与处理技术 模式 数据挖掘 大数据分析处理技术主要通过特定的分析算法结合以适当 特定数据集 选择与转换 的分布式计算编程模型和并行执行引擎来对存储于大数据平台 数据仓库 内的海量数据进行实时分析挖掘和批量并行计算,以满足不同 清洗与集成 目的和性能的分析需求。 数据库 在当前的并行机上,比较流行的并行编程环境可以分为三类: 图4 数据挖掘过程 共享存储、消息传递和数据并行。

教务网络系统

教务网络系统

由上图可知,数据挖掘的步骤包括数据准备、数据选择、数 据预处理、数据缩减、数据挖掘目标确定、挖掘算法确定、数据挖 掘、模式结束及知识评价九个处理步骤 。 [8] 数据挖掘方法种类很多,主要包括分类(Classsification)、聚 类(Clustering)、相关规则(Association Rule)、回归(Regression)等 方法。而不同的方法又衍生出很多不同的算法。 例如分类算法可以分为:决策树、贝叶斯、人工神经网络、K- 近邻、支持向量机和基于关联规则的分类等;另外还有用于组合 单一分类方法的集成学习算法,如Bagging和Boosting等,各类算 法适合于不同的场景。 图2 大数据分析逻辑示意图 2 基于大数据技术的智能电表运行状态分析系统模型 由逻辑示意图2可以看出,分布式计算环境中每个计算节点

2.1 数据现状 上的 Agent 组件随时收集对应节点上的静态资源信息(如 CPU、 电能表运行信息分散在用电信息采集系统、计量生产调度 内存、磁盘、网络等各类性能参数)以及动态资源信息(如CPU利

平台、SG186营销业务系统中,如表1所示。 用率、已用内存等)。Agent 还可以对所在节点上指定的软件模 表1 数据现状 块(Module)进行必要的监控,并实时传递模块进程对应的运行 序号 数据来源 数据现状 信息。当系统接收到用户符合适当的分布式计算模型(MapRe⁃

用电信息 (1)系统具有用户、电能表、计量点等档案信息。 duce)而设计定义的一个或多个分析处理任务时,分布式任务调 1 采集系统 (2)系统采集负荷、电量、电能表示值和终端事件等用电信息。 (3)系统分析电能表的各类异常事件。 度器集群就可以根据实时收集到的各种节点信息,并结合预先 计量生产 2 调度平台 (1)系统具有电能表厂商、批次和检定信息。 定义的资源组织策略(Policy)来按照应用需求进行资源的调度

营销业务 (1)系统具有电能表厂商、批次和检定信息。 和分配,并通过并行执行引擎实现灵活、高效和可靠的任务执行 3 应用系统 (2)系统具有计量故障及换表等流程信息。 (3)系统具有电能表轮换、现场校表等业务信息。 和结果汇聚报告。 3.2 总体架构 分布式编程MapReduce是Google在2004年提出的应用于大 基于大数据技术的电能表运行状态分析系统模型的总体结 规模集群进行大规模数据处理的并行计算模型,适用于大规模

构如图5,在逻辑上将系统分为: 数据集的并行运算。在 Google 提出的并行计算模型中,map 和

reduce是两个核心过程,故该并行计算框架简称为MapReduce。 用户 MapReduce工作原理如图3。 图表 报表 知识与业务集成 (4)知识展现 批 离线 库内分析 数据挖掘 (3)数据计算 计 (Mapreduce) (Oracle) (Mahout、 算 Weka、R) 与分析 大 数 据 分布 实时分布式高 处 式协 维数据库 数据仓库 理 同服 HBase (Hive) 关系型数据库 务 系 (ZooK (Oracle) (2)数据存储 统 eeper 分布式文件系统 HDFS )

数据分发 、日志抽取+消息队列 (1)数据采集 数 用电信息采集系统 营销业务应用系统 据 源 计量生产调度平台 … … 图3 MapReduce工作原理

图5 基于大数据技术的智能电表运行状态分析系统的逻辑结构 5 基于大数据技术的智能电表运行状态分析系统研究 常 青,等

(1)数据采集层,包括数据抽取、数据分发、日志文件抓取等 数据挖掘的重要任务之一就是发现大型数据中的积聚现 功能,实现从用电信息采集系统、营销业务应用系统、计量生产 象,并加以定量化描述。聚类分析就是按照某种相似性度量,具 调度平台等外部系统抽取设备档案、负荷与电量、通信日志相关 有相似特征的样本归为一类,使得类内差异相似度较小,而类间 数据,并在数据采集层实现数据清理、校验和处理工作功能。 差异较大 。Everitt 在1974年关于聚类所下的定义:一个类簇 [11] [10] (2)数据存储层,包括分布式数据,商用数据库,内存数据库 内的实体是相似的,不同类簇的实体是不相似的;一个类簇是测 等多种数据库,数据采集层根据设定的规则将不同类型、不同访 试空间重点的会聚,同一类簇的任一两个点间的距离小于不同 问需求的数据存储到不同的文件系统中,支撑计算与分析层的 类簇的任一两个点间的距离;类簇可以描述为一个包含密度相 应用。 对较高的点集的多维空间中的联通区域,它们借助包含密度相 (3)数据计算与分析层,包括流处理、MapReduce 并行计算、 对较低的点集的区域与其他区域相分离。 数据库库内分析、数据挖掘功能模块,支持对结构化、半结构和 智能电表运行状态分析系统在实际应用中选择聚类、朴素 非结构的数据进行统计计算,实现对不同类型的数据进行快速、 贝叶斯分类、回归算法,其中针对聚类算法采用k-means算法,其 高效的分析功能。 思 想 是 :把 N 个 样 本 的 对 象 根 据 属 性 分 为 k 个 分 割 组 (4)知识展示与共享,是实现大数据分析结果的可视化,并 (k < N)s i ,i = 1,2,⋯,k, 假设对象属性来自于空间向量,通过迭代式 将分析结果及时发布或推送到外部系统中,实现知识挖掘与业 改进探索法,试图找到每个分割组的数据中自然聚类的中心 x , j 务创新的有机融合。 目标使各个分割组内部的均方差总和最小。算法是一种基于样 2.3 实现方法 本间相似度量的间接聚类方法,速度很快。 数据源信息通过数据采集系统的采集和分布式数据总线的 K-means 因其简单易理解成为聚类中最经典的算法,并且 [12] 传送,存储在数据存储系统的分布式数据库 HDFS 中,在数据分 已经被收入Mahout中。同时因为其算法过程不涉及全局变量或 析系统中经过 MapReduce 并行计算将数据进行预处理、数据转 公式,使得其 MapReduce 化也很简单。需要输入的数据包括记 换,之后利用数据挖掘工具对数据进行数据挖掘与分析:首先应 录数据向量集的文件集,包含数据中心的文件(或直接使用随机 用贝叶斯分类算法分析,获取检定检测记录、计量故障换表、现 取样),相似度度量方法(一般为欧式距离),收敛阈值(判断迭代 场校表、运行年限,之后应用聚类和回归算法综合分析得到整体 终止条件),Reducer个数,用于输入文件预处理方法。输出数据 运行状态分析结果,将分析结果展现与调优后得到可信度电能 为包含中心点的文件和包含数据集机器归类的文件。 表运行状态判断报告,根据判断报告制定现场校表和制定轮换 算法分为三部分: 计划,流程图如下图6所示。 (1)Map任务。将数据集分块并与中心点文件一起发送到各 数据源 大数据平台 数据处理方法 个Map节点,分别执行任务,将块中的数据分配给最靠近点的中 心,并以所属类中心点为key,本身为value,组成中间结果传递到 用电信息系 Reduce节点。 统采集数据 数据预处理 (2)Reduce 任务。得到中间结果后将属于同一聚类的点计 计量生产平台

幼儿园招生

幼儿园招生

此时当中心点不再变化时,该作 业完成。但是因为Hadoop中由Re要使ducer向主函数返回值市场营销业务由于系统数据是通过HDFS创建的文件,因此与主函数进行重新比较的成本是数据挖掘与分析

比较一下吧。

用户简档信息应用贝叶斯分类

算法分析3 )新的中心点和原来的中心点是否一致,如果发生了变化

分布式文件系统HDFS的部署计划化,也就是没有收敛,需要再次迭代。 更新中心点文件,从分布式数据库Hbase取得了检验记录,计算开始执行整个工作。ZooKeeper调整工具量故障转换表,现场比较表、工作年数、应用集

大数据监测系与回归算法综合分析现场校表

制定分布式数据仓库的Hive和轮换计划需要三个系统的实现

MapReduce并行环境得到了总体运行状态分析,判断用电信息采集系统的计量在线监测模块具备对电能表的差异结果是频繁进行在线监测和分析的功能,在测量生产日程的平台上配备了电能表高可靠性电能表的运行分析结果,展示并协调检定信息,营销业务系统具备电能表轮换、现场校正表等业务状态判断报告

消息。 大数据分析平台将三者有机结合,因装置本身不同通常,用电环境异常和检定异常三个维度,综合电能表的工作年数等图6大数据平台业务实现流程信息,通过评估模型得到的结果与用于测量人员的现场校正表2.4大数据挖掘平台及聚类算法轮换计划提供参考依据。

Mahout作为Apache软件基础的开放源代码项目中实现的算法有:分类算法、聚类算法、关联规则挖掘、回归、维4结束语

简约、进化算法、推荐/协同过滤、向量相似度计算等。 马霍特可本文探讨了当前智能电表人工管理模式费时费力浪费资源与Hadoop很好地结合,用大数据环高效运行其中的算法缺点,提出了基于大数据技术的电能表运行状态分析系统边境。[9]在

往下看第九页6

《自动化与仪器仪表》 2015年12期(总194期) )。

化区域和控制规则,基于该规则计算出吸入空气量和搅拌转速设定为3.5泡的自动控制模式和特征[3]根据[1]所述方法,其中

一定的值。 通过溶解氧变化区域专家控制,与pH控制方式同样地,可以将溶解氧控制为设定值的泡,可以添加消泡剂来改变电在5%的范围内,在通常的溶解氧控制中,在10%的范围内变化。 通过电磁阀的开关频率和开关脉冲宽度调节消泡剂的添加量,即可开始得到更好的控制效果。4结束语

本文设计的发酵生产技术参数在线监测与自动控制系统,

图3溶解氧变化区域专家控制结构图已应用于60m发酵罐L-谷氨酰胺、D-核糖生产多年,并已实现传感检测3.4 pH自动控制模式及特点设备、智能仪表、执行器的选型通过了实践验证。 发酵温度、发酵过程pH值严重的非线性、不确定性和较大时

包括pH、溶解氧DO、空气流量、罐压、发酵液体积等多个工艺参数存在滞后,常规PID控制精度较低,目前一般采用参数自调整型进行了在线监测和实时控制,实践证明效果良好。 关于其他的生物头发糊控制模式。 碱液滴加电磁阀控制信号由时钟脉冲控制[4]根据[1]所述的信息处理设备,其中酵生产工艺参数的在线监测与自动控制、其传感器、智能仪表、根据系统延迟时间的长度设定时钟的周期t,然后失败执行机构的选型、安装、控制模式具有参考价值。输出脉冲宽度与通过模糊控制算法得到的输出控制信号成比例是的,参见图4。 通过改变开闭阀开闭频率t和开闭脉冲宽度参考文献调节碱液的添加量,使pH值逐渐接近设定值,使pH的4

[1]孙增圻等.智能控制理论与技术[M] .北京:清华大学出版社,1997 .非线性和滞后特性对控制的影响。 使用pH参数的自调整模糊控制[2]基于潘丰. FPC2000DCS的发酵过程智能控制系统[J] .计算机测量与制法pH调节迅速,控制误差在0.05pH以内,控制精度比控制,2003,11 (7) 020-023。

普通的PID控制提高100%。 [3]潘丰.智能控制在分批发酵过程中的应用[J] .控制工程,2002,9 (6) :062-066。[4]李人厚,秦世引.智能控制理论与方法[M] .西安:西安交通大学出版社,1994.11

图4电磁阀控制信号

第6页[4]崔杰、李陶深、兰红星。 基于Hadoop的海量数据存储平台设计与开放

模特。 重点介绍了大数据的概念、关键技术和数据挖掘技术与传播[ j ].journalofcomputerresearchanddevelopment计算机的研究与传播基于大数据挖掘平台和聚类算法。 大数据分布式存储与分布式展,2012(49 )。

用电信息采集系统,计量生产调度平台,营销discoveryanddatamining.aaai press,Menlo Park,CA,1996。业务系统等系统中的数据现状是构筑了层次结构的大数据的[6] J. Han,Y. Cai,andn.cerco ne.data-drivendiscoveryofquantitative系统实现电能表运行状态分析,针对多个系统的大容量数据rulesinrelationaldatabases.IEEE trans.knowledgeanddataeng .1993、5336029-40。进行挖掘和综合分析,在同一系统内实现不同信息源的电能表

[7] H.- Y Lee,h.- l.ONG.visualizationsupportfordatamining.IEEE数据对接APP可以更及时、准确、真实地进行运行状态分析和专家,1996:69-75。

评价。 通过数据挖掘平台将电能表信息的海量数据转化为智慧

[8]郑斌祥,席裕庚.面向电力系统的数据挖掘研究[J] .电气自动化. 2000可以报告电表的运行状态,指导工作人员校准或轮换电表,并进行求解(六)。

解决了现行电表管理方式浪费人力物力资源的问题。 [9]基于刘文峰、顾君忠、林欣、陈鹏. Hadoop和Mahout的大数据管理点系统[ j ].computerapplicationsandsoftware计算机APP应用程序和软件,参考文献2015(1) .夏季[1]刘振亚.智能电网技术[M] .北京:中国电力出版社,2010. [10]孙吉贵,刘杰,赵连宇.聚类算法研究[J] .软件报2008(1) :48-61

[2]肖坚红,严小文,周永真,陈月燕.基于数据挖掘的计量装置在线审计[11] Jain A K,Dube src.algorithmsofclusteringdata [ j ].journalofsta测量与智能诊断系统的设计与实现[J]电测与仪表,2014(14 ).cal Planning and Inference,1989,21 (1) :137-138 .[3]宋亚奇、周国亮、朱永利.智能电网大数据处理技术现状与挑战[J] .电[12]基于孙雨冰. MapReduce化的数据聚类算法研究、设计与应用[D] .网络技术,2013(14 )华东理工大学. 20139

随机看看

NEW ARTICLE

标签

Tag