基于数据挖掘的电力系统异常数据辨识与调整
杨国强
(淮南电力公司,安徽淮南232007)
在数据挖掘领域,模C均值聚类法(FCM)在处理小量低维的数据挖摄时是有效的,但是面向 摘要:为了保证电力系统的可靠运行,需要对系统中的异常数据进行检测蚌识与调整.电力系统的数据库的数据挖抵是要处理大量、高维的数据,这样FCM算法在时间性能上难以令人满意.文中基于采样技术对FCM算法进行改进,利用遗传算法对聚类给策进行优化,利用一 种新的基于造传优化的采样模C均值聚类算法FFGO(Fuzzy FCM with GeneticOptimization),实现对异常数据的实时动态处理.
关键词:并常数据:数据挖据:采样:模C均值聚类:遗传算法
中图分类号:TM712文献标志码:B文章编号:1009-3230(2011)01-0025-04
Power System Detection and Adjustment of Bad Data Based on Data Mining
YANG Geo-qiang
(Huainan Power Supply Company Huainan 232007 China)
Abstract ; To ensure reliable operation ef power system the system would need to deteet the bad dstaidentifieatice and adjustmest. In dsta mining field FCM algoithm is an efficient method in the process of small scale low dimensional database bet he time perfocmance of FCM algorith can notbe satisfied for the large scale high dimensional database. In this paper a new sampling FCMalgorithm with genetic optimizati (FFCO) is presed based oe tbe smling technique n geneticalgorithm. The sampling technique and genetic slgorithm are used in FFCO algorithm to improre the quality of clustering and realized the bad data real-time dynamic prooessing.
Key words: Bad data; Bata mining; Sampling; FCM; Genetic algorithms
对异常数据的识别与调整,目前已提出多种方法.文献[1]利用模期C均值聚类法(FCM).通过统计负荷预测时历史上各日在两时刻间数据 变化率的范围,对比待检测日这两点的数据变化率的范围,对比待检测日这两点的数据变化率是否在正常范围内来判定可疑点.该方法对于单个 脏数据的识别比较有效,但对于首元素是驻数据及大段脏数据连续存在的情况,易产生误判和漏判,在算法处理的时间性能上也难以令人满意. 文献[2]中提出了一种基于传算法的模棚聚类方法CCA,对模聚类质量作了一些改进,但是在对大型数据库进行处理时,时间性能也不佳,对异常数据的调整较为租糙.
0前言
现代电力系统网络不断扩大,电力网络的结构与运行模式变得越来越复杂,各种调度自动化软件追切需要准确的实时数据库作为其计算的基 础.在电力系统的实际运行中,由于量测量和量测通道的误差及可能受到的干扰,个别量测量司能出现较大的误差,异常数据的存在,会给预测和清洗是电力系统能否可靠运行的关键. 分析造成极大困难,因此,异常数据的可靠检测与
的特点,而异常数据的存在将影响数据由线的相 似性.因此,文中利用数据挖掘理论中的聚类算法从大量可能含有异常数据的数据由线中提取特征模式,然后利用分类算法将含有异常数据的曲线模式同特征曲线模式分开,以实现异常数据的 识别.模型结构如图1所示.
文中基于采样技术对FCM算法进行改进,以提高算法的时间性能,同时利用遗传算法对聚类 结果进行优化,以保证聚类的质量,给出了一种新的算法 FFCO(Fuzzy FCM with Genetic Optimiza-tion,采用基于FFCO算法来进行对异常数据的检 测辨识有效地避开了上述方法的缺点,并且结合K-近邻(KNN)算法对聚类得出的异常数据进行合理的调整.
通过FCM与遗传算法相结合,对调练数据库用K-近邻(KNN)算法对异常数据进行微调, 进行分类,得到多个良好聚簇和少量异常数据,利使之合理的归人良好聚额.
1异常数据检测与调整的模型结构 电力系统中的数据曲线具有相似性和平滑性
图1异常数据的检测与调整模型
2聚类算法
Vij.∑=1 Vj.d=x- 采用欧式距离度量,m∈(1.∞)为权重指数,一般m=2.0.
现有的聚类分析算法大致可以分为2类:硬聚类算法和模聚类算法.硬案类算法中,样本对某个类别的隶属度只能是0或1.容易陷人局 部极值;模聚类的样本对某个类别的隶属度在区间[0.1]内取值,样本对类别的隶属度之和为1.模糊聚类算法与硬聚类算法相比更符合 客观实际,提高了算法的精度,但模聚类的速度要比硬聚类慢.
样本的最佳模C-划分即使J的最小方差稳定点(u,o).有条件min|J(u,o)1得到模隶属度和类中心矢量的选代式:
(2)
2.1模糊C均值聚类算法(FCM)
FCM算法整个计算过程就是以目标函数J的梯度下降方向为选代方向,反复修改案类中心点,对初始聚类中心和样本输入次序非常敏感,聚 和分类矩阵的过程.但算法容易陷人局部极值类结果具有很强的随机性.
FCM"是本文算法的基础,也是目前研究和应用最广泛的聚类算法.它的原理是通过求取数据点与聚类中心距离加权和的目标函数极值点面得到聚类中心选代公式(权值是隶属度函数 的指数).
结果是一样的.但FCM是一个逐步优化的过程, 当e充分小且时m=1.上述两种方法的分类收放速度较慢,它处理小数据集时是有效的,但是随着数据容量和维数的增加,选代步数会显著增加,面且在选代的每一步都要对整个数据集进行 操作,因此在时间复杂性上无法满足数据挖据的需要.
设样本序列的总样本数为=,案类数目为c(2得到每个样本点对聚类中心的隶属度,其目标函 <c<n-1).FCM算法通过优化模糊目标函数数定义为: (1) 其中x, i=1 2.. n1为样本集合=(n.,)为骤类中心矩阵,u为隶属度矩阵,为 样本x,隶属于中心的隶属度,满足0≤=≤1. 2.2基于遗传算法的模期C均值聚类(FFCO) 算法的思想是:首先采用随即抽样的办法,从 数据集中选取多个样本,对每个样本应用FCM算法,将得到的结果作为初始群体,然后再运用遗传 算法对聚类结果进行优化,选取其中的最优解作为问题的输出.由于采样技术显著压缩了问题规模,面遗传算法又可以对结果进行全局最优化处 理,因此在时间性能和聚类质量上都能获得较满意的结果.实施遗传算法关健是对算法部分的设计,下面就其中的几个主要问题进行讨论:编 码、生成初始群、选择副本、交叉操作、变异. 是交叉后生成的两个个体,V的计算算法如下: 第1步:初始化7e11.2 al; 第2步:循环计算:i=1.2.c.通过均匀分布函数从S(U )中选出一个数,设为,将u中的各个元素循环移位后的新列向量记为则按如下公式计算v中的第i列: (u,),使(u,)中的最大元素位于第i行, 1il; 其中.为[0.1]区间的一随机数,T=T- 2.2.1编码方案 设样本个数为n,聚类数目为c.发生变异的的方案,其对应的编码就等于U=(U)eR". 概率P.对任意一个将个样本划分为c个案类其中n个样本为X=1x,x.,x1.e个张类为1A liel,划分方案为U=(μ)eR,对A的隶属度函数值用表示. 第3步:对于每一个keT,采用如下方法计算v,利用均匀分布函数从11,2,,c中产生 一个随机数:再从[0 1]区间生成一随机数[0,1],则v²=af(u,)(1-a)f(u²,)算法结束. 第4步:用同样的算法计算V²2. 2.2.2生成初始群体 2.2.5变异 以随机方式生成N个初始分类方案,即为初始群体,其中N为预先给定的群体规模. 对个体=(u,u. u),以均匀Pq再从[0.1]区间生成一随机数β,则变异后 分布方式从7=11,2,,a中产生两个随机数u"的第p列按以下方式计算,其余各列不改变. 2.2.3选择副本 计算当代群体中每一个个体(分类方案)的适应度如下: 2.3实验结果及分析 (1) 为了测试算法的性能,随机抽取系统内5组2维的高斯分布数据,总共50000条记录.通过对FFGO算法和FCM算法分别进行测试,聚类 个数. 按适应度的相对大小以轮盘方式选择用于配对交 其中,d=x-1,m21是加权参数.叉的N个副本. 2.2.4交叉操作 FFG0算法的参数取值为:种群规模:50,最0.01,采样集为总记录数的1/100.分别对各个 大进化代数:100,交叉概率:0.9,变异概率:算法运行10次,取其平均值,结果如图2和图3所示,其中的J是由式(1)算出的误差平方和, 用以评估聚类的质量. 从选出的N个副本中按随机方式两两配对,以均匀分布函数从1B-1中为每一对副本确定交叉位置,然后进行交叉产生下一代个体.其交叉方式如下: ①设将要配对的两个副本u和2.=()和u2=(u²),由推论1得知,Vie/=|1,2. n,3Je7{1 2 、使得 8 t u =max|u 1s =1 2 ] su2 =max|(2 1s=1 2 } ②作映射 S:1U}×→2 S(U i)=1j∈71方案,uycU. max1a1s=1 2 ,ci1.其中U为任意一个分类 ③将副本U和U重新表示为 图2两件类算法的运行时间比校 3异常数据调整 ④设分类方案v=(V.v v).和 异常数据检测,一般是指把实时量测数据划 0.通过它们之间的相对距离,可以把异常点推移到聚额0中,计算方法如下: 其中,为豪0的最大半径. 图3两种豪类算法的比较 分为可靠数据和可疑数据两个数据集,然后对可疑数据进行辨识,找出全邮异常数据,保证估计顺利进行.通过基于遗传算法的模糊C均值聚类(FFCO)得出的结果,对结果中的异常数据进行 调整,文中引用了K-近邻(KNN)算法.它是最基本的基于实例的学习方法,以其简单、有效和高题,假设的实例对应于维欧式空间m中 鲁棒性面被广泛应用于数据挖据领城解决分类间的点,实例之间的距离是根据标准的欧式距离定定义为: 文的.设有两实例x和y,则它们之间的距离可 图4KNN算法 4结语 通过研究分析,文中对模期C均值聚类算法期C均值聚类(FFCO)算法,利用两种算法互补 进行了改进,提出了一种基于遗传优化的采样模结合有效的改善了FCM聚类的性能,利用采样技术提高算法执行的速度,通过遗传算法对聚类结 果进行优化,使得数据案类收速度进一步提高.引人了KNN算法对聚类得出的异常数据能合理的调整,保存了数据的完整性和可靠性.实验表 明系统模型对电力系统中的异常数据具有较好的实时动态检测辨识与调整能力. 个训练实例中最普遍的类标记作为预测值赋给实 给定一待分类实例x,KNN把距离x最近的k例x.用数学公式表示如下: 其中,y是x的k个近邻,C是c的取值的集合,8的函数定文为: 乡考文献 [1]其维仁,张他明,等,扩展妞期数据预测方法的应用[J].电网技术 2003 27(5):6-9.[2]张国江,年家购,事继红,基于人工神经网络的电力 数据坏数搭群识与调整[].中国电机工程学报,[3]Aha D W. Lary leing[ M]. Dondecht: Kuver Aca- 2001 21(8) ;104 107.deie 1997.[4]最重庆,夏清,相年德灰色系统参数信计与异常数 振[J].清华大学学报(自然科学版),1997.(4) :72 -75.[5]张睡红,孙建助,诸先军,等,基于造传优化的来样 模C均佳聚类算法[J].系统工程理论与实践2004. (5) :124 126.[6]张晚绩,方浩,监庭中,遗传算法的端码机制研究 [J]. 信名与控制 1997 26(2):134139. 法思想伪代码为: 由此思想,文中给出的调整异常数据点的算 分类检测阶段: 对于基于遗传算法的模糊C-均值聚类训练出的聚,(x,c(x)),把它存储在训练数据库中. 调整异常数据阶段: ①检测出的异常数据,设定为一个待分类的实例x; ②在训练数据库中选出最靠近x的k个实例y.....y: ③返回x的类标记c(x)=argMax∑8(c,c(x.)). ④图4中展示了异常点.和其最近的聚额