1 引言
分类方法与聚类分析是数据挖掘技术的两种重要的思想。本文关于负荷预测问题的研究始终贯穿了这两种思想。神经网络和模糊系统是软计算的重要基础,它们是设计智能系统的精髓。本文详细讨论了BP网、Kohonen网两种神经网络和TSK型模糊推理系统的原理、结构和算法,其中前两者用于对负荷坏数据的处理,后者用在多因素负荷预测建模。
坏数据的处理是预测建模之前必须解决的问题,根据负荷曲线相似性和平滑性的特性,我们设计了一个由Kohonen网[1]和若干BP网组成的组合神经网络模型,先利用Kohonen网络对日负荷曲线进行分类,确定出每一类负荷曲线的特征曲线,然后用BP网对特征曲线进行辨识训练,最后利用特征曲线对坏数据进行调整。
在短期负荷预测中除了考虑到负荷本身的时间序列外,还要考虑到多种非负荷因素的影响,如气象,节假日等,在传统的预测方法中只有人工神经网络[1]和模糊推理系统[4]可以考虑到不同因素对电力负荷的影响,模糊系统的规则结构适于描述不同种类变量之间的复杂关系,效果较人工神经网络要更清晰直观。输入变量选择和输入空间划分是模糊建模的前提,对于电力负荷的大样本数据,要正确反映输入变量对输出值的影响的重要性程度和他们之间的实际关系,必须建立一个更为简便有效的分类模型,以完成模糊推理系统的结构辨识,根据数据挖掘技术中的一种重要的分类思想,既从大量定性与定量的数据中学会一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个,我们采用了分类和回归树(CART,classificationandregressiontree)算法[3]构造了这个模型,在此基础上采用TSK模型构造相应的ANFIS(adaptiveneural-fuzzyinferencesystem)网络进行参数辨识。
2 坏数据的辨识与调整的神经网络模型
2.1 坏数据辨识与调整的基本思想
坏数据辨识的过程包含了两个问题:首先从大量可能含有坏数据的负荷曲线中提取正常曲线模式,然后实现不正常曲线模式与正常曲线模式的分类。
我们可以采用一种抗差性能较好的聚类方法,将正常曲线和含有坏数据的曲线以及与它们相似的其他曲线聚成一类,那么,这一聚类的代表曲线是一条没有坏数据特征的正常负荷曲线。当一个聚类成功的产生后,该类的正常曲线模式只有一类,即这一聚类的特征曲线。但是,不正常曲线模式的类别数量非常大。以每天96个采样为例,每个数据点可能有三种模式:过高和过低的两种坏数据模式和一种正常数据模式。总的坏数据模式组合就有396-1种,显然,把它们一个个精确地描述出来是不可能的,必须采用一种泛化能力较强的分类算法,用较少的、有代表性的坏数据模式将这一分类算法模型建立起来,那么,其他的坏数据模式就可以用它辨识出来。坏数据准确定位以后,还需要按照正常数据的模式加以调整。每一聚类的代表曲线为调整坏数据提供了参考依据,这样调整的结果尽可能地“复原”了正常模式应有的负荷值。
2.2 Kohonen网进行负荷曲线抗差聚类和产生特征曲线
聚类的方法有多种,其中有一类重要的自组织神经网络方法,不需要或极少需要数据矢量的先验知识,抗差性能好,而且使用极为方便,我们采用了自组织特征映射算法实现负荷曲线的抗差聚类。
自组织特征映射的重要特征是其相邻神经元之间的侧反馈。图1为自组织特征映射网络的拓扑结构,该网仅有输入层和输出层,两层之间为全互联结,输出层神经元之间存在侧反馈。网络经过训练以后,每一输出节点所连接的权矢量即为该节点所代表模式类的特征矢量。
每天的负荷数据作为一个输入矢量,将某时期负荷作为输入样本集对Kohonen网进行训练。训练结束后,每一聚类的特征矢量对应一条日负荷特征曲线。2.3 非正常曲线模式分类
采用多输出BP完成非正常曲线模式分类的任务。BP网分类模型的建立分两个步骤:训练样本集的产生和网络的训练。也就是存在两个问题:①以少量的训练样本获得对于巨量的坏数据模式的识别能力;②尽可能缩短网络的训练时间。
2.3.1 BP网
反向传播神经网络(BP网)[1]算法是数据挖掘中的一种重要的和有效的算法。它可以实现从输入到输出的任意复杂的非线性映射关系,并具有良好的泛化能力,能够完成复杂模式识别的任务。其缺点为收敛速度慢,并存在许多局部极小值,为此,采用附加动量法和自适应调整学习率相结合的方法对BP算法加以改进[2]。
2.3.2 用特征曲线产生BP网训练样本集
设Kohonen网将负荷曲线分成S类,则同时产生S条特征曲线,记为X1,…,Xi,…,XS,共对应S个BP网,记为BP1,…,BPS。每个BP网的输入层和输出层的神经元数目相同,输出分量的值指示对应的输入分量是否为坏数据。规定所有BP网的结构,即隐层数及各层节点数完全相同。以BP1为例,输入输出样本集的生成过程如下。
(1)将特征曲线X1作为一个输入样本,对应输出样本Y为(0,…,0);
(2)将X1的第一个分量叠加一个偏差e(e为一个正数,大小依经验而定),即
产生一条含有一个坏数据的曲线,对应输出Y为(c,0,…,0),c为小于1的正数。其余分量均如此处理,得到正偏差样本集;
(3)将e换成-e,c换成-c,重复第(2)步,得到负偏差样本集。至此,BP1的样本集就形成了。
用类似的方法得到BP2,…,BPS的输入输出样本集。
2.3.3 BP网的训练
先将BP1中的权值初始化为随机数,用前述的改进的BP网训练算法对BP1进行训练,得到权值集合P1。然后将P1作为BP2的初始权值对BP2进行训练,得到权值集合P2。类似地,BPi+1的初始值Pi+1选为BPi的训练结果Pi,直至全部BP子网训练完成。显然,由P1,…,Ps对应的解空间中S个点连成的曲线是求解BPs网的一条较短的路线。
2.4 坏数据辨识的组合神经网络模型
完成了以上的讨论,就可以建立如图2所示的组合神经网络。模型第一层为Kohonen自组织特征映射网络,将样本曲线进行聚类,并给出各类的特征曲线;第二层为若干BP子网,由各类的特征曲线产生的,一次只能有一个BP子网被激活,实现坏数据精确定位。整个网络训练好之后,即可以用它来辨识坏数据。设定一个正常数据接受域[-d,+d],(0<d<0.5)。将待检曲线X输入Kohonen网,与该曲线相似度最大的特征曲线所对应的输出神经元值为1,该神经元激活由此特征曲线训练得到的BP网;以待检曲线作为该BP网的输入矢量,其输出即为网络输出矢量Y。Y的超出接受域范围的分量所对应的输入分量即为坏数据。
2.5 基于特征曲线的坏数据的调整
调整方法是将特征曲线Xt的相应段平移到被检曲线Xd上。设检出某曲线Xd的p点至q点为坏数据,其特征曲线为Xt,修正后的曲线为Xr,采用式(2)对坏数据进行调整。
i=p,p+1,…,q
调整结果使得修正后的曲线Xr更加符合本类曲线的特征。即使偶有正常数据被误检为坏[1][2]下一页