随机森林算法应用于锅炉燃料量预测的参数设定.pdf

决策树,参数,平均值,数据,算法,学术文献
文档页数:2
文档大小:2.43MB
文档格式:pdf
文档分类:学术文献
上传会员:
上传日期:
最后更新:

随机森林算法应用于锅炉燃料量预测的参数设定

蔡佳成沈学强

(东北电力大学自动化工程学院吉林吉林132012)

当中,再基于随机盘林算法时也厂煤耗量预洲的一种折思路本文着重对决策树算法与随机森林算法这两种常用的数据分类四归算法进行了比较分析. 摘要:随着经济和信息技术的飞选发展,海量数据已经成为了当今信息社会的一个重要的特点:本文提出了将海量数据应用于电厂运行参数分析并对随机森林算法的参数设定进行了试验分新并得出站论:对目后进行电厂的煤耗量、费荷以及其他运行参数进行研究提供了保障.进而达到根 据电厂负荷的大量历史数据对未来所需的费荷值进行准确预测的目的.

关键词:随机森林算法煤耗量决策树算法参数

文章编号:1007-9416(2016)02-0141-02

中图分类号:TP2742

文献标识码A

tropy=系统的凌乱程度,就是常用经典算法ID3,C4.5生成树算 法使用的.对一个给定的样本分类所需的期望信息由下式给出:

LeoBreiman于2001年发表的文献对随机森林算法做了详细的闸述,给出了随机森林的详细介绍和一系列数学推导,包括随机 森林的定文,算法流程、泛化误差分析,而且给出了一个泛化误差上界,证明了随机森林不会过拟合,并对随机森林的分类强度和相关 度进行研究此外,随机森林还可以得到属性的重要性排序以及样本之间的相似程度度量.

(2)

其中D=s/s是任意样本属于C的概率,注意,对数函数以2为底,其原因是信息用二进制编码.设属性A具有v个不同值ia,a"al可以用属性A将S划分为v个子集S,S, S.其中S中的样本在属 性A上具有相同的值aj=1.2. v)设s是子集S中类C的样本数.由A划分成子集的煸或信息期望由下式给出:

领城得到广泛的研究和应用,包括生物信息学、金融学、医学、经济 由于随机森林具有的良好性能,使得随机森林算法在数据挖据管理学、图像识别、工业自动化等方面

1数据预处理

利用mauab编程对实验所用数据进行相应的去噪声与填补空非数字型字符(NAN)的位置用所求到的平均值代替. 缺值处理.对于每一特征属性值求其平均值,将数据集中空缺值或

期望为: 值越小,子集划分的纯度越高.对于给定的子集S,其信息

随着随机森林集成模型中决策树数目的增长,泛化误差PE'将收效于:

(4)

其中D=s/s是S中样本属于C的概率,在属性A上分枝将获得的信息增益是:

PE P. (P(b(x θ)r)max P(a(x 0)= /)<0)(1) 式中分布率随机向量,(x,)分类器函数,等同于A(x).公式(1)的证明在文献9中已经给出,并且表明随机森林不会出现过拟合.这是随机森林的一个重要特点,随着树的增加,泛化 误差PE*将趋向某一上界.这表明了随机森林系统对噪声具有较好的容忍能力. (5) 表1随机森林与决策树的MAPE比较 预测方法 随机森林 MAPE% 3.84决策树 6.89 2随机森林算法与决策树算法比较分析 决策树是一种十分常用的分类回归方法,决策树又名分类回归树(classregtree),顾名思文,一个用于分类,-个用于回归,此处从预测的角度讲决策树用于回归的功能.在机器学习中,决策树是一个预 测模型,他代表的是对象属性与对象值之间的一种映射关系.En- 表2不同Ntree的MAPE值对比 森林的数目 Ntree 100 MAPE(%) 3.14150 200 2.69 2.42300 250 2.73 2.58 表3不同样本数量S的MAPE值对比 样本数量S MAPE(%)500 2000 3.84 4.015000 10000 4.26 3. 4.05 图1oob error 对比图 作者简介:蔡仕成(1990一)男,辽宁期芦岛人,硕士,研究方向为随机森林算法研究:沈学强(1981一),男,吉林吉林人,博士,副教投,研究方向为 安全相关系统的功能妥全与设计. 算法分析 图2不同样本数量S对texterror的影响 取增益或增益比率最大的属性值作为其分裂点. 随机森林,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林中的任意两棵决策树是相对独立的.对于新来的测试样本,通过每棵决策树都对它进行回归决策,最后的回归 结果由平均值得出.虽然决策树不是很强的分类器,但是通过组合起来的随机森林,却是一种强分类器.由于ID3算法只能用于分类, 因此随机森林常采用Cart算法进行分裂点选择,其核心由Gini指数的大小来衡量,取Gain最小的属性作为分裂点. 本实验从现场可测的数据中选取对锅炉燃煤量预测产生影响的属性 本次实验数据来自某电厂的历史站数据,信息采集频率是20%.error值与使用全部属性时的otberror值对比图像.由图像可知,去 作为其输人属性特征,图1为去掉现场可测属性中的某一属性的oob抑减温水流量、锅炉蒸发量和再热蒸汽压力时随机森林算法的误差反而降低了,因此选取将这三个属性特征去除,不作为预测的属性 值,随后可以对实验数据进行人为的扩充达到多领域大数据的规模重复实验,进行反复多次的测试,最终取平均值作为实验结果. 其中,红色线为使用全部可测属性进行运算的ooberror值,蓝色、黄色和黑色分别是去掉减温水流量、锅炉蒸发量和再热蒸汽压力时算法的ooberror值,绿色为其它属性被去掉时算法的ooberror值. 煤耗量预测结果的评价指标采用平均绝对百分比误差(meanabsolute percentage error MAPE) 表达式为: 号1量的预测中,MAPE值越小,煤耗量的预测值越准. 式中,Y,为预测值,y为真实值,n为预测点的个数.在锅炉煤耗 本次实验将随机森林算法与传统决策树算法进行比较,实验进行多次求取平均值为最终实验结果,采用公式(6)作为评价函数,实 验结果如表1所示.由表I可知,RF的MAPE%为3.84%,而决策树的MAPE%为6.89%,这表明随机森林算法的预测精度高于决策树,这 是因为随机森林是由若干个随机抽取的决策树集成在一起的,具备决策树优点的同时又克服了决策树的一些缺陷,表现出比决策树更好的特性. 3随机森林算法性能分析与重要参数设定 RF利用bootstrap重抽样方法从原始样本中抽取同原始数据样策树,然后融合多棵决策树得出预测结果,在构建RF时,有几个主要 本集个数相同的多个样本构成样本子集,利用每个样本子集构建决参数会影响到RF的性能和效率: 较小时,RF的分类回归误差大、性能也比较差,另一方面,RF具有不 (1)随机森林中树的数量,设Ntree表示RF中树的数量,当Ntree过拟合性质,因此可以使Ntree尽量大,以保证集成分类器的多样 性,但是构建RF的复杂度与Ntree成正比,Ntrxe过大,会使得RF构建时间花费过大.同时森林的规模达到一定程度时,将导致森林的可解释性减弱.因此,Ntree对RF的性能、可解释性和复杂性之间的平 衡都具有重要意义.根据所求出的误差数据可知,在森林中树的个 (6) 参考文献 图3不同样本数量S对ooberror的影响 数不足时.RF的分类回归精度 teserror和ooberror 随着树的 增长而迅速下降.此现象再一次验证了集成分类器优于单个决策树分类器的特征,树的个数足够多时.test error和oob error趋于稳 定,在一定的值上下小幅度波动.同样,根据Ntree的不同对MAPE%值进行比较得出结果如表2所示,Ntree=200时MAPE%值最小. 长对算法预测精度的影响,由图2.图3可得出结论,不同大小样本集 (2)随机森林的训练样本数量S,本实验主要是比较数据量的增的预测精度不一样,但是没有明显的变化规律.表3为S对MAPE%值 得影响结果,可以得出相同结论,验证了试验的正确性,得出了较为准确的结论. 的性能对Min Lea[不敏感.通常情况,随机森林用于回归时 (3)叶节点的样本数,设MinLeaf表示叶节点的最小样本数.RFMinLea[=5,用于分类时MinLea[=1,在决策树中通常设置MinLeaf=2 针对目前信息化时代的到来、各种类型数据信息的指数增长.仅关注该领域的内部数据,面是应该结合可能对其产生影响的多方 因此,当我们对某一专业领域的数据进行预测与分析时,不应该仅信息.目前本文通过实验选取了回归预测较为准确的随机森林算 面因素来综合考虑与分析,并结合其大量的历史性数据得到有效的法,并对其参数进行了有效的设定,对日后进行电厂的煤耗量、负荷以及其他运行参数进行研究提供了坚实的基础.从面达到根据电厂 负荷的大量历史数据对未来所需的负荷值进行准确预测的目的. [1 JMfchael A. King Alan S. Abrahams Cliff T. Ragsdale. En- semble methods for advanced skler days prediction[3]. Expert.Systems with App lications 2014 41(4): . [2]Michae1 A. King Alan S. Abrahams Cliff T. Ragsdale. En semble learning methods for pay-perclick campaign management.[3]Hristjan Gjoreski Bostjan Kaluza Mat.jaz Gams Radoje Milic [J].Expert Ststems with Applicatiors 2014 42(10): .Mitja Lustrek Context-based ensenble method for man energy[43Kunwar P. Singh Shikha Gupta Premanjal1 Ra1. Identifying expenditure estimat:lon[J]. AppTied Soft Computing 201 5 13.semble learning methods[J]. Atmospheric Environment 2013 poTlut:lon sources and predicting urban alr quality using en-80: 426437. [J].Informat:ion and Computation 1995 121(2): 256285. [5]Freund Y. Boost:ing a Weak Leaming Algorithm by Majority [6]Bre iman L. Bagging Predlctors[J]. Machine Learning 1996 24(2): 1231 40. [7]Ho T. The random subspace method for constructing decistonforests[J]. IEEE Transactfons on Patterm Analysis andMach ine Inte11igence 1 998 20(8):832844.

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)