光伏发电功率预测与模型分析
光伏发电功率预测与模型分析摘要近年来,随着对可再生能源需求的日益提高,太阳能光伏发电技术得到了迅速的发展,大规模光伏发电系统的应用也日益广泛起来,但也随之出现了很多问题。由于太阳辐射量与季度、阴晴及昼夜等气象条件密切相关,从而造成了光伏发电系统输出功率的随机性和间歇性的固有缺点,而且考虑到储能技术上的不成熟等因素,当大量的光伏发电系统接入电网时,势必会对电力系统的安全稳定运行和电能质量等带来严峻挑战,从而限制光伏发电产业的发展,所以对光伏发电系统输出功率进行预测对于电力系统运行而言具有非常重要的意义。本文通过对影响光伏发电功率因素进行分析对目前现有的光伏发电功率预测方法进行分类,并根据统计方法和物理方法为依据,对太阳辐照量预测进行预测和直接对光伏发电系统的输出功率预测两种方法进行阐述和细化对比。再根据各自所使用的数学模型不同将预测方法分为时间序列法、神经网络法、支持向量机方法、回归分析方法和智能预测方法 [6]。最后对不同分类的预测方法及相应的数学模型进行分析阐述和对比,说明其适用范围及精确度,并对其可行性进行分析,提出在功率预测中需要解决的问题。关键词:光伏系统;功率预测;数学模型;方法Abstrackt\ In recent years, with the demand for renewable energy increasing, solar photovoltaic technology has been rapid development of large-scale photovoltaic power generation system applications are increasingly widespread up, but also will be a lot of problems. Since the amount of solar radiation quarter, Teenage and other weather conditions closely related to circadian, resulting in a power output of photovoltaic power generation system and intermittent randomness inherent shortcomings, and taking into account factors such as energy storage technology immaturity, when a large number PV system connected to the grid ,it must have a safe and stable operation of power systems and power quality pose serious challenges, thus limiting the development of photovoltaic power generation industry, so the output power of the photovoltaic power generation system to predict in terms of the power system operation has a very important significance.Based on the impact of photovoltaic power factor analysis on currently available PV power prediction method for classification, and physical methods based on statistical methods and is based on the amount of solar radiation forecasts and projections directly to the output power of photovoltaic systems forecast describes two methods and refined contrast. And then according to their mathematical models used to forecast method is divided into different time series, neural networks, support vector machine, regression analysis and intelligent prediction method. Finally, the prediction of different classification methods and the corresponding mathematical model to analyze and compare elaborated, indicating its scope and accuracy, and its feasibility analysis, forecasting in power need to be resolved.Keywords: PV systerm; Power Prediction; Mathematical model; Method1 前言1.1 光伏产业国内外发展现状 太阳能作为一种新型可再生能源,与传统能源相比具有可再生,无污染,来源广泛等优点是替代化石能源的主要选择。太阳能光伏发电产业是 20 世纪 80 年代以后世界上增长最快的高新技术产业之一。1839 年,法国的科学家 Becqurel就发现,光照能够使半导体材料不同部位之间产生电位差,这种现象被称为“光伏效应” 。每秒到达地面的太阳光能量高达 80 万千瓦,假设把到达地球表面 0.1%的太阳能转为电能,转化率 5%,每年的发电量就能达到 5.6 1012 千瓦时,相当于世界能耗量的 40 倍。正是由于这些优势,太阳能电池不断发展,种类日益增多、应用范围逐步增大、市场规模也不断地扩大作为太阳能的重要应用,光伏发电技术已经成为各国争相发展的新能源技术之一。2011 年,美国提出“太阳能先导计划”意在降低太阳能光伏发电的成本,使其 2015 年达到商业化竞争的水平;日本也提出了在 2020 年达到 28GW 的光伏发电总量;欧洲光伏协会提出了“setfor2020 ”规划,规划在 2020 年让光伏发电做到商业化竞争,可见,在发展低碳经济的大背景下,各国政府对光伏发电的认可度逐渐提高。中国也不甘落后,据业内估计,2011 年我国新增光伏装机量有达到 2.5GW,同比增长 400%。十二五相关规划也将 2015 年的光伏装机目标从 10GW 上调到 15GW,2020 年将达到 50GW。随着光伏技术的不断发展,光伏发电的成本也随之不断下降,再加上各国对光伏产业的支持力度,我们有理由相信大规模利用光伏发电为人类提供服务的前景将更加广阔。光伏系统发电的竞争力正在不断提高,已经成为了最受重视的新能源发电技术。太阳能光伏发电系统工作原理是当有太阳光的时候,太阳能电池将光能转换为电能输出,多组太阳能组件构成的方阵输出电流并通过接线箱进行汇总,然后输入能源分配系统。输入电能一方面通过充放电单元给蓄电池组进行充电,另一方面通过逆变系统在能源分配单元的控制作用下给负载供电,平衡分配通过太阳能转化的电能与电网电能,做到优先充分利用太阳能电力,同时能源分配单元保证当太阳能不足时,及时切换至由电网供电。目前,光伏发电产品主要用于三大方面:一是提供电源 ,主要为广大无电地区居民生活生产提供电力,还包括一些移动电源和备用电源;二是太阳能日用电子产品,如各类太阳能充电器,太阳能路灯等;三是并网发电 ,这在发达国家己经大面积推广实行,如德国“10 万屋顶计划”和美国“百万个太阳能屋顶计划“。我国并网发电刚起步,2008 年北京/绿色奥运部分用电就由太阳能发电和风力发电提供 ,还有 2011 年甘肃最大光伏发电项目——敦煌太阳能综合利用示范项目暨 100 兆瓦光伏并网发电项目在敦煌建成投产,2011 年世界最大的屋顶电站项目——兴业太阳能 20 兆瓦屋顶电站项目实现投产。1.2 课题研究背景光伏发电功率预测预测是能量管理中急需解决的问题。光伏发电与风力发电一样,均属于波动性和间歇性电源,同时,各用户或小区使用的光伏电池种类及其安装位置随机性也大,光伏发电系统受光照强度和环境温度等气候因素的影响,输出功率的变化具有不确定性,输出功率的扰动将有可能影响电网的稳定,因此,需要加强光伏发电功率预测的研究,预先获得光伏发电系统的日发电量曲线,从而协调电力系统制定发电计划,减少光伏发电的随机化问题对电力系统的影响。使用蓄电池来稳定光伏发电功率输出是一种可行的方法,但需要追加成本,而且废旧蓄电池还会导致环境污染。因此,需要对光伏系统的发电功率进行准确预测,以便了解大规模的太阳能光伏并网系统的发电运行特性以及与电网调度、电力负荷等的配合问题,这样有助于整个电力系统的规划和运行,从而减少光伏发电随机性对电力系统的影响,提高系统的安全稳定性。因此对光伏系统进行功率预测是很有必要的。1.3 课题研究意义目前随着大规模的光伏发电系统应用日益广泛,也出现了越来越多的问题。由于太阳辐射量同季度、昼夜及阴晴等气象条件有关,造成光伏发电系统输出功率间歇性和随机性的固有缺点,而且目前存在储能技术不成熟等因素,当大量的光伏发电系统接入电网时,势必会对电力系统的安全稳定运行和电能质量等带来严峻挑战,从而限制光伏发电的发展速度和规模,所以对光伏发电系统输出功率进行预测对于电力系统运行具有非常重要的意义。1.4 国内外对预测方法研究的发展现状目前,国外以欧洲、日本等国家的光伏发电系统输出功率预测技术研究已有一定的研究进展,如丹麦、西班牙、意大利、日本等国已开展和研发利用气象预报信息对光伏电站输出功率进行预测的研究和应用。丹麦 ENFOR 公司开发的 SOLARFOR 系统是较具代表性的光伏发电输出功率预测系统,其将输出功率历史数据、短期的数值天气预报信息、地理信息、日期等要素进行结合,利用自适应的统计模型对光伏发电系统的短期(0~48h)输出功率进行预测。意大利 Jijel 大学 Adel Mellit 等对的里雅斯特地区(意大利)的 20KW 并网光伏电站所在地气象数据和系统功率数据进行采集和分析,利用两种人工神经网络模型(太阳辐照量和气温作为网络输入)对系统输出功率进行预测,平均偏差仅为 3.1%和 5.4%[16]。西班牙 Joen 大学 Almonacid 等采用神经网络方法,以实时测量的光伏阵列温度、太阳总辐照量为输入值,对应条件下实测电流-电压曲线为目标函数,利用反向传播算法 L-M 优化方法,训练多层传感器(MLP) 模型,求解出逼近实际工况的电流-电压曲线,建立了光伏发电量与太阳总辐照量、光伏电池板温度之间的函数关系,对 Joen 大学 19.08 kW 的光伏电站输出功率进行预测,经校验,2003 年发电量预报值与实测数据的历史相关系数高达0.998[17]。印度 Sudipta Chakraborty 等人采用每小时的测量信息(太阳辐照量、温度、压力、湿度、日照时间等)作为输入,利用模糊自适应谐振网络预测每小时的日类型信息,然后由日类型信息计算光伏阵列的输出功率,取得较好的预测效果。德国 Oldenburg 大学 Lorenz 等人根据欧洲中尺度天气预报中心(ECMWF)提供的未来 3 天太阳总辐照预报数据,结合德国境内 11 个光伏电站观测资料来预报光伏发电量,在 2007 年 4 月和 7 月,光伏发电量预报的相对均方根误差分别为 39%和 22%[18]。日本 Ryukyus 大学 Atsushi Yona 等人将前 18小时温度、气压、相对湿度、风速等作为神经网络输入,分别利用前馈神经网络、径向基神经和递归神经网络对太阳辐照量进行预测,进而得出光伏发电系统输出功率,取得较好的预测效果,也具有较好的代表性 [19]。日本 NTT Facilities 公司 Kudo 等人根据历史气象资料和日本爱知县世博园区 330 kW 光伏系统发电量数据,进行多元回归分析,建立预报方程,预测未来一天 05:00—19:00 的逐时发电量,并利用“预报+实测+临近订正 ”的方案,降低了天气预报误差对于输出功率预测准确性的影响。经校验,2005 年 3 月 25 日至 9 月 26日,日均发电量预报误差为 25.6%,时均预报误差为 30.53%[20]。目前国内对光伏发电系统输出功率预测技术尚处于理论性研发阶段。湖北省气象局牵头的“太阳能光伏预报系统研究”项目,根据光伏电站未来 3 天逐时辐照量和输出功率,并采用了两种发电量预报方法,一是基于大气辐照传输、光电转换、直流/交流变换(DC/AC)和交流并网等系列物理原理的原理预报法,二是基于数值天气预报(NWP)模式产品、光伏电站发电量数据结合的动力统计法。两种方法结合进行预测,目前该项目也处于研发实施阶段 [21]。华中科技大学陈昌松等人结合这些光伏阵列历史输出功率数据和同期气象数据(日最高气温、日天气类型)分析,利用 BP 神经网络、径向基神经网络方法等,对复杂的气象数据进行模糊识别,将天气情况按照天气类型晴天/云天 / 雨天划分,建立了基于逐日天气预报信息的光伏发电阵列输出功率预测模型。该方法对晴天类型发电量预测误差较好(7.15%-13.62%) ,但对一天内天气类型剧烈变化的情况时则无法满足逐时预报的要求 [22]。合肥工业大学丁明等提出基于马尔可夫链的直接预测光伏电站出力的方法。该方法对教育部光伏系统工程研究中心的并网光伏发电系统历史功率数据建立多个状态转移矩阵来直接预测光伏电站出力,避免了对光伏系统逆变模型的具体建模及光照数据的采集和转换过程。取得较好的预测结果(晴天时:-80.76%~9.92% ) ,但在不同的日类型下该方法可行性还有待验证[23] 东北电力大学兰华等利用自回归滑动平均模型(ARMA)对东北某光伏电站的输出功率进行预测研究,具有一定的代表性和可行性,但在没有考虑气象因素的复杂多变性,模型的预测实用性也有待检验。华北电力大学栗然等人建立光伏组件数学模型,根据保定地区气象资料,利用光伏发电系统仿真建模软件 Homer 模拟仿真了 30MW 光伏电站输出功率数据,利用支持向量机回归分析方法,进行输出功率预测。但该方法无实际光伏电站的实况发电量资料,缺乏实验验证,对实际光伏电站输出功率预报的指导意义也有限。经过长期的学习和研究,目前国内外已经提出很多用于光伏系统发电功率预测的算法常用的光伏发电功率预测的方法分两种:第一种是不预测周围的环境因素而直接进行预测,例如 ANN 模型、马尔可夫链模型、灰度模型和统计模型等;另一种是通过相关因素的情况,间接的预测输出功率,相关因素包括福照强度、温度、风速等。灰度预测模型适用于信息不完整、不确定的情况,其优点是可以用较少的数据对未知系统作出判断。使用灰度模型可以简化光伏发电功率预测过程,但预测精度不高 [12],所以一般不采用。1.5 预测方法概述光伏功率预测从预测方法上可以分为统计方法和物理方法两类。统计方法对历史数据进行统计分析,找出其内在规律并用于预测;物理方法则将气象预测数据作为输入值,采用物理方程进行预测。而从时间尺度上可以把光伏发电功率预测分为超短期功率预测和短期功率预测。光伏发电系统输出功率预测方法根据预测的物理量可以分为两类:第一类为对太阳辐照量的预测,然后根据预测的太阳辐照量估算光伏发电系统的功率输出;第二类为直接对光伏发电系统的输出功率进行预测。而根据所运用的数学模型不同可分为时间序列预测法、自回归滑动平均模型法、神经网络法和智能方法等。时间序列法:时间序列模型是最经典、最系统、最被广泛采用的一类预测法 [ 7 −8]。随机时间序列方法只需单一时间序列即可预测,实现比较简单。回归分析方法:回归预测技术是通过回归分析,寻找预测对象与影响因素之间的相关关系,建立回归模型进行预测;根据给定的预测对象和影响因素数据,研究预测对象和影响因素之间的关系,形成回归方程;根据回归方程,给定各自变量数值,即可求出因变量值即预测对象预测值。人工神经网络方法:运用神经网络技术进行电力负荷预测,是一种新的研究方法,由于它可以模仿人脑的智能化处理,对大量非结构、非精确性规律具有自适应功能,具有信息记忆、自主学习、知识推理和优化计算的特点,特别是其自学习和自适应功能较好的解决了天气和温度等因素与负荷的对应关系。所以,人工神经网络得到了许多中外学者的赞誉,预测的人工神经网络的最具潜力的应用领域之一。支持向量机方法:支持向量机(Support Vector Machines, SVM)是由贝尔实验室的 Vapnik 等提出的一种机器学习算法,它与传统的神经网络学习方法不同实现了结构风险最小化原理(SRM),它同时最小化经验风险与 VC 维的界,这就取得了较小的实际风险即对未来样本有较好的泛化性能。小波分析方法:小波分析在时域和频域都有良好的局部化性质,能够比较容易地捕捉和分析微弱信号,聚焦到信号的任意细节部分。小波分析可以用于数据的分析、处理、存储和传递 [13-15]。组合预测方法:是对多种预测方法得到的预测结果,选取适当的权重进行加权平均的一种预测方法。组合预测法与前面介绍的各种方法结合进行预测的方式不同,它是几种方法分别预测后,再对多种结果进行分析处理。组合预测[14]有两类方法:一种是指将几种预测方法所得的结果进行比较,选取误差最小的模型进行预测;另外一种是将几种结果按一定的权重进行加权平均,该方法建立在最大信息利用的基础上,优化组合了多种模型所包含的信息。其主要目的在于消除单一预测方法可能存在的较大偏差,提高预测的准确性。2 光伏发电系统特性概述2.1 光伏系统组成(1)光伏电池:光伏电池是光电转换的最小基本单元,尺寸一般为 4 平方厘米到 100 平方厘米不等。单体光伏电池的工作电压约为 0.5V,工作电流约为 20 到 25mA/c㎡,由于单体光伏电池容量有限,一般不能单独使用。将光伏电池独立的光伏发电系统由光伏电池阵列、控制器、蓄电池组、直流/交流逆变器等部分组成,其系统组成如图 2.2 所示 [26-28]。单体进行串并联封装后,就成为光伏电池组件,其功一般为几瓦至几十瓦,是可以单独电源使用的最小单元。光伏电池组件再经过串并联组合安装在支架上,就构成了光伏方阵,可以满足负载所要求的输出功率。(2)控制器:控制器是能自动防止蓄电池组过充电和过放电并具有简单测量功能的电子设备。由于蓄电池组被过充电或过放电后将严重影响其性能和寿命,充放电控制器在独立光伏发电系统中一般是必不可少的。(3)逆变器:逆变器是将直流电变换成交流电的电子设备。由于光伏电池和蓄电池发出的是直流电,当负载是交流负载时,逆变器是不可缺少的。逆变器按运行方式,可分为独立运行逆变器和并网逆变器。独立运行逆变器用于独立运行的光伏电池发电系统,为独立负载供电。(4)蓄电池组件:蓄电池组件作用是储存光伏电池方阵受光照时所发出的电能并可随时向负载供电。目前我国与光伏电池发电系统配套使用的蓄电池主要是铅酸蓄电池和镉镍蓄电池。2.2 光伏电池的特性在无光的环境下,光伏电池的输出伏安特性与二极管相似。根据光伏电池的输出特性和内部结构,光伏电池单元可以等效为如图 2-2 所示的电路。等效电路由一个二极管、一个电流源、一个阻抗较高的电阻 和一个阻抗较低的电阻shR相串联组成。图中, 为电池产生的电流, 为经过二极管的电流,I 为电池sRphIdI的输出电流。在电路模型中,电流源产生的屯流 与入射到电池上的光强强度ph成正比关系,受温度的影响比较少;串联电阻 是为了使模型更加准确的表征从s电池最大功率点到开路电压这个范围内的伏安特性,并联电阻 为了使模型更shR加准确的表征从电池的最大功率点到零工作电压这个范围内的伏安特性。由单体光伏电池等效电路可得出: Iph - Id = Ish,其中 Iph是光伏电池的光电流,Id 是通过二极管的电流,U 是通过并联电阻的电流,I 是光伏电池的输出电流。2.3 影响光伏系统输出功率的因素由于受很多气象因素影响,太阳能发电系统的输出功率是不稳定和难以控制的。影响太阳能光伏系统功率输出的因素很多,关系很复杂,有些文献甚至列举了修正系数来使模型更好的反映这些因素。实际上现场条件和运行情况变化无常,既无法事先确定各因素大小,也完全没有必要作如此细致的区分。因此,本文只考虑如下几个主要因素:太阳福照强度、组件温度和太阳能光伏电池的转换效率。1.太阳福照强度发电功率随着太阳辐照强度的波动而变化,太阳福射强度是影响输出功率的主要因素。当太阳电池的面积确定时,其输出电流与太阳福照强度成正比,因此,当太阳福照强度增加时,光伏系统输出功率也会随之增加。而太阳福照强度是由许多不确定因素决定,如季节和地理位置等。此外,天气情况、太阳照射角度、观测円期、时间和云量都会对太阳福照度造成很大影响。由于受太阳辐射度的影响,光伏输出功率有很强的周期性,包括日周期和年周期。光伏发电系统通常在上午 8:00 和下午 5:00 之间产生输出,因此在并网时会对电网产生周期性的不稳定影响。因为太阳福照强度具有随机性,使得确定光伏系统各方阵面上各个时段太阳福照量的确切值变得相当困难,只能参考气象台的历史资料记录,但是通常气象台站提供的是水平面上的太阳福照量,若要使用其进行预测,需要转换为倾斜方阵面上的福照量。太阳福照强度可定义为照射到单位时间单位面积上的太阳光能量(单位 :w/㎡) 。太阳福射经过大气,其中部分到达地面,称为直接太阳福射; 另一部分被大气分子及大气中的水汽、尘埃等反射、散射和吸收。被散射的太阳光包括返回宇宙空间的部分和到达地面的部分,到达地面的部分太阳光称为散射太阳福射。直接太阳福射和散射太阳福射之和称为总福射,为太阳能光伏发电系统所利用。影响太阳总辐射强度的因素可归纳总结如下:(1)太阳光入射角 h:入射角越大太阳总福射越大; (2)大气透明度 P; 大气透明度低会减少到达地面的太阳福射;(3)大气质量 m,m 越大,到达地面的太阳总辐射越少。此外,海拔、炜度、云量和坡度坡向等也有直接或间接的影啊;(4)炜度:讳度越尚,太阳光入射角越小,故总福射越低;(5)海拔越高,地面接受的太阳直接福射越强;(6) 坡度坡向: 南北回归线以南以北地区,明显表现出南坡向阳、北坡背阴,并且冬季比夏季更加显著;(7)云量:一般情况下 ,云层越厚,云量越大,太阳直接福射越弱,散射福射量增加。(2)光伏电池的温度观察公式,可以发现温度对太阳能电池的转换效率也有一定的影响,与转换效率成反比。高温会降低光伏电池的转换效率。温度升高1 摄氏度晶体娃电池的输出电压就会大约降低 0.5%,所以尽量保证安电池板在安装以后上下面的空气流通以达到尽可能低的温度。太阳能电池内部的温度一般会高于环境温度,实际运行中的太阳能电池的温度由多个参数决定,包括太阳福照强度、地面福射量、环境温度、风向、风速、浮尘等,很难准确计算得出。为了简化预测过程,也可以假设电池内部的温度与外部环境温度相等。2.4 光伏电池组件的出力模型太阳能电池是太阳能光伏发电系统中最基本的元件,主要分为多晶娃、非晶硅、薄膜电池和单品娃等。目前,单晶电池及多晶电池的用量是最大的,而非晶电池主要用于部分较小系统,如计算器辅助电源等。国产晶体娃电池效率在10%-13%左右,国外同类产品效率约 12%-14%。设 P 时刻的温度是 Tp,那么光伏电池的转换效率可以用公式表示: η=η0[1-r(Tp-Tr)] 。其中 ,r 表示参考温度(298K) , η0 表示在参考温度下光伏电池的转换效率;r 表示光伏电池的温度系数,值通常取 0.005。光伏系统输出功率和太阳福照度成正比,而每块电池组件的输出通常是由功率计量,因此 t 时刻的功率输出可进一步表示为:P =I*A*η,其中:A 表示光伏电池的面积,单位为平方米;η 表示光伏电池转换效率;I 表示光伏板斜面上受到的太阳辖照强度,单位为千瓦每平方米。如果 t 时刻有 n 块光伏板工作,总功率输出则为 nP。3 功率预测基本方法及特点3.1 基于支持向量机回归的预测方法3.1.1 支持向量机方法及其特点支持向量机是最先进的机器学习理论之一在各领域得到广泛应用。支持向量机将数据点由输入空间映射到更揚分类的特征空间,并且使分隔超平面之间的距离最远,而每个类别中各点的距离最近。映射由核函数隐式的决定,核函数用来计算特征空间内数据点之间的内积。正是由于使用了 “核技术”,SVM 避免了维数灾难,即特征空间的维度不影响 SVM 训练和测试的计算复杂度。然而,考虑到核函数是输入空间中的二维函数,训练和测试的计算复杂度依赖于输入空间的维度。支持向量机是一个统计学和计算机科学中的概念,为一些能够进行分析数据和模式识别的监督式学习方法而提出,用于进行分类和回归分析。支持向量机在高维或无限维的空间构造一个或一组超平面,这些超平面可以用来进行分类、回归或其他工作。直观地讲,一个好的划分是通过使超平面与各分类最近的训练数据点之间距离最大来实现的,因此,通常距离越远,分类器产生的误差就越小。然而,初始问题可能是一个有限的多维空间,在这个空间内,通常集合不是线性可分的。因此,提出了将初始有限多维空间映射到更高维空间的方法,假设在这个空间里划分变得更容易。为了保持计算负荷的合理性,需要设计合适的映射方法,以此来保证从变量的角度看,能够容易的计算出原空间中点的内积,通过选择合适的核函数 K(x,y)的方式可以解决这个问题 [28]。高维空间中的超平面定义为一组点的集合,这些点的内积向量在这个空间内是恒定的。定义超平面的向量可以选择数据库中特征向量参数的线性组合。使用这样的一个超平原特征空间中映射到超平面上的点 X 被定义为如下式:,taniakjcos注意:如果 y 离 X 越远,K(x,y)随之变小,则每个元素确定了测试点 x 与对应的数据基点 Xj 的接近程度。这样,上面的核函数的总和可以用来确定每个测试点与源于同一个或者另一个待分类集合的数据点的相对接近程度。支持向量机的推广性能(估计精度)决定于变换参数和核函数参数的设置。事实上,支持向量机模型的复杂性(包括推广性)依赖于三个参数的共同作用,这增加了选择最佳参数的复杂性。选择特定的核函数类型和核函数参数通常要基于应用领域的知识,并且要反映训练数据输入值的分布情况。支持向量机可以用于避免在高维特征空间使用线性函数的困难,而且最优化问题可以转换为对偶的凸二次规划问题,这也是支持向量机算法的一个优点。支持向量机(SVM)有如下几个特点:1. SVM 用内急核函数代替高维空间的非线性映射;非线性映射是 SVM 方法的理论基础,SVM 利用内积核函数代替向高维空间的非线性映射; 2. 对特征空间划分的最优超平面是 SVM 的目标,最大化分类边际的思想是 SVM方法的核心; 3. 支持向量是 SVM 的训练结果,在 SVM 分类决策中起决定作用的是支持向量;4. SVM 是一种有坚实理论基础的新颖的小样本学习方法。5. 它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。7. 从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”, 大大简化了通常的分类和回归等问题;6. SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目, 而不是样本空间的维数,这在某种意义上避免了“维数灾难” ;7. 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、 “剔除”大量冗余样本, 而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。与此同时这种方法也存在有两个不足:1.SVM 算法对大规模训练样本难以实施由于 SVM 是借助二次规划来求解支持向量,而求解二次规划将涉及 m 阶矩阵的计算(m 为样本的个数) ,当 m 数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有 J.Platt 的 SMO 算法、T.Joachims 的 SVM、C.J.C.Burges 等的 PCGC、张学工的 CSVM 以及 O.L.Mangasarian 等的 SOR 算法2.用 SVM 解决多分类问题存在困难经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和 SVM 决策树;再就是通过构造多个分类器的组合来解决。主要原理是克服 SVM 固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。3.1.2 支持向量机回归算法及特点 支持向量机不但可以应用于分类问题,还可以解决回归问题。VladimirVapnik, Harris Drucker, Chris Burges, Linda Kaufman 和 Alex Smolal996 年提出了用于回归分析的 SVM,叫做支持向量回归[29](support vector regression,SVR),由上面描述的支持向量分类演变而来。因为到分隔边缘距离很远的训练样本点不会对用来建立模型的成本函数造成影响,所以支持向量分类模型仅依赖于训练数据集的一个子集类似地,由于成本函数忽略了任何预测模型附近的训练数据(使用阈值),支持向量回归模型也仅仅依赖训练数据集的一个子集。支持向量分类和回归问题中一个重要的观点:使用训练点的较小子集来解决问题可产生极大的计算量优势。使用显示密集损失函数,保证了全局最小值的存在,同时也确保了可靠的泛化边界的最优化。支持向量机的推广性能(估计精度)决定于变换参数(c, )和核函数参数的设置。事实上,支持向量机模型的复杂性(包括推广性)依赖于三个参数的共同作用,这增加了选择最佳参数的复杂性。选择特定的核函数类型和核函数参数通常要基于应用领域的知识,并且要反映训练数据输入值(X)的分布情况。参数 C 决定模型复杂度和最优化方程能够容忍误差大于 的程度之间的平衡。例如:如果C 无穷大,那么目标变为仅仅将经验风险最小化,不考虑优化方程中模型复杂度的部分。参数 控制延迟区域的宽度,用于适应训练数据。f 的值能够影响用来构造回归函数的支持向量的个数。 值越大,选择的支持向量越少。另一方面,f值越大,得到的估计结果越平滑。因此,C 和 的取值在不同的方面影响着模型的复杂度。支持向量机可以用于避免在高维特征空间使用线性函数的困难,而且最优化问题可以转换为对偶的凸二次规划问题,这也是支持向量机算法的一个优点。在回归问题中损失函数用于惩罚超过 P 阈值的错误。这种惩罚函数通常可以推导出决策规则的稀疏矩阵表示,并提供有效的算法。3.2 基于径向神经网络的预测方法3.2.1 神经网络预测方法基础下图表示出了作为人工神经网络(artificial neural network,以下简称 NN)的基本单元的神经元模型,它有三个基本要素:(1)一组连接(对应于生物神经元的突触) ,连接强度由各连接上的权值表示,权值为正表示激活,为负表示抑制。(2)一个求和单元,用于求取各输入信号的加权和(线性组合) 。(3)一个非线性激活函数,起非线性映射作用并将神经元输出幅度限制在一定范围内(一般限制在 ( 0,1)或 (−1 ,1)之间) 。除单元特性外,网络的拓扑结构也是 NN 的一个重要特性。从连接方式看 NN主要有两种。(1)前馈型网络各神经元接受前一层的输入,并输出给下一层,没有反馈。结点分为两类,即输入单元和计算单元,每一计算单元可有任意个输入,但只有一个输出(它可耦合到任意多个其它结点作为其输入) 。通常前馈网络可分为不同的层,第 i层的输入只与第 i −1 层输出相连,输入和输出结点与外界相连,而其它中间层则称为隐层。(2)反馈型网络所有结点都是计算单元,同时也可接受输入,并向外界输出。NN 的工作过程主要分为两个阶段:第一个阶段是学习期,此时各计算单元状态不变,各连线上的权值可通过学习来修改;第二阶段是工作期,此时各连接权固定,计算单元状态变化,以达到某种稳定状态。从作用效果看,前馈网络主要是函数映射,可用于模式识别和函数逼近。反馈网络按对能量函数的极小点的利用来分类有两种:第一类是能量函数的所有极小点都起作用,这一类主要用作各种联想存储器;第二类只利用全局极小点,它主要用于求解最优化问题。多层前馈网络中,第一层称为输入层,用以输入已知测量值。中间一层称为处理层或隐单元层,单元个数适当选取,对于它的选取方法,有一些文献进行了讨论,但通过试验来决定,或许是最好的途径。最上面一层称为输出层,用以输出与每一组输入数据相对应的分类信息。对于一个多层网络,如何求得一组恰当的权值,使网络具有特定的功能,在很长一段时间内,曾经是使研究工作者感到困难的一个问题,直到 1985 年,美国加州大学的一个研究小组提出了所谓向后传播算法(Back-Propagation) ,使问题有了重大进展,这一算法也是促成人工神经网络研究迅猛发展的一个原因。3.2.2 径向神经网络特点径向基(RBF)神经网络是一种局部逼近的神经网络。径向基神经网络具有三层结构,第一层由数个感知单元组成,将网络和外界环境连接起来。第二层是隐含层,其执行的是一种用于特征提取的非线性变换,然后作用函数对输入信号在局部产生响应;第三层为网络的输出层,而且网络的输出是线性的,基本结构如图 5.2 所示,与传统的 BP 神经网络相比,RBF 神经网络隐层节点的数目可以根据需要确定,不用专门去选取,也克服了 BP 神经网络收敛速度慢和局部最小等缺点,所以更适用于实时监控的场合。径向基神经网络具有很强的鲁棒性和记忆能力,而且具有较强的非线性映射能力和自学习能力,因此有很大的应用市场。其主要优点有以下几点:(1)它具有唯一最佳逼近的特性且无局部极小问题存在。(2)具有较强的输入和输出映射功能,而且理论上可以证明,径向基神经网络是完成映射功能的最优网络。(3)网络的输出与连接间的权值与呈线性关系。(4)分类能力好。(5)网络在学习过程中,收敛速度较快。3.3 小波分析方法3.3.1 小波相关理论基础小波变换 [32]的基本思想是以一簇函数去表示和逼近一个信号或函数,即将时间信号展开为这一簇函数的线性迭加。这一簇函数称为小波函数族(系) ,它是通过一个基本小波函数的不同尺度的平移和伸缩构成的。基本小波函数是一种持续时间很短的波,但并不是任意持续时间很短的波都是小波。小波具有良好的时域局部化的性质,正是由于基本小波的这个特性,使得小波变换适用于对非平稳信号的时频分析。小波变换在时频域下的局部化特性反应出小波变换的尺度参数 a 和位移参数 b 共同的变化,不仅改变了连续小波函数的频谱结构,也改变了小波窗口大小与形状。这一特点决定了小波变换可以对频率有着自适应的特性,可以充分反映信号的局部情况。Mallat 算法是一种信号的分解方法。S 为原始的输入信号,通过两个互补的滤波器产生 A 和 D 两个信号,A 表示信号的近似值(approximations),D 表示信号的细节值(detail),在许多应用中,信号的低频部分是最重要的,而高频部分起一个频率较高的部分。在小波分析中,近似值是大的缩放因子产生的系数,表示信号的低频分量。而细节值是小的缩放因子产生的系数,表示信号的高频分量。由此可见,离散小波变换可以被表示成由低通滤波器和高通滤波器组成的一棵树。原始信号通过这样的一对滤波器进行的分解叫做一级分解。