摘 要
啤酒工业是国家社会经济发展的重要产业部门,啤酒企业耗能高是制约企业发展的主要因素。提高资源能源利用效率,实现环保与经济效益的双赢,是啤酒企业实现可持续发展的必由之路。在啤酒生产过程中,寻找并应用节能降耗的方法和技术,不仅可以使企业自身受益,而且对社会的可持续发展将具有重要的作用。因此对啤酒酿造车间的能耗分析对于探求节能技术非常有必要。
本文首先是数据的预处理,数据的预处理主要除去无效的数据并且对原始数据逐行作差,然后采用主成分分析方法,对原始数据降维。可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。最大程度的保持了原有数据的信息。接着对经过降维处理的数据采用聚类分析的方法进行分类。在聚类分析之后采用模糊方法来对每一类进行建模,这里采用MATLAB模糊逻辑工具箱建立模糊模型,并用SIMULINK验证模型。该方法具有简便、直观、高效的特点。
关键词:主成分分析;降维;聚类分析;模糊建模;能耗
- 1 -
北华大学毕业设计(论文)
Abstract
Beer industry is very important in the national socio-economic development sectors, high energy consumption of beer companies are the main factors restricting the development of enterprises. Improving energy efficiency, environmental and economic benefits to achieve a win-win, is the beer business the only way to achieve sustainable development. In the beer production process, to find and apply energy saving methods and technology, not only to benefit the enterprises themselves, but also sustainable development of society will have an important role. Therefore the energy consumption of beer brewing workshop to explore energy-saving technologies is very necessary.
Firstly, we can use principal component analysis method to reduce the original data. This can effectively find the data which is the most \"major\" elements and structures, to remove noise and redundancy, the complexity of the original data dimension, revealing hidden behind the simple and complex data structures. Maximum maintained the original data. Then after reducing the dimension of the data here had used cluster analysis methods are classified. Here the data were normalized after normalization treatment. After using of fuzzy clustering analysis method to model each class, then we can use fuzzy logic toolbox with MATLAB fuzzy model and using SIMULINK to verify the model. The method is simple, intuitive and efficient features.
Key Words:PCA; Dimension reduction; cluster analysis; Fuzzy Modeling; energy
consumption
- 2 -
北华大学毕业设计(论文)
目 录
摘 要 .................................................................................................................................. 1 Abstract ..................................................................................................................................... 2 引 言 .................................................................................................................................. 1 1绪论 ....................................................................................................................................... 2
1.1 课题的研究背景及意义........................................................................................... 2 1.2 国内外研究现状 ....................................................................................................... 2 1.3 研究内容.................................................................................................................... 2 2 原始数据的预处理 .............................................................................................................. 4
2.1 数据预处理的意义 ................................................................................................... 4 2.2 数据预处理的主要方法........................................................................................... 4 2.3 数据来源.................................................................................................................... 5 2.4 数据的清理 ............................................................................................................... 5 2.5 对简化数据逐行求差 ............................................................................................... 5 3 数据的主成分分析 .............................................................................................................. 7
3.1 主成分分析概述 ....................................................................................................... 7 3.2 基本思想.................................................................................................................... 7 3.3 主成分分析的数学原理........................................................................................... 8 3.4 利用Matlab实现主成分分析 ............................................................................... 10
3.4.1 主成分分析概述 .......................................................................................... 10 3.4.2 调用Matlab相关函数实现主成分分析 ................................................... 11 3.5 主成分分析结果分析 ............................................................................................. 16 4 数据的分类 ........................................................................................................................ 19
4.1 聚类分析的概念 ..................................................................................................... 19 4.2 聚类分析的数学原理 ............................................................................................. 20
4.2.1 关于衡量样本相似程度的统计量 ............................................................. 21
- 1 -
北华大学毕业设计(论文)
4.3 系统聚类法 ............................................................................................................. 23
4.3.1 基本思想 ....................................................................................................... 23 4.3.2 聚类模型的建立与求解 .............................................................................. 23 4.3.3 系统聚类法的步骤 ...................................................................................... 25 4.3.4 系统聚类法的统计量 .................................................................................. 25
5 基于Matlab的聚类分析 .................................................................................................. 28
5.1 数据的正规化 ......................................................................................................... 28 5.2 采用凝聚的层次聚类法对数据进行分区 ........................................................... 28 5.3 分区结果.................................................................................................................. 28 5.4 聚类分析小结 ......................................................................................................... 29 6 分区结果模糊模型的建立 ............................................................................................... 30
6.1 模糊建模的基本介绍 ............................................................................................. 30 6.2 模糊控制器输入输出的确定 ................................................................................ 30 6.3 基于MATLAB模糊逻辑工具箱建立模糊模型 ..................................................... 30
6.3.1 隶属度函数的建立 ...................................................................................... 30 6.3.2 模糊规则及决策方法 .................................................................................. 36 6.4 模糊建模小结 ......................................................................................................... 38 7 模型的验证与修正 ............................................................................................................ 39 结 论 ................................................................................................................................ 41 参 考 文 献 .......................................................................................................................... 42 附录A 附录B 附录C
主成分分析主成分系数 ..................................................................................... 44 聚类分析标准化数据 ......................................................................................... 46 聚类分析第三类处理结果 ................................................................................. 48
致 谢 ................................................................................................................................ 51
- 2 -
北华大学毕业设计(论文)
引 言
随着经济的发展,人民生活水平的提高,人们对于啤酒的消费量日益增长,因此啤酒的生产量也剧增,增长幅度也逐年加大,产量增长速度非常迅猛,由于国家GMP认证实施工作的进行,企业的生产成本明显上升,特别是车间的动力消耗居高不下,能耗分析已经成为过程自动化领域的重要研究方向之一。
本文基于聚类模糊方法建立啤酒酿造车间生产能耗模型进而对生产过程进行能耗分析。采用主成分分析方法将过程数据经过标准化处理,从高维数据空间投影到低维特征空间,所得到的特征变量保留了原始数据的特征信息,摒弃了冗余信息,在数据量大、数据维数高、变量间具有相关性的连续过程中,实现生产数据的分析挖掘、精确计算,以便于进一步对数据进行聚类分析。聚类分析是直接比较样本中各指标(或样本)之间的“性质”,将性质相近的归为一类、性质差别较大的归为不同类。衡量指标或样本间性质相近程度的统计量主要分为距离和相似系数两大类。复杂工业过程常常具有强非线性、不确定性、多变量、强耦合以及工况变化频繁等特点,动态特性难于用精确的数学模型描述。
- 1 -
北华大学毕业设计(论文)
1绪论
1.1 课题的研究背景及意义
啤酒工业是国家社会经济发展的重要产业部门,啤酒企业耗能高是制约企业发展的主要因素。提高资源能源利用效率,实现环保与经济效益的双赢,是啤酒企业实现可持续发展的必由之路。随着经济的发展,人民生活水平的提高,人们对于啤酒的消费量日益增长,因此啤酒的生产量也剧增,增长幅度也逐年加大,产量从1991年的838kL飞速上升到2008年的4103kL(国家统计局,2009)。人均消费量也呈逐年增长的趋势,1991年人均消费量为15L,到2008年已经上升到25.6L,已成为世界啤酒产销大国。与此同时,中国啤酒行业又存在着诸多问题,如生产技术及管理水平相对落后,能源消耗居高不下,化学耗氧量(GCD)产生量为36.25万吨,悬浮物质(SS)产生量为15.23万吨。为实现啤酒行业的可持续发展,针对中国啤酒生产实际情况开展对啤酒酿造车间的能耗分析的研究,对寻求啤酒行业“低耗、高产、少排放”的生态途径,推动循环产业发展具有重要现实意义。而由于国家GMP认证实施工作的进行,企业的生产成本明显上升,特别是车间的动力消耗居高不下,啤酒企业维持正常运行的主要能源是电和蒸汽,电靠外部电网输入,热能主要来自企业内部的锅炉,锅炉的主要燃料是煤。啤酒企业主要耗电的工序有包装、制冷、空压、CO2回收、废水处理、空调以及各种泵、风机和电灯;啤酒企业主要热量消耗工序有:糖化、麦汁煮沸、CIP系统P杀菌、加热流体、洗瓶P洗桶、杀菌以及取暖。我国每生产一吨啤酒耗电50~130kWh、耗煤60~160kg。啤酒生产中能源的消耗占生产成本比重10%,因此如何降低GMP认证车间的能耗水平,进而提高产品在市场上的赢利空间和竞争力已成为企业迫切需要解决的问题,在啤酒生产过程中,寻找并应用节能降耗的方法和技术,不仅可以使企业自身受益,而且对社会的可持续发展将具有重要的作用。
1.2 国内外研究现状
目前,国内外一些学者和专家对钢铁、冶金以及水泥行业的物能消耗研究较多,而食品行业的相关研究较少,少数仅限于奶制品等。因此对于啤酒酿造车间的能耗分析非常有必要。
1.3 研究内容
鉴于上述问题的重要性,本文首先对原始数据进行预处理,然后采用主成分分析和聚类分析对生产过程中所采集的数据进行降维、分类,进而建立啤酒酿造车间能耗系统
- 2 -
北华大学毕业设计(论文)
模型,并基于此模型来分析车间的工作状态及能耗水平。研究工作拟从以下几个方面开展:
(1)原始数据的预处理; (2)数据的降维处理; (3)数据的分类方法;
(4)建立能耗分析系统模糊模型。- 3 -
北华大学毕业设计(论文)
2 原始数据的预处理
2.1 数据预处理的意义
现实世界中数据大体上都是不完整,不一致的脏数据,信息多且杂,并且易受噪声数据、空缺数据和不一致性数据的侵扰,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高挖掘结果的质量,使挖掘过程更有效、更容易,由些便产生了数据预处理技术。
2.2 数据预处理的主要方法
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。 (1) 数据清理
首先是处理空缺值,如:要分析某市场的销售和顾客数据,但顾客的income项没有记录,如何处理这类问题:
①忽略元组,忽略整条记录;
②人工填写空缺值,根据其它资料手工填写;
③使用一个全局常量填充空缺值,使所有income项记录都以一个常量(如:2000)填充;
④使用属性的平均值填充空缺值,取得其它记录中该属性的平均值进行填充; ⑤使用与给定元组属同一类的所有样本的平均值,与上面相类似; ⑥使用最可能的值填充空缺值,与上面相类似,然后是处理噪声数据; ⑦分箱:通过考察周围的值来平滑存储数据的值,有两种方法:按箱平均值平滑,箱中每一个值被箱中的平均值替换;按箱边界平滑,箱中的最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换;
⑧计算机和人工检查结合:即手工处理,最后是处理不一致数据,主要方法是参照其它资料,如纸上记录,人工的加以更正。 (2)数据集成
即由多个数据存储合并数据。 (3)数据变换
将数据转换成适用于数据挖掘的形式。
- 4 -
北华大学毕业设计(论文)
(4)数据归约
数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并且结果与归约前的结果相同或几乎相同。
数据预处理是目前数据挖掘一个热门的研究方面,毕竟这是由数据预处理的产生背景所决定的——现实世界中的数据几乎都是脏数据。
2.3 数据来源
原始数据来自于某啤酒生产企业2009年8月1日至2009年11月11日酿造车间的数据。其中采集时间为每隔3分钟采集一次,共采集23个量,分别为CO2发酵高纯累积流量、CO2发酵累积流量、冰水PLC总流量、大米1_进仓、大米2_进仓、大米3_进仓、倒酒流量累计、发酵车间:正向有功功率 、发酵空压累积流量 、酵母干燥蒸汽累积流量 、冷麦汁累积流量、 麦芽仓1_进仓、麦芽仓2_进仓 、麦芽仓3_进仓、酿造PLC总流量、 酿造去蒸汽累积流量 、清酒来自过滤计量、清酒送包装二线流量、 清酒送包装一线流量、清酒送桶装线流量、 糖化车间:正向有功功率、原料工段:正向有功功率、蒸汽总流量计。
2.4 数据的清理
经过仔细观察发现原始数据的大米1_进仓、大米2_进仓、大米3_进仓三列始终为零。说明采集数据时大米并没有做为原料进行生产,由此可见此三列数据为无效数据,所以此三列数据直接删除。
通过Matlab对数据进行聚类分析时,数据的行数不能太多。为了能够顺利完成聚类分析,这里选取了一周数据进行处理。
由于原始数据中存在 无效数据(即excel表中值为横线),对于这些数据根据类型不同分为两种处理方法:
1.无效数据附近都为零的采取置零处理;
2.无效数据附近大体上符合渐变趋势的,求取该行上下行的均值代替。
2.5 对简化数据逐行求差
原始数据为每3分钟的采样的累加值。为了使主成分分析结果更加准确,需要确定每一时刻具体的输入值,这里通过一个简单的小程序来实现,程序代码如下:
a=data;%data为经过简化处理的数据矩阵,a为求差之后的数据矩阵 for i=1:3358%数据矩阵3358行
- 5 -
北华大学毕业设计(论文)
a(i,:)=data(i+1,:)-data(i,:);%逐行作差 end
a(i+1,:)=[];%逐差最后一列为无效值,删之 做差之后的数据就可以直接用于后文中的主元分析。
- 6 -
北华大学毕业设计(论文)
3 数据的主成分分析
3.1 主成分分析概述
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标的的一种多元统计分析方法。在用统计分析方法研究多变量的课题时,变量个数太多会增加课题的复杂性。因此,人们自然希望用较少的综合变量来代替。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。它是在有一定相依关系的n维参数的m个样本值所构成的数据阵列的基础上,通过建立较小数目的综合变量,使其更集中地反映原来 n 维参数中所包含的变化信息。其基本方法是根据数据变化的方差大小来确定变化方向的主次地位,按主次顺序得到各主元素,这些主元素彼此之间是无关的。借助这一工具, 可提炼变化信息,减轻数据分析的复杂程度。能够将多变量相关的高维数据投影到相互独立的低维数据空间,大大降低了直接分析多维复杂过程变量的难度,PCA 可以用来实现数据简化、数据去噪、数据压缩、建模、奇异值检测、变量选择。能充分挖掘出这些数据中隐藏的信息,在过程监控中是一种比较成功的数据挖掘技术。
3.2 基本思想
主成分分析是设法将原来众多具有一定相关性的(比如p个)指标,重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来 p个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,
F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,„„,第p个主成分。
- 7 -
北华大学毕业设计(论文)
3.3 主成分分析的数学原理
假设x的采样样本组成的数据阵为X(m ×n),其中m为样本数目,n为矩阵x中的变量数目,得到的主元为y1,y2,⋯,yn,则有:
y111x112x21nxnyxxx21212222nn (3.1) ynl2x1l2x2lnxn 在式(3.1) 中,系数ij由下列原则来决定: ①yi与yj( i≠j;i,j = 1,2,⋯,m)相互无关; ②y1是x1,x2, ⋯,xn的一切线性组合中方差最大者;
y2是与y1不相关的x1,x2,⋯,xn所有线性组合中方差最大者; „„„„;
yl是与y1,y2,⋯,yl1都不相关的x1,x2,⋯,xn 的所有线性组合中方差最大者。这些新变量指标y1,y2,⋯,yl分别称为原变量指标x1,x2,⋯,xn的第一,第二, ⋯,第 m 主成分。其中,y1的方差在总方差中占的比例最大,y2, ⋯,yl依次递减。在实际分析中,通常只挑选前几个方差最大的主成分,既可抓住问题实质,同时也简化了系统结构。从以上分析可以看出,找主成分就是确定原来变量xj ( j = 1,2 ,⋯,p) 在诸主成分yi( i = 1,2,⋯,m)上的载荷ij( i = 1,2,⋯,m ;j = 1,2,⋯,p),即分别为x1,x2, ⋯,xn的相关矩阵的m个较大的特征值所对应的特征向量。
求主元时,需要充分利用数据矩阵X。矩阵X中变量存在着一定程度的线性相关性,将矩阵做主元分解:
TTXt1p1t2p2tlplTE (3.2)
(3.2)式中,ti为得分向量,它的长度反映了数据矩阵X在pi方向上的覆盖程度。它的长度越大,X 在pi方向覆盖程度或者变化范围也就越大。那么负荷向量p1代表 X 变化的最大方向,p2与p1垂直并代表 X 变化的第二大方向,p1代表 X 最小的方向。
- 8 -
北华大学毕业设计(论文)
当矩阵 X 中的变量间存在一定程度的线性相关时,X 的变化主要体现在最前面的几个负荷向量的方向上,X 的最后几个投影比较小的负荷向量,可以写成残差矩阵E,主要由噪声引起,往往可以忽略,起到减少噪声影响的效果,不会引起数据中有用信息的明显损失。
做主成分分析时,一般分为以下几步实现步骤:①对原始数据作标准化处理,使得每个指标的平均值为 0,方差为 1;②对标准化后的数据对其进行数据分析,计算数据协方差矩阵;③计算数据协方差矩阵Σ的特征值,并使其按大小顺序排列,即
12p0;再分别求出对应于特征值i的特征向量pi;④计算主成分贡献率
及累计贡献率,使累计贡献率达到95 %以上,这时用l个主成分代替原n个变量,不会损失很多信息;⑤根据数据矩阵分析出的主成分变量,确定主元模型;⑥作出各变量主元的贡献图。
数据标准化和协方差矩阵分解:
x
'ijxijx*jvarxn*jki i=1,2, „,l; j=1,2, „,p (3.3)
ij(xk1xi)xkjxjn(xk1n (3.4)
kixi)2(xkjxj)2k1
式中,xi为矩阵X第 i 列的平均值; xj为矩阵 X 第 j 列的平均值由统计学的基本定理我们知道,X 是方差矩阵Σ的一个无偏估计量:
XTX s (3.5)
m1
引入拉格朗日乘子1代表过程信号 X 斜方差矩阵Σ (实际上是Σ的无偏估计矩阵 S,习惯上用Σ表示,下同) 的最大特征值,p1为与1相对应的特征向量,过程信息的
T第一个主元得分向量t1p1x。
同理可知,对于主元
- 9 -
北华大学毕业设计(论文)
tkpkTxXTpkk1,2,l (3.6)
主元方向矢量pk分别对应于过程信息协方差矩阵Σ的第k个特征值k的特征向量。通过过程信息协方差矩阵Σ进行奇异值分解即可获得由特征向量所组成的矩阵 P。
令:pp1p2pmRnm
diag1,2,,n (3.7)
显然矩阵p为正交阵,并有ppT。通过过程信息协方差矩阵Σ进行奇异值分解即可获得由特征向量所组成的矩阵P。
由此,联立以上各式,可得出过程的主元子空间信息矩阵T = XP。
3.4 利用Matlab实现主成分分析
3.4.1 主成分分析概述
MATLAB是当今国际上科学界 (尤其是自动控制领域)最具影响力,也是最有活力的软件。它起源于矩阵运算,并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。MATLAB 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。
在软件Matlab中实现主成分分析可以采取两种方式实现:一是通过编程来实现;二是直接调用Matlab中自带程序实现。
本文通过直接调用Matlab中的程序以实现主成分分析: [coef,score,latent,t2] = princomp(X); 式中:X为输入数据矩阵
- 10 -
北华大学毕业设计(论文)
x11xX21xn1x12x22xn2x1mx2mxnm(一般要求n>m)
输出变量:
①coef主成分系数:即原始数据线性组合生成主成分数据中每一维数据前面的系数。coef 的每一列代表一个新生成的主成分的系数。比如你想取出前三个主成分的系数,则如下可实现:pca3 = coef(:,1:3);
②scores是主分量下的得分值;即原始数据在新生成的主成分空间里的坐标值,得分矩阵与数据矩阵X的阶数是一致的;
③ latent一个列向量,由X的协方差矩阵的特征值组成;容易计算方差所占的百分比percent_explained= 100*latent/sum(latent);
④t2表示检验的t2-统计量,是一种多元统计距离,记录的是每一个观察量到中心的距离(方差分析要用)。
3.4.2 调用Matlab相关函数实现主成分分析
原始数据表头文件也作为数据参与处理,做一个字符串型数组,代码如下: categories=char('CO2发酵高纯累积流量','CO2发酵累积流量','冰水PLC总流量','倒酒流量累计','发酵车间:正向有功功率','发酵空压累积流量','酵母干燥蒸汽累积流量','冷麦汁累积流量','麦芽仓1_进仓','麦芽仓2_进仓','麦芽仓3_进仓','酿造PLC总流量','酿造去蒸汽累积流量','清酒来自过滤计量','清酒送包装二线流量','清酒送包装一线流量','清酒送桶装线流量','糖化车间:正向有功功率','原料工段:正向有功功率','蒸汽总流量计');
对数据获得一个初步的可视化印象:
Matlab可以方便的绘制出数据的基本分布图,这里绘制的是经过逐行作差处理过的数据的数值分布,这里可以清楚的看到具体每一维的数值分布。 代码如下: clear; clc
- 11 -
北华大学毕业设计(论文)
boxplot(a,'orientation','horizontal','labels',categories) 绘制图片如下:
图3.1 数据数值分布图
经过观察发现,原始数据有二十维变量,不同变量具有不同的量纲,为了消除
其可能带来的不合理影响,首先要对原始数据进行标准化处理,得到标准化矩阵 x:
x=zscore(a);
调用princomp函数对矩阵x进行处理:
[coefs,scores,variances,t2] = princomp(x); (3.8)
前八个主成分系数矩阵: C8 = coefs(:,1:8) 处理结果见附录A。
上面所得到的系数矩阵的每一列实际上即为所得主成分的系数矩阵。即: 第一主成分:F1=0.3044X1+0.3069X2+„+0.3002X20
- 12 -
北华大学毕业设计(论文)
第二主成分:F2=-0.0989X1-0.0158X2+„-0.1227X20 „„
第八主成分:F8=0.0124X1-0.0019X2+„-0.0620X20
其中X1~ X20分别代表原来二十个因子,F1~F8为所得的主成分。
Scores矩阵的前二列显示出了x矩阵(标准化处理之后的数据)的主成分得分,
绘制出它们的数值分布图:
plot(scores(:,1),scores(:,2),'+') xlabel('第一主成分') ylabel('第二主成分')
图3.2 前两主成分分布
variances是score对应列的方差向量,即x协方差矩阵的特征值: variances
variances =
10.4459 2.8053 1.7788 1.0238
- 13 -
北华大学毕业设计(论文)
1.0065 0.9398 0.7107 0.6019 0.5085 0.1290 0.0319 0.0098 0.0045 0.0015 0.0008 0.0005 0.0004 0.0001 0.0001 0.0000
计算每个特征值(即第N个主分量)所占的百分比: percent_explained = 100*variances/sum(variances)
percent_explained = 100*variances/sum(variances)
percent_explained =
52.2297 14.0266 8.8942 5.1189 5.0327 4.6988 3.5537 3.0093 2.5426 0.6452 0.1597 0.0488
- 14 -
北华大学毕业设计(论文)
0.0227 0.0076 0.0041 0.0025 0.0019 0.0006 0.0004 0.0001
每个主成分所占比例可视化:
图3.3的线表示的累积变量解释程度;如图3.3所示,前八个主成分可以表示出原始数据的95%;所以在95%的意义下只需提取前八个主成分即可,进而达到主成分提取的目的。
pareto(percent_explained) xlabel('主成分') ylabel('所占比例(%)')
图3.3 主成分可视化
- 15 -
北华大学毕业设计(论文)
结果可视化:
图3.4中横坐标和纵坐标分别表示第一主成分和第二主成分;红色的点代表3358个观察量,其坐标就是scores矩阵;蓝色的向量的方向和长度表示了每个原始变量对新的主成分的贡献,其坐标就是coef矩阵(scores和coef见公式3.8); biplot(coefs(:,1:2), 'scores',scores(:,1:2),... 'varlabels',categories); axis([-.26 1 -.51 .51]);
图3.4 主成分分析结果
3.5 主成分分析结果分析
主成份的意义主要由线性组合中系数较大的几个原指标的综合意义来决定,并且本文将依据主成分分析结果对系统进行建模。
首先,应当确定模型的输入与输出,X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量为啤酒酿造过程中的产量因素,故此以此五维数据作为模型的输出因子。因此,这里我们求出这几个因子所占每个主成分因子的权重,以确定哪些主成分作为输出,哪些主成分作为输出。由于主成分系数矩阵含有负数,所以应取其绝对值,然后再计算权重。具体结果如下:
- 16 -
北华大学毕业设计(论文)
第一主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量,所占系数矩阵中所有因子的百分比为3.8%。
第二主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为4.6%。
第三主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为59.2%。
第四主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为66.2%。
第五主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为48.4%。
第六主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为72.1%。
第七主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为56.6%。
第八主成份中X8冷麦汁累积流量,X14清酒来自过滤计量,X15清酒送包装二线流量,X16清酒送包装一线流量,X17清酒送桶装线流量五个因子所占系数矩阵所有因子的百分比为48.6%。
综上可得,第六主成分可以作为系统的输出,其它七个主成分作为输入。 主成分分析处理后已经实现了数据降维的功能,原始数据得到了很大程度的简化,使原来的二十维数据简化为八维(即所得到的得分矩阵)。此score矩阵已经集中了95%原始数据的特征。后文将为对其进行聚类分析,对其进行进一步分类,挖掘其内在特征,然后进行模糊建模。后文聚类分析的数据为下面所求得的m矩阵:
- 17 -
北华大学毕业设计(论文)
m=scores(:,1:8);
- 18 -
北华大学毕业设计(论文)
4 数据的分类
4.1 聚类分析的概念
分类学是人们认识世界的基础科学,而聚类分析(Cluster Analysis)是研究“物以类聚’的多指标统计分析方法,主要用于对事物类别的面貌尚不清楚、甚至连总共几类都不能确定的情形下分类问题的研究。进行聚类分析时,事先不必知道分类对象的分类结构,而是根据事物本身的数据特征,按事物之间某种近似程度进行分类。该方法实用性强,特别在依据多指标数据对观察对象进行分类时效果颇佳。聚类分析依分类对象的不同可分为两类:对观察样本(观测)的样品聚类分析法和对观察指标(变量)的变量聚类分析法。由于客观事物本身的复杂性以及与其他事物联系的广泛性,样品常常需要很多的指标变量来完整描述它的性状,这些指标变量之间存在不同程度的相关性或相似性,变量聚类分析法对这些观察指标进行分类处理,可用于了解指标间的关系,对指标进行分类,并根据分类结果及其关系选择典型性变量,进行进一步的统计分析(如回归分析)或样品聚类分析。样品聚类分析法是对观察样本的分类处理,实际中这样的聚类问题很多,下面主要分析这种聚类分析法。聚类分析是直接比较样本中各指标(或样本)之间的“性质”,将性质相近的归为一类、性质差别较大的归为不同类。衡量指标或样本间性质相近程度的统计量主要分为距离和相似系数两大类。距离一般用于对样本的分类,其定义有很多,如绝对值距离、欧氏距离、明考夫斯基距离、切比雪夫距离等。
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目的是把分类对象按照一定的规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必作任何假定。聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类分析的内容十分丰富,按其聚类的方法可分为:系统聚类法,动态聚类法,有序样品聚类法,模糊聚类法,图论聚类法,聚类预报法。
- 19 -
北华大学毕业设计(论文)
4.2 聚类分析的数学原理
假设聚类问题中有n个样本:xi(i=l,2…,n),每个样本有m个属性因子,第i个样本的第j个属性因子记为:xij,则n个样本可排成样本数据矩阵:
x11x12x1mxxx2m2122 (4.1)
xxxnmn1n2
由于各属性因子表示样本中的各种性质,往往使用不同的度量单位,其观测值可能相差悬殊,为了确保各属性因子在分析中的地位相同,要对数据进行正规化处理。经过正规化处理后,可将所有样本的各属性因子的数值都转换为O~l之间的数值,这里采用的正规化处理方法如下: 均值:
1nxjxij j=1,2…m (4.2)
ni1
误差平方和聚类准则:把xj,中的各样本X与均值xj间的误差平方和对所有类相加后为:
sjn1xijxjn1i12 (4.3)
标准化:中心化后的数据除以该因子的标准差:
xij'xijxjsj i=1,2…n (4.4)
规格化:求原始数据矩阵的极差:
- 20 -
北华大学毕业设计(论文)
xij'min(xijxij''1in')' (4.5)
max(xij)min(xij)1in1in'
4.2.1 关于衡量样本相似程度的统计量
研究样本间的关系,需选择一个能反映研究对象之间的亲疏关系的合适的统计量,即反映样本间相似程度的统计量。根据这个量的大小形成分类系统。 (1)距离系数
把样本每个个体看作是空间中的一个点,通过计算空间中两点之间的距离,来衡量接近程度,是一种用于描述样本值贴近的统计量,值越小表示样本越贴近。最常见的距离系数有明考斯基(Minkowski)距离:
1qqdij(x,y)(|xiyi|) (4.6)
i1p
当q=l时,为海明距离或绝对距离:
dij(1)(|xikyjk|) (4.7)
i1k
当q=2时,为欧氏距离:
p122dij(2)(|xiyi|) (4.8)
i1
当q时,为车贝晓夫(chebyshev)距离:
pdij()(1km|xikyik|) (4.9)
- 21 -
北华大学毕业设计(论文)
明氏距离定义简明,计算简单,在实际中用得很多,但存在以下三个缺点:明氏距离的值与各指标的量纲有关使得该距离的实际意义难以说清;明氏距离把各个指标都同等看待没有考虑到各指标间重要程度的差异;明氏距离没有考虑到各指标之间的相关性。实际应用中都采用指标标准化方法以消除不同量纲的指标对明氏距离的影响。而为区别每一个指标的相对重要性可以把权重i=(i=1,2,...P)引入明氏距离公式(4.6)。即上式当q=2时就是加权欧氏距离。也可以用权重乘以标准化后的指标然后代入明氏距离公式进行计算。但在削减指标相关性的影响方面往往是依靠定性分析指标间的关系力图在筛选指标过程中达到增加指标独立性的目的这种做法带有较强的主观性。 (2)变量间的相似性度量----相似系数
把样本每个个体看作是空间中的一个向量,通过计算空间中两个向量之间的某种度量,来衡量样本的相似程度,是一种用于描述样本形贴近的统计量,值越大表示样本越贴近。最常见的相似系数有:
夹角余弦法:
(xj)Txk (4.10) rjkjk||x||||x||
如果上式中的结果出现负值,可用下面的方法将全体rjk进行调整:rjk'rjk12由于
rjk[1,1],因此rjk'[0,1]。 相关系数法:
nrjk1|xijxik|i1n1|xijxik|i1(xi1nnjixj)2(xi1nkixk)2
(4.11)
1nj其中xxi,xk1ni1njxi1ki
绝对值减数法:
- 22 -
北华大学毕业设计(论文)
rjk1|xijxik| (4.12)
i1n
其中,a为适当选取的常数,使rjk在[0,1]中且分散开。 数量积法:
1当jk (4.13) rjk1njkMxixi当jki1 其中,M为一适当选择的正数,满足
nMmax(xijxik) (4.14)
j,ki1
4.3 系统聚类法
系统聚类又称谱系聚类,是一种逐次合并类的聚类分析方法,最后得到一个聚类的谱系图,可以把系统聚类的过程形象的表示出来。系统聚类法是目前在实际应用中使用最多的一类方法。 4.3.1 基本思想
首先根据样本数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的样品首先聚合为一类,而把另一些相似程度较小的或样品聚合为另一类,直到所有的样品都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。
特点:事先无须知道分类对象的分类结构,而只需要一批样本数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图。
4.3.2 聚类模型的建立与求解
(1)类间距离法(SINgle linkage)
- 23 -
北华大学毕业设计(论文)
系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。
用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令dij1|Cij|;用Dij表示类Gi和Gj间的距离。 ① 最短距离法:
Dpqmindij (4.15)
iGp,jGq
② 最长距离法(COMplete method):
DpqmaxdijiGp,jGq (4.16)
③ 重心法(CENtroid method):
设类Gk,Gl,的重心分别为xk和xl,则这两类之间的平方距离为
Dkl2(xkxl)T(xkxl) (4.17)
这种系统聚类法称为重心法。
④ 离差平方和法(WARD):类中各样品到类重心的平方欧式距离之和称为(类内)离差 平方和,
Dkl2WmWkWl (4.18)
这种系统聚类法称为离差平方和法(WARD)。
(2)系统聚类类数的确定
系统聚类最终得到一个聚类树,到底应该把观测分为几类到现在没有一个统一的确定性的方法,因为分类问题本身就是没有一定标准的,没有绝对正确的原则。通常要结合以下几种方法或原则来综合考虑:
1.根据问题的实际情况.这是一个前提性的原则;
- 24 -
北华大学毕业设计(论文)
2.从谱系聚类图直观的看出来或通过分界值(阈值)给出分类。选定某种聚类方法,经过聚类最后得到一张谱系图。谱系图只能反映样本之间的亲疏关系,本身并没有给出分类。我们可以根据图看出类之间的聚类趋势来判断聚类的结果,也可以确定一个阈值,作为尺度来分割谱系图得出分类的结果。 4.3.3 系统聚类法的步骤
系统聚类法的步骤如下:
① n 个样品开始时作为 n 个类,计算两两之间的距离,构成一个对称距离矩阵:
0d21dn1d120dn2...d1n...d2n (4.19)
...0D(0) 此时,Dpq=dpq;
② 选择 D(0)中的非对角线上的最小元素,设这个最小元素是 Dpq。此时,Gp={xp},Gq={xq}。将Gp,Gq合并成一个新类 Gr={Gp,Gq}。在 D(0)中消去Gp和Gq所对应的行与列,并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D(1),它是n-1阶方阵;
从 D(1)出发重复第二步的做法得D(2),再由D(2)出发重复上述步骤,直到n个样品聚为1个大类为止;在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。 4.3.4 系统聚类法的统计量
用系统聚类法聚类时,聚多少类合适,这是一个实际的问题。一个较好的聚类应该在类内样品尽可能相似的前提下,使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量,利用它们,可以在一定程度上判别聚多少类为合适。
①R2统计量
设谱系得第 G 层共有G个类,定义:
T(xix)(xix),PGSk (4.20)
Ti1k1nG- 25 -
北华大学毕业设计(论文)
1n其中 Sk(xixk)(xixk),xxi,xk为Gk的重心,Sk越小,说明Gk
ni1iGkT中各样品越相似。
定义 R2 统计量如下:
R21PG/T (4.21)
R2总是随着分类数目的减少而减小,可以从R2值的变化看n个样品分成几类最合适。比如,分为5类以前各类的R2减小较缓慢;假定分为5类时,R2=0.85,而下一次合并,即分为4类时R2减小较快,如R2=0.35,则认为分为5类较合适。
②半偏相关统计量
这一统计量与离差平方和距离有关。设类 Gp,Gq的离差平方和分别是
SpiGp(xixp)T(xixp),SqiGq(xixq)T(xixq) (4.22)
将 Gp,Gq合并成Gr后的离差平方和为
Sr(xixr)T(xixr) (4.23)
iGr
合并后的离差平方和增量为
WpqSrSpSqnpnqnr(xpxq)(xpxq)Tnpnqnrxpxq (4.24)
2定义半偏相关统计量为:
PRSQWpq/TS (4.25)
SPRSQ是上一步R2值与该步R2值的差值,当SPRSQ值越大时,说明上一次合并效果越好。
③伪F统计量
- 26 -
北华大学毕业设计(论文)
伪F统计量 PSF是:
PSF(TPG)/(G1) (4.26)
PG/(nG)
PSF值越大表示这些观测可显著地分为 G个类。 ④伪 t2 统计量
设Sp,Sq,Wpq的含义如前所述,定义伪 t2 统计量为
PST2
Wpq(SpSq)/(npnq2) (4.27)
PST2大,说明合并Gp,Gq为Gr后,使得离差平方和的增量Wpq相对于原Gp,Gq的类内离差平方和大。这表明合并的两个类Gp,Gq是很分开的,也就是上一次聚类效果较好。
- 27 -
北华大学毕业设计(论文)
5 基于Matlab的聚类分析
5.1 数据的正规化
由公式(4.1)~公式(4.5)对样本数据进行正规化处理,编写matlab程序如下: function s=bzh(vector)
x=zscore(vector); %数据中心化 max1=max(x); %求列最大值 min1=min(x); %求列最小值
[a,b]=size(x); %矩阵大小,a 为行数,b 为列数
for i=1:a
for j=1:b
s(i,j)= (x(i,j)-min1(j))/(max1(j)-min1(j)); end end
命令窗口输入s=bzh(m); 即得到极差正规化处理过的矩阵s。 s矩阵见附录B。
5.2 采用凝聚的层次聚类法对数据进行分区
样品间采用明考斯基(Minkowski)距离,类与类之间采用离差平方和方法(Ward方法)进行聚类:
Y= pdist(s,'Minkowski'); Z= linkage(Y,'ward');
[H,T] = dendrogram(Z,'colorthreshold','default');
5.3 分区结果
通过执行上面的命令可以得出初步的聚类谱系图,其中结点数选用的是默认的30个,用以表示数据中的3359个采样点。
- 28 -
北华大学毕业设计(论文)
图5.1 数据分区的谱系图
根据系统聚类类数的确定方法和原则,当分为四类时,统计量R2=0.85;分为三类时,R2=0.77;分为两类时R2=0.35。
由此可见,当由三类变为两类时R2减小较快,则认为分为三类较为合适。
5.4 聚类分析小结
将聚类结果分为三类:
T = cluster(Z,'maxclust',3);
为了减少后文建模的工作量,只取其中的一类即第三类,留作后文建模: find(T==3);
具体处理所得数据见附录C。
所得数据为归为第三类的所有采样点矩阵。
- 29 -
北华大学毕业设计(论文)
6 分区结果模糊模型的建立
6.1 模糊建模的基本介绍
1964年美国的L.A.Zadeh教授创立了模糊集合理论,1974年英国E.HMamdani研制出第一个模糊控制器。模糊控制不需要了解对象的精确数学模型,根据专家知识进行控制,近十年来得到了广泛的应用。
模糊模型的设计参数主要有:各输入、输出变量模糊子集的隶属度函数,模糊控制规则,输入输出变量的比例变换因子等。要依据设计者的经验和反复调试才能设计出一个比较好的模糊控制器。预先采用计算机仿真方法可尽快了解模糊控制的特性,可缩短设计周期。
Input模糊控制器output图6.1模糊建模原理图
6.2 模糊控制器输入输出的确定
由3.5分析结果可知,第六主成分可以作为系统的输出,其它七个主成分作为输入。即第六主成分作为输出,其它七个主成分依次命名为A,B,C,D,E,G,H。具体的输入为聚类分析所得分得的第三类(见附录C)的第一,二,三,四,五,七,八列;输出为第六列。
6.3 基于MATLAB模糊逻辑工具箱建立模糊模型
MATLAB软件提供自动控制、信号处理、神经网络、模糊逻辑、小波分析、图象处理等诸多工具箱,功能强大应用广泛。这里使用MATLAB模糊逻辑工具箱(Fuzzy Logic)建立模糊模型,并用MATLAB的SIMULINK对模型进行验证。
Matlab软件提供了一个模糊推理系统(FIS)编辑器,只要在Matlab命令窗口键入Fuzzy就可进入模糊控制器编辑环境。 6.3.1 隶属度函数的建立
隶属度定义:美国加利福尼亚大学控制论教授扎得(L.A.Zadeh)经过多年的研究,终于在1965年首先发表了题为《模糊集》的论文。指出:若对论域(研究的范围)U中的任一元素x,都有一个数A(x)∈[0,1]与之对应,则称A为U
- 30 -
北华大学毕业设计(论文)
上的模糊集,A(x)称为x对A的隶属度。当x在U中变动时,A(x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近于1,表示x属于A的程度越高,A(x)越接近于0表示x属于A的程度越低。用取值于区间[0,1]的隶属函数A(x)表征x属于A的程度高低,这样描述模糊性问题比起经典集合论更为合理。
隶属度属于模糊评价函数里的概念:模糊综合评价是对受多种因素影响的事物做出全面评价的一种十分有效的多因素决策方法,其特点是评价结果不是绝对地肯定或否定,而是以一个模糊集合来表示。
隶属度函数确定:在MATLAB中键入命令FUZZY,进入模糊逻辑编辑窗口FIS Editor。建立输入A、B、C、D、E、G、H及输出的隶属度函数,有三角形、高斯形、梯形等11种可供选择,在此选常用的梯形(trapmf)隶属度函数。具体的分界区间如下表所示:
表6.1 隶属度函数分界区间
小ABCDEGHoutput[-2.77 -2.76 -1.37 -0.5296][-3.68 -2.28 -1.407 -0.516][-4.34 -2.26 -1.29 0.3644][-2.95 -1.13 -0.3194 1.15][-6.57 -4.91 -4.102 -2.83][-4.268 -3.052 -2.473 -1.532][-3.03 -1.89 -1.313 -0.472][-5.29 -3.79 -3.009 -1.91]中[-1.5 -0.4249 0.425 1.5][-1.48 -0.465 0.723 1.68][-1.23 0.0721 1.72 3.45][-0.0266 1.22 2.71 3.933]大[0.507 1.31 2.904 3.5][0.525 1.863 2.48 3.88][2.16 3.494 4.76 6.84][2.73 3.87 5.01 6.84][-4.01 -2.87 -1.57 -0.305][-1.48 -0.415 0.598 2.26][-2.368 -1.5 -0.67 0.368][-1.25 -0.468 0.349 1.3][-2.95 -1.87 -0.771 0.43][-0.48 0.322 1.052 2.268][0.513 1.36 1.93 3.07][-0.61 0.4348 1.28 2.78]
定义了区分模糊论域的分界点后,各输入,输出的隶属函数就确定下来了。图6.1~6.8依次为输入A、B、C、D、E、G、H及输出的隶属度函数。
- 31 -
北华大学毕业设计(论文)
图6.1 A的隶属度函数
图6.2 B的隶属度函数
- 32 -
北华大学毕业设计(论文)
图6.3 C的隶属度函数
图6.4 D的隶属度函数
- 33 -
北华大学毕业设计(论文)
图6.5 E的隶属度函数
图6.6 G的隶属度函数
- 34 -
北华大学毕业设计(论文)
图6.7 H的隶属度函数
图6.8 输出的隶属度函数
- 35 -
北华大学毕业设计(论文)
6.3.2 模糊规则及决策方法
模糊规则是对专家的理论知识与实践经验的总结。本文中有389个输入、输出,理想情况应当编写389条规则,但由于规则重复的概率比较高,故应当抽样选取一部分编写规则,这里抽取了80个点作为参照点。
在Rules Editor窗口中输入控制规则。例如:
if(A is 小)and(B is 中)and(D is 小)and(E is 大)and(G is 小)and(H is 中)then(输出 is 大)
这样得到了10条模糊规则,具体如图6.9所示:
图6.9 模糊规则
模糊决策一般采用Mamdani’s(min-max)决策法。解模糊有重心法、等分法、最大隶属度平均法等5种可供选择,在此采用重心法(centroid)。
如此设计的模糊控制器的输出与输入的关系曲面图如图6.10所示。显然模糊控制是一种非线性控制。
- 36 -
北华大学毕业设计(论文)
图6.10 模糊模型输入输出曲面图
这样即可得到系统的的模糊模型如图6.11所示:
- 37 -
北华大学毕业设计(论文)
图6.11 模糊模型
至此模糊建模工作完成。
6.4 模糊建模小结
在模糊逻辑工具箱中能方便地修改输入输出的论域、模糊子集、隶属度函数、模糊规则、模糊决策方法及解模糊方案。由于定义隶属度函数及设计模糊规则的自由程度比较高,并没有特定的设计方法,只能依靠经验。因此,建立的模型可能仍有改进余地,因此需要对模型加以验证和改进。
- 38 -
北华大学毕业设计(论文)
7 模型的验证与修正
MATLAB提供的SIMULINK是一个用来对动态系统进行建模、仿真和分析的软件包,它支持连续、离散及两者混合的线性和非线性系统。SIMULINK包含多个子模型库,每个子模型库中又包含多个功能模块。利用鼠标可直观地“画”出系统模型,然后直接进行仿真。仿真时可选择各种数值算法、仿真步长等重要参数,并可用模拟示波器将仿真动态结果予以显示,直观高效。
如果对建模得出的结果不满意,可以调整模糊规则和隶属度函数。 SIMLINK仿真接线图如图6.12所示:
图6.12 SIMULIK接线图
- 39 -
北华大学毕业设计(论文)
模型建立后,根据不同的输入来验证模型的输出,通过观察模拟示波器的输出值,以确定与实际情况是否吻合。随机抽取一些聚类分析第三类里的点以验证模型。选取第一,第二,第三,第四,第五,第七,第八列数据作为输入,运行SIMULIK观察运行结果,看模拟示波器所显示的值与第六列数据是否吻合。初次验证发现偏差较大,于是经过进一步不断调整模糊控制规则和隶属度函数得到最终模型。再次验证:
随机抽取一行数据作为输入,如抽取第19行数据: 表7.1 数据
A -1.94411 输出 G H ----1.906959 1.68488 2.221399 2.27662 1.64829 0.34511 0.167172 B C D E 分别将A,B,C,D,E,G,H值作为图6.12中对应的模块的值。运行SIMULIK,最后观察模拟示波器的输出值如图7.1所示:
图7.1 模拟示波器输出值
由图7.1可得,输出值与实际输出仍有一定偏差,但已大大缩小了偏差值,证明所进行的修正操作有效。
为了进一步缩小偏差,进一步修正将在后续工作中进行,使模型更加准确,与实际值更加吻合。
- 40 -
北华大学毕业设计(论文)
结 论
1.主成分分析是对维数多的数据进行降维,本文将原始23维数据降至八维,大大简化了建模难度,并且原始数据的特征仍表示了95%,只丢失了很少一部分特征。所得到的主成分的意义主要由线性组合中系数较大的几个原指标的综合意义来决定,并且本文中主成分分析还实现了确定模型的输入与输出,即得分矩阵的第一,二,三,四,五,七,八列作为输入;第六列作为输出;
2.聚类分析主要是对各主成分得分矩阵进行分类,本文聚类结果是把主成份分析所得到的主成分得分矩阵分为三类,为模糊建模打下基础;
3.在以上两步的基础上,并确定隶属函数和模糊规则,实现对系统的模糊建模。实际上应该对聚类所得结果的每一类都进行建模。由于时间关系,本文只对聚类分类的第三类进行建模,并进行了初步的验证和修正,但修正结果仍然不很理想。由于数据量庞大,建模的工作量十分巨大,剩余工作后续进行。
- 41 -
北华大学毕业设计(论文)
参 考 文 献
[1]曾雷.模糊聚类分析法在分析数据评估上的应用[J].湖南环境生物职业技术学院学报,2001,7(3):47-49.
[2]潘玉奇,周劲,杨秀丽等. 基于模糊聚类分析的数据检索的应用[J].微电子学与计算机,2005,22(6):167-172.
[3]张菁,杨明皓. 基于模糊聚类的电力系统载荷能力安全预警方法[D]:[硕士学位论文. 北京:中国农业大学,2007.
[4]阮秀英. 基于模糊聚类的冷热源设备运行环境分区研究[D]:[硕士学位论文].长沙:中南大学,2008.
[5]于秀娟,李亚强. 通过清洁生产审核实现啤酒企业的节能降耗[M]. 节能技术, 2004,3(2).23-24.
[6]崔明勇. 洁净车问能耗分析[J]. Pharmaceutical&Engineering Design 2003,24(3):17-23.
[7]唐然,龙腾锐,龙向宇. 基于模糊聚类的改进遗传算法[J]. 重庆大学学报,2008,27(1):11-18.
[8]王美华.数据挖掘领域中的聚类方法[J].南华大学学报,2004,18(1):324-327. [9]孙郭经. 基于关系数据库的仿真模型管理[J]. 国防科技大学学报,1999,22 (1):61-63.
[10]黄健昌. 一种基于Intranet的模型管理系统及其实现[J]. 北京理工大学学报,2001,21(2):87-90.
[11]王行仁. 分布式交互仿真[J]. 系统仿真学报,2005,7(2):95-99.
[12]何晶. C3系统仿真模型库系统研究[J]. 计算机工程,2003, 29(4):55-57. [13]楼顺天,胡昌华,张伟. 基于MATLAB的系统分析与设计——模糊系统[M]. 西安:西安电子科技大学出版社,2001.
[14]王宏伟,詹容开,贺汉根. 基于模糊聚类的改经模糊辨识算法[J]. 电子学报, 2001,29(4):436-438.
[15]张平安,熊学健,李仁厚. 基于拟非线形模糊模型的复杂系统模糊辨识[M]. 控制理论与应用,1998. 286-290.
[16]高惠璇. 应用多元统计分析[M]. 北京:北京大学出版社,2005. 127-134.
- 42 -
北华大学毕业设计(论文)
[17]任若恩,王惠文. 多元统计数据分析—理论、方法、实例[M]. 北京:国防工业出版版,1997. 216-223.
[18]GOLDBERG D E. Genetic algorithms in search,optimization,and machine learning[M].New York:Addison-weB-ley Publishing Company INC,1999.197-201. [19]MANSOUR Y.Voltage stability of power systems:concepts,analytical tools and industry experience[J].Technical Report. New York,NY,USA:IEEE Power Systems Engineering Committee,2001.134-136.
[20]Gomez A F,Jimenez F.Fuzzy modeling with hybrid systems[J].Fuzzy sets and systems,1999,04:199-208.
- 43 -
北华大学毕业设计(论文)
附录A 主成分分析主成分系数
C8 =
0.3044 0.0989 -0.0342 0.0065 -0.0077 0.0133 - 0.0124
0.3069 0.0158 0.0019
0.3044 0.0836 0.0120
-0.0236 0.2947 -0.6487
0.2340 -0.3627 -0.0947
0.3059 0.0855 0.0079
0.3080 0.0444 -0.0133
0.0689 0.0859 -0.0813
-0.1099 0.4823 0.0807
0.0023 -0.0173 0.0111
0.1886 0.4473 0.0885
0.3029 0.1026 0.0167
0.3002 0.1383 0.0246
0.0094 0.1024 0.0265
0.0695 -0.2802 0.3015
-0.0014 0.1822 0.0305 -0.0008 0.0017 -0.0115 0.3940 -0.0137 0.1092 0.0100 -0.0103 -0.0059 0.0076 -0.0082 -0.5162 -0.0000 -0.2503 0.0608 0.0053 -0.5671 -0.1204 0.0159 -0.0254 -0.0103 -0.0154 -0.0074 0.4383 0.3486 -0.2114 0.3564 0.4840 -0.1533 - 44 -
-0.0052 -0.0112 0.1104 0.0261 -0.0070 0.0011 0.1564 -0.0252 -0.7661 -0.0240 -0.0112 -0.0129 -0.0625 -0.0399 0.1400 -0.0181 -0.0013 0.0979 -0.0253 -0.0078 -0.0053 0.0242 0.1685 0.2519 0.0351 -0.0058 -0.0013 0.6036 0.5089 -0.2262 - -- - ----
0.0311 0.0000 0.0642 0.4486 0.1042 0.0318 0.0229 0.6311 0.1196 0.1628 0.0596 0.0636 0.0547 0.1203 0.3271 北华大学毕业设计(论文)
0.4281 0.6653
-0.0054 0.0710 0.0390 0.6330 -0.5900 -0.4662 0.1512 -0.0402
0.3065 0.0757 0.0021 -0.0059 -0.0106 -0.0028 -0.0461 0.0143
0.2314 -0.3707 0.1044 -0.0308 0.0199 -0.0595 0.0365 -0.0885
0.3002 -0.1217 0.0246 -0.0620
0.0495 -0.0072 - 45 -
-0.0110 0.0158 北华大学毕业设计(论文)
附录B 聚类分析标准化数据
s =
0.8673 0.8263 0.1844 0.7791 0.9786 0.3023 0.8801
0.8673 0.7995 0.7315
0.8667 0.8485 0.8596
0.8673 0.7981 0.7238
0.8674 0.7918 0.6887
0.8674 0.7910 0.6843
0.8668 0.8360 0.7899
0.8674 0.8251 0.8730
0.8674 0.8142 0.8128
0.8675 0.7911 0.6843
0.8675 0.7942 0.7015
0.8678 0.8020 0.7469
0.8677 0.8254 0.8769
0.8672 0.8131 0.6647
0.8671 0.8482 0.8591
0.0821 0.7903 0.2014 0.8793 0.0768 0.7909 0.0526 0.7936 0.0496 0.7939 0.1533 0.8846 0.1795 0.7796 0.1380 0.7842 0.0496 0.7939 0.0614 0.7926 0.0931 0.7891 0.1826 0.7793 0.0676 0.8940 0.2014 0.8793 - 46 -
0.4332 0.9693 0.3361 0.3195 0.8938 0.1527 0.5189 0.9688 0.3378 0.3136 0.9666 0.3458 0.2867 0.9663 0.3468 0.2834 0.8894 0.1685 0.4655 0.9781 0.3040 0.4277 0.9744 0.3176 0.3816 0.9663 0.3468 0.2833 0.9674 0.3429 0.2965 0.9703 0.3325 0.3315 0.9784 0.3030 0.4311 0.8816 0.1969 0.3700 0.8938 0.1527 0.5188 北华大学毕业设计(论文)
0.8671 0.8425 0.1795 0.8817 0.8918 0.1599 0.4945 0.8273
0.8677 0.8236 0.1759 0.7801 0.9778 0.3053 0.4240 0.8675
0.8678 0.7907 0.0498 0.7939 0.9663 0.3468 0.2834 0.6840
0.8678 0.8028 0.3352 0.7516
0.8677 0.8224 0.4182 0.8601
0.8677 0.8196 0.4064 0.8447
0.8678 0.8119 0.3734 0.8016
0.8677 0.8246 0.4277 0.8725
0.8677 0.8238 0.4241 0.8678
0.8678 0.8146 0.3854 0.8171
0.8671 0.8461 0.5098 0.8473
0.8678 0.7906 0.2836 0.6842
0.8678 0.7972 0.3111 0.7202
0.8680 0.8248 0.4283 0.8732
0.0963 0.7888 0.1710 0.7806 0.1604 0.7817 0.1308 0.7850 0.1796 0.7796 0.1763 0.7800 0.1413 0.7839 0.1933 0.8802 0.0497 0.7940 0.0747 0.7912 0.1799 0.7796 - 47 -
0.9706 0.9737 0.3314 0.9774 0.3068 0.9764 0.3103 0.3201 0.9782 0.3040 0.9779 0.3050 0.9747 0.3167 0.8931 0.1554 0.9663 0.3470 0.9686 0.3386 0.9782 0.3040 北华大学毕业设计(论文)
附录C 聚类分析第三类处理结果
F3 =
-1.3366 0.5438 0.2007 -0.2740 -0.4706 -0.1711 -2.7411 0.4024
-1.9392 1.6902 0.8044 0.5104
-1.9589 1.9098 -1.6873 2.2229 -2.2773 -1.6461 -0.3446 0.1706
-1.9809 2.2004 -1.5237 4.7865 -4.6678 -3.5401 0.2715 0.0131
-1.9386 1.6506 -1.8051 -0.2120 -0.0091 0.1225 -0.8976 0.3657
-1.9591 1.9108 -1.6865 2.2216 -2.2772 -1.6480 -0.3458 0.1695
-1.9382 1.6379 -1.8367 -0.2008 -0.0182 0.1389 -0.9237 0.3244
-1.9385 1.6390 -1.8360 -0.2022 -0.0181 0.1370 -0.9249 0.3233
-1.9385 1.6390 -1.8360 -0.2022 -0.0181 0.1370 -0.9249 0.3233
-1.9265 1.6341 -1.8340 -0.2025 -0.0175 0.1365 -0.9239 0.3208
-1.9265 1.6341 -1.8340 -0.2025 -0.0175 0.1365 -0.9239 0.3208
-1.9265 1.6341 -1.8340 -0.2025 -0.0175 0.1365 -0.9239 0.3208
-1.9471 1.9060 -1.6845 2.2213 -2.2765 -1.6484 -0.3448 0.1670
-1.9263 1.6331 -1.8348 -0.2011 -0.0176 0.1384 -0.9227 0.3219
-1.9236 1.6446 -1.8092 -0.2104 -0.0103 0.1249 -0.9020 0.3555
-1.6998 -0.2453 - 48 -
0.0734 - 0.0213 北华大学毕业设计(论文)
-1.9235 1.6351 -1.8343 -0.2024 -0.0175 0.1367 -0.9242 0.3209
-1.9441 1.9070 -1.6849 2.2214 -2.2766 -1.6483 -0.3451 0.1672
-1.9235 1.6351 -1.8343 -0.2024 -0.0175 0.1367 -0.9242 0.3209
-1.9441 1.9070 -1.6849 2.2214 -2.2766 -1.6483 -0.3451 0.1672
-1.9235 1.6351 -1.8343 -0.2024 -0.0175 0.1367 -0.9242 0.3209
-0.4169 0.4830 0.7305 -0.1416
-0.4038 0.5041 0.6108 -0.1235
-0.3910 0.5366 0.4631 -0.0694
-0.3759 0.2102 1.2251 -0.4090 -0.0712 -0.2236 -1.1589 -1.3159
-0.3656 0.5266 0.3471 -0.2280
-0.3513 0.2432 1.0708 -0.4121 -0.0175 -0.2195 -0.9449 -1.3339
-0.3412 0.5677 0.1138 -0.2130
-0.3292 0.6123 1.8124 -0.6999 0.2954 -0.6365 0.0605 -0.1099
-0.3177 0.6655 1.8230 -0.7280 0.3489 -0.6717 0.2516 -0.0151
-0.3012 0.6366 1.5968 -0.6937 0.3487 -0.6185 0.2811 -0.1661
-0.2886 0.6007 1.3896 -0.6534 0.3353 -0.5559 0.2628 -0.3502
-0.2843 0.6012 1.3475 -0.6474 0.3390 -0.5445 0.2834 -0.3883
-0.2605 0.6202 1.2996 -0.6568 0.3717 -0.5547 0.4057 -0.3639
2.3071 -0.6713 0.0930 -0.6216 -2.2451 -0.6782 0.1242 -0.6282 -2.2091 -0.6938 0.1643 -0.6472 - 1.9451 -0.6631 0.1862 -0.5943 - 1.8128 -0.6734 0.2463 -0.6011 - - 49 -
北华大学毕业设计(论文)
-0.2055 0.3558 1.8184 1.9647 -2.3702 -2.0975 -0.7989 -1.3071
-0.1766 0.3671 2.3268 -0.6895 0.1191 -0.6501 -0.6550 -0.1595
-0.1846 0.3308 1.5611 2.0028 -2.3648 -2.0358 -0.7433 -1.4894
-0.1537 0.3729 0.0007
-0.1306 0.4816 -0.2963
-0.1201 0.3699 -0.2767
-0.1290 0.6860 2.1480 1.7319 -2.0368 -2.4239 0.3366 -0.3576
-0.0974 0.1490 -0.2188
-0.1041 0.2559 -1.5530
-0.0747 0.4448 1.8113 -0.6948 0.2862 -0.6331 0.0126 -0.2336
-0.0706 0.0335 -1.5405
2.3297 -0.7319 0.1984 -0.7060 -2.0485 -0.6651 0.1570 -0.6055 -2.0134 -0.6740 0.1867 -0.6143 -1.9426 -0.6937 0.2458 -0.6368 -1.1634 2.0019 -2.2434 -2.0196 -1.0614 1.9893 -2.1853 -2.0289 -- 50 -
0.4417 0.3649 0.3878 0.4289 0.3817 0.4219 北华大学毕业设计(论文)
致 谢
衷心的感谢能在百忙之中参加本人论文答辩的各位老师,谢谢你们的批评和指正! 本文是在浦铁成老师的悉心指导和帮助下完成的。在论文的写作过程中,浦老师对论文主题的确立、结构的搭建、写作方法、写作规范等方方面面提出了详尽、中肯的意见和指导,这些对于论文的完成是不可或缺的。
通过****的指导,本人对所学知识,特别是Matlab软件和模糊建模方面有了更加系统、深刻的认识,在这个过程中,浦老师严谨的治学态度、诲人不倦的师表风范深深地感染了我。对此,致以诚挚的谢意!
在学校学习期间,在老师的教导和同学们的帮助下,本人在知识水平和工作能力上都有了显著的提高,对于论文的完成也起了很大的作用。
最后,对帮助过我的所有人致以诚挚的谢意!
- 51 -
因篇幅问题不能全部显示,请点此查看更多更全内容