本章摘要:本章主要介绍了本研究的理论基础,即研究中涉及到的主要化学计量学方法的原理,主要包括因子分析中的主成分分析原理,判别分析中的费歇尔判别分析和贝叶斯判别分析的原理以及多元统计分析中的Logistic回归分析原理。
5.1主成分分析原理
因子分析中有许多确定因子变量的方法,比如基于主成分分析模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法和最小二乘法等。其中基于主成分分析模型的主成分分析法是目前应用最广泛的因子分析方法之一[54-60]。
主成分分析主要是通过坐标变换手段,将原有的p个相关变量xi作线性变换,转换为另一组不相关的变量yi,可以表示如下:
y1=u11x1+u21x2+…+up1xp
y2=u11x1+u22x2+…+up2xp
…
yp=u1px1+u2px2+…+uppxp (式2-1)
y1,y2,y3,…,yp为原有变量的第一、第二、第三、…、第p个主成分。其中y1在总方差中所占的比重最大,综合原有变量的能力也最强,其他的主成分在总方差中占的比重逐渐减少,即综合原有变量的能力逐渐减弱。所谓的主成分分析就是选取前面几个占比重最大的主成分,这样就既能达到减少变量个数的目的,又能以较少的变量反映原有变量的大部分信息。
主成分分析的步骤如下:
数据的标准化处理。
(式2-2)
其中,i=1,2,…,n,n为样本的点数;j=1,2,…,p,p是样本的原变量数目。为了方便,记为:
[xij*]n×p=[xij]n×p (式2-3);
(2)计算数据[xij]n×p的协方差矩阵R;
(3)求R的前m个特征值:λ1≥λ2≥λ3≥…≥λm,以及对应的特征向量u1,u2,…,um;
(4)求m个变量的因子载荷矩阵。
5.2判别分析原理
判别分析是统计学中研究分类问题常用的分析方法,它是一种有效的对个案进行分类分析的方法。判别分析时,组别的特征是已知的,通常是根据已知类别的事物的特征,利用某种技术建立判别函数,然后对未知类别的新事物进行判断以将之归入已知的类别中。例如通过测定苹果中矿质元素的含量来判断苹果的品质;通过测定不同产地蔬菜中元素的含量,运用判别分析判断未知蔬菜样品的产地等[61-66]。
在分析的各个阶段应把握一下原则:
事前组别的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果;
所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,以最少变量达到高分辨能力;
初始分析的数目不能太少。
判别分析常用的方法有最大似然法、费歇尔判别分析、贝叶斯判别分析和逐步判别分析等,下面着重介绍一下费歇尔(Fisher)判别分析和贝叶斯(Bayes)判别分析的原理。
5.2.1费歇尔(Fisher)判别分析原理
费歇尔判别分析的中心思想是设法找出一个最佳投影方向,将m维空间中的点投影到低维空间,如一维空间中,使不同的点尽可能分离开来,然后在低维空间中再分类。
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数
U(X)=u1X1+u2X2+…+upXp=u’X (式2-4)
其中系数u’=(u1,u2,…,up)’确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。有了线性判别函数后,对于一个新的样品,将它的p个指标代入线性判别函数式2-4中求出U(X)的值。然后根据一定的判别准则,就可以判别未知样品属于哪个总体。
费歇尔判别分析的步骤可以总结如下:
有一个训练样本集:个体的观察值必须准确,个体的数目必须足够多;
建立一个判别函数,解释变量(简称为变量或指标)X1,X2,…,Xp必须确实与分类有关;
利用此判别函数来判别未知个体所属类别。
5.2.2贝叶斯(Bayes)判别分析原理
贝叶斯判别是假设有定义明确的g个总体π1,π2,…,πg,分别为X1,X2,…,Xp的多元正态分布。对于任何一个个体,若已知p个变量的观察值,要求判断该个体最可能属于哪一个总体。
如果我们制订了一个判别分类规则,难免会发生错分现象。把实属第i类的个体错分到第j类的概率记为P(j|i),这种错分造成的损失记为C(j|i)。贝叶斯判别准则就是使平均损失最小的准则。按照这个准则去找一种判别分类的规则,就是贝叶斯判别。
贝叶斯判别准则下判别分析的分类函数形式如下(g个类别,p个指标):
Y1=C01+C11X1+C21X2+…+Cp1Xp
Y2=C02+C12X1+C22X2+…+Cp2Xp
…
Yg=C0g+C1gX1+C2gX2+…+CpgXp (式2-5)
即g个线性函数的联立方程,每个线性函数对应于某一类别。其中C0j,C1j,……,Cpj,(j=1,2,…,g)为需估计的参数。判别函数建立后通常的判别准则为:如欲判断某样品属于上述g类中的哪一类,可将该样品的各Xi值代入式2-5中的各个方程,分别算出Y1,Y2,……,Yg的值。其中若Yf为最大则意味着该样品属于第f类的概率最大,故判它属于第f类[67-70]。
5.3 Logistic回归分析原理
Logistic回归分析主要是采用极大似然法估计模型。设因变量为y,事件发生时y的取值为1;事件未发生时y的取值为0。影响y的n个自变量分别为x1,x2,…,xn。设事件在自变量的作用下发生的条件概率为Pi,不发生的条件概率为1-Pi则有如下计算公式:
(式2-6)
(式2-7)
式2-6和式2-7都是由自变量构成的非线性函数。
事件发生和不发生的概率比称为事件的发生比,对其进行对数变换可以得到Logistic回归分析的线性模型:
与费歇尔判别分析等多元线性判别相比,logistic回归分析具有许多独特的优点,例如对数据的正态性和方差齐性不做要求、对自变量的类型不做要求、系数的可解释性等[71-72]。
原创文章,作者:sowenn,如若转载,请注明出处:https://www.diyilunwen.com/lwfw/huaxue/3997.html