重庆市教育评估院

[转载]R语言多元分析系列之四：判别分析

判别分析（discriminant analysis）是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则，并通过预测变量来为未知类别的数据进行分类。

判别分析的方法大体上有三类，即Fisher判别、Bayes判别和距离判别。Fisher判别思想是投影降维，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一组内的投影值所形成的组内离差尽可能小，而不同组间的投影值所形成的类间离差尽可能大。Bayes判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。距离判别思想是根据已知分类的数据计算各类别的重心，对未知分类的数据，计算它与各类重心的距离，与某个重心距离最近则归于该类。

1.线性判别

当不同类样本的协方差矩阵相同时，我们可以在R中使用MASS包的lda函数实现线性判别。lda函数以Bayes判别思想为基础。当分类只有两种且总体服从多元正态分布条件下，Bayes判别与Fisher判别、距离判别是等价的。本例使用iris数据集来对花的品种进行分类。首先载入MASS包，建立判别模型，其中的prior参数表示先验概率。然后利用table函数建立混淆矩阵，比对真实类别和预测类别。

library(MASS)model1=lda(Species~.,data=iris,prior=c(1,1,1)/3)table(Species,predict(model1)$class)Species setosa versicolor virginicasetosa 50 0 0versicolor 0 48 2virginica 0 1 49从以上结果可观察到判断错误的样本只有三个。在判别函数建立后，还可以类似主成分分析那样对判别得分进行绘图ld=predict(model1)$xp=ggplot(cbind(iris,as.data.frame(ld)),aes(x=LD1,y=LD2))p geom_point(aes(colour=Species),alpha=0.8,size=3)

2.二次判别

当不同类样本的协方差矩阵不同时，则应该使用二次判别。

model2=qda(Species~.,data=iris,cv=T)这里将CV参数设置为T，是使用留一交叉检验（leave-one-out cross-validation），并自动生成预测值。这种条件下生成的混淆矩阵较为可靠。此外还可以使用predict(model)$posterior提取后验概率。在使用lda和qda函数时注意：其假设是总体服从多元正态分布，若不满足的话则谨慎使用。

参考资料：Modern Applied Statistics With SData_Analysis_and_Graphics_Using_R__An_Example_Based_Approach