教学工作的资源分享

13判别分析解读

招生

招生

判别分析

分散分析流行病和卫生统计学系

聚类分析(样本)总体分类判别分析(样本)个体分类判别和聚类分析可以对样本/指标进行分类,判别分析只对样本进行分类。

聚类分析事先不知道事物的分类,也不知道应该分为哪一类; 判别分析要事先知道事物的类别,也知道应该分为几类。

聚类分析是无需分类的历史资料,可以直接对样品进行分类; 判别分析需要历史数据才能创建判别函数,然后才能对样本进行分类。 判别分析:一种根据判别对象若干指标的观测结果,判定其应属于哪一类的统计学方法。 应用

在经济学中,根据人均国民收入、人均农业总产值、人均消费水平等多项指标来判定一个国家经济发展程度所属等级的农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是否为大暴发、中暴发

医疗诊断是根据某人的多种检查指标,判断并分析此人是某患者还是非患者---诊断临床诊断:

急腹症患者需要诊断患病原因。 诊断阑尾炎时需与其他急腹症鉴别诊断; 诊断为阑尾炎后,需要诊断是何种类型,如是否合并腹膜炎、穿孔等。 什么是放射学诊断病理学诊断判别分析?

y=f(x1,x2,…,xk ) x1,x2,…,xkx1,x2,…,xk患者

(n1 )健康人;n2 ) yy

分类明确的数据

计算机疾病诊断辅助原理

以一组确诊为健康人的患者为样本,收集检测指标、x线、脑电图、超声、CT等检测指标,利用这些分类明确的样本在这些相同指标下的观察值,建立指标的判别函数和判别标准(区分患者与健康人边界的方法) 这就是计算机疾病辅助诊断的方法,其理论依据是判别分析方法的原理。 第一节判别分析的基本思想

判别分析——对几个指标分类清晰样本的看法

查值,建立指标的判别函数和判别准则,然后根据该判别函数和判别准则对新样本进行分类,并根据回归判别的准确率评价其实用性。 判别函数(discriminant function ) :是与指标变量有关的函数。 将每个样本在指标变量上的观察值代入判别函数,即可得到确定的函数值。

对判别标准样本的判别函数值进行分类的规律。 创建判别标准:

判别函数的建立:其原则是将所有样本按照其判别函数值的大小和预先确定的判别原则分成不同的组后,使分组结果最符合原始样本的归属。 回波样本:计算每个样本的判别函数值,根据判别标准对样本进行分类。

估计回代误码率:即将新分组结果与原始分组结果之差进行比较,从而确定判别函数的性能; 判别新样本:如果判别函数性能较好,可以对新样本进行分类判别。 如何判别分析内容并进行分析

费歇尔判别分析法采用费歇尔判别标准。 由此,类间的点的距离最大,类内的点的距离最小。 适用于两种类型的判别分析。 Bayes判别分析法-采用Bayes判别标准。 这将确保每个类中的每个示例都以最高概率进入类。

适用于多种判别分析。 第二节费歇尔判别分析法1 .费歇尔判别函数的建立

假设a和b是明确分类的两种症状。 在总体a中观察到p例,在总体b中观察到q例,分别记录k个指标,它们为x1、x2、…、xk。 假设y是k个指标的线性函数,其中c 1、c 2、c k是待估计的未知系数。 该线性函数称为Fisher判别函数。

当假设p=q=k=2来说明费歇尔判别分析法基本原理和计算方法时,将根据费歇尔判别分析法的基本原理来选择一组

适当系数c 1、c 2、…、ck使得类别之间的差d最大,类别之间的差v最小,即下式的值q最大。 根据多元函数求极值的原理和方法,q取最大值的点为q的一阶偏导数等于0的方程组解。 上述方程式的解如下。

专科是大专吗

专科是大专吗

假设y*是某个样本的判别函数值,则Fisher判别标准如下。

如果是y* y0,如果是y* B类y* y0,则排除各指标对y* A类3 .判别函数贡献率较小的指标,重构只包含重要指标的判别函数。 第三节Bayes判别分析法

Bayes判别法是以概率论中Bayes条件的概率公式为基础导出的判别法。 Warner HR等人于1961年首先成功地鉴别了先天性心脏病。 他们利用50个症候,鉴别出33种先天性心脏病,利用计算机,共试验36例。 结果计算机判别结果与3名有经验的心脏病专家生理学研究和外科检查诊断结果一致。 Bayes判别的基本思想e.g .急性肠梗阻的鉴别诊断第三节Bayes判别分析法1.Bayes判别函数的建立

假设x=(x1,x 2,x k )出现在I类中的先验概率为p i,I=1,2,g。 它既是理论值也是经验值。 如果以随机采样获得样本,则先验概率可以对基本估计进行采样。 也就是说,假设g个总体服从k元正态分布,则对于任何样本x*=(x1*,x 2 *,x k * ),其属于s类的后验概率如下

建立Bayes判别准则

将各点x判别为后验概率最大的类。 3 .估计各指标对判别函数的作用o-一元方差分析:验证各指标变量对判别函数的判别能力是否有显著意义。 o多元方差分析:验证所有指标变量是否联合对判别函数的判别能力有显著意义。 o判别函数特异性越高的指标越多,判别函数的判别功能也越强。 4 .判别基准性能的评价

o误判率估计(error-count estimates ) o后验概率错误率估计(posterior prob.error-rate )例2、50-59岁女冠以研究舒张期血压和血浆胆固醇对冠心病的作用他们的舒张期血压(x1 )和血浆胆固醇)的数据如下表所示。 采用判别分析法建立判别冠心病人和健康人的判别函数。 数据D2; do i=1 to 16; do grp=1 to 2; input id x1 x2 @@; 输出; 结束; 结束; cards; 1.865.18110.662.07213.33.73212.534.45……1513.335.961511.203.4216 . 169.33.63; run;

proc discrim data=d2

out stat=outanovamanovapool=test (合作性序列检验) listerr )在输出结果中显示训练样本世代返回后错误分类的结果) posterr )显示分类标准的后验错误概率估计); 类grp; var x1 x2;

priors prop; (用于指定先验概率的类别) run; SAS程序

分布式分析

(1) testofhomogeneityofwithincovariancematricestestchi-square value=2.60 with3dfprobchi-sq=0.4567 sincethechi-square vquare apooledcovariancematrixwillbeusedinthediscriminantfunction.2 (univariateteststatisticsfstatistics,

可变stdstdstdr-squared (1- rsq ) )。 FP rfx 1.66001.38621.31820.3258420.483314.01660.0008 x 21.18231.02860.268286.366710.6330.0028 (3) multt ndfprfwilks ' lambda 0.4465967417.348228.0001 pillai ' strace 0.5534032617.348228.0001 hotellai ' strace 0.553403261032616 001 Roy ' sgreatestroot 1.2391565217.348228.0001 SAS输出结果(4) resubstitutionresultsusinglineardisisas nctionposteriorprprobababilisas

GRP into GRP 1 2

12 *0. 30450.6955421 *0. 82990.1701621 *0. 57160.428411112 *0. 16720.83281312 *0. 2719.7281 * misclasssifiee

1 12 3 15

80.0020.00100.0022141612.5087.50100.00 total 141731

percent 45.1654.84100.00 priors0. 4839.5161 SAS输出结果(6) errorcountestimatesforgrp :12 total rate0. 2000.1250.1613 PP

(7) posteriorprobabilityerrorrateestimatesforgrp : estimate 12 total stratified0. 1842.0911.1361 un stratified0. 1842.060

1 )两个指标对判别函数有显著性意义(独立作用,p=0.0008和p=0.0028,联合作用,p=0.0001 )。

2 )血常规示冠心病组误判率为20% (假阴性率),正常组误判率为12.5% )假阳性率),总误判率为16.13; 冠心病组后验概率错误率估计为18.42%,正常组后验概率错误率估计为9.11%,总后验概率错误率估计为13.61%。

高等职业教育是什么学历

高等职业教育是什么学历

可以通过添加其他指标变量来提高判别性能。

专业结论

1 .各级k个指标变量均服从k元正态分布; 2 .不满足正态分布条件时,使用非参数判别分析方法,或建立logistic回归模型作为判别函数3 .样本数量合适,避免遗漏重要指标变量; 4 .为了评价判别函数的判别性能,包括三个方面。 o原始数据的分类必须可靠准确; o指标变量对判别函数的作用显著;o判别函数的回归误判率和后验概率误判率较小。 使用Bayes判别分析法应注意的问题

对于非正态分布的数据,在分类不太多的情况下,用logistic回归分析法估计判别函数是最好的解决方法。 该方法首先估计有效的判别函数,评估与各种判别标准(临界点)相对应的判别结果,从中选出最合理可靠的。 基于逻辑回归分析方法的非参数判别分析【例13-2】基于逻辑回归分析方法的非参数判别分析

某院对53名接受前列腺癌手术治疗的患者,观察肿瘤是否扩散至邻近淋巴结。 下表显示手术时直接观察的结果和手术前的指标观察

的双曲正切值。 其中,y=1是扩散,y=0是未扩散; X线、s=触诊肿瘤分级,g=活组织检查肿瘤分级,age=诊断时患者年龄,acid=血清磷酸酶水平。 应用术前观察到的各项指标预报前列腺癌是否扩散。 表13-2前列腺癌手术治疗的患者资料【SAS程序】data eg13_2; input x s g age acid y @@; LGacid=log(acid; sg=s*g;

cards;

000066480106150006850006856016450……000568211681261016440;

run;

proc logistic data=eg13_2;

modely=xsgsglgacidage/selection=stepwise SLE=0.1 SLS=0.1 ctablepprob=0.5; run;

这里,ctable表示输出判别表,pprob=0.5表示将概率0.5作为有无扩散的阈值。 SAS输出结果】thelogisticproceduredataset : work.dresponsevariable 3360 yresponselevels 3360

number of observations 336053 link function : logitresponseprofileorderedvalueycount 133 (未扩散)2 1 20 )已扩散)数据信息。 从

由Response Profile可知,变量y的排列顺序为0,1,因此模型分析了y=0时的概率,也就是说没有扩散的概率。 Step 0. Intercept entered:

residual chi-square=25.2764 with6df (p=0.0003 ) step1. variablexentered : modelfittinginformationandtestestinglobalnglnglnulobalnalulululullllextestingred

内部和

criteriononlycovariateschi-squareforcovariates-2 logl 70.25259.00111.251 with1df (p=0.0008 ) )。 residual chi-square=17.8700 with 5d f (p=0.0031 ) step2. variables entered : modelfittinginformationandtestestinglobalnglnalnglnulnullulululullulllulllested

互联网

内部和

criteriononlycovariateschi-squareforcovariates-2 logl 70.25253.35316.899 with2df (p=0.0002 ) )。 residual chi-square=15.1217 with 4df (p=0.0045 ) step3. variablelgacidentered : modelfittinginformationandtestestinglonglobal

互联网

内部和

criteriononlycovariateschi-squareforcovariates-2 logl 70.25248.98621.266 with 3d f (p=0.0001 ) )。 residual chi-square=12.0549 with 3d f (p=0.0072 ) note:no否) additional ) variablesmetthe 0.1 significancelevelforentryintttion

summaryofstepwiseprocedurevariablenumberscorewaldprstepenteredremovedinchi-square chi-square 1x 11.2831.0.0。

x1-2.0550.7976.6380.0100-0.5152570.128 S1-1.76380.7483 ) 5.5562.0184-0.4907710.171 LG acid1- 2.22

----------seen

eveleventeventeventcorrecttivityficityposneg-------------- eveleventeventeventcorrecttivityficityposneg ----------------------------------- - 将各样品的观察值恢复为上述得到的疑似和模型,计算概率p(y=0|x ),将0.5确定为阈值(程序中pprob=0.5 )。 也就是说,p0.5不扩散,否则扩散) )将样本判别为扩散和扩散两种,与原始数据比较计算灵敏度、特异度、假阳性和假阴性。 若将p=0.5作为阈值,即判别为p0.5为未扩散,p0.5为扩散,33名未扩散患者中27人未扩散,6人扩散; 20名扩散的患者中有10人被判别为扩散,10人被判别为没有扩散。 因此,该模型判别结果为灵敏度(sensitivity )=27/33 )=81.8%,特异度(specificity )=10/20=50.0%,

假阳性率(false positive rate )=10/37=27.0%,假阴性率(false negative rate )=6/16=37.5%,判别正确率(correct ) )=(27 10. 类标识表

Correct Incorrect Percentages

----------seen

eveleventeventeventcorrecttivityficityposneg-------------- eveleventeventeventcorrecttivityficityposneg ----------------------------------- - 使用0.3作为阈值判别比使用0.5作为阈值的判别精度大幅提高,反应在整体精度上从69.8%增加到73.6%; 假阴性从37.5%下降到25.0%。 由此可见,对于通过logistic回归分析得到的判别函数,选择合适的临界点是很重要的。 类标识表

Correct Incorrect Percentages

----------------- prob non---------------------------------------------- - 把--------------------------------------------------------------------------- -

eveleventeventeventcorrecttivityficityposneg-------------- eveleventeventeventcorrecttivityficityposneg ----------------------------------- -

0.10033218066.0100.010.035.30.00.20031713271.793.935.029.022.20.3003091173.690.945.026.825 037.50.60025137871.775.865.021.938.10.70022161171.766.766.780.015.40.80018.054.585.014.346

• Fisher判别标准和Bayes判别标准分别是什么? 评价一个判别函数的判别性能的三个条件是什么? 聚类分析和判别分析的主要区别是什么? 结束了

随机看看

NEW ARTICLE

标签

Tag