Logistic模型多重共线性问题的诊断与改进

招生

Logistic模型多重共线性问题的诊断和改善陶然

(中国人民大学统计学院，北京100872 )。

摘要：文章诊断并改进了1o tic回归模型的多重共线性19问题方法，采用了条件指数和方差分解比对实例的两个指标进行了共线性诊断，采用改进主成分和最小二乘回归两种方法进行了多重共线性变量的改进进制处理：消除回归模型中变量之间多重共线性的影响，建立了理想的关系模型。结果，那么在Logistic回归模型的分析中，利用上述方法进行多重共线性的诊断和处理是有效且可行的。关键词： Logistic回归模型；多重共线性诊断；主成分法；最小二乘法图中分类编号： 0212文献识别代码： a文章编号： 1002-6487(2008 ) 15—0022—03逻辑回归模型基于单个或多个连续类型或属性类型

利用自变量分析预测属性型因子的多元分析方法，主要是调查变量引起的各种状态的发生概率和自身变量的取值的关系相关。目前，该方法已广泛应用于经济、社会科学，以及医学、心理学等很多领域。但是，用Logistic回归法进行变量筛选和参数估计在计算中，要求各变量之间相互独立。事实上，许多研究表明个自变量之间不是独立的，相互之间存在一定程度的线性依赖从属被称为多重共线(~(multi—collinearity ) )，通过该多重共线性关系通常会增大估计参数的平均误差和标准误差，甚至

回归系数方向相反，方程极不稳定，引起逻辑

回归模型的拟合存在矛盾和不合理。本文给出了Lo gistic次总结了两种减少模型共线性影响的改进方法，并进行了拟合分析，结果表明，改进方法确实能有效地减少多重共线性的影响。1 Logistic回归模型原理与多重共线性影n向1.1逻辑回归模型原理最简单的logistic回归模型是二分类非条件logistic次模型化：

f3o圭B([1] )

px=p(y=lix )=t _B1 e。

其中，xi为解释自变量，在医学研究中多与某些疾病有关生理、心理、遗传、社会和环境因素。 y是二分类变量或0~1服从自变量、二项分布。 p，p :…是推定对象参数。通过拟合型型可以得到事件发生概率的大小与各危险因素的关系。比数~e(oddsratio )被解释为用XJ ) j=l，2，p，ji )调整的某个人疾病是关于Xi的比数比。当某病发病率较低时，exp(pj为

相对危险度RR的近似。1.2多重共线性的影响

22统计和决策2008年第l5期(总的第267期) ) )。1.2.1对变量筛选的影响

在病因分析中，Logistic回归的建模过程一般逐一采用过滤解释变量的方法。用这种方法得到的回归子集是普遍认识的在所有观察的可影响因素中，由影响某些疾病的因素组成的子集。当解释变量不正交时，回归子集中包含的解释变量量可以视为影响因素，但回归子集中不包含的解释变量为不能说是是非影响因素。例如，a、b是某些疾病的原因，但原因是如果a、b之间存在某种广义的相关关系，就有可能在普通的Logis—上在tic回归的变量筛选中，将其中一个从原因要素中排除，引起了判定消除误差。1.2.2对参数估计的影响

与多元线性回归模型相似。参数之间存在多变量共时线性很有可能使回归系数不明显，使推定参数增大数的平均误差和标准误差很可能使回归系数的方向相反因此，Logistic回归模型结果的矛盾在生物学上是无法给出的作出合理的说明。例如，多因素分析和单因素分析的结果相互矛盾是，在单因素分析中某个因素是原因因素，而在多因素分析中成为保护因素等。2多重共线性诊断与消除方法的改进2.1共线性诊断

要求出Logistic回归参数的估计值，一般需要计算Newton-RaDh—SOn迭代法。该迭代法等于通过变换迭代的加权最小二乘法FB=(x-wx ) X'WZ其第n步的反复过程是{；其中，w是对角

lz=xp1 w。 (y-I () ) ) ) ) )。矩阵，其对角线的要素是w。请参阅。 (1)。 w称为加权矩阵。 p方差var(3)=i03 )另外一方面，其中i@=x-wx是Logistic模型的信息矩数组收敛时的信息矩阵I(b )的特征根越接近零越小

维普信息http://www.cqvip.com时，加权解释变量询问共线关系的存在，最终影响方程的拟合效果。由此在线性回归中诊断工具推广到 logistic模型。2．1．1 条件指数(conditionindices)11k[i=、／l[i】／k[is]，k=l，2，…P； (1)其中，。凹 ≥… 凹为信息矩阵 i(p)的相应特征根。

专科是大专吗

统计学者 Belsley、Knhand和 Welsch得出在只标准化(使估计的的每一列为单位长度)而不中心化的前提下，11嘲>30表示存在较强的共线关系。即公认的 BKW 准则。2．1．2 方差分解比例

1TSki= V2ik[is])k^kq[is酉] (2)

V 旧是与特征根阳相对应的的标准正交化特征向量

v~IiJ的第 j个成分。若 1T与 1T 都大于 0．5，则两个或更多系数和 p 被包含在同一个较强的共线关系中。

2．2 消减多重共线性影响的改进方法虽然目前许多软件采用逐步回归法来消除多重共线性，但它可能会把某些实际上对结果有显著影响的变量排除在模型之外，只因这些变量与选人模型中的一些变量问存在着共线关系。这无疑会损失大量的资料信息，而且也不易于解释协变量之间的关系，因此下面介绍了两种方法来改进Logistic回归模型2．2．1 主成分方法

主成分改进方法主要是在参数方面对 Logistic模型进行消除多重共线性改进。首先将原设计矩阵的各列解释变量观察值矩阵 x标准化为 x ，然后进行主成分变换，选择 r使得前 r个特征根之和

在 P个特征根总和中所占比例大于 90％，根据选定的 r将矩阵 x，x 的特征向量构成的正交阵牵剖分为牵=(中rJ牵，其中Z=X 为前 r个主成分的得分值。具体公式如下：Zj=E／X(j=1，2，…r) (3)由于之间相互独立，因此以乙为自变量做 Logistic回归，获得原自变量系数 p。的估计值：

= liloll+… d 0=1，2---P) f4)d 为 Z。的 logistic回归模型系数。获得了原变量B的估计值后，还要对参数进行 wald检验：由软件可以得出＆，&：，…＆的协方差矩阵：己／I：：一‘· r＼： }

＼O'rl … H ／

由极大似然估计的性质，dlr=(＆。，&，…&)近似服从正态分布 N(&，coy(5i))。因为正态分布具有线性分布不变性，因此根据公式(4)和(5)，可以得到的方差，从而可以求出B=0的 Wald检验统计量：var(BJ==∑j ∑k z2．2-2 偏最小二乘法(6)

偏最小二乘法主要是对预测能力建模。具有良好的判别能力．其能在自变量之间存在强多重共线性、或者当样本量偏小时可以较好地解决普通 Logistic回归模型的计算结果不稳定的问题。具体步骤如下：(1)将变量 x=(x。，x。一·xD)依照公式 (7)做标准化变换，并记标准化后自变量矩阵为 x：

x ：兰二兰L f7)其中，x—j=。

x ， = (x一。(2)提取偏最小二乘成分①提取第一个偏最小二乘成分 t。。

对每个 j=1，2，…P，分别建立以 xj为自变量、Y为因变量的普通 Logistic一元回归模型，计算出 xj的回归系数 J酊lj,将 P个四。i写成列向量的形式，记为四，利用公式 (8)对面进行标准化，得到四。＼ rv— —

罚 j／＼／ 2 (8)

最后提取偏最小二乘成分 t．tl=x (9)

②在提取第 h-1个偏最小二乘成分 t，t2，…th一后，提取第 h个偏最小二乘成分 t。做 tl，t2，…th_l对 x 的最小二乘回归，求出残差阵 Vh_l=

(Vh-1_ljVh-l。，…Vh-1)，对每个 j0=1，2，…P)，分别建立以 Xh-l，tl，t2…th_l为自变量，Y 为因变量的 h元普通 logistic回归模型，计算出回归系数四 = 四 h2，…四 nk)l 厂 —～

利用公式(帕、准化得到／＼／四。最后提取主成分th=Vk4四口 h勺 h (10)⑧h的选定。

当所有的偏斜方差 (partialcovariance)都不显著时，并结合拟合优度指标 AIC．SC和一2log以及各回归系数统计显著性检验进行判断，找出合适的 h。④ 以 tl，t2，…th为自变量，进行 Logistic回归。3 实例分析及讨论

例：为了探讨冠心病发病的相关危险因素，某医院对26例冠心病病人和 28例对照者进行病例一对照研究。因素说明如表 1。分析步骤与方法如下：

3．1 用统计软件 SAS9．0对数据进行普通 1o stic回归回归结果见表 2。筛选之后的 logistic模型拟合方程为：一 58902+3．4579xs+l_9178x。Px=P(y=llx)= e1+e一。

人力资源属于什么学科门类

6从表 2的分析结果可以看出，虽然各个变量的 OR值都大于 1，但是仅有动物脂肪摄人(x6)和 A型行为模式 (x )两统计与决策 2008年第 15期 (总第 267期) 23维普资讯 http://www.cqvip.com 表 1 冠心病相关危险因素因素变量名赋值说明

年龄 (岁) Xl <45=1，45-=2，55-=3，65-=4高血压史 X2 无 -()．有：1

而血j盘_泵族史 X3 无-()，有=1吸烟 X 不吸 -()吸 =1高血脂史 X5 无-()有 =1动物脂肪摄人低-()．高=1体重指数(BMI) X <24=1，24-=2，26-=3A型行为模式 X8 否-()．是=1

冠心病 Y 对照=0，病例=1

注：A型行为模式：长期以来医学界认为诱发 l心脏病的原因是高血压、血清胆固醇、吸烟等，但这些因素解释或预测不到心脏病的半数。后来心理学提出易患l心脏病的人有一种共同的行为模式，称为 A型行为模式。现在在临床上用是否为 A型行为模式预测。脏病具有很高的准确性。表 2 普通 Logistic分析结果变量自由度回归系数 8 标准误 Waldx P值 0R值截距 1 -5．8902 1．9727 8．9151 O．oo28

年龄(岁)(X ) 1 0．6446 0．4988 1．6702 0．1962 1．905高血压史 (X ) 1 0．9104 0．8361 1．1855 0．2762 2．485高血压家族史 (X) 1 0．9703 0．9058 1．1477 02840 2．629吸烟fX 1 o．9945 1．2098 0．6758 0．4111 2．703高血脂史(X 1 0．7413 0．8802 0．7093 0．3997 2．099动物脂肪摄人 fx 1 3．4579 1．4145 5．9761 O．O145 31．749体重指数fX 1 0．3011 O．591O 0．2595 O．61O5 1351A型行为模式fX 1 1．9178 O．9186 4．3587 0．0368 6．808个变量具有统计学意义。但是冠心病被称为 “老年病 ”，与之对应的重要变量年龄却没有被选人因此初步判定解释变量非正交，存在一定的共线性关系。

3．2 对模型进行共线性诊断同样，运行 SAS9．0求出数据的条件指数和方差分解比例见表 3。表 3 共线性诊断

表 4 主成分分析结果主成分特征根差异比例累计比例

1 0．82131114 0．32353701 0．3377 0．33772 0．49777413 0．214122O8 O_2O47 0．54233 0．28365205 0．05416332 O．1166 0．65904 0．22948873 O．O4831813 O．o944 0．75335 0．18117059 O．O1641391 0．0745 0．82786 0．16475668 0．01343092 0．0677 0．89557 0．15132576 O．O485896O 0．0622 0．95788 0．10273616 0．0422 1．0000的比例达到了 89．55％，接近 90％，因此选用六个主成分进行分析比较合适。

由于 SAS不能直接对上文所述的方法进行分析，因此结

合统计软件 R以及 SPSS进行主成分改进的 logisitie回归，结果如表 5。

该模型所有因素的 OR 值都大于 l，和未进行主成分分析的模型相似，但是具有统计学意义的因素有五个，明显不同于前者，所以有 5个因素进入，分别为：年龄(1)、高血压史(X2)、高血压家族史(X3)、体重指数(X7)、A型行为模式(X8)。拟合方程为：表 5 主成分改进后的 Logistic回归

变量自由度回归系数8 标准误std(B)U检验值B／sld(8) P值 0R值年龄(岁 )(X1) 1 1．148 O_2O74 5．533 0．000"* 3．151高血压史fx21 1 1．688 0．3776 4．470 0．000" 5．409高血压家族史fX31 1 1．243 O0170 3．919 O．Ooo 3．465吸烟0<41 1 O．815 0．4551 1．792 0．073 2．260高血脂史(x51 1 o．337 0．3078 1．094 0．274 1．400动物脂肪摄人fX61 1 -0．324 0．3467 —0．934 0．350 0．723体重指数(X71 1 0．667 0．2506 2．660 0．001 1．947A型行为模式(x81 1 2．147 0．4503 4．767 0．000"* 8．556编号特征根条件方差分解比例指数截距 Xl X2 X3 X4 X5 X6 X7 X8

1 6_25 1．0O 0．001 0．002 O．OO7 0．006 O．OO4 0：007 O．oo6 0．003 O．OO62 0．78 2．83 O．ooO 0．000 0．025 0．026 0．001 0．033 0．812 0．001 0．0013 O．58 3_29 0．008 0．006 0．037 0．127 O．O19 0．236 O．15O O．O()7 0．0674 0．46 3．68 0．001 0．001 0．652 0．022 O．O1O 0．144 0．003 O．oo5 0．0555 0．34 43O 0．000 0．000 0．001 0．566 0．058 0．474 0．003 O．0O1 O．O146 O_29 4．67 O．O16 0．028 0．147 0．038 0．058 O．O1O 0．003 O．O0o 0．6487 O．17 6．OO O．oo6 O．O13 0．022 O．155 O_467 0．003 0、O19 O3()7 O．1138 O．O9 8．2O O．O42 0．278 0．008 0．024 0．349 0．O44 0．ooo O．59l 0．0739 0．04 12．56 O．924 0．673 O．1O1 0．034 0．033 0．049 0，003 0．085 0．023共线性诊断结果显示的最大条件指数为 l2．56．与 30还是有一定差距，但其所对应的截距、年龄 (X1的方差分解比例分别为 92．4％、67-3％，均超过了 50％，由 BKW 准则，可以认为两者之间存在较强的共线关系。而条件指数为 4．30所对应的变量高血压家族史 (X，)和高血脂史 (X )的方差分解比例分别为 56．5％和 47．4％，也可以大致认为两者之间存在一定的共线性关系。

3_3 对变量进行主成分分析先对变量进行主成分分析，得到各个主成分的累计比例如表 4所示。

从表 4可知，当主成分个数为 6的时候，累计解释方差24 统计与决策 2008年第 15期(总第 267期 )- 5．8902+1．148xI 2+1．2 x3+0．677rv+2Px=P(y=lIx)=—!_j蕊I位+】_西 II 卞1 而l+e

OR值最大的因素为 A型行为模式，可以近似说明 A型行为模式的危险率最高，这与之前获得的 A型行为模式预测心脏病具有很高的准确率的信息相符合。而之前危险率最高的动物脂肪摄人这个因素却没有被选人，可能是因为其与高血脂和体重指数存在相关关系，因此可以舍去。而选人的这些变量能更好的解释影响冠心病的因素，因此认为主成分改进的 Logistic模型有良好的效果。3．4 成分偏最最小二乘法改进很显然，数据只有两个等级：等级 0为对照，等级 l为病例。利用上述数据，使用偏最小二乘 Logistic回归方法，根据拟合优度指标 AIC．SC和一表6 偏最小二乘法预测情况分析表2log以及各回归系数统计显著性检验．确定只提取一个偏最小二乘成分。

根据所选取的偏最小

二乘成分做 Logistic回归可以得到．新的回归模型预测的准确情况如表 6。而使用普通 Logistic、、、j贯测等级

实际等级＼ O(对照)1(病例) 合计O(对照) 23 5 281(病例) 5 21 26合计 28 26 54表 7 普通 logistic模型预测分析表、、、预测等级

实际等疲＼ O(对照)1(病例) 合计O(对照) 21 7 281(病例 ) 9 17 26合计 30 24 54

维普资讯 http://www.cqvip.com 基于 SA和 Bootstrap的 LS—SVM 参数优选及应用。弓l言

赵春秀 ’，周辉仁，刘春霞

f1．天津大学管理学院，天津 300072；2．济南热电有限责任公司，济南 250002)摘要：文章针对最小二乘支持向量机的特点，通过 Bootstrap建立适当的性能指标，用模拟退火算法fsA1优化最小二乘支持向量机的有关参数，并在非线性经济系统中应用。用最小二乘支持向量机对非线性经济系统进行预测的结果与神经网络预测的结果比较证明，该模型的预测精确度是令人满意的．文中提出的方法是可行的。

关键词：最小二乘支持向量机；Bootstrap；模拟退火算法；参数优化

中图分类号：TPI8i 文献标识码：A 文章编号：1002-6487(2008)15-0025—04Vapnik在 1995年提出一种新型具有完备的统计学习理

论基础和出色的学习性能的方法——支持向向量机(SupponVectorMachines1．已成为机器学习界的研究热点，并在很多领域都得到了成功的应用㈣。SVM 模型参数的选择是一个尚待解决的公开问题，常用的留一法参数选择方法，计算量非常庞大日。文献【6】针对 LS—SVM 用交叉验证的方法进行核参数选择后对软测量建模；文献『71提出了一种基于三步搜索技术的参数选择方法；文献【8]用网格搜索对核参数选择后对非线性系统建模；文献f9】提出基金项目：天津市科技发展战略研究计划项目(07ZLZLZT02300)回归模型得到的预测情况如表 7

由表 6可见，利用偏最小二乘法得到的 Logistic模型的错判数为 10次，错判率为 18．5％，而普通模型的错判率则高达 29．62％，而且前者对于实际等级 1(危险因素 )的错判次数5次小于后者的错判次数 9次，更有实际意义，因此偏最小二乘法能改进普通 Logistic模型多重共线性问题，并能取得良好的预测效果3．5 讨论

目前，对线性回归中出现的多重共线性问题的诊断和处理方法较多，但对于 Logistic回归模型变量的共线性处理却相对较少，而且大多数采用的方法都是逐步回归筛选变量来消除多重共线性，但正如上文所述，逐步回归的结果可能造成一些对疾病有影响的变量会被排除在模型之外。没入选的变量并不说明其对因变量的作用一定无统计学意义可能与其有共线性的变量掩盖了它的作用，如此则不能充分利用所调查数据，全面地反映真实情况。本文通过推广线性回归模型多重共线性诊断，提出了两种 Logistic回归模型共线性判定方法．并归纳了两种消除共线性因素的方法：主成分改进方法和偏最A,z乘方法。结合冠心病发病因素病例一对照实验，对具有多重共线性的 8个变量进行了共线性诊断及处理．运用两种方法分别从参数模型的改进和判别模型两个角度对普通 Logistic回归模型进行改进。从结果可以看出．两种方法都取得了较为理想的效果。参考文献：

【1]裘炯良，郑剑宁，张扬．主成分改进的 Logistic回归模型方法在流行病学分析中的应用【J]，中国热带医学，2005，5(2)．【2]Y-济川，郭志刚，Logistic回归模型一方法与应用【M]．北京：高等教育出版社．2001．【3]赵宇东，刘嵘，刘延龄等．多元 Logistic回归的共线性分析．中国卫生统计，2000，(5)．

【4]Richard A．Johnson，canW．Wichen．Applied MultivariateStatisticalAnalysis[M]．北京：清华大学出版社，2008．【5]贺佳，陆健．SAS8．2统计软件应用教程【M]．北京：人民卫生出版社．2006．

【6J李大鹏，王惠文．偏最小二乘 logistic回归在鄱阳湖洪涝灾害预测中的应用[J1，数理统计与管理，2003，(1)．(责任编辑／亦民 )

统计与决策 2008年第 15期 (总第 267期) 25维普资讯 http://www.cqvip.com

Logistic模型多重共线性问题的诊断与改进

招生

专科是大专吗

人力资源属于什么学科门类

随机看看

标签

链接