Logistic模型多重共线性问题的诊断与改进

教育信息化

Logistic模型多重共线性问题的诊断和改善陶然

(中国人民大学统计学院，北京100872 )。

摘要：文章诊断并改进了lo结核tic回归模型的多重共线性问题方法，采用了条件指数和方差分解比例子的两个指标进行了共线性诊断，采用主成分的改进和偏最小二乘回归两种方法进行了多重共线性变量的改进进程：消除回归模型中变量之间多重共线性的影响，建立了理想的关系模型。结果，那么在togistic回归模型分析中，采用上述方法进行多重共线性的诊断和处理是有效可行的。关键词： Logistic回归模型；多重共线性诊断；主成分法；最小二乘法图中分类编号： 0212文献识别代码： a文章编号： 1002-6487(2008 ) 15-0022-03逻辑回归模型基于单个或多个连续类型或属性类型

利用自变量分析预测属性型因子的多元分析方法，主要是调查因变量各状态的发生概率和自变量的取值的关系

相关。目前，该方法已广泛应用于经济、社会科学，以及医学、心理学等很多领域。但是，用Logistic回归法进行变量筛选和参数估计计中.都要求各变量之间独立。事实上。许多研究表明个自变量之间不是独立的，相互之间存在一定程度的线性依赖从属被称为多重共线性(multi—eollinearity )，该多重共线性性关系通常会增大估计参数的平均误差和标准误差，其中

回归系数方向相反，方程极不稳定，引起逻辑回归模型拟合上的矛盾和不合理。本文给出了逻辑电路总结了模型减少共线性影响的两种改进方法，并进行了拟合分析，结果表明，改进方法确实能有效地减少多重共线性的影响。1 Logistic回归模型原理与多I共线性影响L1 logistic回归模型原理最简单的logistic回归模型是二分类非条件logistic次模型化：

主^x

px=p(y=1IX ) )下2 AKl eh‘

其中x；为了说明自变量，医学研究中多与某些疾病有关生理、心理、遗传、社会和环境因素。 y是二分类变量或0~l变元，服从二项分布。 p，b :…pp是推定对象参数。通过拟合型型可以得到事件发生概率的大小与各危险因素的关系。比数I七(Odds Ratio )被解释为用XJ ) j=l，2，3…p，ji )调整的某个人疾病是关于xi的比数比。当某病发病率较低时，exp(pj为

相对危险度RR的近似。1.2多重共线性的影响

2统计和决策2008年第15期(总的第267期) )。1.2.1对变量筛选的影响

病因学分析中，Logistic回归的建模过程一般逐一采用过滤解释变量的方法。用这种方法得到的回归子集是普遍认识的在所有可能影响观察的冈素中，由影响某些疾病的因素构成的子集。当解释变量不正交时，回归子集中包含的解释变量量可以视为影响因素，但回归子集中不包含的解释变量为不能说是是非影响因素。例如，a、b是某些疾病的原因，但原因是a、b之间存在某种j“义相关关系，有可能在普通的Lo西s在tic回归的变量筛选中，将其中一个从原因要素中排除，引起了判定消除误差。1.2.2对参数估计的影响

与多元线性回归模型一样，当自变量之间存在多元共时线性很有可能使回归系数不明显，使推定参数增大数的均方误差和标准误差。回归系数方向相反的可能性很高，因此，Logistic回归模型的结果产生了矛盾，无法从生物学角度给出作出合理的说明。例如，多因素分析和单因素分析的结果相互矛盾.单因素分析中某个因素是原因因素，而多因素分析中成为保护因素等。2多重共线性诊断与消除方法的改进2.1共线性诊断

要求出Logistic回归参数的估计值，通常选择Newton—Raphs伽马迭代法。迭代法变换为与迭代的加权最小二乘法同等。f Bn.() ) wx ) ) 1x ) wz那个第n个迭代过程是{。其中，w是对角

tZ=X13 .卜l W一1(y-p ) ) ) ) ) ) ) ) )。矩阵、对角线的元素为wii=； (1一函，w称为加权矩阵。 p方差var(13 )=I ) 13 )~.这里I ) 13 )=x-wx是Logistic模型的信息矩反复收敛时的信息矩阵I(p )的特征根越接近零越小时，加权解释变量之间存在共线关系，最终影响方程的拟合

效果。由此，可以将线性回归中的诊断工具推广到logistic模型中。2.I.1条件指数(condition indices )11删除=，/入l【i .】瓜k【明，k=l，2，…p； (1) ) ) )。其中，mi.1l )是信息矩阵I(p )的对应特征根。条件指数检测了XWX中是否存在比较小的特征值。统计学家Belsley，Knhand和Welsch得出的结论是只做标准化(以推定的各列为单位长度) )不中心化，1k【白金】30表示存在较强的共线关系。也就是公认的BKW指南。2.1.2方差分解比率

()喧哗黑暗)2)

v箝位I .】是与特征根入diJ对应的标准正交化特征向量v删除的第j个成分。砜和钆均大于O.5时，两个以上体系数a和b。包含在同一个强烈的共线关系中。2.2降低多重共线性影响的改进方法

目前大多数软件采用逐步回归法来消除多重共线性。但是，可能会排除实际上对结果有很大影响的变量模特之外。因为这些变量存在于选择模型的几个变量之间公共关系。这无疑会丢失大量的资料信息，而且也不易于解释协变量之间的关系，因此下面介绍了两种方法来改进Logistic回归模型2．2．1主成分方法

主成分改进方法主要是在参数方面对Logistic模型进行消除多重共线性改进。

首先将原设计矩阵的各列解释变量观察值矩阵X标准化为X+，然后进行主成分变换，选择r使得前r个特征根之和在P个特征根总和中所占比例大于90％，根据选定的r将矩阵x+Ⅸ+的特征向量构成的正交阵巾剖分为巾=(妣I巾一，其中z=X邵，为前r个主成分的得分值。具体公式如下：zj=Xl,jx日(j=1，2，…r) (3)由于zj之闻相互独立，因此以zj为自变量做IJo幽如回归，获得原自变量系数B；的估计值良：131=li'占t=／,Iail+…k‰(i=1，2．-．p) (4)&ii为Zi的logistic回归模型系数。

获得了原变量B的估计值后，还要对参数进行wald检验：由软件可以得出&。，龟，…&f的协方差矩阵：∑：㈣：：：引＼％…％』‘

由极大似然估计的性质，止(&。，&：，…&，)近似服从正态分布N(a；，cov(函)。因为正态分布具有线性分布不变性，因此根据公式(4)和(5)，可以得到氐的方差，从而可以求出6=o的Wald检验统计量：咧声J矾=∑∑编 j k2．2．2偏最dx--乘法(6)

偏最dx-乘法主要是对预测能力建模，具有良好的判别能力，其能在自变量之间存在强多重共线性、或者当样本量偏小时可以较好地解决普通logistic回归模型的计算结果不稳定的问题。具体步骤如下：(1)将变量X=(x。，X2-．·硝依照公式(7)做标准化变换，并记标准化后自变量矩阵为X‘：

K=翌丑 (7) 。

中国教育信息化

其中，每}石)【ij彳=音i荟(x．r≯。(2)提取偏最小二乘成分①提取第一个偏最小二乘成分t。。

对每个jj=l，2，…P，分别建立以xj为自变量、Y为因变量的普通IJ09istic一元回归模型，计算出xi的回归系数可lj,将P个面“写成列向量的形式，记为田，利用公式(8)对面进行标准化。得到面+。田；=Ⅲlj～窆可： (幻最后提取偏最小二乘成分t。

tx=X'm．／(可．)，面’ (9)

②在提取第h-1个偏最dx--乘成分tl,t2，…kt后，提取第h个偏最小二乘成分t}l。做t。，t2，…tIPl对x．的最小二乘回归，求出残差阵Vh-l-

(v¨l，vh-协…Vh-Lp)7，对每个j0=1，2，…p)，分别建立以Xh-1，tt，t2…th-l为自变量，Y为因变量的h元普通logistic回归模型，计算出回归系数面K=扣h1，面比，…田曲7l广i—一

利用公式(8)对田*标准化，得到田”司hj／、／；毫面：。最后提取主成分th-V¨口加h幻h③h的选定。

(10)

当所有的偏斜方差(partial covariance)都不显著时，并结合拟合优度指标AIC．SC和一2log以及各回归系数统计显著性检验进行判断。找出合适的h。④以tl,t2，…“为自变量，进行Logistic回归。3实例分析及讨论

例：为了探讨冠心病发病的相关危险因素．某医院对26例冠心病病人和28例对照者进行病例一对照研究。因素说明如表1。分析步骤与方法如下：

3．1 用统计软件SAS9．0对数据进行普通lo痨dc回归回归结果见表2。筛选之后的logistic模型拟合方程为：一5．8902+34579％+I．917fixtPx=P(y=l Ix)=JLi丽蕊历丽而 l+e’从表2的分析结果可以看出，虽然各个变量的OR值都大于l，但是仅有动物脂肪摄入(＆)和A型行为模式(Xe)两统计与决策2008年第15期(总第267期)23裹1 冠心病相关危险因素因素变量名赋值说明

年龄(岁) XI <45=1，45-=2。55一=3．65一--4高血压史 X2 无=0．有=l

高血压家族史 Xj 无=0．有=l吸烟 k 不吸=0．吸=l高血脂史 X，无=0．有=l动物脂肪摄入 )(6 低=0．高=l体重指数(BMI) X， <24=I。24-=2。26一=3A型行为模式 x。否却．足=1冠心病 Y 对照却。病例=1

注：A型行为模式：长期以来医学界认为诱发心脏病的原因是高血压、血清胆固醇、吸烟等，但这些因素解释或预测不到。脏病的半数。后来心理学提出易患心脏病的人有一种共同的行为模式，称为A型行为模式。现在在临床上用是否为A型行为模式预测u脏病具有很高的准确性。裹2 普通Logistic分析结果

变量自由度【口I归系数13 标准误 Waldx2 P值 OR值截距 l -5．8902 1．9727 8．9151 O．o()28

年龄(岁)(X．) l 0．6446 0．4988 1．6702 0．1962 1．905高血压史(X2) 1 0．9104 0．836l 1．1855 0．2762 2．485高血压家族史(X，) 1 0．9703 O．9058 1．1477 O．2840 2．629吸烟(㈧ 1 0．9945 1．2098 o．6758 0．411l 2．703高血脂史f)(0 l 0．7413 0．8802 0．7093 O．3997 2．099动物脂肪摄人0蚰 1 3．4579 1．4145 5．9761 0．0145 31．749体重指数()【0 l 0．3011 O．5910 0．2595 O．6105 1．35lA型行为模式(xo l 1．9178 0．9186 4．3587 0．0368 6．808个变量具有统计学意义。但是冠心病被称为“老年病”。与之对应的重要变量年龄却没有被选人．因此初步判定解释变量非正交。存在一定的共线性关系。

3．2对模型进行共线性诊断

同样．运行SAS9．0求出数据的条件指数和方差分解比例见表3。裹3 共线性诊断裹4 主成分分析结果

主成分特征根差异比例累计比例

l n821311 14 0_3235370I o．3377 n33772 0．4977741 3 0．21412208 0．2047 0．54233 0．28365205 0．05416332 O．1166 0．65904 0．22948873 O．04831813 0．0944 0．75335 O．18117059 O．01641391 O．0745 0．82786 0．16475668 0．01343092 O．0677 0．89557 O．15132576 0．04858960 0．0622 0．95788 O．10273616 0．0422 1．0000的比例达到了89．55％，接近90％，因此选用六个主成分进行分析比较合适。由于SAS不能直接对上文所述的方法进行分析。因此结合统计软件R以及SPSS进行主成分改进的logisitic回归．结果如表5。

该模型所有因素的OR值都大于l，和未进行主成分分析的模型相似，但是具有统计学意义的因素有五个。明显不同于前者，所以有5个因素进入，分别为：年龄(1)、高血压史()(2)、高血压家族史o【3)、体重指数()(7)、A型行为模式(x0。拟合方程为：

襄5 主成分改进后的Logistic回归

变量自由度回归系数6 标准误std(B) U检验值觚ld(6) P值 OR值年龄(岁)()(1) l 1．148 0．2074 5．533 O．000}+ 3．15l高血压史(x21 I 1．688 0．3776 4．470 O．Ooo‘+ 5．409高血压家族史(X31 1 1．243 0．3170 3．919 0．0()o++ 3．465吸烟(x41 I O．815 o．455I I．792 O．073 2．260高血脂史(X5) l 0．337 O．3078 1．094 0．274 1．400动物脂肪摄入f)【61 l -0．324 O．3小订 -0．934 0．350 0．723体重指数(X71 l O．667 O．2506 2．660 0．00l}+ 1．947A型行为模式(x8) l 2．147 0．4503 4．767 0．()00·+ 8．556条件方差分解比例编号特征根指数截距 Xl X2 X3 X4 X5 X6 X7 X8

l 6．25 1．00 0．OOl 0．002 O．007 0．006 0．004 O．007 O．006 0．003 O．0062 0．78 2．83 0．000 O．000 O．025 0．026 O．001 0．033 O．812 0．00l 0．00l3 0．58 3．29 0．008 0．006 0．037 0．127 0．019 0．236 O．150 0．007 0．0674 0．46 3．68 0．001 0．00l 0．652 0．(122 O．010 O．1“ 0．003 0．005 0．0555 0．34 4．30 0．000 0．000 0．00l 0．566 0．058 0．474 0．003 0．001 0．0146 O．29 4．67 0．016 0．028 O．147 0．038 0．058 O．010 0．003 O．000 0．6487 0．17 6．00 0．006 0．013 0．022 O．155 0．467 O．003 O．019 0．307 0．1138． 0．09 8．20 0．042 0．278 O．008 0．024 O．349 0．044 0．000 O．591 0．0739 0．04 12．56 0．924 0．673 0．10l 0．034 0．033 0．049 0．003 0．085 0．023共线性诊断结果显示的最大条件指数为12．56．与30还是有一定差距，但其所对应的截距、年龄(X。)的方差分解比例分别为92．4％、67．3％，均超过了50％，由BKW准则。可以认为两者之间存在较强的共线关系。而条件指数为4．30所对应的变量高血压家族史(X，)和高m脂史(x5)的方差分解比例分别为565％和47．4％，也可以大致认为两者之间存在一定的共线性关系。

3．3对变量进行主成分分析

先对变量进行主成分分析。得到各个主成分的累计比例如表4所示。

从表4可知，当主成分个数为6的时候，累计解释方差24 统计与决策2008年第15期(总第267期)

．一5’s902+1．148x,+1．688．2+l+2A3r’+0．677b+2’147～P】【=PO=1 Ix)=Jt丽而而瓯币丽瓦撕蕊而i丽 l+e’

OR值最大的因素为A型行为模式．可以近似说明A型行为模式的危险率最高，这与之Ij{『获得的A型行为模式预测心脏病具有很高的准确率的信息相符合。而之前危险率最高的动物脂肪摄人这个因素却没有被选人．可能是因为其与高血脂和体重指数存在相关关系，因此可以舍去。而选人的这些变量能更好的解释影响冠心病的因素，因此认为主成分改进的Logistic模型有良好的效果。3．4成分偏最最小二乘法改进很显然，数据只有两个等级：等级O为对照，等级l为病例。利用上述数据，使用偏最小-乘Logistic回归方法，根据拟合优度指标AIC．SC和一表6偏量小=乘法预测情况分析寰2log以及各回归系数统计

显著性检验，确定只提取一个偏最小二乘成分。根据所选取的偏最小

二乘成分做Logistic同归可以得到．新的回归模型预测的准确情况如表6。而使用普通logistic＼、踅测等级实际等八 0(对照) l(病例) 合计0(对照) 23 5 28l(病例) 5 2l 26台计 28 26 54

裹7 普通logistic模型预测分析裘＼测等级实际等八 0(对照) 1(病例) 合计0(对照) 2l 7 281(病例) 9 17 26合计 30 24 54

基于SA和Bootstrap的LS—SVM参数优选及应用O引t

赵春秀1，周辉仁1，刘春霞2

中国基础教育资源库

2．济南热电有限责任公司，济南250002)摘要：文章针对最小二乘支持向量机的特，量，通过Bootstrap建立适当的性能指标．用模拟退火算法(SA)优化最小二乘支持向量机的有关参数，并在非线性经济系统中应用。用最小二乘支持向量机对非线性经济系统进行预测的结果与神经网络预测的结果比较证明．该模型的预测精确度是令人满意的．文中提出的方法是可行的。关键词：最小二乘支持向量机；Bootstrap；模拟退火算法；参数优化

中图分类号：TPl81 文献标识码：A 文章编号：1002—6487(2008)15枷25—04Vapnik在1995年提出一种新型具有完备的统计学习理

论基础和出色的学习性能的方法——支持向向量机(SupportVector Machines)，已成为机器学习界的研究热点，并在很多领域都得到了成功的应用㈣。用传统的支持向量机训练样本变为求解凸二次规划问题。这个二次规划具有全局和唯一解。近年．SuyKens J．A．K提出最小二乘支持向量机方法(Least Squares Support Vector Machines。LS—SVM)I粥．这种方法采用最小二乘线性系统作为损失函数，求解过程变成了解

一组等式方程，求解速度相x于1JD快．并应用到模式识别和非线性函数逼近中，取得了较好的效果。

SVM模型参数的选择是一个尚待解决的公开问题，常用的留一法参数选择方法，计算量非常庞大【习。文献『61针对U卜SVM用交叉验证的方法进行核参数选择后对软测量建模；文献【7】提出了一种基于三步搜索技术的参数选择方法；文献【8】用网格搜索对核参数选择后对非线性系统建模；文献【9】提出基金项目：天津市科技发展战略研究计划项目(07ZLZLZT02300)回归模型得到的预测情况如表7。验。对具有多重共线性的8个变量进行了共线性诊断及处由表6可见，利用偏最小二乘法得到的logistic模型的理。运用两种方法分别从参数模型的改进和判别模型两个角错判数为10次，错判率为18．5％，而普通模型的错判率则高度对普通Logistic回归模型进行改进。从结果可以看出，两种达29．62％，而且前者对于实际等级1(危险因素)的错判次数方法都取得了较为理想的效果。5次小于后者的错判次数9次。更有实际意义，因此偏最小二乘法能改进普通Logistic模型多重共线性问题。并能取得参考文献：良好的预测效果。【l壤炯良，郑剑宁，张扬．主成分改进的Logistic回归模型方法在流行3．5 讨论病学分析中的应用Ⅲ．中国热带医学，2005，5(2)．

目前。对线性回归中出现的多重共线性问题的诊断和处【2】王济川，郭志刚·Logistic回归模型一方法与应用【M1-北京：高等教育理方法较多，但对于Logistic回归模型变量的共线性处理却出版社'2I)ol’相对较少。而且大多数采用的方法都是逐步回归筛选变量来【3】赵宇东，刘嵘，刘延龄等·多元L,,gi8ti。回归的共线性分析明·中国卫消除多重共线性，但正如上文所述，逐步回归的结果可能造生统计，2000，(5)．．．．

成一些对疾病有影响的变量会被排除在模型之外。没入选的一A。aly6i。【M；．北京：；华大学出版社，2磊8．变量并不说明其对因变量的作用一定无统计学意义，可能与【5】贺在，陆L健：sAs 8．2统计软件应用教程【M】．北京：人民卫生出版其有共线性的变量掩盖了它的作用。如此则不能充分利用所 {。，。n‘调查数据，全面地反映真实情况。本文通过推广线性回归模【6】李大鹏，王惠文．偏最小二来logisti。回归在鄱而湖洪涝灾害预洲中型多重共线性诊断，提出了两种Logistic回归模型共线性判的应用fJl．数理统计与't-J臣，2003。(1)．定方法，并归纳了两种消除共线性因素的方法：主成分改进方法和偏最小二乘方法。结合冠心病发病因素病例一对照实 l责任编辑／亦民)统计与决策2008年第15期(总第267期)25

Logistic模型多重共线性问题的诊断及改进作者：陶然作者单位：中国人民大学,统计学院,北京,100872刊名：统计与决策

英文刊名： STATISTICS AND DECISION年，卷(期)： 2008，""(15)被引用次数： 2次参考文献(6条)

1.裘炯良.郑剑宁.张扬主成分改进的Logistic回归模型方法在流行病学分析中的应用[期刊论文]-中国热带医学2005(02)2.王济川.邦志刚 Logistic回归模型-方法与应用 2001

3.赵宇东.刘嵘.刘延龄多元Logistic回归的共线性分析[期刊论文]-中国卫生统计 2000(05)

4.Richard A.Johnson.ean W.Wichen Applied Multivariate Statistical Analysis 20085.贺佳.陆健 SAS 8.2统计软件应用教程 20066.李大鹏.王惠史偏最小二束logistic回归在鄱阳湖洪涝灾害预洲中的应用[期刊论文]-数理统计与管理 2003(01)相似文献(3条)

1.学位论文徐娜 2型糖尿病并发抑郁症相关因素研究 2007

目的:了解天津市社区2型糖尿病(T2DM)患者抑郁症的患病率，探讨T2DM并发抑郁症的相关因素。

方法:本研究采用以社区为基础的病例对照研究的方法。研究对象为南开区、汉沽区参加天津市2型糖尿病及其并发症的流行病学调查的2型糖尿病患者。其中病例组为在2006年4月～2006年12月随访期内并发抑郁症的患者，对照组为同期没有并发抑郁症的患者。采用流调用抑郁自评量表(CES-D)对调查对象是否患有抑郁症进行评判。运用非条件Logistic回归模型进行单因素分析，然后对单因素分析中有意义的预选变量以及根据前人经验可能有生物统计学关联的变量进行共线性诊断后，经主成分分析、因子分析，进行多因素Logistic回归分析，建立主效应方程，并对资料中可能存在的交互作用进行分析。结果:对单因素分析中有意义的变量以及根据前人经验和相关文献报道可能有意义的变量进行多重共线性诊断，拟合主成分，确定合适的公因子数

，对公因子进行多因素非条件logistic回归分析，结果显示DD发生的危险因素为：生存质量低、DM并发症(OR=2.903，95％CI：1.805-4.669)、生活应激、精神压抑(OR=3.640，95％CI：2.238-5.920)、吸烟指数高(OR=1.595，95％CI：1.014-2.508)。对多因素分析中有意义的自变量进行二阶相乘交互作用分析表明，结果显示生存质量、DM并发症数量(因子3)与生活应激、精神压抑(因子6)间存在负交互作用。结论:生存质量低、DM并发症、生活应激、精神压抑、吸烟指数高是DD发生的危险因素。2.期刊论文鞠振宇.姜又红.肖峰胃癌危险因素研究中多因子共线性的logistic回归分析 -中国卫生统计2001,18(3)

目的探索胃癌的危险因素,并探讨研究中存在的多因子共线性的处理方法.方法采用病例对照方法,获得50名胃癌患者和50名对照的流行病学资料;PCR方法检测个体基因型;应用线性回归中的三个工具,对各研究因素进行共线性诊断:用主成分分析改进的方法,得出并解释最终的回归模型.结果多因素logistic回归结果与单因素分析结果不一致,共线性诊断显示方差膨胀因子普遍较大,GSTM1基因型、肿瘤家族史等因素之间存在多因子共线性.应用主成分分析改进后的logistic回归模型拟合数据,不仅各回归系数的标准误均有减小,而且有更多的因素被选入模型.结论遗传易感性和环境因素在胃癌的发生中共同起作用.对疾病危险因素进行logistic回归分析时,应首先进行原始变量的多重共线性诊断,并结合主成分分析得出更合理的回归模型.3.学位论文李哲 2型糖尿病慢性并发症影响因素的研究 2009 目的：糖尿病是一种慢性代谢障碍性疾病。由于体内胰岛素缺乏或相对缺乏，形成持续性的高血糖病征，长期血糖控制不佳的糖尿病患者，可引起各种并发症，尤其是眼病、心血管病、肾病、神经病变，导致器官功能不全或衰竭，并发症高致死率和致残率是糖尿病患者生命健康的主要危害，因此，有关糖尿病并发症发生与发展的一些影响因素一直受到重视。本研究深入探讨了影响2型糖尿病（T2DM）患者慢性并发症发生及发生时间早晚的影响因素，为糖尿病并发症的防控提供了依据。
　　

方法：（1）运用以医院为基础的频数匹配的病例对照研究方法。选取40岁以上病例和对照各200例，病例为2005-2007年间保定市第一中心医院住院的2型糖尿病患者中至少发现一种慢性并发症者，对照为住院患者中未发现任何慢性并发症者。两组以性别、年龄和民族进行频数匹配。对病例和对照使用统一的调查表进行面对面调查，内容包括：社会人口学特征、疾病史、疾病家族史、饮食习惯、生活方式、社会心理因素以及体格检查和实验室检查资料。采用非条件Logistic回归模型进行分析，对单因素分析中有意义的预选变量进行共线性诊断，经主成分分析、因子分析后，进行多因素Logistic回归分析。（2）分别以103例神经病变、112例心血管病、108例眼病的糖尿病患者作为病例组，无任何眼病、肾病、心血管病、周围神经病变、糖尿病足的200例糖尿病患者作为对照组直接进行非条件多因素Logistic分析。（3）采用生存分析方法，收集194名至少合并一种并发症的2型糖尿病患者的人口统计学特征、疾病史、疾病家族史、饮食习惯、行为方式以及体格检查和实验室检查资料，糖尿病诊断日期和诊断第一种慢性并发症时的日期，定义两个日期的时间间隔为“生存时间”，定义糖尿病某种慢性并发症的发生为观察终点。先用寿命表法计算194名T2DM患者未发生慢性并发症的百分比，再用Log-rank检验比较每个相关因素各水平间未发生慢性并发症的百分比的差异，最后用Cox风险比例模型分析糖尿病患者慢性并发症发生时间及其影响因素。
　　

结果：（1）单因素非条件Logistic回归分析结果表明，与T2DM慢性并发症发生有关联的因素为：农民，糖尿病病程，高血压，血脂异常，住院次数，累积住院时间，糖尿病家族史，高血压家族史，病前吸烟及吸烟量，病后饮酒，病前及病后缺乏锻炼，病前喜食油腻，甜食，主食为大米，精神压力大，生活方式不规律，高收缩压（SBP），低高密度脂蛋白-胆固醇（HDL-C），高低密度脂蛋白-胆固醇（LDL-C），高尿素氮（BUN），高肌酐（Cr），高C反应蛋白（CRP），高糖化血红蛋白（HbAlc％）；血糖控制佳，血压控制佳，血脂控制佳，遵医服药，使用胰岛素，睡眠质量高。对单因素分析中有意义的变量进行相关分析和多重共线性诊断后，拟合主成分，确定合适的公因子数，自每个公因子中选取代表性的自变量，进行多因素条件Logistic回归分析，其中T2DM慢性并发症的危险因素及其OR值和95％CI为：高CRP（OR=5.568，CI=2.041～15.188）、血脂异常（OR=4.400，CI=2.092N9～253）、高BUN（OR=4.399，CI=1.705～11.350）、高LDL-C（（OR=3.594，CI=1.229～10.508）、住院总时间（OR=2.612，CI=1.399～4.878）、病前喜食油腻（OR=2.300，CI=1.281～4.128）、高HbAlc％（OR=1.747，CI=1.081～2.823）、病后缺乏锻炼（OR=1.672，CI=1.150～2.431）、糖尿病病程（OR=1.509，CI=1.127～2.021）、精神压力大（OR=1.427，CI=1.041～2.064）；保护因素及其OR值和95％CI为：睡眠质量高（OR=0.606，CI=0.376～0.977）、血糖控制佳（OR=0.517，CI=0.316～0.844）、血脂控制佳（OR=0.299，CI=0.100～0.523）、使用胰岛素（OR=0.155，CI=0.027～0.898）。（2）多因素非条件Logistic分析结果显示糖尿病眼病的危险因素为高BUN、高CRP、病前喜食油、高HbAlc％、高血压、糖尿病病程；糖尿病心血管并发症的危险因素为高BUN、高血压、高CRP、高LDL-C、高HbAlc％、糖尿病病程、精神压力大；保护因素为使用胰岛素、血脂控制佳。糖尿病神经病变的危险因素为甜食、糖尿病病程、病前喜食油腻、病后缺乏锻炼；保护因素为使用胰岛素、遵医服药、血脂控制佳。（糖尿病发病前后简称病前、病后）（3）结果显示194名T2DM患者：1年后未发生并发症者占总观察人数的82.1％，3年占73.7％，5年占58.9％，10年占29.5％。中位“生存时间”为7.42年。Log-rank检验结果表明年龄、诊断年龄、是否有血脂异常、是否经常有精神压力这4个因素各水平之间2型糖尿病患者未发生慢性并发症的百分比差异存在统计学意义。多因素Cox回归分析显示影响从糖尿病发病到开始出现并发症时间长短的因素及其OR值为：年龄（OR=0.434），精神压力（OR=1.394），诊断年龄（OR=2.967）。
　　结论：（1）高CRP，血脂异常，高BUN，高LDL-C，住院总时间，发病前喜食油腻，高Hbhlc％，发病后缺乏锻炼，糖尿病病程，精神压力大是导致T2DM慢性并发症发生的危险因素，高Cr水平与T2DM慢性并发症的关联强度最大但并非其危险因素，而是预示已经发生了慢性并发症；使用胰岛素，血脂、血糖控制佳，睡眠质量高是 T2DM慢性并发症的保护因素。（2）心血管并发症独有的危险因素为高LDL-C、精神压力大，神经病变独有的危险因素为病后缺乏锻炼、喜食甜食，眼病并无其独有的危险因素；眼病独有的保护因素为血糖控制佳，心血管与神经病变并无其独有的保护因素。（3）确诊糖尿病7.42年后，将有50％的人发生至少一种慢性并发症。影响慢性并发症发生早晚的因素包括年龄、诊断年龄、精神压力。引证文献(2条)1.唐洁.庞桥.何军峰.谭毅.赵长水两个高校评估排行榜的二元回归分析[期刊论文]-现代教育管理 2010(2)2.重庆市绝经后妇女骨质疏松症的危险因素研究[期刊论文]-第三军医大学学报 2009(21)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_tjyjc200815007.aspx授权使用：牟肖光(wflynxy)，授权号：c7ba9497-4fe0-4b55-9c05-9e1d010daec7下载时间：2010年10月28日

Logistic模型多重共线性问题的诊断与改进

教育信息化

中国教育信息化

中国基础教育资源库

随机看看

标签

链接