教学工作的资源分享

Logistic模型多重共线性问题的诊断与改进

招生

招生

Logistic模型多重共线性问题的诊断和改善陶然

(中国人民大学统计学院,北京100872 )。

摘要:文章诊断并改进了1o tic回归模型的多重共线性19问题方法,采用了条件指数和方差分解比对实例的两个指标进行了共线性诊断,采用改进主成分和最小二乘回归两种方法进行了多重共线性变量的改进进制处理:消除回归模型中变量之间多重共线性的影响,建立了理想的关系模型。 结果,那么在Logistic回归模型的分析中,利用上述方法进行多重共线性的诊断和处理是有效且可行的。关键词: Logistic回归模型; 多重共线性诊断; 主成分法; 最小二乘法图中分类编号: 0212文献识别代码: a文章编号: 1002-6487(2008 ) 15—0022—03逻辑回归模型基于单个或多个连续类型或属性类型

利用自变量分析预测属性型因子的多元分析方法,主要是调查变量引起的各种状态的发生概率和自身变量的取值的关系相关。 目前,该方法已广泛应用于经济、社会科学,以及医学、心理学等很多领域。 但是,用Logistic回归法进行变量筛选和参数估计在计算中,要求各变量之间相互独立。 事实上,许多研究表明个自变量之间不是独立的,相互之间存在一定程度的线性依赖从属被称为多重共线(~(multi—collinearity ) ),通过该多重共线性关系通常会增大估计参数的平均误差和标准误差,甚至

回归系数方向相反,方程极不稳定,引起逻辑

回归模型的拟合存在矛盾和不合理。 本文给出了Lo gistic次总结了两种减少模型共线性影响的改进方法,并进行了拟合分析,结果表明,改进方法确实能有效地减少多重共线性的影响。1 Logistic回归模型原理与多重共线性影n向1.1逻辑回归模型原理最简单的logistic回归模型是二分类非条件logistic次模型化:

f3o圭B([1] )

px=p(y=lix )=t _B1 e。

其中,xi为解释自变量,在医学研究中多与某些疾病有关生理、心理、遗传、社会和环境因素。 y是二分类变量或0~1服从自变量、二项分布。 p,p :…是推定对象参数。 通过拟合型型可以得到事件发生概率的大小与各危险因素的关系。 比数~e(oddsratio )被解释为用XJ ) j=l,2,p,ji )调整的某个人疾病是关于Xi的比数比。 当某病发病率较低时,exp(pj为

相对危险度RR的近似。1.2多重共线性的影响

22统计和决策2008年第l5期(总的第267期) ) )。1.2.1对变量筛选的影响

在病因分析中,Logistic回归的建模过程一般逐一采用过滤解释变量的方法。 用这种方法得到的回归子集是普遍认识的在所有观察的可影响因素中,由影响某些疾病的因素组成的子集。 当解释变量不正交时,回归子集中包含的解释变量量可以视为影响因素,但回归子集中不包含的解释变量为不能说是是非影响因素。 例如,a、b是某些疾病的原因,但原因是如果a、b之间存在某种广义的相关关系,就有可能在普通的Logis—上在tic回归的变量筛选中,将其中一个从原因要素中排除,引起了判定消除误差。1.2.2对参数估计的影响

与多元线性回归模型相似。 参数之间存在多变量共时线性很有可能使回归系数不明显,使推定参数增大数的平均误差和标准误差很可能使回归系数的方向相反因此,Logistic回归模型结果的矛盾在生物学上是无法给出的作出合理的说明。 例如,多因素分析和单因素分析的结果相互矛盾是,在单因素分析中某个因素是原因因素,而在多因素分析中成为保护因素等。2多重共线性诊断与消除方法的改进2.1共线性诊断

要求出Logistic回归参数的估计值,一般需要计算Newton-RaDh—SOn迭代法。 该迭代法等于通过变换迭代的加权最小二乘法FB=(x-wx ) X'WZ其第n步的反复过程是{; 其中,w是对角

lz=xp1 w。 (y-I () ) ) ) ) )。矩阵,其对角线的要素是w。 请参阅。 (1)。 w称为加权矩阵。 p方差var(3)=i03 )另外一方面,其中i@=x-wx是Logistic模型的信息矩数组收敛时的信息矩阵I(b )的特征根越接近零越小

维普信息http://www.cqvip.com时,加权解释变量询问共线关系的存在,最终影响方程的拟合效果。 由此在线性回归中诊 断工具推 广到 logistic模型 。2.1.1 条件指数(conditionindices)11k[i=、/l[i】/k[is],k=l,2,…P; (1)其 中,。凹 ≥… 凹为信息矩阵 i(p)的相应特征根。

专科是大专吗

专科是大专吗

统 计学 者 Belsley、Knhand和 Welsch得 出在 只标 准化(使估计 的的每一列为单位长度)而不 中心化 的前提下 ,11嘲>30表示存在较强的共 线关 系。即公认 的 BKW 准则 。2.1.2 方 差 分 解 比例

1TSki= V2ik[is])k^kq[is酉] (2)

V 旧 是与特征根 阳相对应 的的标准正交 化特征 向量

v~IiJ的第 j个成分。若 1T与 1T 都大于 0.5,则两个或更 多系数 和 p 被包含在同一 个较强的共线关 系中。

2.2 消 减 多重 共 线 性 影 响 的 改进 方 法虽然 目前许多软件采用逐步 回归法来 消除多重共线性 ,但它可能会把 某些实 际上对结果 有显著影 响的变量 排除在模型之外,只因这些变量与选 人模 型 中的一些变 量问存在着共线关系 。这无 疑会 损失大量 的资料信息,而且也不易于解释协 变 量之 间 的关 系 ,因 此下 面介 绍 了两 种 方法 来 改进Logistic回 归模 型2.2.1 主 成分 方法

主成分改进方法 主要是 在参 数方面对 Logistic模型进行消 除 多 重 共线 性 改 进 。首先将原设 计矩 阵的各列解 释变量观察值矩 阵 x标准化为 x ,然后进行主成分变换,选择 r使得前 r个 特征根之和

在 P个 特 征 根 总 和 中所 占 比例 大 于 90% ,根 据 选 定 的 r将 矩阵 x,x 的特征向量构成 的正交阵 牵剖分为 牵=(中rJ牵 ,其 中Z=X 为前 r个主成分 的得分值 。具体公式如下:Zj=E/X(j=1,2,…r) (3)由于 之间相互独立 ,因此以 乙为 自变量做 Logistic回归 ,获得原 自变量系数 p。的估计值 :

= liloll+… d 0=1,2---P) f4)d 为 Z。的 logistic回归模 型 系 数 。获得了原变量B的估计值后,还要对参数进行 wald检验 :由软件可以得出& ,&:,…& 的协方差矩阵 :己 /I::一‘· r\: }

\O'rl … H /

由极大似然估计的性质,dlr=(&。,&,…&)近似服从正态分布 N(&,coy(5i))。因为正态分布具有线性分布不变性 , 因此根据公式(4)和(5),可以得到 的方差,从而可以求出B=0的 Wald检验统计量 :var(BJ==∑j ∑k z2.2-2 偏 最小 二 乘 法(6)

偏 最小 二 乘 法 主 要 是 对 预 测 能 力 建 模 。具 有 良好 的判 别能力 .其能在 自变 量之 间存 在强多重 共线性 、或者 当样本量偏小时可以较好地解 决普通 Logistic回归模型 的计算结果不稳定的问题 。具体步骤如下 :(1)将变量 x=(x。,x。一·xD)依 照公式 (7)做标 准化变换 ,并记标准化后 自变量矩阵为 x:

x : 兰二兰L f7)其 中,x—j=。

x , = (x一 。(2)提取偏最小二乘成分①提取第一个偏最小二乘成分 t。。

对每个 j=1,2,…P,分 别建立 以 xj为 自变量 、Y为因变量 的普通 Logistic一元 回归模 型 ,计算 出 xj的回归系数 J酊lj,将 P个 四 。i写 成 列 向 量 的 形 式 ,记 为 四 ,利 用 公 式 (8)对 面进行标准化 ,得到 四 。\ rv— —

罚 j/\/ 2 (8)

最后提 取偏 最小二乘成分 t.tl=x (9)

②在提取第 h-1个偏最小二乘成分 t,t2,…th一后,提取第 h个偏最小二乘成分 t。做 tl,t2,…th_l对 x 的最小二乘 回归 ,求出残差阵 Vh_l=

(Vh-1_ljVh-l。,…Vh-1),对每个 j0=1,2,…P),分别建 立以 Xh-l,tl,t2…th_l为 自变量 ,Y 为因变量 的 h元普通 logistic回归模型 ,计算 出回归 系数 四 = 四 h2,…四 nk)l 厂 —~

利用公式(帕 、准化得到 /\/四。 最 后 提 取 主 成 分th=Vk4四 口 h勺 h (10)⑧h的选定。

当所有 的偏斜方差 (partialcovariance)都不显著时,并结合拟 合优度 指标 AIC.SC和一2log以及 各 回归系数 统计显著性检验进行判断 ,找 出合适 的 h。④ 以 tl,t2,…th为 自变量 ,进行 Logistic回归 。3 实 例 分 析 及 讨 论

例 :为 了探讨 冠心病 发病 的相关 危险 因素 ,某 医院对26例冠 心病 病人 和 28例对 照者进行病例一对照研究 。因素说 明如 表 1。分析步骤与方法如下 :

3.1 用统计软件 SAS9.0对数据进行普通 1o stic回归回归结果见表 2。筛选之后 的 logistic模 型拟合方程为 :一 58902+3.4579xs+l_9178x。Px=P(y=llx)= e1+e一。

人力资源属于什么学科门类

人力资源属于什么学科门类

6从表 2的分析结果可 以看 出 ,虽然各 个变量 的 OR值 都大于 1,但是 仅有动物脂肪 摄人(x6)和 A型行为模式 (x )两统计与决策 2008年第 15期 (总第 267期) 23维普资讯 http://www.cqvip.com 表 1 冠心病相关危 险因素因素 变量名 赋值说 明

年龄 (岁) Xl <45=1,45-=2,55-=3,65-=4高血压史 X2 无 -().有:1

而血j盘_泵族史 X3 无-(),有=1吸 烟 X 不 吸 -()吸 =1高血脂史 X5 无-()有 =1动物脂 肪摄人 低-().高=1体重指数(BMI) X <24=1,24-=2,26-=3A型行为模式 X8 否-().是=1

冠心病 Y 对照=0,病例=1

注 :A型行为模 式:长期 以来医学界认为诱发 l心脏病 的原因是 高血压 、血清胆固醇、吸烟等,但这些 因素解释或预测不到心脏病 的半数 。后来心理 学提 出易患l心脏病的人有一种共 同的行为模式 ,称 为 A型行为模式 。现在 在临床上用是否为 A型行为模式预测 。脏病具 有很 高的准确性 。表 2 普通 Logistic分析结 果变量 自由度 回归系数 8 标准误 Waldx P值 0R值截距 1 -5.8902 1.9727 8.9151 O.oo28

年龄(岁)(X ) 1 0.6446 0.4988 1.6702 0.1962 1.905高血压史 (X ) 1 0.9104 0.8361 1.1855 0.2762 2.485高血压家族史 (X) 1 0.9703 0.9058 1.1477 02840 2.629吸烟fX 1 o.9945 1.2098 0.6758 0.4111 2.703高血脂史(X 1 0.7413 0.8802 0.7093 0.3997 2.099动物脂肪摄人 fx 1 3.4579 1.4145 5.9761 O.O145 31.749体重指数fX 1 0.3011 O.591O 0.2595 O.61O5 1351A型行为模式fX 1 1.9178 O.9186 4.3587 0.0368 6.808个 变 量 具 有 统 计 学 意 义 。但 是 冠 心病 被 称 为 “老年病 ”,与之 对应 的重要变量 年龄却没有被选人 因此 初 步 判 定 解 释 变 量 非 正 交 ,存 在 一 定 的共 线 性关 系 。

3.2 对模 型进 行 共 线性 诊 断同样 ,运行 SAS9.0求出数据的条件指数和方差分解 比例见表 3。表 3 共线性诊断

表 4 主 成 分 分 析 结 果主成分 特征根 差异 比例 累计比例

1 0.82131114 0.32353701 0.3377 0.33772 0.49777413 0.214122O8 O_2O47 0.54233 0.28365205 0.05416332 O.1166 0.65904 0.22948873 O.O4831813 O.o944 0.75335 0.18117059 O.O1641391 0.0745 0.82786 0.16475668 0.01343092 0.0677 0.89557 0.15132576 O.O485896O 0.0622 0.95788 0.10273616 0.0422 1.0000的 比例达到 了 89.55%,接近 90%,因此选用六个 主成分进行分析 比较合适。

由于 SAS不能直接对上文所述的方法进行分析 ,因此结

合统 计软件 R以及 SPSS进行 主成 分改进 的 logisitie回归 ,结 果 如 表 5。

该模型所有因素的 OR 值都大于 l,和未进行主成分分析 的模 型相似 ,但 是具有统 计学意义 的因素有 五个 ,明显不同于前 者 ,所 以有 5个 因素进入 ,分 别为 :年龄(1)、高血压史(X2)、高血压家族 史(X3)、体 重指数(X7)、A型行为模 式(X8)。拟合 方 程 为 :表 5 主成分改进后的 Logistic回归

变量 自由度 回归系数8 标准误std(B)U检验值B/sld(8) P值 0R值年龄(岁 )(X1) 1 1.148 O_2O74 5.533 0.000"* 3.151高血压史fx21 1 1.688 0.3776 4.470 0.000" 5.409高血压家族史fX31 1 1.243 O0170 3.919 O.Ooo 3.465吸烟0<41 1 O.815 0.4551 1.792 0.073 2.260高血脂史(x51 1 o.337 0.3078 1.094 0.274 1.400动物脂肪摄人fX61 1 -0.324 0.3467 —0.934 0.350 0.723体重指数(X71 1 0.667 0.2506 2.660 0.001 1.947A型行为模式(x81 1 2.147 0.4503 4.767 0.000"* 8.556编号 特征根 条件 方差分解 比例指数 截距 Xl X2 X3 X4 X5 X6 X7 X8

1 6_25 1.0O 0.001 0.002 O.OO7 0.006 O.OO4 0:007 O.oo6 0.003 O.OO62 0.78 2.83 O.ooO 0.000 0.025 0.026 0.001 0.033 0.812 0.001 0.0013 O.58 3_29 0.008 0.006 0.037 0.127 O.O19 0.236 O.15O O.O()7 0.0674 0.46 3.68 0.001 0.001 0.652 0.022 O.O1O 0.144 0.003 O.oo5 0.0555 0.34 43O 0.000 0.000 0.001 0.566 0.058 0.474 0.003 O.0O1 O.O146 O_29 4.67 O.O16 0.028 0.147 0.038 0.058 O.O1O 0.003 O.O0o 0.6487 O.17 6.OO O.oo6 O.O13 0.022 O.155 O_467 0.003 0、O19 O3()7 O.1138 O.O9 8.2O O.O42 0.278 0.008 0.024 0.349 0.O44 0.ooo O.59l 0.0739 0.04 12.56 O.924 0.673 O.1O1 0.034 0.033 0.049 0,003 0.085 0.023共线性诊断结果显示 的最 大条件 指数 为 l2.56.与 30还是有一 定差距 ,但其 所对应 的截距 、年龄 (X1的方差 分解 比例分别 为 92.4%、67-3%,均超 过了 50%,由 BKW 准则 ,可 以认 为 两 者 之 间 存 在 较 强 的共 线 关 系 。而 条 件 指 数 为 4.30所对应 的变量高血 压家族 史 (X,)和高血 脂史 (X )的方差 分解比例分别为 56.5%和 47.4%,也可 以大致认为两者之 间存在一 定 的共 线 性 关 系 。

3_3 对 变量 进 行 主 成 分 分 析先对变量进行主成分分析 ,得到各个主成分 的累计 比例如 表 4所 示 。

从表 4可 知 ,当主成分个 数为 6的时候 ,累计解 释方差24 统计与决策 2008年第 15期(总第 267期 )- 5.8902+1.148xI 2+1.2 x3+0.677rv+2Px=P(y=lIx)=—!_j蕊I位+】_西 II 卞1 而l+e

OR值最 大的因素为 A型行为模式 ,可 以近似说 明 A型行为模式 的危险率最高 ,这与之前获得 的 A型行为模式预测心脏病具有很高的准确率的信息相符合 。而之前危 险率最高的动物脂肪摄人这个 因素却没有被选人 ,可能是 因为其与高血脂和体重指数存在相关关系 ,因此可 以舍去。而选人的这些变量能更好的解释影响冠心病 的因素 ,因此认为主成分改进 的 Logistic模型有 良好 的效果 。3.4 成 分 偏 最 最 小 二 乘 法 改进很显然 ,数据只有两个等级 :等级 0为对照 ,等级 l为病例 。利用上述数据 ,使用偏最小二乘 Logistic回归方法 ,根据拟合优度指标 AIC.SC和一 表6 偏最小二乘法预测情况分析表2log以及 各 回归 系 数 统 计显 著 性 检 验 .确 定 只 提 取一 个偏最 小二乘成分 。

根据所选取 的偏最小

二乘 成 分做 Logistic回归可 以 得 到 .新 的 回归 模 型预测 的准 确 情 况 如 表 6。而 使 用 普 通 Logistic、、、j贯测等级

实际等级\ O(对照)1(病例) 合计O(对照) 23 5 281(病例) 5 21 26合计 28 26 54表 7 普通 logistic模型预测分析表、、、预 测等级

实际等疲\ O(对照)1(病例) 合计O(对照) 21 7 281(病例 ) 9 17 26合计 30 24 54

维普资讯 http://www.cqvip.com 基于 SA和 Bootstrap的 LS—SVM 参数优选及应用。 弓l言

赵春 秀 ’,周辉仁 ,刘春 霞

f1.天津大学 管理学院 ,天津 300072;2.济南 热电有 限责任公司 ,济南 250002)摘 要 :文章针对最 小二乘支持 向量机 的特 点,通过 Bootstrap建 立适 当的性能指标 ,用模拟退 火算法fsA1优化最 小二乘 支持 向量机 的有关参数 ,并在非线性 经济系统 中应 用。用最小二乘支持 向量机 对 非 线 性 经 济 系统 进 行 预 测 的 结 果 与神 经 网络 预 测 的 结果 比较 证 明 ,该 模 型 的 预 测 精 确 度 是 令 人满 意 的 .文 中提 出 的 方 法是 可 行 的 。

关键词 :最小二 乘支持 向量机 ;Bootstrap;模拟退火算法 ;参数优化

中 图分 类 号 :TPI8i 文 献 标识 码 :A 文章 编 号 :1002-6487(2008)15-0025—04Vapnik在 1995年 提 出一 种 新 型 具 有 完备 的统 计学 习 理

论基 础和 出色 的学 习性 能的方法——支持 向向量机(SupponVectorMachines1.已成 为机器学 习界 的研 究热点 ,并在很 多领域都得到 了成功 的应用㈣。SVM 模型参数 的选择是一个 尚待解决的公 开问题 ,常用的留一法参数选择方法 ,计算量非常庞大日。文献【6】针对 LS—SVM 用交叉验证 的方法进行核参数选择后 对软测量建模 ;文献『71提出了一种基 于三步搜索技术 的参数选择方法 ;文献【8]用网格搜索对核参数选择后对非线性系统建模 ;文献f9】提 出基 金 项 目 :天 津 市科 技 发 展 战 略 研 究 计 划 项 目(07ZLZLZT02300)回归模 型得到 的预测情况如表 7

由表 6可见 ,利用偏最小二乘法 得到的 Logistic模型的错 判数为 10次 ,错判率为 18.5%,而普通模型 的错 判率则高达 29.62%,而且前者对于实际等级 1(危险 因素 )的错判次数5次 小于后 者的错判 次数 9次 ,更有实 际意义 ,因此偏 最小二乘法 能改进普通 Logistic模型 多重共线性 问题 ,并能取得良好 的 预测 效 果3.5 讨论

目前,对线性 回归中出现的多重共线 性问题 的诊 断和处理方法较多,但对于 Logistic回归模 型变 量的共 线性处理却相对较少 ,而且大多数采用 的方法都是逐 步回归 筛选变量来消 除多重共线性 ,但正 如上文所 述 ,逐步 回归的结果可 能造成一些对疾病有影响 的变量会被排除在模型之外 。没入选的变量并不说明其对 因变量 的作用一定无统计 学意义 可能与其 有共线性的变量掩盖 了它的作用,如此则不能充 分利 用所调查数据,全面地反 映真实情况 。本 文通过推广线性 回归模型多重共线性诊 断 ,提出了两 种 Logistic回归模型共线性判定方法 .并归纳 了两 种消除共 线性 因素 的方法 :主成分 改进方法和偏最A,z乘方法 。结合冠 心病发病因素病例一对照实验 ,对具有多重共 线性 的 8个变量进行 了共线性 诊断及处理 .运用两种方法分别从参数模型的改进和判别模型两个角度对普通 Logistic回归模型进行改进。从结果可 以看 出.两种方法都取得 了较为理想的效果。参 考文 献 :

【1]裘炯 良,郑剑 宁,张扬.主成 分改进 的 Logistic回归模 型方 法在 流行病学分析 中的应用【J],中国热带 医学,2005,5(2).【2]Y-济川,郭 志刚,Logistic回 归模型一方法与应用【M].北京 :高等教 育出版 社 .2001.【3]赵 宇东,刘嵘,刘延龄 等.多元 Logistic回归的共线性 分析 .中国卫生 统 计 ,2000,(5).

【4]Richard A.Johnson,canW.Wichen.Applied MultivariateStatisticalAnalysis[M].北京:清华 大学出版社 ,2008.【5]贺 佳,陆健 .SAS8.2统计软件 应用教程 【M].北京 :人 民卫生 出版社 .2006.

【6J李大鹏,王 惠文.偏最小二乘 logistic回归在鄱阳湖洪涝灾害预测中的应 用[J1,数理统计 与管理,2003,(1).(责 任 编 辑/亦 民 )

统计与决策 2008年第 15期 (总第 267期) 25维普资讯 http://www.cqvip.com

随机看看

NEW ARTICLE

标签

Tag