中国卫生统计2017年10月第34卷第5期 ・805・ 关联规则分析和logistic模型的相关性研究 唐晓 刘启贵 隋全恒 logistic回归模型是一个经典的统计学模型 J,利 用该模型可以做预测并解释因变量和自变量之间的关 系,其已被广泛应用于医学、生物学、工程、经济和农业 ②置信度conf(X--*Y)=P(YI X),即在x发生的 条件下,l,发生的条件概率; D, ,f、,、 等领域 』。关联规则分析是一种数据挖掘方法 , 它通过人为给出规则标准的方式解释数据库中项与项 之间的关系。这两种方法都可以用于提取影响某变量 (结局)的因素 。目前很多研究利用这两种方法 互相补充来获得影响因素H J,但他们并不解释两种 方法之间的联系以及联合使用后所得到结果的意义。 本研究将从两种模型的数学原理出发,通过理论证明 发现他们之间的联系,从而得到结合两种方法分析数 据所得结果的异同及其实际的应用价值。 关联规则分析和logistic回归模型 1.两分类logistic回归模型 二分类logistic回归模型应用于当因变量只有两 种可能结果的时候(比如“死亡”和“生存”)。在二分 类logistic回归模型中,常用0和1来标识结果。通常 1代表两种结果中值得关注的一个事件,比如“死亡”。 二分类logistic回归模型如下: 【 J /3。+卢 + z z+…+卢m m 口 0 ̄fllXl+ ̄2x2 ‘p P=一 己 +P1 卢0 p1 l 怠 … /3mxm (1)/ 其中X ,X:,…,X 是预测因子(因素),P是所关 注事件的概率。 是关注的事件发生的概率比对 立事件发生的概率的比数。 是常数。 。, ,…, 被称为回归系数且能通过极大似然法估计出来。 2.关联规则分析 1993年Agrawal提出一种从大数据库中提取关 联规则的算法 。其模型是: D是一个项的集合,在集合D中寻找项 和项y 之间的关联规则。其关联规则的表达是 ,_一y,表示如 果x发生,则】,有可能发生。其评价指标有三个: ①支持度sup(? y)=P(XY),即x、y同时发生 的概率。 1.大连医科大学卫生统计教研室(116044) 2.大连市沙河口区疾病预防控制中心 △通信作者:刘启贵 ③提升比L ( y)= ,提升比大于1代 1 』, 表正向的关联,提升比小于l代表负向的关联。 强关联规则是指在事务数据库中支持度和置信度 都大于最低阀值,并且提升比大于1的项 和项y之 间的关联规则。关联规则分析就是在项集合D中找 到所有强关联规则。 在关联规则分析中,不需要区分自变量与因变量。 它处理的是每一个项并想找到项之间的关联。例如, 在数据库中可以寻找 】,的关联,同时也可以得到y — 的关联。但在一些研究中,结果事件是非常明确 的。比如说寻找影响某一疾病的因素,我们只关心其 他事件对疾病发生的影响(即单向的关联)。在这篇 文章里,为了和logistic回归模型进行比较,我们只讨 论结果明确的关联规则。关联规则处理连续型变量时 需要把它离散化,变成分类变量来处理。在这里,我们 只讨论因素为两分类的情况。 logistic回归模型和关联规则的联系 1.两分类logistic模型中OR值与L 的关系 设y事件为结果事件,例如患肺癌,则 是它的对 立事件,例如不患肺癌;x为因素,例如吸烟, 为其对 立事件,例如不吸烟。根据定义 嘲=Lift(X-+r)= , ift2=酬 y)= = 假设x与】,存在正向强关联,则容易证明 和y 有负向的关联。即 L ( y)>1,Lift( y)<1,贝0 ORx/ : —P(Y—IX):—P(Y—IX)—P(Y—IX): P(TYIX)P( I )P(YIX)P(TYIX) P( I ) l 1一P(】,l ) L/J%P(YlX)L/ft2 1一P(YIX) 2 1一, 危 .Pr y、 F _,> (2) 在上式中,如果x和y存在正向强关联, 和】,必 然有负向的关联,即L (x_一y)>1时,有L (, l,) ・806・ <1,则OR >1。 2.一元logistic回归模型中的假设检验与关联规 则之间的关系 假设y是因变量,x是自变量。它们是二分类的, 发生的频率见表1. 表1二次类变量发生频率 在logistic回归模型中筛选变量的统计量为 2=2ln fln P (1一P)卜 =2ln i=1 nP (1一P)卜 =2In ( ) (南) ( ) ( )… —————— 『__ — — ——一 j ‘南) ) 其中, , 是极大似然函数。 是当因素x进入 方程时的极大似然函数,而厂2是方程中不考虑影响因 素时的极大似然函数。 和 是 函数的系数而 是厂2函数的系数。为了估计 , 和 ,对 求关于 。,卢 的偏导数,对厂2求关于 的偏导数。即 f =。 { 一o, }【 。 :0 则 m2 3 ml= m m, 々 1 4-0 — : .m1+m2+m3+m4 /,/ 故 鲁 ( 厂(m3 ̄m4)m (mt +nm3) ( ) n( 广P(YIX) ̄} ( ( 厂 =21n( ( y)) (够( 一 ))忱 ( ( 一y)) ( ( ))m =21n(f (x_一y)) (f (x— )) flift( y、、 3flift( 一+ 1 1 chinese Journal ofHealth Statistics.OCt.2O17.Vo1.34.No.5 =2[m1In{ ( 一y)}+m2In{, ( — )}+ 3In{l/ft( 一l,)}+m4In{z ( —y)}] =2[n lI1 ( y)} mn21n{ ( )}+ m 3,z 1n ( y)}+,z 1n ( )}] =2n[P(XY)lnt够( }+P(X ̄)ln/ ( )}+ P(XY)In{f ( y)}+P( )ln{ ( )}】 =2n【P(x)P(Y)lfit( y)ln{f (x—y)}+ P(x)P(1,)f (x—l,)In{l/ft( y)} +P(X)P(Y)l/ft( y)In{lfit( y)}+ e(2)P( ) ( )ln{z ( )}] (6) 可以证明,够( _÷y)增大时, ( 一 )和够( 一】,)减少,妒( 一 )增大。且 (x—y)一o0,则 (X—y)— ,f (X_一y)_÷0,f (x.一y) oo 在(6)式中,如果 (x—l,)增大,则第一项和第 四项都增大,当 舻( 】,)一∞时,够( ) ,此时第二项 ( )ln (x— )一O,因为设U=l/ft(x ), liar Z (x l,) (x—}l,)=lim uln U= , (x一了)—加十 “— l lilm.m 。1 nu l1 =tlim土m ——— :l= 11Iim一“:0TI 一“ “—’0 U ‘ “_÷o 一U “ 第二项极限为0,同理,当妒(x—y)__+o0时,第三 项的极限也为0. 由此可见 值主要取决于 ( y)的大小,当 ( y)足够大时,可使 值变大,x因素就较容易 被选人logistic回归模型中。 在关联规则模型中,还需要同时考察另外二个指 标:sup(x—Y)、conf(x—y)。只有当sup(x l,)、 cD y)超过各自的阀值时,才是强的关联规则。 故当一个因素在logistic回归模型中是显著的,它不一 定出现在强关联规则中。 实 例 本研究所用的数据是来自2011年大连市的一个 慢性疾病的调查数据。通过调查得到4858位居民的 慢性病信息,所调查的慢性疾病包括糖尿病、高血压、 高血脂、肥胖、痛风及骨关节疾病、脂肪肝和其他肝脏 疾病、肾病、内分泌失调、呼吸睡眠综合症。我们分别 使用一元logistic回归模型和关联规则来分析患慢性 病之间的关系。 首先,以患糖尿病为结果事件,其他疾病作为输入 事件,不设置支持度阀值和置信度阀值,使用关联规则 分析,其结果按照从大到小的顺序排列前11个规则, 见表2。同时,令糖尿病为因变量,其他慢性疾病为自 中国卫生统计2017年10月第34卷第5期 ・807・ 变量,代人一元logisitc回归模型,显著的影响因素根 据OR值从大到小的顺序排列,结果见表3。结果显 示:表3中的影响因素正好是表2中所得到的前9个 关联规则,这证明检验统计量依赖于Lifet( ,_一y)。 素对某一结果的影响,常静玲等 联合两模型对脑梗 表2不设置阀值的关联规则分析结果 其次,令患糖尿病为后项,其他疾病为输入前项。 设置支持度阀值为1%,置信度阀值为15%,得到强关 联规则。按照从大到小顺序排列,结果见表4。此时, 只有高血脂,眼部疾病,高血压这三个因素被保留在强 关联规则中,这是由于其他六种疾病和糖尿病形成的 关联没有达到相应的阀值而被删除,但这六个因素在 一元logisitc回归模型中是显著的。 讨 论 关联规则分析和logistic回归模型都可以研究因 表3一元logistic回归模型结果 表4设置阀值后的关联规则结果 归方程中,它不一定出现在强关联规则中,因为其对应 的支持度和置信度不一定达到阀值。 利用logistic回归模型可以获得因变量的影响因 素,但是可能此影响因素的现实发生率较低。而用关 联规则去获得影响因素,即提升比大于1的规则,但是 由于没有经过假设检验,难以说明此因素与因变量的 联系是本质上的,还是受到了抽样误差的影响。因此, 结合这两种方法来获得的影响因素具有统计学意义的 显著性和达到一定的现实发生率的双重特点。建议在 宏观的研究中结合这两种方法来使用,得出的结论更 有实际应用价值。 参考文献 死中医诊疗指南的应用进行评估,杨丽 等利用两个 模型研究脑梗塞发病因素。但鲜有研究从数学理论上 解释两模型联合使用的意义。目前国外关于两模型的 研究主要有:Shaharanee¨ 把logistic回归模型作为一 个工具去寻找在关联规则分析中显著的关联。Frey— bergerl15]等在学生学习转换模型中应用关联规则分析 帮助选择logistic回归模型中的项。Changpetchl13 J利 用关联规则分析建立logistic回归模型最佳的主因素 组合以及寻找可能的交互。所以探究关联规则与lo— gistic回归模型结合使用的意义是非常必要的。 虽然两种方法基于不同的数学理论,logistic回归 模型基于统计分布,而关联规则基于概率,但经过证明 这两种方法有较强的关联。首先如果关联规则中的提 [1]Freedman DA.Statistical Models:Theory and Practice.Cambridge U. niversity Press.2005. [2]陈年芳,叶秀珍,刘丽群.妊娠期糖尿病高危因素的多元logistic回 归分析.中国妇幼保健,2016,(13):2598—2600. [3]王胜,宋倩,束新华.血清淀粉样蛋白与宫颈病理特征关系的logistic 回归分析.国际流行病学传染病学杂志,2016,(2):105—108. [4]付仲良,杨元维.利用多元logisitc回归进行道路网匹配.武汉大学 学报信息科学版,2016,(2):171—177. [5]董梁,胡明雅.基于logisitc回归模型的P2P网贷平台新近借款人信用 风险研究.江苏科技大学学报(社会科学版),0126,(3):102—18.0 [6]马翼翔,吴兆福,王兆.基于logisitc回归模型的新市区耕地数量变化 景观立地要素驱动力分析.湖北农业科学,2016,(11):2987一 90. 升比大于1,则logistic回归模型对应OR值也会大于 1,区别在于OR值可以经过假设检验判断其是否具有 统计学意义,从而消除随机误差的影响,而提升比则不 行。其次,logistic回归模型中筛选变量的统计量主要 由关联规则中的提升比决定。如果提升比足够大,不 管和的值为多少,对应因素都较容易进入到一元logis. tic回归方程中。但是,如果某因素被选人logisitc回 (下转第81l页) Chinese Jouraal ofHealth Statistics.OCt.2017.Vo1.34。No.5 ・81l・ 度,计算简便、容易掌握,信息利用较粗糙,多用于某个 一0.616—0.643—0.513—0.587—0.6887v1 0.424—0.464—0.270—0.380—0.532 l1)2 对象等级评判。Vague集考虑真隶属度、假隶属度和 —未知度共三种模糊信息,在群体中构建正或负理想对 象,待评对象分别计算与之相对贴近度。该法适于从 三方面给出模糊测度信息,与距离计算、理想点贴近度 思想结合,测度信息利用更全面,可用于多个对象相对 排序,有待于考虑作为模糊集方法的常见改进。可拓 K= 0.152 0.072 0.460 0.240—0.064 Iv 一0.117—0.063—0.240—0.162 0.073j . 将关联系数加权合成关联度向量,又作线性归一 化处理: V1 V2 V3 V4 V1 V2 1,3 V4 集法应先划分经典域,将指标量值转化为等级关联系 『一0,590—0.385 0.231—0.132][0 0.250 1 0.557] 以上满意度等级依次记为“2”、“1”、“一1”、“一 2”,接下来合成特征值: ((一2)×0+(一1)×0.250+1×1+2× 0.557)/(0+0.250+1+0.557)=“1.032” “1”,该 =数,再综合成等级关联度或特征值。该法适于提前给 出等级及区间范围情况下,将实测信息关于等级计算 关联系数,数学原理明确,既可用于单个对象等级评 判、也可用于多个对象择优排序,该法尤其适合于不同 指标属性类型和客观测度的情况。 参考文献 院患者对门诊“比较满意”“1”。若有多所医院则分别 纳入建模流程,计算特征值 后据此相对排序。 讨 论 [1]刘卉,邹波,卢光耀.应用模糊综合评价法评估医务人员工作满意 度.中国卫生统计,2012,29(4):561-562. [2]樊宏,邬银燕,王乾元,等.基于模糊集理论的社区卫生服务利用者 满意度分析.中国卫生统计,2014,31(3):823-826。 [3]郭红艳,王黎,龚文涛,等.北京市公立医院患者满意度的综合评 价.中国卫生统计,2014,31(3):488491. 文中由三种建模方法寻求“等级期望值”、“相对 贴近度”和“特征值”,再用于对象或维度间评判分类 或排序比较。模糊集、Vague集、可拓集均适于卫生领 域综合评价问题,技术合理、步骤明确,在Excel单元 格内编排计算公式。随着集合论、系统工程等交叉学 科技术引入,更多新的理论方法有待于卫生综合评价 可行性验证,推进卫生决策工作科学性。 模糊集法已在医学卫生问题中得到较多应用,指 标集、评语集、权重集和隶属度矩阵为实施要素,以隶 属度为权重可求得等级期望值。该法只须提供指标关 于等级的单向模糊测度信息即可加权合成综合隶属 [4]刘庆,王昌.基于Vague集TOPSIS法的多属性决策方法研究.模 糊系统与数学,2015,29(2):174-181. [5]张利平,刘建明,李望晨.灰色关联分析与可拓关联分析在卫生综 合评价建模中的应用比较.中国卫生统计,2016,33(2):301-303. [6]张利平,李望晨,秘玉清.物元可拓法在医学生人文素质综合评价 建模设计中的应用.中国卫生统计,2016,32(5):850—852. [7]张利平,张建华,李望晨,等.基于可拓关联分析法的公立医院医疗 服务产出绩效综合评判研究.中国卫生统计,2016,33(1):123— 124,127. (责任编辑:郭海强) (上接第807页) [7]高波,张冰.数据挖掘关联规则算法研究.信息系统工程,2016, (3):29. association rules analysis.Journal of Statistical Computation and Sim— ulation,2013,(83):1415—1428. [14]Shaharanee INM,Hadzic F,Dillon TS.Interestingness of association rules using symmetrical tn and laogistic regression.AL:2009 Ad— vanced in Artiicifal Intelligence,2009:422—43 1. [8]张奇,李涛,等.基于关联规则挖掘治疗多发性硬化所用中药对患 者T细胞亚群的影响.中国中西医结合杂志,2016,(4):424— 429. [15]Freberger J,Heffeman NT,Ruiz C.Using association ulres to guide a search for best fititng transfer models of student learning.Workshop on Analyzing Student— Tutor Interaction Logs tO Improve Education- l Outacomes at the 7th Annual Intelligent Tutoring ystems Con ̄r- [9]何文静,顾浩.基于关联规则的维吾尔医治疗黑胆质方剂药性配 伍规律研究.中华中医药杂志,2016,(5):1809~1811. [10]Jung SJ,Son CS,Kim MS,et 1.Assaociation rules tO identify compli- cations of cerebral infarction in patients with atrial fibrillation.Health— ence,Maceio,Brazil,2004. care Information research,2013,(19):25—32. [16]Agrawal R,Imielinski T,Swami A.Mining association rules between sets of items in lrge dataabases.In:Proceedings of the ACM SIG— [11]杨丽,徐德生,等.前置粗糙分类器的基于关联规则的logistic回归 在脑梗塞发病因素分析中的应用,2012(5). [12]常静玲,柳金英,等.脑梗死中医诊疗指南临床应用评价研究.中 MOD INTL conference on management of data(ACM SIGMOD 93),Washington,USA,1993:207—216. 华中医药杂志,2016,(2):549—552. [13]Changpetch P,Lin DKJ.Model selection for logistic regression via (责任编辑:郭海强)