1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
北京协和医学院中国医科科学院博上研究生学位论文 中文摘要 零频数过多资料的统计学模型应用研究 …亚健康状态研究中的应用 研究背景: 在医学研究中,经常遇到零频数过多的计数资料,如亚健康症状数。此种数据 表现为离散型资料,其观察值为零或正整数,但是近半数甚至于大多数观察值为零, 过多零频数的存在使得数据过度离散。传统的负二项回归和Poisson回归模型的拟 合效果将受到影响,在模型拟合过程中,如果忽略这些零的存在,对参数的估计就 会产生偏差。在这种情况下可把原始数据集看成是由一个全零数据集和一个服从 Poisson分布或负二项分布的数据集混合而成,这就是零频数过多的回归模型,简称 ZI模型。 已报道的关于ZI模型应用的研究都是通过一个实际样本探讨ZI模型的应用效 果,并与传统的Poisson回归和负二项回归模型进行比较,没有一项研究能够在各 种零频数比例下验证ZI模型的拟合优度,探讨零频数比例多大时则过多,及在何 种零频数比例下数据分布将不满足传统的Poisson回归或负二项回归模型的要求。 本研究利用bootStrap方法在实例样本中通过随机模拟获取各种比例零频数的模拟 样本,得到各种零频数比例的随机样本,探讨各种比例零频数时的最优拟合模型, 解决零频数比例何时过大而必须采用ZI模型的问题;同时研究ZI模型在亚健康症 状数资料中的适用性。 研究方法 ZI模型产生的前提正是可以同时解决资料的过度离散和零频数过多的问题。ZI 模型可在医学领域中用于估计一个两阶段的疾病进程,其基本思想是把零事件的发 生看做两部分,模型也包括两部分,第一部分来源于那些从未可能发生事件的个体 或处于低风险个体,模型参数的解释和一般的logiStic回归相似,说明协变量是否 影响事件发生;第二部分来源于在Poisson分布或负二项分布条件下没有发生事件 的个体或处于高风险个体,模型参数的解释与传统的Poisson回归或负二项回归一 样,说明协变量影响事件发生多少的问题。 本研究以亚健康症状数为响应变量,以性别、年龄、婚姻状况、民族、职业、 吸烟、饮酒、血压高和肥胖为解释变量,用SAS9.2软件分别对各种零频数比例的 D检验和Vuong检验等进行数据的过度离散性和零频数是否过多的判断,并用回归 模型对各种计数值的预测概率及似然比、AIC、BIC等指标对各种模型的拟合优度 进行判定,以选择最优的模型。 研究结果 在样本量为11227的实际样本中,43.3%的受试者没有阳性的亚健康症状,离散 3 北京协和医学院中国医科科学院博{:研究生学位论文 likelih00d最大 计范围,用负二项分布也不能很好的拟合数据特征。ZINB模型的Log 数的预测概率与实测频率的吻合程度最高。从各拟合优度指标和预测概率而言, ZINB模型是进行亚健康症状数影响因素分析的最佳模型。 危害。而由负二项部分发现,年龄、性别、脑力劳动、饮酒和婚姻状况是亚健康症 P=O.012)的受试者可能具有较少的亚健康症状。 模型的拟合效果与传统的负二项回归模型相当,Z烈B模型未体现出拟合效果和结 果解释上的优势;而当零频数比例在20%以上时,z烈B模型的拟合效果明显优于 传统的负二项回归模型,此时综合考虑拟合优度、预测概率、结果解释的合理性方 面,Z咐B模型是最佳模型,特别是当零频数比例达到70%以上时,Z烈B模型对响 应变量的各观察值的预测概率与实际频率几乎完全一致。 当零频数比例达到或超过85%时,序数回归模型的似然比和AIC等指标也较为 理想,但从模型对各种频数的预测效果而言,不管零频数的比例大小如何,序数回 归模型的预测效果与实测频率均相差较大,序数模型不是进行此类计数资料分析的 最佳选择。在任何零频数比例时,由于本样本数据过度离散,Poisson回归的拟合效 果都是最差的,ZIP模型的拟合效果也不好。 结论 当零频数的比例达到20%以上时,各种模型预测概率、拟合优度检验、过度离 散性检验和零频数过多检验结果均显示ZINB模型是研究亚健康症状数资料的最优 模型,为ZINB模型在零频数过多的计数资料中的应用提供了理论上的依据。 关键词 计数资料,Poisson分布,负二项分布,零频数过多的回归模型,亚健康 4 北京协和医学院中国医科科学院博上研究生学位论文 Abstract of StatisticalmodelsinZero—innated study Data insub—healthstatus -application study Bacl‘ground medical countdatawere aS re∞arch,zer0一innated the During ve哆common,suCh numberofsub-health da协weredescllibedasdiscretecount symptoms.These data,the valuesofWtlichwerezer0or halfobservedvaluesandeven positiveintege璐.AlmoSt mostofmemwere made zer0,whichdata innationhad 0ver.dispersed.zeronegativc efrectontIle offitabout binomial aIldPoisson goodness negatiVe regression regression thesezero exiSt estimation Values,bi鹊would of models.Neglecting durir培the kmdle mwdatacouldbeconsidered嬲amiXture 陀铲ession it,me of觚 parameters.To all·zeroessubsetaIldasIIbsetderiVed丘。omaPoissondistribution0r binomial negatiVe distribution.11lisistlleZeI.0-Inflated model(ZImodel). An aboutZImodelshome觚d abroad theusesofZI previo峭stlJdies onlyexplored modelsinonea_bstmct aIld witll s锄ple traditioIlalPoisson compared regression锄d binomial model.Noonecould the offitin negatiVe regression any studygoodness V撕ous ofzer0counts.Andno couldtell proportiolls anystudy us、)I,hentheZImodels would beb‘嫩erm锄咖ditio豫l0nesandwhat of zeroescouldbeconsidered propoftion zero innated.h1 method、Ⅳ嬲llSed tllis咖dy,bootstrapsampling to啪domlyget simulationdbout samplesVarious ofzeroesb嬲edona sub.health proportions large—scale s锄ple.The model in with optim岫regressionw鹪exploredeve巧simulation s锄ple V撕ouS of∞roes.In ZImodels、^,as additioll,the studiedin proponions applicabilit),of sub.health s”nptoms‰. Methods ZI modelscouldhandletheover zeroinnationatthesaITle dispersion锄d time.In medical modelsc伽ldbeusedt0estimatea dise嬲e 6eld,ZI ZI two.stage process.In ofzer0coum models,incidencewasconsidered嬲t、v0first ofzeroes groups.T11egroup c甜neflromindividualswhowerer10t eventsorw.ercinlowriskof absolutely雄.ectedby cvents.The ofmodel estimation to signific觚ce w髂similar p猢eter binaDrlogistic showed、)l,hethercovariatesaa’ectedtheincidenceofevents. regressionmodels,which Theother ofzeroesc锄e group fromindivid岫lswhodidnot eventsb嬲edon produce Poission diStributionor binomial we陀iIl riskof negatiVe distribution,or eVents.The high 5 北京协和医学院中国医科科学院博上研究生学位论文 ofmodel estimationwas s锄eastraditionalPoisson or significanceparameter rcgression binomial sho、vedtllatcoV撕atesafrectedthenumber models,which negatiVe regression ofevents. Inmis V乏Lriablewasthenumberofsub-health a11dthe study,meresponse s舯p协ms were expl锄ato巧Variablesage,seX,marital binomial drinl(ing,hi曲bloodpressure觚dobesi够Poissonregression,negatiVe modelsandordinal modelwere in regression,Zl regression construCted eVeDrbootstrap V撕ous zeroes of SAS9.12.necoe伍cientof testand saHlple、ⅣitllpropotioIlsby a,O testwere theoVer zero Vuong conductedt0嬲sess dispersion锄d andthemodel co岫ts、Ⅳereusedto the ratio,AIC,BIC predictiVeprobabili够of compare offitabout wouldbefoundin goodness eVe巧models.Theoptim啪model eve巧 ofzerocoums. proponion ResuIts In alll asub-health 1227caseshadno subhealth s锄ple,43.3%of aIly symptoms. 11le coemcient indicatedthata tll觚O.The numberofsubhealm w嬲 w鹤sigmficaIltlyla玛er average symptoms 2.90士3.85andthe statisticofDw弱308.01 oVerdispersion 1(Po.001),whichsuggeSted the didnot Poissiondistribution.111e respon∞Variablew邪over-dispersed锄dobey Z statisticof testw弱3 zeroesweretoo t0be 1.93(P0.00 Vuong 1),indicating m锄y tfaditionalbinomialdistribution.Thelikelihood(一22l70.74 explainedby negatiVe log 1) inZINB AIC(44363.482)and w弱biggeStmodel,wllile The of inZINBmodel、Ⅳere predictiVe eVe巧count mostconsistentwiththe probabilities of ofthernlIIlbersubhealth a modelw嬲 word,ZINB abstract舶quencies symptoms.In thebestmodel ofthe theindicatorS Variable. to咖dy response Fromthe ofZINB fouIldthat logit∞ction model,we higherage(p=一O.436, Po.001)鲫d riskfactorsofincidenceof Kore锄national时(p=-2.253,PO.001)Were subhealth indiViduals、Vho、Ⅳereormental symptoms,but single labo璐werenot tosubhealth binomialsection negatiVe indicatedthat susc印tible sumptoms.The age,sex, marital effectont11e and statushad numberofsubhealth occupation,tobacco symptoms. individualssubhealth Among with锄y symptoms,fenlale 1), alcoholdrinker diVorced regular P=0.008)and or、访do、Ved (p=O.098, su场ects P0.001)su廊red舶mmoresubhealth (p20.200, aged indiViduals锄dmentallaborerShadsmallern啪berofsubhealth symptoms. In withVarious of offit eVe巧bootstraps锄ples proponionszeroes,tlle goodness wercsimilar融weenZINBmodels锄dtraditioml binomial negaliVe modelsWhen 6 北京协和医学院中国医科科学院博士研究生学位论文 tll觚l5%.W11en ofzcroes t0or ofzeroesw硒lower w硒equal proponion proponion modelswere w髂better omers models,whichtl姗孤ly higherth锄20%,ZINB optimum dbout of results when 900dnessfit,preVictiveprabobility觚d ofzeroes th锄70%,t11epredictiVe ofmlcountsin proportion w弱hi曲er pmbabilities with of ZINBmodelswere consistent reSponse completely dbstract仔equcencies 、I谢a_bles. When ofzeroeswaS t0or man the 85%,ordinal proportion equaI lligher logistic had likelih00dmtio趴dAIC models too.But恤predictiVeprobabilities pref.er乏Iblelog notconsistentwithabstract of ofallcoumsinordinalmodelswere f-requenciesreg刹less best theseshowedthatordiml w觞notme ofzeroes.All regression anypmponions data In all choiceofzer0.innatedco眦t addition,ins锄ples埘th锄y analyses. of models锄dZIPmodelshad of goodness proportionszeroes,PoisSonre伊ession poor fitinviewof overdispersion. Conclllsion likelihoodratio zer0一innationtest锄dmodel AU tests, test, overdispersion t0 t11atZINBmodelw勰thebeSt model suggested regression predictiVeprobabilities subhealth When ofzeroes than20%.Tllis study s舯ptoms缸aproportion w嬲la唱er theor觇ical forZINB inzeroinnatedcount studyprovided suppon models印plication №. words Key Co吼t binomial model, da妇,PoissondistributioIl,NegatiVe Sub.health 7 北京协和医学院中国医科科学院博士研究生学位论文 一、研究背景 在统计学中,计数资料(coum da_ta)是指观察值表现为非负整数的资料,而且 其观察值是通过计数而不是排序得到的,即每个受试者的观察值都用零或正整数表 示…。在医药卫生研究中,经常遇到描述某事件发生次数的计数资料,如抑郁症状 数、负性生活事件数、药物临床试验的不良事件数、重症严重急性呼吸系统综合征 (SARS)患者住院期间1个月内使用呼吸机的天数、社区高血压药物治疗患者2 个月内因病门诊复诊的次数、癫痫患者1月内发作次数、亚健康症状数、同常生活 功能受损项目数、尿失禁次数、流产次数、恶性肿瘤的复发次数、龋失补总数等。 在对此类计数资料进行统计处理时,如果将其看为一个连续性反应变量,则其 数据通常过度离散、很难服从正态分布,不适合用均数、标准差等指标进行描述, 更不适合进行线性回归模型的构建。如果根据受试者是否具有某种特征简单地将受 试者分为两组,如是否抑郁、是否具有不良事件、是否复发、是否处于亚健康状态 等,根据二项分布原理,用卡方检验或logistic回归模型来进行统计分析,此时将 响应变量作为一个二分类变量来处理,通过粗率来反映,虽然应用简便,但受试者 可能只有一项或一次事件发生,也可能同时有几项或几次事件发生,在利用二项分 布进行分析时,仅仅考虑是否发生事件,不能同时考虑到事件发生的次数或数目, 这便损失了很多有用的信息,并导致不准确的结论。尽管线性回归和lo西stic回归 模型常被用来处理计数资料,但是其分析结果通常是不充分的、低效率的或有偏移 的1wl。为此,可用Poisson分布和负二项分布来反映表现为计数资料的随机变量的 分布规律,应用Poisson回归和负二项回归建立模型进行影响因素研究。 但在医学研究研究中,经常遇到零频数过多的计数资料,关于零频数过多的计 数资料的处理是统计学研究的一个重要问题。此种数据为离散型资料,其观察值仍 为零或正整数,但是近半数甚至于大多数受试者的观察值为零,且观察者的数值越 大、频率越低,单调递减的分布频率及过多零频数的存在使得数据过度离散,如抑 郁症状数。在Interhean研究的中国部分数据中,对照组为没有急性心梗的受试者, 其中91.8%的受试者没有任何抑郁症状,只有8.2%的受试者具有一项或更多的抑郁 症状14I,如果按照有无抑郁症状将受试者分成两组,则无法研究抑郁症状数的影响 因素,若用传统的Poisson分布或负二项分布来拟合抑郁症状数的分布规律,则可 能因为零频数比例太大而无法获得良好的拟合效果。 再如亚健康症状数,在亚健康研究中,多通过健康量表的形式来完成,如国内 多采用陈青山等15l制定的亚健康评价量表来评价受试者的健康状况,该量表有18项 症状组成。研究者经常是将在1年时间内持续1个月以上出现所列18种症状中1 项以上者被定义为正处于亚健康状态。该分析实际上是将受试者的亚健康状态作为 一个二分类变量来处理,通过亚健康现患情况的粗率进行描述,然后利用卡方检验 8 北京协和医学院中圉医科科学院博上研究生学位论文 和logistic回归模型进行分析睁mI。二分类变量应用简便,但受试者可能只有一项亚 健康症状,也可能同时有几项亚健康症状,因此亚健康现患率仅仅考虑了处于亚健 康状态的人数,不能同时考虑到所拥有的亚健康症状数,这便损失了很多有用的信 息,导致不准确的结论。或以亚健康症状数作为连续性指标进行线性回归分析,但 ’是亚健康症状数呈明显的正偏态分布、过度离散、且有很大比例的受试者症状数为 0、亚健康症状数的中位数也常为0,不适于作为连续性指标拟合线性回归模型。 ’ 考虑到这些局限性及资料的分布特征,可以用Poisson回归或负二项回归模型 分布要求均数和方差相等,各观察单位的观察结果之间是相互独立的IlH捌,Poisson 回归模型已在多种计数资料研究中得到了验证Il¨引。但是很多此类资料的方差可能 远大于均数,这种过度离散性将会低估回归参数的标准误,其可信区间会变窄、P , 值变小,而且各观察结果之间并不具有完全的独立性,很多受试者的观察结果之间 具有某种聚集性。此时,可以通过引入Gamma分布的误差项来构建负二项分布, 以减小这种由于过度离散性和聚集性产生的不利影响f凹珈l。在新药临床试验不良事 件发生次数、因非致死性脑损伤而住院人数、跌落次数等许多研究中121瑚I,均发现 当由于方差显著大于均数使得资料极度离散时,负二项回归模型比PoisSon回归模 型具有更好的拟合效果。在以往的亚健康研究中发现负二项分布的拟合优度较好, 但是如果近半数甚至有可能出现大多数受试者的亚健康症状数为零,负二项分 布只能解决过度离散,却无法处理零频数可能过多的问题。这些过多零频数的存在 将使得传统的负二项回归和PoisS0n回归模型的拟合效果都受到影响,因为根据 PoisSon分布和负二项分布的概率密度函数所获得的零频数的概率都低于实际情况, 在模型拟合的过程中,如果忽略这些零的存在,对参数的估计就会产生偏差p¨。这 些异常多的零频数有些来自Poiss∞分布或负二项分布,有些来自全部由零组成的 数据集。对于受试者,如果在一个“研究期内”没有出现任何亚健康症状,用“O”作记 录,如果发生k项症状,则记录为‘‘k”(k-正整数)。对于样本数据集中异常多的“0”, 有的来源于健康者,有的来源于可能亚健康的受试者,此时用Poisson分布或负二 项分布拟合不准确。亚健康症状数目只有19种不同的取值情况,如果不考虑数值 指标的量化,将分析变量作为等级资料来处理,用序数logiStic回归模型解决此类 数据的影响因素分析问题,在某些情况下也是一种选择,但是序数logi娟c回归模 型只是将相应变量作为一个等级变量来应用,无法处理响应变量的各个观察值之间 的量化关系。 数的影响因素,回归模型对响应变量的各种计数的预测概率可能和实际频率吻合程 度较差,难以获得良好的拟合效果。如下图所示,这是一个样本例数为ll,227入的 9 北京协和医学院中国医科科学院博士研究生学位论文 亚健康研究数据,黑色实线为样本中亚健康症状数的各种计数的分布频率,43%的 受试者亚健康症状数为0,其它三条曲线为分别用传统的Poisson回归、负二项回归 和序数回归模型(ordinal)拟合的亚健康症状数影响因素模型对响应变量的预测概 率。可见序数回归模型和Poisson模型对响应变量各种计数的预测概率和实际频率 的吻合程度都很差,负二项回归模型虽然也能预测到近40%的零频数,但是对多数 其它计数的预测效果仍不佳,我们有必要引入一个能更好地反映响应变量实际频率 的模型。 图l Poisson回归、负二项回归和序数回归模型对亚健康症状数的预测概率 在这种情况下把原始数据集看成是由一个全零数据集和一个服从Poisson分布 或负二项分布的数据集混合而成,以解释超出了传统Poisson分布或负二项分布估计 称ZIP模型;利用负二项分布来拟合模型,称为零频数过多的负二项回归模型,简 YBl35】认为在医学领域中可用ZI模型估计一个两阶段的疾病进 称ZINB模型。Chcung 程,在开始阶段受试者并不处于风险之中,因此他们有0个事件,而某些协变量的 影响使得他们成为有风险的人群,其观察结果服从Poisson分布或负二项分布。ZI模 型正是解释样本中零频数过多问题的最佳模型p引。 zI模型产生的前提正是可以同时解决资料的过度离散和零频数过多的问题, 10 北京协和医学院中国医科科学院博上研究生学位论文 分布的混合体,其具有一个混合概率p,而九和p都可以依赖于某些协变量。ZI模型 提供了对额外的零频数建模且考虑过度离散的能力。ZI模型的基本思想是把零事件 的发生看做两部分,第一种对应零事件的发生假定服从Bemoulli分布,第二种对应 事件数的发生过程,假定服从Poisson分布或负二项分布。两部分零频数分别称为多 余的零和抽样的零,第一部分主要探讨多余的零事件,第二部分研究符合Poisson分 布或负二项分布抽样的零事件。 的关注,直到Mullally 模型在经济学研究中的应用,发现ZI模型在处理零频数过多的计数资料方面具有 较好的优势。后来,BoharaAK等140】深入研究了ZIP模型在人口学领域的应用,用 该模型探讨影响移民数量的因素,认为ZIP模型在进行移民影响因素研究中比普通 的Poisson回归模型具有更好的拟合效果。此外,有学者研究发现,职业伤害的发 生事件数和交通事故受伤或死亡人数也是一个过度离散的随机变量,而且通常多数 观察者的职业伤害事件数和交通事故死亡人数为零,具有零频数过多计数资料的性 质,用ZIP模型或zINB模型来研究影响职业伤害发生数量和交通事故死亡人数的 危险因素具有更好的适应性【4H引。DaIlielB.Hall还发现可采用ZI模型研究用了杀 ML【44J等用zINB模型研 虫剂后每片植物的叶子上残留的成年粉虱的数量121。Sheu 究香烟价格的变动对吸烟行为的影响,响应变量为每同吸烟量,研究样本中82.1% 的受试者当天的吸烟量为0支烟,用ZINB模型比传统的负二项回归模型具有更好 的拟合效果。DenwoodMJ【45l等通过3000个模拟数据集的模型拟合发现,高山羊群 身上携带的巴氏细颈线虫卵的分布是符合零频数过多的Poisson分布或负二项分布 的,即多数羊身上并未携带巴氏细颈线虫卵,此时估计零过多的程度对于有效的统 计分析和遗传耐受性动物的准确定位是非常重要的。 YBl35I研究了ZIP模型在儿童发育学中的应用,研究者随访了一万余名 Cheung 新生儿,22个月后进行儿童运动发育能力测验,响应变量是受访者可以垒砌的立方 对数似然比和回归系数相近,但其拟合效果均显著优于传统的Poisson回归和负二 项回归模型,表明当零频数只有12.9%时,用ZIP模型或ZINB模型考虑到过多的 零频数问题后,资料并未达到过度离散,用zIP模型和z烈B模型均可。 ZI模型在医学方面的应用中最常见的在口腔龋齿研究的应用,龋失补总数 量零频数的正偏态资料,在实践中很难通过变量转换来满足线性回归的要求, JD和nlomson LewSev 北京协和医学院中国医科科学院博上研究生学位论文 DMFs资料的影响,发现不管是横断面资料(零频数比例为40%)还是纵向随访 是将这些0看作是两个潜在的或未观察到的亚组,第一组受试者由于个人的原 因没有龋齿,第二组受试者可能会有龋齿,只是由于碰巧或错误分类而使DMFs 为Oi而且在每一亚组中都能够考虑到协变量的影响,这样ZINB模型就能同时 PVM 解决了DMFs资料中零频数过多和过度离散的问题。同时JaValiSB和P锄dit 在47.6%的受试者的响应变量计数为O的样本中进行DMFs相关因素研究时,发现 型是最佳的。M、Ⅳalili 类而造成的零频数过多问题的良好适用性。此外,PallelBT等149】认为可以用ZIP 模型进行预测来对龋齿资料中的缺失值做多重插补。 此外,RoseCE等150J认为ZINB模型适于进行疫苗不良事件的影响因素分析。 Akr跚l K等151I用Z烈B模型研究2型糖尿病人用胰岛素后发生低血糖次数的危险因 素,该样本中83.5%的受试者低血糖次数为0次。TumerAN等l鸵l在乌干达和赞比亚 护性行为的影响因素模型,证实在56%的妇女没有无保护性行为情况下ZINB模型是 进行该项研究的最佳模型。C跚clM等郾I在研究洪水泛滥与霍乱患病率增大之间的 关系时,在70.2%的观察者的响应变量为O的情况下同样证实了ZINB模型具有最强 大的拟合优度。Ullall 模型略好些,而负二项回归模型和ZINB模型具有最好的拟合效果,且差别不大。在 一项日常生活功能研究155l中,79%的受试者报告日常生活功能没有困难,在其影响 两个模型预测到,但似然比检验结果还是显示ZINB模型是日常生活功能相关因素研 究的最佳模型。曾平等阁用ZIP模型和ZⅢB模型来研究心肌缺血节段数的影响因素, 样本中78.24%的受试者没有发生心肌缺血,结果显示ZINB模型优于普通的负二项 回归模型和ZIP模型,选择ZINB模型分析心肌缺血节段数的影响因素更合适。张华 君等157I将零过多资料的统计方法在上呼吸道感染调查资料中应用时,也认为在 45.6%的零频数样本中,Z烈B分布更适合上呼吸道感染调查资料。 不过zINB模型似乎并非一定是各种零频数过多计数资料的最优拟合模型,den Uijl 和684),但是综合Voung检验及考虑到临床工作者解释的便利,认为负二项回归 是最适宜进行此项研究的。此外,在某些情况下ZIP模型也可能是一个更好的选择。 12 北京协和医学院中国医科科学院博士研究生学位论文 Slymen 体力活动天数的影响因素时,在18%的受试者的响应变量为O天的情况下,ZIP模 型的拟合效果更好些,优于ZINB模型。K嬲圪siaBT和v趾DulmenMHI加I也报道在 开展儿童伤害的纵向研究时,ZIP模型可以同时研究计数资料的二分类结局和连续 不仅可以解决零频数比例过高,还可以解决基因型缺失的问题,其用似然比估计的 M等I配l以综述的形式总结了在口腔鳞状细胞中微 回归参数具有更少的偏移。Ceppi 核细胞测定研究中用到的流行病学和统计学方法,提到普通的参数和非参数统计方 法都是有偏性的,而Poisson回归也不能获得好的拟合效果,只能用ZIP模型这个 最佳的回归模型以解决很多检测结果为0的问题,且能从两个部分来解释这些零计 数。Marionil迎等163I用ZIP模型进行了老年人认知检测评分和回顾性随访资料的关 联性研究。BaIldiemFC等I卅l在进行暴露于被动吸烟和抑郁症状的关联性研究中, 似然比检验结果显示了抑郁症状数是极度偏态的、且有37.7%的受试者并不具有任 何抑郁症状,ZIP模型比ZINB模型具有更好的拟合效果,更适于进行抑郁症状数 的模型研究。张华君等I酷l在另外一项研究中,发现ZIP模型在上呼吸道感染次数的 影响因素研究时同样有很好的拟合效果。 尽管ZI模型在医学领域中应用在国外已多有报道,但是各项关于ZI模型应用 的研究多是通过一个实际样本探讨ZI模型的应用效果,并与传统的Poisson回归和 负二项回归模型进行比较,故零频数比例有时只是略高于lO%,有时可能高达90% 甚至更高,因此各研究的结果也不尽一致。目的没有一项研究能够在各种零频数比 例下验证ZI模型的拟合效果,以探讨零频数比例达到多少时则过多,以及在何种 零频数比例下zI模型才会优于传统的Poisson回归或负二项回归模型,还是不管零 频数比例有多大ZI模型总是好于对应的传统模型。而且各项研究的响应变量取值 范围多较窄,如DMFs研究、临床试验不良事件、跌落次数、低血糖次数等132肛51删, 其响应变量取值范围通常不超过5;而当响应变量的取值范围更宽泛一些,如亚健 康症状数可达18项症状,响应变量有19种不同的取值可能,此时ZI模型是否还 是最佳模型,当零频数比例达到多少时可以用ZI模型研究亚健康症状数的影响因 素,ZI模型在各种零频数比例下对亚健康症状数的预测概率与实际频率的吻合程度 如何,这些都有待探讨。 本研究利用bootstrap方法在一个实例样本中通过模拟随机获取各种比例零频 数的模拟样本,分别获取各种零频数比例的随机样本,拟合传统的Poisson回归、 2000次的数据模拟验证各回归模型的稳定性,探讨各种比例零频数时的最优拟合模 型。 13 北京协和医学院中困医科科学院博上研究生学位论文 二、研究目的 1.本研究以一个实例样本为例探讨ZIP模型和ZINB模型在亚健康状态研究中 则和BIC准则等方法来检验各种模型的拟合效果,及各回归模型对亚健康症状数的 预测概率和实际样本中各种计数的分布频率的吻合程度。 和l%的随机样本各2000个。 参数和可信区间的稳定性,探讨各种比例零频数时的最优拟合模型,研究当零频数 比例达到什么程度时传统的Poisson回归和负二项回归模型将无法获得良好的拟合 效果,进而必须用ZI模型来解决。以期为各种不同比例零频数的医学计数资料的 分析研究提供理论依据。 三、研究方法 (一)Poiss蛐分布和Poisson回归模型 l、定义:Poisson分布(泊松分布)常用于描述单位时间、平面或空间中罕见“质 点’’总数的随机分布规律,可视为n很大、兀很小时二项分布的极限情形【66石引。当试 验中成功事件出现的概率很小,如万0.05,试验的次数刀很大时,用二项分布计算 算。理论上单位时间或单位空间内的发生数可为无穷大,而用于研究单位人群中某 疾病发生数的分布时,单位人群的人数要求大一些。Poisson分布发展成为描述小概 率事件出现规律性的一种重要的离散型分布,若离散型随机变量x的取值为非负整 数,且相应的概率函数为: ^七 P(x=k)=鲁∥, k_o,1,2….,胗。 布的总体均数,指总体中每单位中的平均阳性数,X为单位时间或单位空间内某事 件的发生数(阳性数),P为自然对数的底,约等于2.71828。 P(0)=矿。 14 北京协和医学院中国医科科学院博士研究生学位论文 2、性质【66‘6引 (1)Poisson分布是一种单参数的离散型分布,其参数为九,它表示单位时间、 空间或面积内某事件平均发生的次数,又称强度参数。Poisson分布的均值和方差相 等,旷孑^。 (2)Poisson分布是非对称的,但当九愈大时非对称性愈不明显;当脚0时, 分布已比较对称了。一般来说,当入≥30时,Poisson分布的资料可按近似正态分 布处理。 应用条件。当p愈小,这种近似程度愈好。即 ^I c:p“(1一p)”。一愀噬j晕丁P。 布,则它们之和仍服从Poisson分布,且其均数为k个随机变量的均数之和。若从 总体均数为九l的Poisson分布总体中随机抽出一份样本,其中稀有事件的发生次数 为蜀,再独立地从总体均数为如的Poisson分布总体中随机抽出另一份样本,其中 均数为九l也。 3、Poisson回归 Poisson回归【69·71l(PoissonModel)常用于单位时间、单位空间及单 Regression 数,单位容积水中的细菌数,单位时间的事件发生数等。在发病率研究中,常用于 稀有事件的分析。P0isson回归采用的模型多为对数线性模型,设响应变量y服从参 数为九的Poisson分布,取连接函数为对数形式,则Poisson回归模型的一般形式为: log(A)=属+届墨+屈置+…+屏xp 或 旯=exp(属+届五+屈t+…+辟xp) Poisson回归是建立强度参数与影响因素、协变量之间的关系。模型中假设各解 释变量对事件数的影响是指数相乘的,故称为可乘效应的Poisson回归模型,或 Poisson乘法模型。回归系数Di的解释是:当其他解释变量不变(不管取值是多少) 时,解释变量Xi每改变一个单位时,平均事件数之对数值的改变。 对于分组资料,若各解释变量组合之观察单位为ni,则相应的发生数的估计值 15 北京协和医学院中国医科科学院博上研究生学位论文 再加权最小二乘法估计,其结果与极大似然法一致。可以通过SAS软件的Ge姗od 型【731。 (二)负二项分布与负二项回归模型 Binomial 负二项分布(Negative 是Poisson分布和对数分布两个基础分布的复合分布,主要用于描述超方差的事件发 生频数的发生规律,它是通过引入Gamma分布的误差项来构建负二项分布,以减小 由于方差大于均数(即过度离散性)产生的不利影响。负二项分布的概率密度函数 为: 地,2意寄等‰ 式中O兀l,痧0,X=O,1,2,…。 负二项分布的均数和方差分别为: ∥=口(1一万)/万=E(少) 盯2=口(1一万)/万2=∥/万=∥+掣2 其中,a称为聚集指数或离散参数,是负二项分布的一个重要参数,故负二项 分布也称为聚集分布,仅值的大小可用于衡量分布的离散程度和聚集倾向。当a=0 时,负二项分布即为Poisson分布,当反≠0时,说明事件的发生不是随机独立的, 而是有聚集性的,当n=l时,称为几何分布,当a为正整数时,负二项分布也称为 Pascal分布。由负二项分布的方差的计算公式可知其方差02并不等于均数斗,而是 大于均数,这是与Poisson分布最大的区别。负二项分布集中了非负整数的分布与 Poisson分布的不同,它具有一种单独额外的参数,这使得其方差可能超过均数。 对于服从负二项分布的离散型随机变量,进行影响因素分析时可采用负二项回 Binomial 归。负二项回归模型(Negative 型类似,都是对事件发生数建模: log(旯)=属+届五+屈置+…+屏砟+岛 与poisson回归模型不同的是,在负二项回归模型中加了_个£i,£i是与自变量没 和负二项分布的关系。模型中假设各解释变量对事件数的影响是指数相乘的,则回 归系数的解释为当其他解释变量不变时,解释变量xi改变一个单位,y平均改变量 模型的方程拟合【79l,sta_ta软件和GLIM软件也可拟合该模型731。 16 北京协和医学院中国医科科学院博士研究生学位论文 (三)ZI模型的基本原理 ZI模型可在医学领域中用于估计一个两阶段的疾病进程,在开始阶段受试者并 不处于风险之中或者它们处于极低的风险之中,因此他们有O个事件,而某些协变 量的影响使得他们成为有风险的人群,使其观察结果服从Poisson分布或负二项分 布。ZI模型可以同时考虑资料的过度离散和零频数过多的问题。ZI模型假设数据分 为两部分:第一部分来源于那些从未可能发生事件的个体或处于低风险个体的概率 胁,假设随机变量yi以概率胁来自于全零数据集,可用的连接函数有logit函数和 发生;第二部分为在P0isson分布或负二项分布条件下没有发生事件的个体或处于 说明协变量影响事件发生多少的问题。两部分的零频数分别称为多余的零和抽样的 #甘 苓。 为了解释过多的零频数,在Poisson回归模型和负二项回归模型的基础上进行改 进,建立ZI模型,使模型具备处理亚健康症状数多为0的能力。ZI模型被定义为两种 分布形式的复合体,以包含多余的零频数。零频数过多的Poisson回归模型是把原始 数据集视为由一个全零数据集和一个服从Poisson分布的数据集混合而成137l。 该模型假定: yi_0logit部分 ㈨托≥叫 y乏1 Poiss伽部分 在ZIP模型条件下,yi的条件期望和方差为: E(y)2“(1-兀i), V;畋y)=p(1一冗i)(1+}阢i)。 而ZINB模型是二项分布和负二项分布两种形式的复合体12l,该模型把原始数据 集视为由一个全零数据集和一个服从负二项分布的数据集混合而成【7引。ZⅣB模型 也是分为两部分,概率密度函数为: 炉0109“鼢 h”叫㈦口~ P(yi)= c卜码,i孝警与器 y乏,负二项部分 17 北京协和医学院中国医科科学院博上研究生学位论文 厕为多余的O的概率。在Z跗B模型条件下,yi的条件期望和方差为: E(y)=p(1一兀i), V打(y)=“l-兀i)【l+肛(冗i+0【)】 函数为176l: logit部分 yi=0 I Ln(L)=.《 负二项部分 l 、, l , VpI 。 在Logit部分中,是对观察单位取值为0的状态建立的概率估计,回归系数屈表 示当其它自变量固定不变时,自变量鼍每改变一个单位或等级,响应变量y发生与 的回归系数具有相同的意义,但其预测的是响应变量为O时的概率。 而在Poisson部分或负二项部分中,ZI模型将各变量的赋值中最小的一个水平 作为参照水平,回归系数的解释为当其他解释变量不变时,解释变量置每改变一个 单位,y平均改变量之对数值,与传统的PoisS0n回归和负二项回归模型的回归系数 具有相同的统计学意义。 outComes模块 可以通过SAS9.2软件的countreg过程【珏83】或S仨她9.0软件的coum 【‘73J来实现ZI模型的方程拟合。 (四)序数logistic回归 零频数过多的计数资料毕竟只有几种或十几种不同的取值可能,如果可以不考 虑数值指标的量化关系,将分析变量作为等级资料来处理,则可用序数lo西stic回 归模型解决此类数据的影响因素分析问题。 18 北京协和医学院中国医科科学院博士研究生学位论文 量,拟合反应变量的(水平数k-1)个累积logit模型,划分的方法是将小于分割点 的各水平累积为一类,同时大于该分割点的各水平也累积为一类,在这两类的基础 上定义的109it表示属于后k.j个等级的累积概率与前j个等级的累积概率的比数之 对数,故称之为累积比数模型。依此类推,k个水平的反应变量可以根据k.1个分 割点拟合k.1个累积logit模型,这是与广义logit模型的主要区别。 应变量有k个水平,假设k个水平的发生概率分别为兀l、兀2、…、孤,冗l怃+…饥= 100%,以第k个水平为参照水平,将拟合k.1个累积lo班模型: . 109晔Iog【南】-l。g【-志j吼+∑跳 t哩峨一-吲高专H。吐景等j_氏+∑屈毛 109蜘109l等等卜+∑触 对于任一j,109itP是解释变量的线性函数。厉。和屈为待估参数,∥,。是解释 变量均为0时,在某一固定的j下的两类不同概率之比的对数值。回归参数屈描述 了解释变量薯对反应变量y落在小于或等于类j的对数优势的效应。即表示当其它 解释变量固定不变时,解释变量t每改变一个单位或等级,反应变量y改变一个或 一个以上等级的累积概率比值比的对数值,即OR或RR的对数值。 型不同的是,在拟合的所有累积logit模型中,同一解释变量的回归参数是固定不 变的,即回归参数屈与j无关,各累积logit模型只有常数项是不同的。也就是说, 如果根据拟合的累积109it模型绘制反应变量的累积概率与解释变量所对应的曲线, 则各logit模型所对应的曲线是平行的,只有各条曲线的截矩不同。 (五)Bootstrap方法 B00tstrap方法是一种再抽样统计方法,也叫自助法【鼯8引,是由E舶nBraldey提出 的,以原始数据为基础的模拟抽样统计推断法。其基本思想是:在原来的样本范围 内作有放回的重复抽样,且样本中每个个体被抽到的概率相同,抽出的样本为 19 北京协和医学院中国医科科学院博I:研究生学位论文 准确度估计指标都来源于该统计量的抽样分布。如果这个统计量是用来源于某一个 总体的含量为n的随机样本估计而得到的,那么它的抽样分布就可以显示该统计量 的各种值的相对频数。抽样分布是由总体分布和估计统计量所用的计算公式所决定 的。在boots的p抽样中,原始数据集中的个体有的被抽到了1次,有的被抽到了多次, 也有的1次未抽到。 ZI模型的假设检验结果是基于极限理论,当样本量较小时,假设检验的结果并 与样本分布相关的统计量,通过反复抽样和估计,最后由估计出的统计量的值组成 一个数据集,利用这个数据集来反映该统计量的抽样分布。如果它的抽样分布是正 态分布,则利用正态近似法的原理用均数和标准误来估算参数的可信区间。利用 bootstrap方法可以有效地保证参数估计值和标准误的结果稳定性。 bootstrap再抽样,并在抽样的过程中控制零频数的比例,分别获取各种比例零频数 和可信区间。 (六)模型的选择及拟合效果的评价 本研究选用仅系数、D检验和Vuong检验进行过度离散性和零频数是否过多的 判断,并用模型对各频数的预测概率、似然比检验和AIC、BIC对各模型的拟合优 度进行判定,以选择最优的模型。 1.过度离散性的判断 过度离散性的判断可以用0【系数和D检验。n系数为负二项分布的离散参数,用 来衡量分布的离散程度,铲O时,负二项分布即为Poisson分布,衅0时,说明事件的 发生不是随机独立的,a值越大,分布的方差与均数的比值越大,当a显著大于0时, 表示数据过度离散【67御,951。可通过Z检验或可信区间法来判定仅是否显著大于O,当Z 检验的P≤O.05或者其可信区间下限大于0时,则表明数据过度离散。 D检验是一种基于均数和方差的进行过度离散性检验的方法【96。98】,其检验统计 量为D,D统计量的计算公式为: 。:星型 D统计量近似服从标准正态分布,当D统计量的绝对值≥1.96时,可以认为方 差显著大于总体均数,数据过度离散,不符合Poisson分布的条件;当D统计量的 绝对值1.96时,则不能认为方差显著大于总体均数,数据未出现过度离散的现象。 北京协和医学院中国医科科学院博士研究生学位论文 2.零频数过多的检验 用于比较零频数过多模型和与之相对的传统Poisson回归(或负二项回归)模型的 适宜性的检验方法【76删。Vuong检验的统计量y的计算公式为: 届鬲 y= sm 其中,朋严log【月蝴∽】,聊是mf的均数,岛为脚,的标准差;以、以为ZI 模型和传统Poisson回归或负二项回归模型的概率密度函数。y统计量近似服从标 准正态分布,当y值大于某个U分布曲线则选择ZI模型, 即认为零频数过多模型是更有利的,具有更好的拟合效果;当y值小于某个U分布 为传统模型更好,没有必要拟合零频数过多模型。如果y统计量的数值在.1.96和 1.96之间,则两个模型都不是最佳的,说明通过ZI模型进行调整不足以解释响应 变量过多的零计数。 3.模型拟合效果的判定 本研究采用模型对各频数的预测概率、似然比检验和AIC、BIC对各模型的拟 合效果进行判定,以选择最佳模型。 似然比检验是以似然函数为基础所做的统计检验,极大似然法是对参数0作点 估计的方法之一,似然函数三p)=兀JP(置)。似然比检验的统计量是两个模型的最 J筝I 大对数似然估计值(Log 量较大的情况下,该统计量服从卡方分布【67,84罐51。.2lnL越小,表明模型的拟合效 果越好。 AIC和BIC也可用于统计模型的拟合优度检验。 Infomation AIC全称为赤池信息准则(Akaike 年从信息论的角度出发提出的【100】,他把这个准则用于模型的定阶和选择,以估计 统计学模型的相对拟合优度。AIC通过衡量拟合值趋向于与真实期望的贴近程度来 评价一个模型的优劣,这种贴近程度由二者之间的某种期望距离来进行概括。AIC 的计算公式为: AIC=-2 ln∞)+2口 其中,L是似然函数,仅是可估计的自由参数的个数。AIC越小,表明模型的拟 21 北京协和医学院中国医科科学院博上研究生学位论文 合效果越好。AIC适于进行嵌套模型和非嵌套模型的拟合优度的比较,具有广泛的 应用范围【101-1031。 但是AIC容易受到自由参数个数的增加而产生过度拟合。为了减少AIC准则的 不收敛性,Gideon (Bayesi锄infomation SBC,SBIC)【104】。由 criterion),或称为Sch、Varzcriterion(also 于BIC是在AIC的基础上提出的,所以有时也称之为Akaike’sInfomation Bayesian 为: BIC=-2 ln∞)+a。ln(n) 其中,n是样本例数,L是似然函数,Q是可估计的自由参数的个数。BIC可以很 好地适应模型参数的可变性。对于同一组数据,BIC越小,表明模型的拟合效果越 031。 好【102-1 模型对各频数的预测概率是指拟合得到的回归模型对响应变量的预测值的频 率分布,模型对亚健康症状数的各种计数的预测概率和样本中各项症状数取值的实 测频率的符合程度越高,则说明该模型的拟合效果越好。预测概率能够最直观、准 确地反映模型的拟合效果。 (七)软件实现 采用SAS9.2软件或STATA9.O软件进行拟合。 在STATA9.0软件中,计数结果(couIlt 负二项回归、ZIP模型和ZINB模型的拟合;有序结果(ordillaloutcomes)模块可 以进行bootstrap抽样和参数估计【7引。 考虑到本研究在进行bootstralp再抽样的过程中要进行各种零频数比例的控制, 及利用bom咖ap
·超重人群口服抗化剂α-硫辛酸预防心血管危险因素的交叉试验研究.pdf
·踝关节损伤Lage Hansen(LH)临床分型及治疗临床路径探析.pdf
·转化生长因子-,1表达与矽肺肺纤维化关系的研究.pdf
·转基因水稻中外基因表达特异性研究及CpTI蛋白细胞内定位研究.pdf
·青岛市社区吸食毒品者艾滋病性病相关行为特征及HIVHCV梅毒感染的流行病学调查研究.pdf
未经允许请勿转载:56健康网 » 零频数过多资料统计学模型应用研究——亚健康状态研究中的应用pdf