作者:admin
发布时间:2012-11-01 19:27浏览:
次
另一个选择对照的重要方法叫匹配(matching,曾译“配比”),又称匹配抽样(matched sampling),就是在安排病例与对照时,使两者的某些特征或变量相一致。具体做法有两种:一种叫成组匹配或频数匹配,即在选择好一组病例之后,在选择对照组时要求其某些特征或变量的构成比例与病例组的一致(即在两组的总体分布一致),例如性别、年龄构成一致,具体做法上类似分层抽样。另一种做法叫个别匹配,就是以每一病例为单位,选择少数几个特征或变量方面与病例一致的一个或几个对照者组成一个计数单位或计数和分析单位。一个病例匹配一个对照的(即1:1匹配)一般称为配对,也就是说由一个病例和一个对照组成对子(pair)为一个计数单位。
个别匹配,特别是1:1匹配,最常被采用。理论上,一个病例可以匹配多个对照,但研究证明病例与对照之比超过1:4时,统计效率不会明显增加,但工作量却增大。如果病例与对照来源都充足,调查费用又差不多,则以1:1匹配最合适;如果病例数有限而对照易得,则可采用一个病例匹配几个对照的办法以提高统计效率(例如实例2)。
在病例对照研究中采用匹配的目的,首先在于提高研究效率(study efficiency),表现为每一研究对象提供的信息量的增加。匹配后再按匹配的因素进行分层分析,可使每一个匹配层中都有一定数目的病例与对照,不至于因有的层只有病例有的层只有对照而无法对比,不能提供信息。其次,在于控制混淆因素的作用。所以匹配的特征或变量必须是已知的混淆因子,至少也应有充分的理由这样怀疑,否则不应匹配。
无论是否采用匹配设计,为控制混淆作用都须在分析阶段用分层、标准化或多元分析,但匹配后再按匹配因素作分层分析可以提高分析的效率,也就是提高了控制混淆因素的效率。
但是匹配也要付出代价:匹配增加了寻找对照的速度,以同样的低价也许可以得到更多不匹配的对照,从而扩大样本含量。从这个意义上说,匹配又降低了研究效率。增加匹配项目又会导致可能作为对照者的减少,无法找到可匹配对照的病例只得被剔除;一个项目一经匹配不但使它与疾病的关系不能分析而且使它与其他研究因子的交互作用也不能充分分析。把不必要的项目列入匹配,企图使病例与对照尽量一致,如果匹配的因素与暴露有联系,就可能人为地造成更多的病例与对照暴露史一致的对子,徒然丢失信息,增加工作难度的结果反而是降低了研究效率。这种情况称为匹配过度(over-matching),应注意避免。
匹配的变量应一致到什么程度,取决于变量的性质、实际可能与必要:离散变量(即属性,无中间值的变量)可以完全匹配,连续变量(在一定范围内可取任何值的变量)往往划分为若干类或组,再按此匹配。例如按年龄分组、按血压分组、按吸烟量分组匹配。分得太细,会增加工作难度,也不一定必要,例如年龄要求同岁;但分得太粗,例如年龄按10岁分组,又达不到控制混淆作用的目的。
当估计有许多可能的混淆因素需要控制时,倘仅靠分层则因层数太多不能保证每层均有病例与对照,所以采用匹配以保证有效的分层分析。其次,有的列名变量包含许多类别或内容复杂(例如职业、种族、居住地、籍贯、兄弟姊妹等),如是可能的混淆因子,应加匹配。否则单靠分层不能控制混淆作用。
匹配可保证对照与病例在某些重要方面的可比性。对于小样本研究以及因为病例的某种构成(例如年龄、性别构成)特殊,随机抽取的对照组很难与之平衡时,个别匹配最为有用。
一般除性别、年龄之外,对于其他因素是否列入匹配须持慎重态度,以防止匹配过头及徒增费用和延长完成时间。
4.计划和执行 病例对照研究在制订计划和执行时应注意以下问题:
(1)主要假设的说明是否清楚、简明而且可以检验?
(2)疾病与暴露变量的定义清楚、明确否?
(3)是否拟探索剂量反应关系和多个危险因素的联合作用?
(4)为解答问题所需之病例数和对照数能否得到?这样大小的样本能查出的最小相对危险度是多少?与估计的相差多少?[参考附录五(四)节]。
(5)病例来源及抽样技术明确否?病例数与对照数之比是多少?匹配否及匹配哪些变量?
(6)调查表(问卷)是否已包括打算测量的所有变量并能够收集到需要的数据?其详尽程度是否已足供分析之用?
(7)医院记录(病历)及其他来源的信息、从体检、实验室检查、病理切片等获得的数据需表格记录否?
(8)调查表经过试用否?其真实度与可靠度(重复性)经评估否?访问时拟使用帮助回忆的实物、模型或图片否?
(9)调查员、质控员、病历摘录员、编码员的工作手册已编好否?须专门培训否?
(10)组织机构、人员、设备、经费落实否?
(11)协作单位有书面协议否?有关领导机关已批准否? 将诊断根据(切片、标本、影像图片等)送到主持单位复核安排妥当否?
(12)实验室检验项目或用仪器检测的项目所用仪器、方法、试剂是否符合标准?结果的真实度与可靠度经过考核否?
(13)经治医院、医生是否同意提供病例和对照?是否必须取得研究对象在了解情况后的书面同意?资料、数据怎样保密?怎样保存?
5.数据分析 须分析什么项目,计算哪些统计量,用什么统计学方法,用手工(计算器)还是计算机,如用后者怎样建数据库和用什么软件包,等等,都应包括在设计之中,手工计算时还应拟好相应表格。现在计算机及统计软件包的应用渐趋普及,过去很难进行的一些复杂的统计检验现在很快就可完成并打印出结果还可绘出统计图。但是,一些流行病学专家主张先用手工计算基本内容以熟悉数据,然后再由计算机作复杂运算(多元分析)。
本节要介绍的是基本原理和基本方法,无论用手工或机器运算,这些都是应熟悉的。
病例对照研究数据分析的中心内容是比较病例和对照中暴露的比例并由此估计暴露与疾病的联系程度,并估计差别与联系由随机误差造成的可能性有多大,特别要排除由于混淆变量未被控制而造成虚假联系或差异的可能。进一步,还可计算暴露与疾病的剂量反应关系,各因子的交互作用(对一种因子的暴露会不会影响对另一种因子的效应),等等。非匹配和匹配设计的研究,数据的分析方法有一些不同。
(1)非匹配数据的分析:首先要检验病例组与对照组在某些主要特征(即可能成为混淆因子的特征)的构成上是否没有显著差别(均衡性检验)。
1)联系的显著性与联系强度:某个因素与某种结局(患病或死亡)之间的联系是否有统计学显著性,常用χ2检验。最简单的情况是因素与结局都只分为“有”或“无”两类,数据可纳入一张2×2表(即四格表,又称四格列联表),例如表4-1。χ2检验可用四格表专用公式(式4-1)。但χ2值的大小并不表示联系的强度。χ2≥3.84时,设两者无联系的假设(无效价设,H0)被否定,而转向存在联系的假设(备择假设,HA),这个判断错误的可能性为≤0.05(即ρ≤0.05)。χ2值越大,判断错误的可能性越小。
表4-1 危险因子与疾病的联系
患病
有暴露史
无暴露史
合计
有
a
b
a+b
无
c
d
c+d
合计
a+c
b+d
a+b+c+d=n
统计学显著性可以评价在多大程度上可用机会解释所观察到的联系。但如数据本身存在系统误差,统计学显著性检验就无意义,因为它不能区别联系的真或假(由偏倚、混淆所致的联系)。此外,统计学显著性检验结果极大地受样本含量的影响,样本小则随机变异大;即使实际上暴露的作用很大,也会导致“不显著”的结论。所以“不显著”应理解为“不足以否定无效假设”。
(式4-1)
现况调查和队列研究(见本章“二、队列研究”)可以计算暴露者(或具某特征者)和未暴露者(或不具某特征者)的患病率或发病率,因为分子数与分母数是已知的。也可以计算相