第一节 卫生统计学的定义和内容
1.卫生统计学的定义
统计学(statistics)是研究数据的收集、整理和分析的一门科学,帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。
卫生统计学(health statistics)是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。
Webster国际大辞典(第三版)对统计学的定义是“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。Last JM 主编的一本流行病学辞典对统计学的定义是“the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results” 。由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。这里强调了“过程”,但在实际工作中,许多人往往是忽略了设计、收集和归类(整理),到了分析数据时才想到统计学,此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到这一点。
2.卫生统计学的内容:
1)健康统计:医学人口统计、疾病统计和生长发育统计等;
2)卫生服务统计:包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。
本教材的主要内容为:
1)卫生统计学的基本原理和方法:包括统计描述(定量资料和分类资料的描述性指标以及常用统计图表)、常见的理论分布及其应用(正态分布、二项分布与Poisson分布)、总体参数的估计(分总体均数、总体率和总体平均数)、假设检验(t检验、u检验、方差分析、χ2检验、秩和检验等)、回归与相关、多元线性回归与logistic回归、实验设计和调查设计(第2~第14章);
2)健康统计:医学人口与疾病统计中常用的指标(第15章)、寿命表(第16章)、生存率分析(第17章);
3)常用的综合评价方法(第18章)。
第二节 统计工作的步骤
统计学对统计工作的全过程起指导作用,任何统计工作和统计研究的全过程都可分为以下四个步骤:
1.设计(design):在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上,对将要进行的研究工作所做的全面设想。其内容包括:明确研究目的和研究假说,确定观察对象、观察单位、样本含量和抽样方法,拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环,也是指导以后工作的依据(详见第13、14章)。
2.收集资料(collection):遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三个方面:①统计报表:是由国家统一设计,有关医疗卫生机构定期逐级上报,提供居民健康状况和医疗卫生机构工作的主要数据,是制定卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表,职业病报表,医院工作报表等。②经常性工作记录:如卫生监测记录、健康检查记录等。③专题调查或实验。
3.整理资料(sorting data):收集来的资料在整理之前称为原始资料,原始资料通常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳,使原始资料系统化、条理化,便于进一步计算统计指标和分析。其过程是:首先对原始资料进行准确性审查(逻辑审查与技术审查)和完整性审查;再拟定整理表,按照“同质者合并,非同质者分开”的原则对资料进行质量分组,并在同质基础上根据数值大小进行数量分组;最后汇总归纳。
4.分析资料(analysis of data):其目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析包括统计描述(descriptive statistics)和统计推断(inferential statistics)。前者是用统计指标与统计图(表)等方法对样本资料的数量特征及其分布规律进行描述(详见第2、6、12章);后者是指如何抽样,以及如何用样本信息推断总体特征(详见第4、5、7、8、9、10、11、17、18章)。进行资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。
统计工作的四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。
第三节 统计学中的几个基本概念
1.同质(homogeneity)与变异(variation)
严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。所以,在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传、营养等影响因素可以忽略。
同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上,客观世界充满了变异,生物医学领域更是如此。哪里有变异,哪里就需要统计学。若所研究的同质群体中所有个体一模一样,只需观察任一个体即可,无须进行统计研究。
2.总体(population)与样本(sample)
任何统计研究都必须首先确定观察单位(observed unit),亦称个体(individual)。观察单位是统计研究中最基本的单位,可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。
总体是根据研究目的确定的同质观察单位的全体,或者说,是同质的所有观察单位某种观察值(变量值)的集合。例如欲研究山东省2002年7岁健康男孩的身高,那么,观察对象是山东省2002年的7岁健康男孩,观察单位是每个7岁健康男孩,变量是身高,变量值(观察值)是身高测量值,则山东省2002年全体7岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体(finite population)和无限总体(infinite population)。有限总体是指在某特定的时间与空间范围内,同质研究对象的所有观察单位的某变量值的个数为有限个,如上例;无限总体是抽象的,无时间和空间的限制,观察单位数是无限的,如研究碘盐对缺碘性甲状腺病的防治效果,该总体的同质基础是缺碘性甲状腺病患者,同用碘盐防治;该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果,没有时间和空间范围的限制,因而观察单位数无限,该总体为无限总体。
在实际工作中,所要研究的总体无论是有限的还是无限的,通常都是采用抽样研究。样本是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体(山东省2002年7岁健康男孩)中,按照随机化原则抽取100名7岁健康男孩,他们的身高值即为样本。从总体中抽取样本的过程为抽样,抽样方法有多种,详见第14章。抽样研究的目的是用样本信息推断总体特征。
统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量,sample size)恰当,信息丰富,代表性好;能帮助人们挖掘样本中的信息,推断总体的规律性。
3.资料(data)与变量(variable)及其分类
总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,特征称为变量。如“身高”、“体重”、“性别”、“血型”、“疗效”等。变量的测定值或观察值称为变量值(value of variable)或观察值(observed value),亦称为资料。
按变量的值是定量的还是定性的,可将变量分为以下类型,变量的类型不同,其分布规律亦不同,对它们采用的统计分析方法也不同。在处理资料之前,首先要分清变量类型。
1)数值变量(numerical variable):其变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHg kPa)、脉搏(次/min)和白细胞计数(×10 9 /L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料(quantitative data)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。
2)分类变量(catagorical variable):其变量值是定性的,表现为互不相容的类别或属性。分类变量可分为无序变量和有序变量两类:
(1)无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。,它又可分为①二项分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料。
(2)有序分类变量(ordinal categorical variable)各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料。
变量类型不是一成不变的,根据研究目的的需要,各类变量之间可以进行转化。例如血红蛋白量(g/L)原属数值变量,若按血红蛋白正常与偏低分为两类时,可按二项分类资料分析;若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时,可按等级资料分析。有时亦可将分类资料数量化,如可将病人的恶心反应以0、1、2、3表示,则可按数值变量资料(定量资料)分析。
4.随机事件(random event)与概率(probability)
医学研究的现象,大多数是随机现象,对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件,亦称偶然事件,简称事件。例如用相同治疗方案治疗一批某病的患者,治疗转归可能为治愈、好转、无效、死亡四种结果,对于一个刚入院的患者,治疗后究竟发生哪一种结果是不确定的,可能发生的每一种结果都是一个随机事件。
对于随机事件来说,在一次随机试验中,某个随机事件可能发生也可能不发生,但在一定数量的重复试验后,该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值,常用P表示。例如,投掷一枚均匀的硬币,随机事件A表示“正面向上”,用 n表示投掷次数;m表示随机事件A发生的次数;f表示随机事件A发生的频率(f=m/n),0≤m≤n, 0≤f≤1。
用不同的投掷次数n作随机试验,结果如下:m/n=8/10=0.8, 7/20=0.35,…… , 249/500=0.498, 501/1000=0.501, 10001/2000=0.5000,由此看出当投掷次数n足够大时,f=m/n→0.5,称P(A)=0.5,或简写为:P=0.5。当n足够大时,可以用f估计P。
随机事件概率的大小在0与1之间,即0<P<1,常用小数或百分数表示。P越接近1,表示某事件发生的可能性越大;P越接近0,表示某事件发生的可能性越小。P=1表示事件必然发生,P=0表示事件不可能发生,它们是确定性的,不是随机事件,但可以把它们看成随机事件的特例。
若随机事件A的概率P(A)≤a,习惯上,当a=0.05时,就称A为小概率事件。其统计学意义是小概率事件在一次随机试验中不可能发生。例如,某都市大街上疾驶的汽车撞伤行人的事件的发生概率为1/万,但大街上仍有行人,这是因为 “被撞”事件是小概率事件,所以行人认为自己上街这“一次试验”中不会发生“被撞”事件。“小概率”的标准a是人为规定的,对于可能引起严重后果的事件,如术中大出血等,可规定a=0.01,甚至更小。
第四节 学习卫生统计学应注意的问题
卫生统计学是从事公共卫生领域研究和工作的必要基础。预防医学专业的学生在学习本课程时应注意:
1.医学生在学习过程中必须运用逻辑思维方法掌握卫生统计学的基本知识、基本技能、基本概念和基本方法。切忌死记硬背、生搬硬套,应通过实例提高综合分析问题的能力。
2.掌握调查设计和实验设计的原则,培养收集、整理、分析统计资料的系统工作能力。在统计工作中要以实事求是、严谨的科学态度对待原始资料,反对伪造和篡改统计数字。通过学习这门课程,逐步树立起实事求是、严谨的工作作风。
3.在学习统计指标与分析方法时,应重点掌握统计公式的意义、用途和应用条件,不必深究其数学推导。最终掌握正确的分析思路:进行资料分析时,需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。