- 医学统计原理
- 作者:杨如意|发布时间:2010-09-05|浏览量:1469次
临床研究的医学统计原理(二)
这里需要说明的是,由于动物实验研究时每一个动物个体易于控制,因而所需要的样本量相对临床试验可以小一些,人的变异性较大。
构成比与率是不能混淆的,这也是临床研究中常见到的错误。
率的平均数是由分子、分母分别相加后再相除得到的率,称为平均率。决不等于数个率的算术平均数。青海大学附属医院中医科杨如意
样本率和构成比的比较应做显著性检验。
二、显著性检验的原理和选择
1、问题的提出
2、小概率原理
3、假设检验及其原理
4.两类错误
5.
这部分内容实际上就是关于计量资料均数比较的显著性检验方法的选择。依据两组样本资料的分布特征、方差齐否、标准差的大小以及样本大小来选择。
当两组资料均呈正态分布,方差齐,标准差小于均数的三分之一,且样本量不大时,可以选择成组t检验方法;若样本量超过80例时,也可以用u检验方法;若方差不齐时则用t`检验(又称为校正t检验);若为三组及以上计量资料的均数比较时,则可以用方差分析或q检验,若方差不齐,可以该用校正方差分析。
当标准差超过均数的三分之一时,在测量值不可能是负数的情况下,就初步可以认定该资料不是正态分布,此时决不可用t检验,而改用秩和检验。
当多个试验组与同一个对照组的均数进行比较时,确定资料呈正态分布且方差齐后,则采用杜奈特t检验( DUNNETT t 检验),方差不齐时,用秩和检验。
配对设计的计量资料用配对t检验,资料呈非正态分布时,用配对资料的秩和检验。
6.
这部分内容实际上就是关于计数资料率和构成比比较的显著性检验方法的选择。主要是运用各种卡方检验,包括四格表卡方检验、行×列卡方检验、四格表卡方检验的校正方法、配对资料的卡方检验和卡方检验的特殊计算形式??确切概率法。
四格表卡方检验是最常用的一种卡方检验,主要适用于两组间率的比较,且要求评价结果只能是二分类的,即只能是正或负、阳或阴、有或无、生或死、有效或无效等。样本量必须大于40例,四个格子中的每一个格子的理论频数大于5例。其统计量为卡方值。如果有一个格子的理论频数大于1例而小于5例且样本量大于40例,则可以选择校正的四格表卡方检验,其统计量仍为卡方值。如果有一个格子的理论频数小于1,或样本量小于40例时,需要用确切概率法,直接计算出概率。
行×列卡方检验用于多组间的率的比较,和两组间比较时评价结果的资料不同的是结果是三及三以上分类,即多分类。行×列的列表中不宜有超过五分之一的格子的理论频数小于5例,也不宜有一个格子的理论频数小于1例。若发生这种情况,最好是增加样本量,其次的办法是合并相邻的行或列,当然这样一来会丢失一些信息。行×列卡方检验得到的结论是多个率中至少有两个率之间存在差异,要想得到确切的结论,还必须进行两两率的比较。对于配对资料的两组之间率的比较时,要用配对卡方检验。
7.等级资料的显著性检验
三、参数估计原理
1、计量资料的参数估计
我们把用于描述计量资料总体特征的各种数据如均数、中位数、全距、标准差等统称为参数。由于总体参数常未知,需要样本参数来估计总体参数。这种参数估计与显著性检验同样是统计推断的重要领域。这里需要说明的是描述总体的各种数据称为参数,而描述样本特征的各种数据称为统计量。
参数估计的分为点估计和区间估计。点估计是给出被估计参数的一个适当估计值,区间估计则是给出被估计参数的可能的数值范围。例如,采用含紫杉类药物的联合化疗方案的疗后第十七天外周血血红蛋白在50例乳腺癌患者中的平均值为12.7,其95%的可信区间为10.6?14.2,前者为点估计,后者为区间估计。在临床科研报告中,点估计与区间估计常同时写出,例如本例可以写成12.7(10.6?14.2,95%CI)。值得一提的是,用点估计时,为了说明估计的精确度,常同时写明标准误。
总之,参数的点估计就是选定一个适当的样本统计量作为参数的估计量,并计算出估计值。如果选择样本均数作为总体均数的估计量,则由样本数据计算出样本均数,作为总体均数的估计值。参数的区间估计是按预先给定的概率,确定未知参数的可能性范围,这个范围称为被估计参数的可信区间,又称置信区间,科研报告中常用符号“CI”来表示。同时这预先给定的区间还伴随着概率,被称为可信度表示符号为1?α,常取95%或99%。若无特殊说明,一般取双侧,若取单侧,将予以说明。二者和在一起的称谓是95%可信区间或99%可信区间。就95%可信区间而言,其含义是从被估计的总体中随机抽取含量固定(即数次抽取的样本量大小均一样)的样本,由每一个样本计算出一个95%可信区间,从同一个总体中随机抽取多个样本可以按同一可信度计算出多个95%可信区间。从理论上讲,其中有95%的可信区间将包含被估计的参数。换句话讲,就是以任意一个样本所得到的95%可信区间做估计时,被估计的参数包含在区间内的概率是95%,不包含被估计参数的概率是5%。当а确定后,同一资料可信度越高,可信区间的范围越宽。抽样误差越小,可信区间的范围越窄。,即参数的精度愈高。由于样本含量愈大,抽样误差愈小,所以认定,样本含量越大,估计的精度愈高。实际工作中,以95%可信度最常用。
2、 计数资料的参数估计
计数资料总体率的估计也有点估计和区间估计。点估计是用样本率来估计总体率,区间估计是按一定可信度求出总体率的可能范围。总体率的点估计类似总体均数的估计。依据样本量的大小,和样本率以及1?样本率大小的不同,可以选择查表法或正态近似法来求得。前者多用于小样本量(≤100例),和样本率过低时,后者多用于大样本量(>100例),和样本率不接近零时。
3、标准差与标准误的关系
从理论上讲,如果从一个正态分布的总体中许多次地重复抽取样本含量相等的样本时,就会得到许多相应的样本均数。由于每一次抽样都会有抽样误差的存在,因而,每一次的样本均数都不会完全一样,如果把这些“许多的样本均数”按大小排列开来,就会发现也呈现正态分布。此时,如果把这些样本均数看成是每一个变量的话,它们之间也存在标准差,这当然是样本均数的标准差,这就是标准误。因此,统计学上将这种由于抽样而导致的样本均数与总体均数之间的差别,称为抽样误差。而衡量抽样误差大小的指标就是标准误。换句话说,就是标准误用以评定样本统计量与总体参数的接近程度。标准误愈小,表示抽样误差愈小,则统计量较稳定,与参数愈接近。临床科研报告中常将统计量及其标准误同时写出,例如,“样本均数±标准误”。
标准差随着样本含量的增多,逐渐趋于稳定,当样本含量达到200例时,基本趋于稳定。而标准误则是随着样本含量的增多逐渐减少。例如,样本均数的标准误,当标准差固定后,与样本含量的平方根成反比,样本均数的标准误将随着样本含量增多趋于总体例数而逐渐趋于零。当样本含量不变时,标准差愈大,标准误自然也越大。
总之,标准差和标准误都是表示离散趋势的指标,用以个体值(变量)之间的离散(变异)的是标准差,用以说明统计量之间的离散(变异)的是标准误。
a)
前已述及,数量统计已经证明,从一个正态分布的总体中,随机抽取含量完全相同的n个(很多)样本,分别计算出每一个样本的样本均数,这些样本均数的分布仍为一个围绕总体均数的正态分布。令人感到有趣的是,即使总体分布不是正态分布,当样本含量足够大时,这些样本均数的分布也接近正态分布。在统计学上通常要同时兼顾考虑样本含量、标准误和总体参数等数个指标,并十分需要将上述统计量和参数有机地融合在一起。那么,以上述思路为基础,统计学将每一个样本通过一定的数理手段处理,推算出了每一个样本相应的t值,t值与“样本均数与总体均数之差”成正比,与标准误成反比。将这些t值一一标注在坐标上之后,就可以得到t分布曲线。这种曲线的特点是以“0”为中心,两侧左右对称,曲线的中部较正态分布曲线略低,曲线两侧翘得比正态分布略高。样本含量愈小,t分布与正态分布的差别愈大,随着样本含量逐渐增大,t分布逐渐逼近正态分布,直至达到正态分布。t值也是一种统计量,选用t值进行显著性检验的方法就是t检验。前述的成组资料的t检验、t`检验、杜曼特t检验、配对资料的t检验等计量资料的显著性检验都是选用了统计量t值进行的显著性检验。在这些检验方法中,将依据资料的特征,按照一定的数理公式计算出样本的统计量t值,再依据t分布规律找出该t值的相应概率,并依据此概率来决定接受或拒绝无效假设。
四、 直线相关与回归的基本思想
在肿瘤临床科研中,常要分析两个变量间的关系,例如药物剂量与疗效、化疗周期数与生存期之间的关系等。对这种客观事物或现象间关系的亲密程度和相互依存而变动的规律,常用相关与回归方法进行分析。
1. 直线相关
当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数那样能以一个变量精确地求出另一个变量的数值,统计学上就称这类变量之间的关系为相关关系,简称相关。当变量A增加时,变量B也相应增加的现象,称为正相关;当变量A增加时,变量B反而减少的现象,称为负相关。在坐标上,如果两个变量相对应的点完全拟合成一条直线时,就称为完全相关(包括完全正相关和完全负相关)。若变量A的变化不会导致变量B的变化,称为不相关。若变量A的变化可以导致变量B的变化,却不呈现直线而为曲线时,称为非线性相关。
统计学上采用相关系数这一指标来衡量这两个变量间直线关系的密切程度和相关方向。相关系数没有单位,其值在-1和+1之间,当相关系数在(0,1]这个范围内时,表示正相关,等于1表示完全正相关;当相关系数在[-1,0)范围内时,表示负相关,相关系数等于-1表示完全负相关。相关系数愈接近+1或-1,说明两个变量之间的直线关系愈密切,相关系数愈接近零时,两个变量的直线关系愈不密切。相关系数等于零时,仅说明两变量间无线性关系,而不能排除两变量之间存在其他内在的非线性关系。
值得说明的是,相关分析不能单纯用于阐明两事物或现象之间存在着的本质联系,即使两个变量之间存在高度相关的统计学联系,也不能证明它们之间存在因果关系。
在做两个变量之间的相关性检验时,首先是判断它们之间是否存在相关性,这需要对相关系数进行显著性检验,通常用相关系数的t检验,通过这种t检验得出P值的范围,若P<0.05时,才可认定相关性的存在。然后再依据相关系数的大小判定密切程度、依据相关系数的正或负判定相关方向。当然也不能将相关系数t检验的显著性水平误解为相关的密切程度,因为它只能说明两事物或现象之间存在相关性的概率的大小。
2.直线回归
1、相关仅表明两事物的关联性,而回归则表示两事物的从属性----从属关系。在做直线回归分析时,通常是用A变量(此时称为自变量)的值推算出另一个变量B(此时称为因变量)的估计值。直线回归分析的任务是找出描述两变量之间关系的直线方程,以确定一条最接近于两变量散点图各点的直线,使各个点与该线的纵向距离的平方和为最小。统计学上称这个方程为直线回归方程,这条直线叫做回归直线。值得注意的是,当B变量变为自变量和A变量改为因变量时所拟合出的直线回归方程与A变量为自变量而B变量为因变量时的直线回归方程是不