医疗保健实验室的工具、技术和培训

Z-Stats /基本统计

Z-9:统计显著性检验的真相或结果

统计检验的威力有多大?统计检验的结果意味着什么?扎迪医生对这个问题进行了权衡,并给了你如何衡量测试结果的指导。

EdD,助理教授
路易斯维尔大学临床实验室科学专业
路易斯维尔,肯塔基州

第6,7,8课使用t检验作为显著性的示例检验来检验假设检验。在这节课中,我们将更仔细地了解统计测试的正确性,以及它检测变化的“能力”。如果你对统计显著性检验的性能特征有了很好的理解,你就能更好地设计实验,正确地解释实验结果。

真值表和分类错误

在统计显著性检验中,结果是接受或拒绝原假设Ho,在t检验的情况下,它表示对照组和实验组的平均值之间没有差异。实际上,测试组之间要么有差异,要么没有。理想情况下,显著性检验应该在存在差异时拒绝Ho,在不存在差异时接受Ho。然而,我们知道世界很少是完美的,测试的实际行为可能不太理想。

行为可以用一个“真值表”来描述,在这种情况下是一个2 × 2的分类表,它显示了所有可能的结果。如图所示,“快乐”的脸显示了当Ho被接受时的期望行为,并且手段之间没有区别(表格左上角的真实接受)和当Ho被拒绝时存在差异(真实拒绝,右下角)。“不高兴”的表情表明我们对统计测试的失望,当它接受一种情况“方法之间没有差异”并且确实存在差异(错误的接受,右上角),当拒绝两种方法是相同的并且没有真正的差异(错误的拒绝,左下角)。

这里展示了一个更科学的真值表,它将可能的分类识别为真接受、假接受、假拒绝和真拒绝。在统计学术语中,误拒结果称为“第一类错误”,用符号表示一个。在实验设计中,这些很常见,因为我们经常设置一个在0.05,因此,预计5%的时间会被错误拒绝。另一种类型的错误,“第二类错误”,是错误的接受,它被赋予了符号b。这些是至关重要的,因为我们对获得高的真实拒绝率结果感兴趣,它等于1 -b也被称为“统计能力”或“能力”。我们通常希望达到90 - 95%的统计功效,这意味着b只能是5 - 10%。

我们有时把这个真值表称为“混淆矩阵”[1],因为它给学生带来了困难。有许多新概念——真接受、假接受、假拒绝、真拒绝——以及许多新术语——第一类错误、第二类错误、一个b,和权力。笑脸表应该能帮助你理清这些概念。不幸的是,你必须死记硬背统计学术语,因为没有真正的逻辑可以将一个错误称为类型I或alpha错误,而将另一个称为类型II或beta错误。

结果和性能特征

为了理解真值表中确定的特征的重要性,我们需要考虑使用统计检验来比较实验组和对照组的后果。我们将重点关注两种不同的情况——第一种情况是对照组和实验组之间没有重叠,第二种情况是两组之间有重叠。

类型I和类型II错误

如果对照组和实验组的均值期望分布完全分开,如图所示,则不应存在误分类误差。第一类和第二类错误将不存在,即一个b均为0.00,不应有任何虚假拒绝或虚假接受。因为b为0.00时,统计功效应为1.00 (1-b= 1.00),这意味着两组之间的差异将始终被检测到。这些值(一个= 0.00,b=0.00, power=1.00)表示统计显著性检验的理想性能特征。

在实践中,我们通常选择适当低的alpha水平,通常是0.05的概率,这意味着只有5%的机会错误地拒绝零假设,并在实际上没有差异的情况下得出存在差异的结论(类型I错误)。观察对应于0.05 α水平的垂直线或门,它切断了控制分布尾部的5%。即使有5%的概率出现第一类错误,也不应该出现第二类错误,也就是我们接受错误零假设的错误。同样,这些曲线是不同的,因此,功率是最大的。

如果分布重叠,如图所示,那么统计测试的性能特征将取决于重叠的数量。I型和II型误差将不为零,功率将低于理想。a的选择将影响II型或β -误差的数量和检验的统计能力。在这里的示例中,alpha水平再次设置为0.05。II型误差或β误差的概率设为0.15或两条曲线之间的重叠面积,使统计幂为0.85,即非重叠面积。这表明只有85%的机会检测到组之间的差异,或者有15%的机会无法检测到组之间的差异。

统计能力

要理解权力,看看实验组的分布。看看该分布中有多少面积超出了对应于0.05 alpha水平的垂直线。在第一个图中,整个分布在垂直线的右边,因此功率是最大的。在第二张图中,只有一部分分布在垂直线的右边。显然,当两组之间的差异减少时,权力就会减少。

功率表示实验检测到一定量级差异的能力。实验组和对照组之间的差异越大,两组之间的重叠越少,检测差异的能力就越大。重叠越大,功率越低。实际上,大的差异很容易被发现,而小的差异很难被发现。

实验因素的影响

了解这些性能特征对于计划实验和解释实验结果都很重要。当你设计一个实验时,你可以控制一些重要的因素。了解它们的作用将有助于你计划一个更好的实验。如果你不能控制实验设计,那么在解释实验结果时,你需要意识到这些因素的潜在影响。

α电平的选择

统计测试中最常见的错误是I型,即拒绝了真Ho。研究人员似乎有时过于热衷于拒绝零假设并证明他们的观点。防止第一类错误的一种方法是将alpha级别降低到0.01,如下所示。alpha值为0.01时,只有1%的机会拒绝一个真正的Ho。alpha的变化也会以相反的方向影响II型误差。将alpha从0.05降低到0.01增加了II型错误的机会(使拒绝零假设变得更加困难)。


在这个例子中,b现在是0.30。这两种分布之间有更多的重叠。对统计功率的影响将与对第二类误差的影响相反,即a水平的降低将增加第二类误差并降低功率。功率更低,这里是0.70,因为垂直线右侧分布下的面积减小了,因此功率减小了。


选择一个关卡是一种主观判断。在药物研究中,a水平可以设定为0.01甚至0.001。在临床和诊断研究中,一个通常设为0.05。在实验室方法验证研究中,一个通常设置在0.05到0.01的范围内。在实验室质量控制中一个水平由控制限值的选择和控制测量的次数决定[2]。当Levey-Jennings控制图与1到3个控制测量和控制限制设置为平均值±2个SDs时,Alpha或假拒绝可能非常高- 0.05至0.14。通过扩大控制限来减少误拒的努力,例如,通过使用3SD控制限将a降低到0.01或更小,也会降低功率或降低错误检测,如文献中幂函数图所示[3]。这些应用说明了为什么理解I型或a型错误对实验研究的影响以及实验室测试过程的日常操作很重要。

N的选择

关于N的一个警告!显著性检验是统计决策的重要组成部分,然而一些条件限制了它的有用性。也许没有任何条件比N的大小更值得注意。问题源于检验统计量总是通过将观察到的差异除以包含N的标准误差项来计算,如下图所示为t检验统计量:

tcalc= (Xbar -µ)/(s/N1/2

当N变大时,分母中的项(s/N1/2)变小,这使得计算出的t值变大,使得拒绝原假设变得更容易。增加N可以检测到非常小的差异,而低N则会产生相反的效果,甚至很难检测到大的差异。在临床和诊断研究中,数据可能并不丰富,获得高n值可能非常昂贵。另一方面,在实验室方法验证研究中,如果我们了解需要什么,我们通常可以达到良好实验设计所需的n值[例如,参考文献4讨论不同方法验证实验的最小n值]。

配对与非配对数据的选择

在某些情况下,t检验的另一种变体变得很重要。当数据高度相关或相互依赖时,执行这种“配对”形式的t检验。例如,如果同一受试者经历了两种程序,例如在方法比较实验中用两种方法进行测试,或者在"处理"前后进行测试以确定程序的效果,则样品是依赖的。在这些情况下,受试者可以作为自己的对照组,因为我们只对测试方法和比较方法之间的差异或治疗前后的变化感兴趣。


在统计学方面,零假设将被表述为Ho:µ1 -µ2 = 0,即平均值之间没有差异。差异分数Xbar1 - Xbar2的平均值成为检验统计量。这些差异的分布接近于正态分布,而方差、标准差和误差项的计算与以前基本相同。生成tcalc的值,并将其与临界值进行比较。在对照组曲线上设置相同的分布门。如果计算的t值大于临界t值,则推翻无差异的原假设,反之亦然。

参考文献

  1. 塔巴尼克BG,菲德尔LS。使用多元统计,第3版。纽约:Harper-Collins, 1996。
  2. Westgard乔。基本的质量控制实践。麦迪逊,WI: Westgard QC, 1998。
  3. Westgard JO, growth T.统计控制规则的幂函数图。中华医学杂志1979;25:394-400。
  4. Westgard乔。基本方法验证。麦迪逊,威斯康星:韦斯特加德QC, 1999年。
Joomla SEF url由Artio提供