医疗保健实验室的工具、技术和培训

Z-Stats /基本统计

Z-14:用回归统计估计分析误差

这些抽象的统计数据说得够多了:我们如何在实验室中使用这些东西?本文向您展示了统计数据在实验台上的实际应用,包括如何查找偏差和其他重要的统计数据。

EdD,助理教授
路易斯维尔大学临床实验室科学专业
路易斯维尔,肯塔基州
2000年10月

在上一课中,我们以经典的方式描述了回归。在这一课中,我们将描述实际的实验室应用和处理真实实验数据时遇到的一些复杂情况。在实验室中,回归的语言和应用在我们周围随处可见,特别是在方法验证和质量控制的既定实践中。例如偏差,(Ybar-Xbar), [(bXbar + a) -Xbar],斜率,截距和Sy / x仅举几个例子,所有这些都源于回归术语。在本课中,我们将说明如何使用回归统计来估计实验室方法中出现的分析误差。我们将重点放在方法对比实验上,该实验通常用于验证新方法提供的结果是否与被取代的旧方法一致。

回顾回归模型

在上一课中,我们研究了从X和Y变量的偏差分数推导回归线的斜率系数。回归线提供了一个方程,可以用来从X预测Y (Y=bX + a)。大多数情况下,描述“真实Y”或Y观察到的数据点并不在这条回归线上,因此量化已解释和未解释的成分很重要。为此,我们考虑过几个Y,包括Y的均值,由x预测的Y,和数据点观测到的Y。在图中几个yY'或Y-预测值到总均值的距离称为Y解释或Y回归。从Y′到观测到的Y′的距离称为Y误差,在散点图中通常用数据点到回归线的垂直距离或直线表示。

在我们的数学计算中,我们开发了另外五个列(C-8到C-12),分别表示Y预测、Y残差或误差、Y残差平方或误差平方和(ESS)、Y解释或Y回归、Y解释平方或回归平方和(RSS)的计算。将ESS和RSS相加得到总平方和或TSS。由回归解释的R平方或y的方差是回归SS除以TSS的比值。这个数字越大,X预测Y的效率就越高。例如,如果R²= 0.80那么用X预测Y的效率就提高了80%那么用X自身分布的均值预测Y的效率就提高了80%通过这种方式,回归可以用来描述X和Y之间关系的强度。

有趣的是,1-R²是不能用x解释的Y的方差,这一项也被称为容差,威尔克的,还有其他名字。它等于误差SS除以TSS。

回归标准误差和随机分析误差(RE)

像往常一样,我们需要看一些标准误差项。在观察最小二乘方法中的“最佳拟合线”时,对于从特定X预测的每个y,都有一个最佳估计。这条线是近似的,这样每一个Y观测值都是在离这条线的最小平方距离上估计的。然而,即使有了这个预测的Y,关于每个Y相对于x的位置总是存在一些不确定性(概率),因为可以在回归线上的每个点周围绘制一个迷你正态分布,如图所示。

直线上的点出现在频率分布中最有可能出现的点上——在平均值上。这个迷你分布表示回归线的标准误差称为回归线的标准差估计的标准误差或年代y / x.该统计量应作为任何方法实验比较的回归计算的一部分,以提供方法之间随机误差的估计。请注意,这个估计将包括两种方法的随机误差,加上任何因样本而异的系统误差(例如,因样本而异的干扰)。因此,预计它将大于测试方法的不精度,并且不能替代从复制实验中确定的数据的不精度。

回归线的这种变化也为我们提供了关于斜率和截距的可靠性的信息,因为可以为斜率的标准误差计算附加项,称为Sb,截距的标准误差,称为S一个.计算机程序可以使用这些术语来计算斜率和截距的置信区间。理想情况下,两种测试方法之间的回归应该具有1.00的斜率和0.0的截距。与理想斜率和理想截距的小偏差的显著性可以用S来评估b和S一个计算观测到的斜率和截距的置信区间。如果区间与理想值重叠,则与理想值的差异没有任何实际重要性,即它们在统计上不显著。(理想是指斜率区间为1.00,截距区间为0。)

y截距和恒定系统误差(CE)

在比较使用回归的两种方法x和y时,让我们看看如果回复线的截距不在x和y的0,0点会发生什么,如下图所示。虚线表示理想性能。实线不经过0,0或图形的原点。相反,它不会在y轴上记录零值。原因是这里的回归方程不是y = 1x + 0。公式应该是y = 1x + 3。也就是说,公式(a)中的常数不是零。当x = 0时,y是3。因此这条线不是在原点与y轴相交而是在原点与y轴相交。回归方程中的常数项表示与理想值零的偏差或误差。 Such a problem is usually due to some type of interference in the assay, inadequate blanking, or a mis-set zero calibration point. It would be useful to test the confidence interval around the constant using s一个.如果零落在置信区间内,则偏差不重要。如果零不随间隔下降,则偏差表明两种方法之间存在恒定的系统误差。

斜率和比例系统误差(PE)

在测试x和y两种方法时,让我们看看如果回归线的斜率不是1会发生什么。在这里的图中,虚线代表了x和y之间完美的1:1关系,截距为0.0,直线的斜率与图底成45度角。x每增加1,y也增加1。实线表示斜率较低,例如,这条线表示一个回归方程,如y = 0.8x + 0。这里x每增加1,y增加0.8倍。用S来测试斜率周围的置信区间是有用的b.如果值1.0落在置信区间内,则偏差不重要。如果1.0不随区间下降,则偏差表明方法之间存在成比例的系统误差。某些错误导致与y的比例丧失。这种误差的幅度随着分析物浓度的增加而增加,通常是由于标准化或校准不良造成的。有时它是由样品基质中的某种物质与寻找的分析物发生反应引起的,因此与分析试剂竞争。

偏差和总体系统误差(SE)

总体系统误差通常被认为是测试过程之间的偏差,这意味着一种方法比另一种方法运行得更高或更低。正如前面的课程所讨论的,偏差可以作为t检验统计量的一部分进行计算,并提供对两种方法获得的值之间的平均差的估计,或者对一系列样本的两种方法的平均值之间的差。重要的是要理解这种偏差估计将适用于数据的平均值,即,它表示数据平均值的平均或整体系统误差。

如果有兴趣知道在医学上重要的决策集中的总体系统误差,XC,即不是数据的均值,那么回归方程就有用了。例如,葡萄糖方法的测试结果将在几个不同的决策水平上进行严格解释,例如低血糖为50 mg/dL,空腹葡萄糖为110 mg/dL,葡萄糖耐量试验为150 mg/dL。为了估计这三种医疗决策浓度下的系统误差,使用回归统计是有利的。对应于医疗决策浓度Y的Y值C,由回归方程Y计算得出C= bXC+ a,差值YC- XC表示X在医疗决策层面的系统误差C

例如,在这里所示的图中,有三种医疗决策浓度在解释测试时很重要。高医疗决策水平的系统误差,XC3,为负,即高浓度时y值低于x值。在低医疗决策浓度下,XC1, y值大于x值,系统误差为正。在区间的中间,不存在系统误差。如果对方法比较数据进行t检验统计量分析,且x均值落在区间的中间,则不存在偏倚,即使在低浓度和高浓度时存在明显的系统差异。

回归的问题

如前几课所述,在回归分析中应满足某些假设:

  • 假设线性关系;
  • x值被假定为“真”且没有误差;
  • 假设y值呈高斯分布;
  • 假设随机误差在研究数据的范围内是均匀的,即有一个均方差假设,即假设y的方差对于x的每个值都是相同的。
  • 异常值——似乎不符合数据总体分布或分散的单个点——会严重影响斜率和截距的值。

使用真实实验室数据的回归应用程序可能会有任何或所有这些问题!这里有一些实用的方法来处理它们。

线性关系。检查数据图以评估是否存在线性关系。要特别注意数据的高端和低端。如有必要,将统计分析限制在显示线性关系的数据上

x值错误。如果x值是用比较方法测量的,即使这种方法非常精确,也会有一些误差。相对于比较方法的不精确性,只要数据范围较宽,这些误差就不会使回归统计产生偏倚。相关系数提供了一个方便的指标。如果r为0.99或更大,则无需担心x值误差的影响。如果r小于0.95,则需要格外小心。这可能涉及收集额外的数据,以扩大研究范围并获得更高的r值。或者,它可能涉及使用替代统计计算,例如,如果数据的平均值接近感兴趣的医疗决策集中,则使用t检验分析,或者使用更复杂的回归技术,例如Deming回归[1]。请注意,一个或几个高点或低点可能对相关系数的值有很大的影响,因此检查数据图并确保数据以相当统一的方式覆盖范围是有用的。

高斯分布。在比较方法实验的情况下,y值是测量值,并期望是高斯的。请注意,对高斯值的要求不是针对患者分布,而是针对将在单个患者样本上获得的测量分布。这个假设是合理的,因为我们处理的是测量变化,而不是人口变化(这是不合理的)。

方差齐性。最重要的是要学会说这个词,这样你听起来就像一个统计学家。实际上,大多数方法都违反了这一假设,但还没有严重到需要改变其他计算方法的地步,比如加权回归。NCCLS EP9-A方法比较研究方案[2]建议对均匀散点进行目视检查,以确定上下端散点之间是否存在显著差异。该协议使用3:1作为指导原则,这意味着只要高端的分散小于低端分散的3倍就可以。

离群值。距离末端附近的单个点可以对斜率和截距的值产生反向影响。把回归线想象成一个摇摇欲坠的跷跷板,它在x和y值的平均值上保持平衡。当一个离线较远的点靠近跷跷板的末端时,它会施加更大的重量,将线拉向那个方向。在范围的高端的一个高点将拉线,导致斜率增加和截距减少(跷跷板效应)。因为在区间的高端处的低点会把线拉下来,导致斜率减小,截距增大。发现异常值的一个简单方法是检查比较数据的图。有些人喜欢为此使用差值图,或者使用回归线残差图。移除异常值需要非常小心,因为这是在篡改数据集。最好在删除任何数据点之前重新测试样本并确认错误。通过重复测量,在收集数据时仔细检查和绘制数据,并在样本仍然可用时重新测试差异结果,可以最大限度地减少异常值问题。

有关在方法比较研究中使用回归统计的更多讨论,请参见本网站的MV -数据分析工具包和在方法验证中使用统计的注意点。请注意,回归计算器是本网站数据分析工具包中配对数据计算器的一部分。

参考文献

  1. 李建军,李建军。方法比较中不正确的最小二乘回归系数。中华医学杂志1979;25:432-438。
  2. NCCLS。使用患者样本的方法比较和偏倚估计:批准指南。NCCLS文件EP9-A。宾夕法尼亚州韦恩市西谷路940号,1400室,NCCLS, 19087。
Joomla SEF url由Artio提供