医疗保健实验室的工具、技术和培训

客人的文章

降低质量控制相关风险

伊朗新浪实验室的Hassan Bayat为临床化学杂志俱乐部对Woodworth等人关于HbA1c方法研究的报道提供了额外的讨论点。

qc依赖性风险降低:临床化学杂志俱乐部评论


Hassan Bayat, CLS,新浪实验室(qemshahr)
2015年1月

2014年8月刊的《临床化学》(Clinical Chemistry)对Woodworth等人的8种HbA1c检测方法的性能进行了有价值的研究(1):

利用测定性能特征来估计糖化血红蛋白结果的可靠性。王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,王晓明,中国生物医学工程学报,2014,34(8):1073-1079。


Woodworth等人在其卓越的方法验证研究中,通过使用“40个NGSP二级参考实验室(SRL)目标值分配样本(密苏里大学Randie Little博士)进行测试,并为本研究收费提供样本;NGSP SRL“已经使用CLSI EP9-A2文件中指示的协议进行了比较研究,并且他们还确定了使用CLSI EP5-A2协议的每种检测在两个水平(约5% HbA1c和10% HbA1c)的精度。

最近,J. O. Westgard和Sten Westgard在两篇独立的文章中讨论了该研究的不同方面,并评论了该论文的有价值之处,以及与质量控制、方法验证、西格玛指标以及风险评估的不同方面相关的有价值之处(2,3)。针对Woodworth等人的研究,J. O. Westgard希望“这将导致整个临床化学社区的广泛讨论”。以下是我对讨论的一些看法。

建立质量比控制质量更重要

Woodworth等人正确地将错误的患者结果定义为“不可靠的患者结果,其定义为包含超过允许总误差(TEa)规格的测量误差的结果”。但是,仅仅了解TEa规范还不足以确定性能是可接受的还是不可接受的。为了判断可接受性,除了知道TEa之外,我们还需要知道有多少结果是允许超出TEa限制的,即允许缺陷率。考虑到最常用的计算总误差(TE)的公式为Bias + 1.65CV,我们允许产生多达5%的“不可靠患者结果”(注意,这个公式是最不苛刻的!)。使用风险评估语言,基于此公式,允许的剩余风险为5%。

因此,为了获得可接受的性能,方法偏差和CV必须很小,计算出的Total Error小于TEa,即B + 1.65CV < TEa。在六西格玛语言中,“B + 1.65 cv”小于TEa的标准翻译为大于1.65的西格玛度量(SM);这意味着如果一个性能的SM≥1.65,它就达到了最低的可接受性。如果一种方法的方法验证(MV)研究表明其SM小于1.65,则该方法应被拒绝,根本不应在实验室使用;因此,为不可接受的方法规划QC是不必要的。

这一点在Woodworth等人的研究中被忽略了。在该研究中,三种方法在6% TEa时的SMs均小于1.65 (Variant II、Tosoh G8和Integra 800分别为1.57、1.43和0.36),这意味着这些方法在最佳情况下和在其最稳定的性能期间产生了超过5%的不可靠患者结果。尽管如此,Woodworth等人还是试图找到一个合适的QC程序来控制它们,并得出结论,为了实现必要的错误检测,应该进行最大限度的QC(3个级别,每天3次)。

他们的错误源于一种假设,即任何业绩,无论其SM如何,都是可以接受的。他们忽略了观察到的质量是否合格,而把注意力集中在QC计划的确定上。为此,他们使用了通过方法验证研究确定的性能规格(即偏差和CV)来找到QC程序,以确保在方法验证期间“观察到的性能”在未来用于检测患者样本的常规使用中是稳定的。这样,Woodworth等人就错过了MV结果的第一个重要应用:在第一步中,必须使用从MV经验中获得的数据来估计错误率,并判断对“观察到的性能”的接受/拒绝。

如果将TEa考虑为5%,这可能是NGSP和CAP的2015年目标,则上述方法的SMs更差(0.83,0.59和负)。Integra 800的负SM是其偏差大于TEa的结果。请注意,当偏差大于TEa时,该方法完全失去目标,因此,即使在执行完全稳定时,该方法也会产生超过50%的错误结果。如果我们使用本文表1中Integra 800的CV和回归方程,在临床重要水平6.5% HbA1c时,CV和偏倚分别为2.15%和5.1%。在这种偏差下,即使该方法性能稳定,也有大约52%的结果与目标偏差超过5%;即52%的不可靠结果,或52%的剩余风险(这里我们似乎更应该说“剩余安全”;因为安全的结果比危险的结果要少!)毫无疑问,这样的弱表现应该被拒绝,而不是试图控制其“稳定”的表现。

总之,我们不能接受任何稳定的性能!首先,性能必须产生低于5%的out- tea结果来证明质量,然后我们可以计划适当的QC来控制其质量。扩展J.O. Westgard的运行建议,我们必须“做正确的QC正确”,以获得正确的质量。

虽然Woodworth等人试图建立一个“从使用QC来监控仪器故障到使用QC来最小化风险和/或减轻报告不准确结果的剩余风险”的模型,但他们忽略了方法的可接受性,他们的模型以“生成用于监控实验室仪器和方法稳定性”的QC计划结束。(很可能,有一个假设,应用更严格的QC计划可以提高方法的性能。正如下面详细讨论的那样,这种假设是不正确的。)

如何确定偏差

Woodworth等人将“40个NGSP二级参考实验室(SRL)目标值分配的样本送到每个实验室”,并通过使用CLSI EP 9-A2确定相关系数(r2)和所有方法的线性回归方程。所有的r2s均大于0.975,因此基于EP 9-A2,我们可以使用线性回归方程计算临床重要水平的偏倚。尽管手头上有所有必要的材料(即一份报告)2的≥0.975和回归方程)计算偏倚,Woodworth改为使用对照组的观察值和分配值来计算偏倚;在文中表1中表示为“% Bias = 100 ×(观测均值)/赋值”。

在下面的表1中,我将Woodworth等人使用的计算方法颠倒为“分配值= (100 ×观察值)/ (%Bias + 100)”来估计控制的分配值。然后,我使用回归方程计算了指定值水平上的偏差(通过将回归方程中的指定值替换为“x”),因此我们可以相互比较两种不同方式产生的偏差(表2)。本表中,原文中呈现的偏差称为“控制衍生偏差”,使用回归方程计算的偏差称为“回归衍生偏差”)。

2015 - hassanbayat表1

表2。比较两种不同方式产生的偏差;使用分配给对照材料的值与使用回归方程。

2015 - hassanbayat表二

正如EP 9-A2(以及其他关于估计偏倚的科学文献)所强调的那样,由于商业对照材料的问题,特别是缺乏可交换性,估计两种方法之间偏倚的最佳方法是使用未处理的患者样本进行比较研究。如图2所示,Woodworth等人对三种方法(capillillys 2、DCA advantage -lot 1和DCA advantage -lot 2)在5% HbA1c水平下从对照中计算出的偏差与从回归方程计算出的偏差非常不同(最大的差异是DCA advantage -lot 2;-0.34 vs. 0.78)。

在最重要的临床水平上确定质量;

在表3中,我计算了6.5% HbA1c时的西格玛指标(SM),因为“我们可能最感兴趣的是6.5% HbA1c左右的表现,因为这是诊断糖尿病的地方”(3)。虽然J. O. Westgard在他的评论中计算了这个水平的CV(2),但他平均了低对照和高对照材料的CV,估计CV为6.5% HbA1c水平。鉴于6.5更接近低控制水平,6.5% HbA1c时更好的CV估计值可以通过在低水平CV和高水平CV之间进行插值来确定。我使用一阶方程连接“低均值,低CV”和“高均值,高CV”点,计算6.5水平下的CV。这些方法在这一水平上的偏差是由Woodworth等人确定的各自的回归方程计算出来的。然后,我将使用内插cv计算的SMs与j.o. Westgard确定的SMs进行了比较。

虽然在表3中,内插的cv与Westgard计算的平均cv不同,但当cv用于计算西格玛指标时,很明显,从两种方式得出的西格玛指标大致相同,因此,“对于所有这些情况,在解释西格玛质量及其对风险和质量控制的影响方面几乎没有任何差异!”(2)。这种比较表明,比较“复杂的解决方案与简单的规则”,“在这种情况下,在医学上重要的决定浓度为6.5% Hb时,使用CV的平均估计的简单规则实际上可能比更复杂的插值CV计算提供相同的风险估计”(2)(下划线的单词是我用原始单词替换的单词;“a point”、“sigma”、“better”和“patient-weighted sigma”)。

表3。通过两种不同的方法来比较cv和SMs:插值vs平均。

2015 - hassanbayat table3

Sigma指标:水平特异性vs.患者加权

Woodworth等人引入了一种新版本的西格玛度量,称为“患者加权σ值”。为了计算这一指数,“在2周的时间内,从1家机构获得了具有代表性的患者Hb A1c值分布。每个仪器的Sigma值[(TEa - %Bias)/CV]在每个Hb A1c浓度下计算,并在观察到的Hb A1c患者分布上取平均值,以获得患者加权σ值。

对于测量范围在不同水平上质量不同的方法,患者加权SMs应该将患者结果的不同组成与预测这些方法应用中错误结果的数量联系起来。

如果我们在两种不同的患者结果组合中使用相同的方法,产生错误结果的风险将不同。例如,如果一种A1c方法在5% Hb时质量为5西格玛,在7%Hb时质量为3西格玛,用于年轻健康人群的筛查项目,它将做得很好,并且产生很少的错误结果,因为大多数结果将在5左右;方法质量优良的地方。但当用于监测糖尿病患者时,糖化血红蛋白水平在7左右的人,由于该水平的边际质量,产生错误结果的风险将很高。

这个新版本的西格玛度量在方法选择和长期风险监控中都有应用。在方法选择方面,可以使用患者加权σ值来建立购买标准。这意味着当实验室评估购买的新测试设备/套件时,他们可以预测使用该设备/套件将产生的结果的频率分布(基于过去的经验或其他来源),然后,使用Woodworth等人解释的方法,将这些数据与制造商提出的性能声明相结合,以确定患者加权σ值。这样,他们就可以评估产生错误结果的风险。这样,由于所服务的患者群体不同,特定的检测方法可能适合一种环境,而不适合另一种环境。

病人加权σ值的另一个应用是连续质量监测。建立方法后,实验室可以定期检查结果的频率分布,并重新计算患者加权σ值。如果患者加权的σ值越来越差——因为频率分布在变化,所以低质量水平附近的结果数量在增加——也许是时候重新考虑这种测试方法了。我并不是说没有病人加权的西格玛值我们就不能做这样的风险评估。毫无疑问,在不计算患者加权sigma值的情况下,购买方法的初始评估和监测质量的持续评估都是可行的。然而,使用病人加权的西格玛值使这些活动更加客观,因此增加了实践的价值。

尽管提到了潜在的好处,但在交流不同水平产生的结果的可靠性时,有一个重要的警告,即滥用患者加权σ值而不是“特定水平”σ值。例如,假设我们有一种糖化血红蛋白方法,在6%血红蛋白水平下质量为5.5西格玛,在9%血红蛋白水平下质量为3西格玛;假设我们用这种方法产生的95%的结果约为6% Hb, 1%的结果约为9% Hb,剩下的4%介于两者之间。通过这种性能-频率组合,我们将得到一个大于5的患者加权sigma值。但是,抛开优秀的患者加权sigma值意味着“总体”低风险表现,抛开在6% Hb水平附近产生的大量高质量结果,在9% Hb水平附近产生的少数结果是不可靠的。如果我们向医生传达了该方法的优秀患者加权sigma值,并向他/她展示了从5% Hb到10% Hb的几个A1c结果,他/她将高度自信地解释和决定所有患者。但是,如果我们(希望)告知医生不同水平的结果质量水平之间的巨大差异,那么当他/她再次对6% Hb的大量结果做出高度自信的决定时,当他/她面对10% Hb的结果时,他/她不会做出改变患者治疗的激进决定(可能转向胰岛素),而是重新安排测试在更高水平的更高质量的方法。

在个体化医疗的时代,作为风险分析的重要组成部分,我们必须向客户(医生)“披露”伴随任何个体结果的剩余风险的数量。作为一个类似的例子,如果我们在一条只有1公里表面受损的高标准高速公路上行驶,而道路的“整体”质量仍然是世界级的,我们仍然需要了解损坏的位置和损坏的程度;这种做法在现实世界中很常见。我们经常在开车的时候得到这样的信息;在“坏”路段前几公里处,我们看到“小心”标志,提醒我们在受损路段行驶时要小心。同样,这种方法在医疗保健领域也是正确的。如果我们在测量范围的非常低风险部分产生了许多结果,但我们只产生了一个高风险的结果(即质量低),我们应该在患者报告上设置我们自己的“警告”标志,以提醒并警告医生在解释该结果时要小心。使用风险评估语言,这是我们向客户披露重大剩余风险的方式。

在病人加权的σ值之前应该有另一个“谨慎”的标志:它们不应该被用来开发QC计划的方法在不同的层次上达到显著不同的质量。采用这种方法,实验室可能需要采用多级QC设计(4)。多层次的质量控制由不同的计划组成,包括宽松和严格的限制,每个计划适用于不同的质量控制水平(高西格玛水平的宽松质量控制,低西格玛水平的严格质量控制)。为了确定适合任何特定级别的质量控制,从而组成一个多层次的质量控制计划,我们需要特定级别的sigma值;不是病人加权的sigma值。同样,当“个体化”被指出时,“总体”患者加权西格玛值是没有帮助的。

总之,患者加权σ值有一定的效益,当且仅当使用得当;即,在决定购买一种方法时进行初步风险评估,然后在随后的持续风险评估中意识到,当患者人群分布发生变化时,必须更换该方法。但当涉及到“个体化”时,无论是传达不同水平的剩余风险的个体化信息,还是针对不同水平的个体化质量指标,患者加权σ值都不起作用,我们需要针对不同水平的sigma值。

通过提高质量控制的要求,我们不能从一个弱的方法中得到更多!

重要的是要注意,当性能稳定时,QC计划充其量只能提供帮助。QC策略越健壮,其保持性能稳定的能力就越强。无论多么严格的QC策略,都无法弥补方法的不良质量。例如,如果我们购买0.85西格玛方法,这意味着如果校准中没有移位和/或根本没有增加不精度,则该方法在其最稳定的性能下产生40%的错误结果。如果有一个神奇的QC可以让这个方法的性能完全稳定,那么它的错误率可以保持在40%;并防止病情恶化。但是没有任何QC策略,即使是神奇的QC策略,可以将这种方法的错误率降低到39%,更不用说降低到<1%了!
在Woodworth等人的研究中,罗氏Integra 800的σ值为0.85 (TEa为7%时)就是这样一个表现不佳的例子(论文表2)。在最稳定的情况下,Integra 800将产生40%的不可靠结果。Woodworth等人指出“如果在QC事件之间测试的HbA1c患者样本数量设置为10而不是100,那么使用罗氏Integra 800时的最大E(Nuf)[最终不可靠结果的预期数量]将小于1 / 100”,有效地声称增加测试QC材料的频率(即采用严格的QC计划)将使该方法的错误率从40%降低到<1%。显然这个结论是错误的,他们必须修改他们的模型来解决这个问题。0.85为本文计算的患者加权sigma值。如果我们考虑0.5西格玛,即J.O. Westgard在TEa为6%时计算出的6.5% Hb时的点西格玛值,情况就更糟了,虽然该方法完全稳定,但在这个重要的临床水平上产生的62%的结果是错误的!

认证,但质量差!?

Woodworth等人的研究表明,两种NGSP认证的A1c方法(Tosoh G8和Integra 800)不能达到预期的质量,即产生至少95%的in-TEa结果(考虑到Westgard为这些方法分别计算出6.5% Hb时的sigma值为1.5和0.5,这些方法分别产生最多87%和38%的正确结果)。

人们不禁要问,认证方法的质量怎么可能这么低。可能问题出在NGSP作为认证方法的“计数方法”上,如果40个标本中TEa内产生≥37个结果。这种方法在确定偏倚方面的统计能力似乎很低。Woodworth等人的研究有力地证明了NGSP认证方法对一些小于2西格玛值的方法进行了认证;这些性能根本不应该在实验室中使用;NGSP认证方法也证明了一些弱的2到3西格玛方法,尽管“理论上”可以接受,但实际上必须被认为是不可接受的,因为没有适当的统计QC来控制它们。

如果NGSP用回归分析取代其方法,并将所需的样本数量增加到至少100个(类似于CLSI EP 9-A2文件),以获得一个统计上更强大的工具来评估偏差,似乎会更好。此外,NGSP应要求制造商进行可靠的长期不精确实验(如CLSI EP 5-A2文件)。然后,NGSP可以报告sigma值并认证质量≥3 sigma的方法。

有什么意义?

值得注意的Woolworth等人的研究强调了高西格玛方法和更严格的QC策略在降低报告错误结果风险方面的综合作用。虽然目前还没有包括NGSP在内的权威和监管组织基于sigma值对实验室检测方法进行认证,虽然“制造商永远不会忍受商业诊断测试的sigma量表评级”(7),但通过使用制造商可靠的方法验证报告或自己进行方法验证,我们可以计算出不同方法的sigma值,然后选择高质量的方法,如5 sigma或更高。

我们的另一个重要职责是避免单一规模的QC,而是采用科学的QC计划,使用“Westgard QC规则[已可用多年,作为监控QC的指南”。

参考文献

  1. Woodworth A, Korpi-Steiner N, Miller JJ, Rao LV, Yundt-Pacheco J, Kuchipudi L, Parvin CA, Rhea JM, Molinaro R.利用检测性能特征评估血红蛋白A1c结果的可靠性。中国生物医学工程学报(英文版);2014;31(2):379 - 379。
  2. 詹姆斯O.韦斯特加德博士基于风险的质量控制计划:临床化学杂志俱乐部评论。金宝搏188手机app最新下载Westgard网站2014年11月(//www.chin-gon.com/risk-plans-hbA1c .htm)
  3. Sten Westgard。六种HbA1c方法的sigma指标。金宝搏188手机app最新下载Westgard网站2014年11月(//www.chin-gon.com/six-hbA1c -methods.htm)
  4. 韦斯特加德JO,韦斯特加德SA。基本的质量控制实践。Madison WI:Westgard QC, Inc. 2010年第3版
  5. 韦斯特加德JO,韦斯特加德SA。QC的基本规划。Madison WI:Westgard QC, Inc. 2010年第3版
  6. CLSI C24A3。定量测量程序的统计质量控制。临床和实验室标准协会,Wayne PA, 2006。
  7. 在实验室QC中,有多少改进的空间?采访詹姆斯·韦斯特加德博士。病理学/检验医学/实验室管理。2014年10月16日http://www.captodayonline.com

Joomla SEF url由Artio提供