医疗保健实验室的工具、技术和培训

基本方法验证

实验室检测的预测价值综述

在之前关于临床一致性的课程中,韦斯特加德博士讨论了实验室测试的预测价值

实验室检测的预测价值综述

James O. Westgard, Sten A. Westgard
2020年5月

在先前的讨论[1]中,我们考虑使用临床一致性研究来评估定性测试的性能。在这种研究中,对一组疾病呈阳性的患者和另一组疾病呈阴性的患者,将新的或候选测试与已建立的或比较测试进行比较。然后将结果制成2x2列联表,如下所示:

比较法“黄金标准”
候选方法(测试) 积极的 总计
积极的 TP 《外交政策》 TP + FP
FN TN FN + TN
总计 TP + FN FP + TN 总计

式中TP =两项检测均为阳性的结果数;
FP =候选方法为正,但比较结果为负的结果数;
FN =候选方法为负,但比较结果为正的结果数;
TN =两种方法都为负的结果数。

查看更多关于COVID-19实验室挑战的故事…
新冠病毒覆盖率:westgard320x50

在本讨论中,我们使用术语真阳性(TP),假阴性(FN),假阳性(FP)和真阴性(TN),因为我们的兴趣是讨论测试的临床敏感性和临床特异性以及阳性和阴性结果的预测价值。

临床敏感性(Se)和临床特异性(Sp)计算方法如下:

临床敏感性= [TP/(TP+FN)]*100

临床特异性= [TN/(TN+FP)]*100

请记住,这些条款对应于前面讨论的2x2意外计算器中的百分比正面协议(PPA)和百分比负面协议(PNA)。不同之处在于,我们现在假设比较方法是正确分类患者疾病状况的“黄金标准”。

可接受的敏感性和特异性

CDC对流感快速诊断检测的可接受性能提供了一些指导,建议它们在检测甲型流感和乙型流感病毒时应达到80%的灵敏度,并建议在比较方法为RT-PCR时必须达到95%的特异性[2]。他们还讨论了流感流行率从2.5%(极低)、20%(中等)和40%(高)不等的情况下的预期检测性能。性能的标准是阳性和阴性测试结果的预测值,也就是说,阳性结果表明存在疾病的可能性有多大,阴性结果表明没有疾病的可能性有多大。这些条件可以通过计算预测价值测试结果。

预测价值

主要性能特征是临床敏感性和临床特异性,但临床有用性的测试取决于预期疾病流行(上)在受测人群中。临床一致性研究中的受试者很少代表将要测试的真实人群。例如,CLSI指南建议50例阳性和50例阴性患者标本,以提供Se和Sp的最低可靠估计,即50%的疾病患病率。如果人群患病率是20%,2%,或者0.2%呢?

病例患病率为20%。例如,假设Se为80%,Sp为95%,根据疾病预防控制中心的传染病检测指南,这将被认为是良好的性能。如果你在一个疾病患病率为20%的人群中测试了1000名受试者,这可能是COVID-19大流行期间纽约市的代表,你会如何解释测试结果?

  • 在我们的测试人群中,200名患者患有该疾病(1000人中的20%),其中80%或160人将给出阳性结果(TP=0.80*200),其他40人将给出假阴性结果(FN)。
  • 800例阴性(1000-200)中,95%或760例(0.95*800)为阴性(TN),其余40例为阳性(FP)。

有了这些信息,我们就可以在列联表中填写数字。

比较法“黄金标准”
候选方法(测试) 积极的 总计
积极的 160 40 200
40 760 800
总计 200 800 1000
  • 个体患者被正确分类的几率由TP与TP+FP阳性总数的比值决定,该比值为160/200或80%,即有80%的几率检测结果呈阳性,将患者正确分类为患有该疾病。
    • PVpositive = TP/(TP+FP) = 160/200 = 80%
  • 个体无病患者被正确分类的几率由TN与TN+FN阴性总人数之比决定,即760/800,即95%。
    • PVnegative = TN/(TN+FN)

病例患病率为2%。现在考虑一下患病率为2.0%的情况,这可能是加利福尼亚州的代表。

  • 20例患病患者(占1000例的2%),TP数为0.80*20 = 16,剩下4例FN患者。
  • 980例无病患者(1000 ~ 20例),TN = 0.95*980 = 931,剩下49例FP。
比较法“黄金标准”
候选方法(测试) 积极的 总计
积极的 16 49 65
4 931 935
总计 20. 980 1000
  • 个体患者被正确分类的几率为TP/(TP+FP)、16/(16+49)或25%。
  • 单个无病患者被正确分类的概率为TN/(TN+FN)或980/(980+4),即99.5%。

在加利福尼亚,这种测试显然更有助于识别没有疾病的患者,而不是识别有疾病的患者。然而,在纽约,阳性检测结果更有可能是疾病的良好指示,而阴性结果仍然有助于排除疾病。在加州,测试结果呈阳性的受试者有大约25%的几率患上这种疾病。在每10名阳性患者中,有7到8人不会患上这种疾病。

交替计算

PVpositive和PVnegative可由Se、Sp、Prev直接计算,公式如下:

PVpositive = Se*Prev/[(Se*Prev) +(1-Sp)*(1-Prev)]

PVnegative = Sp * (1-Prev) / ((1-Se) * Prev + Sp * (1-Prev)]

在这些方程中,Se、Sp和Prev的比例应在0.00和1.00之间。您可以将PVpos和PVneg的数字乘以100以表示为百分比,或者通过将100替换为1并输入Se, Sp和Prev作为百分比来修改方程。许多人发现,通过计算TP数量等步骤进行推理,以更好地理解敏感性和特异性的影响,会提供更多信息。但是,这些公式允许您设置电子表格并轻松研究Se、Sp和Prev的相互作用,以便针对不同场景优化测试的预测值。另外,MedCalc[3]提供了一个在线计算器,可以根据列联表和流行率条目进行所有这些计算。

敏感性和特异性之间的权衡

对于任何诊断试验,都很难达到100%的灵敏度和100%的特异性。有时,通过调整非疾病人群和疾病人群之间的截止值或决策限制,可以优化敏感性或特异性。通常,这包括以牺牲特异性为代价来提高敏感性,或者以牺牲敏感性为代价来提高特异性。

针对流行度优化性能

阳性检测结果的价值随着疾病患病率的增加和特异性的增加而提高。通过对有疾病症状的患者进行检测,选择了较高的患病率人群,当检测有限且疾病诊断至关重要时,这应该是一种有价值的策略。也许通过同时使用两种测试来提高灵敏度也可能是有价值的。这意味着如果两项检测中的任何一项呈阳性,患者将被归类为阳性。有人建议,在症状出现5天后诊断COVID-19,同时检测病毒载量和总免疫球蛋白可能会提高敏感性,即如果其中任何一项检测阳性,则患者患有该疾病。

监控的困难

另一方面,如果对患者进行检测作为监测的一部分,疾病的流行率可能非常低。这种监测可能利用IgG或总IgG检测,目的是确定那些已经接触过病毒并有希望产生免疫力的人。

如果我们假设患病率为0.20%,测试1000名患者,将有2名患者患病,998名患者无疾病。如果该试验的理想灵敏度为1.00或100%,则两例患者均为阳性(TP=2, FN=0)。如果测试的特异性为95%,则有948个TN和50个FP。

PVpositive = TP/(TP+FP) = 2/(2+50) = 3.8%

PVnegative = TN/(TN+FN) = 948/948 = 100%

几乎是违反直觉的是,一个具有完美灵敏度的测试并不可靠地识别出存在抗体的受试者,因为特异性(也很高,达到95%)会导致很多假阳性。只有4%的机会,阳性的测试表明病人有抗体的病毒。另一方面,阴性检测结果几乎肯定意味着受试者没有接触过病毒。但是,如果监测的目的是确定人群中哪些人可能对这种疾病具有免疫力,那么这就不是很有用了!

一个来自AACC博客的例子

在筛查COVID-19抗体时,重复检测阳性有何价值?显然,美国疾病控制与预防中心(CDC)或美国食品和药物管理局(FDA)的一些指导意见认为,阳性抗体测试应该重复进行,以确保其准确性。临床化学家的意见各不相同,有些人认为这是浪费资源,因为做第二次测试不会得到报酬,有些人认为无论如何都不会有任何改善。

应该有一种更客观的方式来解决这个问题。盖伦和甘比诺在1975年出版的著名著作《超越常态》[4]。重要的42-44页,在那里他们描述了一个场景,测试a的Se为95%,Sp为90%,测试B的Se为80%,Sp为95%,疾病的患病率为1.0%。注意,本例假定测试A和测试B是独立的测试,例如,测试可能采用呈现不同结合位点的不同合成抗原。

进行计算的“技巧”是从1.0%的Prev开始,确定测试A的PVpos,然后使用PVpos作为计算测试B的PVpos的疾病患病率。记住,你是在用测试B重新测试测试A中看到的所有阳性结果,这意味着重复人群中的疾病患病率实际上是测试A产生的PVpos。简而言之,你在计算预测值时通过了2次。第一个开始流行率为1.0%,第二个以结果PVpos作为应用测试B的流行率。

测试A的PVpos是8.76%。测试B的PVpos为60.6%。这意味着10个重复检测(A后B)的患者中有6个会真正患病,而10个测试A的患者中只有1个会真正患病。有趣的是,如果重复策略先使用测试B,然后再使用测试A,最终的PVpos仍然是60.6%,重复人群中疾病的患病率将是13.9%,因此需要重新检测的患者会更少。

但是,重复检测的价值确实取决于疾病在原始患者群体中的流行程度,重复检测对低流行程度比高流行程度更有用,如下表所示。

患病率 第一次测试 重复测试
20% 70% 97%
10% 51% 94%
4% 28% 86%
2% 16% 75%
1% 8.7% 61%

同样,针对纽约情况的测试策略(20%)应该不同于针对加州情况的测试策略(2%)。重复测试在加州是必要的,但在纽约不是。

重点是什么?

总之,阳性检测结果的预测值主要取决于特异性,而阴性检测结果的预测值主要取决于灵敏度测试的。这是违反直觉的,但可以分别用假阳性和假阴性结果的影响来解释。当Sp为100%时,没有假阳性。当Se为100%时,没有假阴性。

并行测试(测试A测试B)是一种策略,如果其中任何一项测试为阳性,则将患者分类为阳性,这提高了敏感性并减少了假阴性结果。串行测试(测试A测试B)是一种策略,即只有在两项测试均为阳性时才将患者分类为阳性,这提高了特异性并减少了假阳性结果。还可能需要考虑一些实际问题,例如测试的相对成本、A或B与B或A策略需要重复的测试的相对次数、做出诊断决定所需的时间等。

更让人们对COVID-19检测感到困惑的是,诊断检测的目的是识别患者,这意味着阳性结果是坏消息,但会导致禁闭或治疗,而假阴性结果可能会导致进一步的社区暴露。对于抗体检测,阳性结果是好消息,这意味着患者可能已经产生了免疫力,假阴性可能会限制健康工作者,但假阳性可能会导致回到工作场所并进一步接触社区。

该怎么办?

您可能会发现在Excel电子表格中设置预测值计算器非常有用。使用基于Se、Sp和Prev的公式将这些数字作为0.0和1.0之间的比例输入。如果您想要以%表示结果,那么使用100而不是1来设置方程,并输入Se、Sp和Prev作为百分比。您会发现摆弄Sp值很有趣,并看到它对通过抗体测试进行人口监测的关键重要性。

参考文献

  1. 魏嘉德JO, Garrett PA, Schilling P.定性测试的临床一致性评估:一个用于2x2偶然性测试的网络计算器。www.chin-gon.com/qualitative-test-clinical-agreement.htm
  2. 疾病预防控制中心。流感快速诊断检测:给临床实验室主任的信息。https://www.cdc.gov/flu/professionals/diagnosis/rapidlab.htm
  3. MedCalc。诊断测试评估计算器。4/27/2020访问。www.medcalc.org/calc/diagnostic_test.php
  4. Galen RS, Gambino SR.超越正常:医学诊断的预测价值和效率。纽约:John Wiley, 1975
Joomla SEF url由Artio提供