医疗保健实验室的工具、技术和培训

基本方法验证

对还是错?您可以验证定性方法

是的,您可以验证定性方法的性能。不,你不会进行与定量方法相同的统计研究。积极的一面是:定性测试的研究减少了。消极的一面是:它们更难设置和解释。

定性试验性能的验证

James O. Westgard和Sten A. Westgard
2021年6月

大多数实验室分析人员在验证定量测试的性能方面经验丰富,并为此制定了标准操作程序(SOP)。他们不太可能有sop来验证只提供二元结果、是/否、肯定/否定答案的定性测试。首先,我们将定量测试的验证过程和实验与定性测试的验证过程和实验进行比较,以了解二元测试结果中的精密度和准确性,检测限和截止区间的分析灵敏度以及交叉反应性和干扰的分析特异性的含义。

随着最近的COVID-19大流行,引入了许多新的定性检测,包括用于疾病诊断的聚合酶链反应和抗原检测,以及用于跟踪疾病进展和评估免疫力的抗体检测。我们将使用这些测试来说明这里的概念和原则的应用。

定性试验的验证

定性测试以是/否答案或肯定/否定结果的形式提供二元结果。验孕棒就是二进制输出的一个很好的例子。结果是病人怀孕了,或者没有怀孕,没有一点怀孕的可能。血库筛选试验也提供阳性/阴性结果,但通常使用截止值将内部连续响应转换为二进制结果。内部连续响应的存在意味着有可能应用一些用于定量测试方法的实验。对于那些只有二元响应的,需要进行不同的实验和数据分析。“良好实验室规范”的重要指导性文件之一是CLSI EP12[1]。CLSI正在修订本指南的最新版本,当第三版出来时,请获取它。

定量测试与定性测试的性能特点

首先,我们需要根据所使用的测量尺度来区分不同类型的测试:

  • 具有连续响应的定量测试在可报告的范围内提供数值结果;
  • 具有内部连续响应(ICR)的定性测试,通过使用截止(CO)来提供二进制结果,将其转换为二进制结果;
  • 直接产生二元结果而没有任何内部连续响应的定性测试;
  • 从不连续的内部响应(离散Ct值,分子测试的阈值循环数)产生二元结果的定性PCR测试。

下表显示了如何从实验研究中确定这些不同类型测试的性能特征。左边显示了定量方法的方法。通常,分析灵敏度由检测限(LoD)实验评估,精密度由重复实验评估。线性实验表征了性能有效且结果可报告的浓度范围。为“法线”建立一个参考范围,以帮助解释测试结果。准确性是通过方法实验的比较来评估的,准确性是通过包括重复实验的影响来估计的。利用回收率和干扰实验来评价该方法的分析特异性。

性能特点

定量测试

战只有几

QuaL +/-二进制

8 + /多聚酶链式反应

分析灵敏度

检测极限Exp (LoD)

LoD

LoD或

截止

时间间隔

C5到C95

C95

如LoD

精度

复制实验

复制

可报告的范围

线性经验

截止

时间间隔

C5到C95

参考范围

正常值研究

真实

偏见

方法比较

临床一致性研究

临床一致性研究

临床一致性研究

的准确性,

总误差

比较+复制

分析特异性

复苏经验

交叉反应性

交叉反应性

交叉反应性

干扰实验

干扰

这里的实验没有按照定量测试的典型顺序进行,因为这里的目的是展示这些实验与定性方法所需的研究之间的关系。对于具有内连续响应(ICR)的定性试验,可以用传统的方法估计分析灵敏度和精密度。由于这些实验关注的是低浓度,因此LoD实验也可以表征精度。注意,定量测试的多个特征被减少为定性测试的几个特征。例如,当存在仅依赖于截止值的二进制结果时,可报告范围和参考范围几乎没有相关性。然而,截止区间对于描述二元检验中的不确定性是至关重要的。CLSI EP12将这个区间描述为“不精确区间”,其中C50是导致50%阳性结果的浓度。C5表示5%结果为阳性的浓度,C95表示95%结果为阳性的浓度。准确性的特征减少到临床一致性研究加上分析特异性的实验,这可能涉及对特定干扰的研究,但更普遍地关注交叉反应性。因此,有三个特征来描述定性测试的性能。

  • 精密度(分析灵敏度)即以截止区间的不确定宽度即不精确区间为特征,或以LoD作为截止时的检测极限为特征。
  • 精度其特点是新试验与比较试验或与患者的诊断分类比较的临床一致性。
  • 分析特异性专注于干扰和交叉反应性研究。

如果您查看根据原始FDA紧急使用授权(EUA)发布的任何新COVID-19测试的性能声明,通常只提供很少的信息。2020年5月4日,FDA更新了EUA血清学检测指南[2]。在检测限或截止区间方面,仍然很少强调分析灵敏度,但临床协议研究对更多真实患者标本的需求增加,对交叉反应性研究的指导更多,如果测试提供IgM和IgG的单独估计,则具体要求证明类别特异性。传统的510k工艺需要更广泛的研究。对于寻求确保患者安全的实验室,仍然需要进行这些验证研究。

FDA指南符合这里描述的实验研究的一般框架,但在大流行期间,主要重点是临床协议研究。要求对LoD提出索赔,但对该数据的实验设计和统计分析的关注较少。交叉反应性最初通常是通过计算机评估相似和相关的结构来处理的,后来的指导方针为实验研究提供了更具体的要求。总而言之,这对许多实验室来说是一次学习经验。随着“紧急使用”时代的结束,我们应该期待通过检查和认证施加更严格和定义明确的验证指导方针。

二进制数据-什么计算是有用的?

定性测试结果的二元性限制了实验研究。我们区分了不同类型的定性方法,基于是否存在内部连续响应(可能在免疫测定如ELISA的情况下),只有二进制输出(侧流测定),或离散的数值响应,如RT-PCR测试的阈值周期值(Ct)。

抛硬币为处理二元响应提供了洞察力。掷硬币的结果要么是正面,要么是反面。如果你做一个重复实验,抛一枚硬币20次,你预计结果会是10次正面和10次反面。你可以将结果描述为20次正面中有10次,或者检出率为0.50%或50%。对于20次投掷,你也可能最终得到8次正面和12次反面,“命中率”为0.40或40%,或者13次和7次(0.65或65%),等等。对于20个重复的小型实验,该比例预计为0.30至0.70(95%置信度)。对于大型实验,例如10,000次投掷,结果的比例将更接近于理论期望的0.50(范围从0.49到0.51)。

为了评估定性测试的准确性,临床一致性研究使用百分比阳性一致性(PPA)来表征临床敏感性,百分比阴性一致性(PNA)来表征临床特异性。CLSI EP12建议将其与95%置信限一起以百分比表示[1]。

为了精确起见,可以把抛硬币看作是一个复制实验。结果的可变性取决于测试的随机误差,这也可以描述为测量的不确定度。鉴于测试只提供阳性或阴性结果,不可能计算平均值和SD。随机误差的影响仍然存在,但它们通过在截止区间范围内将患者结果分类为阳性或阴性的不确定性来证明。截止区间的C50是对患者检测结果进行二元分类的医疗决策水平。

比例如何描述精度?

我们通常用正态曲线来考虑精度或变化,正态曲线是用均值和标准差来描述的。但是我们不能计算二值结果的均值和标准差。相反,正结果的比例可以用来描述正态曲线的累积概率分布,如下所示。记住,我们通常讨论的是正态曲线下一半观测值在平均值一侧的面积,68%在平均值+/- 1个标准差之间,95%在平均值+/- 2个标准差之间。描述相同信息的另一种方法是表示与sd数有关的总观测值或累积观测值。例如,我们预计将有2.5%的观测值达到平均值-2.0 SD, 16%达到平均值- 1.0 SD, 50%达到平均值,84%达到平均值+ 1 SD, 97.5%达到平均值+ 2 SD。

2021定性验证图1

这里的关键思想是随机变化或不精确,可以用正态曲线或高斯曲线的累积分布函数来表征。与通常的对称正态分布(由均值和标准差计算)不同,累积分布是一条s形曲线,它显示了正态分布从低端到高端累积的阳性结果的比例或阳性结果的比率。通过计算沿正态曲线某些位置的比例,我们可以描述二元测量过程的随机变化。最重要的应用是描述检测限和/或对阳性和阴性结果进行分类的截止。

使用实例当Cutoff = LoD时的精确间隔

检测限(LoD)可以按照下面描述的定量方法确定。对空白样本进行20次重复分析,根据平均值和SD计算空白限(LoB),如下:

平均黑色+ 1.65 sd黑色

接下来的20次重复被确定为低阳性样本,即平均值pos和SDpos,计算出检测限(LoD),如下所示:

LoD = LoB + 1.65 SDpos

下图展示了在LoD等于CO的情况下,具有连续内部响应(上半部分)的测试与仅具有二进制输出(下半部分)的测试的对比。

2021定性验证图2

对于ICR检验,确定空白样本和低阳性样本的均值和标准差,并根据上述方程计算LoD。对于只有二元结果的检验,确定C5、C50和C95浓度下重复测量的阳性比例,以表征概率分布。

同样,这里的重要思想是,累积概率分布为评估截止点测试的不确定性提供了另一种方法。不是通过分析重复来确定平均值和标准差,而是通过分析重复来确定阳性比例、阳性率、检出率或“命中率”。然后,这些结果表征了累积分布,该分布描述了在截止极限处患者分类的变化或不确定性。

精度,检测极限,截止时间

这三个特性-精度,检测限(LoD)和截止(CO)间隔-是非常相互关联的。测试的预期临床用途可以通过选择截止来驱动优化。LoD可能是将患者结果分类为阳性或阴性的截止值,以最大限度地提高检测的灵敏度(Se)。有时将截止值设为高于LoD,以提高检测的特异性(Sp)。这也可以被认为是使用定量限制(LoQ)来限制假阳性结果。LoQ表示在规定的性能水平下的最小可检测浓度,例如,在10% CV或总误差为20%的情况下。该概念有助于理解通过分析浓度为C50±20%的标本来验证截止区间,其方法CV应近似为10%。

将COVID-19的诊断性RT-PCR检测与可用于人群监测的抗体检测进行对比是很有趣的。分子PCR检测的分析能力可以提供高分析灵敏度和高分析特异性,但临床性能可能受到许多分析前和采样变量的限制,特别是难以获得可靠的标本。最终结果是,该检测可能具有较低的临床敏感性,这意味着将会有假阴性结果的患者继续传播病毒。

对于抗体检测,阳性检测结果是一个很好的结果,因为这意味着对COVID-19疾病具有免疫力(这是假设的,但尚未得到证实)。检测结果为阳性的受试者被认为是安全的,而检测结果为阴性的受试者可能需要限制。在这种情况下,假阳性结果会导致一种危险的情况,即受试者被认为是安全的,但仍可能被感染或将疾病传染给他人。

在这两种情况下,优化截止点都是至关重要的,但目标是不同的,而且是相反的。对于RT-PCR来说,将截止点设置在接近LoD的位置是有用的,但是将截止点设置在LoD以上将是抗体测试的更好策略。关键是要有关于检测限和截止间隔的信息来优化二进制测试的性能。尽管FDA似乎对lod和截止时间比对临床协议更感兴趣,但实验室需要这些信息来了解正在实施的测试的性能。

截止间隔验证

本试验需要对照材料,但也可以使用适当的患者样本或样本池。制造商通常在测试中提供阳性和阴性对照,但重要的是在可能的情况下包括独立对照。一个问题是,阳性对照有时非常、非常、非常阳性,而至少需要有一个对照接近检测极限或截止间隔。对于LoD的测定,空白样品需要分析至少20次才能确定平均值和SD。然后,对弱阳性样本进行20次分析,以确定其平均值和SD。为了表征截止时间的间隔,CLSI EP12指南建议在C50、C50 - 20%和C50 + 20%的浓度下制备3种溶液。这些溶液应在5天的时间内进行分析,在每种浓度下获得20至40个重复结果。第一个目标是确认C50解决方案接近不精确区间的中间。第二个目标是确认间隔的宽度在C50±20%以内,这意味着CV约为10%,通常被认为是良好的性能。

解释检出率。阳性结果的比例应在10至40次重复分析中确定,在截止点附近至少有3个浓度。数据可以通过检出率或“命中率”来总结。结果可以通过与预期阳性或阴性数的置信限的比较来解释。请参见下表,了解截止区间内不同比例可能期望的复制数的上限和下限。例如,如果在C50的中间隔浓度下分析20个重复,预计阳性的少则6个,多则14个。如果在截止区间(C95)结束时分析40个样本,则阳性数字应在35至40之间。

Cutoff (CO)间隔时间

比例

重复数

阳性结果数量少

大量的积极结果

C5

0.05

20.

0

3.

40

0

5

这件

0.25

20.

1

9

40

5

15

0.50

20.

6

14

40

14

26

C75

0.75

20.

11

19

40

25

35

C95

0.95

20.

17

20.

40

35

40

对于实验室开发的测试,应该记录完整的截止时间间隔。这通常被描述为C5-C95间隔。C5为仅5%阳性的浓度,C25为25%阳性,C50为50%阳性,C75为75%阳性,C95为95%阳性。一些浓度应该通过20到40次重复来分析,以记录截断间隔的s形曲线。更详细的讨论和示例参见CLSI EP12[1]。

对于核酸扩增试验(NAAT),实验和数据分析更为复杂。CLSI EP17-A2[3]建议使用概率计算来确定检测截止的上限(C95)。我们在本网站上的其他讨论中审查了这一建议。

我们打断这个讨论....

按照讨论的逻辑顺序,接下来的主题已经在这个网站上的文章中涵盖了,所以我们将在这里引用它们,而不是重复它们。对LoD和probit分析的进一步讨论在另外两篇文章中提供,这些文章将“probit分析”的使用追溯到研究杀虫剂有效性的农业科学家,即“杀虫率”作为剂量的函数。这与医学测试应用中使用的术语“命中率”有关。另一个主要主题是临床一致性研究,我们之前已经发布了关于临床敏感性(Se)和特异性(Sp),或阳性一致性百分比(PPA)和阴性一致性百分比(PNA)的讨论。然后讨论阳性结果的预测值(PVpos, PPV)和阴性结果的预测值(PVneg, NPV)。我们认识到Se和Sp是定性测试的主要性能特征,但强调在感兴趣的人群中疾病的患病率对于确定测试的医学有用性至关重要,这是由其预测值描述的。Se、Sp、Prev、PVpos和PVneg之间的相互关系使用简单的Excel计算器说明,这为理解定性测试的性能提供了有价值的学习工具。我们还提供2个在线计算器供您使用。最后,还有“分析特异性和交叉反应性”这一主题,这里将对其进行简要讨论,并给出一些强调要点的结论性思想。

检测极限与概率分析

韦斯特加德JO,韦斯特加德SA。概率分析1:确定检测限的实际应用。www.chin-gon.com/probit-part-one.htm

韦斯特加德JO,凯里RN。概率分析2:检测验证限的问题。www.chin-gon.com/probit-part-two.htm

临床一致性研究

魏嘉德JO, Garrett PA, Schilling P.定性测试的临床一致性评估:一个用于2x2偶然性测试的网络计算器。www.chin-gon.com/qualitative-test-clinical-agreement.htm

临床协议计算器:http://tools.westgard.com/two-by-two-contingency.shtml

韦斯特加德JO,韦斯特加德SA。实验室检测的预测价值综述。www.chin-gon.com/predictive-value.htm
预测值计算器:http://tools.westgard.com/predictive.shtml

分析特异性和交叉反应性

鉴于目前有一个由7种冠状病毒组成的家族,将SARS-CoV-2病毒与其他病毒区分开来的能力将是至关重要的,特别是在流感季节,其他病毒预计会流行。对于NAAT, FDA将接受一个insilico(计算机)交叉反应性评价。对于抗体测试,预计大多数50岁以上的成年人都接触过其他冠状病毒,因此可能已经有了这些病毒的抗体。由于这些原因,需要检查分析特异性,特别是与其他病毒的交叉反应形式。

在抗体检测方面,FDA建议检测2019年12月之前获得的75例患者标本[3]。如果临床特异性≥98%,则不需要进一步检测特异性病毒。如果没有,那么FDA建议测试5个患者样本,每个样本都有以下病毒:

  • 抗流感A (IgG和IgM)
  • 抗流感B (IgG和IgM)
  • 抗hcv抗体(IgG和IgM)
  • 抗hbv (IgG和IgM)
  • 抗流感嗜血杆菌(IgG和IgM)
  • 抗229e(甲型冠状病毒)
  • 抗nl63 (α冠状病毒)
  • 抗oc43 (β冠状病毒)
  • 抗hku1 (β冠状病毒)
  • 安娜
  • 抗呼吸道合胞病毒(IgG和IgM)
  • 抗艾滋病毒

此外,FDA建议区分IgG和IgM的测试应该建立类别特异性。“一种推荐的方法是用二硫苏糖醇(DTT)处理样本,这样最终的IgG结果不会受到影响,最终的IgM信号会降低或为阴性。”两种抗体均呈阳性的5份样品应一式两份检测,100%符合预期结果应建立抗体类别特异性。

有什么意义?

定性测试产生二元结果,是/否,肯定/否定的答案。有些实际上提供内部连续响应信号,该信号作为信号截止比的函数转换为二进制结果。对于具有内部连续响应的试验,可以用与定量试验相同的方式验证某些特性,如检测限。此外,截止可以优化,以最大限度地提高灵敏度或特异性的测试。

分析灵敏度与检测限(LoD)有关。精度与由于截止区间(CO)的不精确而导致的分类的不确定性有关。LoD和CO可能是相同的,因此这些特征及其验证是相互交织的。对于二进制输出,它们通过复制类型的实验进行评估,结果数据显示为计数、“命中率”、比率、比例和百分比。性能也可以用正态曲线的概率分布来描述,例如C5, C50, C95,其中浓度代表5%,50%和95%的概率或阳性率。验证研究可能不太关注LoD或CO,但它们很重要,特别是对于临床敏感性和临床特异性往往取决于CutOff的ELISA型分析。

准确性涉及临床分类的正确性和对交叉反应性和干扰的分析特异性。验证性研究强调临床一致性研究。随着COVID-19患者越来越普遍,所需的标本数量也在增加。截至2020年5月,FDA建议30个阳性和75个阴性,而CLSI EP12指南为50个阳性和50个阴性。阴性标本通常取自2019年12月之前(COVID-19之前)储存的回收标本。

主要临床特征是该检测的临床敏感性(Se)和临床特异性(Sp),通常也称为阳性协议百分比(PPA)和阴性协议百分比(PNA)。对于用于诊断的分子测试,FDA建议Se至少为80%,Sp至少为95%。对于用于监测的抗体测试,FDA建议Se最低为90%,Sp最低为95%。

测试的医学用途取决于它的预测价值,即预期的概率或正确的机会。预测值是受测人群中硒、Sp和疾病患病率(Prev)的函数。估计预测值对于理解测试的实际有用性至关重要。例如,一项检测的阳性预测值(PPV、PVpos)为80%,意味着10名阳性患者中有8名将患有该疾病。20%的PPV意味着10个结果呈阳性的受试者中只有2个会患病。

对于用于诊断的分子测试,阳性测试意味着禁闭和治疗,而假阴性结果将危及他人。阴性预测值(NPV, PVneg)应该很高,这取决于测试的高灵敏度,以限制假阴性。

当需要患者出现症状才能进行检测时,这就造成了诊断检测的高流行率应用。这增加了阳性检测结果的机会,减少了假阴性结果的数量,最大限度地提高了NPV。有一些建议认为,在症状出现一周后,通过同时使用分子测试和IgM抗体测试,诊断敏感性可能会提高,其中如果TestA或TestB阳性,则将患者归类为阳性。这种并行测试(A或B)增加Se。

对于用于监测的抗体测试,阳性测试可能意味着返回工作场所(假设抗体保护防止再次感染),在这种情况下,假阳性结果可能危及个人和其他人。PPV应该很高,这取决于测试的特异性,以限制假阳性。

在低流行人群中,抗体检测的一个好策略是用第二种独立的方法重新检测阳性结果。这种策略,即TestA和TestB都必须是阳性的,最大限度地提高了特异性,减少了假阳性,提高了PPV。

参考文献

  1. 张建军,张建军,张建军,等。定性测试性能评价用户协议。临床和实验室标准研究所,西谷路940号,1400室,韦恩,宾夕法尼亚州,2008年。
  2. 美国卫生与公众服务部美国食品和药物管理局在突发公共卫生事件期间对冠状病毒病-2019诊断测试的政策:对临床实验室、商业制造商和食品和药物管理局工作人员立即生效的指导。2020年5月4日。https://www.fda.gov/media/135010/download
  3. CLSI EP17-A2。临床实验室测量程序检测能力的评价。临床和实验室标准研究所,西谷路940号,1400室,韦恩,宾夕法尼亚州,2012年。
Joomla SEF url由Artio提供