Z-12:相关性和简单最小二乘回归

马德隆·f·扎迪(Madelon F. Zady)撰写。

了解r平方、Pearons产品和其他会让你想要回归的东西。

EdD，助理教授
路易斯维尔大学临床实验室科学专业
路易斯维尔,肯塔基州
2000年8月

散点图和相关性
相关系数
决定系数
简单线性回归或普通线性预测
直线的数学方程
解释散点图
参考文献

上过统计学课或者有过实验室方法评估经验的同学应该熟悉统计关系或相关性，特别是皮尔逊积差相关性。通常称为相关系数或r，它是所有检验医学中最常用的统计量。在本课中，我们将考虑两个度量(数值)变量和r的解释之间的关系。稍后我们将介绍使用相关性来比较两种方法的结果。(参见Westgard, 1999, Basic Method Validation。)

现在，我们将考虑临床化学中常见的相关性——胆固醇值随着年龄的增长而增加。老年患者的胆固醇水平通常比年轻患者高。如果我们要检查年龄和胆固醇之间的关系，毫无疑问，这是很重要的。这种关系最初是如何建立的?最有可能的是，最初的偶然观察，随后的统计检验证明了这一点。

散点图和相关性

如果我们绘制血液中的胆固醇水平(在y轴上)和一个人的年龄(在x轴上)之间的关系，我们可能会看到下面显示的结果。这个图有时被称为a散点图因为这些点分散在某种一般的关系中。从图中我们可以看到一个线性关系——随着年龄的增长，胆固醇浓度也随之增加。这看起来像是一阶关系，即随着年龄的增长，胆固醇的增加是一个可预测的量。两者之间的关系如此密切，以至于知道一个人的年龄(预测因子或自变量)可以帮助推断出他或她的胆固醇水平。标准或反应或因变量）.

这张散点图展示了正相关或正相关因为两个变量的增加方向相同。随着年龄的增长，胆固醇也会增加。如果一个变量增加而另一个变量减少，那就是a负相关或负相关这条线就会下降。

相关系数

我们还可以画出很多其他的关系，例如，吸烟和年龄。我们预计0-16岁的人吸烟很少，16-65岁的人吸烟更多，65-80岁的人吸烟更少。这将不是一个线性关系，所以不是所有的关系都无限期地(或线性地)增加或减少。更重要的是，并不是所有的关系都是牢固的。

年龄和胆固醇这两个变量的相关性到底有多强呢?这个问题可以通过检查来回答相关系数， Rho或r。相关系数表示关联的强度，等级从0到1.00。它没有单位，可以是正的，也可以是负的。下表提供了一个评估相关系数的经验尺度。

相关强度
r的大小	解释
0.90到1.00 0.70到0.89 0.50到0.69 0.30到0.49 0.00 - 0.29	相关性非常高高度的相关性温和的相关性低的相关性几乎没有关联

这里我们谈论的是皮尔逊积矩相关，或r，它是由以下公式计算出来的，它可以从X或Y / X预测Y:

r的代数基是z分数，这个公式表示费雪z变换。您可能还记得计算相关系数的其他公式，例如，另一个计算方法是臭名昭著的“原始分数公式”。一般学生用20分钟左右的时间(用计算器)手工计算出原始分数公式的相关性。然而，计算机可以在几秒钟内完成这项壮举。(请尝试本网站方法验证工具包中的配对数据计算器。)

当我们以这种方式谈论相关性时，我们是在说Y依赖于X，这可能暗示或暗示X导致Y。我们在谈论因果关系时需要小心!两个变量之间的相关性并不总是意味着因果关系，即X导致Y的发生。在X和Y之间可能存在一个或多个变量，例如未检查的变量z。在这个例子中，我们真的不能说年龄导致胆固醇增加。我们都知道，有很多重要的干预变量:基因、运动和饮食等等。而且，在考虑因果关系时，时间序列也很重要，因为为了成为因果关系，X总是要先于Y发生。在我们的胆固醇例子中，这不是问题。但如果我们想说运动导致胆固醇降低，那么我们最好确保我们首先评估病人的胆固醇水平，让他们参加一个运动项目，然后在他们参加这个项目后测量他们的胆固醇水平。

如果我们想用r来表示两种方法的结果比较起来有多接近呢?推测两种葡萄糖方法的结果之间的高度相关性意味着这两种方法具有可比性。那些在方法比较研究中使用统计知识的人会告诉我们，相关系数不是一个万无一失的统计数据，必须仔细解释。任何一组数据，如果所有的点都落在一条线上，就会给出一个高相关系数。如果一种葡萄糖方法始终比另一种方法高50 mg/dl，即使两种方法之间存在严重的系统误差或不准确，结果也会落在直线上，相关系数也会很高。

决定系数

相关系数的平方或r²称为决定系数。我们将在后面的回归分析中研究这个r²。

简单线性回归或普通最小二乘预测

如果我们真的想要一个足够强大的统计测试来预测一个变量与另一个变量之间的关系，或者检查两个测试过程之间的关系，我们应该使用简单的线性回归。回归更能避免任意分配因果关系的问题，因为该过程提供了更多的信息并展示了强度。实际上，我们上面所说的r只是回归统计的一部分。

让我们看看这个预测在回归中是如何工作的。假设我们有两个变量X和y的数据集，我们计算了这两个变量的均值。现在假设我们把所有的Y值放入一个容器中然后从容器中随机抽取一个值。在我们看Y值之前，我们首先要猜这个数是多少。我们应该猜出什么值呢?最有可能的值是什么?Y值的最佳猜测是Y数据的平均值——算术平均值总是一个很好的猜测。但是统计学家们想出了一个更好的方法。另一个变量(X)可以用来近似Y。如果Y依赖于这个X，那么用这种方法估计的Y将比猜测Y的平均值更接近真实Y值。

直线的数学公式

在最简单的形式下，回归本质上就是你在代数初学过的直线公式。从本质上讲，从X预测Y依赖于直线的数学公式。你第一次看到这个公式的时候它是这样的:

Y = mx + b

通常在代数中，学生被要求建立一个x和y值的表，画出这些点的图，并画出穿过这些点的最佳直线。例如，如果y = 2x + 1，表格和图形将显示如下图所示。当x = 0时，y = 1因为mx项出来了[2 * 0 = 0]。在同样的表达式中，b项是1。当x = 0时，y = 1 [y = (2*0) + 1]如果我们观察x轴上的零点，这条线在1号处与y轴相交。我们称这个数字为y截距(或常数)。如果x是大于0的任意数，m项或系数就变得重要了。这里m是数字2。如果令x = 1，那么y等于2加上常数1。 Essentially what this m is telling us is that when x increases by a factor of one, y increases by a factor of 2. There is not 1:1 correspondence. Y is increasing twice as fast as X. And this causes the line to slant upward, so the coefficient m is called the slope of the line.

在回归中，直线方程被改写为y = bx + a。这种术语上的变化会导致混淆。这里a是y轴截距或常数，b是直线的系数或斜率。关于回归的一些警告-在所有统计中都有某些假设:x值是一个真实的度量，x和Y分布都是正态分布，以及均方差，即Y的方差对于每个x值都是相同的。统计学家经常这样写公式:Y = bx + A +e，其中e表示预测误差。

解读散点图

简单回归的目标是在两个变量(X和Y的表值)之间生成最佳线，即与数据点匹配的最佳线。回归使用一个公式来计算斜率，然后使用另一个公式来计算y截距，假设存在直线关系。最佳线或拟合线是使点与线之间的距离最小的线，如图所示。因为有些距离是正的，有些是负的，所以距离是平方的，使它们相加，最好的线是给出最小和或最小二乘的线。出于这个原因，有时会调用回归技术最小二乘分析．

拟合的回归线可以告诉我们x和y之间对应的实际比率。在胆固醇与年龄的情况下，我们不期望一对一的对应。然而，在比较两种不同的分析方法之间的胆固醇结果时，我们需要一对一的对应关系，即，我们希望方法Y给出的结果与方法x大致相同。l:l对应的线应该有一个特定的倾斜，即，这条线应该与x轴成45度角。这条直线的公式斜率系数是1 y轴截距或常数项等于0。如果我们把原来的公式y = 2x + 1画出来，我们会发现y的增长速度是x的两倍，没有l: 1对应，这条线的角度也不是45度。因此，仅通过检验最小二乘回归生成的直线，我们就可以得出一些结论。第13课和第14课将给我们更多关于回归有用性的信息。