Z-13:最小二乘回归模型
更多关于散点图,变量独立和依赖,方差解释和未解释,偏差平方和非平方。
EdD,助理教授
路易斯维尔大学临床实验室科学专业
路易斯维尔,肯塔基州
2000年8月
在上一课中,我们看到相关系数可以用来描述因变量和自变量之间的关系,但我们不应该过于依赖这些结果。我们还研究了直线的公式,并了解了如何使用回归在散点图中通过数据绘制直线。从回归中,我们得到了关于那条线的斜率和y轴截距的额外信息,这在比较两种不同分析方法的结果时应该是有用的。
在本课中,我们将更仔细地研究回归中使用的各种术语是如何相互关联的。我们将以经典的方式介绍回归,并推导出关系强度的度量(统计分析中最重要的概念之一)。大部分内容涉及我们反复使用的数学运算。
从X预测Y
在第12课中,我们考虑了一个装满Y值的容器和一个装满X值的容器。我们有机会取出一个Y值,但是我们被要求在事实发生之前猜测这个Y值是多少。最好的猜测是所有Y值的平均值,除非我们有一些额外的信息,比如X和Y之间的关系。回归给我们提供了使用X值来估计相应的Y值的信息。换句话说,我们可以从X预测Y !用X来预测Y,比猜测Y的均值更接近Y。
让我们从这里显示的散点图开始,以形成回归的具体图像。我们将看看实际的Y值和由x预测的Y值。单个数据点显示为X和Y坐标。这些点的y坐标是真Y值。这条线表示Y在X上的回归Y-predicted-from-X值。如果每一个数据点都恰好位于这条线上,那么X和Y值之间就会有完美的相关性。然而,我们在这张图中看到的并不是这样。
从每个数据点向上或向下延伸到直线的线,或点与直线之间的垂直距离,表示错误从X估计Y,或者Y实际值和X预测值之间的差异。的最小二乘回归的方法是基于最小化这些差异分数或偏差分数。偏差分数这个词听起来应该很熟悉。这些都是在前面的课程中讨论过的偏差分数,不同之处在于,现在我们不仅要考虑X的偏差,还要考虑Y的偏差。首先,我们需要做一些数学上的“内务处理”,以使一切保持正常。偏差分数也可以用脚本或斜体表示。
X的偏差= X- xbar = X
Y的偏差= Y- ybar = Y
斜体项也可以相乘。x和y的叉乘是xy,或者x和y的偏差的叉乘。在最小二乘模型中,画一条线来保持偏差分数和它们的平方在最小值。
理解回归模型
为了对正在发生的事情有一个总体的了解,我们将以与以前仅以X为变量时相同的方式处理数学问题。在附表中,我们定义了七列(C1 -7),它们的形式很熟悉,例如,C1, C3和C6列代表我们在前面的课程中对X所做的处理。
C1 | C2 | C3 | C4 | C5 | C6 | C7 |
独立的 变量 |
依赖 变量 |
偏差 X的得分 |
偏差 Y的得分 |
交叉 产品 |
偏差 的平方 |
偏差 的平方 |
X | Y | X-Xbar或x | Y-Ybar或y | xy | x² | y² |
6 | 8 | 1 | 2 | 1 * 2 = 2 | 1²= 1 | 2²= 4 |
7 | 9 | 2 | 3. | 2 * 3 = 6 | 2²= 4 | 3²= 9 |
。 | 。 | 。 | 。 | 。 | 。 | 。 |
年代X | 年代Y | 年代X = 0 | 年代Y = 0 | 年代xy | 年代x²或SSX | 年代y²或SSY |
Xbar = 5 | Ybar = 6 | 一矩皮尔逊相关 | 2日的时刻 |
第1列(C1)显示X为独立变量或者预测变量值。x值的总和用于计算平均值或Xbar,其值为5,如C1底部所示。C3表示单个X值与X均值的偏差或差值,这是一个与前面课程中看到的差值分。该值称为script x或斜体x。(重要的是要认识到,第一组差异分数C3的总和总是等于零。这是皮尔逊“第一矩”)跳到C6,这一列给出了X与X均值之差的平方,而X平方的总和被称为皮尔逊第二矩平方和我们已经见过很多次了。
现在我们将从C2开始对Y进行相同类型的操作,C2显示了Y或因变量即Y和均值。C4表示Y与其均值的偏差得分,同样是Y或y和总是零,在第一时刻。C7表示Y与Y均值的差值的平方,并给出Y平方的和,称为第二矩或SS。C5表示X和Y的叉乘不同的分数或者是x乘以yxy。
计算回归斜率和截距
表中的项用于推导回归的直线公式:y = bx + a,也称为回归方程。斜率b是由数据中与特定X相关的Y来计算的。斜率系数(by/x)等于:
或者使用列:
同样,这些公式表示直线的斜率或直线公式的b: Y = bx + a。为了估计a或Y截距,可以将x和Y的平均值连同计算出的斜率一起代入方程:
其中Ybar和Xbar分别由C2和C1的和计算得到。
几个y和不同的方差
我们需要更仔细地检查因变量Y发生了什么。确实有几个Y需要考虑,它们不是很明显。请记住,散点图显示了代表观测值的实际x、y坐标的点,以及一条来自回归公式的直线。
- 对于每一个X值,都有一个对应的观测或测量Y值,即有一个(具体的、实际的)Y观察(Y奥林匹克广播服务公司)。通常这个Y不在直线上。
- 每个x都有第二个Y,它是在回归线上找到的Y,它也是Y预测从公式y = bx + a。y预测在文献中有几种不同的表示方式:y ', y '或y加上一个名为Yhat的插入符号(^)。这里将使用Y'作为预测的Y。
- 第三个Y是计算得到的Y均值Y分布的均值或Ybar,在本例中,它也将被称为Y均值或Y通用汽车。记住,如果你要预测任意一个Y,最好的猜测是Y分布的均值。
附图显示了的关系几个y。顶部的折线图实际上显示了真实值和观测值(Y)之间的差异奥林匹克广播服务公司)和Ybar,即分布的均值(Y通用汽车)。Y和Y之间的距离奥林匹克广播服务公司和Y通用汽车称为“总”距离或Y总计。在这两个值之间的是Y的值,可以使用X的值从(回归)方程中预测,即Y' = bX + a。从Y'到Y的距离通用汽车是由回归方程解释的,所以称之为Y回归或Y解释(有时也令人困惑)预测)。从Y到Y的“剩余”或无法解释的距离奥林匹克广播服务公司是估计的残差或误差。这些线的相对长度提供了解释和未解释变异的比较。如果从Y'到Y的直线长度通用汽车比从Y'到Y'长奥林匹克广播服务公司那么回归预测Y的效果比猜测Y的均值要好。
无法解释的误差方差和标准误差y / x)
为了给未解释和已解释的变化提供更多的定量术语,我们需要计算更多的平方和,如下表所示。
C8 | 制备过程 | 10大 | C11 | C12 |
Y预测 Y ' |
残差或误差 (Y奥林匹克广播服务公司- Y”) |
剩余的平方 (Y奥林匹克广播服务公司- Y²”) |
Y解释 (y ' - y通用汽车) |
解释方 (y ' - y通用汽车)² |
2 | 4 | 4²= 16 | 1 | 1²= 1 |
3. | 3. | 3²= 9 | 2 | 2²= 4 |
。 | 。 | 。 | 。 | 。 |
。 | 。 | 。 | 。 | 。 |
年代残差或误差 平方和 ESS |
年代回归 平方和 RSS |
第C8列显示了使用回归方程预测的每个特定X的Y值。C9表示观测到的Y和预测到的Y之间的差值。由于这个量不能用回归方程预测,即无法解释,所以这个量称为剩余或误差项。C10表示这个误差项的平方列的和给出误差平方和(ESS)。该方差可用于计算回归线的标准误差y / x),有时也称为残差的标准差或回归线周围各点的标准差:
年代y / x= (ESS / n - 2)1/2= (C10 / n - 2)1/2
其中N-2表示由于先前计算斜率(b)和y截距(a)而损失的2个自由度。
被解释方差和决定系数(R2)
继续发展平方和,C11是预测的Y (Y')减去Y分布的均值(Y通用汽车),即Y解释。C12保存C11中值的平方。C12中所有值的和称为回归平方和,回归SS(RSS),或由回归方程解释的平方和。最后,还有一个平方和需要检查,即总平方和(TSS),表示图中显示几个y的最长线。它等于回归或已解释的平方和加上未解释的残差或误差平方和。
TSS =回归SS +残差或误差SS
(Y奥林匹克广播服务公司可能是通用汽车²= (y ' -y通用汽车²+ (y奥林匹克广播服务公司²- y”)
TSS = RSS + ess
现在我们要定义一个新的项,决定系数R2,即RSS(在回归中解释)除以总SS或:
R2= RSS / TSS
R2让我们看到平方和有多少可以用回归来解释。事实上,我们现在可以讨论“方差解释”,而不是讨论SS或平方和。(然而,记住SS除以N给出方差项)我们现在说:
R2或者r2=(解释方差)/(总方差)
我们可以讨论百分比。我们设R2= 0.95,即X解释的方差与总方差之比为0.95。乘以100得到一个百分比,即95%的方差得到解释。现在,关于我们之前的胆固醇的例子,我们可以说,我们用一个人的年龄来预测胆固醇值比我们用它自己的集中趋势或平均值来预测胆固醇值要高出95%。在方法比较的情况下,方法X解释了方法Y中95%的方差,因变量Y中5%方差的剩余部分不能被X的方差解释,因此是误差。(这个5%来自100%-95%或1.00-0.95。还记得当我们研究小r和小r平方的相关性时,它的最大值是1.00吗?这同样适用于这里。)
这个误差方差也有一种特殊的表示方式。我们重新整理一下公式。
RSS + ess = TSS
RSS = TSS - ess
由于TSS-ESS可以用来代替RSS,通常R2公式是这样的:
R2= rss / tss = (tss - ess)/ tss = 1 - ess / tss
(记住R平方的最大值是1.00)
剩余的或无法解释的方差,也称为威尔克λ,可以写成:
Ess / tss = 1 - r2
在上面的例子中,我们可以用x来解释Y中95%的方差。这样,回归可以帮助我们看到统计关系的强度,或者在因变量中有多少方差被自变量解释。R越大2(直到1.00),回归解释了更多的方差。这就是我们在预测依赖和独立时能做得更好的程度。这个R²是a比例误差减小系数给了我们一个概念影响的大小(ES)的自变量。ES检验优于显著性检验,因为它对样本量(N)的问题不太敏感。
回归中的零假设
通常,用于回归的计算机打印输出将列出一个概率。记住,只要有一个概率,你就需要停下来问自己,检验的是哪个零假设。回归中的Ho为:变量之间不存在线性关系。我们通常想要推翻这个Ho。它是这样表达的:b= 0。现在我们需要解释这个。记住回归公式是:y = bx + a, b是斜率系数。有一种方法可以用z分数来转换b。当这个完成后,b被调用b或者说标准化斜率系数。现在把b代入公式y =bx + a,如果零假设成立b= 0,那么y= (0)x + a, y和x之间没有线性关系,实际上y=a,或者一直是常数。通常我们想要找到一段牢固的关系。下节课我们将会看到更多这样的关系。
参考文献
- Kleinbaum, d.g., Kupper, l.l.和Muller, k.e.(1988)。应用回归分析和其他多变量方法,第2版。波士顿,马萨诸塞州:肯特。
- Tabachnick, b.g. & Fidell, l.s.(1996)。使用多元统计,第三版。纽约,纽约:HarperCollins。