本章小结
一元线性回归(掌握)
回归方程及估计(经验)的回归方程(掌握)
参数的最小二乘估计一最小化残差平方和(掌握)
回归方程的拟合优度: 和估计标准误差(掌握)
回归模型的显著性检验(掌握)
回归方程总体的显著性检脸(线性关系检验,或 F 检验)
回归系数的显著性检验(回归系数检验,或 t 检验)回归系数的区间估计(掌握)
利用回归方程进行估计和预测(理解)
点估计:个别值的,点估计、平均值的点估计
区间估计:平均值的置信区间估计、个别值的预测区间
相关和回归分析是用来度量数值型自变量和数值型因变量之间关系的分析方法。
相关分析
相关关系是指变量之间存在的不确定的数量关系。这种关系与函数关系最大的区别是一个变量的取值不能由另一个变量唯一确定。
相关是考察两个变量是否存在共同变化的趋势
两个变量共同变化的趋势在统计中用共变异数(covariance)来表示,即变量 A 的取值从低到高变化时变量 B 是否也同样发生变化。
线性相关关系的度量
相关系数(correlation coefficient)是根据样本数据计算的度量两个变量之间线性关系强度的统计量。可以根据计算数据来源分为总体相关系数()和样本相关系数()。线性相关系数的计算方法为:
线性相关系数也叫做 Pearson 相关系数。分子中 又叫做共变异数,通过对共变异数的标准化处理来得到 r
相关系数的性质如下:
- 对称性
- 数值大小与 x 和 y 的原点及尺度无关
- 仅仅是线性关系的度量
- 不能作为是否存在因果关系的判断依据。
相关关系的显著性检验
作为 的近似值,会受到抽样波动的影响,因此我们 一般认为是一个随机变量,因此有必要进行显著性检验。
r 的抽样分布受到总体相关系数和样本量的影响,只有当非常接近 0 且很大时,才能认为是接近正态分布的随机变量。
对的显著性检验主要依据 R. A. Fisher 提出的 t 检验方法:
- 提出假设
\begin{equation*} H_0:\rho=0, H_1:\rho \ne 0 \end{equation*}
- 构造并计算检验统计量:
- 进行决策,如果,则拒绝原假设,表明两个变量之间存在显著线性关系。
一元线性回归
相关分析的目的在于使用相关系数测量变量之间的关系强度,回归分析注重考察变量之间的数量关系。
回归分析是高尔顿在研究子代的平均身高有向中心回归的问题时提出的,是对变量的相关关系在平均意义下的定量关系表达式进行建模的一种统计分析方法。
回归分析解决的问题:
- 因变量与若干个自变量的数学关系式
- 对关系式的可信程度进行检验
- 对自变量对因变量影响的显著程度进行计算
- 度量预测或者估计的可靠程度
回归模型
一元线性回归模型中,y 是 x 的线性函数再加上误差项:
针对这一模型的主要假设:
- 线性关系假设:y 与 x 具有线性关系
- 独立性:对于一个特定的 x,它对应的 y 或者误差项是和其他 x 值所对应的 y 或者误差项是不相关的。
- 零均值:误差项是一个期望值为 0 的随机变量,这个假设意味着预测 y 的期望值, 即假定模型的形式为一条直线
- 同方差:对所有的 x 值,误差项的方差都相等,这也是说预测值 y 的方差是。
- 正态性:观察值 y 服从正态分布,因此,误差项是一个服从正态分布的随机变量,即
回归方程
考虑到回归模型中均值为零,因此 y 的期望值, 描述因变量 y 的期望值如何依赖 x 的方程就是回归方程(regression equation),一元线性回归方程的形式为:
实际应用过程中,总体回归参数和是未知的,必须利用样本数据进行估计,通过样本数据估计回归方程中的未知参数的得到的回归方程叫做估计的回归方程(estimated regression equation),一般写作:
其中两个参数为回归方程两个参数的估计量,一般采取最小二乘估计进行计算,这里不加证明地给出参数的估计量:
截距的估计量为:
可以证明,最小二乘法得到的估计量是总体参数的无偏有效一致估计量(见文末)
拟合优度度量
拟合优度(Goodness of Fit)是指回归直线和各观测点的接近程度,为说明直线拟合优度,可以计算判定系数或者估计标准误差。
拟合优度实质上说明的是回归模型在多大程度上解释了因变量取值的差异。
判定系数
与方差分析类似,将 y 取值的波动分解:
两边平方求和导出误差项:
借助最小二乘法求解时的正规方程组可以证明交叉项之和为零;上述式子也可以写作:
关于误差的自由度的问题这里做一个特殊说明,一般来说,统计量的自由度是样本容量和限制条件的差,这个可以用来解释 SSE 的自由度为什么是 n-k-1,SST 的自由度是 n-1。除此以外,自由度也是值一个随机向量的自由的维数,也就是该向量能被完整描述的最少标准单位向量数,对于样本观察值, 其实可以看成是 k+1 个维度的向量的线性组合,故的自由度是 k+1, 但是因为在计算 SSR 时要考虑,故 SSR 损失了一个自由度,自由度为 k。
接着定义回归直线的判定系数(coefficient of determination),记为,用回归平方和占总平方和的比例表示:
越接近 1,拟合程度越好。
一元线性回归中的相关系数 r 实际是的平方根,正负取决于一次项的回归系数。
在实际运用过程中,我们发现可以通过增加解释变量的个数来增大判定系数,为了解决这个问题对判定系数进行适当修正:
\begin{align*} R_{a}^2&=1-\frac{SSE /(n-k-1)}{SST /(n-1)}\\ &=1-(1-R^2)\times \frac{n-1}{n-k-1} \end{align*}
估计标准误差
估计标准误差(standard error of estimate)就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根:
SSE 的自由度是 n-k-1,对于多元回归模型,回归方程中参数的估计值有 k+1 个(k 个解释变量加一个截距),相当于给 SSE 增加了 k+1 个约束条件,因此自由度为 n-k-1。
另外需要注意的是,其实是回归方程中的无偏估计量,反映的是 y 随机波动的大小。
显著性检验
拟合优度反映的是我们用建立的回归方程进行估计或者预测时的精度(回归模型多大程度上解释了因变量取值的差异),除此以外我们还应对建立的回归方程是否能真实反应和的相关关系进行检验(样本数据是否能真实反应变量之间的关系)。
回归分析的显著性检验主要包括线性关系检验和回归系数检验两部分内容。
线性关系检验
线性关系检验主要是检验自变量与因变量之间的线性关系是否显著,一般通过构造 F 统计量进行检验, 这里以一元线性回归为例进行说明:
- 提出假设:
- 构造 F 统计量(茆书 402):
- 根据 F 的值做出决策,这里进行简单说明:线性关系越强,随机误差和 SSE 就越小,即构造的 F 统计量会越大,越应该拒绝,这也决定了我们的假设检验应该是一个右侧检验:
若,则拒绝,认为两个变量线性关系显著。
回归系数的检验
回归系数的检验某一自变量对因变量影响的显著程度,需要强调的是这样的检验只是对线性关系的检验,这里需要与前边总体线性关系区分开的是这里所说的检验是指因变量与某一个自变量之间的线性关系的检验,这两种检验方式的差异会在多元线性回归中看到明显区别。
估计回归方程中的回归系数是根据抽烟数据计算得到的,因此回归方程中的回归系数()可以视为一个随机变量,也都有自己的分布.
统计上可以证明,回归系数服从正态分布,均值为,标准差为:
其中是误差项的标准差, 然后用的估计量代替未知的可以得到的标准差:
这样就可以构造回归系数的 t 统计量:
接着可以提出回归系数的显著性检验为:
- 提出检验:
- 计算检验统计量 t
- 做出决策:
则拒绝, 即 x 与 y 之间存在着显著的线性关系。
区间估计
根据的分布情况,我们也可以得到它对应的区间估计:
使用回归方程对因变量进行估计和预测
这部分主要涉及的是对建立的回归模型对现实的解释能力,主要包括个别值预测和平均值预测,估计方法主要涉及点估计和置信区间估计,因为置信区间估计会涉及点估计取值,因此这里直接给出置信区间的估计。
个别值预测:
平均值预测:
对于同一个 x, 平均值的点估计(记为)和个别值的点估计是一样的,而两者的方差是不一样的,因此两者的区间估计是不同的。
两种值的点估计值都是
区间估计
对 y 的区间估计有两种类型:
- 对 y 的个别值的取值进行估计是预测问题,得到的估计区间叫做预测区间(prediction interval)。
- 对 y 的平均值进行估计是估计问题,对应的估计区间叫做置信区间(confidence interval)。
预测区间估计
对于一个给定的,对因变量 y 的个别值的估计区间为(的置信水平下):
置信区间估计
对于一个给定的,对因变量 y 的平均值的估计区间为(的置信水平下):
通过计算结果可以发现,预测区间的宽度会比置信区间的宽度大。
残差分析
残差分析是指对回归模型中的残差的假设是否成立的检验方法之一。
**残差(residual)**是因变量的观测值与预测值之间的差值,用表示。
残差图
绘制残差图是进行残差分析的一个重要方法,一般可以绘制关于 x 的残差图(以 x 为自变量,为因变量)、关于的残差图
正态性检验
正态性的检验可以通过对标准化残差的分析来完成**。标准化残差(standardized residual)**是残差除以它的标准差后得到的数值,也称为 Pearson 残差或者半学生化残差,用表示。
接着就是针对标准化残差进行的正态分布的检验
多元线性回归
多元线性回归模型与一元类似,只不过相比之下自变量更多,且自变量之间可能存在共线性。
对于多元回归模型来说,在解释回归系数的含义时,一定要记得强调是在其他自变量的值不改变的情况下,的变化会引起的预测值的变化。
多元线性回归模型
多元回归方程(multiple regression equation):
多元线性回归模型的矩阵表示方法见文章多元线性回归
估计的多元回归方程
多元回归方程也通过最小二乘进行估计,利用样本值对参数进行估计得到估计的多元回归方程:
拟合优度
拟合优度检验与一元完全一致,这里不再赘述。
显著性检验
线性关系检验
检验因变量 y 与 k 个自变量之间的线性关系是否显著,也称为总体显著性检验:
提出假设:
\begin{align*} H_0:\beta_1=\beta_1=\dots=\beta_k=0 \\ H_1:\beta_0,\beta_1,\dots=\beta_k\text{至少有一个不等于0} \end{align*}
计算检验统计量 F:
作出统计决策:
,拒绝原假设;
,不拒绝原假设;
回归系数检验
提出假设:
\begin{align*} H_0:\beta_i=0 \\ H_1:\beta_i\ne 0 \end{align*}
计算检验统计量 t:
其中:
作出统计决策:
,拒绝原假设;
多重共线性
回归模型中自变量个数大于 1 个时,可能存在两个或者两个以上的自变量彼此相关,这个时候称回归模型存在多重共线性。
多重共线性可能会使得因变量与特定自变量的线性关系不显著,甚至还有可能导致参数估计值有正负号的变化
多重共线性出现的原因有以下几种:
- 经济变量之间存在较为密切的关系
- 经济变量之间存在相同的趋势
- 模型中引入滞后变量容易产生多重共线性
如果出现下列情况,暗示存在多重共线性:
- 模型中各对自变量之间显著相关
- 当模型的线性关系检验(F 检验)显著时,几乎所有回归系数的 t 检验却不显著
- 回归系数的正负号与预期的相反
- 借助构造的统计量容忍度(tolerance)与方差扩大因子(variance inflation factor,VIF)
某个自变量的容忍度等于 1 减去以该自变量作为因变量,对其它 k 一 1 个变量进行回归得到的判定系数。
计算公式:
容忍度越小,多重共线性越严重。
通常认为容忍度小于0.1时,存在严重的多重共线性。
方差扩大因子又叫做方差膨胀因子,等于容忍度的倒数,一般认为大于 2 则存在多重共线性问题,VIF 大于 10 则认为存在严重的多重共线性问题。
处理办法
多重共线性的处理办法
- 变量选择(将一个或多个相关的自变量从模型中别除,使保留的自变量尽可能不相关)
- 如果要在模型中保留所有的自变量,则应
- 避免根据 t 统计量对单个参数进行检验
- 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内
选择依据
- AIC 准则:
k 增大会导致的值变大(自变量个数增加给模型带来的惩罚),SSE 减小会使得的值减小(自变量个数增加带来的残差平方和的减少)。
最终值的变化由两种趋势的相对关系决定,使用进行变量选择的标准是:使得 AIC 达到最小的模型就是最优模型 - BIC 准则:
,因此相比来说 BIC 准则对自变量个数的增加惩罚力度更大,选择标准一致。
- 选择自变量的另一个原则是对统计量进行显著性检验:
- 若自变量的引入能显著降低,那么该变量的引入是有必要的,否则没有必要引入,而对于引入自变量是否使得显著减少,]]]则可以借助统计量,以此来确定剔除/增加自变量
向前选择:
向后剔除:
逐步回归:
利用回归模型进行估计与预测
与一元类似
含有定性自变量的回归模型
在模型中引入定性自变量
- 定性变量通常能够以二元信息的形式呈现。
- 通常用 0-1 变量来为模型引入相关的定性信息,称之为虚拟变量(dummy variables)或指示变量(indicator variable)
- 若定性变量只有两个水平,则可将其定义为一个虚拟变量
- 若定性变量有 k 个水平,那么需要 k-1 个虚拟变量(k-1 个变量都为 0 时表示取值为第 k 个水平)
回归模型中涉及虚拟自变量时,则称为虚拟自变量的回归。
这里给出一个简单的例子
为了研究考试成绩与性别的关系,从某大学获得样本容量为 n 的样本数据。这时建立回归模型时就需要定义一个虚拟变量 x 来表示性别,如果假定 x=1 表示男生,x=0 表示女生:
回归方程:
上述回归方程取 x=1 时就表示男学生考试成绩的期望值;
注意:当指定虚拟变量 0 一 1 时
总是代表与虚拟变量值 0 所对应的那个分类变量水平的平均值
总是代表与虚拟变量值 1 所对应的那个分类变量水平的平均响应与虚拟变量值 0 所对应的那个分类变量水平的平均值的差值,即
平均值的差值=
一个例子
注意含有虚拟变量时回归系数含义的解释方式
OLS 估计的性质
小样本性质
线性性。和可以由线性表示。
\begin{equation} \begin{aligned} &\hat{\beta}_1=\frac{\sum X_i}{\sum x_i^2}=\frac{\sum x_i\left(Y_i-\overline{Y}\right)}{\sum X_i^2}\\ &=\sum k_i Y_i\left(k_i=\frac{x_i}{\sum x_i^2}\right)\\ &\hat{\beta}_0=\bar{Y}-\hat{\beta_1} \overline{X}=\sum \frac{Y_i}{n}-\sum \overline{X} k_i Y_i\\ &=\sum\left(\frac{1}{n}-\overline{X} k_i\right) Y_i\\ &=\sum w_i Y_i\left(w_i=\frac{1}{n}-\overline{X} k_i\right) \end{aligned} \end{equation}
无偏性。以 X 的所有样本为条件估计量的的期望等于总体参数:
\begin{equation} \begin{aligned} \quad E\left(\beta_1 \mid X\right)&=E\left(\sum k_iY_i \right)=E\left(\sum k_i\left(\beta_0+\beta_1 X_i+\mu\right) \mid X\right)\\ &=\beta_0 \sum k_i+\beta_1\left(\sum k_i x_i\right)+\sum E\left(k_i\mu |X\right) \quad \\ \therefore\beta_1&=\beta_1+\sum k_i \mu_i(\text{不取期望可得})\\ \text { 又 }\because \sum k_i X_i&=\frac{\sum\left(x_i\right)\left(x_i+\overline{X}\right)}{\sum x_i^2}=1\\ \sum E\left(k_1 u_i \mid x\right)&=\sum k_i E\left(u|x\right)=E(u \mid x) \sum_{k_i}=0\\ \end{aligned} \end{equation}
故
\begin{equation} \begin{aligned} E(\hat{\beta_0} \mid X)&=E\left(\sum w_iY_i \mid X_i\right)\\ &=\beta_0 \sum w_i+\beta_1 \sum w_i X_i\\ \text{又}\because \sum w_iX_i&=\frac{\sum\left(\frac{1}{n}-\overline{X}k_i\right)X_i}{\sum x_i^2}=\frac{\overline{X}-\overline{X}}{\sum x_i^2}=0\\ \sum w_i &=\sum \frac{1}{n}-\frac{\left(X_i-x_i\right) x_i}{\sum x_i^2} \\ &=1-\sum k_iX_i+1 \\ &=1 \end{aligned} \end{equation}
故