回归分析

在围绕y = 1.5倍+2线周围的高斯分布中的50个随机点的回归线(未显示)

统计建模中,回归分析是一组统计过程,用于估计因变量(通常称为“结果”或“响应”变量或机器学习规范中的“标签”)和一个或多个自变量(通常称为“预测变量”,“协变量”,“解释变量”或“功能”)。回归分析的最常见形式是线性回归,其中人们发现该线(或更复杂的线性组合)最能根据特定的数学标准非常拟合数据。例如,普通最小二乘的方法计算独特的线(或超平面),从而最大程度地减少了真实数据与该线(或超平面)之间平方差的总和。出于特定的数学原因(请参阅线性回归),这使研究人员能够估算自变量对定变量的有条件期望(或人口平均值)的条件期望(或人口平均值)。较不常见的回归形式使用略有不同的程序来估计替代位置参数(例如,分数回归必要条件分析)或估计更广泛的非线性模型集合(例如,非参数回归)的条件期望。

回归分析主要用于两个概念上不同的目的。首先,回归分析被广泛用于预测预测,在该预测和预测中,其使用与机器学习领域具有很大的重叠。其次,在某些情况下,回归分析可用于推断自变量和因变量之间的因果关系。重要的是,回归本身仅揭示因变量与固定数据集中自变量集合之间的关系。要分别使用回归进行预测或推断因果关系,研究人员必须仔细证明为什么现有关系具有针对新环境的预测能力,或者为什么两个变量之间的关系具有因果解释。当研究人员希望使用观察数据估计因果关系时,后者尤其重要。

历史

回归最早形式是最小二乘的方法,该方法是由Legendre于1805年发表的。 (主要是彗星,但后来又是当时新发现的小行星)。高斯在1821年发表了最小二乘理论的进一步发展,其中包括Gauss -Markov定理的版本。

弗朗西斯·加尔顿(Francis Galton)在19世纪创造了“回归”一词,以描述一种生物学现象。这一现像是,高个子祖先的后代的高度倾向于向正常平均水平降低(这种现像也称为对平均值的回归)。对于Galton来说,回归仅具有这种生物学意义,但是他的工作后来被Udny YuleKarl Pearson扩展到了更一般的统计背景下。在Yule和Pearson的工作中,假定响应和解释变量的联合分布被认为是高斯Ra Fisher在1922年和1925年的作品中削弱了这一假设。费舍尔认为响应变量的条件分布是高斯,但关节分布不一定是。在这方面,费舍尔的假设更接近高斯的1821年表述。

在1950年代和1960年代,经济学家使用机电台计算器来计算回归。在1970年之前,有时需要长达24小时才能从一次回归中获得结果。

回归方法仍然是积极研究的领域。近几十年来,已经开发了用于鲁棒回归的新方法,涉及相关响应的回归,例如时间序列增长曲线,预测变量(自变量)或响应变量是曲线,图像,图形或其他复杂数据对象的回归,回归方法可容纳各种类型的丢失数据,非参数回归,回归方法的贝叶斯方法,预测变量的回归方法是通过误差来测量预测变量的,比观测值更多的预测变量回归以及与回归的因果推断

回归模型

在实践中,研究人员首先选择要估计的模型,然后使用他们选择的方法(例如,普通最小二乘)来估计该模型的参数。回归模型涉及以下组件:

  • 未知参数,通常称为标量向量
  • 自变量在数据中观察到,通常表示为矢量 (在哪里表示一排数据)。
  • 因变量,在数据中观察到,通常使用标量表示
  • 错误术语,该术语直接在数据中观察到,并且通常使用标量表示

应用程序的各个领域中,使用不同的术语代替因变量和自变量

大多数回归模型都建议是一个函数回归函数 , 和代表一个添加误差项,该术语可能代表未建模的决定因素或随机统计噪声:

研究人员的目标是估计功能最紧密地适合数据。为了进行回归分析,功能的形式必须指定。有时,此功能的形式基于有关这不依赖数据。如果没有此类知识,则是一种灵活或方便的形式选择。例如,简单的单变量回归可能会提出 ,暗示研究人员相信对于生成数据的统计过程的合理近似值。

一旦研究人员确定了他们的首选统计模型,不同形式的回归分析提供了估计参数的工具 。例如,最小二乘(包括最常见的变体,普通最小二乘)发现了这可以最大程度地减少平方错误的总和 。给定的回归方法最终将提供 ,通常表示将估计与生成数据的真实(未知)参数值区分开。使用此估计,研究人员可以使用合适的值为了预测或评估模型解释数据的准确性。研究人员是否对估计有固有的兴趣或预测的价值将取决于上下文及其目标。如普通最小二乘中所述,最小二乘被广泛使用,因为估计的功能近似条件期望 。但是,当研究人员想对其他功能进行建模

重要的是要注意,必须有足够的数据来估计回归模型。例如,假设研究人员可以访问一行具有一个因变量和两个自变量的数据: 。进一步假设研究人员希望通过最小二乘估算双变量线性模型: 。如果研究人员只能访问数据点,然后他们可以找到许多组合同样很好地解释数据:可以选择满足的任何组合 ,所有这些导致因此,是最小化平方残差之和的有效解决方案。要了解为什么有很多选择,请注意方程将用于3个未知数,这使系统不确定。另外,人们可以无限地想像许多经过的三维平面固定点。

更一般地,不同的参数,一个必须具有不同的数据点。如果 ,那么通常不存在一组将完全适合数据的参数。数量经常出现在回归分析中,被称为模型中自由度。此外,为了估计最小二乘模型,自变量必须是线性独立的必须通过添加和乘以其余的自变量来重建任何自变量。正如普通最小二乘中所讨论的那样,这种情况确保了可逆矩阵,因此是独特的解决方案存在。

基础假设

就其本身而言,回归只是使用数据的计算。为了将回归的输出解释为衡量现实世界关系的有意义的统计数量,研究人员通常依靠许多经典的假设。这些假设通常包括:

少数条件足以使最小二乘估计量具有理想的特性:尤其是,高斯 - 马克夫(Gauss-Markov)的假设表明,在线性无偏估计器类别中,参数估计值将是公正的一致的有效的。从业者开发了多种方法来在现实世界中维护某些或所有这些期望的属性,因为这些经典假设不太可能确切地存在。例如,建模错误中的错误可能会导致合理的估计值自变量以错误来测量。异性矛盾的标准错误允许差异跨越值 。可以使用群集的标准误差,地理加权回归Newey -West标准误差以及其他技术来处理数据集中存在或遵循特定模式的相关误差。当数据行对应于太空中的位置时,如何选择如何建模在地理单元内可能会产生重要的后果。计量经济学的子领域主要集中于开发技术,使研究人员能够在现实世界中得出合理的现实世界结论,在现实世界中,经典假设不完全存在。

线性回归

在线性回归中,模型规范是因变量, 参数线性组合(但不必在自变量中是线性的)。例如,在简单的线性回归中用于建模数据点有一个自变量: 和两个参数,

直线:

在多个线性回归中,有几个自变量或自变量的函数。

添加一个术语前面的回归给出了:

抛物线:

这仍然是线性回归。尽管右侧的表达式在自变量中是二次的 ,在参数中是线性的 ,,,,

在这两种情况下, 是错误术语和下标索引特定的观察结果。

将我们的注意力归还直线情况:鉴于人群中的随机样本,我们估算了种群参数并获得样本线性回归模型:

残留 ,是模型预测的因变量的值之间的差异, ,以及因变量的真实值, 。一种估计方法是普通的最小二乘。此方法获得的参数估计值将平方残差的总和SSR

最小化此函数会导致一组正常方程,这是参数中的一组同时线性方程,这些方程已求解以产生参数估计器,即

数据集的线性回归的插图

在简单回归的情况下,最小二乘估计的公式为

在哪里平均(平均) 值和值。

假设人口误差项具有恒定的差异,该方差的估计值是由以下方式给出的。

这称为回归的均方误差(MSE)。分母是通过从相同数据估算的模型参数数量减少的样本量, 为了回归器如果使用拦截。在这种情况下, 所以分母是

参数估计的标准错误

在进一步的假设是人口误差项是正态分布的,研究人员可以使用这些估计的标准误差来创建置信区间并进行有关人口参数的假设测试

一般线性模型

在更一般的多重回归模型中,有自变量:

在哪里是个 - 关于 - th自变量。如果第一个自变量将所有值1的值1 ,,,, , 然后称为回归截距

最小二乘参数估计是从正常方程。残留可以写为

正常方程

在矩阵符号中,正常方程式写为

在哪里元素 , 这列矢量的元素元素 。因此 ,,,, , 和 。解决方案是

诊断

一旦构建了回归模型,确认模型拟合良好以及估计参数的统计意义可能很重要。常用的拟合良好检查包括R平方,分析残差模式和假设检验。统计显著性可以通过整体拟合的f检验来检查,其次是单个参数的t检验

这些诊断测试的解释在很大程度上取决于模型的假设。尽管对残差的检查可用于使模型无效,但t检验f检验的结果有时更难解释是否违反了模型的假设。例如,如果错误项没有正态分布,则在小样本中,估计的参数将不会遵循正常分布并使推理复杂化。但是,对于相对较大的样品,可以调用中心极限定理,以便可以使用渐近近似值进行假设检验。

因变量有限

有限的因变量,是分类变量的响应变量,或者是被限制仅在一定范围内的变量,通常是在计量经济学中出现的。

响应变量可能是非连续的(“有限”位于实际线的某些子集上)。对于二进制变量(零或一个)变量,如果分析以最小二乘线性回归进行,则该模型称为线性概率模型。二进制依赖变量的非线性模型包括概率logit模型多元概率模型是估计几个二进制依赖变量与某些自变量之间的关节关系的标准方法。对于具有两个以上值的分类变量,有多项式logit 。对于具有两个以上值的序数变量,有有序的logit有序的概率模型。当仅观察到因变量时,可以使用审查的回归模型,并且当未从感兴趣的群体中随机选择样本时,可以使用Heckman校正类型模型。此类过程的替代方法是基于分类变量之间的多choric相关性(或多性相关性)的线性回归。这种程序在人群中变量的分布的假设上有所不同。如果变量为较低值的正值并表示事件发生的重复,则可以使用诸如Poisson回归负二项式模型之类的计数模型。

非线性回归

当模型函数在参数中不是线性的时,必须通过迭代过程将平方之和最小化。这引入了许多并发症,这些并发症总结为线性和非线性最小二乘之间的差异

预测(插值和外推)

在中间,插值直线表示该线上和下方的点之间的最佳平衡。虚线表示两条极端线。第一曲线代表估计值。外曲线代表了新测量的预测。

回归模型在给定X变量的已知值下预测Y变量的值。用于模型拟合的数据集中值范围的预测非正式地称为插值。在此数据范围之外的预测被称为外推。进行外推的强烈依赖于回归假设。推断越远,由于假设和示例数据或真实值之间的差异,模型失败的空间就越多。

代表不确定性的预测间隔可能伴随点预测。随着自变量变量的值超出观察到的数据所涵盖的范围,这种间隔往往会迅速扩展。

出于这种原因和其他原因,有些人倾向于说进行外推可能是不明智的。

但是,这并不涵盖可能犯下的完整建模错误:特别是,是yx之间关系的特定形式的假设。正确执行的回归分析将包括评估假定形式与观察到的数据匹配的效果,但它只能在实际可用的自变量值的值范围内进行。这意味着任何外推都特别依赖于对回归关系的结构形式所做的假设。如果此知识包括因变量不能超出一定范围的值的事实,则可以在选择模型中使用这一点 - 即使观察到的数据集没有特别在此类界限附近的值。当考虑外推时,选择适当的功能形式的这一步骤的含义可能很棒。至少,它可以确保拟合模型引起的任何外推是“现实的”(或与已知的内容相符)。

功率和样本量计算

没有一般商定的方法可以将观测值与模型中的自变量数量相关。一种由良好和哈丁猜想的方法是 , 在哪里是样本量, 是自变量的数量, 如果模型只有一个自变量,则需要观察到达到所需精度所需的观察次数。例如,研究人员正在使用包含1000名患者的数据集建立线性回归模型( )。如果研究人员决定需要五个观察来精确定义直线( ),那么模型可以支持的最大自变量数为4,因为

.

其他方法

尽管通常使用最小二乘方法估算回归模型的参数,但已使用的其他方法包括:

软体

所有主要的统计软件包都执行最小二乘回归分析和推理。可以在某些电子表格应用程序和某些计算器上完成使用最小二乘的简单线性回归和多重回归。尽管许多统计软件包可以执行各种类型的非参数和鲁棒回归,但这些方法的标准化较少。不同的软件包实现了不同的方法,并且具有给定名称的方法可以在不同的软件包中实现。专门的回归软件已开发用于调查分析和神经影像学等领域。

也可以看看