同质性和异质性

带有随机数据显示均匀性的图:以每个值的值x, 这y - 点的值大约相同方差.
图的随机数据显示了异方差:y - 点的价值随着值的增加而增加x.

统计数据, 一个序列(或矢量)随机变量均匀的/ˌhmskəˈdæstɪk/)如果其所有随机变量具有相同的有限变量方差。这也称为差异的同质性。补充概念被称为异质性。拼写同性恋k调解性异性恋k调解性也经常使用。[1][2][3]

假设一个变量是均匀的,而实际上是异常的(/ˌhɛtərskəˈdæstɪk/)导致无偏见但效率低下的估计值和标准误差的偏差估计值,并可能导致高估健康的好处皮尔逊系数.

异性的存在是一个主要关注的问题回归分析方差分析,因为它无效意义的统计检验假设建模错误所有人都有相同的差异。而普通最小二乘估计器在存在异质性的情况下仍然是公正的,它效率低下,概括的最小二乘应该使用。[4][5]

因为异质性问题期望第二片刻在错误中,它的存在称为错误指定第二阶。[6]

计量学家罗伯特·恩格尔(Robert Engle)被授予2003年诺贝尔经济学奖为了学习回归分析在异性范围内的存在,这导致了他的表述自回归有条件异质性(ARCH)建模技术。[7]

定义

考虑一下线性回归方程依赖随机变量等于确定性变量时间系数加上随机骚扰术语这意味着零。如果差异的差异是一个常数;否则,它们是异质的。特别是,如果差异的差异取决于i或价值。他们可能是异方差的一种方式是(一个例子scedastic函数),因此差异与x的值成正比。

更普遍的是,如果方差互动矩阵的干扰矩阵在我的整个我中有一个非晶体对角线,扰动是异性的。[8]下面的矩阵是协方差,当时只有三个观察结果。矩阵A中的干扰是同质的。这是OLS是最好的线性无偏估计器的简单情况。矩阵B和C中的干扰是异质的。在矩阵B中,差异是随时间变化的,随着时间的流逝稳步增加。在矩阵C中,方差取决于x的值。矩阵D中的干扰是均匀的,因为对角差异是恒定的,即使异对决协方差为非零,而普通的最小二乘由于不同的原因:串行相关性效率低下。

例子

当观测的大小之间存在很大差异时,通常会发生异质性。

  • 异质性的一个典型例子是收入与餐点支出的典型例子。随着收入的增加,食物消耗的变异性将增加。一个贫穷的人会总是吃便宜的食物,将花费相当恒定的量。较富裕的人偶尔可能会购买便宜的食物,而其他时候可以吃昂贵的饭菜。收入较高的人表现出更大的食物消费差异。
  • 想像一下,您正在观看一枚火箭,并测量其每秒一次旅行的距离。在前几秒钟内,您的测量值可能准确到最接近厘米。然而,5分钟后,随着火箭逐渐降低空间,由于距离增加,大气失真和各种其他因素,测量的准确性可能只能到100 m。您收集的数据将表现出异质性。

异质性的后果

经典线性回归模型的假设之一是没有异质性。打破这个假设意味着高斯 - 马克夫定理不适用,这意味着OLS估计器不是最佳线性无偏估计器(蓝色)它们的差异并不是所有其他无偏估计器中最低的。异质性确实如此不是导致普通的最小二乘系数估计值有偏见,尽管它可能导致系数的差异(以及标准误差)的普通最小二乘估计值偏置,可能会偏向于人口差异的真实情况或之下。因此,使用异性数据的回归分析仍将为预测变量与结果之间的关系提供无偏估计的估计,但是可疑从数据分析获得的标准误差以及因此获得的推论。偏见的标准误差导致推理有偏见,因此假设检验的结果可能是错误的。例如,如果在异方差数据集上执行OLS,则产生有偏见的标准误差估计,研究人员可能无法在给定的情况下拒绝零假设意义级别,当该零假设实际上是对实际人群的特征时(使II型错误)。

在某些假设下,OLS估计器具有正常渐近分布正确正常和集中时(即使数据不是来自正态分布)。此结果用于使用正态分布或卡方分布(取决于如何测试统计计算),当进行一次假设检验。即使在异质性下也是如此。更确切地说,在存在异质性的情况下,OLS估计量在适当正常和居中时渐近地正常,并以方差为中心矩阵这与同质性的情况不同。1980年,怀特提出了一致的估计器对于OLS估计量的渐近分布的方差互动矩阵。[2]这验证了使用OLS估计量和White的方差估计量在异方差验证的使用。

异质性也是一个主要的实际问题方差分析问题。[9]F测试在某些情况下仍然可以使用。[10]

但是,有人说学生计量经济学不应反应过度对异性。[3]一位作者写道:“仅当问题严重时,不等误差差异才值得纠正。”[11]此外,另一种谨慎的态度是:“异质性从来没有成为抛出原本好的模型的原因。”[3][12]随着出现异性矛盾的标准误差允许推断而无需指定条件的第二阶段误差项,测试条件均应性不像过去那样重要。

对于任何非线性模型(例如logit概率模型),但是,异质性具有更严重的后果:最大似然估计(mle)参数将是偏见的,并且不一致(除非将可能性函数修改以正确考虑异方差的精确形式)。[13]但是,在二进制选择模型的背景下(logit或者概率),异质性只会导致对错误指定的MLE的渐近平均值产生正缩放作用(即忽略异源性的模型)。[14]结果,基于错误指定的MLE的预测将保持正确。此外,误指定的概率和logit mle将渐变地正态分布,允许执行通常的显著性测试(具有适当的方差 - 可协方差矩阵)。但是,关于一般假设检验,如格林,“简单地计算出强大的协方差矩阵以使其原本不一致的估计器不会兑换。因此,在这种情况下,强大的协方差矩阵的优点尚不清楚。”[15]

纠正异质性

异质性有五个常见的校正。他们是:

  • 看法对数数据。随着时间的推移,随着该系列的增长,非同源化序列呈指数增长的变化通常会增加。但是,百分比项的可变性可能相当稳定。
  • 对模型使用不同的规范(不同X变量,或可能的非线性转换X变量)。
  • 应用加权最小二乘估计方法,其中OLS应用于转换或加权值Xy。重量因观测而异,通常取决于误差差异的变化。在一个变化中,权重与因变量的大小直接相关,这对应于最小二乘百分比回归。[16]
  • 异性矛盾的标准误差(HCSE)虽然仍然有偏见,但根据OLS的估计有所改善。[2]HCSE是具有异质性回归模型中标准误差的一致估计器。该方法纠正异性范围,而不会改变系数的值。该方法可能优于常规OL,因为如果存在异质性,则它会纠正它,但是,如果数据是同质的,则标准误差等于OLS估计的常规标准误差。已经提出了对异质性符合性标准误差的白色方法的几种修改,已被提出为具有较高有限样本特性的校正。
  • 利用Minque甚至习惯估计器(为了带有独立样本每个观测值),当每个样品的观察次数较大时,其效率损失并不大(),特别是对于少量独立样品。[17]

测试异质性

模拟一阶异质数据的残差的绝对值

可以使用该残差测试使用Breusch – Pagan测试[18]在自变量上执行平方残差的辅助回归。从这种辅助回归中,解释的平方和除以两个,然后成为卡方分布的测试统计量,其自由度等于自由变量的数量。[19]该卡方检验的零假设是同质性的,替代假设将表明异质性。由于Breusch – Pagan检验对偏离正态性或小样本量的偏好敏感,因此通常使用Koenker -Bassett或“广义Breusch -Pagan”测试。[20]从辅助回归中,它保留了R平方值,然后将其乘以样本量,然后成为卡方分布的测试统计量(并使用相同的自由度)。尽管Koenker – Bassett测试不是必需的,但Breusch -Pagan测试要求平方残差也除以平方的残差总和除以样本量。[20]可以使用群体方向性测试Goldfeld – Quandt测试.[21]

异性测试列表

尽管对组之间的异质性测试可以正式视为回归模型中测试的特殊情况,但某些测试具有针对这种情况的结构。

概括

同质分布

两个或更多正常分布都是同质的,缺乏序列相关如果他们在他们的对角线上共享相同的对角线协方差矩阵,他们的非对角线条目为零。同型分布对于得出统计特别有用模式识别机器学习算法。假设同义性的算法的一个流行示例是费舍尔的线性判别分析。同质性的概念可以应用于领域的分布。[25]

多元数据

对寄宿性和异方差的研究已被推广到多变量案例,该病例涉及矢量观测的协方差,而不是标量观测的方差。其中一个版本是使用协方差矩阵作为分散的多元度量。在这种情况下,有几位作者考虑了回归和分组数据的测试。[26][27]巴特利特的测试对於单变量情况,最常用的分组数据之间的异质性也已扩展到多变量情况下,但可拖动的解决方案仅适用于2组。[28]两组存在近似值,它们都被称为盒子的M测试.

也可以看看

参考

  1. ^有关该术语的希腊词源,请参见McCulloch,J。Huston(1985)。“关于异性恋*动机”。计量经济学.53(2):483。Jstor 1911250.
  2. ^一个bcd怀特,哈尔伯特(1980)。“异方差相协方差矩阵估计器和异性恋性的直接测试”。计量经济学.48(4):817–838。Citeseerx 10.1.1.11.7646.doi10.2307/1912934.Jstor 1912934.
  3. ^一个bcGujarati,D.N。; Porter,D。C.(2009)。基本计量经济学(第五版)。波士顿:麦格劳 - 希尔·欧文(McGraw-Hill Irwin)。p。400。ISBN 9780073375779.
  4. ^戈德伯格,亚瑟·S。(1964)。计量经济学理论。纽约:约翰·威利(John Wiley&Sons)。 pp。238–243.
  5. ^Johnston,J。(1972)。计量经济学方法。纽约:麦格劳 - 希尔。 pp。214–221。
  6. ^Long,J。Scott;Trivedi,Pravin K.(1993)。“线性回归模型的一些规范测试”。在肯尼思(Kenneth A。)的博伦(Bollen);Long,J。Scott(编辑)。测试结构方程模型。伦敦:圣人。第66-110页。ISBN 978-0-8039-4506-7.
  7. ^恩格尔,罗伯特·F。(1982年7月)。“自回归有条件的异质性,并估计英国通货膨胀的差异”。计量经济学.50(4):987–1007。doi10.2307/1912773.ISSN 0012-9682.Jstor 1912773.
  8. ^彼得·肯尼迪,计量经济学指南,第五版,第1页。 137。
  9. ^Jinadasa,游戏;Weerahandi,Sam(1998)。“单向方差分析中某些测试的尺寸性能”。统计中的通信 - 仿真和计算.27(3):625。doi10.1080/03610919808813500.
  10. ^Bathke,A(2004)。“ ANOVA F测试仍然可以用于一些平衡的设计,这些设计具有不平等的差异和非正常数据”。统计计划和推理杂志.126(2):413–422。doi10.1016/j.jspi.2003.09.010.
  11. ^Fox,J。(1997)。应用回归分析,线性模型和相关方法。加利福尼亚:鼠尾草出版物。 p。 306。(在古吉拉特语等人2009,第400页中引用)
  12. ^Mankiw,N。G.(1990)。“宏观经济学的快速复习课程”.经济文学杂志.28(4):1645–1660 [p。 1648]。doi10.3386/W3256.Jstor 2727441.
  13. ^吉尔斯,戴夫(2013年5月8日)。“非线性模型的强大标准误差”.计量经济学击败.
  14. ^Ginker,T。;Lieberman,O。(2017)。“二元选择模型对条件异质性的鲁棒性”。经济信.150:130–134。doi10.1016/j.econlet.2016.11.024.
  15. ^格林,威廉·H。(2012)。“二进制选择模型中的估计和推断”.计量经济学分析(第七版)。波士顿:皮尔逊教育。pp。730–755 [p。733]。ISBN 978-0-273-75356-8.
  16. ^Tofallis,C(2008)。“最小二乘百分比回归”。现代应用统计方法杂志.7:526–534。doi10.2139/ssrn.1406472.SSRN 1406472.
  17. ^J. N. K. Rao(1973年3月)。“关于异质方差的估计”。生物识别技术.29(1):11–24。doi10.2307/2529672.Jstor 2529672.
  18. ^Breusch,T.S。; Pagan,A。R.(1979)。“对异质性和随机系数变化的简单测试”.计量经济学.47(5):1287–1294。doi10.2307/1911963.ISSN 0012-9682.Jstor 1911963.
  19. ^Ullah,穆罕默德·伊姆达德(2012-07-26)。“ Breusch Pagan检验异性症”.基本统计和数据分析。检索2020-11-28.
  20. ^一个b普莱斯(Gwilym)。“异质性:SPSS中的测试和纠正”(PDF)。 pp。12–18。存档(PDF)从2017-03-27的原始。检索3月26日2017.
  21. ^Baum,Christopher F.(2006)。“ Stata Tip 38:对群的异方差测试”.Stata杂志:促进有关统计和Stata的通讯.6(4):590–592。doi10.1177/1536867x0600600412.ISSN 1536-867X.
  22. ^R. E. Park(1966)。“具有异性误差项的估计”。计量经济学.34(4):888。doi10.2307/1910108.Jstor 1910108.
  23. ^Glejser,H。(1969)。“异质性的新测试”。美国统计协会杂志.64(325):316–323。doi10.1080/01621459.1969.10500976.
  24. ^Machado,JoséA。F。;Silva,J。M. C. Santos(2000)。“ Glejser的测试重新审视”。计量经济学杂志.97(1):189–202。doi10.1016/S0304-4076(00)00016-6.
  25. ^Hamsici,Onur c。Martinez,Aleix M.(2007)“球形 - 摩西丝分布:分类中球形和正常分布的等效性”机器学习研究杂志,8,1583-1623
  26. ^H. E. T。Holgersson;Shukur,G。(2004)。“测试多元异方差”。统计计算与仿真杂志.74(12):879。doi10.1080/00949650410001646979.HDL2077/24416.S2CID 121576769.
  27. ^Gupta,A。K。;Tang,J。(1984)。“测试多元高斯模型协方差矩阵平等的似然比统计量的分布”。Biometrika.71(3):555–559。doi10.1093/biomet/71.3.555.Jstor 2336564.
  28. ^D'Agostino,R。B。;Russell,H。K.(2005)。“多变量Bartlett测试”。生物统计学百科全书.doi10.1002/0470011815.B2A13048.ISBN 978-0470849071.

进一步阅读

大多数统计教科书将至少包括有关同质性和异方差的一些材料。一些例子是:

外部链接