校准(统计)
统计中术语术语术语有两个主要用途,表示特殊类型的统计推断问题。 “校准”可能意味着
此外,“校准”在统计数据中使用,具有校准的一般含义。例如,在给定某些数据集或更一般的统计模型拟合中,模型校准也可用于引用有关模型参数值的贝叶斯推断。正如菲利普·达维(Philip Dawid)所说,“例如,如果他分配了概率30%的事件,预报员将得到很好的校准,而实际上发生的长期比例则为30%”。
在分类中
分类中的校准意味着将转换分类器分数转换为类成员资格概率。 Gebel(2009)给出了两级和多级分类任务的校准方法的概述。分类器可能会很好地将类分开,但校准较差,这意味着估计的类概率远非真正的类概率。在这种情况下,校准步骤可能有助于提高估计概率。
存在各种指标,目的是衡量分类器产生良好校准概率的程度。基础工作包括预期的校准误差(ECE)。最近的变体包括自适应校准误差(ACE)和基于测试的校准误差(TCE),这些误差(TCE)解决了ECE度量的局限性,当分类器分数集中在[0,1]范围的狭窄子集上时可能出现的ECE度量。
校准评估的最新进展是估计校准指数(ECI)的引入。 ECI扩展了预期校准误差(ECE)的概念,以更加细微的衡量模型的校准,尤其是解决过度自信和不受信心的趋势。 ECI最初是针对二进制设置配制的,已针对多类设置进行了调整,并提供了对模型校准的本地和全球见解。该框架旨在克服现有校准指标的一些理论和解释性局限性。通过一系列实验,Famiglini等人。展示该框架在对模型校准水平的更准确了解方面的有效性,并讨论减轻校准评估中偏见的策略。
最近,已经提出了一种在线工具来计算ECE和ECI:https: //calibrationassment.pythonanywhere.com/
存在以下单变量校准方法,用于将分类器得分转换为两级情况下的类成员资格概率:
- 分配价值方法,请参见Garczarek(2002)
- 贝叶斯方法,见Bennett(2002)
- 等渗回归,请参见Zadrozny和Elkan(2002)
- Platt缩放(一种逻辑回归的一种形式),参见Lewis和Gale(1994)和Platt(1999)
- 贝叶斯式分解物(BBQ)校准,请参见Naeini,Cooper,Hauskrecht(2015)
- Beta校准,请参阅Kull,Filho, Flach (2017)
在概率预测和预测中
在预测和预测中,有时使用Brier评分来评估一组预测的预测准确性,特别是指定概率的幅度跟踪观察到的结果的相对频率。菲利普·E·泰特洛克( Philip E.
这与准确性和精度有所不同。例如,正如丹尼尔·卡尼曼(Daniel Kahneman)所表达的那样:“如果您给出所有发生的事件,概率为0.6,所有发生的事件都没有发生.4的概率,那么您的歧视是完美的,但您的校准是痛苦的”。
特别是在气象学中,由于涉及天气预报,相关的评估方式被称为预测技能。
在回归中
回归中的校准问题是使用因变量和自变量之间观察到的关系的已知数据,以从因变量的新观察值中估算自变量的其他值。这可以称为“反回归”:另请参见切片的反回归。
存在以下多元校准方法,用于将分类器得分转换为类成员资格概率的概率,而课程计数大于两个:
- 还原到二进制任务和随后的成对耦合,请参见Hastie和Tibshirani(1998)
- DIRICHLET校准,参见Gebel(2009)
例子
一个例子是约会对象,使用可观察到的证据,例如用于辐射测定的树状年代学或碳14的树环。该观察结果是由要日期的对象的年龄而不是相反引起的,其目的是使用该方法根据新观察值估算日期。问题是将已知年龄与观察结果联系起来的模型是否应旨在最大程度地减少观察中的误差,或者最小化日期中的误差。这两种方法将产生不同的结果,如果该模型随后用于与已知结果的一定距离进行外推,则差异将增加。