赤池信息量准则
目录
赤池信息量准则
赤池信息量准则 (AIC) 是预测误差的估计量,因此是给定数据集的统计模型的相对质量。 给定一组数据模型,AIC 会估计每个模型相对于其他每个模型的质量。 因此,AIC 提供了一种模型选择的方法。
AIC 建立在信息论的基础上。 当使用统计模型来表示生成数据的过程时,这种表示几乎永远不会准确; 所以使用模型来表示过程会丢失一些信息。 AIC 估计给定模型丢失的相对信息量:模型丢失的信息越少,该模型的质量就越高。
在估计模型丢失的信息量时,AIC 处理模型拟合优度和模型简单性之间的权衡。 换句话说,AIC 处理过度拟合的风险和欠拟合的风险。
赤池信息量准则以制定它的日本统计学家 Hirotugu Akaike 的名字命名。 它现在构成了统计基础范式的基础,也被广泛用于统计推断。
定义
假设我们有一些数据的统计模型。 令 k 为模型中估计参数的数量。 设 L ^ {displaystyle {hat {L}}} 为模型似然函数的xxx值。
定一组数据的候选模型,首选模型是具有最小 AIC 值的模型。
如何在实践中使用 AIC
为了在实践中应用 AIC,我们从一组候选模型开始,然后找到模型对应的 AIC 值。 由于使用候选模型来表示真实模型,即生成数据的过程,几乎总是会丢失信息。 我们希望从候选模型中选择信息损失最小的模型。 我们不能确定地选择,但我们可以最小化估计的信息损失。
假设有 R 个候选模型。 令 AICmin 为这些值中的最小值。 那么数量 exp((AICmin − AICi)/2) 可以解释为与第 i 个模型最小化(估计的)信息损失的概率成正比。
![赤池信息量准则](http://map.s-jl.com/wp-content/uploads/sites/14/2024/09/20240928004809-66f752494322b.png)
例如,假设有三个候选模型,其 AIC 值为 100、102 和 110。那么第二个模型的概率是xxx个模型的 exp((100 − 102)/2) = 0.368 倍,以最小化 信息丢失。 同样,第三个模型的概率是xxx个模型的 exp((100 − 110)/2) = 0.007 倍,以xxx限度地减少信息损失。
在此示例中,我们将省略第三个模型以进一步考虑。 然后我们有三个选择:(1)收集更多数据,希望这能清楚地区分前两个模型; (2) 简单地断定数据不足以支持从前两个模型中选择一个模型; (3) 对前两个模型取加权平均,权重分别为1和0.368,然后根据加权m进行统计推断。