经验风险最小化

经验风险最小化（ERM）是统计学习理论中的一个原则，它定义了一个学习算法系列，并被用来对其性能给出理论界限。其核心思想是，我们不能确切地知道一个算法在实践中的工作情况（真实风险），因为我们不知道该算法将工作的数据的真实分布，但我们可以在已知的训练数据集上衡量其性能（经验风险）。

经验风险最小化的背景

考虑以下情况，这是许多监督学习问题的一般设置。我们有两个对象的空间h:X→Y{displaystyleh:XtoY}（通常称为假设）。(通常称为假说)，该假说输出一个对象.请注意，联合概率分布的假设允许我们对预测的不确定性进行建模（例如来自数据中的噪声），因为{displaystyley}不是数据的确定性函数。不是一个决定性的函数{displaystylex}的确定性函数，而是一个具有条件性的随机变量。，而是一个具有条件分布的随机变量{displaystyle{hat{y}}}衡量一个假设的预测y^与真实结果的差异程度。的假设与真实结果的差异程度与假设相关的风险h(x){displaystyleh(x)}相关的风险被定义为损失函数的期望值。然后被定义为损失函数的期望值。

对于分类问题，贝叶斯分类器被定义为使用0-1损失函数定义的风险最小化的分类器。经验性的风险最小化一般来说，风险{displaystyleP(x,y)}对学习算法来说是未知的。对学习算法来说是未知的（这种情况被称为不可知学习）。然而，我们可以通过在训练集上平均损失函数来计算一个近似值，称为经验风险；更正式地说，计算关于经验度量的期望值。经验风险最小化原则指出，学习算法应该选择一个假设h^{displaystyle{hat{h}}}，使经验风险最小。使经验风险最小化。因此，ERM原则所定义的学习算法包括解决上述优化问题。