经验风险最小化
目录
经验风险最小化
经验风险最小化(ERM)是统计学习理论中的一个原则,它定义了一个学习算法系列,并被用来对其性能给出理论界限。其核心思想是,我们不能确切地知道一个算法在实践中的工作情况(真实风险),因为我们不知道该算法将工作的数据的真实分布,但我们可以在已知的训练数据集上衡量其性能(经验风险)。
经验风险最小化的背景
考虑以下情况,这是许多监督学习问题的一般设置。我们有两个对象的空间h:X→Y{displaystyleh:XtoY}(通常称为假设)。(通常称为假说),该假说输出一个对象.请注意,联合概率分布的假设允许我们对预测的不确定性进行建模(例如来自数据中的噪声),因为{displaystyley}不是数据的确定性函数。不是一个决定性的函数{displaystylex}的确定性函数,而是一个具有条件性的随机变量。,而是一个具有条件分布的随机变量{displaystyle{hat{y}}}衡量一个假设的预测y^与真实结果的差异程度。的假设与真实结果的差异程度与假设相关的风险h(x){displaystyleh(x)}相关的风险被定义为损失函数的期望值。然后被定义为损失函数的期望值。

对于分类问题,贝叶斯分类器被定义为使用0-1损失函数定义的风险最小化的分类器。经验性的风险最小化一般来说,风险{displaystyleP(x,y)}对学习算法来说是未知的。对学习算法来说是未知的(这种情况被称为不可知学习)。然而,我们可以通过在训练集上平均损失函数来计算一个近似值,称为经验风险;更正式地说,计算关于经验度量的期望值。经验风险最小化原则指出,学习算法应该选择一个假设h^{displaystyle{hat{h}}},使经验风险最小。使经验风险最小化。因此,ERM原则所定义的学习算法包括解决上述优化问题。
经验风险最小化的特性
计算复杂度
对于具有0-1损失函数的分类问题来说,经验风险最小化是一个已知的NP-hard问题,即使对于线性分类器这样一个相对简单的函数类别也是如此。不过,当最小经验风险为零时,即数据是线性可分离的,它可以被有效解决。在实践中,机器学习算法要么通过采用0-1损失函数的凸近似值(如SVM的铰链损失)来应对,这更容易优化,要么通过对分布施加假设来应对