归纳偏见
目录
归纳偏见
一个学习算法的归纳偏见(也称为学习偏见)是学习者用来预测它没有遇到过的给定输入的输出的一组假设。在机器学习中,人们旨在构建能够学习预测某个目标输出的算法。为了实现这一目标,向学习算法提供了一些训练实例,展示了输入和输出值的预期关系。然后,学习者应该接近正确的输出,即使是在训练期间没有显示的例子。如果没有任何额外的假设,这个问题是无法解决的,因为未见过的情况可能有一个任意的输出值。关于目标函数的性质的那种必要的假设被归纳到归纳性偏差这个短语中。归纳偏见的一个经典例子是奥卡姆剃刀,假设关于目标函数的最简单的一致假设实际上是xxx的。这里的一致是指学习者的假设对所有已经给算法的例子都能产生正确的输出。对归纳偏见进行更正式定义的方法是基于数理逻辑的。这里,归纳偏见是一个逻辑公式,与训练数据一起,逻辑上包含了学习者产生的假设。然而,这种严格的形式主义在许多实际案例中是失败的,在这些案例中,归纳偏见只能作为一种粗略的描述(例如在人工神经网络的案例中),或者根本就没有。
归纳偏见的类型
以下是机器学习算法中常见的归纳偏见的列表。xxx条件独立性:如果假设可以投在贝叶斯框架中,就尝试最大化条件独立性。这是NaiveBayes分类器中使用的偏见。最小交叉验证误差:当试图在各种假设中进行选择时,选择交叉验证误差最小的假说。虽然交叉验证看起来没有偏差,但”没有免费的午餐”定理表明,交叉验证一定是有偏差的。xxx边际:在两个类之间画出边界时,要试图使边界的宽度xxx化。这是支持向量机中使用的偏差。其假设是不同的类倾向于被宽的边界分开。

最小描述长度:当形成一个假设时,试图最小化假设的描述长度。最小特征:除非有很好的证据表明一个特征是有用的,否则它应该被删除。这是特征选择算法背后的假设。最近的邻居:假设特征空间中的一个小邻居中的大多数案例属于同一类别。给出一个类别未知的案例,猜测它与紧邻的大多数案例属于同一类别。这就是k-nearestneighbors算法中使用的偏差。其假设是,相互靠近的案例往往属于同一类别。偏见的转移尽管大多数学习算法都有一个静态的偏见,但一些算法被设计为在获得更多数据时转移其偏见。这并不能避免偏见,因为偏见的转移过程本身必须有一个偏见。