分布的核嵌入

在机器学习中，分布的核嵌入（也称为核均值或均值图）包括一类非参数方法，其中概率分布被表示为再现核希尔伯特空间（RKHS）的一个元素。作为经典核方法中单个数据点特征映射的一般化，将分布嵌入到无穷大的特征空间中可以保留任意分布的所有统计特征，同时允许人们使用希尔伯特空间操作来比较和处理分布，如内积、距离、投影、线性变换和谱分析。这个学习框架非常通用，可以应用于任何空间的分布{displaystyleOmega}的元素之间的相似性）可以被定义。)可以被定义。例如，已经提出了各种核函数，用于从数据中学习，这些数据是：向量在离散类/类别、字符串、图/网络、图像、时间序列、流形、动态系统和其他结构化对象。分布的核嵌入背后的理论主要由AlexSmola,LeSong,ArthurGretton和BernhardSchölkopf发展。关于分布的核嵌入的最新工作的回顾可以在以下文章中找到。分布的分析是机器学习和统计学的基础，这些领域的许多算法依赖于信息论的方法，如熵、互信息或Kullback-Leibler分歧。然而，为了估计这些数量，人们必须首先进行密度估计，或者采用复杂的空间分割/偏差校正策略，这对于高维数据来说通常是不可行的。通常，对复杂分布进行建模的方法依赖于参数化的假设，这些假设可能是没有根据的，或者在计算上具有挑战性（例如高斯混合模型），而非参数化的方法，如核密度估计（注意：这里的平滑核与这里讨论的核有不同的解释）或特征函数表示（通过分布的傅里叶变换）在高维环境中被打破。基于分布的核嵌入的方法避开了这些问题，而且还具有以下优点。

可以对数据进行建模，而不需要对分布的形式和变量之间的关系进行限制性假设，不需要进行中间密度估计，从业人员可以指定与他们的问题最相关的分布的属性（通过选择核纳入先验知识）如果使用特征核，那么嵌入可以xxx地保留分布的所有信息。同时，由于核的作用，对潜在的无限维RKHS的计算在实践中可以实现为简单的格拉姆矩阵运算，可以证明经验核均值（使用分布的样本估计）与真实基础分布的核嵌入之间的收敛率与维度无关。基于这个框架的学习算法表现出良好的泛化能力和有限样本收敛性，同时往往比信息论方法更简单、更有效。因此，通过分布的核嵌入学习为信息论方法提供了一个原则性的替换，这个框架不仅将机器学习和统计学中的许多流行方法作为特例，而且还能带来全新的学习算法。