吉布斯不等式
目录
吉布斯不等式
在信息论中,吉布斯不等式是关于离散概率分布的信息熵的陈述。 概率分布的熵的其他几个界限来自吉布斯不等式,包括 Fano 不等式。它首先由 J. Willard Gibbs 在 19 世纪提出。
吉布斯不等式
假设
P = { p 1 , … , p n } {displaystyle P={p_{1},ldots ,p_{n}}}
是离散概率分布。 对于所有我。 换句话说,分布 P 的信息熵小于或等于它与任何其他分布 Q 的交叉熵。
两个量之间的差异是 Kullback–Leibler 散度或相对熵
请注意,以 2 为底的对数的使用是可选的,并且允许将不等式每一侧的数量称为以位为单位测量的平均意外。
证明
为简单起见,我们使用自然对数 (ln) 证明该陈述,因为
log a = ln a ln 10 , {displaystyle log a={frac {ln a}{ln 10}},}
我们选择的特定对数只会缩放关系。
让 I {displaystyle I} 表示 pi 非零的所有 i {displaystyle i} 的集合。 然后,由于 ln x ≤ x − 1 {displaystyle ln xleq x-1} 对于所有 x >; 0,当且仅当 x=1 时相等
最后一个不等式是 pi 和 qi 作为概率分布的一部分的结果。 具体来说,所有非零值的总和为 1。然而,一些非零 qi 可能已被排除,因为指数的选择取决于 pi 是否为非零。 所以气的总和可能小于1。
两个和都可以扩展到所有 i = 1 , … , n {displaystyle i=1,ldots ,n} ,即包括 p i = 0 {displaystyle p_{i}=0} ,通过回顾 表达式 p ln p {displaystyle pln p} 趋于 0 因为 p {displaystyle p} 趋于 0,并且 ( − ln q ) {displaystyle (-ln q)} 趋于 到 ∞ {displaystyle infty } 因为 q {displaystyle q} 趋于 0。
替代证明
也可以使用 Jensen 不等式、对数和不等式或 Kullback-Leibler 散度是 Bregman 散度的一种形式来证明结果。 下面我们给出一个基于詹森不等式的证明:
因为 log 是凹函数
其中xxx个不等式是由于 Jensen 不等式引起的,而最后一个不等式是由于上述证明中给出的相同原因引起的。
此外,由于 log {displaystyle log } 是严格凹的,根据 Jensen 不等式的相等条件。