熵编码法

在信息论中,熵编码(或熵编码)是试图接近农源编码定理声明的下限的任何无损数据压缩方法,该定理指出任何无损数据压缩方法的预期代码长度必须大于或等于 等于源的熵。

更准确地说,源编码定理指出,对于任何源分布,预期代码长度满足 E x∼ P [ l ( d ( x ) ) ] ≥ E x∼ P [ − log b ⁡ ( P ( x ) ) ] ,其中 l 是代码字中的符号数, d 是编码函数, b 是 用于生成输出代码的符号数,P 是源符号的概率。 熵编码试图接近这个下限。

两种最常见的熵编码技术是霍夫曼编码和算术编码。如果事先知道数据流的近似熵特征(特别是对于信号压缩),则更简单的静态编码可能会有用。这些静态编码包括通用编码和 Golomb 编码。

自 2014 年以来,数据压缩器开始使用熵编码技术的非对称数字系统系列,它允许将算术编码的压缩率与类似于霍夫曼编码的处理成本相结合。

熵编码法

作为相似性度量的熵

除了使用熵编码作为压缩数字数据的一种方式外,熵编码器还可用于测量数据流与现有数据类别之间的相似度。 这是通过为每一类数据生成一个熵编码器/压缩器来完成的; 然后通过将未压缩数据提供给每个压缩器并查看哪个压缩器产生最高压缩率来对未知数据进行分类。 具有最佳压缩率的编码器可能是在与未知数据最相似的数据上训练的编码器。

0

点评

点赞

相关文章