首页 » 信息技术 »

熵和信息量——信息熵的意义

2020年11月28日 / 34次阅读

信息熵的来历和热力学熵完全不同。把它也叫做“熵”完全是因为香农老爷子当年提出这个概念时参考了热力学熵,并且它的表达式和热力学熵的微观形式非常相似(但和宏观描述看不出任何相似性)的缘故。(概念是逻辑的起点......)

后来也有人提出了信息熵的其他表述形式,为了方便,下文以最早也最重要的香农熵为准。信息熵的表达式 H=-ElnP(x)  其中E是期望,P(x)是出现的概率(含义下面会提到)。大家发现了吧,它和玻尔兹曼熵表达式 S=klnΩ 形式完全一样,只有常数上的差别。实际应用中,为了对应二进制数,更常见的是以2为底的形式 H=-Elog_2{P(x)},此时结果的量纲为比特。

它的意义非常明确,指观察者对某一事件(结果)的未知程度。(获取的信息量越大,未知程度就越低......熵就用来量化这种未知的程度)

举个例子:我要抛一次骰子,在观测到结果之前,骰子六个面向上都有可能,而且概率完全一样(都是1/6)。这时,这一事件的信息熵为 -log_2{1/6}=log_2{6},值大概为2到3之间。

现在万能的女神给了我一个提示,这次骰子的结果一定是偶数,于是可能的结果由6种降低为3种,事件的熵也就变成了 log_2{3}(值在1到2之间)。也就是说,当我得到提示后,对于事件结果的不确定性降低了。

我们把信息熵降低的量规定为信息量I。

上面那条提示对我的信息量是 I=log_2{6}-log_2{3}=1,正好是1个比特,相当于对一个完全未知的命题做一次是非判断需要的信息量。而如果我要得到唯一确定的结果,P(x)就必须等于1,此时的信息熵为零(I=0)。消除未知,我们需要得到的信息量就是原本的熵 log_2{6}。

看到这里,聪明的你一定已经可以自己总结出另一个金光闪闪的结论:信息就是负熵。需要特别注意的是,这句话里的“熵”指而且仅指信息熵,试图将这个结论扩大到热力学熵的解释往往都缺乏足够的事实基础,并且含义也经常是含混的。

我们再来看另一个例子:甲乙丙三个实力相当的运动员要进行一次比赛,老王是比赛的裁判和记分员,他必须观察并如实记录三位选手的名次。所以对于他来说,比赛结果有6种(3的全排列)。由于运动员实力相当,每种结果出现的可能性一样,所以结果的熵是 log_2{6}。

小花是运动员甲的女朋友,她如此爱自己的男友以至于只关心他有没有取得冠军而完全不在意其它选手的成绩。对于小花来讲,比赛的结果只有两种,它的熵大约是0.92(计算略去,大家应该不会对数学计算感兴趣吧)。有的同学会奇怪,这里的熵为什么不是1?原因是由于甲乙丙三个运动员实力相当,所以甲获得冠军的几率只有1/3。也就是说如果小花足够聪明的话,在比赛前就可以知道甲获得冠军的可能比不获得冠军的可能小。这种预期降低了事件的未知程度(熵),也降低了结果对小花的信息量。(对于小花而言,结果只有她的男友是赢还是输这两种,log_2{2}=1,但是赢的可能性偏低,这个是已知的,因此熵会小于1,怎么算出来的0.92呢?)

老李是比赛场地的管理员,他完全不关心谁胜谁负,而只想等到比赛结束下班回家,那么比赛对他的熵是多少呢?答案是零,因为他只关心比赛有没有结束,而比赛只要一开始就注定会结束,这个结果是唯一确定的。所以老李根本不用观察比赛,只要坐着等就可以了。

这个例子说明对于不同的观察者,由于目的和观测能力的差异,同一个事件的熵也可能是不同的。

我们再回头看老王的记分板,他用三组二进制数记录比赛结果。第一组记录甲的名次,第二组记录乙的名次,第三组记录丙的名次,由于名次有三个可能的值(第1第2第3),每组二进制数都必需是两位的,所以老王对比赛结果的记录由六位二进制数构成。(XX*3)

老王的儿子小王是一个多才多艺的程序员,他看到了老王的记分板开始了吐槽:由于比赛只有三位选手,只要其中两位选手的名次确定第三位选手的名次也就确定了。因此第三组二进制数完全是没有必要的(我们也称它为冗余),老王只需要四位二进制数就能表示全部的信息。

老王十分羞愧,忙请教小王能否更加简洁。小王想了想,把所有六种可能的结果罗列了出来,并给每种情况赋予了一个代号,比如001表示甲乙丙的结果,010表示甲丙乙的结果……这样老王每次就只需要三位二进制数(3比特)就可以记录原本要6比特才能表示的信息了。这个故事告诉我们,同样的信息用不同形式描述,会产生长度不同的记录(我们称之为消息),因此无损压缩是可能的。这也是清晰度差不多的视频文件有的格式卡成狗有的格式却十分流畅的原因。

故事的最后,老王贪心不足,希望用更短的消息来记录比赛结果,然而多次尝试之后可耻的失败了。这是因为比赛结果的熵是log2(6),大约是2.58,因此至少需要3位二进制数(3比特)才能描述,即消息不可能比它所包含的信息更短。也就是说无损压缩有其极限,判断这个极限是信息熵的另一个应用。

本文链接:https://www.maixj.net/ict/xinxishang-24150

相关文章

留言区

《熵和信息量——信息熵的意义》有1条留言

  • 麦新杰

    视频编码中的熵编码,就是这个意思。信息熵,可以用来无损保存信息的最小bit数。 []


前一篇:
后一篇:
-->只要几分钟回答问卷,就能轻松赚现金!

栏目精选

云上小悟,麦新杰的独立博客

Ctrl+D 收藏本页

栏目


©Copyright 麦新杰 Since 2014 云上小悟独立博客版权所有 备案号:苏ICP备14045477号-1。云上小悟网站部分内容来源于网络,转载目的是为了整合信息,收藏学习,服务大家,有些转载内容也难以判断是否有侵权问题,如果侵犯了您的权益,请及时联系站长,我会立即删除。

go to top