版权归原作者所有,如有侵权,请联系我们

《熵与信息》04:如何用1 bit信息改变世界?

2024年度科普中国资源荟萃集成示范项目
广泛汇聚社会科普精品内容,加强与社会专业机构协同联动。
收藏

熵与信息(四):如何用1 bit信息改变世界?

欢迎回到我们的硬科普系列「熵与信息」。在前三期的文章中,我们深入探讨了信息熵与热力学熵的奇妙世界,不少同学还意犹未尽,那就让我们继续深入这场关于熵的探索之旅,本期内容马上开始!

研究通信问题的困境

第一个是关于二战期间苏联间谍佐尔格。在当时,纳粹德国已经兵临莫斯科城下,斯大林在欧洲已经无兵可派,虽然在西伯利亚的中苏边界还有 60 万大军,却是需要防备日本。是否可以调动这部分兵力,取决于日本军部的战略到底是北上进攻苏联,还是南下和美国开战。

苏联间谍佐尔格向莫斯科发去了一条只有五个字的信息:“日本将南下”。

第二个是关于诺曼底登陆。1944 年,盟军决定从英国出发,横穿英吉利海峡在法国登陆。因为德军在法国的兵力有限,所以想通过情报确定盟军的登陆地点重点布防。而盟军则是传播假消息,让德军以为会在加莱登陆,结果在诺曼底登陆。

第三个是战国时期的长平之战。秦国主将先是王龁,后来换成了白起。不过秦国严格封锁消息,导致赵括轻敌冒进,赵国大败。

这 3 个消息都有一个非常重要的特点,那就是消息本身价值巨大,一个消息可以决定一个国家甚至是整个世界的命运。但是单纯从其消息量来看,似乎都是 1 bit 信息量。毕竟这些信息起来就是一个二选一的问题,日本是北上还是南下,盟军登陆是在诺曼底还是在加莱,秦国主将是王龁还是白起。

按照我们之前的介绍,这些消息的信息量应该和抛硬币一样,都是 1 bit,于是就可以很容易得出结论,信息量的大小和信息本身的价值并没有决定性的关系。

这个结论是没有错的,在上一集我们就通过兰道尔原理介绍过,1 bit 的信息量可以撬动的能量虽然有一个下限,但是上限可以无限大,对于物理系统能量越大往往就代表着价值越大。不过,前面的判断虽然结论正确,但是得出结论的前提却有问题。

因为那 3 个消息的信息量,到底是不是只有 1 bit 还并不是那么的确定无疑。

最容易想到的问题是,那些消息真的只是一个二选一问题吗?比如在事情还没有发生之前,盟军是可能选择任何一个地方登陆的,诺曼底和加莱只是在当时看来最有可能的两个,不代表其他可能性就是 0。

就算是真的只有 2 个选项,也并不意味着两个选项的概率就是相同的。临阵换将我们都知道是兵家大忌,所以当时赵括就认定秦国换掉主帅是一个小概率事件,还是非常合理的。而可能性越小则信息量愈大,如果当时真的有人给赵括传递消息说秦军主将换成了白起,那么这条消息的信息量一定远远超过了 1 bit。

其实,即便是一个事件的概率是公认的,想要分析出它在真实的信息传递中所包含的信息量,也非常麻烦。

比如,我们设想这样一个情况,有两个国家 A 和 B 很长时间一直处于和平状态,但是 A 一直担心 B 会率先发动战争,所以向 B 派遣了间谍。在间谍出发前就约定好了“没有消息就是好消息”,只有当 B 国决定发动战争的时候才向 A 国传递消息,平时处于静默状态。A 国的国王每天都会派人去检测间谍是否传递来消息。结果在第 100 天时,接收到了 B 国即将发动战争的消息。这种情况下,是不是可以认为 B 国发动战争的概率是 1% 呢?毕竟 100 次检查里只有 1 次有消息。

可这样的话问题就来了。如果同样还是在第 100 天收到了 B 国发动战争的消息,这个事实本身不变,但是检查的频率不再是 1 天一次,而是半天一次,这个时候就是 200 次检查里收到 1 次消息,难道这个时候这个消息的信息量要用 0.5% 的概率进行计算吗?如果真的是这样的话,一个消息的信息量是多少就太随便了。

讲到这里,我想大家应该已经能够体会出来在通信领域想要定量地分析问题有多么复杂了。其实这种千头万绪不知道如何下手的感觉,任何一门学科开创之前都是如此。而一门学科之所以可以创立,都是因为其创始人通过自己非凡的洞察,忽略干扰、抓住本质,最终才建立起一套自洽的理论。

就比如力学,就是因为伽利略的灵感爆发,排除各种阻力的干扰,才能抓住本质:力是物体运动状态改变的原因,而不是其维持运动的原因。而直到现在,物理学家研究一个真实问题往往也都是要基于一些理想模型。所以才会有“真空中的球形鸡”的段子,也就是在调侃物理学家根本计算不出来一只鸡的运动情况,除非假设这是一只在真空中的球形鸡。

信息论之所以可以建立,也是基于一项可以让通信问题不再千头万绪的洞察,而香农就是在这项洞察之上提出了 3 项通信理论的基本定理,奠定了信息论的基础。

香农为通信建立的基本模型

在香农的理论中,他将一个通信过程用这样一个模型进行描述。(引自香农的《A mathematical theory of communication》)熵与信息(四):如何用1 bit信息改变世界?

欢迎回到我们的硬科普系列「熵与信息」。在前三期的文章中,我们深入探讨了信息熵与热力学熵的奇妙世界,不少同学还意犹未尽,那就让我们继续深入这场关于熵的探索之旅,本期内容马上开始!

研究通信问题的困境

第一个是关于二战期间苏联间谍佐尔格。在当时,纳粹德国已经兵临莫斯科城下,斯大林在欧洲已经无兵可派,虽然在西伯利亚的中苏边界还有 60 万大军,却是需要防备日本。是否可以调动这部分兵力,取决于日本军部的战略到底是北上进攻苏联,还是南下和美国开战。

苏联间谍佐尔格向莫斯科发去了一条只有五个字的信息:“日本将南下”。

第二个是关于诺曼底登陆。1944 年,盟军决定从英国出发,横穿英吉利海峡在法国登陆。因为德军在法国的兵力有限,所以想通过情报确定盟军的登陆地点重点布防。而盟军则是传播假消息,让德军以为会在加莱登陆,结果在诺曼底登陆。

第三个是战国时期的长平之战。秦国主将先是王龁,后来换成了白起。不过秦国严格封锁消息,导致赵括轻敌冒进,赵国大败。

这 3 个消息都有一个非常重要的特点,那就是消息本身价值巨大,一个消息可以决定一个国家甚至是整个世界的命运。但是单纯从其消息量来看,似乎都是 1 bit 信息量。毕竟这些信息起来就是一个二选一的问题,日本是北上还是南下,盟军登陆是在诺曼底还是在加莱,秦国主将是王龁还是白起。

按照我们之前的介绍,这些消息的信息量应该和抛硬币一样,都是 1 bit,于是就可以很容易得出结论,信息量的大小和信息本身的价值并没有决定性的关系。

这个结论是没有错的,在上一集我们就通过兰道尔原理介绍过,1 bit 的信息量可以撬动的能量虽然有一个下限,但是上限可以无限大,对于物理系统能量越大往往就代表着价值越大。不过,前面的判断虽然结论正确,但是得出结论的前提却有问题。

因为那 3 个消息的信息量,到底是不是只有 1 bit 还并不是那么的确定无疑。

最容易想到的问题是,那些消息真的只是一个二选一问题吗?比如在事情还没有发生之前,盟军是可能选择任何一个地方登陆的,诺曼底和加莱只是在当时看来最有可能的两个,不代表其他可能性就是 0。

就算是真的只有 2 个选项,也并不意味着两个选项的概率就是相同的。临阵换将我们都知道是兵家大忌,所以当时赵括就认定秦国换掉主帅是一个小概率事件,还是非常合理的。而可能性越小则信息量愈大,如果当时真的有人给赵括传递消息说秦军主将换成了白起,那么这条消息的信息量一定远远超过了 1 bit。

其实,即便是一个事件的概率是公认的,想要分析出它在真实的信息传递中所包含的信息量,也非常麻烦。

比如,我们设想这样一个情况,有两个国家 A 和 B 很长时间一直处于和平状态,但是 A 一直担心 B 会率先发动战争,所以向 B 派遣了间谍。在间谍出发前就约定好了“没有消息就是好消息”,只有当 B 国决定发动战争的时候才向 A 国传递消息,平时处于静默状态。A 国的国王每天都会派人去检测间谍是否传递来消息。结果在第 100 天时,接收到了 B 国即将发动战争的消息。这种情况下,是不是可以认为 B 国发动战争的概率是 1% 呢?毕竟 100 次检查里只有 1 次有消息。

可这样的话问题就来了。如果同样还是在第 100 天收到了 B 国发动战争的消息,这个事实本身不变,但是检查的频率不再是 1 天一次,而是半天一次,这个时候就是 200 次检查里收到 1 次消息,难道这个时候这个消息的信息量要用 0.5% 的概率进行计算吗?如果真的是这样的话,一个消息的信息量是多少就太随便了。

讲到这里,我想大家应该已经能够体会出来在通信领域想要定量地分析问题有多么复杂了。其实这种千头万绪不知道如何下手的感觉,任何一门学科开创之前都是如此。而一门学科之所以可以创立,都是因为其创始人通过自己非凡的洞察,忽略干扰、抓住本质,最终才建立起一套自洽的理论。

就比如力学,就是因为伽利略的灵感爆发,排除各种阻力的干扰,才能抓住本质:力是物体运动状态改变的原因,而不是其维持运动的原因。而直到现在,物理学家研究一个真实问题往往也都是要基于一些理想模型。所以才会有“真空中的球形鸡”的段子,也就是在调侃物理学家根本计算不出来一只鸡的运动情况,除非假设这是一只在真空中的球形鸡。

信息论之所以可以建立,也是基于一项可以让通信问题不再千头万绪的洞察,而香农就是在这项洞察之上提出了 3 项通信理论的基本定理,奠定了信息论的基础。

香农为通信建立的基本模型

在香农的理论中,他将一个通信过程用这样一个模型进行描述。(引自香农的《A mathematical theory of communication》)

在这个模型中,原本消息从发送者出发被接受者接收这样的一个简单过程,被切割成了好几部分。说是好几部分,其实就是在消息的传递过程中又套接了一截,在这一截中原本有具体意义的消息,会被看作是只反映物理状态的信号。

换句话说,现实中一个信息的含义是和其物理信号绑定的,比如我对着旁边一人讲了一句话,这句话到底有什么意义一定是和声波信号深度绑定的。但是在香农的模型中,却将一个信息的意义和信号进行了分割,将其分别进行考虑。

消息(message)是对信息中所包含意义的抽象,它不考虑具体的物理信号(signal)。比如表示“正确”这个意义的消息,它的物理信号可以是 +5V 的电压,可以是举起一根手指,还可以是持续的光照,这个“正确”的意义是和具体物理信号无关的。

当然一个抽象的意义,也是无法进行传递。消息想要传递,那么就需要将其转化成物理信号,让消息和信号具有对应关系。这样在信号传递的过程中,就只需要考虑其物理过程,而完全不需要考虑信号到底有什么意义,物理信号的传递过程也就是通信领域所说的信道(Channel)。

香农这样做的意义是什么呢?

我们前面说通信问题分析起来千头万绪的很麻烦,为什么麻烦?一个很重要的原因就是一个消息到底蕴含着什么,其实是依赖于发送者和接受者对传递内容是如何约定的。当一个人和另一个人说“老地方见”的时候,这个老地方到底是哪里其实是依赖于他们主观约定的。而这个主观的约定其实非常不利于定量分析。

而上面的模型将信息传递过程分成了消息阶段和信号阶段,最大的意义就在于将传递过程中的主观因素和客观因素分隔开了。其中消息阶段,传递的内容,也就是用来描述消息的各种符号,还都是蕴含着主观意义的。而到了信号阶段,则是将主观意义剥除掉了之后,剩下来的光、电、声音等物理信号,这些信号本身并不具备任何主观意义。

进行了这样拆封之后,模型里的那个信号传递过程(也就是信道)就是一个纯粹的物理过程了,而对一个物理过程是完全可以客观地进行定量分析的。

香农三大定理

而香农也正是在这个基础模型下才用 3 个定理建立起了信息论的理论基础。

可能是某种巧合,香农建立信息论和牛顿建立力学都是用到了 3 个定理(定律)。值得注意的是,香农是定理,这些定理都是通过数学推导出来的,准确的说就是大数定律,不依赖于物理实现。

在牛顿 3 定律里面,最关键的是第二定律,正是在这里牛顿对力做出了清晰的定义。在香农的 3 定理里,同样也是第二定理最为关键,因为在这里他通过数学方式证明了,中间的信道传递信号是有一个能力上限的,也就是现在经常说的信道容量。而整个信息论的追踪议题都是如何才能最大化的利用这个信道容量。

比如,为了能充分利用信道容量,那么传递的消息应该信息量越来越高。那么在消息变成信号之前,就需要增加一个阶段,对消息进行编码和压缩。香农的第 1 定理,则是提供了一个压缩的标准,一个消息如果想要进行无损的压缩那么这个压缩的极限就是这个消息本身的信息熵。如果压缩后的信息编码没有达到这个指标,那就说明编码的方式还有继续压缩的空间。

香农的第 3 定理也是针对编码的,只不过考虑的不再是无损地进行编码了,而是为了提高效率,允许一定的信息损失。这个定理则是从数学上给了一个定心丸,只要编码的码长足够长,一定可以找到达到要求的编码方式。

第 1 和第 3 定理,我们下一次重点讨论,这一次重点来看一下香农第 2 定理。

互信息描述的是系统之间的联动性

在「熵与信息」系列的第二集里,我们就提到了互信息,在那里只是简单了说了一一下,互信息是两个系统共有的信息。具体什么是“共有信息”没有解释。理解这个问题很关键,但也是比较麻烦的地方。

为什么呢?不知道大家有没有注意到这样一点,信息论里的“信息”和我们平时说的“信息”还是有区别的。

第一个区别,我们平时说传递里信息,基本上就是说 A 把信息交给 B 的过程。这个过程有一个前提就是 A 是知道信息的,也就是说 A 的状态已经确定了,B 的状态是不确定的。信息传递就是让 B 的状态和 A 同步起来。

但是,在信息论里讨论到信息这个概念的时候要比我们日常中的那个过程更宽一点。也就是,A 在知道信息之前,也就是 A 的状态也是未确定的。

我们之前解释信息量定义的时候举过足球比赛的例子,我们如果把足球比赛看作是发送消息的 A,我们自己就是接收消息的 B,计算信息量一定考虑的是足球比赛发生之前的情况,如果比赛已经结束了,结果就是百分比确定的了,也就没有办法计算出希望的信息量来了。

我们在考虑互信息时说的 A 和 B 的共有信息其实也一样,一定是 A 和 B 处于不确定的状态才有意义。互信息所衡量的,用通俗的语言讲就是 A 和 B 的联动程度是怎样的。

如果不论 A 的状态怎么变,B 就是一个状态,那么互信息就是 0。当然这是互信息为 0 的一个特例,互信息为 0 严格来说就是 A 和 B 互相独立、完全无关。

第二个区别,是一个思考方式的转变。我们在思考这个问题的时候,不能把 AB 的关系想像成是 A 传递一个消息给 B 的过程,而是把 AB 当作是一个整体,它们分别代表着一个信道的两端。

A 和 B 之间一定有联动关系的,否则也不能用来传递消息了。这个联动关系具体是什么不重要,可以是 A 端发生了一个震动 B 端也会发生震动,也可以是 A 端亮了一下 B 端也会亮一些,还可以是 A 端的电压发生了变化 B 的电压也发生变化。

总之就是 A 和 B 之间的这个联动关系是通过物理关系确定的,不由传递和接收者的主观意图而改变。而互信息衡量着的就是 AB 之间的联动能力,这个联动能力其实也就是 AB 这个整体作为信道的通讯能力,也就是我们经常说的信道容量。

至于在传递消息的时候,具体如何利用 AB 的联动关系,某个物理状态可以代表什么样的信息,是不是能把 AB 的所能能力都发挥出来,是在编码阶段考虑的。

信道两端的关联性可以是概率值

举个最简单的 AB 信道,A 和 B 之间的联动关系是这样的:

1. A 只有 0、1 两个可能状态,B 也只有 0、1 两个可能状态;2. 当 A 是 0 的时候 B 一定是 0,当 A 是 1 的时候 B 一定是 1。

如果信道都是这样的话,那么其实也就没有必要去分析 AB 的联动能力了,但凡是 A 确定了一个状态都能准确地传递给 B。

不过,现实情况肯定是要比这个复杂的。就比如完全可以有这样一种信道:

1. A 有0、1、2、3,四个状态,B 有0、1、2、3、4、5,五个状态;

2. 当 A 是1的时候,B 一定是0;当 A 是3的时候 B 一定是1;

3. 除了这两种情况,A 和 B 的其他状态都是独立的。也就是如果 A 是0、2任何一种状态,B 都会得到一个随机结果。

首先可以确定,上面这种情况一定是一个有效的信道,因为 A 和 B 之间存在着联动关系,只要有联动关系就可以传递信息。只不过这个联动关系就不是 A 的所有状态和 B 的所有状态的联动了,而是 A 和 B 之间有一些无效状态,这些无效状态就不能算作 AB 信道的容量了。

在这种情况下是不是就要复杂一些了。不过,即便是这样,AB 的通信能力还是没有必要特意分析,只要在编码的时候排出掉无效的状态,剩下的就可以进行百分百有效的通信了。

情况还可以再复杂一些,当信道中增加上了噪音,事情可能就没有那么简单了。比如(这也是教科书里提到的 BEC 信道):

1. A 有 0、1 两个状态,B 有 0、1、E 三个状态;

2. 当 A 是 0 的时候,B 有 1-α 的概率是 0,当 A 是 1 的时候,B 有 1-α 的概率是1;

3. 当 A 是 0 和 1 的时候, B 都有 α 的概率是 E。

这个信道其实就是传递的信号有一定的概率受到噪声影响,影响的方式是输入的信号有 α 的概率会被擦除掉变成 E (E 代表 erasure)。也就是说,A 和 B 之间肯定还是有关联关系的,但是这个关联的能力就不是那么确定了,依赖于其中失效的概率 α。

首先,这样的信道也是可以传递信息的,如果担心会丢失信息,也是可以通过编码的方式进行优化。举个例子,假如这个信道里的参数 α 是 10%,也就是说 A 发送的信息有 10% 可能会丢失。但是如果我们在编码的时候经过一些设计,是可以让信息的可靠性大幅增加的。比如 :

1. A 需要传输“对”、“错”两个信息,其中“对”编码成 111,“错”编码成 0002. B 接收到信号解码的规则是,每次接收到 3 个信号解码一次●如果接收到的 3 个信号里面1的数量大于 E 的数量,比如“111”、“1E1”、“11E”,那么解码成“对”;●如果 B 接收到的3个信号里面0的数量大于E的数量,比如“000”、“00E”、“0E0”,那么解码成“错”;

这样编码之后,只有 3 个信号里有 2 个信号同时丢失才会导致消息传递失败。1 个信号丢失是 10%,2 个信号同时丢失那么概率就是 10% × 10% = 1%。那么这个信道这个时候的准确程度就是 99% 了。

当然了,这样的方法肯定是会损失一定的传输效率的,毕竟用了 3 个信号代表一个消息。所以,面对这样的现实的情景,如何设计一个信息传递方式,就要考虑“效率”和“正确率”之间如何权衡,这就是编码和压缩阶段要考虑的问题了。

虽然我这里举的例子很简单,但是在现实情况中如何改进编码是很复杂的一件事。而香农第 2 定理的意义就是提供了一个标准,在保证传输正确率的前提下,传输速率的上限是多。有了这样一个标准,在进行编码设计的时候,就有了一个目标和判断标准,知道这个编码方式还有多大的改进空间,是不是还值得花精力去改进。

如何对联动能力的定量描述

AB 可以传输信息的能力上限,一定是把 A 和 B 之间的联动能力全部都发挥出来了。关键是如何定量的衡量 A 和 B 之间的联动能力。

如果让你去设计 AB 联动能力的定量描述方式,你会如何设计呢?一下子肯定没有头绪,不过我们可以确定,对于这个定量描述应该有这样几个要求:

1. 只衡量 AB 互相联动的部分,不联动的状态不被考虑;2. 不只可以衡量 A 和 B 之间确定的联动关系,还可以衡量 A 和 B 之间不确定的联动关系。比如当 A =1 时,B 有 80% 为 1。3. 定量描述出来的结果,要和之前介绍过的信息量统一起来。比如,AB 信道的容量是 20 bits ,信道容量是用 bit 进行衡量的。

其中的 1 和 2 两点比较简单,因为概率论中有现成的工具可以用——条件概率。例如 ,表示 A 发生了之后 B 发生的概率。所以前面介绍过的 BEC 信道,它 A 和 B 之间的联动关系就可以这样表示:

至于第 3 个要求,要实现就比较有挑战了,这也是香农有创造性的地方。我们现在已经没有办法去还原香农当初是如何想到的,不过我们可以做出一些合理的猜测。

,这是熵的定义。它和信息量的定义是统一的,单位都是 bit。

前面 X 可以代表任意一个系统。那么当这个 X 代表的是一个信道会如何呢?这个 X 将会由 A 和 B 两部分组成的,其中 X 的全部事件集一定是:

所以用 A 和 B 表示的熵就可以是如下的样子

这个也叫做 A 和 B 的联合熵,其中是 A 和 B 的联合概率。如果对概率论有一定了解那么一定知道,联合概率有这样的性质:

如果 A 和 B 完全独立,也就是 A 和 B 没有联动关系,那么:

,也就是,因为A 不论如何都不会影响到 B 的概率。

如果下面这个图表示 A 和 B 的联合熵的话,其实可以看出来这个熵是由3部分的。

因为整个 AB 的熵表示整体的不确定程度,那么部分①表示的应该就是“当 B 确定后 A 还剩下的不确定程度”,我们可以用表示这部分的熵(条件熵)。部分②也类似,表示的是“当 A 确定后 B 还剩下的不确定程度”,用条件熵表示。那部分③就一定是在表示的当 A 确定后 B 也随之确定的部分,也就是 A 确定后 B 反而减少了的那部分熵。因为这部分描述的是确定的情况,所以就不叫“某某熵”了,而是叫“互信息”,用表示。

从图中可以看到一定有这样的结果:

简单变化之后,就可以得出:

至于这里的条件熵和互信息的具体定义,我就不具体推导了,它们分别按照下面的方式进行定义的:

如果感兴趣,你可以亲自推导一下看看上面这样的定义是不是满足我们前面提到的那些等式。我们这里当然最关注的就是互信息了,对于互信息,这里只提一点,当 A 和 B 互相独立、完全没有任何联动的时候,也就是的时候,互信息定义里的这部分运算结果是 。于是最后的互信息就是,符合我们前面的描述。

其实即便是不看互信息的数学公式,从前面的描述中也可以知道,互信息就是 A 和 B 可以联动的最大能力,而且这个能力还是用信息量表示的,也就是说 AB 这个渠道最多可以传递的信息就是

信道容量是AB之间互信息的最大值

既然这样的话,是不是一个信道可以通过的最大信息量就是这个信道的互信息了呢?其实还不是,因为互信息,它的大小有两个因素决定,一个是,另一个是。这里的是由信道的物理性质确定的,是一个固定值,但是并不是确定的。代表的是一个信息源如何发信息,这件事是是由发送者决定的。比如前面提到的 BEC 信道如下:

A 正常传输状态 1 的概率,比正确传输状态 0 的概率要大。信道确定了,所以这里的就是确定的。但是具体传输的时候是多传一些 1,还是多传一些 0,这是由编码决定的。比如可以有两种编码方案:

显然方案 1 里,传递的状态 1 更多,正确率更高。也就是说方案 1 的互信息要比方案 2 的大。香农也是考虑到这一点,所以他对信道容量的定义并不是互信息,而是所有发送方案里互信息的最大时的值:

符合表示将 A 的概率分布作为变量,然后取其后函数 (也就是) 的最大的值。

C 作为信道容量,其实就代表了这个信道传递信息的最大能力。虽然完全不同,但是我们还是可以做个类比,将一个信道想象成是一根水管,信道容量就是这个水管的口径,那么这个水管最大可以通过多少水量呢?

在通信领域,这个“水量”对应的就是信息的传递速率。传输速率,其实就是一个消息在编码之后每个符号的平均信息量。

比如说一个消息,它最后编码成的信号是“101010... 1011”一共有 n 位,这个消息传递的信息量是 M(比如这个消息是“硬币投出了正面”, ),那么这个消息的平均信息量就是 ,这个其实也是这个信息在这个编码下的传输效率 (或传输率)用 R 表示。

凭直觉我们应该可以想到,信道的传输速率不能超过信道容量,超过之后会如何呢?这其实才是香农第二定理正在回答的问题。

香农第二定理是证明了,如果传输率小于信道容量 (R<C),那么这个信道传输消息的错误率的下限 (用 μ 表示)可以是 0(也就是可以做到无损传输,具体怎么做还要看编码方式),但是如果传输率大于了信道容量 (R>C)那么这个信道传输的错误率下限(也就是最好传输效果)等于。即:

信道里的噪声决定了信号的发送方式

信道容量 C 是最大的互信息,这一点没有问题。但这也是一种最基本的理解方式,虽然直观,但是却和我们平时分析问题的习惯还是不一样的。我们几乎很少直接分析等于什么,而是将 B 看作是 A 发送的信息和一个噪声叠加后的结果。假如说我们用+5V 电压表示 1,0V 电压表示 0,A 和 B 之间虽然由导线相连,但是其中会叠加上一个噪声,这个噪声会随机地给电压增加 -0.5V—0.5V 。如果用 N 表示这个噪声的话,那么其实我们可以用 B=A+N 的方式表示从 A 传递到 B 后的结果。

所以就可以表示成,那对应的熵也就可以表示成。这里可以利用一个关于熵的性质,在给的 A 的情况下,A+N 相当于对应噪声 N 的概率分布进行了平移操作(平移了距离 A 的期望),如果 N 原本是一个期望值是0的高斯噪声的话,那么

而平移是不会改变熵的大小的。于是就有:

再因为噪声 N 是独立的,不受发送信息 A 的影响,所以:

结合就可以得出:

这里等候右边的第一项是接收信号的熵,第二项是噪声信号的熵。一个信道的容量 C 是互信息的最大值,如何才能让 AB 的互信息最大呢。可以从上面公式看到,第二项噪声是信道的物理性质决定的,我们无法更改,在这种情况下还想提高互信息,只能尽可能的让接收信号的熵更大。

接收信号的熵越大互信息越大,这个如何理解呢?可以这样想,接收信号的熵越大,代表着具体信号的数值越不确定、越分散,接收的数值越分散就越利于我们从中辨别出更多细节,进而还原出发送的信息是什么。

当然了,如果有可以选的话,还是尽可能选择噪声熵小的信道。不过很不幸,日常生活中接触到的信道噪声,往往都是高斯噪声,也就是噪声的值遵守正态分布。而高斯噪声又是所有情况中熵最大的分布。

如果信道的噪声是高斯噪声的话,那么信息源应该如何发送信息才能让 AB 之间的互信息最大呢?根据公式其实可以计算出来,只有当 B 也是正态分布的时候互信息才会取得最大值。

A、B、N 都是正态分布,那就好办了,因为正态分布的概率密度函数是已知的,所以它的熵也就是已知的。假如随机变量 X 是一个正态分布,那么它的概率密度函数为:

将它带入到熵的定义:

最后就可以得到:

上面这个严格来说是微分熵,因为正态分布是连续的。而信息熵是针对离散情况的。虽然微分熵和信息熵的意义还是有所不同,不过在这里可以不做区分。

从上面正态分布熵的公式可以看出来,这个熵之和正态分布的方差有关,和期望没有关系。而一个物理信号的方差和能量是有直接关系的,能量越大信号的方差就越大。所以最后决定高斯噪声熵的,就是信号的平均能量的大小了。

假如发送端 A 信号的方差/能量用 S 表示,噪声 N 的方差/能量用表示,那么 B 的方差/能量就是(正态分布的性质)。

于是高斯信道的容量 C 就可以直接写成:

到这里,信道容量 C 就和信号与噪声的能量比值有关了。现在考虑的都是一次传输的情况,如果信号是连续传输的,那么可以更进一步将 C 写成:

这里的 B 是带宽,也就是说凡是频率大于 B Hz 的信号都直接抛弃,只接收频率在 B Hz 以内的信号。

在通信领域里面有一个非常重要的采样定理——奈奎斯特–香农采样定理。这个定理就是说,对应一个频率为 f Hz 的信号,只要以 2 倍的频率进行采样进行离散化处理,那么就可以做到不损失信号质量。

所以针对一个连续的信号传递,因为限制了带宽,所以只需要以 2 倍的信号频率(也就是 2B 的频率采样),就可以保证这个信号不损失质量。也就是说,1 秒钟要使用 2B 次信道传输信息,而每次使用信道所能传输的最大信息是多少?也就是前面计算出来的 C。于是就有了 :

这里的就是所谓的信噪比(SNR),你可以把它们理解成是信号和噪声的平均功率之比,也可以理解成单次使用信道时信号和噪声的能量/方差之比,结果都是一样的。毕竟功率也就是能量除以单位时间,信噪比是一个比例关系,所以分子分母的单位时间就被被抵消掉,最后的结果不变。

讲到这里,对于香农第二定理的重要内容就介绍完了。虽然整个过程会比较抽象,涉及到很多数学过程。毕竟香农第二定理本质上就是一个数学定理。不过,即便是没有办法完全理解其中的数学推导过程,互信息、信道容量容量这几个概念本身就可以在日常生活中帮助到我们了。

如何将互信息利用到日常生活中

我相信只要是进入职场的人都有过这样的经历,每到一个公司,都被要求去记一下企业的愿景、战略、价值观之类的内容。

但往往一个公司的这些东西都是一些,“以人为本”、“坦诚公正”、“顾客就是上帝”之类的大话、套话。可你想过为什么会有这种感觉吗?

我记得有人讲过,一个企业有效的价值观,不是从一个正确和一个错误的选项里面选择了正确的选项,而应该是从两个正确的选项了选其中之一。要想验证一个企业的价值观是不是有效,只需要看一下,这个价值观的反面是不是同样是一个正确的内容。

以人为本、顾客就是上帝,它们的反面很难说还是正确的。扎克伯克给 Facebook(现在的 Meta)设定过的一个工作理念——“完成大于完美”,它的反面是什么?是“完美大于完成”。这同样是一个正确的表达。

为什么反面也是正确的价值观会更有效?从信息的角度去看,很简单,因为这样的价值观和员工之间的互信息更大。告诉你一个你已经知道的信息,这个信息量几乎等于 0,而告诉你的信息是你之前不确定的,它的正面和反面都有同样的可能,那么这个消息的信息量至少等于 1 bit 。

当一名员工在工作中面临抉择不知道怎么做的时候,他是处于不确定状态的,他非常需要接收一些信息帮助自己做出抉择。这个时候这名员工想起了企业价值观,或者说企业价值观传递给了他一个信息,那肯定互信息更大的那个企业价值观对他更有帮助了。

还有,现在的短视频平台上为什么营销号内容、渲染情绪的内容那么多?如果把短视频平台的这种形式看做是一种信道的话,那么这个信道的干扰和噪声是极大的,轻轻一划整个视频的后半截信息就会完全丢失。噪声大就代表着整个信道的容量小,我们前面介绍过只有当信息的传输率 R 小于信道容量 C 的时候才能做到无损传输。

如果一个视频传递的都是受众之前完全不了解的硬核科普知识,那么这个视频的信息量一定是非常多的。相同的时间,需要的信息传输率肯定也非常高。于是很容易导致 R > C ,最后导致错误率极高。

如何才能降低传输率呢?只能是在视频里面讲那些受众本来已经认可和愿意相信的内容了。在这方面,贩卖情绪的营销号内容当然就更具有优势了。

我们自己作为信息接受者,如何才能尽可能避免这种情况呢?简单地讲,当然是拓宽信道容量了,可具体怎么拓宽呢?一方面是选择噪声更少的平台,另一方面是自己接受端这边可以多花时间、放慢速度。当然,这些都是些基本操作。还有另外一种方式就是,在你选择相信某个内容的观点的时候,别完全放弃那些和你观点相反的内容,这样再做出选择才会减少更多的熵。

内容资源由项目单位提供

评论
中气旋
少师级
改变世界
2025-02-22
Baidu
map