吴军《信息论40讲》小结

对得道App上面吴军对信息论40讲的个人小结。

信息熵

信息熵是香农提出的用来度量信息量的物理量,其满足以下三个特性:

  1. 单调性:发生的概率越大,信息量越小
  2. 非负性
  3. 可加性

香农在1948年的《通信的数学理论》中给出了信息熵的一种形式,并且证明这是唯一的一种形式。 信息熵为信息编码提供了理论的最优值,是实用编码的平均码长的理论下限,也就是无损压缩的最小值。

下面是信息熵的数学定义:

信息熵

比特

1比特信息:描述一个发生概率50%的事情发生或者不发生的信息的信息量。

信道容量

香农在《通信的数学理论》中从理论上证明,只要通信速率小于信道容量,总可以找到一种编码方式,使得错误率接近于零。信道容量由带宽和信噪比确定。 信道容量就是信道的临界通信速率值。

下面是香农给出的信道容量的数学公式:

信道容量

哈夫曼编码

最短编码:哈夫曼编码及其在平时做事时的原则

哈夫曼编码:将最优质的资源(短码)分配给最高概率出现的信息。

哈夫曼编码对我们做事的指导原则:将有限的资源分配给最可能出现的情况,比如投资。

信息正交

信息正交性:在信息很多的情况下如何作决策?

互信息

互信息:相关不是因果,那相关是什么?

信息增益

条件熵和信息增益:你提供的信息到底值多少钱?第一个提出某个观点的人最受人瞩目,附和的人很少被关注到。

香农第二定律

香农第二定律(一):为什么你的网页总是打不开? 香农第二定律(二):到底要不要扁平化管理?信道带宽和人际沟通

信息编码中的错误

纠错码:对待错误的正确态度是什么?

冗余在信息中的作用 如果一段文字没有冗余(文字大小严格等于信息熵),即所谓的“字字珠玑”,那么将非常难以理解。如果能从不同侧面加以说明(比如说,也就是说),将易于理解,但势必带来大量信息冗余。

在信息编码和通信领域,信息冗余可以用来较验信息或者对错误信息进行纠错。

奇偶校验

工作方式

用额外的一位(bit)信息记录一串二进制信息中1的个数是奇数还是偶数,接收方可以根据这一位信息对数据进行验证。

优缺点

缺点

  • 奇偶校验并不总是有效,如果数据中有偶数个位发生变化,则奇偶位仍将是正确的,因此不能检测出错误。
  • 奇偶校验位是最简单的错误检测码,但是由于没有办法确定哪一位出错,所以它不能进行错误校正。发生错误时必须扔掉全部的数据,然后从头开始传输数据。在噪声很多的媒介上成功传输数据可能要花费很长的时间,甚至根本无法实现。

优点

但是奇偶校验位也有它的优点,它是使用一位数据能够达到的最好的校验码,并且它仅仅需要一些异或门就能够生成。奇偶校验被广泛应用

海明码校验

工作方式

如果一条信息中包含更多用于纠错的位,且通过妥善安排这些纠错位使得不同的出错位产生不同的错误结果,那么我们就可以找出出错位了。在一个7位的信息中,单个位出错有7种可能,因此3个错误控制位就足以确定是否出错及哪一位出错了。

优缺点

相比于奇偶校验,优缺点很明显:可以进行自动纠错,但是需要更大的信息冗余。

幸存者偏差:如何避免被已知信息误导?

幸存者偏差意思是指,当取得资讯的渠道,仅来自于幸存者时(因为死人不会说话),此资讯可能会存在与实际情况不同的偏差。只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。在“沉默的数据”、“死人不会说话”等等日常表达中,涉及幸存者偏差。

此规律也适用于金融和商业领域。存活下来的企业往往被视为“传奇”,它们的做法被争相效仿。而其实有些也许只是因为偶然原因幸存下来了而已。

读书无用论

如今很多人在说,谁谁谁当初没好好上学如今照样挣大钱,而好多用功读书的人,毕业后反而不如那些没好好学习的人混得好。并且因为这样的例子有很多,所以很多人得出“上学没有用处”,“读书无用”的结论。

这些其实只是个例,因为基数太大,所以看起来有很多。2010年第六次全国人口普查的官方口径,可以算出来大专以上文化程度的人口仅占总人口的8.7%左右。可以看出学历低的人数远高于学历高的人数,所以即便低学历者成功率远低于高学历者,也照样会导致低学历者出现大批成功人士。

对于高学历者,普通人既会关注成功的人,也会关注那些没成功的人,并且高学历却落魄的人尤其受关注,容易被当做新闻报道;而对于低学历者,普通人往往只关注成功者,忽视了广大学历低又没成功的人。正是因为忽视了这些“沉默的数据”,才产生“读书无用”这种错误结论。

飞机问题

在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼。其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航。

举一个与之相同的例子,经过枪击案而活下来的人当中,手部和腿部中弹的居多,而击中头部和心脏的少之又少,正说明了人的头部和心脏对死亡率的影响更大而不是手和腿。

奥卡姆剃刀法则:最简单的往往是最有效的

这个原理称为“如无必要,勿增实体”,即“简单有效原理”。正如奥卡姆在《箴言书注》2卷15题说“切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。”

地心说和日心说的发展过程清洗地展示了奥卡姆剃刀法则。

托勒密地心说

在托勒密之前,很多人就对宇宙模型进行了建模,但是过于复杂。托勒密力求以最简单的假设对各种现象作出统一的解释,这就是“简单性原则”。这也许就是奥卡姆剃刀的雏形。托勒密基于这种原则和当时人们所接受的动力学原理,提出了自己的地心说模型。后来,天主教教会接纳此为世界观的“正统理论”。

日心说和牛顿万有引力定律

虽然托勒密的地心说相比于之前的情形已经简化了很多,但是仍然不能很好滴解释很多新的天文观测数据。

尽管如此,信奉地心说的人们并没有认识到这是由于地心说本身的错误造成的,却用增加本轮的方法来补救地心说。起初这种办法还能勉强应付,后来小本轮增加到80多个,但仍不能满意地计算出行星的准确位置,这就不能不使人怀疑地心说的正确性了。

而牛顿的万有引力定律是那么简单完美地解释了一切天文观测数据,因此,日心说才替代地心说,称为主流观点。

熵增原理 为什么要保持系统开放性

熵增原理,即热力学第二定律,指的是孤立热力学系统的熵不减少,总是增大或者不变。熵增原理用来给出一个孤立系统的演化方向。说明一个孤立系统不可能朝低熵的状态发展即不会变得有序。

如果一个人严格封闭了自己,那么也不会进步(熵减少,更有序)。只有通过和他人沟通学习(吸取负熵),才能进步。一个公司,一个国家也是如此。

控制论,轻预测重反应,称为变色龙

主要是反馈论,包括从功能的观点对机器和物体中(神经系统、内分泌及其他系统)的调节和控制的一般规律的研究。

反馈论

反馈论主要包括正反馈和负反馈。

正反馈

正反馈是指反馈信息影响系统再输出的结果,更加增大了受控量的实际值和期望值的偏差,从而使系统趋向于不稳定状态。

两个话筒离得很近的时候,“尖叫声”会越来越大,即是正反馈所致。

一般所谓的“恶性循环”即包含正反馈的概念在里面。比如,一旦一个人别贴上了某种标签,他就会更加快地越来越像这种标签描述的人。

生理中,正反馈的意义在于使生理过程不断加强,直至最终完成生理功能,在正反馈情况下,反馈控制系统处于再生状态。体内常见的正反馈现象:排便,排尿,分娩,凝血,射精等。

蜂后的形成过程也是一个正反馈的过程:起初两个蜂是一样的,都会分泌一些抑制对方成为蜂后的化学物质,但是由于起初两只蜂分泌的数量有了一点点差别,导致一只会向蜂后方向发展的快一点,由于快了一点点,分泌出的抑制对方的物质就回更多一点,反过来促使其向蜂后发展的更快…(记不太清楚这是不是蜂后的演化过程了,也可能是某种细胞的分化过程。)

负反馈

负反馈是指反馈信息影响系统再输出的结果,减小了受控量的实际值和期望值的偏差,从而使系统趋向于稳定状态。

工业系统中的PID控制即是典型的负反馈应用。

汽车的巡航定速系统可以作为负反馈的另一个例子,它会使得车速符合一个预先设定的速度上限。汽车的控制系统的输入包括引擎的扭力和路面的坡度(扰动),而速度计可以测量车速。速度计得到的车速和目标速度(预先设定)之间的差距就是误差信号。控制器接收到这个信号之后会改变加速度,控制流入引擎(效应器)的燃料增多。于是,引擎扭力发生改变,和路面坡度相关的扭力输出的反馈减少了速度的误差,缩小了路面造成的扰动。

在管理上的应用

从控制系统的主要特征出发来考察管理系统,可以得出这样的论:管理系统是一种典型的控制系统。管理系统中的控制过程在本质上与工程的、生物的系统是一样的,都是通过信息反馈来揭示成效与标准之间的差,并采取纠正措施,使系统稳定在预定的目标状态上的。因此,从理论说:适合于工程的、生物的控制论的理论与方法,也适合于分析和说明管理控制问题。

系统论

找准系统瓶颈,使部分之和大于整体,而不是相反。