对于信息论的认识-语言文字网YYWZW.COM为最广泛的汉语汉字爱好者搭建交流平台

对于信息论的认识

二十世纪四十年代末C E SHANNON建立了一套计算信息数量的方法。下面是1980年，华南工学院欧阳景正发表在‘语文现代化’上的‘信息论与文字编码通信’中的部分内容：“我们可以根据事情发生的大小，用下式计算信息量 I ：

I＝－logP (1)

式中P是收到的消息中所指的事件的概率。log意思是‘对数’。概率P总是小于1的数，它取对数以后是负数。为了使信息量是一个正数，所以上式冠以负号。取对数的原因是为了方便数学处理。通常，对数取2为底。这时候，信息量的单位是二进制的，简称‘比特’ bit(它来自英语binary的 b和 digit的it，笔者注) 。有了(1)式，我们就可以对信息进行定量计算。例如，可以计算中文电报的信息量。通常中文电报是一串阿拉伯数字。假定每个阿拉伯数字出现的可能性是相同的，即每个数字出现的概率为十分之一。那么我们可以计算出收到每个阿拉伯数字所含的信息量为I＝－log₂1/10=3.3比特，因而每个汉字是4×3.3=13.2比特。(用另一种方法来叙述就是：如果常用汉字的数量在一万以内的话，那么用2的13次方的信号就一定可以表示它们，笔者注) 从平均的角度去考虑，消息所含的信息量应该乘上事件发生的概率。即

I＝－PlogP (2)

下面我们利用(2)式计算一封10000个字母的英文信所含的信息量。假定每个字母都可以等可能性出现。英文字母共26个。如果把空白也算作一个字母，那么共有27个字母。于是每个字母出现的概率为1/27。每个字母的信息量均为－log₂ 1/27=4.76比特。拿27个字母来平均，得到的结果也是4.76比特。一万个字母共有47600比特的信息量。如果考虑各个字母出现的概率不相同，那么每个字母的平均信息量为

I＝－MP_ilogP_i(3)

式中，P_i是i个字母出现的概率。在电子计算机和电报通信中，把‘空白’(space)也算作一个‘字母’(可以称为‘零字母’)，所以，一共有27个字母。M是来自希腊字母的代号，表示‘总和’。上式表示从i＝1到 i ＝27这27个字母的数据总和。

根据统计结果，英文字母的出现概率如下表所示：

字母	概率	字母	概率	字母	概率
空白	0.2	S	0.052	Y,W	0.012
E	0.105	H	0.047	G	0.011
T	0.072	D	0.035	B	0.0105
O	0.0654	L	0.029	V	0.008
A	0.063	C	0.023	K	0.003
N	0.059	F,U	0.0225	X	0.002
I	0.055	M	0.021	J,Q,Z	0.001
R	0.054	P	0.0175

把它们代入(3)式可以算出每个字母的平均信息量为4.03比特。由此可见，字母的出现概率愈均匀，信息量愈大。在极端情况下，27个字母中有26个出现的概率为零，一个字母出现的概率为1，则信息量为零。

从上述的例子可以看到，字母以等概率出现时，每个字母所含的信息量最大。但是实际情况是字母出现概率不相等。这样，每个字母所含的信息量就减少了。换句话说，要传输同样的信息量，字母以等概率出现时所需的长度(即字母个数)最短。从传输信息量的角度来看，这是最理想的情况。因为可以用最少的字母传递最多的信息量。然而，实际的语言或文字总是达不到上述的极限。就是说，传输同样的信息量需要较多的字母。与理想情况相比，实际的语言或文字具有一定的多余性。从信息量的角度来看，这似乎是不利的。但是，我们将会看到，由有了多余性，使人类的语言或文字具有一定的抗干扰能力。有时候，我们甚至人为地加入一些多余性以换取较强的抗干扰能力。所谓抗干扰编码就是这样做的。

英文的多余性，不但表现在字母出现的概率不相等，而且还表现在字母前后之间有一定的相关性。例如，前一个字母是T，跟着的字母是H的可能性就比较大。T后面跟着Q几乎是不可能的。同样，IN后面是G的可能性较大，而后面是Y的可能性较小。如果考虑英文中的两个字母、三个字母或多个字母同时出现的概率，那么英文的多余性更大，也就是每个字母平均含的信息量更少。SHANNON用实验方法测定了英文句子里每个字母所含的信息量约为1.9比特左右。比起字母概率相等的情况 (4.76比特)，日用英语的多余性是很大的。SHANNON的实验是很有趣的。首先写一个英文句子，包括空白在内共103个字母。找一个人来猜这个句子。从第一个字母猜起，直到把整个句子猜出来为止。把对每个字母猜测的次数记录下来。整个句子总共要猜198次。把猜测次数除以字母数就得到每个字母的信息量为1.94。用不同的实验方法测定英文字母所含的信息量，发现出入不大，都是1.9比特左右。”

信息论将无始无终的信息理出了头绪，有一点像笛卡尔为无限的空间设立了坐标。将信息量定义为I＝－logP是因为在计算信息的时候需要将每一个个体信息与整体信息同时对比、考虑，P已经将个体与整体联系在一起了。它表明每个符合在总体进行表达时所占的份额。首先，当总体符号的个数是N的时候，如果每个符号出现的概率均等，那么出现的概率将是1/N。其次，当N增大的时候，I＝－logP的值增大。上例中对于中文信息的解说就表明这一点；阿拉伯数字为3.3比特，而用它来表示的汉字(在10000以内)13.2比特。假设目前的英语有一百万个单词，那么，它们的信息量将是3.3×6=19.8这说明符号的数量越大，每个符号所储存的信息量就越大。之所以采用以2为底的对数，是因为SHANNON当年计算的是以点和杠组成的电报，它是二进位数，用以二为底的对数就可以直接看出用多数个点和杠能够区别某一组符号中的一个。按照这个观点，每个汉语的发音所含的信息量也应该大于每一个英语的发音所含的信息量。但是，但我们用(3)式衡量的时候会发现英、汉每个发音的信息量之差可能与理想值有区别。这并不能说明什么问题，因为有些东西是不能比较的。汉语的每个发音都代表一个固定的意思，而英语的每个发音则不然。所以即使信息量上面有些不同也根本不能够说明什么问题。
所谓的信息量并不是真正代表信息的数量，而是各个符号之间相互区别的能力。也可以认为是将整个人类的知识划分成多少份的一个指标。至于当它们与意思相连接的时候，尤其是考虑到每个人头脑中所记住的知识时，以同样的方法看问题就不合适了。比如十个阿拉伯数字中每一个都有固定的意思，但是二十六个英语字母就没有任何固定的意思，充其量也只不过是一个单个意思(单词)的几分之一。如果你硬要说二十六个字母比十个阿拉伯数字表达的意思多那么就成了数学游戏了。此外，选择样品
的数量不能变。否则，同样一个单词，在当年英语只有一万个单词时，信息量为13.2而如今英语单词达到一百万时其信息两就变成了19.8？所以，信息量只是在考虑符号间互相区别，而总体能够负载多数信息时才有意义。而在计算某一个符号到底能够表达多数意思时，意义不大。SHANNON所做的试验也并不完全。他的1.9比特是在节省试验的人认识并较为熟悉那个英文句子的情况下才能成立。也就是说，至少是当时的数万英语词汇中能够被大多数人认识和使用的词汇才有可能得出这个结果。如果超出这个范围情况会是怎样？只要有一个单词是接受试验者从未见过的，那么英语字母的信息量可以是任何数。

信息论虽然从漫无边际的信息中找到了一种可以计算的方法。语言学家用它来讨论语言的时候，其本意也是找到一种能将全世界语言统一考虑的方法。但是由于没有可比的单位，它还是不能和语言直接联系在一起。所以SHANNON在该文的序言开始就声明：“它与意思的组织方法绝无关系。”而且，语言学界也一直不认为它对于语言研究有多大的启发。因为信息；论研究的基本单位毕竟是26个字母的使用概率。而26个字母中的每一个字母都都是没有实际意义的符号。所以，信息论在语言学上的意义有些类似汉语中讨论究竟每个汉字需要几笔几划？此外，东西方语言之中可比的东西很少。我找了很久才找出声音的数量上有些可比性，所以将信息论的观点引用到汉语中不太适合。也许，如果能够找出东西方各种发音出现的信息量后可以近似地比较。

相关内容：素质教育　科技术语的规范　对于信息论的认识　对于汉文优势的主要反驳意见（一）（二）（三）