湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

§2.2 争鸣阶段

 

当计算机进入我国市场,汉字编码作为专利技术开始热闹起来。到1986年,全国已有五六百个编码方案了。所有的设计者都觉得只有自己的设计最好。因为,从开始设计、编码本、到做成输入软件,设计者对每一个汉字的代码已经弄得滚瓜烂熟,不需要什么记忆了,自己就会认为是很好学的;而对别人的方案,只懂得一点皮毛,没有很认真地学习和研究,心里还有一些抵触,就会觉得不在话下,而不去进行认真的对比研究。于是,我国为出现了一个研制编码的热潮,它的设计也由此进入了争鸣阶段。这时出现的编码主要有笔形码、形音码、字根码和部件码四大类。尽管其中很多是无效劳动,但这是编码设计发展的必然历程。我们现在必须对它们作全面的理性分析,必将有助于方案设计的成熟和完善。

一、汉字编码的主要派别

(一)笔形码

有四角号码以及其他的检索排序方案作为基础,人们认为有序的基本笔画加上有序的数字,利用键盘上的数字键就能够编为代码进行输入。这种编码方法有别于四角号码。四角号码用的是汉字的四个外角笔形,没有规定的标准和数量,设计者可以自由确定,例如四角号码中的“方”和“叉”,它并不是“笔形”,而是某些结构。汉字有这么多的结构,不的人可以多选,有的人可以少选。代码用数字,也同样存在着可以自由确定对应的问题。例如四角号码确定0—9等10个数字为码元,而笔形码只用了1—8等8个数字。笔形码的进步就是把采用汉字字形的信息,从字的外角转移到字的内部。汉字的笔形是有确定的数量的,是无法随意多起来的。这总比可以随意增加的四角笔形要好得多。基本笔画的笔形又是有序的,与有序的数字对应也比随意确定的对应容易使人接受。学习的人就会觉得它易学易记。这就是有理化的启示。

汉字是由二十多个形状不同的笔画构成的。其中最常用的笔画只有横、竖、撇、捺、点、折六类,其他笔形使用量少,也可以合并,归入这几类之中。点与捺在组字时经常相混,例如“木”,整个书写时末笔为捺笔,作左偏旁时便成为点笔。因此,编码设计者都把它们合并为一类。折笔有横折和竖折的不同,有的设计者便把它们分两类。全国统计有不少的笔形码,如李金铠的“笔形码”,张敬斋的“单笔形笔顺编码”,申敬文的“汉字五码检字法”等等。直到最近还有一些关于笔形码的报导。例如温州的张天明,花了二十多年的时间,搞成了一个笔形检索的编码,最近才进行了报导。

笔形码是汉字作为计算机输入编码的第一步实践。它所产生的问题,实际也就是它的贡献。

采用笔形作为编代码的要素,数量少,可以定量,对应代码方便,开始时会使人觉得简单易学。但到进入码本演习时,人们会觉得事实并非如此。其主要问题是:

1.五六个笔画以上的汉字占大多数,要从汉字中抽取笔画编为数字,比较麻烦;

2.数字作为笔形的代码不具有唯一性,可以主观规定代码;

3.构成汉字的笔形,出现的组字频度,不是相对匀称,基本笔画(横、竖、撇、点、捺、直折、横折等)出现频次,前后相差很大,例如横笔,一般总是最早出现,次数最多;

4.汉字以形声相拼为多。形旁四五个笔画以上的很多,如把这些笔画排成线性形式,在一定的长度内都是重码,只有增加码长,才能区别;

5.一般的汉字,结构上都以横竖笔为始。用笔形作为分类的依据,就会使横、竖笔形形成一大堆,而其他的笔形只能占一小块,造成分类的不均匀性(字根码中用笔形分类就出现了这个毛病);

6.采用拆分减少码长,拆分的规则定不下来。李金铠的笔形码用一分为二的方法,但在实践中表明有很大的困难;

7.笔形会随着部件组字的位置发生变化,例如“雨”,组成“霜”时,竖笔就成为点笔;又如“月”,第一个笔画是撇笔,但在组成“肖”时就变成了竖笔。按笔形设置代码,就得逐个进行规定。

归根结底,用笔形给汉字组字的编代码,不符合汉字造字原理,违背认知心理规律。

在计算机进入我国市场的初期,李金铠的笔形码曾经占领市场。那时,只有少数的几台计算机,价格昂贵,只作为科研计算之用,用字量很少,也不讲究打字速度。后来,由于专业打字市场的出现,输入速度成为主要矛盾,它就被王永民的字根码取代,无法再与之竞争。后起的笔形码虽然比李金铠码好,也就没有办法重创佳绩。

笔形码使用笔形或某些特征,背离汉字的造成婚历史和造字方法,不符合中国人的认字习惯和认知心理。因为中国古代的造字法始用象形造字,即按所见物象的形状,画出图形称为象形文字。这些最简单的象形文字称为“文”。后来人们需要表达的信息多了,简单的“文”不够用,就以“文”与“文”相拼再造出一些“字”,称为会意字或指事字。会意、指事两种方法能造的字并不很多,仍然无法表达随着社会发展而需要表达的信息,人们就采用形(意义)与声(读音)相拼造出了形声字。究其实,会意、指事、形声等造字法,都是形与形相拼。因此,我们也可以把汉字称之为拼形文字。既然汉字是形与形相拼造出来的,现在我们需要拆分它,就应该按形拆开而不应该按笔画拆开。汉字的笔画系统是在“隶变”时期出现的。那时,汉字的造字系统已经基本完成。因此,汉字造字的基本材料是“文”,即古代那些简单的象形字,而不是笔画。但是,在汉字演变、发展过程中,有一些笔画参与了汉字的演变和发展。我们可以发现,在汉字集中,以某些笔画的增加或某些笔形的改变作为区别符号,一个汉字就成为另一个意义完全不同的汉字。因此,使用一部分基本笔画作为汉字基本单元的补充却又是非常必要的。部首检索发展中,纯字义的部首检索不适合实际应用,后来增加了单个笔画,使检索方便了,这个历史经验是可以借鉴的。

从表面现象来看,笔形是有序的,数字也是有序的,笔形码利用笔形与数字对应,学习和记忆岂不很方便?事实却并不是这样。我们上机输入,只有对应方法是不能输入的,还要记住每个字的代码。因此,仅仅是对应法,不是学会每个之的代码的全部内容,而只是一个起始部分。说笔形码易学,只说到它的笔形如何对应代码,例如使用有序的数字——1、2、3、4、5,对应笔形横、竖、撇、点、折。笔形是有序的,数字也是有序的,对应输入,似乎使人感到方便。但具体到输入每个汉字,字的拆分,部件的分类,都要有个学习过程,并非只要单纯地学怎么编代码就可以输入了。实际上,编代码的第一步就是拆分。用“块”(字根、部件)拆开汉字是很方便的,抽取笔画却很麻烦。因为,“块”在汉字中,看去一目了然;而笔画却交杂在字中,使人有无从下手的感觉。何况汉字的“块”,由于拼构的字不同,其结构不会变化,其笔形却会发生变化。这样,就会使学习的人无所适从。如果都要一个个规定,学习当然是很麻烦的。因此,利用汉字的“块”给汉字编代码,比利用笔形在应用上要方便得多。人们喜欢五笔字型而不喜欢笔形码,并不是好用不好学,而是五笔字型用字根来套拆汉字方便,学笔形码拆笔画不方便。认为笔形码好学不好用,认为字根码好用不好学说明我们在汉字编码输入初期认识的肤浅。这种不能成立的理由也就没有人去驳斥。

(二)形音码

笔形码暴露了用笔形给汉字编码的困难在于它既需要拆分汉字,又要使用笔形编代码。就是说,被拆分后的汉字如部分还需要再拆分为笔画,这种两度拆分,学习时会产生认知障碍,不易学会。因此人们就去打一次性拆分的主意。一次性拆分即是拆为部件后即为之编代码。

自支秉彝的“见字识码”始,发展成为形音码的一派。形音码利用汉字的本字读音声母,或部首(部件、字根、笔画)的读音声母,或者再加用表示声调的符号,组成每个汉字的编码。它的编码要素有本字读音声母、部首(部件、字根)读音声母、笔画读音声母。这些声母的前后位置,由设计者主观决定。因此,它不同于部件编码单一地由部件书写笔顺出现的先后来决定。它们与笔形码的主要区别也在于排列。

形音码的困难主要是:

1.本字读音遇到了不认识的字无法解决。汉字用字的特点是字量多,相当多的字看得懂,不会读。这种方法会受不能读识字符的局限。有人认为不会读可以查字典。但要查字典的字,就不是常用字,查一次,打一个,很久没用,仍然要忘记。

2.部首、部件或字根中的成字少,不成字的要定音。国家没有规定的标准读音,都第由设计人自己定。例如“亠”,有人定为“文字头”,读音为“W”;有人定为“高字头”,读音为“G”。如果定为“亭字头”“享字头”,就又是另外的读音。读音不同,编码也就不同了。

3.部首、部件或字根,没有规定的数量,设计者可以任意取用,又会产生不同的方案。

4.由于编码的要素多了,排列不同,就会出不同的方案。例如“意”,本字读音声母为“Y”,规定部首为“心”,声母读音为“X”,但它的座位在本字之末;“立”、“日”、“音”都是部首,如何取,需要主观规定,座位的前后也需要主观规定。主观的因素太多了,学习记忆都有困难。

5.形音码以音为代码,却常常会以形归类,结果就是自相矛盾。例如“子、孑”,不仅形象相似,书写体根本不能区分,但“子”的读音是“zi”,“孑”的读音是“ji”……

这些编码的主要要素由于排列组合的不同,就会出很多不同的方案。有的方案还要加上声调,声调的代码和声调的位置,也可以改变编码的方式。声调还有一个麻烦是许多不懂声调的南方人没有办法。有的人不用声调,而用笔画的读音或笔画的代号。笔画笔形的读音是有规定的,它们的代号则可以任意规定,不同的规定,又会产生不同的编码。总之,编码的基本要素越多,出现的编码方式方法也越多。有的人认为这是编码的信息含量多证明编码质量高,实际是错误的见解。编码要素副本是单一的,就不会有排列组合的不同了。可见编码要素的单一性是很重要的。

形音码形成一个大流派是因为设计的要素都是现成现拆的,取用方便,设计也就很方便。

形音码以形主体,以音为客体,相当于字根码。只不过是用字根的读音作为安排键符(即映射)的方法。

刚开始的形音码,编码的字根没有规定的数量,是随拆随编的,例如“见字识码”。后来的形音码有的“优选”部分字根,如“认知码”(全国中小学计算机教育研究中心),有的套用《新华字典》的部首,如“表音码”(沈克成),都有了规定的数量。但它们并不是根据部件定义产生出来的,而是主观“优选”的,因此,具体编码时,就无法套拆全部汉字。有的字就只好一个一个交代。例如沈克成的表音码,把“庸”拆为“广、肀、二”加本字读音“Y”。设计者把其中的“”,拆为“肀、二”,中间的“冂”,是无理省略的。显然这个“”,还可以有多种拆法。这样规定的依据是没有办法解释清楚的。“肀”没有规定的读音,表音码定为“Y”,即“聿”的读音,为什么不能作“D”(逮的读音)?如果把“”作为一个整体的“块”(即部件),就可以实现唯一性。

(三)字根码

字根码与形音码的不同首先是在规定方案中使用字根的数量。因为,有确定的数量才可以进行分类。例如五笔字型就是先确定一定的基本字根,然后就根据起始两笔的笔形作为分类(分区、位也是分类)的依据。尽管它确定的方法和数量称不上科学,但比之随拆随编毕竟有了进步。

字根码认为汉字是由各个不同的字根构成的,而字根是设计人自己规定的。因此,一个字符集的字根,到底有多少,字根码的设计者讲不出来。这是字根码的特色。

字根码以高频(组字频度高、使用频度高)字根作为编码方案的基本要素。这个方法由于没有解决好汉字字符集字根的定性问题,在实际应用时同样陷入困境。其主要问题是:

1.字根本身没有定义,一个字符集到底有多少字根,设计者心中没有准数。(那些参加频度统计的字根完全是主观挑选的)统计的对象没有确定的数量,统计的结果就没有办法说是科学的。

2.高频字根是根据组字频度和使用频度两个统计作为依据的。这两个统计数字时常发生矛盾。有的字根组字频度低,而使用频度高,因此,挑选参与编码的基本单元仍然由设计人主观决定。

3.字根码分类方法与编码方法是统在一起的。当设计者确定一种编码方法的时候,实际已经把分类方法包含在内了。例如五笔字型的每个区位里的字根,既是它的类,也是它们的代码。这就是说,分类方法与编码方法各自的发育都未臻成熟,成为一对连体婴儿。

4.字根码用主观选定的字根数量,套拆整个字符集的汉字,有的汉字却含有未被选用的字根,套拆不了,就需要设计者主观规定拆分的方法。它暴露出字根编码的最大矛盾:拆分困难。也使许多人产生了疑惑,“拆字编码”是否是个“误区”?

5.字根码的编码方法有的是半无理的,有的全无理的,所谓有理、无理,是指字根与键符的对应(映射)有没有道理可以解释。这种解释是指设计方法中的设计理由。例如五笔字型用字根的起始两个笔画的笔形分区、位。但侪检查,其中一半以上不是按规定的区、位安排的。这就是半无理的意思。大众码将部分字根集中组合为一个生造字。这样组合与安排的键符没有任何关系,既可以放到A键上,也可以放到B键上。这就是无理安排。

6.字根码每个小类间设计同一代码的字根,有的相互依靠始笔笔形进行联系,但因始笔笔形以横、竖居多,分类不匀,有的只好主观安排,造成分类的主观随意性,失去分类的本意;有的完全是主观集合,相互间也没有有机的联系,分类的作用得不到发挥。字根码学习的记忆要求很高,不宜非专业人员学习与使用。由于字根码的拆分不规范,更不官放到中小学基础教育中教学与使用。

字根码中的半有理码采用笔形给字根分类,有一定依据。但具体实行时就又无理化了。如五笔字型为减少重码就主观改变字根的座位;郑码只规定“类”,没有规定“位”,因此,也是半无理的。全无理的字根码则“类”和“位”都是主观规定的,例如陈代于的大众码。但它们却是与键符直接对应(映射)的。

字根码的问题与形音码除不以音来安排座位外,其他的缺陷同样存在,就不再赘述了。字根码暴露出更多的问题,也就是揭示了字形编码设计中更多的需要解决的问题,给部件码的突破,指明了道路。因此,字根码虽然是从笔形码、形音码的有理化,重新返回无理化,但这决不是一次倒退,可以认为是为进一步的有理化作的理论和实践铺垫。因此,这是一次更大的进展。

用汉字的部分“块”编代码,是难啃的硬骨头。啃这块“骨头”,出了很多方案,人们从多个角度揭示编码设计规律,为我们今天的研究从材料和经验准备。

(四)部件码

部件码与字根码相同之处是它们编码的基本材料用的都是汉字的中间层次,汉字中的“块”;不同之外是:字根码采用“优选”的方法确定“块”的数量;部件码则能拿出一张覆盖全部汉字的部件清单。

人们要设计编码方案,照理说首先应该要求作为编码方案的基本材料,必须定性定量。就好比造房子,首先要求建筑材料的定性定量。可是,由于历史原因,汉字从来没有产生过部件清单,而我们却必须马上应付计算机的中文使用。汉字编码发展的历史过程,实际就是我们探索和试用汉字编码“建筑材料”的历史过程。电报码使用整个汉字;四角号码使用整个汉字的四角笔形;笔形码使用笔画;字根码使用汉字的部分“块”;部件码则使用汉字全部的“块”。汉字全部的“块”,就是部件清单。

文改会曾经有过一张含有648个部件的清单。文字学家利用这张清单做过使用频度统计。这些统计资料和统计方法,给字根码的设计带来了依据,促进了编码设计的发展,繁衍了众多的字根编码方案。它既兴旺了编码设计事业,也阻碍了编码设计的深入确定。因为,有了这张清单,许多设计者就可优选高频部件作为编码的基本材料。高频部件也启发了高频字简码的产生,使汉字输入技术得到完善。由于这张清单是某些领导、专家在编码设计实践探索之前产生,缺乏实践依据,未经实验检验,故难免与编码设计规律相违。在648个部件清单中“优选”部分部件,虽然违背客观规律却具有权威性。当编码设计发展到要求部件的定性定量的时候,许多人就惮于这张清单的存在,而不敢越雷池一步,作进一步的研究探索。

钱伟长先生设计宏观码作出了部件定义,但是,他却没有进一步阐释,与部件的深入研究失之交臂。这是因为,钱先生并没有想到汉字编码的困难根本在于“部件的处理”。表形码之所以首先抓个部件定义的牛鼻子,正是因为陈爱文先生探索和总结了编码设计的历史经验,看出了汉字编码设计发展的症结。对钱伟长先生的部件定义作出了具体的、明确的阐释后才得到了部件清单。部件清单使表形码获得突破,使编码方案的基本材料从主观“优选”的“围墙”里摆脱出来,并开始了对汉字字形规律的探究。

有许多人被五笔字型的乱拆分吓怕了,认为形码“需要先按照拆分规则将汉字拆成字根或部件,有一套拆分规则要掌握”。其实任何形码(包括“形音码”)都没有“按照拆分规则将汉字拆成字根或部件”。它们的部件(或字根)数,都是设计者自己宣布“优选”的。既然已经“优选”,又何必再拆分。其中有一个秘密:即所有形码的拆分规则,都是从自己的部件(即字根)中整理出来的。设计人是用“优选”出来的部件去套拆汉字,而不是用“规则”去“拆分”汉字。因此,这种“套拆”,就会产生一个问题:在许多汉字中会出现没有“优选”到的部件,使这些汉字编代码时出现困难,需要一个一个决定它们的拆分和代码。例如“五笔字型”的基本字根表中,没有“民”字的两个“ ”部件,就规定用“已、七”两个基本字根代表。又如要拆“庸”这个字。基本字根表中没有“”,就规定把“”拆为“彐、丨、月”。没有直接学过这个字的拆分,必然不知所以。一个一个地学,就导致记忆困难,同时使许多汉字的代码产生二义性。二义性给学习和使用带来了困难。所有的字根码,都患有“优选症”。治疗“优选症”的“特效药”是给部件定义,并根据定义来产生部件清单。

要使形码易学,最重要的是提供部件清单,从而排除因“优选部件”分解汉字带来的不便。部件清单中的部件必须覆盖汉字集的全部汉字。即该清单没有套拆不了的汉字;任何汉字中没有不知道的部件。陈代于先生称这是“部件的可预知性”。部件清单使汉字编码设计挣破了“优选部件”的主观网笼,实现汉字的拼形化。

表形码利用系统设计、整体分类、形象映射等方法,使它的学习记忆负担大大减轻。它并不比双拼音码的记忆量高。由此可知,形码的设计已趋向成熟。成熟的形码除易学易记外,还不受使用广度和深度的局限。1993年,蒋文钦出版《表形码编排字典》也说明了这个问题。即:形码在汉字检索中突破了语音和部首的局限。同时也给我们提供了一个证明:汉字编码就是为汉字设计一套有序的符号系统。只要学会这套检字方法,今后的汉字资料、档案、图书等的排序管理和电脑打字,也不需要再学了。这就是说,一个编码方案成熟与否,取决于该方案设计应用的广度和深度,即它的通用性如何。

二、万“码”奔腾现象透析

(一)“奔腾”概述

笔者已对汉字编码进入第二阶段时出现的四大派别的贡献和局限作了扼要的论述,其实纵观所有的编码,只要设计者略加变化,就能“创造”出无数个“与众不同”的新方案来。据统计,1986年全国已有四五百个方案,时至今日,数逾千余,人们对这种现象,讽之为“万马奔腾”,或贬之为“编码污染”。然而,设计者还是听若未闻,新“发明”仍然不断。国家教委基础教育司曾设“926工程”,根据要求,要在众多的编码方案中挑出一个音码和一个形码。于是,许多方案设计者想方设法参加选码实验。可是几年过去了,选码的专家组没有作过一次选码的活动,而是把自己的认知码“选”了出来。如果根据“内举不避亲”的原则,专家组选自己的“认知码”未为不可。但事实是认知码的设计原则和实践都受到了严厉的抨击,因为它不是一匹“千里马”而是一个大杂烩。为此,云南省电子学会等四个单位特地召开“认知码”专题学术讨论会。与此同时,“926工程”组的另一位专家又选出了一个所谓的“规范码”,内含一个音码和一个形码。音码如何本文暂不加言论,其形码采用音托和笔托和温州“表音码”如出一辙,并无二致。而且象这样类似的重复,全国何止一二个,只不过换了一个设计人的姓名而已。选码组接受国家教委选码任务,不选码而改为制码;组长自制了一个“认知码”,遭到编码界许多人的批评后,组员又另出第二个也想趁机占领这个基础教育的阵地。这个事实说明探索编码规律和占领基础教育阵地的重要性。

万事起头难。设计汉字编码也一样,起头的几个编码确实很难。支秉彝十年牛棚,利用废纸一个一个分解汉字;王永民要统计分析许多字根使用频度和组字频度的数据,一个班的研究组日夜苦战……总之,任何先驱者都需要披荆斩棘付出辛苦才能得到收获。如果所有的设计者都象支秉彝、张国防、王永民那样干,把研制方案的力量,用之于基础理论研究,编码方案就不可能像现在这样这么“热闹”了。

尽管每一个方案都或多或少地为编码的基础理论铺砖添瓦,但是它的系统的基础理论并未形成。汉字编码被授予了专利权,可以因此发财,因为它可以卖专利;可以出名,因为它可以使设计者一夜之间变成专家、权威。设计编码又这么方便,凑热闹的人就多起来,就有一个人设计出三四个方案来的。经济和名利激发了研制编码的热潮。而学术界由于不明所以,仍积极鼓吹“百花齐放”,致使编码“发明”进入了失驭的状态。

钱学森先生说:“目前电子计算机的混乱现状,众多的编码方案,等于人为地制造着这种隔阂,这就很难不重蹈外国人的覆辙。”⑴外国人自己不创造自己的音素,硬搬死套拉丁字母,结果是语言与音素对不上号,现在想改进,就没有办法了;中国人为了使用先进技术,没有办法认真(这需要时间)研究,饥不择食,匆匆忙忙使用电报,发报员不得不死记硬背电报码。这两则教训应该深深记住。现在我们可以有时间认真研究,万“码”奔腾却把水搅混了。

(二)失驭的原因浅探

我们认为,激发研制编码热潮的原因是市场吸引和误导。

1.编码商品化的负面效应

经济刺激了汉字编码设计的发展;经济收入支持了汉字编码应用的发展。在计算机进入我国的初期,人们不知道如何使用计算机打出汉字来。设计者为了使他们的“发明”得到应用,调动资金投入了输入软件的研制,汉字编码输入法就很快进入市场。随着不断的应用,输入软件的使用性能也就很快提高。

问题在于汉字编码方案设计的基本材料尚未定性定量,人人可以随意决定。几百个部件可多可少;几十个笔画可并可分;近百个键符可取可舍;还有几十个音素、四个声调都可随意选择。编码既成为商品,从都需要经济利益,都可以用汉字和键符作基本材料设计出编码来,方案不能不无限增多。可见强硬的商品他促进了应用的发展,也带来了不断“发明”这一负面效应。

汉字编码是一种文字工具。文字工具为社会使用是社会全体成员参与约定的。编码的使用既然是汉字的使用,它应该有一个长期缓慢的演变过程;而计算机和软件编程技术却在飞速发展。这就形成了一个难解的矛盾。要么使计算机使用的铺开和软件编程技术的发展停下来等待编码的完善,这显然是不可能的;要么让编码加快速度在使用中完善。现实当然采用了后者。但由于编码使用受到使用时间和使用人数的制约,用的时间久了,用的人多了,不合理的东西被约定了。现成的例子是:

五笔字型占领了市场,许多人觉得它不好,千方百计设计出比它好的,但没有人能取而代之。五笔字型是编码方案,市场上使用的是五笔字型输入法。要用输入法,除输入软件外,还需要与其他的许多不同的汉字工作系统和各种不同的硬年兼容。五笔字型已经有了名气,软件公司和硬件厂家已经装上它。新方案没有名气,人家不愿意花力气和资金,去宣传新编码,再装新编码。现在的干部(包括中小学教师)转正,都需要得到初步掌握电脑使用能力的证明。于是人事部门就组织五笔字型电脑学习班。这就是说,不学五笔字型,连转正也转不了。社会上有无数的靠五笔字型赚钱的人,如培训班教师,打字员广告人,教材编写者(有一位教授说,写五笔字型的教材有销路,可以赚钱),电子厂商等等,新方案的设计者无法把他们拉过来。这些人合成了巨大的社会惯性,使它在中华大地“滚雪球”,日日增大。台湾的情况也差不多。仓颉码是最早占领市场的。现在台湾有的编码比仓颉好,但就是没办法进入计算机。今后,编码要进入统一网络。编码再好,进不了网络,就没有人使用。这样下去,不好的编码代代相传。将来如果发现有问题,要改进就很困难。

尽管国家教委死死地把住关口,不让五笔字型进入教育系统,而其他部门却没有这种危机感,可以我行我素。例如现在的全国干部电脑应用培训,由人事部门统一实行。人事部门可没有想到汉字书写的规范,只觉得五笔字型的名气大,各种机器都有现成的输入软件,又有现成的教师教材,下面的培训自然都采用五笔字型了。有许多地方的中小学教师也规定必须取得人事部门的结业证书,才有转正或升级的资格。就是说,在汉字拆分上受到严厉批评的、与汉字规范相抵触的五笔字型,正由人事部门以干部培训的名义向基层推广,在客观上起到了强制推广作用。

许多人并不知道汉字编码的发展,只知道有这么一个很难学的五笔字型。人们以它为样版,觉得自己可以设计出比它好的方案。万“码”自然不断地奔起来。这种不断增多的编码方案,造成一种虚假现象:表面看起来确实是学术繁荣、你追我赶,一片百花争奇斗艳的好景象,实际却是“一码独奔”的悲惨局面。尽管许多学者认为编码设计是个无底的深渊,不良编码会损害汉字规范,损害汉字现代化。但当前仍然存在不科学编码占领市场的严峻现实。这是因为市场只考虑使用,而从不考虑汉字的规律和规范。例如许多学校都由计算机教师上汉字编码课程。他们只讲究输入法的兼容性能,从不关心学生学习的难易和对汉字教学的影响。

编码既然是文字工具,它就不应该成为商品。因为,文字工具需要国家规范,商品却是人的东西。任何个人的编码设计都不能说是十全十美的,必然有一定的缺陷,需要众多专家的审查,使之尽可能地完善。但专利保护却可以使个人以侵犯为理由而拒绝订正。即使设计者允许别人研究和订正,其研究的投入和果实的归属就很难处理。因为,这样做就好比“画龙点睛”,“画龙”和“点睛”两项工作如以专利归属论,是难以断定的。

因此,可以认为编码的商品化在初期,是有积极意义的,而现在它已成为编码进一步发展的障碍了。

2.理论误区

当多种编码方案出来后,本来就应该紧紧跟上基础理论的研究。可是在1992年,学术界做了一次《论我国汉字键盘输入三个发展阶段》的总结,认为“即使有了较好的理论基础和有关的标准规范,汉字编码方案也仅仅是纸上谈兵。必须配以相应的软件,实施在机器上输入汉字,才能称为汉字编码(键盘)输入方法”。⑵这个总结认为汉字编码方案的“理论基础”和“标准规范“仅是”纸上谈兵“而已。

专家们忽略了一个最管道的道理:输入软件和编码方案是两个不同的系统。前者是宾,后者是主。前者可以装任何编码在计算机上使用;就像字典,可以使用任何一种排序法(也就是编码方案),质量在对每个字的释义上,释得好不好,是编写者的责任,与排序法的设计者无关。为了使编码能够成为商品,专家们就给它带上输入软件成为商品,并制造了“汉字编码(键盘)输入法“这个不伦不类的概念。

把编码的设计方法称为“纸上谈兵“,有其正确的一面。因为,单纯的编码方案,只不过是一种把汉字编成代码的方法,写在纸上,成不了商品。但是,这种讲法 ,潜伏着实用主义的错误,后来表现在评测中,就是用输入速度和重码率来比较和推荐编码;表现在编码询鉴定上是专家们专看它的输入应用,而不讲究设计结果(码本)的易学性、通用性和规范性。

把汉字编码称之为“汉字编码(键盘)输入法”闹出了笑话。1996年第3期《中文信息》刊出了一篇名为《汉字输入法不需要再编程序,即可装入WINDOWS 95中文版运行》的文章。文中说“WINDOWS 95汉字输入法……适合港台输入法,采用国内的一些输入法……帮助编码者实现自己创造的输入法。”⑶作为国内一级专业杂志的首篇文章,水平应该是很高的,竟然连概念都没有搞清楚!因为汉字编码只有加上软件程序后才能称之为输入法的。因此,这篇文章的标题“汉字输入法不需再编程序”的提法就是错误的。文章开头一段所讲的“港台的少数输入法”、“国内一些输入法”、“编码者……自己创造的输入法”等等,实际都应改为“编码”两字。既然已经有了WINDOWS 95输入法,如何能加上其他的输入法呢?如果是五笔字型的输入软件装上了郑码,哪到底称郑码输入法呢,抑还称王码输入法?我们相信,此事王永民先生和郑易里先生都不好答复。

当众多的编码方案出现在市场上,造成了“编码污染”,学术界不仅束手无策,反而认为“汉字与电脑的第一次碰撞的轰动效应差不多已经完成,汉字进入计算机已不是神话,汉字编码(键盘)输入方法的有无问题都已解决”。“从汉字编码研究到汉字输入系统研究,要作一次重要的战略转移。”⑷错误的概念导致错误的决策;错误的决策导致错误的结果!

于是,各色各样的音码、形音码、笔形码不断研制。音码的方便在于音素是现成的;形音码的方便在于可以自由挑选部首名部件加当读音;笔形码的方便在于笔形也是现成的,只要加代码和编排方法。实际这都是编码设计发展过程中的回头路。回头路总比前进容易,一些形码设计者就“改行”设计音码或形音码。一个编码方案的“战国时代”出现了。

把“汉字进入计算机”的功劳都划归汉字编码是学术界的又一个错误。汉字进入计算机也可以认为不是汉字编码的功劳。因为,没有CCDOS的研制,没有国标二级汉字库,汉字编码也就进不了计算机;没有汉字工作系统,单独的输入法根本不能工作。没有用字频度统计,就没有设计简码的基础。把功劳全部记在汉字编码的头上,放弃对汉字编码的追根究底,才会下“战略转移”的决策。

中文信息界以为汉字编码仅仅为键盘输入,不知道汉字编码的使用受约定俗成规律的制约;语言文字学界则认为他们要搞的是“双语转换”(即一语双文),形码的设计与他们无关。汉字编码的应用,实质是文字的应用,文字学界是“把关”的,现在他们把眼睛瞄向遥远的“一语双文”,而忽略当前的应用规范,“码”才能一匹一匹地跑出“关”来。

中国人能不能迅速普及计算机应用并迅速建立统一网络,走上信息高速公路是决定中华民族命运的关键。电报码的教训是很深刻的:我们宁可死记硬背一种完全无理的编码,也不愿意放弃立即使用先进技术的时间。新陈代谢,千古不移。随着时间的推延,新技术又会变为老技术,失去学习和掌握使用新技术的时间,将受加倍的惩罚。时间如流水,一去不回头。如果我们因期待拼音化而失去使用计算机的时间,民族、国家的命运何堪?我们要立即使用计算机技术,就要立即得到易学易用的编码。万“码”奔腾看起来虽然造成了混乱,也说明了它的重要意义获得了许多人的关注。

语文界有位教授说:“一种无理的需要死记硬背的编码竟统治了那么长的时间,只能是学术界愚昧和耻辱的证明。”⑸学术界的愚昧在于大事当前——面临五千年来一次最伟大的汉字变革而视若无睹;学术界的耻辱在于假不知以为知。

(一)世人只知有“五笔”

尽管全国有上千个编码方案,可是世人只知有五笔字型。从国务院办公厅的秘书,到中小城镇的电脑打字服务部,几乎都用五笔字型编码在工作。从外交部的专用打印机,到最小的小霸王学习机,都装上了五笔字型;从最大的汉字工作系统——北大方正,到最普及流行的WPS系统,都有五笔字型可以直接提供。而其他编码方案,都需要自己配好接口,才能外挂使用。在1991年之前,有的硬件厂家,还采用封闭式的做法——接口封闭,不能外挂。有的汉字系统内部空间限制,不能装入其他编码。有的虽然能够个挂,但工作起来极不方便(因为,过去的计算机工作内存容量很少,不像现在的计算机,内存可以无限增加)。

硬件厂家和汉字系统的研制单位,都是商品生产者,他们只关心产品的销售,不计较文字的规范。在汉字编码研制的初期,他们寻找合适的编码(或汉字系统)装机,以利产品的推销。五笔字型有了经济实力后,正在广泛开展宣传和培训活动,于是电子生产厂家就不需要为推广编码进行宣传投入。当大量编码涌向市场,新方案的设计者需要寻求支持,以使社会能够了解,但他们已经失去厂家主动寻找编码的时机了。

许多编码设计者都不是软件编制专家,都要请人代编输入软件,编好后还要适应各种不同的机型和不同的汉字系统。随着各种操作系统的升级,输入软件也要跟着升级,才能方便应用,而五笔字型就不需要这么做了。因为,随着计算机硬件的升级,或者操作系统的升级,它就可以随机升级而不需要花半点力气。这就是说,新方案如果不进行不断地投入,就随时可能中断它的市场;而五笔字型却没有这样的危机。

(二)“五笔”优势形成的原因

一曰“天时”。

五笔字型成功地推向社会时,正是国内电脑生产进入专业中文应用阶段,许多电脑中文打字机厂商,正在寻找一种汉字字形编码。尽管1986年的评测(由于这次评测的指导思想有误,因此缺乏权威性),汉字编码委员会没有推荐五笔字型,但是,由于王永民先生的经营努力,能够抓住1987年那个中文电脑开始形成的时机,即专业电脑打字铺开、四通电脑打字机和其他厂家电脑打字机上市的时机。他争取到国家科委成果局的推荐,培训了一大批机关和部队的专业打字员,建立了一个以五笔字型输入的专业队伍,获得了一大笔的专利使用费并创办起王码电脑公司以及许多电脑学校。这些投入又使他得到巨大的经济收入。1987年,又是我国的市场经济刚刚开始发展,人们的思想大多数还没有从计划经济的“大一统”转过来。政府部门的推荐,比之仅在学术上起协调作用、理论研究还不成熟、不能发挥权威性的群众学术团体的推荐所起的作用当然要大的多。经营上的努力加上政府部门的推荐终于使它一举占领市场。

二曰“地利”。

与五笔字型同期的钱码、大从码等,虽然在编码方法上还稍优,为什么比不上它其原因之一是其经营总部的“地利”优势。五笔字型在国家的政治文化中心的北京推广,一举一动全国皆知;而大众码出在成都,钱码出在上海,上不了中央新闻。就是能上,也是“迟到的消息,已经学过或已经使用编码的人,决不会再想另学一种。

三曰“人和”。

1987年那个时候,正因我国学术界对汉字编码和键盘输入的认识还处在幼稚阶段,才会出现错误百出的评测。五笔字型已开始获利,有了经济收入的支持,捧场的人就多起来了。一是人们并不理解编码的真正含义,二是宣传声势,许多领导干部亲自出面参加五笔字型的一些造舆论活动。广大用户不明就里,在购用计算机时指定安装五笔字型,这种声势,实际是人为助长的。

五笔不是一种好编码。它的名气越大,反对它的人越多。这并不是所有的反对者看到五笔获利而眼睛发红,而是因为它损害汉字规范。

五笔字型由于其方案体系的严重缺陷,许多人以它为样板,都觉得自己能够设计得比它好得多。于是,多种编码方案纷纷出台,造成了一个各种方案异彩纷呈使人无所适从的编码大混战的局面。这种情况固然可以说明热心于此项工作的人越来越多,但从另一方面看,方案越多,越表明事情难办,表明大家对现有的编码都不满意,主要是对五笔字型绝对“统治”的现状不满意。最近,还有人以五笔字型为对照研制方案的。例如95年第6期的《中文信息》发表徐祖华的《改进形码的新编码法》。这些问题,说明我们疏忽了理论研究造成底层次重复研究的后果。

(三)经验与教训

经验与教训是人们在成功或失败的实践中获得的宝贵财富,我们把一“码”独奔的经验教训概括为以下三点:

1.应该鼓励开展学术讨论

由于概念错误,五笔字型被作为先进技术由国家科委成果局下文推广,引起了许多设计者的不满。陈爱文、蒋文钦率先著《评王永民五笔字型编码》,但由于众所周知的原因,该书无法出版发行。自1992年始,五笔字型影响扩大,一些关心汉字前途的学者,逐渐感到该码对识字教育的危害和威胁,开始不断著文抨击。这些论文,都击中五笔字型的要害,但市场和用户,并不计较汉字教育的规范,他们不理会这些与他们无关的事。所以市场使用的惯性,仍然会带着五笔字型继续在社会上扩散。这说明病根已深,痼疾难除。

据悉《中文信息》刊载了一篇批评认知码的文章,某公司即扬言要法庭解决。如果所有的编码都不允许评论,理论研究就没有办法进行。因此,我们认为除了从文字的规范角度开展学术讨论外,还需要进行汉字编码设计学的研究,认真讨论汉字编码的根本问题:汉字编码是不是为汉字设计一套有序的符号系统,或是单单只为键盘打字?如何防止不规范的汉字编码进入基础教育的阵地?

编码方案的实施,就是实践。只有不断总结实践经验,使实践升华为理论,才能提高设计水平。汉字编码有专利权,可以获得经济利益,而理论研究不仅无利可图,还要冒被起诉的危险。这就是我们在专业刊物上很少看到有份量的理论研究文章的原因所在。广泛宣传,大力开展学术讨论活动,奖励有创见的学术论文确为当务之急。

2.不要放弃基础教育的阵地

汉字编码在专业输入和全面普及这两个应用阶段中,我们对它的要求是不同的。在专业输入阶段,由于对汉字编码方案的设计、输入软件编程、计算机硬件知识,以及它们的配合应用都很陌生,不知道对方案的设计,应该提出一些什么样的要求。因此,1986年的评测,造成了只讲究速度和重码率的误区。现在,既然已知道汉字编码将作为汉字的一种辅助形式,参入中小学识字教育,实现“计算机从娃娃抓起”。我们就再也不能像以前那样对汉字编码方案的设计中的损害汉字规律、标准规范的一些规则和方法,抱着听之任之的态度了。

电脑使用的最大市场是知识界和教育界。中小学教育系统是编码应用的最终目标;教育的编码需要最终的市场导向。但是,当前的“百花齐放”局面说明学术界缺乏编码基础理论研究,教育行政部门无法作出科学的选择因而犹豫不决;这种姿态又促使编码的“百花”在继续开放。但是,市场应用并不以人们的意志为转移,已经占领专业输入市场的五笔字型输入却无视人们的不满和新方案的增多,继续向教育市场挺进。温州市职高毕业电脑输入合格考试规定必须熟练五笔字型。在电脑输入理论考试的题目中,竟然将多次受到中文信息界和文字学界批判的“五(末)笔字型交叉识别码”两度列入作为吃唯一的试题。末笔字型交叉识别码实际是一些错误连篇、损害字形规范的取字规则,本应由行政部门下文禁止才是,可是,它却在“技术”的外衣下堂而皇之地进入课堂。

由此可知,尽管汉字编码的设计方法在不断的探索中前进,但是,它的道路仍然是曲折坎坷的。五笔字型被作为设计科学的样版,高呼“普天之下,莫非王码”向市场进军,也招来了中文信息界和教育、语文界的许多不满。但此时的五笔字型已不是88年刚刚推出时的情况了,它羽翼已丰,学术界批评可以不予置理。因为市场上的电子产品,几乎都已装上它的输入法走进千家万户;教计算机的教师不理睬汉字编码教学的重要意义,依然以输入软件的兼容性作为推广编码的主要条件,不愿意废教不规范的编码;许多不理解编码使用重要性的部门领导,也就随大流了;语言文字和主管教育的行政部门,由于无法判断而任其自流(上海市的计算机应用考核办公室和温州市的职高考试,都是随大流的结果)。看来读书识字的基础教育阵地防线已摇摇欲坠。可是,为民族本来负责的责任感提醒人们:我们决不可就地放弃!事实告诉我们:坚守教育阵地是取得胜利的根本,在这个问题上只有前进,不可退却。

3.重视基础理论研究

市场经济激发了研究编码的积极性,但也带来了只讲究应用不注重长期效应,急于求成追求眼前经济效益的错误心理。这种心理会导向反科学。当前万“码”奔腾实质就是一种反科学现象。因此,我们必须强调基础理论和有关标准规范的重要性。

主观愿望如果不符合客观规律,往往会事与愿违。十几年汉字编码百花齐放的结束是给文字应用的统一制造了人为的障碍。因为过多多方案使专家们忙于鉴定,无法进行认真的研究。汉字编码方案的设计,作为一门我们完全陌生的新学科,是计算机应用在社会上逐渐铺开中发展成熟,并将进入一个普及应用时期。键盘将作为替换笔杆子的工具,随着计算机应用面的迅速扩大,开展理论研究的要求也越来越急迫了。

唯有建立汉字编码的基础理论,才可以从根本上解决问题,才可以避免使汉字规范和识字教育走入歧途。因为,计算机中文应用的市场不会因我们的无知而暂停运转。它的运转会带着那些损害汉字规律的方案流向社会。用熟某种不成熟编码方案的人,即使拿最有规律的、最易学的与之更换,也不会有人愿意去接受(因为,键盘应用的记忆量,花在编码上的比例,比之花在软件使用功能上的要少的得多)。久而久之,损害汉字规律的编码,就“约定俗成”了。现在我们不会把理论基础和标准规范放在首位,将来吃苦头的还是我们自己。

汉字编码的理论基础和有关的标准规范,是指导设计的关键,是决定一个编码方案优劣的根本。虽然每一个方案,暂时都不能拿出一套符合规范标准的完整的体系,因为它们都可能是一次不成熟的探索。但是通过总结经验,是能够逐渐建立和完善基础理论体系的。只要我们认真地、扎实地做,失驭是完全可以控制的。只有建立系统的完善的汉字编码的基础理论,行政部门才能有依据地对侵入基础教育的、损害汉字规范的方案进行必要的行政干预。

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有