湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

汉 字 编 码 设 计 学

绪   论

 

归纳当前有关编码方面的论述,主要有如下两类:一是批评和评述某编码方案中文字处理不规范的问题;二是论述编码优劣的比较方法,讲的都是输入方面的问题,如输入速度、重码率、码长等等。

为什么批评性的文章要讲文字的规范,比较性的文章却要讲键盘出字效果,两类文章是如此地不协调?照理,被批评的缺陷给批评者抓住了,另一个方案的设计人只要纠正了这些缺点,才会有所进步。这就是说,比较与批评应该是一致的:批评是进步的阶梯;比较是进步的标尺。有批评,才能理解如何进步;有比较才能知道进步的多少。偏偏汉字编码的批评与比较都自出一套标准,互不相干。更有意思的是某些方案的设计者批评了别人的不规范,自己的方案仍然摆脱不了不规范。这说明编码实践出了毛病,根子是理论导向。它的严重性在于汉字编码的使用亦即汉字的使用,有约定俗成,不认真对待就会遗害万代。本书为是想从理论到实践,彻底解决汉字编码的问题。至于能否“彻底”,以及何时才能真正“彻底”,却有待大家共同去探讨,我们愿意为此奋勇先行。

一、             汉字编码往何处去

计算机中文应用现里由专业打字员转向广大知识阶层,一个普及使用计算机的时代即将到来。键盘输入将逐步取代用笔书写汉字。中华民族将告别一笔一画的书写方法,代之以在键盘上用手指把汉字的字、词、句敲出来。信息技术带来书写工具的改变,提高了书写速度,加速了信息的交流和运转,从而把全社会带进一个科学飞速发展的信息时代。

中国人要走进一个全民使用计算机的时代,也要与外国人一样,让计算机进入中小学课堂。计算机将进入基础教育;汉字编码,也将列入中小学生的识字教育课程之中。这就是说,书写工具的改变,增添了基础教育的内容,引发了识字教育的变革。说明我们已面临汉字应用史上为一次重大转折,每一个人都应该认真关注这件大事。汉字编码的好坏,不仅关系到社会使用的方便与否,而且关系到基础教育,这是中华民族子子孙孙的千秋大业。因此,我们需要进行艰苦的理论探索。当前由于缺乏基础理论的研究,编码研制常为同一水平的重复。过多的编码方案造成汉字使用的混乱,人们不知道该如何选择。全国有上千种编码设计方案,每个编制者都说自己的方案最佳,利用舆论工具肆意吹嘘。事实上研制一个方案,并不是什么了不起的“发明”,只能算一次不成熟的实践。学术界权威们强调“各有千秋”,不能有理有据地告诉人们谁好谁坏。事实是缺乏成熟的汉字编码的基础理论的指导,方案的优劣评定没有依据,既不能放下权威的架子,又不能信口开河,所以只能作这种模糊、婉转的答复。

现在,“编码潮”还在继续上涨!方案的数量还在不断增加!有的人则主张汉字编码多种存在!⑴有的人则认为它的研究任务已经完成,应该“作一次战略转移”。⑵汉字编码向何处去是文字教育界必须马上要解决的问题。因此,当前最要紧的是检讨以往的经验教训,重视理论导向,重视基础理论的系统研究。  

二、             我国的汉字编码专家在哪里

据中国语文现代化学会《通讯》第二期报导:“ 1994年3月1日,我会会员李公宜、管万新、温应时、丁方豪以及其他10位关心语文现代化事业的退休同志合写了一份建议书,对某某市计算机应用能力考核办公室规定某某市计算机应用能力考核等级只用全拼拼音码和五笔字型作为计算机输入方法一事提出意见。认为五笔字型编码原则和方法有许多与语文文字规范化的要求不相适应,五笔字型码离开易学、高效、符合文字规范化要求较远,不是优秀的电脑中文输入法(笔者按:这里应写‘不是优秀的汉字编码’),不应该作为全市统一考核的内容。”⑶

作为信息界的第一权威杂志——《中文信息》,不断发表文章批评五笔字型,如:《五笔字型与汉字规范相抵触》、⑷《汉字编码决不可教人写错汉字》、⑸《关于五笔字型编码的讨论》、⑹《五笔字型交叉识别码剖析》⑺……语言文字应用的规范,是全民族团结的象征,“五笔字型”对语言文字规范的损害,有目共睹。令人不解的是,我国不少的文字专家眼看国家统一使用的文字规范受到损害,却没有几位奋笔来批评这种不正常的现象。

编码没有输入速度,其道理不参阅本书第三章。如果认为五笔字型占领市场已是既成的事实,就可以不考虑它对汉字规范的损害,那就是千金换牛毛,愚不可及!文字的社会使用随着时间的推延,它所产生的惯性动能将越来越大,就如滚雪球一样,如不及时制止,造成的社会深层损失更加无法弥补,我们这一代就要愧对民族,愧对后人。

近年来经常出现关于编码专利的纠纷。 1992年表形码在上海《文汇报》开演示会,王善椿先生就认为表形码侵犯了王世尧象形码的专利权;自然码由于超想公司同仁们的努力宣传,取得了一定的市场,而扶良文先生认为它侵犯了他的权益;官司打得最闹的是五笔字型。五笔字型刚有一点名气,李金铠先生就状告“五笔”侵权;五笔字型现在有了八个版本,王永民先生只拥有第一、三两个版本的部分权益(而且还有争议),却拿着专利权到处状告其他版本侵权。《自然杂志》以几十万元购买全息码专利权,后来发现它并不象宣传中的那么“神”,认为被骗,要上法庭解决。因为法庭对这样的业务并不内行,权益纠纷已成为困扰法官的难题。现在全国有上千个编码方案,所幸有名气的不多,否则,法院就会有不少辨不清、判不了的专利案。

根据《瞭望》杂志的报导,北京市中院在审理五笔字型与东南公司的专利纠纷,曾请了一个专家咨询组。“专家组论证的结果是不构成侵权,但法院未采纳专家的意见。”法院要请专家,说明法院自己心中拿不准;法院不采纳专家意见,说明专家的意见也拿不准。两者都拿不准,说明给予的专利权无法可依。

汉字编码专利权无法可依,法院只好根据自己的主观决定作了对王码公司有利的判决。于是“首都计算机汉字信息处理、知识产权界绝大多数专家深感忧虑……专家们认为无论从知识产权法的角度还是从汉字输入技术的角度分析,北京市中院的判决都是不适当的。”⑻

五笔字型诉讼的事实告诉我们,我国首都都只有“汉字信息处理界、知识产权界”的专家,没有汉字编码界的专家!这个情况,对汉字规律和规范来说是非常危险的。我们所说的专家,不是研制编码方案的专家,而是评判的专家。(近讯:北京市中院第二审终审判决,东南公司胜诉。理由是:“编码是在国家标准的字符集所列汉字上根据有关计算机汉字输入技术加注相应编码规则构成,不含有独创性,不含有著作权。”这就是说,事隔两年,法院总算有了新的认识,作出了不利王码公司的判决。这个认识只应该说,有了进步,但不完全正确。事实应该是:“编码是在国家标准的字符集上根据编码规则加注相应的代码构成(如果要输入计算机,则需要编制相应的软件)。”王码的五区五位键盘安排方法和利用使用频度、组字频度确定的字根表,不能说它“不含有独创性”,而是有“独创性”,但这种“独创性”并不科学。它只是编码设计发展中的一个梯级而已。由此可知,当前汉字编码设计的基础理论研究,是何等重要。)  

三、 低水平的重复究竟算不算重大“发明”

《中文信息》刊载了一个十几岁的小女孩杜冰蟾在“发明”全息码的过程中,如何采用 100个部首的故事:“杜冰蟾的母亲是化工机械厂的普通女工,不懂什么部首、电脑,也不懂编辞书的一套,只不过信口开河:‘中国人喜欢一百个数,讨吉利呀。什么百寿图、百福图、百家衣、百家姓、百鸡宴……’言者无心,听者有意。母亲一席门外话,却让小冰蟾楞了半天神。‘对呀,用100个部首’。这就是100部首的来源。”⑼在上千个编码“发明”中,类似的故事很多:某某人听了某某人的报告,突然想到了怎么怎么,于是“发明”了某种编码。这些报导告诉我们,社会上对编码发明的无知程度,他们忽略了文字应用的严谨性,而在吹棒主观随意性。

把平面图形的汉字换成线性排列的编码,不仅仅可以用于计算机输入,还可以全面改造已经延续了近两千年的汉字部首检字法,彻底解决汉字不能直接排序的历史遗留问题。由此可知,汉字编码实质是汉字自身的一次大变革,难道可能被一个十几岁的女孩子,或一个“不懂什么部首、电脑”的普通女工所左右?把一个随意“发明”的小女孩,吹捧到与爱因斯坦并列,那不是体面,而是可悲!

汉字编码方案是一门设计科学。科学应该建立在对客观规律研究的基础上,而不应该有任何主观和偏见。现在的情况是,只有设计的结果,没有设计的研究,这是很不正常的。报刊的编辑先生们是不是打算把这种汉字编码“发明”继续不断地报导下去?社会舆论的理论导向究竟要把我们引向何处?  

四、 汉字编码如何统一

设计出编码,弄得很辛苦,每一个汉字都有了代码,但这还只是纸上谈兵,要赚钱出效益,还需要筹钱,雇人做输入软件。做成的输入法,有的汉字系统能兼容,有的不能;有的计算机可以用,有的不能。假使输入软件做得确实不错,没有宣传,人家照样不知道;花钱去宣传,也不一定能卖钱,因为许多输入法都是免费拷贝的。编码设计者本想靠“发明”赚钱,却不知一脚踩进了一个不能自拔的烂泥塘。《电脑报》有一篇叫《越陷越深的编码设计者》⑽,把这个道理讲透了,可是没有人听。

70年代以后,汉字编码在中华大地兴起。到90年代,全国编码方案多如雨后春笋。但是它们没有被视为文字应用,而是被当作技术发明,授予了专利权。人们厌恶这种不断“发明”的喧嚣,不满万“码”奔腾所造成的“编码污染”。一“码”独奔的现实引来这块处女地上的“淘金”热。一个不成熟的编码被哄抬为“伟大的发明”,誉满全国,财累亿万;那些比它好的方案反而“一文不值”,投人而没有产出,弄得负债累累,甚至倾家荡产。自视为汉字规律和规范的卫士们,一方面死守二千年来一直奉为经旨的构字理据,另一方面却对这十几年里大规模损害汉字规范的编码应用视而不见。面对不断增多编码方案,语文界竟然束手无策。现在的情况是“劣码占市场,好码难登场”,有识者知道这不是一种好现象。韶华先生竭力呼吁“整顿码家军”。⑾然而,汉字编码该如何整顿、如何统一,谁都心中无数。

1986年,中文信息学会汉字编码专业委员会组织了一次全国汉字编码的评测活动,评测后向全社会推荐11种编码方案。现在这11种方案无声无息,而在评测中毫无名次的五笔字型于1987年11月通过国家科委成果局下文推荐,却一下占领了全国的专业打字市场,但它受到了学术界的严厉的抨击。因为它的整个规则系统严重损害汉字规范,尽管它实际上已经占领市场。还有一些专家制造了“用户决定论”为它捧场,教育部门却拒绝它进入教育系统。1990年邮电部借选码为名向下推荐五笔字型,受到质询后又公开否认。1992年国家教委基础教育司设“926选码工程”课题,由全国中小学计算机教育研究中心负责选码。1994年该单位借国家教委的名义向中小学推荐认知码,同样受到学术界的猛烈抨击。虽然有关这些评论有是有非,也已足够说明这次推荐是不严谨的。1995年全国信息技术标准化委员会向社会推荐四个音码和两个形码,但还是阻止不了四笔字型继续侵占更多的市场,也无法遏制编码方案的继续涌现。

评测、选码、推荐的失败最重要的原因是缺乏编码设计的系统的基础理论,因此对编码的优劣评定众说纷纭,错误百出。例如在评测时采用输入速度比赛,重码率和码长的测定等等,其结果是使全国的编码研制走进了误区。现在,有的人公开宣扬“用户选择”,想把自己无知的责任推给用户;有的人鼓吹将来的多种方案并存,主张不要统一……运用他们的理论,补了东头,漏了西头,不能构成系统。人们应该知道,汉字编码既然还没有系统性的基础理论,每一个方案都只能说是一次实践,不是什么了不起的“发明”,我们必须进行艰苦的总结和研究,没有方便的捷径可走。这就是评测、选码和推荐带给我们的教训。

十余年汉字编码应用的实践表明:评测、选码和推荐都无法带头汉字编码的统一;现在有待我们冷静思考的是:汉字编码还需要不需要统一?要如何进行统一?我们得到的答案是:多种编码的社会使用和不断出现这么多的方案,造成了汉字使用的混乱,早晚必然要实现统一。

既然在短短的时间里能出现这么多的方案,而且所有的方案只围绕着“汉字编码”四个字做文章,它们必然有许多共同之处。这些共同之处就是我们要找的规律。用规律讲话,我们就能够摆脱低层次的编码设计,进入高层次的研究领域。提高汉字编码设计层次,必须建立设计的系统理论。我们的目标是建立一门编码设计的科学理论——《汉字编码设计学》。至于我们能否以至何种程度地达到目标,那只能请读者和专家们来评判了。

“汉字编码各有千秋”之说在汉字编码委员会特别流行。此说掩盖了汉字编码的发展轨迹,也掩盖了对它进一步研究的探索。如果我们承认汉字编码是一门科学,那么它决不会突然而来,它的产生和发展必然有一个被探索和被认识的过程,因此,决不能过早地给它画框框,定调子。显而易见,汉字编码的统一,不能依靠评测、推荐,或用户选择,唯一的道路是建立汉字编码设计的基础理论——汉字编码设计学,以科学来决定方案。

本书并没有想全部否定与作者不同的理论主张,而是要共同研究这一争论背后隐藏着的客观规律。科学不允许文过饰非,我们在论述的过程中决不隐瞒自己的学术观点,必然有所指向,有所批评,如果因此而得罪有关作者,也只得敬请鉴谅了。探求科学真理乃是我们共同的本意。

 

 

《汉字编码设计学》目录

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有