湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

语言文字网(YYWZW.COM)>>>专题文>>>中文世纪行

无 知 的 诽 谤

——评米阿伦的《认证问题》——

毕可生

  据说是从国外回来的米阿伦,屁股还没坐稳,就盛气凌人地哇啦哇啦对国内的几乎一切,从人民代表大会制度,到汉字信息产品认证、代表国家的报道媒体、人民的爱国意识、汉字优越论等等都不入他的‘法眼’起来。于是在网上,先后发表文章加以攻击。所用的字眼如什么:‘虚假报道、吹牛夸张、’等。并对国家机关严肃的标准认证工作再三使用侮辱性的字眼,如“如同儿戏”“很不负责任”“为了利润而采取欺骗手段”等等。这已经超出通常一般评论所用文词,而陷入恶意诽谤,混淆事非的地步。为此我们作为关注中国语文信息发展的学者,不能不对米阿伦的这些荒谬言论,加以批驳,以正视听。

产品认证不是商业行为而是政府相关机关的行政行为:

     米阿伦有没有搞错?产品认证是由相关政府部门,按照标准,经过一系列标准检测合格后,才发给正式的认定证书。它并不是某个公司的商业行为。同时,像《人民日报》2002515日和《羊城晚报》同日发表的,有关CESI国家认证公告也都是政府部门的正式‘公告’而不是‘广告’!至于其他许多报刊所发的消息除了‘本报讯’以外,也都是转发自新华社的电讯稿。把所有这些一概斥之为“如同儿戏”或者是“对广大民众搞了严重的误导”,甚至把相关政府部门的认证和公告都说成是“二笔公司的产品认证和公告”。这不是天大的笑话和诬陷是什么?究竟米阿伦的居心何在??

汉字二笔软件产品的认证是不是如同儿戏或者是内码认证外码?

“具备中文信息技术基本常识的人都知道”,像中文和日文这类文字,因为她们的键盘打作符号和屏幕显示符号并不一致,所以,都必需有一个标准字库。(或称字符集)字符集内字符的编码应该称为区位码。它的排列是采用A-Z0-9中的四个数字组成。总的容纳量可达36的四次方,即1 679 616个区位。“具备中文信息技术基常识”的米阿伦把字库区位码(字符集区位码)称之为‘内码’而把输入法编码称之为‘外码’。这是常识性错误,还是有意制造混乱?天晓得!因为如:机器语言、ASCII码等,都可以称之为‘内码’。那么你的‘内码’究竟是指什么?‘外码’又是指什么?是编程语言(哪一种?BASIC语言、C语言等等)还是指输入法编码?

那么,CESI中文信息技术产品国家标准认证,又是认证的什么?米阿伦特为请教了倪光南院士。院士的答复是:“在中文输入方面没有强制性标准。”于是米阿伦终于找到了一只可以当作令箭的鸡毛。大批起CESI认证来。但是实际上倪光南所说的与CESI认证完全是驴唇不对马嘴,是两回事。倪院士后面有一个进一步解释。他说:“例如:笔划、部首等都不能说是中文输入法标准。”这里倪院士讲得很清楚,那就是用笔划法、部首法、部件法,还是声形法,甚至拼音法作输入法都没有一个统一的标准。这也就是为什么一下子出现好多种各不相同的输入法的原因。喜欢夸大者就称之为‘万马(码)奔腾’的局面。但尽管如此,这里还是有一个统一标准。这个标准就是经过几次扩充发展的统一字符集。远在中国形码元老五笔字型码出现之前,中国的信息技术管理部门(现在是中国信息产业部)就预见到了必须建立一个统一的“字符集”,否则就不可能有规范统一的汉字,互相兼容的文本。这也就是为什么要设立一个汉字输出的强制性标准!不管用的是什么输入法,但所用的字符集却是统一的。早期台湾就有多种字符集如:工会码、大五码、社科码等,结果打出的汉字文本还要互相转换才能相通。有鉴于此,所以,我们先就于1980年经过查频挑选,出台了统一的共包含6763个汉字的GB 2310字符集(俗称国标一、二级字库)。这个字符集的前一半是用汉语拼音排序,称为常用字部,后一半是用偏旁部首排序,称为非常用字部。一直到九十年代联合国出台了ISO(国际标准局)包括中、日、韩(也包括港、台的繁体字)汉字的大总汇的字符集共21003个汉字。我们国内叫GBK(国标扩展)字符集。许多输入法也就采用了这个新的发展了的字符集。如98王码的9804就是用的这个字符集。但是这时在我国内还没有出台一个完全适合于纯中文汉字的扩展字符集。直到本世纪伊始,随着《中华人民共和国通用语言文字法》的公布施行,我国的信息产业部才又公布了“信息技术产品强制性标准GB18030-2000”。这个标准是一切汉字编码都必须遵守的强制性标准。它绝不是像米阿伦说的某一个字的‘内码’认证它的‘外码’。而是要求任何输入法都必需总体上完成符合整个GB18030-2000字符集的编制工作。这样我们不管使用什么输入法,只要它是经过国家CESI认证的,符合字符集标准的,都可以在社会上合理使用,而且从此我们也就永远可以打作出来规范的汉字,互相兼容的文本。不至产生不规范的异体字或不相兼容的文本文件了。对这种汉字输入常识性的问题,不知是米阿伦故意给倪院士设置提问陷阱,还是他俩人都不懂为什么样要设一个统一字符集的必要性。至于冯志伟说的CESI认证不能判断二笔编码方案的优劣。显然冯教授也是没有看懂认证公告。因为CESI认证并不是为判定哪个汉字编码方案优劣的,而是看它是不是完成了GB18030-2000字符集的要求。此外,国家信息产业标准局,也规定了与过去已有各种相关中文字符集兼容的情况,使用过旧字符集的各种输入法,只要略作修订也就可以与新标准字符集兼容了。这也就是强制性标准的意义,把它说成是什么内码认证外码就只能是信口雌黄,不辨方向了。

是儿戏还是捣乱?

米阿伦对GB18030-2000这样一个强制性的标准字符集是不满的。其实他又对国内的什么事满意呢?!他说:“一个中文字符集只完成常用字的一半是不能作为标准字库的”。他甚至举例说比如“就好比英文26个字母字符的字库只做了12个,就拿这个字库码当作审议某英文键盘组合是否合格的唯一标准。这样的国家认证,不是开玩笑吗?”显然,在米阿伦的这一段话里至少有三种无知的‘玩笑’。第一,米阿伦根本分不清,什么样叫中文‘常用字’。1976年《人民日报》发表的一项汉字查频结果,对7074份报纸的七百多万字进行统计,结果证明共只用了不同的汉字5085个。其中2076个汉字的出现频率占全部查频汉字的99%             已故汉字学家安子介先生生前,在香港做的对报刊进行的查频统计,在141万汉字的文稿中共查明只应用了4687个汉字。其中2500个常用汉字占所用汉字的98.8% 。又安先生对中国古典名著《红楼梦》也进行了汉字查频工作,证明全书一百二十回也只用了四千二百个不同的汉字。所以原来GB2312的字库,共用汉字6763个,实际上已经涵盖了现代文体所用汉字的99.98%。 这也就是GB2312-1980字库只规定了6763个汉字的原因。其后,ISO(国际标准局)也只用了21003个汉字(当然其中包括了很少量的日、韩特有的汉字)也没有包括米阿伦所要求包括的他所谓的‘常用’54000个汉字。因为实际上没有这种必要,而不是不可能或不能。第二,汉字的总量在中国几种较有权威的字典中的数目是不同的。如:《康熙字典》收字47035个;《中华大字典》收字48000个。但是国人最常用的《词海》却只收汉字14872个;《新华字典》共收字八千五百字。如果照米阿伦的意见,这些字典就既无权威性,也不要编了。因为它们收字还不到米阿伦说的汉字六万的百分之七十,百分之二十或百分之十二。这又是谁在开玩笑?米阿伦充其量也不过认识汉字一万个。那么按他的这种逻辑,他应该连文章也不要写了。大学文凭也不要拿了,因为他实际上不过是一个半文盲。推而远之萧伯纳、邱吉尔的文学家头衔都应该去掉。因为,他们面对四十万的英文词汇总量,能认得十分之一还是五分之一?所以,连半文盲怕也够不上哩!第三,汉字是词符文字而英文是音节文字(见《大百科语言文字卷》)。米阿伦不会连这点常识都没有吧?!所以,和中文的‘字’对应的只能是英文的‘词’!和中文‘偏旁部首’相对应的也只能是英文的‘音节’!而和英文‘字母’对应的只能是汉字的‘笔划’。在GB18030-2000字库中,共收汉字27484个又比以前的标准字库更为完备了。而中文的各种笔划也是十分完备的!米阿伦你能否讲出来,有哪一种笔划是在这个字库中没有的?所以即使在使用时,有万分之二的汉字(这个比例在新字符集GB18030-2000里还要低得多多),字库里没有,那么通过造字程序,使用字库里完整的笔划字模,也能把这个字造出来。这又和英文有什么两样吗?此外,和英文基本组词单位‘音节’相应的是‘偏旁部首’或‘部件’。现在用部首偏旁作码元的输入法如:五笔字型、钱码等,用部件为码元作输入法的如;拼形码,用笔划组合为码元的如:二笔和笔划数字码等都大大提高了文字的输入速度。英文和一切拼音文字却至今也没有想出用‘音节’打字的快捷方法。电脑都发展到PENTIUM了,但英文和其它拼音文种打字,还是使用近两百年前的键盘打字的老牛破车老方法,一个字母一个字母地往上凑合。你在国外有多少年?为什么不接受中国的先进经验,也替英文造出一套快速文字输入方法?光是在那里洗盘子混饭吃,最后弄得没有办法了,回国来充洋大人,对国内的事横挑鼻子竖挑眼?你又是那路神仙?连汉字电脑输入需要统一的字库都不懂,就有权利一口就否定国家信息产业部的行政决定?就是在美国也没有这样的个人自由吧?你以为你是什么人?

总的看来,米阿伦无法说出他要反对国家信息管理部门产品认证的任何正当理由。但他就是要胡搅蛮缠,弄得国家的行政工作推行不开,对这种行为只有一种解释,那就是捣乱!

键盘编码是时代的错误码吗?

据米阿伦说:现在什么、什么等众多(?)‘学者’都有一种理论,说是:“键盘编码是时代的错误。”但是,我清楚的记得,2000年,《中华人民共和国通用语言文字法》公布不久。周有光在《中华读书报》上的一期头版中心位置,有一篇答记者问。他高兴地对记者指着说:我用这台脑已经八年(估计是台286),国人都不重视使用电脑(其实我国当时电脑的个人拥有量已超过六千万台,而且大部份是586了)。他还对记者会意地一笑说:“我比他们要快两三倍。”这里的两三倍显然不是指中文的输入。因为,按大家都知道的事实,编码元老五笔字型的及格水平是每分钟80个字。如果说快两、三倍那就是每分钟160240个字。这对周老先生的实际来说,显然是无法令人相信的。何况周有光使用的准定是拼音码。而拼音码在三大类编码中是最慢的。一是因为它有严重的重码率(汉字同音字很多):其二,周有光曾经杜撰的字音符合打作规律的理论也是错误的。因为任何文字的写作或打作最后都必须落在字形上。如:中文必须想到这个字是如何写的,也就是它的字形如何;而拼音文字也必须去思考它的字母拼写如何。任何文种的字音是直接上不了键盘或纸面的。其理甚明。所以这里指的显然是拼音文字。欧洲拼音文字一般词的动态码长是五点五或六键(不信,可以任一段文字做试验)。而英文科枝词汇的平均静态码长,更长达十一个字母。但五笔输入法的词的平均码长却只有三键。所以,即使不论打作的熟练程度,中文的电脑输入也比任何拼音文字的电脑输入快一倍是无问题的。如有人不信不妨以马克思的著作为例,计算一下,同一段落的中、英、法、俄四种文本所需的击键数,便是了然的铁证!

不错在答记者问时,周有光还说了:“人家日本早就不用编码了。”这句话对日本的钦羡之情溢于言表。而米阿伦更是跟随着这样说的。但这与事实相去远甚。如果不是道听途说,那就只能说是崇洋媚外,用‘日本’吓唬中国人!事实上日文是世界上最不便于用任何键盘输入的一种文字。日文既有五十一个平假名(即字母)还有相应数量的片假名。如果上了键盘那就几乎占满了字盘。这两种假名还要加上切换键才能互换。但是它和欧洲文字的大小写又不同。它的大量外来语又全是必需用片假名书写,而且这种外来语不仅用的假名多,而且中间还插着拗音和促音,光用一下SHIFT键是不行的。必需用功能键加以切换。此外,它还有在假名上加两点的二十个浊音和假名上加小圈的五个半浊音。也还是‘另外’,它还有拗音和促音。这些假名都摆上键盘是不行的。必需加以切换。而且切换时必需给以指令否则它们是不能像米阿伦说的“自动就切换了”。不仅是这样。此外,日本还有文部省规定的1945个汉字,这些汉字一般有两种读法。一曰音读(是学的中文读法)重码就多一些;一曰训读(是日本原来这个字义的读法)重码就几乎没有。但这个字是用哪种读法,也得从习惯。而且日本的汉字也得有字符集(字库),尤其不能像 米阿伦胡说的那样“自动就转换了”。不过,好的是日文单个汉字多使用拼音码就行了(不过也还是绝不可能‘自动就转换了’)。而且,还要有一个‘此外’,那就是日文还有六万多汉字双字词和多字词。这些词多半还有注假名,也就是要在两个汉字旁加注有小字的假名。注假名是用音读还是训读就不一定了。如:日本已经编出来的用于考古和古汉字研究的九万汉字的大字符集《文字镜》那个‘镜’字就必需加上注假名かがみ而不能读成源自于中文的音读きょぅ。所以,这样的字库的输出法连拼音码也不好用了,只能用字形码了到了上个世纪九十年代日本人实在觉得满键盘都是假名,而且又得用各种功能键切换来切换去是太繁。于是把日本的假名也换成了罗马字母作代码。(当然打出来字还是日文假名或汉字)这样键盘虽是清楚了,但是切换的次数增加了,而速度也就又慢了一半。因为绝大多数假名都得用两个罗马字母编码。由此可见,说“人家日本早就不用编码了,”或“可以自动切换。”就完全是无知或欺人之谈了。

为了说明“键盘编码是时代的错误”。米阿伦还装出好像是忧国忧民的样子,气哼哼地说:“中国花了30年的时间,投入的资金和人力难以胜计,尽管一再出现“万码(马)奔腾”的局面,然而汉字字库连汉字总量一半还没有完成。……。”这里我首先要正告米阿伦,不许你诬陷汉字。你说的汉字字库连一半还没有完成,只是你的孤陋寡闻。上个世纪九十年代中期我国《四库全书》的文本版光盘出版时,已完成了五万多字汉字字库。之所以一般只用GB字库。是因为这些字库已经足够使用了。我上文说过汉字字库的区位数是36的四次方。也就是一百六十多万个区位。是你夸大了的汉字总量的二十五倍。五笔字型的四码汉字输入的总容量是25的四次方。是你夸大了的汉字总容量的七倍半。二笔字形的声形码如果增加到四键出字,也是你所谓的汉字总量的十倍(即23X30的立方)。就是拼形码和钱码也都有汉字总量的数倍以上的容量。此外,我国的考古研究部门、古文字研究部门以及历史研究部门也都在合力编制一个包括楷书、草书、隶书、小篆、大篆(籀文)金石文以至甲骨文的大字库。既然日本人能编出一个九万字的这样的《文字镜》大字库,那未我们会编得比他们更完备。

至于说到万码奔腾,这也是过份夸大的说法,对于不坏好意的人,这就是别有用心!因为经过竞争能在市场上获得份额的汉字输入法,正如周青等人大代表推荐二笔输入法的提案里所说“在市场上流行的也有十几种”而已。

说因而浪费了国家多少资财,就更是扯淡之论。当初正是有些人兴高采烈地说:“电脑是汉字的掘墓人”的时候,八十年代初王永民先生的五笔字型输入法一举打破了汉字进不了电脑的谰言。使用的结果证明汉字不仅能进入电脑,而且比世界上任何拼音文字更先进更快捷。但必需指出的是王永民先生研制五笔字型时,并没有花国家一分钱!以后又有人提出了汉字电脑输入的瓶颈问题,而二笔输入法和拼形码,以及诸多五笔的改进输入法都注重了码元(字形字母)的数字化程度。彻底打破了刁难汉字输入法“好学的不好用,好用的不好学”的神话。使汉字成为当今世界上唯一可利用电脑进行快捷非全息输入的文字。

剥开了米阿伦这些枉加给汉字和对CESI认证的诽谤不实之词之后,终于显露出米阿伦骨子里的东西是什么了。这就是他说的:“中文信息技术的发展的关键所在,……文字方式改革是历史的需要。”什么叫“文字方式”的改革?听起来似是而非。其实说穿了不过是“老调新弹”改头换面的拉丁拼音化而已。只是这个旧名字声誉不怎么太好,所以,改叫“文字方式改革”,其实酒还是一样的。说起汉字的文字改革这是整整闹了一百多年的一场大戏。远在一百多年前的十九世纪末,福建那个洋奴小买办卢赣章就打着“爱国”的旗号攻击汉字,说英文只须学会二十六个字母,拼法学会就会了英文。所以中文也要改拼音才对。这在当时像外文奇才辜鸿铬那样的人还是凤毛麟角的时代,国人自然是不知就理的。但现在再卖这样的狗皮膏药和谎言定会遭人嗤之以鼻。不过无论是当时还是现在说他是爱国,我们是不会上当的。因为他一生的大作《一目了然初阶》完全是用瞿理氏拼音编写的闽南话。(现在倒是很适合台独分子的口味)这种文字一旦推广,中国岂不是要四分五裂,还有什么中华文化可言?!所以,他不过是自己在中文英文都混不出个人样来的时候,借此出点小名罢了。到了二三十年代,特别是五四以后,许多有识之士,眼看外文从打字到印刷都比中国先进得多。外文的机械打字机已经发明了快一百多年。而到了五十年代中国才有了笨重的打字机。这种机子笨重不说,它的常用字盘只有2450个汉字,备用字也只有1716个。每分钟最快也只能打四十个字。而印刷术,仍然用的是手工捡字。一本书的出版周期有时竟会慢到一年。面对这种落后的情况,要求改革汉字是可以理解的。不过,到了改革开放以后,党中央和我国政府还是考虑到文字的传承一贯和她是民族文化的根基,取消了文字改革委员会而代之以文字工作委员会。在这一机构中也取消了继续进行文字改革的任务。进入八十年代,王选院士汉字激光照排印刷术的发明,使我国的印刷技艺发生了翻天覆地的变化。与此同时,以王永民的五笔字型为首的各种输入法完全打破汉字无法进入电脑的预言,一举获得了惊人的成就。证明汉字是世界上最能适应电脑枝术的文字。这种情况与工业化时代的情况正好相反。进入信息时代(或称后工业化时代)世界上除汉字以外的一切拼音文字,仍然在电脑上使用着近两百年前的,机械打字方法进行着文字的全息输入而裹足不前。拼音文字在工业时代的绝对优势,在信息时代一下子完全让位于世界上唯一拼形表意的汉字了!

在这种新形势下,我国人大常委会才通过了《中华人民共和国通用语言文字法》并于2000年元月一

日正式施行。这是建国以来,文化、教育及信息交流上的一件空前的大事。《语文法》是国家的大法。在这一法律中明确规定规范汉字为我国的通用文字。这一决定不仅结束了百年争议的历史,而且因为中文是联合国四种通用文种之一。它的影响是巨大的。在这种时候再给汉字加上种种莫须有的罪名,如上面我所批判的米阿伦的种种谬论者。就是破坏国家的大法。它将造成的影响和损失不是用亿万金钱可以计算的。它将使十三亿人口变成文盲。它将全面毁灭我们的文化、教育以至精神文明建设。对于像米阿伦这样的违法宣传者,完全应该追究他颠覆的罪名才是。他的言论已经超出了学术讨论的范围!

汉字的奥秘

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有

地址:中国湖南(湘潭市工贸中专学校)  电话:0731-52573192