阅读文章

笔画组合理论与汉语拼形方案

[日期:2008-02-28] 来源:原创  作者:高国鹫 [字体: ]

 

     

 

在计算机汉字编码诞生以前,主要依靠整字或笔画输入汉字,采用整字输入属机械打字,这就是早期大键盘整字输入技术,一键对应一字,需要专用设备和专职打字员;采用笔画输入属书写,是从几千年前一直延续至今。计算机进入汉字输入领域后,如果按整字输入,那么数千乃至数万字分布于计算机26个字母键位,因键位不足会产生大量重码,即使能够输入也没有使用价值;如果按笔画输入,那么若干个笔画分布于计算机26个字母键位,一定会造成键位过剩也容易产生大量重码,而且输入效率低,因此从上世纪七十年代末开始,人们尝试着在整字和笔画之间寻找编码出路,这标志着计算机汉字输入进入了编码的年代。

在整字与笔画之间寻找编码的出路,目前主要是汉字拆分理论,这是从三十年前开始逐渐形成的汉字编码理论,是从整字端入手把汉字按字源关系拆分成基础部件(前身为字根),然后再用基础部件编码形成各种汉字输入法,从某种意义上说,是汉字编码把中国带入了信息时代,中国人终于可以自豪地说,在全球信息化进程中,我们没有落伍。

但是,近些年来随着中国信息产业的深入发展,汉字拆分理论及采用基础部件编码,遇到的各种问题也逐渐凸显出来,主要表现是随着计算机的应用向深层次推广,金融、户籍、医疗、交通等行业都在使用计算机进行信息交流,经常会遇到生僻字输入的问题,目前国家颁布的大字符集基本能够满足日常需求,但基础部件在大字符集推广应用中却遇到了阻力,以至于到现在我们还没有找到大字符集汉字简便输入的方法,甚至濒临“山穷水尽”的困境,人们迫切期待汉字编码理论的突破,呼唤新的汉字编码方案早日诞生。

笔者在整字与笔画之间寻找汉字编码出路的过程中,尝试从笔画端入手,提出了笔画组合理论,采用近形原理,把笔画按笔顺规则表组合成拼形字元,再采用拼形字元编码,这就是汉语拼形方案。笔画组合理论的提出完善了汉字编码理论,汉语拼形方案的问世解决了大字符集生僻字输入的问题。

 

    汉字拆分理论

 

目前汉字编码理论的核心内容是汉字拆分理论,这是从汉字整字入手,根据字源和兼顾字形,把汉字拆分成基础部件,然后再用基础部件编码。因出发点的不同,导致汉字有多种拆分方法,为此1997年颁布《信息处理用GB 13000.1字符集汉字部件规范》(GF 30011997)标准(简称基础部件),对二十多年来在汉字编码热潮中涌现的形形色色字根类编码进行大统一,不按基础部件拆分的汉字编码将不予承认,下面对基础部件进行剖析:

1、规范化

基础部件的颁布,并不是部件规范化的全部内容,因为还存在着基础部件编码规范化的问题,在汉字拆分理论中,没有涉及到任何有关计算机或字母键的内容,可以肯定地说,基础部件和汉字一样,不具有采用字母排序的能力,按基础部件编码能生成多种汉字输入法,属于多元编码,目前,在对基础部件编码适用范围尚不清楚的情况下,提出基础部件编码规范化是不现实的。

2、码长

对某一确定字符集,汉字总笔画数是一定的,因为基础部件结构比较复杂,平均笔画比较多,位于码长曲线MP区间(见《汉字编码三大定律》),码长相对比较短,这里把码长比较短的汉字编码称为短码,短码适于汉字编码,通常不超过4键,这是汉字编码的最佳码长。

3、适用范围

在日常生活中,7000个通用字所构成的词语基本能够满足人们交流的需求,对应字符集是《信息交换用汉字编码字符集基本集》(GB 2312——80)(简称基本字符集),含有6763个字,字容量相对比较小,适宜基础部件这种短码编码和日常中文输入,输入效率相对比较高,因学习难度大,使用对象主要是专职打字员。

 

    笔画组合理论

 

本文从汉字笔画入手,提出了笔画组合理论,主要根据笔顺规则表和近形原理,把笔画组合成拼形字元,然后再采用拼形字元编码,这就是汉语拼形方案。采用笔画组合理论和汉语拼形方案,这是一块未曾开垦的处女地,是在笔画和表形码基础上发展起来的,是笔画输入的一种快捷方式,是将汉字编码“近形”到底的产物。

最早采用近形原理编码的是陈爱文先生的表形码,因受汉字拆分思想的束缚而中途搁浅,由笔者按近形原理研发的汉语拼形方案,除了将字母个体具有的形体特征用于确定字元之外,还独创了将字母整体具有的序列特征用于协调编码中产生的歧义性问题,在这里,前者的作用是发现,找到了汉字与字母间存在的内在联系,这种内在联系可将字母直接应用于汉字编码;后者的作用是深化,将由笔画拼成的汉字演变成由字母组合成的汉语拼形。

汉字由笔画拼成,需要一笔一笔去书写,这是传统文字信息录入方式,效率也很低,步入到信息时代,计算机如果按笔画输入汉字,像写字那样每按一次键都只输入一个笔画,效率也明显是很低的,那么能否找到一种方法,让计算机每按一次键,除了能输入一笔画之外,还能同时输入两笔或多笔画呢?答案是肯定的,只要按照笔顺规则表,将不同笔画拼成多笔画结构,让计算机输入这些笔画结构,那汉字输入效率就能够大幅度提高,因为计算机是通过手指按字母键输入汉字,因此按近形原理,将笔画拼成与大写字母形体特征相近的笔画结构为最佳方案,这就是汉语拼形字元,汉语拼形字元是按笔画顺序组合成、并含有字母信息的笔画结构,简称为拼形字元或字元,把与汉语拼形字元对应的字母称作汉语拼形字母,简称为拼形字母或字母,把构成汉字(或词组)的汉语拼形字母组合称作汉语拼形。例如按近形原理对“凶”字编码,可把由笔画拼成的“乂”用字母X表示,“凵”用字母U表示,那么“乂”和“凵”就称作汉语拼形字元,简称为拼形字元或字元;XU 称作汉语拼形字母,简称为拼形字母或字母,而汉语拼形字母组合XU就是“凶”字的汉语拼形,汉语拼形也可以用小写字母表示,下面对拼形字元进行剖析:

1、规范化

总体按照笔顺规则表,因为采用近形原理编码,字元含有字母信息,字元与字母之间存在着一一对应的关系,这种对应关系能将字元直接转换成字母,无论是笔画拼接成字元,还是字元转换成字母,以及字母组合成汉语拼形,这一系列过程都具有唯一性,因此采用汉语拼形编码属于一元编码,不但能对汉语拼形字元进行规范,对汉语拼形输入法也能进行规范。

2、码长

汉语拼形字元由笔画拼成,结构比较简单笔画也比较少,表现出一种符号性质,位于码长曲线PN区间(见《汉字编码三大定律》),确切说应该是位于中值点P附近,码长相对比较长,这里把码长比较长的汉字编码称为长码,除了少量复杂字之外一般不超过12键,长码适于大字符集汉字编码及汉字排序。

3、适用范围

在日常生活中,人们办理存款、医疗、旅游及各种证卷等,经常会涉及到人名或地名生僻字输入问题,目前颁布的最大字符集是《信息技术中文编码字符集》(GB 180302005)(简称大字符集),含有70244个字,字容量相对比较大,而汉语拼形属于长码,适于这种大字符集汉字编码及汉字排序,主要应用于日常生僻字的输入、古汉语及文字学研究领域,因学习简单、操作方便,使用对象是普通计算机文字录入人员。

 

     短码编码与长码编码兼容性问题

 

按照汉字拆分理论,如果将基础部件直接扩展到大字符集编码,其结果仍然是短码,这在解决重码问题上存在着难以逾越的鸿沟,因此,基础部件这种短码是不适宜直接推广到大字符集的。基于同样道理,对于大字符集汉字编码,人们并不特别强调输入的快慢,而关注的是能否简便输入的问题,这是汉语拼形适于大字符集汉字编码的基础,但如果把汉语拼形直接应用于基本字符集汉字编码,根据笔画组合理论,其结果仍然是长码,这会因输入效率低恐怕就没人肯用这种方法了,因此,汉语拼形这种长码是不适宜直接应用于基本字符集的,这说明基本字符集和大字符集的汉字编码是互不兼容的,能够满足基本字符集的汉字编码不适宜直接推广到大字符集中,而能满足大字符集的汉字编码也不适宜直接应用到基本字符集中。

从汉字编码的需求看,无论是音码、形码及音形码(或形音码),对于基本字符集汉字要求快速输入,而对于大字符集汉字要求简单打出,对于常用词语要求适量丰富,因此,汉字编码应该统筹考虑到这些问题,如果适宜基本字符集的短码编码,不能有效解决大字符集汉字的简单输入;或者适宜大字符集的长码编码,不能有效解决基本字符集汉字的快速输入,那么这种编码迟早会被淘汰掉,下面探讨解决这一问题的方法。

1、短码编码解决大字符集汉字的输入

对于基础部件这种短码编码解决大字符集汉字输入,这里推荐采用挂接输入法。挂接输入法的作用是把两个互不相同的汉字编码方案纳入到同一个输入法中,并且能够快速切换:在输入过程中,只要按某一键就会立刻切换到另外一个辅助字符集中查找字,这里把这个辅助字符集的汉字编码称为挂接输入法,挂接的输入法应该是一种长码,而且人们已经很熟悉或很容易掌握,目前能够满足这一条件的只有笔画和汉语拼形输入法可供选择。

挂接笔画输入法比较简单,有一定群众基础,但是汉字笔画多,很多字有几十笔画,因此,这种方法应用在字典的汉字排序中是可以的,计算机目前不接受几十位码长的汉字编码方案,另外,如果挂接输入法是为了解决大字符集汉字输入,但恰恰是大字符集中很多字具有图形性质,笔顺很难判断,这给实际操作带来一定难度;挂接汉语拼形输入法,码长12键基本能涵盖绝大部分字(例如GB231280最大码长为12键),能够在大字符集中简单方便检索字,存在问题是需要学习一种新的汉字输入法,这是否会干扰正常输入尚需在实践中检验。

2、长码编码解决基本字符集汉字的输入

对于汉语拼形这种长码解决基本字符集汉字输入,这里推荐采用中值码挂接汉语拼形输入法,下面介绍中值码:对于7000个通用字,在中国大陆有着良好的汉语拼音基础,所对应的就是基本字符集,为了解决基本字符集汉字的简单、快速输入,这里引入汉语拼音与汉语拼形携手编译的中值码。

中值码简称为中码,属于音、形混合编码,在这里,如果把汉语拼音和汉语拼形的所有编码信息都保留,因信息量过剩反而会使汉字输入变得繁琐起来,因此可把多余汉字编码信息滤掉,对于汉语拼音只保留首字母,对于汉语拼形只保留首、尾字母,这样构成的中值码单字为3码、词组为4码,属于短码编码,完全能够适应基本字符集的汉字输入,中值码使用功能如下:

键入一码是单字中汉语拼音首字母所对应的常用字;键入二码是双字词中每个字汉语拼音首字母所对应的常用词;键入三码是单字输入,首码为汉语拼音首字母,次码及末码为汉语拼形首、尾字母;键入四码是词组输入,双字词依次选取每个字的汉语拼音首字母及汉语拼形首字母,三字词依次选取每个字的汉语拼音首字母及末位字的汉语拼形首字母,四字及四字以上词依次选取前四字每个字的汉语拼音首字母。

中值码虽然妥善解决了基本字符集汉字的简单、快速输入,但中值码与汉语拼形毕竟是两个不同的汉字编码方案,也不存在兼容性问题,要把它们纳入到同一个汉字编码中,这里也采用挂接输入法来解决,但这是采用中值码挂接汉语拼形输入法,为了扩展中值码的使用功能,按照同样方法又挂接了汉语拼音输入法,这样构成的中值码挂接输入法的功能为:在输入过程中,当遇到读不准字音或不会读的生僻字时,只要输入字母u就会自动切换到大字符集汉语拼形输入法检索字;当遇到写不出字形或不会写的疑难字时,只要输入字母v就会自动切换到汉语拼音输入法检索字,挂接的输入法可根据需要选择字符集,但不包含词组。

 

   结论

 

目前汉字形码编码有两种基本理论对应两种基本输入方法。

一种是目前汉字拆分理论,从整字入手,把整字按字源关系拆分成基础部件,把相同类型结构的基础部件,分布在计算机键盘不同行或列的键位上,然后再采用基础部件编码,因此,这种方法是采用键位编码,与键位用哪个键名没有任何关系,需要熟记键位,要在计算机键盘对基础部件进行键位设定,也就是把基础部件镌刻在计算机字母键位上。

另一种是本文介绍的笔画组合理论,从笔画入手,把笔画按笔顺规则表组合成拼形字元,把与字母键名相近类型结构的字元分布在同一个字母键名上,然后再采用拼形字元编码,因此,这种方法是采用键名编码,与键名在哪个键位没有任何关系,人们对计算机字母键名已经很熟悉,因此并不需要在计算机键盘对拼形字元重新键位设定,也不需要把拼形字元镌刻在计算机字母键位上,只要通过联想,知道汉语拼形字元与字母的对应关系就可以了,而这种对应关系早在拼形字元创建时就已经考虑好了。

采用基础部件编码属于短码,而采用拼形字元编码属于长码,正是因为它们之间码长的不同,导致其输入的难易程度、录入速度、适用范围、使用对象等都是不相同的,采用基础部件编码之所以输入效率高,是以容忍难学为代价换取的,这是短码编码的主要特征,是固有的不能根除掉的;而采用拼形字元编码之所以简单易学,也是以容忍输入效率低为代价换取的,这是长码编码的主要特征,也是固有的不能根除掉的。那种幻想寻求既简单方便、输入效率高、又适宜各种字符集的汉字形码编码方案,其实都是不可能实现的,我们只能因势利导、扬长避短,对于基本字符集采用基础部件编码,因输入难度大,可聘用专职打字员经培训后上岗,主要解决日常生活中所需的大量中文输入;而对于大字符集采用拼形字元编码,因输入简单方便,可推广普及,主要用于大字符集生僻字输入或挂接输入法。

综上所述,汉字编码的功能主要是由码长决定的,根据汉字编码码长的不同,产生了汉字拆分理论和笔画组合理论,然而这两种理论分别适用于基本字符集和大字符集汉字编码,在应用上都具有局限性,是两个不同类型的分支,而只有将这两种编码理论融合在一起,才是完整的汉字编码理论——现代汉字编码理论。

 

 

《汉字近形编码论文之二》

辽宁省/本溪/高国鹫

E-mailhypx8798@yahoo.cn

2008228




阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:高国鹫:汉字编码三大定律

下一篇:数字键盘复码字母键位设定原理
相关文章       《汉字编码三大定律》 
本文评论
  很少有人能耐心学习使用,贴近汉字易学,全新的东西难学。   (敬永权 ,2012-04-17 )
  不如 汉字编码三大定律 分析得精彩.   (林家毅 ,2008-05-09 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章