阅读文章

高国鹫:汉字编码三大定律

三 终结码判断准则

[日期:2007-12-13] 来源:原创  作者:高国鹫 [字体: ]

汉字编码测评工作需要建立综合检验标准,要包括计算机字母键盘和手机等数字键盘的全部汉字编码,目前在对汉字编码的所有评测中,终结码判断准则是唯一的实践检验标准,是最高级别的测评标准,但需要相适应的键盘键位设定来支持,终结码判断准则如下:

汉字编码按应用可划分输入及排序两种功能,无论是对计算机字母键盘还是手机等数字键盘,其终结码应具有上述双重功能,衡量标准为:作为汉字编码要有用于文字输入的庞大群体,同时又要有虽然不用这种方法输入汉字、但肯用来查询汉字的庞大群体。

汉字编码需要有充足的编码资源,而对于有特殊要求的汉字编码方案,其编码资源可能还与键盘键位的设定有着密切关系,如果键盘键位的设定没有考虑到这一因素,那么寻觅终结码肯定会是徒劳的,因此从某种意义上说,终结码判断准则为键盘键位的设定提出了新的要求,下面就从键盘键位设定说起:

1、计算机字母键盘键位设定

因为汉语拼音方案凝聚了三百年来拼音字母运动的结晶,又有五十年的全民普及历程,消耗掉了国家巨大财政支出,因此,计算机字母键盘键位设定应该首先考虑汉语拼音方案,确定汉语拼音的字母键位,然后才能去研究汉字形码编码的问题。

汉语拼音方案早在1958年就已经与国际接轨,目前根据《汉语拼音方案的通用键盘表示规范》(GF 3006—2001)设定的汉语拼音字母键位,并不需要对从国外泊来的计算机重新设定字母键位,这是因为采用这种键盘输入汉语拼音,汉语拼音能直接成为音码中的终结码,例如汉语拼音有着庞大的文字输入群体,而对于其它任一种汉字输入法,汉语拼音都是不可替代的辅助查询工具,这又形成了一个庞大群体,而在汉语拼音之后研发的所有音码,譬如双拼、简拼等都不能成为终结码。

对于汉字形码编码,目前是依照《信息处理用GB 13000.1字符集汉字部件规范》(GF3001—1997)确定的基础部件进行编码,但该规范并没有具体设定基础部件的键位,完全是由编码人根据自己确定的编码规则进行设定。目前形码终结码虽然尚未面世,但在码长曲线上能清晰找到它的位置:从图1码长曲线可以看出,汉字输入功能与排序功能总是互相伴随着,在整字与中值点区间(M—P),汉字编码主要以输入功能为主,排序功能相对比较弱,除了使用这种输入法者自己用以外,其他人肯定不会用;在中值点至笔画区间(P—N),汉字编码主要以排序功能为主,难以形成庞大的汉字输入群体,这也是笔画输入法不能入围终结码的道理;而在中值点(P)附近,汉字编码具有汉字输入及排序双重功能,这是成就终结码的必要条件,也就是说位于中值点附近的汉字编码未必就是终结码,但远离中值点的所有编码肯定都不会是终结码,这告诫人们只能在码长曲线中值点附近去寻找终结码。

2、手机等数字键盘键位设定

数字键盘字母键位的设定,就没有像计算机键盘字母键位的设定那样顺利了。目前国际通用数字键盘总共有两种字母键位设定方法,一种是10键位字母键位设定,另一种是8键位字母键位设定。我国数字键盘字母键位设定,是根据《信息技术 数字键盘汉字输入通用要求》(GB/T 18031—2000)确定的,这是以国际通用数字键盘为基础,直接进行汉语拼音字母键位设定,也相应提出10键位和8键位两种设定方法,目前流行后一种。

采用目前国际通用数字键盘在输入英文字母时,码长是不等长,最少要按1键,最多要按4键,因此,这种码长不等长的字母键位设定方法本身就是缺陷,属先天不足,对这种数字键盘如果不加任何改造,直接用于汉语拼音字母键位设定,会造成用汉语拼音每次只能输入单个汉字,不能直接输入汉语词组,导致目前汉字输入仍滞留在字处理阶段,寻找终结音码也就无从谈起。

关于形码输入,目前是在键盘的数字键位上直接标识部件或笔画,与数字键字母没有任何关系,但是,如果我们寻觅的是字母与数字有关联的形码编码方案,那么,目前的这种数字键盘字母键位设定就不能胜任了。

《汉字近形编码论文之一》

辽宁/本溪/本溪钢铁公司设计研究院  高国鹫

电子邮箱   hypx8798@yahoo.cn



上一页 [1] [2] [3] [4]    
【内容导航】
第1页:前  言
第2页:一 码长定理
第3页:二 基础码判断准则
第4页:三 终结码判断准则


阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:再倡世界语-5

下一篇:笔画组合理论与汉语拼形方案
相关文章       汉字 
本文评论
  字形与拉丁字母相结合就应该能产生汉语拼形方案 =====你搞错了,汉字的形状与英文的形状怎么可以做一对一比较,简直是牵强附会的结果。 英汉只是借用26个符号,来表达各自的发音系统。不是26个符号与中文产生什么形状上的相似才使用它们的。 你的高见,可以用在学术上,用在实践上,估计很难推广的。汉字就是汉字,与英文字母很难在形态上相通的。   (木屋 ,2008-07-08 )
  很有发展前景   (路者 ,2008-06-29 )
  我想知道汉字的三大编码是什么   (提问着 ,2008-06-24 )
  终结码特征: 具有汉字输入及排序双重功能,字元平均笔画数3.2笔 ======= 我觉得从数据分析中,似乎可以证明单字平均码长是3.2笔画.3画笔画集不拆的科学依据. 国家的对字根集的规定不科学: 国家规定的500多个部件无法承担易学高效的编码任务,因为它的字元平均笔画数是4.3.高出1.1 ======难怪我觉得国家对部件的规定怎么那么难落实,原来如此!   (林家毅 ,2008-05-09 )
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章