湘潭市工贸中专,湘潭职校,湘潭中专,湘潭市工业贸易中等专业学校,湘潭工贸学校,湘潭市一职,学校简介,招生简章,入学指南

 

汉字输入技术与应用研讨会论文集

  

论逻辑二笔码的重要进展与突破

  

石兰  李格

 

 

【摘  要】本文介绍了一种能为千百万人所使用的全民普及型汉字编码——逻辑二笔码。描述了它在学习和使用效率上的明显优势以及功能上的突破,提出了字、词处理到句处理的终极目标与方向,阐明了逻辑二笔“取码最简单、笔画最科学、学习记忆量最小”的设计思想与原则。

 

一、逻辑二笔码介绍

 

逻辑二笔码是逻辑拼形码[1](部件码)发明人李格先生的又一力作。具有十分易学、易用,记忆量极少的鲜明特色。一般人5分钟左右就能掌握。逻辑二笔码是基于字、词频技术开发的实用专利产品。打单字码短,选字不需翻屏,打文章效果则更好,能使手机上与电脑键盘上的输入方法保持一致。此方案能解决大部分中国人汉字输入问题,一经推出,马上形成大批用户。特别适合于大规模,大面积地推广,是汉字输入扫盲的首选方案。

1.逻辑二笔码键位安排:

名称

横折

竖折

撇折

键位

H

S

P

D

N

Z

L

K

首笔示例

中非

 

飞马阶乃

 

红女台

末笔示例

贝武

文还

化区民

 

   注:HSPDN为音托键位,ZLK为形托键位。

2.汉字结构:

上下(S)、左右(Z)、包围(B)、独体(D)、特殊(T),例如:“坐、褒”等。

3.单字输入规则:

+首笔画+末笔画+(结构)

例:CPND)、沙SDPZ)、字ZDHS)、海HDDZ)、软RHNZ)、件JPSZ)。

其中“音”指汉字读音的首字母,“结构”为识别码,通常可以不输。

4.词组输入规则:

2字词:音1+2+2首笔画+2末笔画           例:中国ZGSH

3字词:音1+2+3+U                 例:计算机JSJU

4字词:音1+2+3+4                        例:科学技术KXJS

4字以上词:音1+2+3+音末             例:中华人民共和国ZHRG

* 输完音后+-’(减号)则出词。         例:马上MS-

 

二、逻辑二笔码的鲜明特色

 

逻辑二笔码追求的目标是成为一种比拼音码还要普及的编码。它有如下鲜明的特点:

1、几乎不要学习。规则十分简单,拼音首字母、首末笔画、笔顺规范[2]以及汉字的基本结构几乎是全社会已经掌握了的东西,因而不需要重新学习,对于稍会拼音的人来说,几乎没有要记忆的东西。

2、几乎不会遗忘。因为不需记住什么,也就不会遗忘什么。

3、选重码不需翻屏。由于取码科学,加上字频技术,较好地解决了重码问题,能做到选字不翻屏,明显优于拼音方案,对绝大多数非专业打字人员来说是非常实用的。

4、词组输入极为方便。对于3字及3字以上词组,只需输声母。有望结合智能化实现只输声母的句输入。

5、码短,效率高。逻辑二笔码最多不超过4码,较之拼音和五笔画有明显的优势。

6、能使电脑键盘输入与手机输入统一(这是一个新目标)。当前除了拼音输入外,其他编码都未能做到这一点。

逻辑二笔码具有强大的社会基础,是一种普及型的编码,能像拼音码一样为千百万人所使用,它克服了拼音码拼不准、重码高、击键多的缺陷,吸收了拼音码无需拆分的整字输入优点,是一种比拼音更简单,更高效,更有广泛社会基础的实际而理想的系统。

 

三、逻辑二笔码的主要突破

 

1、一级简码的突破

逻辑二笔码在每个键位上都安排了10个一级简码。 其中第一个字是通常意义下的一级简码,另外9个则安排了对应声母开头的百家姓。这种安排有很大的实用价值,有20723×9)个百家姓可以在一键下出字,可覆盖常用姓氏,也无须记忆。

例如,输入L,则有:

 

   1 .2.3.4.5.6.7.8.9.0.

 

这样,既不破坏原有的一级简码,也可在一键之下输入绝大多数姓氏,大大利用了编码空间,极大地提高了人名输入效率。

2、重码方面的突破

重码问题与编码的理论空间以及空间的有效利用程度有关。

逻辑二笔码的理论空间为588823×8×8×4);

五笔画的理论空间为31255×5×5×5×5);

拼音码的理论空间仅为416(汉字共有416种读音)。

可见,逻辑二笔码在码短的前提下有很大的空间优势。同样在空间的利用效率上也明显优于其它笔画编码。

例如:五笔画(横、竖、撇、捺、折),根据1234、末笔的取码原则,空间的有效利用并不大,前四笔通常只能表示部首,如“王”、“木”等。而一半左右的汉字,其部首的笔画超过4笔,如“石、虫、鸟…”等等。

以“王”旁为例,在《新华字典》上,以“王”归部的汉字有157个,假设前4笔能把含有其它部首的字都滤掉,选出157个含“王”旁的汉字,此时仅剩下1位编码来选出目标汉字,其平均重码就有31.4157/5)个。以“木”字为部首的汉字则多达455个,平均重码为91455/5)个。

而逻辑二笔码则是综合了拼音码和笔画码的优点,每一位取码都有很高的效率。有效地克服了拼音码和笔画码重码多的缺点。是一个非常巧妙和实用的系统。

3、词处理的突破

笔画码是很难处理词组的,例如五笔画采用了8键输入一词的规则,拆字麻烦,击键次数太多,效率很低,逻辑二笔码则采取了4键一词的规则,实现了整字声母输入,避免了汉字拆分,如二字词中,有一字需要笔画拆分(往往仅需拆分首笔),三字和三字以上词则完全输入声母(读音的首字母),如“计算机”只需输“JSJ”等等,使词组输入非常方便,脱离了其他笔画码处理词组的通常模式。其编码空间也很充分,分别为:

二字词:23×23×8×8=33856

三字词:23×23×23=12176(空间效率很高,音1+2+3+U的方式能屏蔽掉三字词以外的字和词)

四字及以上字词:23×23×23×23=279841

4、句处理的探讨

逻辑二笔码词组的定义方式是很有特色的,尤其是二字词组,例如“计算(JSPS)”的前二码为拼音首字母,这样使逻辑二笔码向声母化的句处理迈进了一大步。

例如:“领导(LD)我们(WM)事业(SY)的(D)核心(HX)力量(LL)是(S)中国共产党(ZGGD),指导(ZD)我们(WM)思想(SX)的(D)理论(LL)基础(JC)是(S)马克思列宁主义(MKSY)。”这句话,我们用逻辑二笔码,只输入声母(每字一键),通过选词是完全可行的。由此可见,逻辑二笔码加上一定的基于理解的智能化处理,只输声母的句输入是可能的。这为句处理指出了一个方向:声母输入。这是键盘输入的一种理想状态。

另外,用声母输入句子,有很大的空间,如5个字(5个音首字母)的句子,就有643634323×23×23×23×23)个,即6百多万个。这样,大型语料库及统计语言模型将使这种方案成为可能。

这样,逻辑二笔码就有了字、词、句的处理能力,因而是一个完备系统。

5、不认识字的输入

逻辑二笔码采用了音形结合的办法,当输入不会读音的字时,用“I”来代替音,即采用“I+首笔画+末笔画+结构”的规则输入汉字。虽然空间较小,只有2568×8×4),按一屏显示10个汉字,则共可不翻屏选择2560个字,逻辑二笔码在这个空间上将生僻字排在前面,即按字频的逆序排,可减少一些选字负担。这样弥补和克服了拼音码不认识的字无法输入的缺陷。

 

四、逻辑二笔码的设计原则

 

1、取码尽量简单

逻辑二笔码结合了拼音码和笔画码的优点,既不需要准确严格的拼音(仅取字音首字母),也无需对汉字进行太多的拆分(仅取汉字的首末笔画)。采取“字音首字母+字形的首笔画+字形的末笔画+(字结构)”的单字输入规则,而字结构只起识别作用。因此无论从音或形的角度来说都是最简单的形式了。这种取码规则的简单性是其它笔画编码方案难以逾越的。

2、笔画分类尽量科学

汉字的笔画有28 [3],如何对笔画进行科学的分类,是笔画码的关键所在。一般将笔画分为5类,即横、竖、撇、捺、折。

而逻辑二笔码将点、捺分开,把“折”细分为横折、竖折、撇折,共分8个笔画:横、竖、撇、点、捺、横折、竖折、撇折。

后三者很容易从笔画名称中抽象出来:

横折:横折、横折提、横折弯、横折钩、横折弯钩、横折折撇、横折折折钩、横撇、横撇弯钩等。

竖折:竖折、竖折撇、竖折折钩、竖弯、竖弯钩、竖提、斜钩、卧钩等。

撇折:撇折、撇点等。

这样分类既符合文字学笔画原则,又能增加编码空间,使重码减少。同时,手机上的8键正好与此吻合,这样就实现了信息处理用的科学的笔画分类原则。

下面是国标6763个汉字的首末笔的分类统计:

笔画名称       代码        出现次数      占总次数的百分比

                                 H                         3919                             28.98

                                 S                          2130                             15.75

                                 P                          1873                             13.85

                                 D                         2974                             21.99

                                 N                         1244                             9.20

横折                             Z                          440                             3.25

竖折                             L                          647                             4.78

撇折                             K                         294                             2.17

   13525 100

3、学习记忆量最少原则

在键盘映射上,5个采用音托的方式:横(H)、竖(S)、撇(P)、点(D)、捺(N);3个采用形托的方式:横折(Z)、竖折(L)、撇折(K)。

这种笔画名称与键盘代码有很好的关联性,因此记忆量很少,且不易遗忘。大量的实践表明,有少量拼音基础的人(成年人、学生),对8个笔画及代码,一般都能在1~2分钟内记住,没有任何记忆负担或心理障碍,故它实现了学习与记忆量最少的原则。

 

五、结束语

 

电脑的普及正以加速度的方式进行着,在电脑汉字键盘输入方面,普及率最高的还是拼音输入法,但拼音输入法的缺陷也是明显的,拼不准、重码高、击键多是突出的缺陷。

手机在中国普及的速度则更为惊人,手机上的输入主要是笔画码,而短信息输入,Email输入都要求有一定的速度,笔画码的效率不高问题已日显突出。

逻辑二笔码能集电脑键盘输入与手机输入为一体,克服了拼音输入与笔画输入的缺陷。成为比拼音码、比笔画码更优的普及型编码。

寻找一种为千百万人所使用的比拼音码、笔画码更优的普及型编码是汉字键盘输入领域的理想,而逻辑二笔码正是这种理想的普及型编码。

逻辑二笔码适合于大规模的成人电脑汉字输入的“扫盲”推广。它的字、词甚至句处理能力,以及众多突出而明显的优势,将使这种编码获得比拼音码还要广泛的社会基础,因而有更为远大的前程与未来。

参考资料

[1]  周文斌.“逻辑拼形码”通过鉴定.北京:光明日报,2001.5.1.

[2]  国家语言文字工作委员会标准化工作委员会.现代汉语通用字笔顺规范.北京:语文出版社,1997.

[3]  许嘉璐等.现代汉语模范字典.北京:中国社会科学出版社,2000.

 

 

井田汉字,独一无二的汉字结体构形理论,科学地解决数码时代汉字所面临的问题。

湘ICP备05008125  语言文字网  2003-2013©版权所有