阅读文章

张时钊:体验优异的自然序检字图

[日期:2011-05-19] 来源:语言文字网  作者:张时钊 [字体: ]

体验优异的自然序检字图

张时钊

图为张时钊先生在会上发表论文

 图为张时钊先生在会上发表论文

  有人说汉字难学,最多也就是查字典难。有些字,我们常读白字,就是因为急忙查不到它,只得读半边,读错了。不像拼音文字,有自然的字典序,任何字汇在任何字典中都有唯一的位置,一定可以快速查到。汉字繁多,字形复杂,一直沿用许慎的部首法,虽经列代修正,还是有不少字,连属于那个部首都定不下来。自从上世纪初叶,王云五创四角号码,开始了新一轮汉字数字化的努力,但直到现在的万“码”奔腾,仍没出现能与全部汉字一一对应的数码体系。

  实际上现在的数字化是把不同的汉字置换成唯一的内码。内码与字库里字模是一一对应的。字库则是从印刷文字的铅字库继承来的。在电脑速度还不能实现笔画组字时,这是实现电脑文字的唯一方法。但决不是最好的方法,尤其对字形繁多的汉字和要处理世界所有文字时。因为多大的字库也收不全所有字形,字库需要不断的增订,就难免造成缺字和错乱。採用无字库或小字库的组字技术,外码(输入码)与内码一致了,汉字也有了自然的字典序,同时解决了汉字排序、检索(查字典)和输入法等等问题。自然序汉字字典是这个技术应用的一个方面。

  现在的自然序汉字字典,有点像我国著名理论物理学家王竹溪,以其毕生精力完成的五万字的《新部首大字典》。王竹溪的新部首只有56个,加上作为变体的一百个左右的字形,也只有160个。这些新部首实是组成汉字的字根(部件),该字典也是把每个汉字所有字根按笔顺排列构成编码的。因为所取字根数少,很多字根只得拆为单笔画字根(即它的前7个新部首)。这样,据以检字的编码,码长很长,很不直观。我的字典选用600多个字根,但按它们的笔画构成特点,分为28个类,每类以一个汉字为代表,称为根母。它们是:

  一二三四五十千,东西南北中心线,

  广大人民生子女,口目与手山土田。

各个根母的特点描述如下:

1. 一 :以一点开头的字。另外,不属于任何字根之单笔也归此。

2. 二 :连续书写、但相互分离的二个笔画,和以两点开头的字形。

3. 三 :三个分离的笔画,或三点开头的字形,或含“小”“水”等字形,特别包括“州”字。

4. 四 :四个分离笔画,含四点的字形,或似“四”字的字形。

5. 五 :“五”字含笔画“”,其上下为一长横笔。凡有这两个特点之一的属之。

6. 十 :首笔为长横,继有竖笔与之相交成十字形者。

7. 千 :“千”字开头的独体字,“採”“乎”及“礻”“衤”亦属之。 

8. 东 :含木(朩)字形。车(車)虽没有木字形,因与东(東)相像而归之。

9. 西 :以顶横开始,下面却不以一横结束,虽含笔画“”,也不属于“五”。

10. 南 :含字形“冂”或周字框。

11. 北 :左右对称,或以竖笔开头

12. 中 :含“中”字形,以及“斲”字左上部、“繩”字右上部字形的。

13. 心 :含笔画“乚”“乙”等右弯钩笔画的,都属之。

14. 线 :含“幺”首笔(即向左下的锐角)及“弋”的未笔(即笔画捺钩)。 

15. 广 :右下和右上包围字根,如“厂广疒卢辶”等。

16. 大 :含大字形

17. 人 :以“人”“入”字开头,及偏旁“亻”“彳”。

18. 民 :含笔画右挑的字根,另外,“牙”字也包括其中。

19. 生 :以笔画“”开头的字根,或如“斤”“段”那样以撇和竖开头的字根。

20. 子 :含笔画“乛”,以及部首“阝”“卩”。

21. 女 :含两斜笔相交的字根。 

22. 口 :含口字形的字根。

23. 目 :含日或目字形的字根。

24. 与 :含“弓”未笔、“乃”首笔、“犭”次笔的字根,包括“丏”(因与“丐”相似)。

25. 手 :含三横,首横可为撇,以及部首“扌”“才”以及“寸”。

26. 山 :含字形“彐”“匸”“凵”的字根。

27. 土 :含“土”字形或含两横的字形。

28. 田 :含“田”字形的都属之。

  实际上只按汉字组成的根母串来排序,对于查字来说也可以了。只是一个根母类会包含好几个熟知的部首,结果会把原来同部首的字被混到一起了。所以第一个字根还是要按它在根母内的次序来排。28个根母不难由背上面的口诀来记住,但记600个字根的次序就十分困难了。另外,虽然在汉字拆分为字根时,规定笔画交错的都不拆分,但笔画分离的和有连接的,就没有可遵循的简单规则,只要求拆成字根表中列有的。就因为这两点,需要反复查看字根表。为此设计了如下面的检字图。此图连续两页,每页都分6栏,各栏左边的黑体字,就是按次序列出的字根表,而且,字根有变体的,全部都列出。注意,有简繁对应的偏旁,是列为同一字根的不同变体的,这样就可以把对应的简繁两个汉字排在一起。而各栏右边,即每个满行的右端字符,则是字典正文所有页的第一个字头,其左是正文页码和根母码。根母码最长只列首4个,太长,该图就要超出2页了,实际上4个也已够用。我们前面说过,第一个码是要直接列字根的,而且处在该行的第一列(最左端)。如果连续有几页的首字都以该字根带头,这字根也只在第一个根母码中列出,其後诸字因第一码与上同,只留一个空格就可以了。如果该字根有几个变体要同时列出,则要独占一行,下一行列根母码时第一位置也留空格。不在每页首字中出现的字根,也占一行列出,不过一行可列两个字根,中间用“,”号隔开。这些字根都是黑体加粗的,形成完整的字根表,非常醒目。

  现在只要依靠这张图,分析出待查字的根母码,并确定它应出现在正文的那一页。本文後附正文各页的所有字头,可立即去查证。现举几个例子,具体说明它的使用方法。

  臦:此字两个字根,一正一反,第一个应是变体,不过没有在字根表中列出。字根表也不可能做得十分完备,如果有表中找不到的字根,可试取形状相似者试试。这两字根属根母“山”,在检字图中,以根母“山”带头的字,且出现在每页第一个字头中的,只有433-442页,其中442页首字的根母码是“巨一”,“臣”在“巨”後,而443页已是根母“土”带头的字,故待查字必在442页。

  熵:此字第二个字根不属于“一”,而属于“南”(字根“”),它的根母码应为“火南二口”。在检字图中,它应在77页首字的“火南口”之前,故在76页。

  爨:这个字第一个字根是属于根母“三”的“变体。在检字图中,71页有第一个以这个字根开头的“觉”,它的第二个根母是“目”,而待查字的第二个根母“东”远在“目”的前面,所以必在70页。

冏:这个目前在网络中起用的古字,有周字框,第一个字根应属于根母“南”,但查该根母的所有字根,在最後竟有一个字根与它全同,它之後,184页已是根母“北”的“叡”。所以它必在183页。

嬦:因为在根母“手”字後部有字根“寿”,该字右部正是它的

 

变体,所以该字的根母码为“女手”,查检字图,它必在344页,

从该页可知没有对应的简体字。

  通过实际体验,应该能够得出结论,自然序汉字检字法是完备而有效的。其中各根母到底取那些字根,前後次序如何排列,是人为的,还可以调整,使它更加完美。再者,既然採用检字图,记不住大量字根的前後次序也没大关係,那么,能不能全部採用字根来编码呢?这样,检字可能更精确,字形相近的更集中,但在检字图上可能要多次查字根表,会更费时。不过,在使用熟练後,字根表记得差不多时,会不会有可取之处?我另外准备了纯字根版的字典在进行试验。

【注】本文和谐体所用繁体字及词例:

前後 採用 关係  3字。

 详见张时钊个人主页:http://www.chancezoo.net

张时钊 陕西省气象局 

E-mail:chancezoo@126.com




阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:陆广峰:启动汉字书同文工程的研究与建议(选录)

下一篇:陈泰夏:汉字以东方共有之文字摸索其字形统一
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章