阅读文章

用字母异化和数字异化创建汉字信息属性

[日期:2012-02-26] 来源:原创  作者:高国鹫 [字体: ]

   

前言

 

现代汉语词典把“相似或相同的事物逐渐变得不相似或不相同”称作异化,在中国社会发展中,汉字形成与图画异化有着密切关系,在汉字演化过程中,异化亦起到推动作用,进入信息时代,用异化创建汉字信息属性,不断丰富和完善汉字属性库,对中文信息处理技术持续发展具有重要意义。

 

【关键词】异化 字母异化 数字异化 汉字信息属性 中文信息处理

 

   用字母异化创建汉字信息属性

 

1、字母异化与《汉语拼音方案》

汉字和字母都有音,汉字音和字母音之间是没有渊源关系的,但拉丁字母脱离原本构词(表音)功能,用字母组合成《汉语拼音方案》为汉字注音,这就是字母异化。汉字采用拉丁字母注音是一种近似关系,最初用注音字母标注,到1982年用国际音标标注。在汉字信息属性库中,汉语拼音成为字音的标准拼写形式,和音序的标准表达形式,在中文信息处理中,有95%以上的人把汉语拼音作为首选方法,汉语拼音成为中国文化走向世界的桥梁,周有光先生在纪念《汉语拼音方案》公布45周年发表文章感慨地说:“中国的汉字和罗马的字母,东西十万里,上下两千年,风马牛不相及也。想不到汉字跟字母终于缔结姻缘,两相偎依。”

2、字母异化与《汉字拼形方案》

汉字和字母都有形,汉字形和字母形之间也是没有渊源关系的,那么拉丁字母能否脱离原本构词(表形)功能,用字母组合为汉字标形呢?根据汉字能拆能合特点,通过字母异化作用,拉丁字母也是可以为汉字标形的,最早采用这种方法的是上世纪八十年代《表形码》汉字输入技术。

字母有两个特性,一是整体具有固定的排列顺序,二是个体具有固定的形体特征,在这两个特性中,前者是隐性的,后者是显性的。

汉字输入法编码包括两个步骤,一是要把汉字库的字用某种汉字构件(单笔画或多笔画结构)组合表示,二是用字母(或其它符号)标注这些汉字构件形成代码,这样才能通过计算机键入这些代码达到输入汉字目的。

如果把英文字母的两个特性都用于输入法编码的两个步骤,那么英文字母第一个特性对应输入法编码的第一个步骤,即用于制定编码规则并确定汉字构件,英文字母第二个特性对应输入法编码的第二个步骤,即用于标注汉字构件形成代码,以上这两个步骤是相辅相成的。

《表形码》只采用了字母的第二个特性编码,所以对很多构件的标注牵强附会,没有达到预期效果,但却开辟了输入法编码的一个分支。

《汉字拼形方案》是在表形码基础上发展起来的,采用字母的两个特性编码:利用字母整体具有的序列特性来协调编码中产生的歧义性问题并确定了汉字构件,和利用字母个体具有的形体特征来标注汉字构件并形成了代码,这就使输入法变得简单起来了,该编码方案与传统编码方案区别见表1

     汉字拼形输入法与传统输入法编码方案对比                                      1

序号

内容

传统输入法

汉字拼形输入法

1

方法

整字拆分

笔画组合

2

依据

主要字源

主要笔顺规则表

3

汉字构件

部件、含汉字信息

形符、含字母信息

4

数量和大小

506个部件平均笔画数4.5

249个形符平均笔画数2.8

5

信息量

非全息码(小于或大于汉字笔画数)

全息码(等于汉字笔画数)

6

码长

短码、等长码(通常不超过4键)

长码、不等长码(最长可达12键以上)

 

《汉字拼形方案》(GB2312-80)总共设249个汉字形符,其拼写形式(代码)见表2

 

 

《汉字拼形方案》(GB2312-80)重码(含构件字)总数为681个,占汉字总数的10.1%,见表3

汉字拼形输入法(GB2312-80)重码统计表                                    3

重码数

组数

汉字个数

汉字累计个数

汉字累计%

重码数

组数

汉字个数

汉字累计个数

汉字累计%

不重码字

6082

6082

6082

89.9

五重码字

3

15

6742

99.7

二重码字

246

492

6574

97.2

六重码字

1

6

6748

99.8

三重码字

31

93

6667

98.6

七重码字

1

7

6755

99.9

四重码字

15

60

6727

99.5

八重码字

1

8

6763

100.0

        

《汉字拼形方案》(GB2312-80)码长分布曲线见图1

码长分布曲线是汉字输入法特性曲线,长期以来人们疏于对码长分布曲线的研究,是因为几乎所有输入法都是等码长,码长分布曲线是直线,研究价值不大,汉字拼形输入法是不等码长,码长分布曲线是曲线,调整码长分布曲线可起到优化方案作用,而对码长分布曲线进行系统分析研究,可探索汉字输入(包括用笔书写和计算机键盘输入)演化规律,为未来汉字简化提供理论依据。

1横坐标轴代表码长,纵坐标轴代表汉字数量,汉字采用GB2312-80字符集(含6763字),作为对比,曲线1是用笔书写录入方式的码长分布曲线,相当于计算机按笔画输入汉字,特点是每次录入(书写)汉字的1个笔画;曲线2是计算机汉字拼形输入法的码长分布曲线,特点是每次录入汉字的1个形符(多笔画),因此曲线2是曲线1在信息时代的演化产物,下面简要介绍这两种码长分布曲线:

曲线1码长分布离散度大,曲线平缓,码长最短为1笔画字(有5个),最长为30笔画字(有1个),汉字集中分布在7-13笔画之间,占汉字总数的63%,最多的字是9笔画(有748个),超过20笔画的字只占总数1%,因该区间字比较少,曲线分布不连续(没有272829笔画字),曲线与横轴所夹面积趋近于汉字总数,汉字平均笔画数为10.6

曲线2码长分布离散度小,曲线陡峭,码长最短为1形符字(有85个),最长为12形符字(有3个),汉字集中分布在3-5形符之间,占汉字总数的68%,最多的字是4形符(有1827个),因码长分布集中,所以曲线是连续的,曲线与横轴所夹面积等于汉字总数,汉字平均形符数为4.6

对曲线1和曲线2的详尽分析笔者另撰文论述。

3、《汉语拼音方案》与《汉字拼形方案》对比

都是从字母异化得到的,属全息码,这意味着与汉语拼音一样,汉字拼形也具有汉字排序功能,在中文信息处理中也适用递推联想和句处理,可与汉语拼音资源共享,直接使用现代大型中文语料库资源等,汉语拼音与汉字拼形方案对比见表4

汉语拼音与汉字拼形方案对比(GB2312-80                                 4

 

代码类型

音节或形符

平均码长

最大码长

重码率

最多重码字

汉语拼音

26个字母

408个不标调音节,或1300多个标调音节

3.1

6

近似100%

110

汉字拼形

26个字母

249个形符,可合成6763个形符组合(含重码字)

4.6

12

10.1%

8

下面把汉语拼音与汉字拼形进一步对比:

汉语拼音码长与汉字音节有关,例如“厄”与“鹗”汉语拼音都是e(码长是1,由1种字母组成),“壮”与“撞”汉语拼音都是zhuang(码长是6,由6种字母组成),“积极”汉语拼音是jiji(码长是4,由2种字母组成),“森林”汉语拼音是sen lin(码长是6,由5种字母组成)。

汉字拼形码长与汉字笔画数有关,例如“木”汉字拼形是xv(码长是2,由2种字母组成),“林”汉字拼形是xvxv(码长是4,由2种字母组成),“积极”汉字拼形是 fvov xvwv(码长是8,由5种字母组成),森林汉字拼形是xvxvxvxvxv(码长是10,由2种字母组成)。

4、《汉字拼形方案》意义

为汉字信息属性库提供了一种字形的字母拼写形式,和形序的字母表达形式,对GB13000.1字符集(含20902字)制定了283个汉字形符,对GB18030-2005字符集(含70244字)制定了约450个汉字形符,最终目标是为全汉字集(方块字)制定汉字形符,至于汉字形符的其它功能有待于今后发掘。

 

   用数字异化创建汉字信息属性

 

汉字音字母异化制定了汉语拼音方案,汉字形字母异化制定了汉字拼形方案,这两种方案都是用拉丁字母标注汉字,沿着这条思路,汉语拼音和汉字拼形能否数字异化、用数字标注字母呢?答案是肯定的,通过数字异化设定的复式数字键盘,汉语拼音转换成数字拼音,汉字拼形转换成数字拼形,这两种转换结果都是用数字标注字母,从而达到用数字标注汉字目的,复式数字键盘见图2

 

2复式数字键盘是为输入英文、汉语拼音和汉字拼形设定的,它们之间关系应首先满足英文输入,其次是汉语拼音输入,最后是汉字拼形输入,当然,如若把笔画或汉字部件标注在数字键位上开发传统输入法,这不受影响,下面介绍复式数字键盘应用:

1、数字英文输入法

先定义复式字母与数字字母,按字母排列顺序,字母和排序在后面与其相邻的那个字母所构成的字母组合称作该字母的复式字母,表现形式为字母a的复式字母是ab,字母b的复式字母是bc,……,字母z的复式字母是za。采用图2复式数字键盘,每个字母的复式字母均可转换成两位数字,这称作数字字母,例如a的复式字母是ab,数字字母是48b的复式字母是bc,数字字母是86z的复式字母是za,数字字母是24等。采用复式数字键盘输入26个字母,转换成的数字字母都不重复。

下面介绍数字英文输入法:

首先建立数字英文词库,字母的数字英文用数字字母表示,例如a的数字英文是48b的数字英文是86z的数字英文是24等。词组的数字英文用图2复式数字键盘直接转换成的数字组合表示,例如英文China的数字英文是68124等。采用图2复式数字键盘,输入的是数字英文而输出的是英文,如果词库中没有该词组则按单个字母输入。

2、数字拼音输入法

先定义复式汉语拼音与数字拼音,对于汉语拼音408个不标调音节(GB2312-80),把每个音节首位字母均转换成复式字母,这样构成的字母组合称作复式汉语拼音,采用图2复式数字键盘,把复式汉语拼音转换成的数字组合称作数字汉语拼音,简称数字拼音,例如汉语拼音da的复式汉语拼音是dea,数字拼音是034。采用复式数字键盘输入汉语拼音408个不标调音节,转换成的数字拼音都不重复,这是数字键盘能够直接输入汉语词组的基础。

下面介绍数字拼音输入法:

首先建立数字拼音词库,最简单方法是把全拼输入法转换成数字拼音输入法,转换方法是,把全拼输入法中无论是单字还是词组的汉语拼音,先转换成复式汉语拼音,然后再按图2复式数字键盘转换成数字拼音,例如“中”和“中国”汉语拼音分别是ZhongZhong guo,复式汉语拼音是ZAhongZAhong guo数字拼音是248026248026670。采用图2复式数字键盘,输入的是数字拼音而输出的是汉语。

3、数字拼形输入法

首先建立数字拼形词库,最简单方法是把汉字拼形输入法转换成数字拼形输入法,转换方法是,把汉字拼形输入法中无论是单字还是词组,均按图2复式数字键盘进行转换,这样构成的数字组合称作数字汉字拼形,简称数字拼形,例如“中”和“中国”汉字拼形分别是oioi qel,按图2复式数字键盘可直接转换成数字拼形0101931。采用图2复式数字键盘,输入的是数字拼形,而输出的是汉语,汉字拼形适用于所有汉字(方块字),这也是数字拼形适用范围。

数字拼形(GB2312-80)重码(含构件字)总数为2378个,占汉字总数的35.2%,见表5

数字拼形(GB2312-80)输入法重码统计表                                   表5

  重码数                                     

组数

汉字个数

汉字累计个数

汉字累计%

重码数

组数

汉字个数

汉字累计个数

汉字累计%

不重码字

4385

4385

4385

64.8

七重码字

13

91

6552

96.9

二重码字

469

938

5323

78.7

八重码字

9

72

6624

97.9

三重码字

174

522

5845

86.4

九重码字

5

45

6669

98.6

四重码字

75

300

6145

90.9

十重码字

2

20

6689

98.9

五重码字

38

190

6335

93.7

十一重码字

4

44

6733

99.6

六重码字

21

126

6461

95.5

十五重码字

2

30

6763

100.0

4、复式数字键盘意义

为英文字母提供了数字表达形式,为汉字信息属性库提供了汉字音和汉字形的数字表达形式,可用于手机输入英文和汉语、英文和汉语的数字排序、密码设置、手机互联网域名、电话域名、邮政编码等领域,下面介绍在密码设置领域的应用:

如今人们使用信用卡、医保卡、证券卡、网购卡等少则几个多则十几个,这些卡大多以数字密码为主,然而能够提供方便好记、不易被破译的数字密码资源奇缺,往往是用手机号、生日、特殊数字组合设置成密码,因此常发生被破译造成经济损失案件,如果增加密码难度或把密码记在本里,又易遗忘或丢失造成很多麻烦,而目前流行的动态密码,因依托手机、网络、或配备U盾识别等,不但要增加成本,有时也不是很方便,能否覆盖到所有用户也成问题。

而推广复式数字键盘在学会发送信息的同时,也解决了数字密码的设置问题,因为数字英文、数字拼音、数字拼形本身就可作为密码使用,这样记的是汉语或英文,输入的就是数字密码,而汉语和英文词汇无穷多,所以很难被破译。为了增加保密性还可用句子作密码,特点是密码长度可达十几位甚至更长,而且码长不固定,也可在密码中间设两位密钥,其中一位与日期有关,另一位与每天取款次数有关,这样设置的密码每次取款都不相同。从长远和国家利益考虑,这种密码与语言文字有机联系起来,把语言文字应用延伸到新的领域,方便语言文字传播。

 

 

选自20111019

《中文信息学会汉字编码专业委员会第九届年会暨学术研讨会》论文原稿

 上海翰字信息技术开发有限公司   高国鹫




阅读:
录入:

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:我参加了苏州汉字编码第九届年会

下一篇:长沙话说油价上涨
相关文章       汉字编码三大定律 
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章