阅读文章

为《简易双拼,声韵并击,新键盘,形声码》 补充三个重要的数据

[日期:2015-05-14] 来源:  作者:启文 [字体: ]

我们在原文中说过,汉语原有的音节,即未简化的音节有400多个,而简化音节减为281个,区分汉字的能力有所减少。

下面的数据能够证明,简化音节区分汉字的能力,仅仅是略有减少。

1、简易双拼的翻页几率略有增加

在简易双拼中,简化音节区分汉字的能力,可以用增加的翻页几率予以估计。以增加的第一次翻页几率为例。

汉语原有的音节有400个,以每个音节不翻页的选字框内有五个字计,400个音节不翻页的出字范围共有2000字。假设这2000字的频率都高于其它的汉字,查汉字频率表,2000个高频字的合计频率为98.1%

汉语的音节简化后,有281个,以每个音节不翻页的选字框内也有五个字计,281个音节不翻页的出字范围共有1405字。假设这1405字的频率也都高于其它的汉字,查汉字频率表,1405个高频字的合计频率为95.2%

两种音节不翻页的出字范围差为

20001405595(字)

595字,就是原有的音节不翻页,而简化音节必须翻页才能出的汉字。这595字的合计频率为

98.1%95.2%2.9%

就是说,在打字过程中,与原有的音节相比,每百个字中,简化音节有2.9个字,是需要增加第一次翻页才能出的汉字。

实际上,假如排除了假设条件的干扰,真实数字会比2.9个字多一些,但仍是一个不大的数字。

2、简化音节的信息量略有减少

简化音节区分汉字能力,还可以用信息量予以估计。

由于没有汉语音节简化前后,在打字过程中使用频率的统计数据,笔者无法准确计算简化音节信息量减少的准确值。但是可以利用“每个音节使用频率是相等的”这一同等假设条件,估算信息量减少的近似值。

汉语的音节未简化有400个,假设这些音节的使用频率是相等的,平均每个音节的信息量为

log24008.64(比特)

简化音节有281个,假设这些音节的使用频率也是相等的,平均每个音节的信息量为

log22818.13(比特)

容易计算,平均每个简化音节的信息量仅仅减少了约5.9%

3、关于形声码的另一数据的比对

我们在原文中估计,形声码无重码的出字范围约为3512字,大小是适宜的。

如果说这一数据没有经验可比对的话,那么下面的数据,则是可以根据人们已有的经验作出比对的。

我们知道,在搜狗拼音输入法中,每个音节的选字框内有五个字,翻页后的选字框内还是五个字。以汉语原有的音节400个计,不翻页,理论上最大的出字范围是2000字。两次翻页后,是6000字。

而在形声码中,如原文计算的,仅仅是二级码,理论上最大的无重码出字范围已达6463字,已经超过搜狗拼音两次翻页后的6000字了。



阅读:
录入:hzipy

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:关于网上输入法的版权及改良过程

下一篇:什么叫汉字?
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章