阅读文章

语义互联网世代迫切需要汉语的词式文本

三、汉语信息传播的词式文本改革已经具备实践条件

[日期:2014-10-12] 来源:语言文字网  作者:彭泽润、陆丙甫、黄昌宁 [字体: ]

三、汉语信息传播的词式文本改革已经具备实践条件

要发挥词在语义理解中的基础作用,就应该在书面语言中明确显示词的界线。词的界线的确定应该先大胆实践,不应该在理论上空谈或者等候一套完美的词式文本规则出现以后再实践。因此,养成词式文本新习惯,不是一蹴而就的事情。我们一定要从根本上改变这种情况,出路就是要改变国民书写和阅读的习惯。这是当前我国语言生活的一件大事!

胡明扬(2006)说:“汉语长期使用汉字,没有使用拼音文字,所以什么是的问题就不容易解决了。但是这并不等于汉语中没有相当于英语的word……那样的语言单位……什么是实际上存在一个共同的认识,尽管在理论上可以争论不休。“世界上所有区分词连写的拼音文字,都是先有约定俗成的区分词连写的文字,后有正词法的规范,古今中外还没有先由专家制定了正词法规则,然后老百姓遵照专家的规定去区分词连写的先例”。因此,我们不能指望在全民能够接受的统一的正词法出现以后,再来讨论汉语的词式文本问题。国民的汉语词意识本来是存在的,但是由于传统的字式文本使人们淡化了词意识。中国长期使用文言文这样的书面语,字和词基本重合,所以一直不存在词意识淡化的问题。但是废除文言文以后,字和词不再基本重合,才有先知先觉的学者重视从“字”的多义术语中分离出“词”的术语,突显词意识问题。(彭泽润、季凡,2010

虽然客观存在的词,是母语使用者能够感受到的,不必完全靠外在刺激培养,但是外在的强化无疑可以提高语言处理效率,正如古代汉语书面语没有标点符号古人照样能够理解语言,但是现代汉语书面语加了标点符号,无疑可以提高人们对句子停顿等客观存在的现象的认识和利用。因此,词式文本能够强化汉语词意识,提高语言书面处理效率。

应该承认词界有一定的模糊性,各人对词的处理可能不同。词界的模糊性在世界各国语言中都是存在的,只是程度差别不同而已。实际上目前语言学界还没有一个关于词的普遍适用的明确定义。因此,词式文本实践的开始阶段,难免有相当的分歧,但是这总比不实践要好。标点符号到现在,各人的使用习惯也不同,有人句号用得多些,有人甚至逗号到底,但是这仍然比看没有标点的文本效率高得多。

我们相信在实践过程中,会逐渐减少分歧,因为某些写法更容易理解,实践的群众会逐渐淘汰那些读起来不利于理解的划分,逐渐趋向统一。这也是世界各国文字在走向词式文本的道路上经历过的。英语文本在这方面至今还有分歧,主要是一些复合词的内部是否使用连词号(hyphen,过去有人翻译成连字号,是把英语的词错误当做字理解的结果)的差异。

因此提倡词式文本从长远来说是实现上述目标的基础工程。没有词式文本的实践,哪儿来的国民对词的认同率呢?

词可以分成语法词、词典词、书写词。(彭泽润2008:236)它们基本重合,没有大的冲突,其中语法词是根本。还有“韵律词”,“输入词”等说法。但是这些说法如同认为动物也有语言一样,只是一个比喻。

韵律词包括词也包括不是词的单位,因为韵律单位不一定是词,关键是看听觉节奏。在快速的语流中,人们感觉的韵律单位往往是词组;在慢速的语流中,人们感觉到的韵律单位可以是音节甚至音素,形式上不足一个词。当然韵律可以成为处理一些书写词的辅助依据。对于形式很短小而且经常整体成为一个韵律单位的语法上的词组,也可以考虑做书写词处理。

韵律的感知有时产生错觉,会违背语法,甚至违背语义。例如,《中医药学》这本教材的拼音名称错误拼写成“ZHONGYI YAOXUE”,“桃子湖路”这个长沙的道路名称错误拼写成“TAOZI HULU”,这样是讲究了双音节的韵律,可是完全违背了要表达的意思。区分书写词不必在语法词的概念上过多纠缠,虽然多数书写词会跟语法词一致。分布在中亚国家的东干语其实是汉语西北方言,它采用斯拉夫字母构成音素文字记录,而且是词式文本格式,使用了半个世纪。(彭泽润2008:160)可见词式文本对于汉语来说只是一个观念的解放问题。

“输入词”也包括词和非词,关键是看输入效率。如果经常要输入,无论这个单位有多长,甚至是一篇文章,甚至是一批电子邮件地址,人们都可能把它当做一个“词”来输入。如果我在“中华人民共和国教育部语言文字应用管理司”工作,我就可以把这个单位的名称通过输入代码的定义,当做一个词来输入。但是如果我不是这个单位的,偶尔用一次,不如分解成一个一个语法词输入效率还高一些。

语法词的理论分歧其实很少,因为汉语跟所有语言一样,词是客观存在的。但是局部的认识分歧会长期存在。不过,“文字写出来总要让人念起来方便才好。顺口才便于理解,念起来不顺口必然会严重影响理解。”(陆丙甫1985a)。也就是说,口语的停顿单位反映了人对语言的认知单位。古人花很多时间学习“句读”,认为“句读”读对了就懂了。今天我们有了标点符号,学“句读”的时间就可以大大节约。标点符号实际上也是一种指示读法的标记。拼音文字的连写法也必须有指示读法的功能(陆丙甫1985b)。语法词其实占据了口语停顿最基本位置。在正常语速中,特别是像国家领导人做工作报告的语速中,我们可以明显地感觉到词这个最基本的停顿。除非是结巴或者语感没有建立好的外国孩子,不会在“爸爸,我要买玩具”中做这样的停顿:“爸——爸我——要——买玩——具”。

视觉单位应该跟听觉通道的单位(口语停顿单位)和认知单位一致,才便于阅读理解。例如汉语的数目表达在口语中是“四进位”的,但是书面上用阿拉伯数字书写,采用英语等语言的“三进位”的习惯写法。这严重影响了中国人阅读和记忆大数目的效率(陆丙甫2005)。

词式文本只是把人们心中和听觉感知的语法词转换成视觉可见的书写词,适当照顾其他要素变通处理。虽然汉语使用者在汉字文本中总觉得不习惯,但是在拼音文本中已经有很多人已经习惯,国家也颁布《汉语拼音正词法基本规则》20多年了。不过,要真正实践汉字词式文本,也不是那么难。

彭泽润(20072008)在自己的著作中已经全面试用词式文本。大学教材(彭泽润、李葆嘉主编2009)也开始试用词式文本。根据彭泽润通过邮件获得的读者信息,试用教材的读者一开始都觉得不习惯,但是习惯了以后很多人认为有利于阅读效率的提高。

事实上,我们的国民已经普遍悄悄地实践着词式文本。汉语在电脑上处理已经有将近40年历史,但是汉字因为的字的总数太多,决定了书面汉语无法在小键盘上直接输入,必须进行编码输入。但是最初的编码输入主要针对单个的字编码,后来把注意力集中到词的编码上面。用词的编码输入汉语就是在实践汉语词式文本。

多少年来汉字编码输入的发展就是从五笔字型为代表的形码过渡到以拼音输入为主流的音码的历史,同时从字式输入走向词式输入的历史。当年拼音输入方法的价值没有得到社会及时重视,其实说明设计者当时词意识比较弱,只知道按照字或者音节来设计拼音输入方法(彭泽润1996)。现在的事实表明,按照词的单位输入的汉语拼音输入方法已经得到全面普及,而且多数用户在输入汉语的时候,对于多数词都有基本一致的认识,对现代汉语书写词的确定规则(彭泽润,彭建国2009)有基本一致的认同。

吕淑湘(1995)说:“我想到的是三十多年前我主编《现代汉语词典》初稿的时候曾经试着做而没有做成的两件事:一件事是区别单字能不能单用,也就是分别词和非词。赵元任、杨联陛两位先生在他们编的《国语字典》(1947)里边已经用FB来表示一个字能或者不能单用,我们也打算采取某种形式表示。另一件事是在一个词或者一个词的一个义项之后标明词类。……现在摆在我们面前的《现代汉语学习词典》样稿里边,对于一个字或这个字的某一个义项,能够单用的都直接标明词类;对于不能单用的字或义项分别注明‘素’(实义语素)、‘缀’(前缀、后缀)、‘字’(非语素的字)。”吕叔湘盼望做的上面两件事情在《现代汉语词典》第5版(2005)中基本实现。从这里可以看出,虽然《现代汉语词典》词意识的完善从设想到实现花费了40年,但是汉语词典的词意识在21世纪已经得到很大的强化。我们认为,在词典词意识进步的同时,大学“语言学概论”和“现代汉语”等课程,中小学的“语文”课程都应该在教学内容上,尊重汉语客观存在的词这个事实,加强汉语词意识的教育,因为缺乏词意识就无法在全社会实现书面语格式从字式文本到词式文本的重大改革。因此我们呼吁语言学领域的学者,无论从事基础理论研究还是从事应用实践研究,都来关心词意识的强化和普及问题。

我们应该充份意识到采用汉语词式文本从观念到技术上的阻力和困难。浪费纸张等问题要说服大家不容易。其实,如果把字距压缩,剩余的空间做词距,可以在不浪费纸张的前提下实现字式文本向词式文本转换。更何况在电子文本日益扩大使用的情况下,纸张问题已经不那么重要。在电子文本中实现词式文本也特别方便。我们的题目就是主张从容易的领域互联网开始尝试。

对离合词这样的汉语特殊的词也不好处理。离合词就是被简短的成份隔离的合成词。我们建议在词式文本中还是当做一个词书写,例如“理了发”、“考完试”、“鞠3个躬”、“睡了一个大觉”。其中”考完试”等有些不合理,因为“考+试”是联合关系,“完”插入以后使它被迫变成中补关系。但是,如果把“考试”当做一个动词整体,认为是插入一个中缀也可以得到合理的解释。大家习惯了就只好将错就错。当然如果说“理发了”、“考试完”、“鞠躬3次”、“睡了很久很久”就可以按照词组书写。到底最后怎么书写,我们可以对一些有习惯性分歧的放宽标准(陆丙甫,谢天蔚,2014),例如允许长度不大的词组连写,不允许不成词语素单独写。

虽然汉语词式文本改革具有长期性和艰巨性,但是网络汉字文本率先实行词式文本已经具有可行性,而且迫在眉睫。

目前按照词的单位输入的汉语拼音输入方法,已经得到普及。人们无论用手机写短信还是用电脑写文章,都在按照输入词书写,而且输入词多数就是语法词。现在的汉语文本的原始文本基本上是电子文本。互联网上所有的文本都是电子文本。因此,在互联网上率先推广词式文本会比在整个新闻出版领域的纸张文本中推广词式文本容易一些。

如果这样,在亿万用户输入汉字的时候就把词的边界和人名、地名、机构名等专有名称的信息记录下来,这样不仅轻而易举地实现了网络文本的词式处理,而且可以避免国人在输入汉字的时候区分词的信息得到以后又失去,产生巨大浪费。

为了循序渐进地推行汉语词式文本,我们还可以灵活设计自由选择显示出来的文本类型,满足不适应新文本的人的需要,因为XML标注的信息是网络文本的一种背景信息,既可以显示,也可以不显示。同理,汉语网页带上区分词的信息之后,是否显示词式文本格式,仍然可以由用户选择。但是从互联网的语义搜索和其他网络服务来说,区分词就是一种语义信息,决不是可有可无的东西(黄昌宁、李玉梅、周强2009)。

为了尽快实现这个目标,我们建议汉语电子输入系统的研究人员,尽快解决词式文本输入的技术问题,自动记录下词界信息。根据目前有些人还不习惯阅读汉语词式文本的现状,在技术上应该设计一个可以自由选择词式文本和字式文本的按钮,并且应该有选择词间空隙大小的功能,因为这个空隙的大小对于阅读效率和阅读心理上的舒适效果也有相当大的影响。

总之,语义互联网时代迫切要求推广汉语的词式文本。而当代飞速发展的信息技术,已经为汉语词式文本的实现提供了坚实的平台。


上一页 [1] [2] [3] [4] [5] [6] 下一页   
【内容导航】
第1页:修改说明
第2页:【正文】
第3页:一、汉语词界信息和词式文本是语义互联网信息传播的基础
第4页:二、用词式文本取代字式文本是人类书面语信息传播的共同趋势
第5页:三、汉语信息传播的词式文本改革已经具备实践条件
第6页:参考文献


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:【专题】拼音和汉字发展笔谈

下一篇:论“词调 模式化”
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章