阅读文章

语义互联网世代迫切需要汉语的词式文本

二、用词式文本取代字式文本是人类书面语信息传播的共同趋势

[日期:2014-10-12] 来源:语言文字网  作者:彭泽润、陆丙甫、黄昌宁 [字体: ]

二、用词式文本取代字式文本是人类书面语信息传播共同趋势

书面语言的文本可以分成“字式文本”和“词式文本”两种格式。前者不能包含后者,后者可以包含前者。前者只产生字距,后者产生字距和词距。字距可以有明显的距离,也可以没有。但是,词距总是要大于字距。另外,在汉字历史影响下,为了跟汉字的“字”形成对应习惯,还存在一种介于中间分割状态的特殊的书写格式,可以叫做“音节式文本”。例如越南语、苗语的文字(彭泽润2008:150),虽然采用了音素文字,但是它不是把一个词的全部字当做一个整体,而是在每个音节的书写形式之间插入空格。为了兼顾音节式文本和词式文本,还形成词式文本的一个变种,可以叫做“音节化词式文本”,就是词之间留空格,音节之间加短横;或者在词之间留大空格,音节之间加小空格。有大小空格的音节化词式文本实际上有3种大小不同的距离:词的距离(最大)——音节的距离(中等)——字的距离(最小,或者在视觉上是零距离)。

实际上,在排版和书写中距离是可以根据版面大小调整的。电脑中的字距甚至可以是负值,以致字和字部份重叠。但是这不影响它们是字,因为可以在字之间加大距离。但是我们在字的部件内部或者部件之间无法调整距离,只能对字的整体进行缩小或者放大。因此,我们认为字(汉字中的字)和字母(表音文字中的字)是同一性质的文字单位,应该统称“字”(彭泽润1988)。很多人甚至语言学理论教材觉得字母跟汉字的部件甚至笔画对应,这是一个认知错觉。现在有人把英语书写词或者语素的字组(例如“go”,是“g+o”两个字记录)跟汉语书写词或者语素的字(例如“走”只有1个字记录)对应起来,这是错误的。字就是视觉上能够在线性记录语言的序列中自由调动位置的最小单位,部件和笔画可能比字更加小,但是缺乏在线性记录语言的序列中自由调动位置能力,正如语素虽然比词可能更加小,但是不一定具有自由表达意义的能力。导致前面错觉的根源就是把词式文本(字母文字现代一般采用文本)用空格隔离的“词”和字式文字中的“字”错误对接起来,进一步把字母文字中记录“词”的字组当做汉字文本中的“字”,再进一步把字母文本中的字组中的字(字母)当做汉字文本中的“字”里面的部件或者笔画了。反过来,如果这样错误对接,那么字母“K”中的笔画又对应汉字中的什么呢?(彭泽润、蒋文华2004)这里不能再详细论述。

实际上所有文字在书写语言的时候可以区分字和词,只是习惯的不同,区分的先后有不同,区分的程度有不同,而且发展到现在不区分字和词的语言已经很少了。

如果把“语义互联网时代到来”这个句子用拼音书写,可以写成5种文本格式:

1)典型的词式文本(英语、俄语等语言,按照正词法拼写的汉语):Yǔyì hùliánwǎng shídài dàolái.(语义 互联网 时代 到来)

2)加短横的音节化词式文本(《语言文字报》为了兼顾正词法和小学语文音节式拼写,接受彭泽润建议曾经试用过):Yǔ-yì hù-lián-wǎng shií-dài dào-lái.(语-义 互--网 时-代 到-来)

3)加大空格的音节化词式文本(有些拼音读物为了兼顾正词法和小学语文音节式文本,这样使用过): yìqj    lián wǎng   shí dài   dào lái.(语 义  互 联 网  时 代  到 来)

4)音节式文本(越南语、苗语等语言,中国小学语文教材中拼写的汉语):   lián wǎng shí dài dào lái.(语 义 互 联 网 时 代 到 来)

5)字式文本(汉字记录的汉语、日语等语言,其他语言的早期文本):Yǔyìhùliánwǎngshídàidàolái.(语义互联网时代到来)

字式文本是文字普遍的原始书写格式。原始文字或者早期文字在书写的时候都缺乏词意识,因为无论什么文字,无论是汉字这样的表意文字还是英语文字那样的表音文字,古老的文本都是字式文本,就是一个一个字排列,没有区分词。汉字文本似乎也可以属于音节式文本,其实还是应该属于字式文本,因为虽然汉字的字跟汉语的音节基本重合,但是,每个音节内部一般用来记录的字不会超过两个,即使超过两个,例如“花儿”,也不是在书写中把记录这个音节的文字形式的前后增加空格。相反音节式文本,是针对一个音节多于一个用来记录的字,而且在跟音节对应的字组前后增加了比字距更大的空格。

古代的表音文字也采用字式文本,例如4世纪哥特人武尔菲拉(Wulfila311383)采用在希腊字母基础上发展的字母书写古代的日耳曼语,具体来说是用西部哥特人的哥特语翻译了原来用拉丁语写的《圣经》。从当时的文字版面可见,有标点符号,但是还没有实行词式文本,是字式文本(陈晓春2005:24)。另外,我们也可以从罗马圣玛利亚教堂的拉丁文石碑的字式文本说明,拉丁字母确实曾经也是采用字式书写格式。连采用斯拉夫字母书写的古代俄语也是采用字式文本。

 

采用字式文本的武尔菲拉翻译的《圣经》样品(4世纪)

 

现代文字几乎都采用词式文本。词式文本是书面语格式进步的结果。在德语历史上,大约9世纪虽然官方书面语言还用前人遗留下来的拉丁语,但是民间开始出现跟自己的活语言一致的书面语。例如公元842年用古代德语,具体来说是莱茵-法兰克语写的《斯特拉斯堡誓约》的文本,已经采用词式文本(陈晓春2005:44)。可见在几千年的人类文字历史中,词式文本还只有1千多年。

朝鲜文字是一种只有700年历史的文字。它是一种“全音素化的音节文字”(彭泽润,李葆嘉主编2009226),公元1444年创立的时候采用字式文本。过了500年,到1948年取消朝鲜文字中的汉字以后才开始实行词式文本(魏忠2004:109)。

但是由于历史的原因,汉语的汉字文本到现在一直保持字式文本格式。

为什么字式文本方式要进步成为词式文本方式?语言像链条一样把一个一个的符号串起来。其中最基本的符号是“词,因为它“最小又“自由。“最小保证了切分出来的总的数量相对有限,例如,《现代汉语词典》第4版有5.6万个词条,第5版扩展到6.5万个词条,第6版扩展到6.9万个词条。自由保证了它在组织话语中能够独立做句子成份(实词)或者独立衔接句子成份(虚词)的能力,一般不需要也不允许临时创造新词。

 

采用词式文本的《斯特拉斯堡誓约》样品(842世纪)

 

应该说任何语言都有几万个词活跃在语言生活中,为什么英文等书面语言一定要显示口语中存在的词界线的信息,而汉文却把这个任务含糊地交给读者去做?表面看来,英文的书写者关心的是读者的方便,汉文的书写者关心的是自己的方便。其实还有汉语书面语历史的深层原因。

汉语词式文本问题为什么几千年以来没有人探讨?在1919年废除文言文以前根本没有这个问题,因为那时的字式文本跟词式文本基本重合。就是说,在100年前的汉语书面语基本上符合以“词为单位的书写要求的。例如“学而时习之,就是5个界限分明的词,而且词的界线就是字的界线。当时应该看得懂,也听得懂。现在是看得懂,听不懂,因为用现代汉语的任何语音系统去读,都是强加的“外来”形式。

只有当文字的字式文本和词式文本不重合的时候,人们才会逐渐思考向词式文本方向改革的问题。如果把古代汉语“学而时习之”翻译成现代汉语,而且仍然不增加大的空格“学习而且经常复习它”,就失去了词的界线了,出现听得懂却难以看懂的结果,对于语感不强的外国人可能连查词典都不知道查什么词。因此,汉语书面语遇到词式文本的缺失问题其实也还不到一百年。不过,在信息时代我们已经等不起,应该尽快改革文本格式。

为什么写现代汉语就出现字式文本和词式文本的矛盾呢?这是因为原来“字和“词的界线基本一致。现在由于多音节词多了,的界线不完全重合了,必须用不同的距离来区分两种不同的界线(零距离的字距和有距离的词距):学习 而且 经常 复习 它

30年前国家颁布的《汉语拼音正词法基本规则》,其实就是采用词式文本来记录汉语拼音文本的规则。虽然这个规则做为国家标准一直被小学语文教材拒绝,但是,凡是用汉语拼音表示的图书封面、商品名称、路标等都能看到它的应用。

为什么有人能够接受拼音记录的汉语词式文本,而不能接受汉字记录的汉语词式文本?为什么有人觉得英语、俄语等语言采用词式文本似乎天经地义,但是汉字记录的汉语采用词式文本就似乎离经叛道,无法适应呢?为什么会造成在书面文本上的这种认知区别?为什么英语只需要26个字,汉语要用7000个通用字?这不是语言本身的事情,而是记录语言的文字体制的不同。

表音文字的单字主要直接记录音素或者音节,表意文字的单字主要直接记录语素或者词。对于任何语言,从共时系统来说,词有几万个,语素有几千个,音节有几百到几千个,而音素却只有几十个;因此做为语素文字的现代汉字有7000个单字,而做为音素文字的现代英语文字只有26个单字(习惯上叫做字母”)。汉语拼音是采用英语文字的音素文字原理设计的,也只有26个字(其中V当初还闲置着)。

反过来,对于语言中一个词,它包含的音素却多于语素,例如:英语“reactor”的语素是“re-act-or3个,音素是“r-e-a-c-t-or6个,音素字是“r-e-a-c-t-o-r7个;汉语“葡萄糖”的语素是“葡萄糖”2个,音素是p-u-t-a-o-t-a-ng8个,语素字是“葡--糖”3个。如果把拼音当做音素字,那么音素字是“p-u-t-a-o-t-a-n-g9个。可见,音素字与音素的数量差别不大,语素字与语素的数量差别也不大。

在语素字和音素字之间明显地形成一种符号系统的定律:一种文字的总的字的数量跟记录一个词需要的字的数量形成反比例关系。(彭泽润、李葆嘉主编2009248)例如,汉字通用的字有7000个,比英语的26个字多很多,反过来记录一个词只需要大约2个字,比英语记录一个词需要的大约6个字少很多。同一个词如果用音素字记录,要比较多的字,用语素字记录,要的字比较少。例如:“学习”是1个词,书写只用了2个语素字,如果用类似表音文字的汉语拼音书写就要5个音素字,写成“xuéxí”,对应的英语词“study”也要5个音素字。因此人们就觉得在汉字记录的文本中隔离词似乎是多此一举,至少必要性比英语文字或者汉语拼音要低。

说到这里,我们有必要回答什么是。不解决这个术语问题就无法明确什么是字式书写,无法确认字式书写的范围。也可以说,我们必须给所有文字系统的基本单位确定一个普遍意义的概念。即使传统习惯中对“字”的理解有分歧,我们也不应该回避用原来专用于汉字的“字”这个现成的术语,经过限定和引申以后重新定义,来表达普通文字学中的“字”这个概念。这也是目前的语言学教材和著作几乎都忽视的一个重要的语言学概念,因此,人们经常把汉语的字和英语的词混淆起来,语言学领域的人也不例外。字是文字体系中最小的能够自由运用的视觉符号形式。(彭泽润、李葆嘉主编2009237)它的唯一特征是形体,不要求每个字能够单独表达口语中的声音和意义。所以,我们要改变传统观念,树立新观念:字母是一种字,而不是比字小的一种构字单位,不能像有的学者把英语文字的字母跟汉语文字的笔画等去错误类比。

在成熟的文字体系中,一个字记录的语言单位等于或者小于词,不会大于词。所以字间空隙肯定小于词间空隙。例如,英文“I am a student.”这个句子有4个词,有3个词间空隙。除了“I”“a”两个词是一个字记录的以外,另外两个词都是多于一个字记录,里面还有字间空隙。这样,读者可以明确分成4个词理解,又可以把记录每个词用的音素字分辨清楚。

有的文字只有字间空隙,没有词间空隙。汉字就是这样一种文字。例如,我是一个学生,一眼可以看出有6个字,但是要熟悉汉语的人经过思考或者转换成口语才能知道有4个词。

汉字在书写中不区分词的界线带来一些矛盾,特别是在多音词丰富的现代汉语中。古代汉语中的词多数可以用一个字记录,所以字间空隙和词间空隙基本重合了,没有大的矛盾。到了现代汉语,由于语音简化,导致词形延长,但是文字仍然停留在古代汉字的书写体制中,所以矛盾逐渐出现。例如发展中国家用电器可以读成发展中国家用电器,也可以读成发展中国家用电器;“和尚未获得初级职称的可以读成和尚未获得初级职称的或者和尚未获得初级职称的;“武汉市长江大桥”可以读成“武汉市长江大桥”和“武汉市长江大桥”。这就增加了阅读负担,虽然在一定的语境中可以过滤出确切意义,但是毕竟耽误了时间。

这个矛盾的出现,加上表音文字的词式文本方式带来的明显优势跟汉语字式文本形成对比,所以有的人主张在汉字中也实行按照词的单位去组合字的词式文本。但是,在汉语中这个矛盾并没有激化到不改不行的地步。这是为什么?第一,几千年的习惯养成了一种惰性。第二,前面已经论述到,即使现代汉语的词形延长了,但是,由于文字仍然是语素文字,所以一个词用的字仍然不是像表音文字的词用的字那样多。

问题是如果汉字改革成表音文字,如果用拼音来教学语言,特别教外国人学习汉语,仍然不区分字和词,仍然把字做为单位,而不是把词做为单位拼写,那就违背了文字规律,会带来许多麻烦,会影响语言工具的效率。现在,我们可以看到,在对外汉语教材中,几乎没有例外,一律按照词的单位拼写和教学。那里只有生词,没有生字,不再像国内的语文教材突出生字。我们的汉语拼音刊物和其他读物,有很多按照《汉语拼音正词法基本规则》按照词的单位拼写,但是,也有不少人,包括小学语文教材仍然按照的单位拼写,把“一会儿”这个双音词“yīhuìr”机械对应汉字的字注音,错误拼写成3个音节“yī huì er”。我们应该透过汉字传统书写习惯的面纱确认汉语口语中词的真实面貌。

因此,传统语文教育没有很好正视汉语客观存在的“词”,不利于国民在使用汉语的时候达到最大效率。如果说母语悟性还可以忍受字式文本的存在,那么在汉语信息处理和对外汉语教学等领域,把汉语的字式文本改革成为词式文本更加迫在眉睫了。调查表明母语是汉语的人确实有词意识,但是由于教育、传播、书刊等许多因素造成母语使用者对词的认识是模糊的,使得人们对词的认同率并不很高,在76-85%之间(王立2006)。正是这种现象说明词式文本的提倡非常必要,能够逐步提高整个社会的词意识,否则上述词意识模糊的现象很难扭转。

由于不明白字距和词距分别隔离的语言单位有什么性质的不同,所以,不少人甚至《现代汉语》教材都错误地认为汉字是平面性文字,英语文字是线条性文字。这是因为把汉字的字的内部结构性质和英语文字的字的外部结构关系错误地对应起来了。

应该说,任何文字的字的内部都是一个平面,字和字之间的字的外部结构都是排列成线条。因为口语中的词等单位的外部结构都是线条性质的,文字是通过字这个基本单位来记录口语的,所以字和字之间必然是线条性质的。

我们不能在错觉中把人类文字的共性当做汉字的个性,从而拒绝朝人类文字共同发展的方向前进。如果一定要说个性,那么汉字的字比英语的字的平面要复杂很多。因为汉字是语素文字,字的总数量多,必须通过大量复杂的平面结构才能相互区分开来,英语文字的字一共26个,只需要简单的平面图形就可以区分。

事实上,汉语的书写格式一直在改革中。我们经历了从竖排到横排,引进标点符号,引进阿拉伯数字,引进字母词等过程,应该进一步引进词式文本格式。

这个问题已经引起了不少学者关注。南昌大学2004年曾举办过一次《汉字书写系统改进国际学术研讨会》(彭泽润,周纯梅2004)。《亚洲周刊》派了记者参加这个会议并且写了报道(吴琦幸2004)。

“理想的文字,应该是语音、语义、语法3个方面都根据边际效应适度表达,而不应该有任何一方面被完全忽视或者过分精密化。汉语的特点是语法信息太少,标点的引进,是这方面一大进步,区分词的空格实际上是标点符号功能的一大引申,必将大大增加汉语文本的语法信息”(陆丙甫2003)。

当然我们也不能指望词式文本能够解决字式文本中存在的所有歧义问题,更加不能指望书写方式的改革能够改变汉语语法形态变化少的现状。文字是记录语言的,文字不能改变语言。也就是说不能让文字对语言削足适履。例如有人在设计汉语拼音改革方案的时候,专门设计一些字母代表不同的词性附着在词的后面,这就违背了汉语语法的事实,也必然增加文字使用的负担。然而词式书写只是把语言中本来存在的词的听觉界线在视觉上再现出来。


上一页 [1] [2] [3] [4] [5] [6] 下一页   
【内容导航】
第1页:修改说明
第2页:【正文】
第3页:一、汉语词界信息和词式文本是语义互联网信息传播的基础
第4页:二、用词式文本取代字式文本是人类书面语信息传播的共同趋势
第5页:三、汉语信息传播的词式文本改革已经具备实践条件
第6页:参考文献


阅读:
录入:湘里伢子

语网特别申明:各专栏专辑作者文责自负,对自己的作品享有完整版权,在语网的发布不影响其再版权,即作者还可另行投稿或出版。任何人均可在本站发布或转载文章,但这并不意味着本站赞同其观点或证实其内容的真实性,如涉及版权等问题,请作者来函联系。

评论 】 【 推荐 】 【 打印
上一篇:【专题】拼音和汉字发展笔谈

下一篇:论“词调 模式化”
相关文章      
发表评论


点评:
 
字数(限500字,建议200字以内):
姓名:

  • 尊重网上道德,遵守中华人民共和国的有关法律法规
  • 承担一切因您的行为而导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
站内查询



 
最新文章