继续探讨汉字与中文输入
语言是人类信息交流的最主要手段。它的产生和发展,是与人类的进步和发展同步进行的。随着生产力的发展,活动范围的扩大,人类的信息交流受到语言即时性、即地性、不可保留性的严重制约,书面语言(文字及其排列顺序)也就必然产生了。
汉语是汉族人使用的语言,现在是中华民族的主体语言,是世界上使用人数最多的语种;汉字是记录汉语的符号,是世界上文献延续最久的文字。
世界上任何一种语言文字,都是一个相对独立、完整的体系,它既有所有语言文字的共性,又有区别于其它语言文字的特性。那么汉字区别于其它文字的特点是什么呢?
需要说明的是,汉字系统是一个非常奇特的系统,区别于其它文字的特点很多。在这里,我们只能探讨一些特别重要的,而且对中文输入有积极意义的特点,这就是汉字的表意性和单音节性。
文字是语言的视觉符号,我们可以利用这种符号系统来表示世界上存在的一切事物及其发展变化,我们甚至可以用它来虚构世上并不存在的事物和事件。社会愈进步,符号就愈抽象,以至到了信息化时代,数字化世界,我们可以用0和1二个符号的无穷排列和组合,来表示世界上的一切事物及其发展变化。从本质上说,世界上任何一种文字都是表意的。
既然任何文字都是表意的,也都是有读音的。那为什么文字专家把汉字称为表意文字,而把西文、阿拉伯文等称为表音文字呢?这是因为汉字的字形和字义之间,有相当多的直接关系,而很多其它文字,必须通过语音的的媒介,才能使字母符号的排列与表示的意义联系起来。
汉字是表意性的图形文字,有很多字,最早都是很生动的图画。它的造字法,大致走过了象形、指事、会意、形声四个阶段。在这四个阶段中,象形是造字的最初阶段,形声是造字的最高阶段。在漫长的发展过程中,它的形状发生了脱胎换骨的变异,它的形象性不断减少,抽象性不断增加,现在,除少数字还可以辨析出原来的形象外,大多数已经是面目全非了。但是,不管汉字的字形变化有多大,绝大多数汉字还保留着一个表示相关意思的符号,这个符号就是部首。
部首是汉字独有的用来组字的固定成分,任何别的文字中没有类似的对应物,每一个汉字只包括一个部首,再加上或者不加上别的部分。部首是汉字的重要部分,它可以帮助我们理解字义,记住字形。在汉字检索法里,部首检索法是最基本的检索法,它以部首为主序列对汉字进行第一次分类,再按笔划数和笔形对部内汉字进行排序。
汉字的另一个特点是单音节性。任何一个汉字,不论是用普通话来读,还是用任何一种方言来读,也不论是单独表示一个意思,还是与其它字共同表示一个意思,都只读一个音节。一句书面语有5个字,读起来就是5个音节,讲出来6个音节的一句话,完整记录下来必须用6个汉字。
汉字的单音节性是由汉语语素的单音节性决定的。汉语语素中绝大多数是单音节的。例如:
名词:人、口、手、马、牛、羊……
动词:说、想、做、走、跑、跳……
代词:我、你、他、谁、这、那……
助词:着、了、过、的、地、得……
数量词:一、二、三、个、只、支……
形容词:大、小、高、矮、红、绿……
即使是现代汉语中使用的许多多音节词,也大多是由单音节词按规则组合而成的固定结构。汉语语素和汉字的单音节性,使汉语和中文的表达特别简洁、确切,一般而言,相同内容的文本,中文总是最短的。
汉语语素的单音节性,是在汉族人在数十万年进步发展中形成的,其间经历了多次多民族的融合和影响,但其单音节性仍顽强地保留了下来,而且由于汉字的发明和使用而得到了加强。其它民族在借用汉字来表意时,可以根据他们民族的语言习惯,使汉字多音节化,但汉人使用汉字却只能是单音节的。汉字的改革者们也曾提议汉字的多音节化,但这样的改革从未获得成功,估计今后也不会获得成功。
汉语语素的单音节性限制了汉字向音素文字方向的发展,使汉字成为一种独具特色的文字。在社会科技文化高度发展的今天,它同样限制着汉字朝拼音化方向的发展。
汉字的单音节性,使它的同音字特别多,国标GB2312-80中6763个汉字只有400多个音节,包括一字多音的情况,平均每个音节约有20多个同音字,个别音节的同音字达到一百多个。为了区别同音字的不同意义,形声造字法就必然成了汉字造字的最主要方法。
所谓形声造字法,就是在较简单的汉字的基础上,分别加上意符(即部首)来表示各种不同的意义,据统计,汉字中形声字占总字数的80%以上,大量的形声字,使阅读和理解中文变得相对容易,而字形变得相对复杂。汉字简化以后,写字也容易得多了。今后如果普及了平均二键一字的中文输入,写字的困难将更加减轻。
汉字的表意性和单音节性,对设计普及型中文输入法具有重要的意义。前文提到中文输入是以电脑检索代替用手写字,二键码是最简单的检索编码,那么,用以部首为代表的形码和以声母为代表的声码,对汉字进行二键检索,无疑是最符合汉字造字规则和国人知识背景的方法。
汉字是基于象形文字的表意图形文字,字形复杂,数量巨大,给汉字进行分类排列以供学习和研究,一直是汉字研究的重要课题。
我国第一个给汉字进行形义分类的是东汉时期的许慎,他写的《说文解字》是我国第一部系统地分析字形,考究字源的字典。该书写成并上呈东汉安帝时,离秦始皇统一中国约三百多年。这三百年是汉字从古文(金石文及大小篆)向今文(隶楷)剧烈变化的三百年。
秦始皇统一中国以后,实行书同文的文字政策,采用秦篆统一汉字的字形,首次以国家行为对汉字进行规范。秦始皇主观上虽然想以秦篆作为统一的汉字书写标准,但客观上,却阻挡不了更简便高效的书体的使用和流行。许慎认为:"秦……大发隶卒,兴役戌官,狱卒务繁,初有隶书,以趣约易。"到西汉时期,隶书大为流行,而且有学者为隶书的盛行寻找理论根据,说"秦之隶书为仓颉时书",千方百计抬高隶书的学术地位和政治地位。在隶书盛行时,更简便易写的行草八分(楷书)又开始传习流传。字形的剧烈变化,引起了社会上层直至皇帝的重视,朝廷多次组织学者对字形字义进行研究讨论。许慎在总结前人成果的基础上,"信而有证"地完成了对当时使用的9353个汉字字形字义之间关系的研究,同时,审定了对这9353个汉字的秦篆体正确写法。
在《说文解字》一书里,许慎提出了"分别部居,不相杂厕"的分类原则,把汉字分为540部(后人把每部的第一个字称为部首),使书中9353个汉字,字字有归属,形成了以部首排序的有条理的系统。540个部首,不仅从字形上统领着部中汉字,而且从字义上规定和显示了同部汉字本义所属的意义范畴。
部首对于汉字的重要性主要体现在三个方面:即训诂,造字和检索。
在没有字典和字典很少的年代,汉字的解义主要靠父子相传,师生相承,根据部首可以就字论字进行解义,一旦明白字义,就会牢牢地记住这个字。汉字教学中归类识字,就是在学了象形独体字以后,快速大量学字的方法。
部首的造字功能,使汉字从《说文解字》成书时的一万多字增加到现在的五万多字,增加的字绝大多数是形声字,异体字。大量新造的字,一方面,使汉字可能在数千年的历史上促成学术和文献的延续性,另一方面,又造成了当时代交流的便利性。任何时代,一个人只要学会3-5千个汉字,就可以应付读写的需要。
以部首加笔划的汉字排序检索法,是汉字最基本的检索法,虽然现代出现了更方便快捷的汉字检索法,但部首检字法的经典地位并没有动摇。
汉字的读写系统是个十分庞大的系统,它包括汉字的音形义、检索、语法、书写工具、文字载体、教学传播等子系统。这个大系统随着社会政治经济文化的发展,遵循着更简便、更高效、更经济、更普及的规律在发展。汉字的部首也不例外。
随着汉字的楷体化,简体化,部首的数量在不断减少,《说文解字》有540个部,《康熙字典》只用214部,到《新华字典》只有189部了。有些部首已不再具有诠释字义的作用,只剩下排序检索的功能。随着教育的普及,字典几乎达到每户一册,部首作为检索汉字的作用将越来越大。
进入信息时代以后,文字的书写工具、载体、传播手段又发生了革命性的变化。中文键盘输入将成为国人必须具备的基础文化和基本技能。为适应中文电脑检索的需要,对汉字部首进行革新是不可避免的。
如果从是否适应汉字输入的角度来分析,可以看出以部首为主的形义分类法有三个明显的缺点:
因此,革新后的汉字形义分类必须达到三个要求:
部首的革新如何达到这三个要求,将在第三章中详细介绍。
汉字部首的革新,是信息时代汉字改革的一部分,这种革新,必须符合汉字改革的方向。
汉字改革的方向是使汉字更易学,更好用,这似乎是一个人人都明白的问题,但实际上,有些人对这个方向的认识是不明确的。面对信息革命大潮的冲击,面对汉字编码研究出现万马奔腾的局面,这种不明确反映得特别明显。具体表现为二种观点,一种是保守的观点,另一种是激进的观点。
持保守观点的人认为,汉字的改革已基本完成,现在千百种编码方案流传全国,似乎有点"山头群起,群雄割据"的味道。这种"群雄割据"的形式,正由于计算机在全国范围内普遍应用而悄悄地肢解着汉字,书同文的全国统一形势事实上受到了威胁。认为现在单纯研究汉字编码已无实际意义,不会有突破性进展。毫无道理地对许多编码方案冠以"低水平重复"的结论。不合时宜地提出了汉字编码方案必须符合现行汉语汉字规范的原则。
应该看到,目前流行使用的各种汉字编码和输入法,都是十分优秀的,即使是还没有进行商品化开发的方案,也都是非常优秀的。它们的设计者,从各个方面,各个角度,对汉语、汉字,对中文与计算机的结合,进行了卓有成效的探索、研究和实践。可以毫不夸张地说,汉字编码方案决无平庸之作,都是国人聪明才智的结晶,都是汉字文化宝库里的瑰宝。汉字编码方案"万马奔腾"的大好局面来之不易,应该得到公正的评价和真诚的鼓励,因为这是理想的汉字编码和中文输入法诞生的前兆。
必须看到,汉字编码方案的设计,必然会冲破现行汉语汉字规范的束缚。历史的经验告诉我们,不冲破秦篆的束缚,就不会有隶书和楷书,不冲破原有字形的束缚,就不会诞生简化汉字。汉字编码和中文输入法是应信息革命大潮而生的新生事物,它必然要冲破现行规范的束缚,这是不可阻挡的历史进程,它正遵循着自然辩证法的规则健康发展。二十多年来的事实也证明,很多实用的编码方案和输入法,正是冲破了现有规范的束缚,才取得巨大成功的。
规范是必须建立的,也是必须遵循的,但是对于汉字编码和中文输入法这个新生事物,现在就谈规范,似乎为时还过早。
另一种持激进观点的人认为,汉字改革的方向是语文现代化,提出从推广普及音码开始,逐步确立拼音汉字的主体优势和法定地位,用拼音汉字逐个取代方块汉字,最终实现汉字拼音化。
毋庸置疑,汉字改革的方向是语文现代化,但是语文现代化最终要以拼音汉字取代方块汉字,却是值得商榷的。
语文现代化是个广义的概念,其本质无非是要使汉语汉字在现代社会里更易学,更好用,更适合于信息处理和交流。事实已经证明,计算机完全能胜任中文信息的处理,也完全能处理中文信息与其它文字信息的交流。对于计算机来说,处理中文及其与其它文字的交流,同处理英文及其与其它文字之间的交流,并无本质的区别,也无难易的区别。说处理中文有困难,处理中文与其它文字的交流有困难,这只是电脑问世初期的故事,只是二十世纪七、八十年代的故事。目前尚未圆满解决的,只是中文在人机之间的交流上有一点小麻烦而已,说简单一点就是在普及中文输入上有一点小困难而已。难道因为这一点点小困难,就有必要以拼音汉字取代方块汉字吗?难道信息时代就容不得方块汉字的存在和使用吗?
对于汉字拼音化,我们现在姑且不讨论在信息时代有无必要实现这个目标,在经济和技术上有无可能实现这个目标,在现在伦理和习惯上国人能否容忍实现这个目标,但是,至少必须说,拼音汉字决不会比方块汉字更适应汉语和华人,拼音汉字决不会比方块汉字更好学,更好用。拼音化决非汉字改革的方向。
评价一种汉字编码和输入法是否符合汉字改革的大方向,应该看它是否易学,好用。可以研究一下,对于哪一类人群是怎样的编码最好学;对于哪一类人群是怎样的编码最好用;对于哪一类人群是怎样的编码既好学又好用;对于全民族来说又是怎样的编码既好学又好用。有理由相信,能经受实践和时间二大考验的编码是最优秀的编码。
笔者认为,对汉字的部首进行革新是符合汉字改革大方向的。在不触及字形、字音、字义等文化沉淀的前提下,对汉字的部首稍加革新,就能使汉字更适宜于辞书检索和电脑输入。这很可能是一种最简单,最经济,最容易普及并沉淀的革新。
← 返回码书