|
一、 形码的分类、定名和序列
把《新华字典》的189个部首归并为35个形码部。其中。象形形码26个,数字形码9个,这35个形码部按易学易记的难度可分为三类:
第一类8个象形形码,它们一个部首就是一个形码,或表示同一意义的二个部首合成一个形码。有:
| C:草部
(艹) |
D:灯火部(火、灬) |
| K:口部
(口) |
L:流水部(水、氵) |
| M:木部
(木) |
S:手部
(手、扌) |
| X:心部 (心、忄) |
Y:言部 (言、讠) |
第二类18个象形形码,分别由形义特征相近的几个部首合并而成。有:
| A:癌部(疒、广、尸) |
B:贝部(贝、页) |
| E:耳部(耳、卩、阝) |
F:饭部(饣、食、酉、米) |
| G:盖部(宀、冖、雨、穴) |
H:禾部(禾、竹) |
| I:丝部(纟、衤、衣、糸) |
J:金部(钅、刂、金、刀) |
| N:女部(女、子) |
O:日部(日、曰) |
| P:跑部(足、车、舟) |
Q:犬部(虍、鹿、牛、马
、豸、犭) |
| R:人部(亻、彳) |
T:土部(土、山、士) |
| U:鱼部(鱼、鸟、虫) |
V:月部(月、骨) |
| W:王部(王、玉、石) |
Z:之部(走、之、辶、廴) |
这二类共26个形码,都分别由部首构成,具有很强地表意功能,所以称象形形码。象形形码用汉语拼音的26个字母作代码,以字母顺序为序,一个字母表示一个部首或一类部首,每个形码都有一个中文名称。形码的中文名称既形象又具可读性,以音托方式与字母相应。因此学习和记忆都比较容易。
第三类是9组笔形形码,它只有笔形特征,而无表意作用,9组笔形用9(0-8)个数字作代码,所以也叫数字形码。实际上数字形码涵盖了120多个部首,因此,学习和记忆量也减少了许多。笔形形码的运用,也使严格界定汉字的部首归属成为可能。
二、严格界定汉字部首归属的方法
对于形状复杂,数量巨大的汉字来说,一个汉字只能有一个部首,是相当难处理的。通常处理的办法是,让一些汉字分别属于二个不同的部首,对于一些难以确定部首的字,另加一个以笔划数排序的难检字索引表。华鼎码的办法是通过一个极简单的编码规则来解决。华鼎码规定:
1、依次在汉字上、下、左、右、左上角有象形形码的,取该象形形码作首码。
2、上述五个部位无象形形码的字,首码为数字形码。数字形码是指该字左上角(或左或上)的笔形代号。
严格按照这二条规则来给汉字分类,每个汉字就只能有一个形码,这就严格界定了汉字的部首归属。
例如:“旭”字,按习惯分部,它应该属于“日”部,但按照华鼎码规则,它不属于“日”部,因为字中“日”的位置在“旭”字的右上角,而右上角的“日”
是不能作为象形形码的。那么是否能照顾一下习惯,作为例外放在“日”部呢?那是不行的。至少现在是不行的。因为一旦开了一个例外的口子,一下子就会冒出几十个,甚至几百个要求例外照顾的字。严格按规定取码,绝对不搞例外,其实也是个习惯问题,一旦习惯了新规则,也就会感到很自然了。至于今后是否应考虑国人的习惯,把“旭”等一些字作为例外处理,要由实践的结果来定。
三、各部字数尽量均衡
形码数量确定以后,编码空间也就基本确定了。各部的字数尽量均衡,是重码数趋于平均化的重要条件。事实上,华鼎码在对汉字进行形义分类时,受到了各部字数尽量均衡这一要求的严重制约。华鼎码之所以只取68个部首归并为26个象形形码,一方面是为了减少学习记忆量,另一方面也是为了做到各部的字尽量均衡。这可以从华鼎码单字码表中清楚的看出。
四、华鼎形形码设计
对于常用字,当然用形声码可以解决问题。而对于生僻字,一般人不知读音,无法用形声码,我们设计了形形码。对于第二形码的取码方法,华鼎码规定:
1、首码是象形形码的,第二形码取该字去掉象形形码后剩余的数字形码。
2、首码是数字形码的,第二形码取该字右下角(或右或下)的数字形码。
3、国标字符中的部件符,如 :
氵、讠、钅、辶等,第二码为0。
很明显,第二形码的取码规则,也是按易学易用的原则规定的。
设计普及型中文输入法,必须在编码设计的基础上进行软件设计。进行编码设计的人,通常是文字工作者,多数情况下,他们是软件设计的门外汉。而进行软件设计的人,通常是高级程序设计师,他们聪明、敏锐,但缺乏深厚的文字功底,往往用技术的观点来理解和诠释文化现象。因此,理想的中文输入方法必然由两者紧密合作而产生。相辅相成,缺一不可。
华鼎码设计的技术关键是汉字的形义分类。对此,华鼎码只是提出一种检索用的汉字形义分类方法,并不企求以新形码取代传统意义上的部首,也不会妨碍识字教学中一些传统部首的重要作用。可以想象,随着风格迥异,各具特色的汉字分类法的出现,将会出现许多易学易用的二键码中文输入法,再经过一段时间
的实践、比较、综合,最终必将出现一种理想的中文输入法,供国人在信息时代普及使用。
|