多字词编码规则
对于多字词,华鼎码采用了首字形码加各字声码的方法来编码检索。它与单字的检索基本一致,每多一字,只多该字的声码。
具体规则如下:
- 二字词:首字取形码 + 首字取声码 + 次字取声码 = 三键
- 三字词:首字取形码 + 首字取声码 + 次字取声码 + 末字取声码 = 四键
- 四字词及以上:依此类推,首字取形码 + 各字取声码
我们把词语的字数定为 n,则检索键数为 n + 1。
形码:根据汉字的部首或笔形特征确定的代码,共 26 个字母形码和 9 个数字形码。
声码:汉字汉语拼音的第一个字母,共 23 个(不含 I、U、V)。
声码:汉字汉语拼音的第一个字母,共 23 个(不含 I、U、V)。
示例
| 词语 | 首字形码 | 各字声码 | 完整编码 | 键数 |
|---|---|---|---|---|
| 中国 | Z(中) | ZG | ZZG | 3 |
| 人民 | R(人) | RM | RRM | 3 |
| 计算机 | J(计) | JSJ | JJSJ | 4 |
| 中华民族 | Z(中) | ZHMZ | ZZHMZ | 5 |
二字词的理论编码空间为 35×23×23 = 18515,绝大多数的二字词重码能一屏显示,选择重码也就很容易。三字以上的词语基本无重码。