一种用于计算机的汉字部件分类编码输入方法转让专利

申请号 : CN99110237.1

文献号 : CN100596335C

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 林述文

申请人 : 林述文

摘要 :

本发明涉及一种用于计算机的汉字部件分类编码输入方法。其特征在于包括以下步骤:根据需要从《信息处理用GB13000.1字符集汉字部件规范》中选择组件,并对选择的组件进行分类;确定字组件、常用非字组件和一般非字组件与计算机键盘上的英文字母键位的对应关系;选择的组件按其“可分性”的原则分为复合组件,构成复合组件的次一级组件成分为子组件;确定组件拆分取码规定,以拆分出的组件的代码组成字的编码;按汉字的书写顺序进行拆分组件、取编码输入汉字,一个汉字最多取四码。本发明选用的组件多、但记忆量却小,重码少,拆分容易且符合《汉字部件规范》,实现的编码方案多样而灵活,易于掌握,普通人员和专业录入人员均可使用。

权利要求 :

1、一种用于计算机的汉字部件分类编码输入方法,其特征在于包括以下步 骤:①以《信息处理用GB13000.1字符集汉字部件规范》允许作为部件的所有 组字结构作为本汉字输入方法的编码码元--组件,并对选择的组件进行分 类;本身为一个“字”的组件为字组件,常用非字组件为非字组件中在常用现 代汉语字典中用作非字部首的那些非字组件(即“爫、宀、丷、疒、镸、 氵、灬、癶、艹、卩、廿、扌、口、ユ、勹、巛、虍、 衤、讠、廴、纟、丂、冫、刂、マ、ス、牜、廾、彡、冖、钅、犭、匚、亻、 、彳、厶、氺、礻、饣、冂、凵、屮、肀、、亠、夂、攵、彐、忄、乂、 辶、阝”),其余的非字组件为一般非字组件;

②确定字组件、常用非字组件和一般非字组件与计算机键盘上的英文字母 键位的对应关系;字组件按其读音的汉语拼音字母与计算机键盘上的英文字母 键位对应,常用非字组件按其名称或称谓所涉字读音的汉语拼音字母与计算机 键盘上的英文字母键位对应,一般非字组件按其笔划结构特征分类与计算机键 盘上的英文字母键位对应;

③选择的组件按其“可分性”的原则进行分类,凡《汉部件规范》规定 不可进一步拆分的为基本组件,可拆分的为复合组件,构成复合组件的次一级 组件成分为子组件;

④确定组件拆分取码规定,以拆分出的组件的代码组成字的编码,凡可拆 分的字均应进行拆分取码,按组件书写顺序进行拆分,交重不拆,并对各取码 位拆取组件的类型作出具体的限定:即分别按“各码位取大优先”,“各码位只 取基本组件”和“第二码位只取基本组件,其它码位取大优先”的限定得出三 个不同方案;  ⑤按汉字的书写顺序进行拆分组件、取编码输入汉字,如不足四码,可取 补充码;可字词结合取码,词组编码为:双字词取各字前二码组成词组码输入, 三字词取各字第一码组成词组码输入,四字及四字以上的词取第一、二、三、 末字的第一码组成词组码输入。

2、根据权利要求1所述的一种用于计算机的汉字部件分类编码输入方法, 其特征在于:①各码位只取基本组件。

②字组件与计算机键盘的英文字母键位对应如下:A:凹

B:必、不、贝、卜、白、八、秉、本、巴、匕C:厂、臣、虫、串、垂、重、川、长、斥、寸、丑、承、尺、册、车、車D:歹、丁、电、刁、刀、东、大、丹、弔E:二、而、耳、儿

F:方、非、父、甫、丰、飞、夫、弗、缶、巿G:广、工、干、更、果、鬼、个、瓜、甘、革、弓、戈、丐、艮H:火、户、黑、禾、乎

J:巨、甲、巾、见、金、臼、斤、久、几、及、柬、己、九、井、丌、戢、 孑、孓、戋K:口

I:立、两、里、乐、了、龙、力、吏、耒M:米、门、皿、目、毛、末、木、矛、民、母、丐N:内、年、牛、乃、女、乜

P:片、皮、爿

Q:曲、且、丘、千、气、求、犬、七

R:肉、日、人、入、冉

S:示、三、石、上、四、山、申、史、食、手、身、氐、书、士、束、十、 事、世、水、尸、己、豕、卅T:田、凸、土、屯

W:为、亡、文、瓦、五、王、万、我、未、韦、戊、丸、毋、兀X:心、下、西、熏、夕、象、小、习、乡Y:永、衣、羊、雨、玉、亚、酉、牙、于、曰、由、业、央、曳、禹、 月、尹、也、乙、已、予、夷、又、言、丫、禺、臾、聿、幺、弋Z:之、止、中、舟、兆、自、乍、重、爪、竹、子、专、丈、州、③常用非字组件”与计算机键盘的英文字母键位的对应如下:A:爫;宀           B:丷;疒C:镸;           D:氵;灬;癶;

E:艹;卩;廿;   F:扌;囗;

G:ユ;勹;巛;   H:虍

I:衤;讠           J:廴;丬;纟K:丂             L:冫;刂M:マ;ス           N:牜;廾O:兼作调整代码     P:彡;冖;钅Q:犭;匚         R:亻;;彳S:厶;氺;礻;饣   T:冂;

U:凵;屮           V:肀;W:亠;夂;攵       X:彐;忄;乂Y:             Z:ナ;辶;阝其中单笔划代码规定如下:

D:丶                     H:一I:丨                     P:丿V:乙乚 亅乛曲折笔划    N:④“一般非字组件”的分类与计算机键盘的英文字母键位对应如下:P:第一类,起笔为“撇”笔划的归为该类;

O:第二类,带“口”笔划结构的归为该类;

D:第三类,带“点”笔划结构的归为该类;

I:第四类,仅由横竖笔划结构组成的归为该类;

V:第五类,除上述四类之外的一般非字组件归为该类;

兼有多种结构特征的一般非字组件按一、二、三、四类的顺序优先往前归类。

⑤最多取四码,如组件数多于四个,取第一、二、三、末组件的代码组成 编码。如不足四码,可取补充码。

⑥取补充码的规定:

a、根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是 根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构 特征确定补充码。

b、三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三 个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以 提高编码效率,降低重码。

c、补充码优先靠后取,尽可能不取或少取单笔划补充码,双组件字一般从 一个组件中取一个补充码。

3、根据权利要求1或2所述的一种用于计算机的汉字部件分类编码输入方 法,其特征在于:可取三个字形码加一个音码,或者两个字形码加两个音码, 可以字形码在前,也可以字形码在后。

说明书 :

技术领域

本发明涉及汉字编码输入方法,特别涉及一种用于计算机的汉字部件分类 编码输入方法。

背景技术

现有的凡涉及与汉字的字形结构相关的汉字键盘编码输入方法,普遍是在 计算机英文键盘上实现汉字编码输入的。《信息处理用GB13000.1字符集汉字 部件规范》(以下简称《汉字部件规范》)中规定了汉字组成部件,若要使重码 较少,都必须使编码组件(组字结构有字根或部件等等称谓,本发明称组件) 达到相当数量,从而造成记住组件及组件代码相当不容易,而且,虽然使用的 组件多,但也只是选取了汉字组件的一部分,甚至是少部分,造成拆分困难和 拆分不规范;选用少量组件的普及型编码输入方法,虽然容易记住,但重码多, 而且拆分困难和拆分不规范的问题更加突出。

发明内容

本发明的目的是提供一种用于计算机的汉字部件分类编码输入方法,它选 用的组件多、重码少,但记忆量却小,拆分容易且符合《汉字部件规范》,实现 的编码方案多样而灵活,易于掌握,普通人员和专业录入人员均可使用。
所述的一种用于计算机的汉字部件分类编码输入方法,其特征在于包括以 下步骤:
①以《信息处理用GB13000.1字符集汉字部件规范》允许作为部件的所有 组字结构作为本汉字输入方法的编码编元--组件,并对组件进行分类;本身 为一个“字”的组件为字组件,常用非字组件为非字组件中在常用现代汉语字 典中用作非字部首的那些非字组件(即“爫、宀、丷、疒、镸、氵、灬、 癶、艹、卩、廿、扌、囗、ユ、勹、巛、虍、衤、讠、廴、 丬、纟、耂、丂、冫、マ、ス、牜、廾、彡、冖、钅、犭、匚、亻、、彳、厶、 氺、礻、饣、冂、丅、凵、屮、肀、、亠、夂、攵、彐、忄、乂、尢、 辶、阝”),其余的非字组件为一般非字组件。
②确定字组件、常用非字组件和一般非字组件与计算机键盘上的英文字母 键位的对应关系;字组件按其读音的汉语拼音字母与计算机键盘上的英文字母 键位对应,常用非字组件按其名称或称谓所涉字读音的汉语拼音字母与计算机 键盘上的英文字母键位对应,一般非字组件按其笔划结构特征分类与计算机键 盘上的英文字母键位对应;(举例说明由于篇幅长,放在说明书最后,见第10 -12页的“字组件、常用非字组件、一般非字组件分类及码例”);
③将选择的组件按其“可分性”的原则进行分类,凡《汉字部件规范》规 定不可进一步拆分的为基本组件,可拆分的为复合组件,构成复合组件的次一 级组件成分为子组件;
④确定组件拆分取码规定,以拆分出的组件的代码组成字的输入编码,凡 可拆分的字均应进行拆分取码,按组件书写顺序进行拆分,交重不拆,并对各 取码位拆取组件的类型作出具体的限定,即分别按“各码位取大优先”、“各码 位只取基本组件”和“第二码位只取基本组件,其它码位取大优先”的限定得 出三个不同方案;(“交重不拆”指拆分出的组件不能有笔画重合和笔画交叉,如“串” 拆为“中”和“中”及“东”拆分为“七”和“小”都是有交重现象,不能拆分, 过去人们对一些字的分解有分歧多是由交重可拆还是不可拆引起的,交重可拆也不 直观,因此,交重不拆的规定有重要性;“取大优先”指当有多种拆分法时,优先 拆尽可能大的组件,如“案”字,如不加任何限制,拆分为“安、木”和“宀、女、 木”均可,如按取大优先,则只能拆分为“安、木”,因为组件“安”较之组件“宀” 和“女”要大,要优先取。)
⑤按汉字的书写顺序进行拆分组件、取编码输入汉字,如不足四码,可取 补充码;词组编码输入:双字词取各字前二码组成词组码输入,三字词取各字 第一码组成词组码输入,四字及四字以上的词取第一、二、三、末字的第一码 组成词组码输入。
按照上述规定将各类组件与计算机英文键盘的英文字母键位的对应,便于 识别众多的组件和记住组件代码。这是因为:
第一、字组件用不着专门记忆,只要在使用拆分规则对字进行拆分时可以 自然明白,至于字组件的代码,如取单码,可以取与汉语拼音第一字母相应的 英文字母为代码;如取双代码,可取其双拼为代码,甚至可以取全拼为代码, 这要视具体所选编码方案而定,每个使用者可灵活选用。
第二、由于常用非字组件是汉语字典中所选的非字部首,人们熟悉它们, 又由于原则上代码与其名称或称谓相关,易于一一记住和识别它们。(相当于把 人们熟悉的一些非字组件转化为字组件来处理,人们所熟悉的这些非字组件往 往是字的变形或字的部分,常常叫做“×字旁”、“×字头”、“×字底”、“×字 边、“×字框”等等,如:“亻”叫“人字旁”是“人”字的变形,“彐”叫“雪 字底”是“雪”的一部分,就分别把它们转化为“人”字和“雪”字,为便于 描述,把常用非字组件如此转化成的字叫做其“所涉字”,于是“亻”和“彐” 的代码就分别为“ren”和“xue”。)
第三、一般非字组件虽然众多,但记住了量不大的常用非字组件,剩下的 非字组件就属于这一大类了,再加上我们按其结构或笔划特征进行分类,再按 类取码,我们只要记住划类规定和少数类码就掌握了众多的一般非字组件。
例如:我们规定凡起笔为“撇”(“丿”)的一般非字组件归为一类,并以“P” 为代码,那么只要见到“段、卑、姊”等会自然掌握它们,那怕你事先并不知 道有在按规则取码时,遇到“段、卑、姊”等字时,自然从直 觉上就可以看出为组件,且又不是字组件,自然就是非字组件, 又因为在常用非字组件中没有选它们,所以很容易地辩认出它们是一般非字组 件,其第一笔为撇笔,其代码也确定了。以撇笔为起笔的组件有几十个,我们 事先并不用一一记住它们,和上面举例情况一样,在对字的拆分时可以很容易 地识别它们。其他类别的一般非字组件也是同样易于识别。
根据关于基本组件、复合组件和子组件的规定及组件拆分规定,两者结合 起来,不同的组件拆分规定形成不同风格特点的编码方案,在同一风格的编码 方案下可以保证拆分取码的唯一性,同时可在编码过程中掌握字组件。举例加 以说明:我们事先选定在各方案中“、艹、亻、冂”等为常用非字组件, 考查“确”和“葆”两字,两字中有“、艹、亻、冂”等常用非字组件, 有“石、角、用、保、呆、口、木”等字组件,“角、用、保、呆”是复合组件, “、艹、亻、冂、口、木、石”等是基本组件。如不确定具体拆分规则, 则对上述两字的拆分就不确定,对于“确”字,可拆分为“石、角”,“石、、 用”,“石、、冂、”等几种组件组合,“葆”字也有多种拆分法,正是有这 种多样的拆分法,可以形成多种风格特点的方案。按照对各取码位所取组件类 型作出不同规定,就可得到不同风格特点的编码方案,在同一方案下,拆分是 唯一的,编码也就是唯一的。我们试举出三种规定,也即有三种可供选择的方 案。
第一个方案:按一般采用较多的取大优先的原则,“确”和“趣”只能分别 拆分为“石、角”和“走、取”。
第二个方案:规定只能取基本组件,“确”和“趣”只能分别拆分为“石、 、冂、”和“土、耳、又”。
第三个方案:规定第二码位只取基本组件,其他码位组件取大优先,“确” 和“趣”只能分别拆分为“石、用”和“走、耳、又”。
下面举例说明方案是如何实现的,从中可以看到实施非常简单容易。以“确、 趣、堡”三个字为例在下面列表说明。

上表清楚显示总体方案实施的三个步骤:第①步确定组件,第②步确定组 件代码,第③步拆分字取输入码。其中第②步取代码中,字组件代码没有列, 是因为不必列,只要识字,能拼出其音就行。如果对拆出的某个字组件的拼音 没有把握,可以查字典。表中列有要描述的改进方案,放此便于对比。
根据可以字词结合取码的规定,可以提高编码效率和输入效率。  
我们可以看到,只要拆分取码规则定了,具体到每个字,拆分是唯一确定 的,因此,很自然地,字组件、常用非字组件和一般非字组件都是确定的。
可以通过不同的拆分规则限定,产生不同的编码方案,以上举出的三种限 定,可产生三套方案,实际上可以有别的限定,可按使用者的需要灵活使用。 可以选取另具特色的一类实施例,组件的代码可取单代码,也可取多代码,可 取三个字形码加一个音码,或者两个字形码加两个音码,组成字的编码,词码 方式为:双字词取各字前二码组成词组码,三字词取各字第一码组成词组码, 四字及四字以上的词取第一、二、三、末字的第一码组成词组码。
根据上述规定及举例说明,显示本发明有如下优点:第一,编码组件选用 和拆分合理,且符合《汉字部件规范》规定。按照上述举例的第二方案,所用 的组件刚好只是《汉字部件规范》中的基础部件;按照方案一和方案三,除使 用《汉字部件规范》中的基础部件之外,还要使用一些基础部件以外的字部件, 《汉字部件规范》允许将基础部件合成字作为部件使用,即本发明符合“基础 部件可以组合的规则”;拆分规则符合《汉字部件规范》“交重不拆”的原则和 “基础部件不再拆分的规则”,本发明在拆分规则中明确了“交重不拆”,同时 在各实施方案中,在具体拆分时坚持与《汉字部件规范》中“基础部件不再拆 分的规则”一致,这里所说的基本组件对应于《汉字部件规范》中的基础部件。 如上述“确”字,一般容易把其中的“石”作为和“口”两个组件,但本 发明按《汉字部件规范》将其作为一个基础部件,上述方案二中规定只取基本 组件,我们便未将“石”拆分为和“口”。第二,记忆量小,易于掌握。 所要记忆的是常用非字组件及其代码(本发明只选用了不到100个非字组件)、 简单的拆分规则、一般非字组件的类别特征及其代码(本发明只选几个类),巧 妙地实现了大组件集记忆量小;记住了上述内容,再加上能认识一定数量的字, 具有一定拼音知识,就可以顺利使用本发明。第三,本发明重码低,其重码低 到可以供专业人员实现盲打。因此其使用效果是专业级的,而其易用性却不亚 于现行的主要以易用为目的的普及型编码系统。第四,实现方案多样而灵活, 使得本发明与用户友好结合成为可能。
考虑到有些人拼音知识有限,可能拼不准字组件字的音,这就为这部分人 的使用带来困难,而且有些字可能编码过长,特别是第二方案(即“各码位只 取基本组件”的方案),于是对第二个方案进行进一步的改进,以克服这些不足, 特提出以下改进实施方案。
本改进实施方案规定:
①各码位只取基本组件。
②字组件的代码以其汉语拼音第一字母与计算机键盘的英文字母键位对应 (详见第10页);
③常用非字组件与计算机键盘的英文字母键位对应关系为:
A:爫(“爱”字头);宀(“安”字头)
B:(“卜”字部);丷(倒“八”字);疒(“病”字旁)
C:镸(繁体“长”字变形);(繁体“长”字底);(“春”字头)
D:氵、灬、(三、四“点”);癶(“登”字头);(“刀”字头)
E:艹、廿(“二十”头);卩(单“耳”旁);(入“卩”部)
F:扌(“扶手”);(“奉”字底);囗(“方框”); (“反”字头);(“丰”字变形)
G:ユ(“工”字变形);勹(“勾”字头);巛(三“拐”笔结构); (“告”字头);(“艮”(GEN)字变形);
H:虍(“虎”字头);
I:衤(“衣”字旁,与韵母相关);讠(“言”字旁,与韵母相关)
J:廴(“建”字旁);丬(“将”字旁);纟(“绞丝”旁)
K:耂(“考”字头);丂(“考”字底)
I:冫(“两”点);刂(“立刀”)
M:マ(“矛”字头)、ス(与“マ”相近)
N:牜(“牛”字旁);廾(“弄”字底)
O:(仅作读音以“O”开头的字组件代码外兼作调整代码)
P:彡(三“撇”);冖(“平宝盖”);钅(“偏金”旁)
Q:犭(反“犬”旁);(“青”字头);匚(“区”字框)
R:亻、、彳(单“人”旁、平“人”、双“人”旁)
S:厶(“私”字旁);氺(“水”字变形);礻(“示”字旁); 饣(“食”字旁)
T:冂(“同”字框);丅(“T”字形)
U:ㄩ(“U”字形)、屮(入“ㄩ”部)
V:(入“聿”字部,与韵部相关,以“V”代); (“雨”字头,与韵部相关,以“V”代); (“竹”字头,以“V”代“ZH”)
W:亠(“文”字头);夂(折“文”);攵(反“文”)
X:彐(“雪”字底);忄(竖“心”);(倒“小”字);乂(“X”形)
Y:(“衣”字底);(“月”字变型);尢(“尤”字部)
Z:(“左”字头);辶(“走之”);  阝(“左耳”旁“邹耳”旁)
单笔划常用非字组件与计算机键盘的英文字母键位对应关系为:
D:丶(“点”笔划)                     H:一(“横”笔划)
I:丨(竖笔划,以“I”表竖笔结构)      P:丿(“撒”笔划)
N:(“捺”笔划)
V:乙 乚 亅乛 (均为“折”笔划,以“V”代“ZH”)
“O”除作为拼音以“O”开头的字组件的代码外还兼作调整代码,以作为 导致重码集中的字组件及常用非字组件脱离正常读音及名称关系的替代代码, 如将“木”的代码,或将“日、月”的代码调整至“O”。
④一般非字组件的分类与计算机键盘的英文字母键位对应关系为:
第一类:起笔为撇笔划的归为一类,其代码为“P”,如 等等之类一般非字组件。
第二类:带“囗”笔划结构归为一类,其代码为“O”,如 等等之类一般非字组件。
第三类:带点笔划结构的归为一类,其代码为“D”,如 等等之类一般非字组件。
第四类:仅由横竖笔划组成的结构的归为一类,其代码为“I”,如“、 等等之类一般非字组件。
第五类:除上述四类之外的一般非字组件,其代码为“V”。
兼多种特征的按一、二、三、四类的优先顺序归类,即优先往前面类别归。
⑤最多取四码,如组件数多于四个,取第一、二、三、末组件的代码组成 编码。如不足四码,可取补充码。
⑥取补充码的规定:
A、根据字的整体结构特征和组成字的组件的结构特征确定补充码,特别是 根据组成字的组件的相互位置结构特征和组成字的组件所包含的更小的子结构 特征确定补充码。
B、三组件字可取一个补充码,双组件字可取两个补充码,单组件字可取三 个补充码,在考虑前两项的基础上,根据字的结构控制补充码,控制码长,以 提高编码效率,降低重码。
C、补充码优先靠后取,尽可能不取或少取单笔划补充码,双组件字一般从 一个组件中取一个补充码。
对以上各项规定的使用注意点说明如下:
规定②和③是对组件代码的一种具体选择。
关于规定②,在实例编码中严格按规定取字组件拼音第一字母为代码,未 作调整。如稍作调整,重码会更少。
关于规定③,常用非字组件代码均注明了取码依据,体现了这类组件的代 码与组件名称和称谓相关的原则,绝大多数是取名称或称谓的拼音第1字母, “”字头的代码取“V”,寓意以“V”代辅音“ZH”(多个双拼方案以以“V” 代辅音“ZH”),有几个是取韵部,其中“衤”和“讠”取韵部“I”,而“聿” 和的韵部是以“V”代替,“乂”、“丅”、“ㄩ”(“屮”入“ㄩ” 部)取与其形似的英文字母称谓相关。
根据规定④,具有第二类带“囗”结构特征和第三类带点笔划结构特 征,按优先往前面类别归而归到第二类,其代码为“O”,而非“D”。
关于规定①,举例说明,“朝”应拆分为“十,日,十,月”,不能拆分为 “十,早,月”,因为“早”为复合组件。
关于规定⑤,也举例说明,“瀚”按规定拆分为“氵,十,日,十,人,习, 习”七个组件,组件多于四个,按规定取一、二、三、末组件的代码为编码, 因此“瀚”字取“氵,十,日,习”组件的代码组成编码为“DSRX”。
关于规定⑥,对特征的选取和补充码的确定作进一步说明。字的整体结构 特征和组件的结构特征存在多种选择的余地,本发明的本实施例对字的整体结 构特征是从字的组件的相对位置结构关系考虑的,这种关系可有左右结构、上 下结构、横排结构、竖排结构、包围结构、半包围结构及其他结构特征,对这 些结构特征分别赋予不同的特征码,以这特征码作为补充码;至于组件的结构 特征可从组件所包含的更小的子结构中寻求,如果组件中含有更小的字组件子 结构和常用非字组件子结构时,可以利用这些子结构的代码作为组件的辅助特 征码,如果组件中不含有更小的字组件子结构和常用非字组件子结构,可以取 组件、首末单笔划的代码作为辅助特征码,这种辅助特征码不用一个个组件记 住,见组件即可确定。在需要取补充码时,可以辅助特征码为补充码,当不需 要补充码时,辅助特征码不用。下面举一些例字予以说明。
“定”字按规则拆为“宀、一、相应的编码为“AHV”,其中的基本 组件中有组件子结构“人”和有辅助特征码“B”和“R”,靠后 取辅助特征码“R”为补充码,故“定”在取补充码后其编码为“AHVR”。
“足”字按规定拆为“口”、相应的编码为“KV”,其中基本组件 中有组件子结构“人”和有辅助特征码“B”和“R”,优先靠后取,从 第二组件“足”中取辅助特征码“R”为补充码,故“足”在取补充码后其编码 为“KVR”。第一组件“口”中无比本身更小的组件成份,第二补充码不取。
“没”字拆分为“氵、几、又”,相应的编码为“DJY”,三个组件均只有单 笔划辅助特征码。类似“没”字这种情况的三组件字,可以不取补充码,因为 有的三组件字的组件含有明显的字组件结构或常用非字组件结构,易取补充码, 易于取补充码的便提取,不易于提取补充码的便不提取,有的三组件字为四码, 有的三组件字为三码,这便于减少重码,也缩短编码长度。
“分”字,按规定拆分为“八、刀”,相应的编码为“BD”,两个组件均只 有单笔划辅助特征码,只有取单笔划辅助特征码作补充码,于是取组件“刀” 的末笔划特征码“P”和组件“八”的首笔划特征“P”为补充码,“分”取补充 码后的编码为“BDPP”。本实施例从后组件取末笔划特征码,从前组件取首笔 划特征码作为补充码,优先从后取。
至于根据字的整体结构取补充码,本实施例的试用编码仅对呈上中下竖排结构 的三组件字一律取补充码“I”,呈左中右横排结构的三组件字一律取补充码“H”, 已使重码足够低。再使用其他整体结构特征取补充码,还可进一步降低重码。举两 个例字:“揶”字拆分为“扌,耳,阝”,相应的编码为“FEZ”,属于左中右横排结 构,取补充码后的编码为“FEZH”,“京”字拆分为“亠,口,小”,相应的编码为 “WKX”,属于上中下竖排结构,取补充码后的编码为“WKXI”。
以本选用实施例形成的编码方案,其重码率比前一实施例重码略多,但此 方案显得较为简洁。
本选用实施方案与前述实施方案同样存在辅音为“ZH,CH,SH”的字组 件代码分别与辅音为“Z,C,S”的字组件的代码不能区分。若对这种情况予以 区分,辅音为“ZH,CH,SH”的字组件代码分别以“V,A,U”代替,常用 非字组件镸,的代码由“C”调整为“A”,“氺,礻,饣”的代码由 “S”调整为“U”。将“ZH,CH,SH”辅音分别以“V,A,U”代替之后形 成的方案减少了一些重码。与前述实施方案同样,本选用方案实用于对卷舌音 掌握得较好的人。如果为了促进掌握规范的汉语读音,也可特意选此改进方案。
还可以采取形码与音码相结合的方案。采用三个字形码加一个音码,或者两个字形 码加两个音码,可以字形码在前,也可以字形码在后,相应地可以构成不同的实施例。
字组件、常用非字组件、一般非字组件分类及码例
按只取基本组件作为组件、“字组件”仅取拼音第一字母为代码的方案,则 字组件与计算机键盘相应的英文字母键位对应如下:(字的全拼音可查字典)
A:凹
B:必、不、贝、卜、白、八、秉、本、巴、匕
C:厂、臣、虫、串、垂、重、川、长、斥、寸、丑、承、尺、册、车、車
D:歹、丁、电、刁、刀、东、大、丹、弔
E:二、而、耳、儿
F:方、非、父、甫、丰、飞、夫、弗、缶、市
G:广、工、干、更、果、鬼、个、瓜、甘、革、弓、戈、丐、艮
H:火、户、黑、禾、乎
J:巨、甲、巾、见、金、臼、斤、久、几、及、柬、己、九、井、丌、戢、 孑、孓、戋
K:口
I:立、两、里、乐、了、龙、力、吏、耒
M:米、门、皿、目、毛、末、木、矛、民、母、丐
N:内、年、牛、乃、女、乜
P:片、皮、爿
Q:曲、且、丘、千、气、求、犬、七
R:肉、日、人、入、冉
S:示、三、石、上、四、山、申、史、食、手、身、氐、书、士、束、十、 事、世、水、尸、己、豕、卅
T:田、凸、土、屯
W:为、亡、文、瓦、五、王、万、我、未、韦、戊、丸、毋、兀
X:心、下、西、熏、夕、象、小、习、乡
Y:永、衣、羊、雨、玉、亚、酉、牙、于、曰、由、业、央、曳、禹、 月、尹、也、乙、已、予、夷、又、言、丫、禺、臾、聿、幺、弋
Z:之、止、中、舟、兆、自、乍、重、爪、竹、子、专、丈、州、豸 “常用非字组件”与计算机键盘的英文字母键位的对应如下:
A:爫(“爱”字头);宀(“安”字头)
B:(“卜”字部);丷(倒“八”字);疒(“病”字旁)
C:镸(繁体“长”字变形);(繁体“长”字底);(“春”字头)
D:氵、灬、ツ(三、四“点”);癶(“登”字头);(“刀”字头)
E:艹、廿(“二十”头);卩(单“耳”旁);(入“卩”部)
F:扌(“扶手”);(“奉”字底);囗(“方框”); (“,反”字头);(“丰”字变形)
G:ユ(“工”字变形);勹(“勾”字头);巛(三“拐”笔结构); (“告”字头);(“艮”(GEN)字变形);
H:虍(“虎”字头);
I:衤(“衣”字旁,与韵母相关);讠(“言”字旁,与韵母相关)
J:廴(“建”字旁);丬(“将”字旁);纟(“绞丝”旁)
K:耂(“考”字头);丂(“考”字底)
I:冫(“两”点);  刂(“立刀”)
M:マ(“矛”字头)、ス(与“マ”相近)
N:牜(“牛”字旁);廾(“弄”字底)
O:(仅作读音以“O”开头的字组件代码外兼作调整代码)
P:彡(三“撇”);冖(“平宝盖”);钅(“偏金”旁)
Q:犭(反“犬”旁);(“青”字头);匚(“区”字框)
R:亻、、彳(单“人”旁、平“人”、双“人”旁)
S:厶(“私”字旁);氺(“水”字变形);礻(“示”字旁); 饣(“食”字旁)
T:冂(“同”字框);丅(“T”字形)
U:ㄩ(“U”字形)、屮(入“ㄩ”部)
V:(入“聿”字部,与韵部相关,以“V”代); (“雨”字头,与韵部相关,以“V”代); (“竹”字头,以“V”代“ZH”)
W:亠(“文”字头);夂(折“文”);攵(反“文”)
X:彐(“雪”字底);忄(竖“心”);(倒“小”字);乂(“X”形)
Y:(“衣”字底);(“月”字变型);尢(“尤”字部)
Z:(“左”字头);辶(“走之”);  阝(“左耳”旁“邹耳”旁) 单笔划代码规定如下:
D:丶(“点”笔划)
H:一(“横”笔划)
I:丨(竖笔划,以“I”表竖笔结构)
P:丿(“撒”笔划)
N:(“捺”笔划)
V:乙 乚 亅乛(均为“折”笔划,以“V”代“ZH”)
“一般非字组件”的分类与计算机键盘的英文字母键位对应如下:
P:第一类,起笔为“撇”笔划的归为该类,
O:第二类,带“口”笔划结构的归为该类,
D:第三类,带“点”笔划结构的归为该类,
I:第四类,仅由横竖笔划结构组成的归为该类,
V:第五类,除上述四类之外的一般非字组件归为该类。
兼有多种结构特征的一般非字组件按一、二、三、四类的顺序优先往前归类。