通用取码汉字输入法转让专利

申请号 : CN201310411410.0

文献号 : CN103440047B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 任振敏

申请人 : 任振敏

摘要 :

通用取码汉字输入法,包括纯形码版、音形混合版和数字全息版即手机数字键盘汉字输入法,将汉字笔画分为5类,同一部分连续书写的同名笔画组也分为5类,这些笔画和笔画组称为编码笔(组),各自确定一个数字代码;根据一个笔画上与其他笔画的公共点的特征与数量,确定其5种状态及其状态数字代码;由连续两编码笔的代码或者是笔画与其状态的代码确定一个二位数字代码;再依次确定每个二位数码对应的拉丁字母。本发明简单易学,不记字根,遵守国家规定的汉字书写规范,使用通用键盘,而且重码率低,输入速度快,通用取码汉字输入法的纯形码版不依赖拼音;音形混合版需用到拼音,尤其适合于小学识字拼音教学;数字全息版适用于手机用户。

权利要求 :

1.用于计算机汉字输入的通用取码汉字输入法,其特征在于,

(1)把所有汉字笔画分为5类编码笔并确定其数字代码:

1)横类:包括横与提,对应数码为 1;

2)竖类:包括竖,对应数码为 2;

3)撇类:包括撇,对应数码为 3;

4)点类:包括点和捺,对应数码4;

5)弯类:包括名称中含有“折”、“弯”、“钩”的笔画以及“横撇”,对应数码5;

(2)把连续书写的在同一部分的同名笔画合编为一组,称为编码笔组,并确定编码笔组的数字代码:

1)多横:在同一部分的连续书写的横,亦对应数码2;

2)多竖:在同一部分连续书写的竖,亦对应数码为3;

3)多撇:在同一部分连续书写的撇,且各撇的起点不分居于一个其它笔画的两侧,亦对应数码4;

4)多点:在同一部分连续书写的点,亦对应数码5;

5)多弯:连续书写的有公共点的弯,亦对应数码1;

确定连续书写的两编码笔或笔组对应的两位数字代码,方法是:以第一编码笔或第一编码笔组所对应的数码为首位,第二编码笔或第二编码笔组所对应的数码为末位;

(3)把一个笔画与其它笔画的公共点分为3类:

1)接点:同时为2个笔画的的端点;

2)通点:为一个笔画的端点同时为另一笔画的非端点;

3)交点:同时为两个笔画的非端点;

根据一个笔画与其它笔画公共点的特征和数量确定笔画的状态以及对应的数码;

1)第一状态:一个笔画与其它笔画之间没有公共点或者只有接点,亦对应数码1;

2)第二状态:一个笔画与其它笔画之间有且只有通点,亦对应数码为2;

3)第三状态:一个笔画与其它笔画之间同时有接点和通点,或者是有1个交点,亦对应数码3;

4)第四状态:一个笔画与其它笔画之间有2个交点,亦对应数码4;

5)第五状态:一个笔画与其它笔画之间有3个以上的交点,亦对应数码5;

确定笔画状态的两位数字代码,方法是:以笔画所对应的数码为首位,以笔画的状态所对应的数码为末位;

使用字母版《通用取码表》确定两位数字代码所对应的拉丁字母,字母版《通用取码表》的格式是:;

使用字母版《通用取码表》确定二位数字代码所对应的拉丁字母的具体规则是:

在字母版《通用取码表》中,以二位数字代码的首位数码为列号的列与以二位数字代码的末位数码为行号的行相交方格内的拉丁字母,就是二位数字代码所对应的拉丁字母;

确定汉字的部分的方法如下:对于汉字的全部偏旁部首及其组合 ,并且满足如下条件(:1)若汉字为上下结构,占满一个横排的整体为一部分;若汉字为左右结构,占满一个竖排的整体为一部分;凡是有共同点的笔画一般在同一部分,但(2)、(3)款指明的除外;

(2)对于包围部件为连续书写完成的半包围型汉字:包围部件的笔画集合为一个部分,被包围部件的笔画集合为一个或两个部分;

(3)对于包围部件为分两次书写完成的半包围型和全包围型汉字:包围部件第一次书写的笔画集合为一个部分,包围部件第二次书写的笔画集合为另一个部分,被包围部件的笔画集合为1个或2个部分;

本发明将汉字分为4种类型,分别是:

1)独体字;

2)两部分字:由两个部分组成的汉字,但第3)条列举的情形例外;

3)三部分字:共有三种情形:①由三个部分组成的汉字,②在两个部分组成的汉字中,其中一个部分不足三个编码笔或笔组,另一部分可以分为两个以上的部分;③上文提及的对于包围部件为分两次书写完成的半包围型和全包围型汉字;

本发明将所有汉字均编码为四个拉丁字母,第一个拉丁字母所处位置称为第一码位,第二个拉丁字母所处位置称为第二码位,第三个拉丁字母所处位置称为第三码位,第四个拉丁字母所处位置称为第四码位,每个拉丁字母均由两位数字代码通过字母版《通用取码表》确定;

提供一种通用取码汉字输入法的纯形码版;

对于独体字,进行汉字编码的方法为:

(1)第一码位上的拉丁字母:由所述独体字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,所述两位数字代码称为第一个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

(2)第二码位上的拉丁字母:由所述独体字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,所述两位数字代码称为第二个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

(3)第三码位上的拉丁字母:由所述独体字的第五编码笔或笔组与第六编码笔或笔组确定两位数字代码,所述两位数字代码称为第三个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

(4)第四码位上的拉丁字母:由所述独体字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,所述两位数字代码称为第四个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

对于独体字,当所述独体字的编码笔或笔组不足以构成四个编码笔对或笔组对,或者编码笔对或笔组对出现雷同时,首先以由独体字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;若此时拉丁字母还不足四位,对于非数字的独体字,以首笔笔画名称的汉语拼音的首字母递补,对于是数字的独体字,以数字本身读音的汉语拼音字母依次递补,直到满足4位为止;

对于分为三部分的汉字,进行汉字编码的方法为:

(1)第一码位上的拉丁字母:由所述汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

(2)第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

若汉字的第一编码笔或笔组与第二编码笔或笔组分别与第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第二码位上的拉丁字母由第二部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;

(3)第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

当第二部分只有两个笔画或笔组时,第三码位上的拉丁字母通过取第三部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;

(4)第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

若第三部分的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第四码位上的拉丁字母由末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

对于分为两部分的汉字,以下称为第一部分和第二部分,进行汉字编码的方法为:

(1)根据汉字的第一部分能确定两个码位上的两个不同的拉丁字母,根据汉字的第二部分能确定另外两个码位上的两个不同的拉丁字母时,即汉字的第一部分和第二部分都有三个笔画或笔组以上时:第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

第三码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

第四码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

(2)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分能分为两个子部分时:第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:由第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

第三码位上的拉丁字母:由第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

若第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;

第四码位上的拉丁字母:由第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

当第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定时,若第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即第二部分的第二子部分只存在两个笔画或笔组,第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

(3)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分也不能分为两个子部分时:第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

第三码位上的拉丁字母:由第二部分的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

若第二部分只存在两个编码笔或笔组时,即第二部分不存在第三编码笔或笔组与第四编码笔或笔组时,则第三码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;第四码位上的拉丁字母以汉字的首笔笔画名称的汉语拼音的首字母依次递补;

若第二部分只存在三个编码笔或笔组时,则第三码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

(4)汉字的第一部分能分成两个子部分(即第一子部分和第二子部分),根据汉字的第二部分仅能确定一个码位上的拉丁字母时:第一码位上的拉丁字母:由第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:由第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组时,第二码位上的拉丁字母由第一部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

第三码位上的拉丁字母:由第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;

第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组,且第一部分的第二子部分也仅存在两个编码笔或笔组时,第三码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

(5)汉字的第一部分仅存在一个编码笔或笔组时:

第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

若汉字的第二部分只有两个编码笔或笔组时,第三码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;第四码位上的拉丁字母以汉字的首笔笔画名称的汉语拼音的首字母依次递补;

若汉字的第二部分只有三个编码笔或笔组时,第三码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

若汉字的第二部分只有四个编码笔或笔组时,第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

若汉字的第二部分有五个编码笔或笔组以上时,第三码位上的拉丁字母:由第二部分的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

(6)汉字的第二部分仅存在一个编码笔或笔组时:

若汉字的第一部分仅存在一个编码笔或笔组以及两个编码笔或笔组时,看成独体字对待;

若汉字的第一部分仅存在三个编码笔或笔组以及四个编码笔或笔组时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

第三码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;

若汉字的第一部分存在五个编码笔或笔组以上时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由汉字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第三码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;

凡是超过3部分的汉字,从第一部分起,依次合并,被合并部分所含编码笔或编码笔组组数达到3以后中止合并,中止操作前,被合并的部分为第一编码部,其余的为第二编码部,然后按照二部分字编码;直接使用通用键盘输入。

2.根据权利要求1所述的用于计算机汉字输入的通用取码汉字输入法,其特征在于,提供一种通用取码汉字输入法的音形混合版:将汉语拼音中的音素符号和声调符号统称为表音符号,声调符号为最后的表音符号;

音形混合版使用到拼音音素符号和声调符号的赋值规则:音素符号B,P,M,F,A,阴平符号均对应数码1;音素符号D,T,N,L,O阳平符号均对应数码2;音素符号G,K.H,J,Q,X,NG,E,上声符号均对应数码3;音素符号ZH,CH,SH,R,I,Y和去声符号均对应数码4; 音素符号Z,C,S,U,V和轻声以及古入声均对应数码5;

使用通用取码汉字输入法的音形混合版对汉字进行编码的方法:

第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;

第二码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;

若汉字的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,使用所述汉字的首个笔画的汉语拼音的第一个字母作为第二码位上的拉丁字母;

若汉字的汉语拼音由3个表音符号组成:则第三码位上的拉丁字母,由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的最后一个音素符号与声调符号即阴平、阳平、上声、去声、轻声以及古入声的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素;所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素;

若汉字的汉语拼音由4个表音符号组成:则第三码位上的拉丁字母,由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素符号和最后一个表音符号即声调符号的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;NG、ZH、CH、SH均看成一个音素;

若汉字的汉语拼音由5个表音符号组成时,则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;NG、ZH、CH、SH均看成一个音素;

若汉字的汉语拼音仅由两个表音符号组成:第三码位上的拉丁字母;由两个表音符号即一个音素符号和一个声调符号对应的有序数码通过查字母版《通用取码表》确定;第四码位上的拉丁字母:汉字首笔笔画读音的第一个拉丁字母;

没有只有一个表音符号的汉字,至少有一个音素,有一个声调。

3.根据权利要求2所述的用于计算机汉字输入的通用取码汉字输入法,其特征在于,提供一种通用取码汉字输入法全息数字版即手机数字键盘汉字输入法,手机数字键盘上存在十个数字:0、1、2、3、4、5、6、7、8、9,通过六个码位上的六个数字确定一个汉字:第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字通过四组相应的两位数字代码确定,此处,确定四组两位数字代码的方法是(:1)对于含有5个以上笔画的汉字,确定四组两位数字代码的方法与使用通用取码汉字输入法的纯形码版来确定四组两位数字代码的方法相同,然后根据所确定的四组两位数字代码通过查数字版《通用取码表》来确定第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字,只是使用汉字的首笔笔画名称的汉语拼音的首字母进行递补时,需将汉字的首笔笔画名称的汉语拼音的首字母改换为汉字的首笔笔画名称所对应的数码(;2)对于4个笔画的汉字,各笔画依次对应的数码即为第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字;(3)对于不足4个笔画的汉字,首先各笔画依次对应的数码即为各码位上的数字,不足确定4个码位的,再依次将各笔画的状态所对应的数码进行递补,仍不足四位时,一律用数码0补足四位;

若汉字的汉语拼音由3个表音符号组成:第五码位上的数字:直接将第一个音素符号的所对应的数码确定为第五码位上的数字;第六码位上的数字:由所述汉字的汉语拼音的最后一个音素与声调即阴平、阳平、上声、去声、轻声以及古入声的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字;所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素;

若汉字的汉语拼音由4个表音符号组成,即含有非零声母、韵头、韵腹和韵尾中的3个以及声调符号:第五码位上的数字:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的数字;所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素;第六码位上的数字:由所述汉字的汉语拼音的第三个音素符号与最后一个表音符号即声调符号确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字; NG、ZH、CH、SH均看成一个音素符号;

若汉字的汉语拼音由5个表音符号组成时,则第五码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的拉丁字母;第六码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的拉丁字母;NG、ZH、CH、SH均看成一个音素;

对于汉语拼音含有5个表音符号的汉字,最后一个表音符号即声调符号不参与编码;

若汉字的汉语拼音仅由2个表音符号音组成:第五码位上的数字:直接将音素所对应的数码确定为第五码位上的数字;第六码位上的数字:直接将声调所对应的数码确定为第六码位上的数字;

数字版《通用取码表》:

说明书 :

通用取码汉字输入法

技术领域

[0001] 本发明涉及一种用于计算机汉字输入的通用取码汉字输入法。

背景技术

[0002] 目前已有的汉字编码法往往需熟记字根,存在着输入快的不易学,易学的输入慢的问题。有的方法还违反汉字书写规范,有的要对通用键盘加以改造。

发明内容

[0003] 本发明要解决的技术问题是,克服现有技术存在的上述缺陷,提供一种简单易学,与中小学汉字书写教学互相促进,直接使用通用键盘,不必记字根,重码率低,输入速度快的通用取码汉字输入法。
[0004] 本发明解决其技术问题所采用的技术方案是:
[0005] 本发明通过确定汉字笔画的种类,确定连续书写的同部分同名笔画组的种类,确定这些笔画和笔画组的数字代码。本发明还根据一个笔画上与其他笔画的公共点的特征和数量,确定一个笔画的状态并确定各种状态的数字代码。本发明规定了确定笔(组)对的二位数字代码的方法,规定了确定笔画状态二位数字代码的方法。设计了《通用取码表》,并通过《通用取码表》建立了二位数码与拉丁字母的对应关系。
[0006] 本发明以标准宋体字为编码对象。
[0007] (1)把所有汉字笔画分为5类编码笔并确定其数字代码:
[0008] 1)横类:包括横与提,对应数码为 1;
[0009] 2)竖类:包括竖,对应数码为 2;
[0010] 3)撇类:包括撇,对应数码为 3;
[0011] 4)点类:包括点和捺,对应数码4;
[0012] 5)弯类:包括名称中含有“折”、“弯”、“钩”的笔画以及“横撇”。对应数码5。
[0013] (2)把连续书写的在同一部分(关于部分的概念参见下文中确定汉字部分的方法)的同名笔画合编为一组,称为编码笔组,并确定编码笔组的数字代码:
[0014] 1)多横:在同一部分的连续书写的横,亦对应数码2;
[0015] 2)多竖:在同一部分连续书写的竖,亦对应数码为3;
[0016] 3)多撇:在同一部分连续书写的撇,且各撇的起点不分居于一个其它笔画的两侧,亦对应数码4;
[0017] 4)多点:在同一部分连续书写的点,亦对应数码5;
[0018] 5)多弯:连续书写的有公共点的弯,亦对应数码1。
[0019] 确定连续书写的两编码笔或笔组对应的两位数字代码,方法是:以第一编码笔或第一编码笔组所对应的数码为首位,第二编码笔或第二编码笔组所对应的数码为末位。
[0020] (3)把一个笔画与其它笔画的公共点分为3类:
[0021] 1)接点:同时为2个笔画的的端点;
[0022] 2)通点:为一个笔画的端点同时为另一笔画的非端点;
[0023] 3)交点:同时为两个笔画的非端点。
[0024] 根据一个笔画与其它笔画公共点的特征和数量确定笔画的状态以及对应的数码。
[0025] 1)第一状态:一个笔画与其它笔画之间没有公共点或者只有接点,亦对应数码1;
[0026] 2)第二状态:一个笔画与其它笔画之间有且只有通点,亦对应数码为2;
[0027] 3)第三状态:一个笔画与其它笔画之间同时有接点和通点,或者是有1个交点,亦对应数码3;
[0028] 4)第四状态:一个笔画与其它笔画之间有2个交点,亦对应数码4;
[0029] 5)第五状态:一个笔画与其它笔画之间有3个以上的交点,亦对应数码5。
[0030] 确定笔画状态的两位数字代码,方法是:以笔画所对应的数码为首位,以笔画的状态所对应的数码为末位。
[0031] 本发明使用字母版《通用取码表》确定两位数字代码所对应的拉丁字母,字母版《通用取码表》的格式是:
[0032] ;
[0033] 使用字母版《通用取码表》确定二位数字代码所对应的拉丁字母的具体规则是:
[0034] 在字母版《通用取码表》中,以二位数字代码的首位数码为列号的列与以二位数字代码的末位数码为行号的行相交方格内的拉丁字母,就是二位数字代码所对应的拉丁字母。
[0035] 本发明确定汉字部分的方法如下:
[0036] (1)对于汉字的全部偏旁部首及其组合 ,并且满足如下条件:1)若汉字为上下结构,占满一个横排的整体为一部分;若汉字为左右结构,占满一个竖排的整体为一部分;凡是有共同点的笔画一般在同一部分,但(2)、(3)款指明的除外;
[0037] 如“辔”字:上面的三个偏旁部首组合成的整体为一个部分,“口”为一个部分。“滩”字:分为四个部分。嘉”字:也分为四个部分。 “爨”字的 “冖”结构与它上部分的笔画有共同点,不可分离,组成一个部分,“冖”以下笔画分成3个部分。
[0038] (2)对于包围部件为连续书写完成的半包围型汉字:包围部件的笔画集合为一个部分,被包围部件的笔画集合为一个或两个部分。
[0039] (3)对于包围部件为分两次书写完成的半包围型和全包围型汉字:包围部件第一次书写的笔画集合为一个部分,包围部件第二次书写的笔画集合为另一个部分,被包围部件的笔画集合为1个或2个部分。
[0040] 本发明将汉字分为4种类型,分别是:
[0041] 1)独体字。
[0042] 2)两部分字:由两个部分组成的汉字,但第3条列举的情形例外。
[0043] 3)三部分字:共有三种情形:①由三个部分组成的汉字,②在两个部分组成的汉字中,其中一个部分不足三个编码笔或笔组,另一部分可以分为两个以上的部分。③上文提及的对于包围部件为分两次书写完成的半包围型和全包围型汉字。
[0044] 本发明将所有汉字均编码为四个拉丁字母,第一个拉丁字母所处位置称为第一码位,第二个拉丁字母所处位置称为第二码位,第三个拉丁字母所处位置称为第三码位,第四个拉丁字母所处位置称为第四码位,每个拉丁字母均由两位数字代码通过字母版《通用取码表》确定。
[0045] 通过上述原理,本发明提供一种通用取码汉字输入法的纯形码版。使用纯形码版对汉字进行编码的方法:
[0046] 对于独体字,进行汉字编码的方法为:
[0047] (1)第一码位上的拉丁字母:由所述独体字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,所述两位数字代码称为第一个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0048] (2)第二码位上的拉丁字母:由所述独体字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,所述两位数字代码称为第二个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0049] (3)第三码位上的拉丁字母:由所述独体字的第五编码笔或笔组与第六编码笔或笔组确定两位数字代码,所述两位数字代码称为第三个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0050] (4)第四码位上的拉丁字母:由所述独体字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,所述两位数字代码称为第四个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0051] 对于独体字,当所述独体字的编码笔或笔组较少,不足以构成四个编码笔对或笔组对,或者部分编码笔对或笔组对出现雷同时,首先以由独体字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;若此时拉丁字母还不足四位,对于非数字的独体字,以首笔笔画名称的汉语拼音的首字母递补,对于是数字的独体字,以数字本身读音的汉语拼音字母依次递补,直到满足4位为止。
[0052] 对于可以分为三部分的汉字,进行汉字编码的方法为:
[0053] (1)第一码位上的拉丁字母:由所述汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0054] (2)第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0055] 若汉字的第一编码笔或笔组与第二编码笔或笔组分别与第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第二码位上的拉丁字母由第二部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;
[0056] (3)第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0057] 当第二部分只有两个笔画或笔组时,第三码位上的拉丁字母通过取第三部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;
[0058] (4)第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0059] 若第三部分的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第四码位上的拉丁字母由末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0060] 对于可以分为两部分(以下称为第一部分和第二部分)的汉字,进行汉字编码的方法为:
[0061] (1)根据汉字的第一部分能确定两个码位上的两个不同的拉丁字母,根据汉字的第二部分能确定另外两个码位上的两个不同的拉丁字母时,即汉字的第一部分和第二部分都有三个笔画或笔组以上时:
[0062] 第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0063] 第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0064] 第三码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0065] 第四码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0066] (2)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分能分为两个子部分时:
[0067] 第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0068] 第二码位上的拉丁字母:由第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0069] 第三码位上的拉丁字母:由第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0070] 若第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;
[0071] 第四码位上的拉丁字母:由第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0072] 当第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定时,若第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即第二部分的第二子部分只存在两个笔画或笔组,第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0073] (3)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分也不能分为两个子部分时:
[0074] 第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0075] 第二码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0076] 第三码位上的拉丁字母:由第二部分的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;
[0077] 若第二部分只存在两个编码笔或笔组时,即第二部分不存在第三编码笔或笔组与第四编码笔或笔组时,则第三码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过《通用取码表》确定相应的拉丁字母,实现递补;第四码位上的拉丁字母以汉字的首笔笔画名称的汉语拼音的首字母依次递补;
[0078] 若第二部分只存在三个编码笔或笔组时,则第三码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第二码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0079] (4)汉字的第一部分能分成两个子部分(即第一子部分和第二子部分),根据汉字的第二部分仅能确定一个码位上的拉丁字母时:
[0080] 第一码位上的拉丁字母:由第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0081] 第二码位上的拉丁字母:由第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0082] 若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组时,第二码位上的拉丁字母由第一部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0083] 第三码位上的拉丁字母:由第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0084] 第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0085] 若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组,且第一部分的第二子部分也仅存在两个编码笔或笔组时,第三码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过查字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0086] (5)汉字的第一部分仅存在一个编码笔或笔组时:
[0087] 第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0088] 第二码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0089] 若汉字的第二部分只有两个编码笔或笔组时,第三码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;第四码位上的拉丁字母以汉字的首笔笔画名称的汉语拼音的首字母依次递补;
[0090] 若汉字的第二部分只有三个编码笔或笔组时,第三码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;
[0091] 若汉字的第二部分只有四个编码笔或笔组时,第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过《通用取码表》确定相应的拉丁字母,实现递补;
[0092] 若汉字的第二部分有五个编码笔或笔组以上时,第三码位上的拉丁字母:由第二部分的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第四码位上的拉丁字母。
[0093] (6)汉字的第二部分仅存在一个编码笔或笔组时:
[0094] 若汉字的第一部分仅存在一个编码笔或笔组以及两个编码笔或笔组时,看成独体字对待;
[0095] 若汉字的第一部分仅存在三个编码笔或笔组以及四个编码笔或笔组时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第三码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;
[0096] 若汉字的第一部分存在五个编码笔或笔组以上时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由汉字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第三码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0097] 本发明对凡是超过3部分(包括3部分)的汉字,从第一部分起,依次合并,被合并部分所含编码笔(组)数达到3以后中止合并,中止操作前,被合并的部分为第一编码部,其余的为第二编码部,然后按照二部分字编码。例如:滩:前两个部分合并有4笔(组),合并为第一编码部,其它合并为第二编码部;摊:第一部分已有了3笔(组),中止合并。
[0098] 本发明还提供一种通用取码汉字输入法的音形混合版。
[0099] 音形混合版把汉语拼音中的音素符号和声调符号统称为表音符号,按音素的自然顺序确定音素符号的顺序,把声调符号作为最后的表音符号。用到表音符号的赋值规则:音素符号B、P、M、F、A、阴平符号均对应数码1;音素符号D、T、N、L、O、阳平符号均对应数码2;音素符号G、K、H、J、Q、X、NG、E、上声符号均对应数码3;音素符号ZH、CH、SH、R、I、Y和去声符号均对应数码4; 音素符号Z、C、S、U、V和轻声符号(空白)以及古入声符号(本身未定形,但有对应数码,用于特码)均对应数码5。
[0100] 如:字母组合YU,ER分别看成两个表音符号的结合。
[0101] 使用通用取码汉字输入法音形混合版对汉字进行编码的方法:
[0102] 第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0103] 第二码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第二码位上的拉丁字母;
[0104] 若汉字的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,使用所述汉字的首个笔画的汉语拼音的第一个字母作为第二码位上的拉丁字母。
[0105] 若汉字的汉语拼音由3个表音符号组成:则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的最后一个音素符号与声调符号(即阴平、阳平、上声、去声、轻声以及古入声)的组合,确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第四码位上的拉丁字母。
[0106] 所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素。
[0107] 所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素。但最后表音符号都是声调符号。
[0108] 若汉字的汉语拼音由4个表音符号组成时,则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个表音符号即声调符号的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0109] 若汉字的汉语拼音由5个表音符号组成时,则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0110] 对于汉语拼音含有5个表音符号的汉字,最后一个表音符号即声调符号不参与编码。
[0111] 若汉字的汉语拼音仅由两个表音符号组成:第三码位上的拉丁字母;由两个表音符号即一个音素符号和一个声调符号所对应的有序数码对通过《通用取码表》确定。第四码位上的拉丁字母:汉字首笔笔画读音的第一个拉丁字母,如所有的弯都由“w”表示。汉语中没有只有一个表音符号的汉字,至少有一个音素,一个声调,这样就有两个表音符号。
[0112] 本发明还提供一种通用取码汉字输入法全息数字版,即手机数字键盘汉字输入法。
[0113] 手机数字键盘上存在十个数字:0、1、2、3、4、5、6、7、8、9,通过六个码位上的六个数字确定一个汉字:
[0114] 第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字通过四组相应的两位数字代码确定,此处,确定四组两位数字代码的方法是(:1)对于含有5个以上笔画的汉字,确定四组两位数字代码的方法与使用通用取码汉字输入法的纯形码版来确定四组两位数字代码的方法相同,然后根据所确定的四组两位数字代码通过查数字版《通用取码表》来确定第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字,只是使用汉字的首笔笔画名称的汉语拼音的首字母进行递补时,需将汉字的首笔笔画名称的汉语拼音的首字母改换为汉字的首笔笔画名称所对应的数码(;2)对于4个笔画的汉字,各笔画依次对应的数码即为第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字;(3)对于不足4个笔画的汉字,首先各笔画依次对应的数码即为各码位上的数字,不足确定4个码位的,再依次将各笔画的状态所对应的数码进行递补,仍不足四位时,一律用数码0补足四位;
[0115] 若汉字的汉语拼音由3个表音符号组成:第五码位上的数字:直接将第一个音素符号的所对应的数码确定为第五码位上的数字;第六码位上的数字:由所述汉字的汉语拼音的最后一个音素与声调即阴平、阳平、上声、去声、轻声以及古入声的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字;所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素。
[0116] 若汉字的汉语拼音由4个表音符号组成,即含有非零声母、韵头、韵腹和韵尾中的3个以及声调符号:第五码位上的数字:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的数字;所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素;第六码位上的数字:由所述汉字的汉语拼音的第三个音素符号与最后一个表音符号即声调符号确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字; NG、ZH、CH、SH均看成一个音素符号。
[0117] 若汉字的汉语拼音由5个表音符号组成时,则第五码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的拉丁字母;第六码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0118] 对于汉语拼音含有5个表音符号的汉字,最后一个表音符号即声调符号不参与编码。
[0119] 若若汉字的汉语拼音仅由2个表音符号音组成:第五码位上的数字:直接将音素所对应的数码确定为第五码位上的数字;第六码位上的数字:直接将声调所对应的数码确定为第六码位上的数字。
[0120] 数字版《通用取码表》:
[0121] 。
[0122] 本发明将汉字笔画分为5类,将同一部分连续书写的同名笔画组也分为5类,这些笔画和笔画组称为编码笔(组),对它们各自确定一个数字代码;根据一个笔画上与其他笔画的公共点的特征与数量,确定其5种状态及其状态数字代码;由连续两编码笔的代码或者是笔画与其状态的代码确定一个二位数字代码;根据《通用取码表》确定每个二位数码对应的拉丁字母;确定各类型的汉字的取码编码笔(组)对及其对应字母,依笔顺确定汉字编码的各个码位。本发明简单易学,不记字根,遵守国家规定的汉字书写规范,使用通用键盘,而且重码率低,输入速度快,通用取码汉字输入法的纯形码版不依赖拼音;音形混合版需用到拼音,尤其适合于小学识字拼音教学;数字全息版适用于手机用户。

具体实施方式

[0123] 以下结合实施例对本发明作进一步说明。
[0124] 实施例1:
[0125] 本发明以标准宋体字为编码对象。
[0126] (1)把所有汉字笔画分为5类并确定其数字代码:
[0127] 1)横类:包括横与提,对应数码为 1;
[0128] 2)竖类:包括竖,对应数码为 2;
[0129] 3)撇类:包括撇对应数码为 3;
[0130] 4)点类:包括点和捺,对应数码4;
[0131] 5)弯类:包括名称中含有“折”、“弯”、“钩”的笔画以及“横撇”。对应数码5。
[0132] (2)把连续书写的在同一部分(关于部分的概念参见下文中确定汉字部分的方法)的同名笔画合编为一组,称为编码笔组,并确定编码笔组的数字代码:
[0133] 1)多横:在同一部分的连续书写的横,亦对应数码2;
[0134] 2)多竖:在同一部分连续书写的竖,亦对应数码为3;
[0135] 3)多撇:在同一部分连续书写的撇,且各撇的起点不分居于一个其它笔画的两侧,亦对应数码4;
[0136] 4)多点:在同一部分连续书写的点,亦对应数码5;
[0137] 5)多弯:连续书写的有公共点的弯,亦对应数码1。
[0138] 确定连续书写的两编码笔或笔组对应的两位数字代码,方法是:以第一编码笔或第一编码笔组所对应的数码为首位,第二编码笔或第二编码笔组所对应的数码为末位。
[0139] (3)把一个笔画与其它笔画的公共点分为3类:
[0140] 1)接点:同时为2个笔画的的端点;
[0141] 2)通点:为一个笔画的端点同时为另一笔画的非端点;
[0142] 3)交点:同时为两个笔画的非端点。
[0143] 根据一个笔画与其它笔画公共点的特征和数量确定笔画的状态以及对应的数码。
[0144] 1)第一状态:一个笔画与其它笔画之间没有公共点或者只有接点,亦对应数码1;
[0145] 2)第二状态:一个笔画与其它笔画之间有且只有通点,亦对应数码为2;
[0146] 3)第三状态:一个笔画与其它笔画之间同时有接点和通点,或者是有1个交点,亦对应数码3;
[0147] 4)第四状态:一个笔画与其它笔画之间有2个交点,亦对应数码4;
[0148] 5)第五状态:一个笔画与其它笔画之间有3个以上的交点,亦对应数码5。
[0149] 确定笔画状态的两位数字代码,方法是:以笔画所对应的数码为首位,以笔画的状态所对应的数码为末位。
[0150] 本发明使用字母版《通用取码表》确定两位数字代码所对应的拉丁字母,字母版《通用取码表》的格式是:
[0151] ;
[0152] 使用字母版《通用取码表》确定二位数字代码所对应的拉丁字母的具体规则是:
[0153] 在字母版《通用取码表》中,以二位数字代码的首位数码为列号的列与以二位数字代码的末位数码为行号的行相交方格内的拉丁字母,就是二位数字代码所对应的拉丁字母。
[0154] 本发明确定汉字部分的方法如下:
[0155] (1)对于汉字的全部偏旁部首及其组合 ,并且满足如下条件:1)若汉字为上下结构,占满一个横排的整体为一部分;若汉字为左右结构,占满一个竖排的整体为一部分;凡是有共同点的笔画一般在同一部分,但(2)、(3)款指明的除外;
[0156] 如“辔”字:上面的三个偏旁部首组合成的整体为一个部分,“口”为一个部分。“滩”字:分为四个部分。嘉”字:也分为四个部分。 “爨”字的 “冖”结构与它上部分的笔画有共同点,不可分离,组成一个部分,“冖”以下笔画分成3个部分。
[0157] (2)对于包围部件为连续书写完成的半包围型汉字:包围部件的笔画集合为一个部分,被包围部件的笔画集合为一个或两个部分。
[0158] (3)对于包围部件为分两次书写完成的半包围型和全包围型汉字:包围部件第一次书写的笔画集合为一个部分,包围部件第二次书写的笔画集合为另一个部分,被包围部件的笔画集合为1个或2个部分。
[0159] 本发明将汉字分为3种类型,分别是:
[0160] 1)独体字。
[0161] 2)两部分字:由两个部分组成的汉字,但第3条列举的情形例外。
[0162] 3)三部分字:共有三种情形:①由三个部分组成的汉字,②在两个部分组成的汉字中,其中一个部分不足三个编码笔(组),另一部分可以分为两个以上的部分。③上文提及的对于包围部件为分两次书写完成的半包围型和全包围型汉字。
[0163] 本发明将所有汉字均编码为四个拉丁字母,第一个拉丁字母所处位置称为第一码位,第二个拉丁字母所处位置称为第二码位,第三个拉丁字母所处位置称为第三码位,第四个拉丁字母所处位置称为第四码位,每个拉丁字母均由两位数字代码通过字母版《通用取码表》确定。
[0164] 通过上述原理,本发明提供一种通用取码汉字输入法的纯形码版,使用该版本对汉字进行编码的方法:
[0165] 对于独体字,进行汉字编码的方法为:
[0166] (1)第一码位上的拉丁字母:由所述独体字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,所述两位数字代码称为第一个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0167] (2)第二码位上的拉丁字母:由所述独体字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,所述两位数字代码称为第二个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0168] (3)第三码位上的拉丁字母:由所述独体字的第五编码笔或笔组与第六编码笔或笔组确定两位数字代码,所述两位数字代码称为第三个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0169] (4)第四码位上的拉丁字母:由所述独体字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,所述两位数字代码称为第四个编码笔对或笔组对,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0170] 对于独体字,当所述独体字的编码笔或笔组较少,不足以构成四个编码笔对或笔组对,或者部分编码笔对或笔组对出现雷同时,首先以由独体字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;若此时拉丁字母还不足四位,对于非数字的独体字,以首笔笔画名称的汉语拼音的首字母递补,对于是数字的独体字,以数字本身读音的汉语拼音字母依次递补,直到满足4位为止。
[0171] 对于可以分为三部分的汉字,进行汉字编码的方法为:
[0172] (1)第一码位上的拉丁字母:由所述汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0173] (2)第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0174] 若汉字的第一编码笔或笔组与第二编码笔或笔组分别与第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第二码位上的拉丁字母由第二部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;
[0175] (3)第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组所确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0176] 当第二部分只有两个笔画或笔组时,第三码位上的拉丁字母通过取第三部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定;
[0177] (4)第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0178] 若第三部分的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第四码位上的拉丁字母由末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0179] 对于可以分为两部分(以下称为第一部分和第二部分)的汉字,进行汉字编码的方法为:
[0180] (1)根据汉字的第一部分能确定两个码位上的两个不同的拉丁字母,而且根据汉字的第二部分能确定另外两个码位上的两个不同的拉丁字母时,即汉字的第一部分和第二部分都有三个笔画或笔组以上时:
[0181] 第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0182] 第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0183] 第三码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;
[0184] 第四码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0185] (2)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分能分为两个子部分时:
[0186] 第一码位上的拉丁字母:由第一部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0187] 第二码位上的拉丁字母:由第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0188] 第三码位上的拉丁字母:由第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0189] 若第二部分的第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过《通用取码表》确定;
[0190] 第四码位上的拉丁字母:由第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0191] 当第三码位上的拉丁字母由第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组通过字母版《通用取码表》确定时,若第二部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组分别与第二部分的第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即第二部分的第二子部分只存在两个笔画或笔组,第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0192] (3)根据汉字的第一部分仅能确定一个码位上的拉丁字母,汉字的第二部分也不能分为两个子部分时:这种情况可以按照独体字的编码方法编码。(注意,此处删去了较多文字)
[0193] (4)汉字的第一部分能分成两个子部分(即第一子部分和第二子部分),根据汉字的第二部分仅能确定一个码位上的拉丁字母时:
[0194] 第一码位上的拉丁字母:由第一子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0195] 第二码位上的拉丁字母:由第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0196] 若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组时,第二码位上的拉丁字母由第一部分的第二子部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0197] 第三码位上的拉丁字母:由第二子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;
[0198] 第四码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第四码位上的拉丁字母;
[0199] 若第一子部分的第一编码笔或笔组与第二编码笔或笔组分别与第一子部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同,即汉字的第一部分的第一子部分仅存在两个编码笔或笔组,且第一部分的第二子部分也仅存在两个编码笔或笔组时,第三码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补。
[0200] (5)汉字的第一部分仅存在一个编码笔或笔组时:
[0201] 第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;
[0202] 第二码位上的拉丁字母:由第二部分的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;
[0203] 若汉字的第二部分只有两个编码笔或笔组时,第三码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;第四码位上的拉丁字母以汉字的首笔笔画名称的汉语拼音的首字母依次递补;
[0204] 若汉字的第二部分只有三个编码笔或笔组时,第三码位上的拉丁字母:由汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;
[0205] 若汉字的第二部分只有四个编码笔或笔组时,第三码位上的拉丁字母:由第二部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;
[0206] 若汉字的第二部分有五个编码笔或笔组以上时,第三码位上的拉丁字母:由第二部分的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0207] (6)汉字的第二部分仅存在一个编码笔或笔组时:
[0208] 若汉字的第一部分仅存在一个编码笔或笔组以及两个编码笔或笔组时,看成独体字对待;
[0209] 若汉字的第一部分仅存在三个编码笔或笔组以及四个编码笔或笔组时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第三码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母以汉字的末笔笔画和末笔笔画的状态所获得的两位数字代码,通过字母版《通用取码表》确定相应的拉丁字母,实现递补;
[0210] 若汉字的第一部分存在五个编码笔或笔组以上时:第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第一码位上的拉丁字母;第二码位上的拉丁字母:由汉字的第三编码笔或笔组与第四编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第二码位上的拉丁字母;第三码位上的拉丁字母:由第一部分的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。
[0211] 例字:
[0212] 独体字:
[0213] 东:第一组合为“横,多弯”,二位数字代码为11,对应字母A,第二组合为“撇、点”,对应字母为R,末笔状态为41,对应字母为D,第一笔汉语拼音第一字母为H,所以"东“的编码为ARDH
[0214] 一:只有一笔,无法组成笔画组合,首笔也就是末笔,其状态为11,代码为A, “一”是数字,读音为YI,所以,编码为AYI,第四码位为空格。
[0215] 二:只有一个笔组 “多横”,无法形成笔(组)对,末笔状态为11,对应字母A,本身读音为ER, 所以编码为AER,最后一位为空格。
[0216] 三:只有一个笔组,末位状态为1, 对应字母A,本身读音 为SAN.所以编码为ASAN。
[0217] 乜:只有一个笔组“多弯”, 末笔为“弯”,代码为5,状态为有一个交点,代码为3,二位数字代码为53,对应字母O,首笔读音为WAN,第一字母均为W,故编码为OWAN。
[0218] 甲:第一组合为“竖,弯”,二位代码为25,对应字母为V,第二组合为“多横,竖”,二位代码为22.对应字母为G,末笔代号为2,状态代号为4,对应字母为Q,首笔拼音第一字母为S ,故代码为VGQS。
[0219] 申:末笔状态为25 ,其它与甲字同,其代码为VGVS。
[0220] 由:由于笔顺的变化,两横不连续书写,不能合组。编码是VFBS。
[0221] 已:末笔为“弯”,状态为2,编码为EUJW。
[0222] 己:末笔为“弯”,状态为1,编码为EUEW。
[0223] 两部分字:
[0224] 汉:左边为“多点-提”,对应二位数码51,查得字母E,右边为“弯-捺”,对应数码54 ,查得字母T。末笔状态未“捺-3”,对应数码43,查得字母N。首笔为“点”,笔画读音第一字母为D.所以该字的纯形码为ETND 。
[0225] 族:左边第一组合为“点-横”,最后组合为“弯-撇”,右边第一组合为“撇-横”,全字的最后组合为“撇-点”,分别对应D,O,C,R.所以该字的纯形码为DOCR。
[0226] 返:第一部分(被半包围)第一组合为“多撇-弯”,最后组合为“弯-点”,第二部分第一组合为“点-弯”,全字最后组合为“弯-捺”,分别对应字母X,T,X,T,所以,纯形码为XTXT。
[0227] 建:第二部分只有两笔(笔组),故第一部分应尽可能取出3个不同的笔画组合。第一部分也只有3笔组,只能编出2个码位。其第一组合是“弯-多横”,对应字母J,最后笔画组合是“多横-竖”,对应字母为G.第二部分只有一个组合“弯-捺”,对应字母T.必须利用末笔状态“捺-3”,其对应字母N。故该字纯形码为JGTN。
[0228] 鸣:该字第一部分第一组合,第一部分最后组合,第二部分第一组合,第二部分最后组合依次分别是“竖-弯”,“弯-横”,“撇-弯”和“弯-横”,依次对应字母V,E,W和 E.所以该字的纯形码为VEWE。
[0229] 减:该字的第一部分只有“点-提”一个组合。第二部分不是可以分为两个子部分的。故此字可按独体字方法编码。其第一到第三组合分别是“点-提”,“横-撇”,“横-竖”和“撇-点”。所以其纯形码为DKFR。
[0230] 仁:全字第一组合为“撇-竖”,最后组合为“竖-多横”,末笔状态未“横-1”,首笔读音第一字母为P,SUOYI 所以,纯形码为HGAP。
[0231] 菇:第一部分为“横-多竖”,第二部分可分为两个子部分。第一子部分的第一组合和最后组合分别是“弯-撇”和“撇-横”,全字最后组合为“弯-横”,故纯形码为KOCE。
[0232] 嘉:此字有四个自然部分,“士”已含有3笔组,可谓第一编码部分,剩下的为第二编码部分,次子的纯形码为FBVE。
[0233] 辜:此字也有四个自然部分,但“十”不足3笔(组),与“口”合并为第一编码部分。其余为第二编码部分。此字的纯形码为FEDF。
[0234] 旧:第一自然部分只有一笔,不同部分的竖不能合组为“多竖”。全字第一组合为“竖-竖”,第二部分第一组合为“竖-弯”,全字最后组合为“弯-多横”,再无其他组合,末笔状态未“横-1”故纯形码为GVJA。
[0235] 彭:右边只有“多撇”一个笔组。左边上部“士”含有3笔(组),左边最后组合为“撇-横”全字最后组合为“横-多撇”。此字纯形码为FBCP。
[0236] 三部分字
[0237] 啊:第一部分有3编码笔,应确定2个码位,其它部分各确定一个码位,第二部分取第一笔(组)对,第三部分取最后编码笔(组)对。其编码是VEJE。
[0238] 傲:第一部分只有2笔(组),只能确定一个码位。第二部分和第三部分均能确定2个码位,但第二部分排序在前,所以分别由它的第一和最后编码笔(组)对确定第二和第三码位。全字的最后编码笔(组)确定第四码位。其编码是HGOR。
[0239] 成:第一部分有2笔(组),第二部分只有1笔(组),无法组成笔(组)对,与第三部分的第一笔(组)组合为笔(组)对。这一笔(组)还要和第三部分第二笔(组)组合为第三部分第一笔(组),最后2笔(组)确定第四码位,其编码为KYOR.。
[0240] 本发明对凡是超过3部分(包括3部分)的汉字,从第一部分起,依次合并,被合并部分所含编码笔(组)数达到3以后中止合并,中止操作前,被合并的部分为第一编码部,其余的为第二编码部,然后按照二部分字取码。例如:滩:前两个部分合并有4编码笔(组),合并为第一编码部,其它合并为第二编码部,其编码是:ETHB;摊:第一部分有了3编码笔(组),中止合并,其编码为:UETB。
[0241] 实施例2:
[0242] 本实施例提供通用取码汉字输入法的音形混合版。
[0243] 音形混合版把汉语拼音中的音素符号和声调符号统称为表音符号,按音素的自然顺序确定音素符号的顺序,把声调符号作为最后的表音符号。用到表音符号的赋值规则:音素符号B、P、M、F、A、阴平符号均对应数码1;音素符号D、T、N、L、O、阳平符号均对应数码2;音素符号G、K、H、J、Q、X、NG、E、上声符号均对应数码3;音素符号ZH、CH、SH、R、I、Y和去声符号均对应数码4; 音素符号Z、C、S、U、V和轻声符号(空白)以及古入声符号(本身未定形,但有对应数码,用于特码)均对应数码5。。
[0244] 使用通用取码汉字输入法的音形混合版对汉字进行编码的方法:
[0245] 第一码位上的拉丁字母:由汉字的第一编码笔或笔组与第二编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第一码位上的拉丁字母;
[0246] 第二码位上的拉丁字母:以汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第二码位上的拉丁字母;
[0247] 若汉字的第一编码笔或笔组与第二编码笔或笔组分别与汉字的倒数第二编码笔或笔组与倒数第一编码笔或笔组雷同时,使用所述汉字的首个笔画的汉语拼音的第一个字母作为第二码位上的拉丁字母。
[0248] 若汉字的汉语拼音由3个表音符号组成,即两个音素符号和声调符号:则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的最后一个音素与声调(即阴平、阳平、上声、去声、轻声以及古入声)的组合,确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第四码位上的拉丁字母。
[0249] 所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素。
[0250] 所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素。YU,ER分别看做是两个表音符号的结合。
[0251] 若汉字的汉语拼音由4个表音符号组成(即含有非零声母、韵头、韵腹和韵尾中的3个和声调符号):则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素的组合,确定两位数字代码,由所确定的两位数字代码通过查《通用取码表》而获得第四码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0252] 若汉字的汉语拼音由5个表音符号组成时,则第三码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第三码位上的拉丁字母;第四码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查字母版《通用取码表》而获得第四码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0253] 对于汉语拼音含有5个表音符号的汉字,最后一个表音符号即声调符号不参与编码。
[0254] 若汉字的汉语拼音仅由两个表音符号组成:第三码位上的拉丁字母;由两个表音符号即一个音素符号和一个声调符号所对应的有序数码对通过《通用取码表》确定。第四码位上的拉丁字母:汉字首笔笔画读音的第一个拉丁字母,如所有的弯都由“w”表示。汉语中没有只有一个表音符号的汉字,至少有一个音素,一个声调,这样就有两个表音符号。
[0255] 两表音符号字
[0256] 腌:第一笔画组合是“撇-弯”对应字母W,最后笔画组合是“多横-弯”对应字母为V,音素符号为a,声调为阴平,对应字母为A。首笔读音“撇”的第一字母为P,所以该字的音形混合版编码为WVAP。
[0257] 偔:第一笔画组合是“撇-竖”,对应字母H,最后笔画组合是“多横-弯”,对应字母为V,音素为e,声调符号为去声符号,表音符号组合对应字母R,首笔读音第一字母为P,该字的混合版编码为HVRP。
[0258] 嚄:音素为o,声调为上声,表音符号组合对应字母为L,首笔读音第一字母为S,该字的混合码为VTLS。
[0259] 三表音符号字
[0260] 哎:音素依次为a,i,声调为阴平,第一表音符号组合对应字母为P,最后表音符号组合对应字母为D.该字的混合码为VRPD。
[0261] 爸:音素依次为b,a,声调为去声,第一表音符号组合对应字母为A,最后表音符号组合对应字母为P,混合码为RUAP。
[0262] 区:音素依次 为q,u,声调为阴平。第一表音符号组合对应字母为W,最后表音符号组合对应字母为E,混合码为KXWE。
[0263] 恩:音素依次为e,n,声调为阴平,混合码为VYHB。
[0264] 四表音符号字
[0265] 孩:音素依次为h,a,i,声调为阳平。第一表音符号组合对应字母为C,最后表音符号组合为D。混合码为ARCD。
[0266] 揿:音素依次为q,i,n,声调为去声。第三码位字母为R.第四码位字母Q,混合码为PRRQ。
[0267] 耸:音素依次为s,o,ng,声调为上声。第三码位字母为J,第四码位字母为M,混合码是
[0268] RHJM。
[0269] 庹:音素依次为t,u,o,声调为上声。第三码位字母为V,第四码位字母为L,混合码为
[0270] DRVL。
[0271] 五表音符号字
[0272] 黄:音素依次是h,u,a,ng,声调不参与编码。第一表音符号组合对应字母W,最后编码表音符号组合对应字母是K,混合码为KRWK。
[0273] 劝:音素依次是q,u,a,n,声调不参与编码。第三码位字母是W,第四码位字母是F,混合码为TOWF。
[0274] 跳:音素依次是t,i,a,o,声调不参与编码。混合码为VRQF。
[0275] 爨:音素依次是c,u,a,n,声调不参与编码。混合码为HRYF。
[0276] 撞:音素依次为zh,u,a,ng,声调不参与编码。混合码为UGXK。
[0277] 实施例3:
[0278] 本发明还提供一种手机数字键盘汉字输入法即《通用取码汉字输入法》全息数字版。
[0279] 手机数字键盘上存在十个数字:0、1、2、3、4、5、6、7、8、9,通过六个码位上的六个数字确定一个汉字:
[0280] 第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字通过四组相应的两位数字代码确定,此处,确定四组两位数字代码的方法是(:1)对于含有5个以上笔画的汉字,确定四组两位数字代码的方法与使用通用取码汉字输入法的纯形码版来确定四组两位数字代码的方法相同,然后根据所确定的四组两位数字代码通过查数字版《通用取码表》来确定第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字,只是使用汉字的首笔笔画名称的汉语拼音的首字母进行递补时,需将汉字的首笔笔画名称的汉语拼音的首字母改换为汉字的首笔笔画名称所对应的数码(;2)对于4个笔画的汉字,各笔画依次对应的数码即为第一码位上的数字、第二码位上的数字、第三码位上的数字、第四码位上的数字;(3)对于不足4个笔画的汉字,首先各笔画依次对应的数码即为各码位上的数字,不足确定4个码位的,再依次将各笔画的状态所对应的数码进行递补,仍不足四位时,一律用数码0补足四位。
[0281] 若汉字的汉语拼音由3个表音符号即由两个音素符号和声调符号组成:第第五码位上的数字:直接将第一个音素符号的所对应的数码确定为第五码位上的数字;第六码位上的数字:由所述汉字的汉语拼音的最后一个音素与声调即阴平、阳平、上声、去声、轻声以及古入声的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字;所述汉字的汉语拼音的最后一个音素一般是指汉语拼音的最后一个英文字母,但NG、ZH、CH、SH均看成一个音素。
[0282] 若汉字的汉语拼音由4个表音符号组成,即含有非零声母、韵头、韵腹和韵尾中的3个以及声调符号:第五码位上的数字:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的数字;所述汉字的汉语拼音的第一组合包括汉语拼音的第一个音素和第二个音素,一般是指汉语拼音的第一个英文字母和第二个英文字母,但NG、ZH、CH、SH均看成一个音素;第六码位上的数字:由所述汉字的汉语拼音的第三个音素符号与最后一个表音符号即声调符号确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的数字; NG、ZH、CH、SH均看成一个音素符号。
[0283] 若汉字的汉语拼音由5个表音符号组成时,则第五码位上的拉丁字母:由所述汉字的汉语拼音的第一组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第五码位上的拉丁字母;第六码位上的拉丁字母:由所述汉字的汉语拼音的第三个音素和最后一个音素符号的组合,确定两位数字代码,由所确定的两位数字代码通过查数字版《通用取码表》而获得第六码位上的拉丁字母。NG、ZH、CH、SH均看成一个音素。
[0284] 对于汉语拼音含有5个表音符号的汉字,最后一个表音符号即声调符号不参与编码。
[0285] 若若汉字的汉语拼音仅由2个表音符号音组成:第五码位上的数字:直接将音素所对应的数码确定为第五码位上的数字;第六码位上的数字:直接将声调所对应的数码确定为第六码位上的数字。
[0286] 数字版《通用取码表》: