一种方块苗文的音形结合快速输入编码及其优化方法转让专利

申请号 : CN201510522554.2

文献号 : CN105183183B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 莫礼平

申请人 : 吉首大学

摘要 :

本发明涉及一种方块苗文的音形结合快速输入编码方法,将方块苗文输入编码统一设计为“首构件音码+末构件音码+文字笔顺形码+文字结构类型形码”的4码形式,其中,音码设计的方法为,按照从上至下、从左到右、从外到内的顺序对方块苗文进行构件拆分后,选取首构件和末构件的汉语拼音首字母作为音码码元;形码设计的方法为,选取横、竖、撇、捺、点、折6种基本笔画名称的汉语拼音首字母作为笔顺形码码元;选取左右、上下、侧围、内外4种结构类型名称的汉语拼音首字母作为结构类型形码码元。以通用键盘为标准,将码元与键盘键位之间建立映射关系。基于本发明方法的方块苗文输入法软件易学易用,重码少,能够满足用户快速输入方块苗文的要求。

权利要求 :

1.一种方块苗文的音形结合快速输入编码方法,其特征在于:方块苗文输入编码统一设计为“首构件音码+末构件音码+文字笔顺形码+文字结构类型形码”的4码形式,其中,音码设计的方法为,按照从上至下、从左到右、从外到内的顺序对方块苗文进行构件拆分后,选取首构件和末构件的汉语拼音首字母作为音码码元;取出的第一个构件为首构件,最后一个构件为末构件;成字构件选取其拼音首字母作为音码码元,若无声母,则取韵母首字母;纯粹符号对应的不成字构件,统一选用一个非拼音首字母的字母作为音码码元;形码设计的方法为,采用最简易直观的方法:选取横、竖、撇、捺、点、折6种基本笔画名称的汉语拼音首字母作为笔顺形码码元;选取左右、上下、侧围、内外4种结构类型名称的汉语拼音首字母作为结构类型形码码元;所述方法中,以通用键盘为标准,将码元与键盘键位之间建立如下映射关系:(1)成字构件音码码元直接映射至其拼音首字母对应的字符键位,不成字构件音码码元统一映射至非拼音首字母i对应的I键位;(2)笔顺笔画及结构类型形码码元直接映射至对应其名称汉语拼音首字母的字符键位,即:横(h)—H、竖(s)—S、撇(p)—P、捺(n)—N、点(d)—D、折(z)—Z,左右结构(z)—Z、上下结构(s)—S、侧围结构(c)—C、内外结构(n)—N;所述方法以键位码元负荷分析和相关击键时间当量分析为基础进行了优化:基于上述方块苗文的音形结合快速输入编码的优化方法为:采用“避重就轻”的原则均衡码元负荷,尽可能将负荷大的键位上的码元分散到负荷较小的键位上去;同时,根据键位有效使用原则,调整形码映射方式,以提高连续击键速度;上述方法中,Z、S、C这三个映射键位因码元负荷大而被过度使用,而码元负荷小、比Z、S、C键位更适合高频使用的U、V、I三个键位却没得到充分利用;根据优化的基本思想,将形码码元的z用u替代,s用v替代,c用i替代;这样,左右结构形码和折笔形码被映射至键位U,上下结构形码和竖笔形码被映射至键位V,侧围结构形码被映射至I键位。

说明书 :

一种方块苗文的音形结合快速输入编码及其优化方法

技术领域

[0001] 本发明涉及一种方块苗文的音形结合快速输入编码及其优化方法,属于我国少数民族文字键盘输入编码技术领域。

背景技术

[0002] 以汉字为代表的方块文字键盘输入主要采用基于本身字音属性或字形属性的音码或形码输入编码方法。汉字输入编码方法研究起步于上世纪80年代,先后经历了单字、词语及整句输入编码方法研究几个阶段,目前已进入面向Windows、Linux、Android等操作系统,以重码字和词的智能识别、候选字的智能选定上屏、缩短平均码长且促进编码简单化和规范化为目标的字、词、句输入的智能处理时代,各类智能输入法软件纷纷出现。与汉字相比,我国少数民族方块文字的输入编码方法研究起步较晚。2006年至今期间,与此相关研究报道主要有:董芳等提出的基本笔画与部件相结合的水书文字形码输入编码方法;杨撼岳等研制的基于7种基本笔画细分所得的21类笔形的水书文字三角形码输入编码方法的输入法软件;郭海等研究的基于音标转写的纳西象形文字音码输入编码方法;柳长青等提出的由文字本身4个角的笔形数码决定的西夏文四角号码形码输入编码方法;宁威林等设计的基于有无曲线、有无封闭、有无点等字形特点分类的彝文输入形码编码方法;吴勰等提出的结构类型和书写笔顺相结合的彝文形码输入编码方法;黄勇等设计和开发的基于规范拼音音码及本身字形五笔形码的古壮文输入法编辑器。上述少数民族方块文字的输入编码方法主要基于纯形码,编码设计方法不够简便,输入法的易学易用性及快捷高效性有待提高。
[0003] 方块苗文是一种仿汉字结构的方块文字,其信息处理技术研究刚刚起步。方块苗文主要包括三套:老寨苗文、古丈苗文和板塘苗文。它们造字原理完全相同,都创造性地运用了形声、会意、假借、象形等手段,直接取一些含义明确、结构或笔画较简单且日常使用频率较高的汉字或偏旁,以及极个别无音无义的纯粹符号(如“~”、“X”)作为义符、声符或形符构件,采用一字一音节的方法来标记一个语素或词。方块苗文基本上都是合体字,其结构类型大致分为左右结构、上下结构、侧围结构和内外结构4种。图1给出4种不同结构的方块苗文字例及其汉义示意图。
[0004] 理论上,仿汉字结构的方块苗文可采用类似于汉字的音码或形码输入方法实现输入。然而,会拼读方块苗文的人极少,使得基于本身字音属性的方块苗文音码输入编码方法不可行。通常,方块苗文均可视为二或三构件型合体字,其构件笔形拆分繁琐,如果采用纯形码输入编码方法,不利于用户记忆。
[0005] 考虑到方块苗文的构件除个别是纯粹符号外,其余都是简单汉字(或偏旁)这一事实,可以尝试利用构件的字音属性取代文字本身字音属性的思路来设计其输入编码方法。前期,为了解决方块苗文的输入问题,莫礼平等根据此思路先后研究并实现了基于构件汉语全拼的音码输入和基于构件拼音同文字结构类型相结合的音形码输入编码方法。前一方法中,一个方块苗文的输入编码序列由其所包含的2至3个构件的全部汉语拼音字母构成,码元与键盘26个字符键位一一对应。后一方法中,将方块苗文输入编码统一为“3个音码+1个形码”的4码形式。其中,二构件型方块苗文的音码由第一个构件拼音首字母和第二个构件拼音的首字母和次字母决定,三构件型方块苗文的音码由3个构件拼音的首字母决定;形码由其结构类型决定;音码码元与键盘相应字符键位一一对应,左右结构、上下结构形码分别映射至键盘数字键位“4”和“5”;考虑到方块苗文中,内外结构的极少,侧围结构的也不多,这两种结构形码均映射至数字键位“6”。
[0006] 上述两种方法的实现,证明了利用构件的字音属性代替文字本身字音属性来设计方块苗文输入编码方法这一思路的正确性和可行性。然而,前述第一种方法存在码长过大,重码情况严重等缺陷,基本上没考虑效率;第二种方法虽然有效地降低了码长和重码率,但没有考虑用户思维习惯和击键习惯,效率依然不甚理想。

发明内容

[0007] 本发明的目的在于提供一种方块苗文的音形结合快速输入编码及其优化方法,以便能提供一种符合用户思维习惯和击键习惯的、码长短、重码率低、能够有效保障用户输入速度和正确率的方块苗文音形结合快速输入编码方法,有效解决从方块苗文字库中快速调出所需字形的问题。
[0008] 为了实现上述目的,本发明的技术方案如下。
[0009] 一种方块苗文的音形结合快速输入编码方法,其基本思想是:由方块苗文的构件汉语拼音的声母(或韵母)决定音码,由本身的笔顺笔画和结构类型决定形码。由于构件汉语拼音的声母(或韵母)数目远多于基本笔画种数,基本笔画种数又多于结构类型种数,为了增加区分度,将方块苗文输入编码统一设计为“首构件音码+末构件音码+文字笔顺形码+文字结构类型形码”的4码形式。通常,文字的首笔和末笔是最易提取的笔画,考虑到方块苗文中,首构件相同者远多于末构件相同者,末笔笔画比首笔笔画的区分性更好,故由文字末笔笔画决定笔顺形码,该方法中方块苗文输入编码的具体形式为“首构件音码+末构件音码+文字末笔笔画形码+文字结构类型形码”。
[0010] 上述方法中,音码设计的方法为,按照从上至下、从左到右、从外到内的顺序对方块苗文进行构件拆分后,选取首构件和末构件的汉语拼音首字母作为音码码元;取出的第一个构件为首构件,最后一个构件为末构件;成字构件选取其拼音首字母作为音码码元,若无声母,则取韵母首字母;纯粹符号对应的不成字构件,统一选用一个非拼音首字母的字母作为音码码元。
[0011] 上述方法中,形码设计的方法为,采用最简易直观的方法:选取横、竖、撇、捺、点、折6种基本笔画名称的汉语拼音首字母作为笔顺形码码元;选取左右、上下、侧围、内外4种结构类型名称的汉语拼音首字母作为结构类型形码码元。
[0012] 上述方法中,以通用键盘为标准,将码元与键盘键位之间建立如下映射关系:(1)成字构件音码码元直接映射至其拼音首字母对应的字符键位,不成字构件音码码元统一映射至非拼音首字母i对应的I键位;
[0013] (2)笔顺笔画及结构类型形码码元直接映射至对应其名称汉语拼音首字母的字符键位,即:横(h)—H、竖(s)—S、撇(p)—P、捺(n)—N、点(d)—D、折(z)—Z,左右结构(z)—Z、上下结构(s)—S、侧围结构(c)—C、内外结构(n)—N。
[0014] 基于上述方块苗文的音形结合快速输入编码的优化方法,所述方法以键位码元负荷分析和相关击键时间当量分析为基础进行了优化:采用“避重就轻”的原则均衡码元负荷,尽可能将负荷大的键位上的码元分散到负荷较小的键位上去;同时,根据键位有效使用原则,调整形码映射方式,以提高连续击键速度;上述方法中,Z、S、C这三个映射键位因码元负荷大而被过度使用,而码元负荷小、比Z、S、C键位更适合高频使用的U、V、I三个键位却没得到充分利用;根据优化的基本思想,将形码码元的z用u替代,s用v替代,c用i替代;这样,左右结构形码和折笔形码被映射至键位U,上下结构形码和竖笔形码被映射至键位V,侧围结构形码被映射至I键位。
[0015] 本发明方法中,编码方法在码元设计和码元映射时进行了简化处理,能够满足简单、规范、易学易用性要求。但简化处理的背后,存在着低输入速度的隐患。因此,有必要结合键位码元负荷分析和相关击键时间当量分析对该方法进行优化。
[0016] 键位码元负荷分析结果:以通用规范汉字表(2013年版)常用字集中所包括的3754个汉字和从目前整理出的204个用作方块苗文构件的汉字(或偏旁)为样本,对其拼音首字母进行统计的结果表明:作为拼音首字母,i、u、v出现次数为0,而z、s、c的出现次数却分别达336、304、242。这说明字母z、s、c作为方块苗文音码码元出现的频率很高。以整理得到的241个方块苗文及上述204个构件中的141个末构件为样本,对其末笔笔画进行的结果表明:
方块苗文及其末构件的末笔以横、点、竖、捺、折为主。这意味着,由末笔笔画名称拼音首字母决定的形码码元中,字母h、d、s、n的出现频率很高,z的出现频率也不低。此外,方块苗文中,左右结构的最多、上下结构的较多、侧围结构的也不少,使得结构类型名称拼音首字母决定的形码码元中,z、s的出现频率很高,c的出现频率也不低。显然,采用上述编码方法进行码元设计及码元映射时,将导致键盘26个字符键位码元负荷分布严重不均。主要体现在:
[0017] (1)3个非拼音首字母u、v、i中,仅有i被作为不成字构件的音码码元,U、V两个键位的音码码元负荷为0,I键位的音码码元负荷非常小;
[0018] (2)c作为音码码元出现的频率较高,同时还作为结构类型形码码元使用,导致C键位码元负荷较大;
[0019] (3)z、s作为音码码元和结构类型形码码元的出现频率都很高,作为末笔笔画形码码元出现的频率也不低,导致Z、S两个键位码元负荷非常大。
[0020] 相关击键时间当量分析结果:根据陈一凡等针对200多万个实验数据统计得到的键盘相关击键时间当量矩阵进行分析出的结论,可总结出如下3条键位有效使用原则:(1)尽量保证食指、中指键位高频使用;(2)尽量避免其他手指同无名指或小指搭配操作的越排击键;(3)尽量减少同一手指连续操作的越排击键。
[0021] 上述编码方法中,结构类型形码映射键位Z、S、C、N同末笔笔画形码映射键位H、S、D、N、Z之间是连续击键关系。标准指法中,Z、S、C、N、H、D分别对应下排左手小指、中排左手无名指、下排左手中指、下排右手食指、中排右手食指、中排左手中指键位。6个键位有4个集中于左手,且小指和无名指键位既对应末笔笔画形码又对应结构类型形码,导致同一手指连续操作的越排击键、无名指或小指同其他手指搭配操作的越排击键的频率超高。显然,按该方法进行码元设计和码元映射,不利于提高输入速度。
[0022] 优化策略:为了顺应人的思维习惯和方便记忆,优化时,保持原音码设计和音码映射方式不变,主要针对形码设计及其映射方式进行优化。优化的基本思想是:采用“避重就轻”的原则均衡码元负荷,尽可能将负荷大的键位上的码元分散到负荷较小的键位上去;同时,根据键位有效使用原则,调整形码映射方式,以提高连续击键速度。由键位码元负荷及相关击键时间当量分析结果可知,上述方法中,Z、S、C这三个映射键位因码元负荷大而被过度使用,而码元负荷小、比Z、S、C键位更适合高频使用的U、V、I三个键位却没得到充分利用。所以,根据优化的基本思想,将形码码元的z用u替代,s用v替代,c用i替代。这样,左右结构形码和折笔形码被映射至键位U,上下结构形码和竖笔形码被映射至键位V,侧围结构形码被映射至I键位。
[0023] 该发明的有益效果在于:方块苗文的音形结合快速输入编码方法的设计,综合考虑了规范性、简单性和易记忆性等文字输入编码方法的性能要求,首先就保证了该方法的规范简单及易学易用性。其次,该方法中,方块苗文输入编码由文字首末两个构件汉语拼音的首字母、文字本身的末笔笔画和结构类型3个因素共同决定,编码序列为“2个音码+2个形码”形式,既可借助结构类型形码来区分构件相同(或同音)且拆分次序相同但结构不同的方块苗文,还能借助末笔笔画形码来区分构件同音且拆分次序和结构都相同的方块苗文。而且,该方法中,音码选取只涉及构件汉语拼音首字母,不但能节省思考时间,还能有效降低用户因错读拼音而导致的错误击键率。此外,该方法根据键位负荷及相关击键时间当量分析的结果进行优化时,以均衡码元负荷和提高连续击键速度为目标,根据“避重就轻”的原则及键位有效使用原则,调整了形码设计及映射方式:将Z、S、C这三个负荷大的键位上的码元分散到U、V、I三个负荷较小且更适合高频使用的键位上去,将形码码元的z用u替代,s用v替代,c用i替代。使得优化后的方法更符合用户思维习惯和击键习惯,能够更好地促进用户输入速度和正确率的提高,能够有效地解决从方块苗文字库中快速调出所需字形的问题。基于该优化后方块苗文音形结合快速输入编码方法的方块苗文输入法软件易学易用,重码少,能够满足用户快速输入方块苗文的要求。

附图说明

[0024] 图1是不同结构的方块苗文字例及其汉义示意图。
[0025] 图2是本发明实施例中优化后的方法对应通用键盘26个字母键位映射分布图。。

具体实施方式

[0026] 下面结合附图对本发明的具体实施方式进行描述,以便更好的理解本发明。
[0027] 实施例
[0028] 本实施例中的方块苗文输入编码的具体形式为“首构件音码+末构件音码+文字末笔笔画形码+文字结构类型形码”。
[0029] 音码设计时,按照从上至下、从左到右、从外到内的顺序对方块苗文进行构件拆分。取出的第一个构件为首构件,最后一个构件为末构件。成字构件选取其拼音首字母(注意:若无声母,则取韵母首字母)作为音码码元;纯粹符号对应的不成字构件,统一选用一个非拼音首字母的字母作为音码码元。
[0030] 形码设计时,采用最简易直观的方法:选取横、竖、撇、捺、点、折6种基本笔画名称的汉语拼音首字母作为笔顺形码码元;选取左右、上下、侧围、内外4种结构类型名称的汉语拼音首字母作为结构类型形码码元。
[0031] 以通用键盘为标准,将码元与键盘键位之间建立如下映射关系:
[0032] (1)成字构件音码码元直接映射至其拼音首字母对应的字符键位,不成字构件音码码元统一映射至非拼音首字母i对应的I键位;
[0033] (2)笔顺笔画及结构类型形码码元直接映射至对应其名称汉语拼音首字母的字符键位,即:横(h)—H、竖(s)—S、撇(p)—P、捺(n)—N、点(d)—D、折(z)—Z,左右结构(z)—Z、上下结构(s)—S、侧围结构(c)—C、内外结构(n)—N。
[0034] 上述编码方法在码元设计和码元映射时进行了简化处理,能够满足简单、规范、易学易用性要求。但简化处理的背后,存在着低输入速度的隐患。因此,有必要对该方法进行优化。
[0035] 键位码元负荷分析结果:以通用规范汉字表(2013年版)常用字集中所包括的3754个汉字和从目前整理出的204个用作方块苗文构件的汉字(或偏旁)为样本,对其拼音首字母进行统计的结果表明:作为拼音首字母,i、u、v出现次数为0,而z、s、c的出现次数却分别达336、304、242。这说明字母z、s、c作为方块苗文音码码元出现的频率很高。以整理得到的241个方块苗文及上述204个构件中的141个末构件为样本,对其末笔笔画进行的结果表明:
方块苗文及其末构件的末笔以横、点、竖、捺、折为主。这意味着,由末笔笔画名称拼音首字母决定的形码码元中,字母h、d、s、n的出现频率很高,z的出现频率也不低。此外,方块苗文中,左右结构的最多、上下结构的较多、侧围结构的也不少,使得结构类型名称拼音首字母决定的形码码元中,z、s的出现频率很高,c的出现频率也不低。显然,采用上述编码方法进行码元设计及码元映射时,将导致键盘26个字符键位码元负荷分布严重不均。主要体现在:
(1)3个非拼音首字母u、v、i中,仅有i被作为不成字构件的音码码元,U、V两个键位的音码码元负荷为0,I键位的音码码元负荷非常小;(2)c作为音码码元出现的频率较高,同时还作为结构类型形码码元使用,导致C键位码元负荷较大;(3)z、s作为音码码元和结构类型形码码元的出现频率都很高,作为末笔笔画形码码元出现的频率也不低,导致Z、S两个键位码元负荷非常大。
[0036] 相关击键时间当量分析结果:根据陈一凡等针对200多万个实验数据统计得到的键盘相关击键时间当量矩阵进行分析出的结论,可总结出如下3条键位有效使用原则:(1)尽量保证食指、中指键位高频使用;(2)尽量避免其他手指同无名指或小指搭配操作的越排击键;(3)尽量减少同一手指连续操作的越排击键。
[0037] 上述编码方法中,结构类型形码映射键位Z、S、C、N同末笔笔画形码映射键位H、S、D、N、Z之间是连续击键关系。标准指法中,Z、S、C、N、H、D分别对应下排左手小指、中排左手无名指、下排左手中指、下排右手食指、中排右手食指、中排左手中指键位。6个键位有4个集中于左手,且小指和无名指键位既对应末笔笔画形码又对应结构类型形码,导致同一手指连续操作的越排击键、无名指或小指同其他手指搭配操作的越排击键的频率超高。显然,按该方法进行码元设计和码元映射,不利于提高输入速度。
[0038] 优化策略:上述方法优化时,为了顺应人的思维习惯和方便记忆,保持原音码设计和音码映射方式不变,主要针对形码设计及其映射方式进行优化。优化的基本思想是:采用“避重就轻”的原则均衡码元负荷,尽可能将负荷大的键位上的码元分散到负荷较小的键位上去;同时,根据键位有效使用原则,调整形码映射方式,以提高连续击键速度。
[0039] 由键位码元负荷及相关击键时间当量分析结果可知,上述方法中,Z、S、C这三个映射键位因码元负荷大而被过度使用,而码元负荷小、比Z、S、C键位更适合高频使用的U、V、I三个键位却没得到充分利用。所以,根据优化的基本思想,将形码码元的z用u替代,s用v替代,c用i替代。这样,左右结构形码和折笔形码被映射至键位U,上下结构形码和竖笔形码被映射至键位V,侧围结构形码被映射至I键位。优化后,码元与键盘键位之间的映射关系如表1所示。
[0040] 优化后,码元与键盘键位之间的映射关系如表1所示。图2为优化后的方法对应通用键盘26个字母键位映射分布图。
[0041] 表1码元映射关系表
[0042]
[0043] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。