基于上位词的分词修正方法、系统、电子装置和存储介质转让专利

申请号 : CN202111237607.8

文献号 : CN113673238B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵鹏阳杨红飞程东

申请人 : 杭州费尔斯通科技有限公司

摘要 :

本申请涉及一种基于上位词的分词修正方法、系统、电子装置和存储介质,通过获取分词工具对目标文本的分词结果,其中,分词结果包括分词工具输出的多个分词及对应的词性;根据分词结果获取目标文本中的主语,获取主语的最终上位词,其中,主语的最终上位词用于指示主语为人或物;根据分词结果获取目标文本中的动词,获取动词的主语上位词约束,其中,动词的主语上位词约束用于指示主语为人或物;判断主语的最终上位词与动词的主语上位词约束是否相同,若为是,则分词结果正确,若为否,则分词结果不正确,在分词结果不正确的情况下,重新对目标文本进行分词,提高了分词的准确率。

权利要求 :

1.一种基于上位词的分词修正方法,其特征在于,所述方法包括:获取分词工具对目标文本的分词结果,其中,所述分词结果包括所述分词工具输出的多个分词及对应的词性,其中,通过分词工具的精确模式对目标文本进行分词,获得所述分词结果;

根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词,其中,所述主语的最终上位词用于指示所述主语为人或物;

根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束,其中,所述动词的主语上位词约束用于指示所述主语为人或物;

判断所述主语的最终上位词与所述动词的主语上位词约束是否相同,若为是,则所述分词结果正确,若为否,则所述分词结果不正确,在所述分词结果不正确的情况下,重新对所述目标文本进行分词,其中,在所述分词结果不正确的情况下,重新对所述目标文本进行分词包括:

获取分词工具的全分词模式对目标文本的全分词结果;

去掉所述全分词结果中动词和动词之后的词语,获得第一全分词结果,在所述第一全分词结果中,去掉所述分词结果中动词前面的词语,获得第二全分词结果,在所述第二全分词结果中去掉可以拼接为所述分词结果主语的词语,获得第三全分词结果;

在所述目标文本中,获取所述第三全分词结果中最后一个词语和动词之间的词语作为新的主语,根据所述第三全分词结果、所述新的主语和所述全分词结果中动词和动词之后的词语,获得修正后的分词结果。

2.根据权利要求1所述的方法,其特征在于,根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词包括:获取所述主语的英文单词;

查询词典,获取所述主语的英文单词的主语解释列表,根据所述主语解释列表获得所述主语的最终上位词。

3.根据权利要求2所述的方法,其特征在于,根据所述主语解释列表获得所述主语的最终上位词包括:

在所述主语解释列表中,检查是否有一个解释句存在“is something”,若存在,则所述主语的最终上位词为物;

若不存在,取解释句中“is a”后面的单词作为上位词,获取所述上位词的主语解释列表;

根据所述上位词的主语解释列表重复上一执行步骤,直至获得所述主语的最终上位词,其中,在重复次数达到阈值的情况下,停止执行上一执行步骤,且所述主语的最终上位词为人。

4.根据权利要求1所述的方法,其特征在于,根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束包括:获取所述动词的英文单词;

查询词典,获取所述动词的英文单词的动词解释列表,根据所述动词解释列表获得所述动词的主语上位词约束。

5.根据权利要求4所述的方法,其特征在于,根据所述动词解释列表获得所述动词的主语上位词约束包括:

在所述动词解释列表中,检查解释句中存在“If you”或“If one person”的数量是否超过预设值,若为是,则所述动词的主语上位词约束为人,若为否,则所述动词的主语上位词约束为物。

6.根据权利要求2或4所述的方法,其特征在于,获取英文单词或英文单词的解释列表包括:

将词典的跳转地址和要查询的词语拼接成为要查询的URL地址,根据所述URL地址调用http请求,获得英文单词或英文单词的解释列表,其中,所述解释列表包括主语解释列表和动词解释列表。

7.一种基于上位词的分词修正系统,其特征在于,所述系统包括获取模块和判断模块,所述获取模块,用于获取分词工具对目标文本的分词结果,其中,所述分词结果包括所述分词工具输出的多个分词及对应的词性,其中,通过分词工具的精确模式对目标文本进行分词,获得所述分词结果;

根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词,其中,所述主语的最终上位词用于指示所述主语为人或物;

根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束,其中,所述动词的主语上位词约束用于指示所述主语为人或物;

所述判断模块,用于判断所述主语的最终上位词与所述动词的主语上位词约束是否相同,若为是,则所述分词结果正确,若为否,则所述分词结果不正确,其中,在所述分词结果不正确的情况下,重新对所述目标文本进行分词包括:获取分词工具的全分词模式对目标文本的全分词结果;

去掉所述全分词结果中动词和动词之后的词语,获得第一全分词结果,在所述第一全分词结果中,去掉所述分词结果中动词前面的词语,获得第二全分词结果,在所述第二全分词结果中去掉可以拼接为所述分词结果主语的词语,获得第三全分词结果;

在所述目标文本中,获取所述第三全分词结果中最后一个词语和动词之间的词语作为新的主语,根据所述第三全分词结果、所述新的主语和所述全分词结果中动词和动词之后的词语,获得修正后的分词结果。

8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的基于上位词的分词修正方法。

9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的基于上位词的分词修正方法。

说明书 :

基于上位词的分词修正方法、系统、电子装置和存储介质

技术领域

[0001] 本申请涉及人工智能技术领域,特别是涉及基于上位词的分词修正方法、系统、电子装置和存储介质。

背景技术

[0002] 随着计算机技术的不断发展,分词技术已经广泛应用于搜索引擎,机器翻译,语音合成,自动摘要等领域。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分
词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别
语句含义的效果。实际应用中,由于中文的歧义性,根据分词技术对一句话或者一段文字进
行分词后,得到的分词结果可能存在分词边界错误的问题。在相关技术中,通过分词工具进
行分词后,无法判断出分词结果是否存在错误,进而无法对分词结果进行修正,导致分词准
确率低。
[0003] 目前针对相关技术中通过分词工具进行分词后,无法判断出分词结果是否存在错误,分词准确率低的问题,尚未提出有效的解决方案。

发明内容

[0004] 本申请实施例提供了一种基于上位词的分词修正方法、系统、电子装置和存储介质,以至少解决相关技术中通过分词工具进行分词后,无法判断出分词结果是否存在错误,
分词准确率低的问题。
[0005] 第一方面,本申请实施例提供了一种基于上位词的分词修正方法,所述方法包括:
[0006] 获取分词工具对目标文本的分词结果,其中,所述分词结果包括所述分词工具输出的多个分词及对应的词性;
[0007] 根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词,其中,所述主语的最终上位词用于指示所述主语为人或物;
[0008] 根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束,其中,所述动词的主语上位词约束用于指示所述主语为人或物;
[0009] 判断所述主语的最终上位词与所述动词的主语上位词约束是否相同,若为是,则所述分词结果正确,若为否,则所述分词结果不正确,在所述分词结果不正确的情况下,重
新对所述目标文本进行分词。
[0010] 在其中一些实施例中,在所述分词结果不正确的情况下,重新对所述目标文本进行分词包括:
[0011] 获取分词工具的全分词模式对目标文本的全分词结果;
[0012] 去掉所述全分词结果中动词和动词之后的词语,获得第一全分词结果,在所述第一全分词结果中,去掉所述分词结果中动词前面的词语,获得第二全分词结果,在所述第二
全分词结果中去掉可以拼接为所述分词结果主语的词语,获得第三全分词结果;
[0013] 在所述目标文本中,获取所述第三全分词结果中最后一个词语和动词之间的词语作为新的主语,根据所述第三全分词结果、所述新的主语和所述全分词结果中动词和动词
之后的词语,获得修正后的分词结果。
[0014] 在其中一些实施例中,根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词包括:
[0015] 获取所述主语的英文单词;
[0016] 查询词典,获取所述主语的英文单词的主语解释列表,根据所述主语解释列表获得所述主语的最终上位词。
[0017] 在其中一些实施例中,根据所述主语解释列表获得所述主语的最终上位词包括:
[0018] 在所述主语解释列表中,检查是否有一个解释句存在“is something”,若存在,则所述主语的最终上位词为物;
[0019] 若不存在,取解释句中“is a”后面的单词作为上位词,获取所述上位词的主语解释列表;
[0020] 根据所述上位词的主语解释列表重复上一执行步骤,直至获得所述主语的最终上位词,其中,在重复次数达到阈值的情况下,停止执行上一执行步骤,且所述主语的最终上
位词为人。
[0021] 在其中一些实施例中,根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束包括:
[0022] 获取所述动词的英文单词;
[0023] 查询词典,获取所述动词的英文单词的动词解释列表,根据所述动词解释列表获得所述动词的主语上位词约束。
[0024] 在其中一些实施例中,根据所述动词解释列表获得所述动词的主语上位词约束包括:
[0025] 在所述动词解释列表中,检查解释句中存在“If you”或“If one person”的数量是否超过预设值,若为是,则所述动词的主语上位词约束为人,若为否,则所述动词的主语
上位词约束为物。
[0026] 在其中一些实施例中,获取英文单词或英文单词的解释列表包括:
[0027] 将词典的跳转地址和要查询的词语拼接成为要查询的URL地址,根据所述URL地址调用http请求,获得英文单词或英文单词的解释列表,其中,解释列表包括主语解释列表和
动词解释列表。
[0028] 第二方面,本申请实施例提供了一种基于上位词的分词修正系统,所述系统包括获取模块和判断模块,
[0029] 所述获取模块,用于获取分词工具对目标文本的分词结果,其中,所述分词结果包括所述分词工具输出的多个分词及对应的词性;
[0030] 根据所述分词结果获取所述目标文本中的主语,获取所述主语的最终上位词,其中,所述主语的最终上位词用于指示所述主语为人或物;
[0031] 根据所述分词结果获取所述目标文本中的动词,获取所述动词的主语上位词约束,其中,所述动词的主语上位词约束用于指示所述主语为人或物;
[0032] 所述判断模块,用于判断所述主语的最终上位词与所述动词的主语上位词约束是否相同,若为是,则所述分词结果正确,若为否,则所述分词结果不正确。
[0033] 第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实
现如上述第一方面所述的基于上位词的分词修正方法。
[0034] 第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于上位词的分词修正方法。
[0035] 相比于相关技术,本申请实施例提供的基于上位词的分词修正方法,通过获取分词工具对目标文本的分词结果,其中,分词结果包括分词工具输出的多个分词及对应的词
性;根据分词结果获取目标文本中的主语,获取主语的最终上位词,其中,主语的最终上位
词用于指示主语为人或物;根据分词结果获取目标文本中的动词,获取动词的主语上位词
约束,其中,动词的主语上位词约束用于指示主语为人或物;判断主语的最终上位词与动词
的主语上位词约束是否相同,若为是,则分词结果正确,若为否,则分词结果不正确,在分词
结果不正确的情况下,重新对目标文本进行分词,提高了分词的准确率。

附图说明

[0036] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0037] 图1是根据本申请实施例的基于上位词的分词修正方法的流程图;
[0038] 图2是根据本申请实施例的另一种基于上位词的分词修正方法的流程图;
[0039] 图3是根据本申请实施例的基于上位词的分词修正系统的结构框图。

具体实施方式

[0040] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用
于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的
前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然
这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关
的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造
或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0041] 在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相
同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显
式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相
结合。
[0042] 除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”
等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、
“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单
元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有
列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单
元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连
接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于
或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或
B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第
一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0043] 本实施例提供了一种基于上位词的分词修正方法,图1是根据本申请实施例的基于上位词的分词修正方法的流程图,如图1所示,该方法包括如下步骤:
[0044] 步骤S101,获取分词工具对目标文本的分词结果,其中,分词结果包括分词工具输出的多个分词及对应的词性;其中,分词工具包括结巴分词(jieba)、汉语言处理包(HanLP)
和中文处理工具包(FoolNLTK)等,jieba支持三种分词模式,精确模式将句子最精确地切
开,适合文本分析;全分词模式把句子中所有的可以成词的词语都扫描出来,速度非常快;
搜索引擎模式在精确模式的基础上,对长词再次切分,提高召回率。
[0045] 本实施例中,可以采用jieba的精确模式对目标文本进行分词,示例性的,目标文本为“南京市长江大桥参加了本次会议”,则分词结果为[pair('南京市',  'ns'), pair('
长江大桥', 'ns'),pair('参加', 'v'),pair('了', 'ul'),pair('本次',  'r'),pair('
会议',  'n')],其中,每个pair是词和其词性,将第一个标记为v的词语视为动词,如果标记
为'n','f','s','t','nr','ns','nt','nw'和'nz'的其中之一,则为名词,动词前面的第一
个名词视为动词的主语。
[0046] 步骤S102,根据分词结果获取目标文本中的主语,获取主语的最终上位词,其中,主语的最终上位词用于指示主语为人或物;为了便于理解,延续上述举例来说,“长江大桥”
为目标文本的主语,由于主语“长江大桥”为物,则主语“长江大桥”的最终上位词为物。
[0047] 步骤S103,根据分词结果获取目标文本中的动词,获取动词的主语上位词约束,其中,动词的主语上位词约束用于指示主语为人或物;为了便于理解,延续上述举例来说,“参
加”为目标文本的动词,由于“参加”的主语只能是人,故动词“参加”的主语上位词约束为
人。
[0048] 步骤S104,判断主语的最终上位词与动词的主语上位词约束是否相同,若为是,则分词结果正确,若为否,则分词结果不正确,在分词结果不正确的情况下,重新对目标文本
进行分词。为了便于理解,延续上述举例来说,主语的最终上位词“物”与动词的主语上位词
约束“人”不相同,故对该目标文本的分词是不正确的。
[0049] 在分词结果不正确的情况下,可以通过其他的的分词工具重新对目标文本进行分词,也可以扩充当前分词工具的词典,再通过当前分词工具重新对目标文本进行分词,重新
对目标文本进行分词后,可以再通过上述步骤判断重新分词后的分词结果正不正确,直至
得到正确的分词结果。
[0050] 示例性的,重新对目标文本进行分词,得到的分词结果为[pair('南京',  'ns'), pair('市长',  'ns'),pair('江大桥',  'ns'),pair('参加',  'v'),pair('了',  'ul'),
pair('本次',  'r'),pair('会议',  'n')],则目标文本中的主语为“江大桥”,主语的最终
上位词为人,动词为“参加”,动词的主语上位词约束也为人,主语的最终上位词与动词的主
语上位词约束相同,则分词结果是正确的。
[0051] 相对于相关技术中,通过分词工具获得分词结果后,无法判断出分词结果是否存在错误,进而无法对分词结果进行修正,导致分词准确率低,而本申请实施例中,通过上述
步骤S101至S104,通过分词工具获得分词结果后,判断分词结果中主语的最终上位词与动
词的主语上位词约束是否相同,若为是,则分词结果正确,若为否,则分词结果不正确,准确
的判断出分词结果是否存在错误,在分词结果存在错误的情况下,重新对目标文本进行分
词,直至得到正确的分词结果,提高了分词的准确率。
[0052] 在其中一些实施例中,图2是根据本申请实施例的另一种基于上位词的分词修正方法的流程图,如图2所示,在分词结果不正确的情况下,重新对目标文本进行分词包括如
下步骤:
[0053] 步骤S201,获取分词工具的全分词模式对目标文本的全分词结果;其中,全分词模式可以把句子中所有可以成词的词语都扫描出来,为了便于理解,延续上述举例来说,
jieba分词工具的全分词模式对上述目标文本“南京市长江大桥参加了本次会议”进行分词
得到的全分词结果为:'南京','南京市','市长','长江','长江大桥','大桥','参加','
了','本次','会议'。
[0054] 步骤S202,去掉全分词结果中动词和动词之后的词语,获得第一全分词结果,在第一全分词结果中,去掉分词结果中动词前面的词语,获得第二全分词结果,在第二全分词结
果中去掉可以拼接为分词结果主语的词语,获得第三全分词结果;延续上述举例来说,去掉
动词“参加”和动词之后的词语,获得第一全分词结果为:'南京','南京市','市长','长
江','长江大桥','大桥',分词结果中动词前面的词语为“南京市”和“长江大桥”,则第二全
分词结果为:'南京','市长','长江','大桥',去掉可以拼接为分词结果主语“长江大桥”的
词语,获得第三全分词结果为:'南京','市长'。
[0055] 步骤S203,在目标文本中,获取第三全分词结果中最后一个词语和动词之间的词语作为新的主语,根据第三全分词结果、新的主语和全分词结果中动词和动词之后的词语,
获得修正后的分词结果。延续上述举例来说,目标文本“南京市长江大桥参加了本次会议”
中,第三全分词结果中最后一个词语“市长”和动词“参加”之间的词语为“江大桥”,即“江大
桥”作为新的主语,则第三全分词结果'南京','市长'、新的主语'江大桥'和全分词结果中
动词和动词之后的词语'参加','了','本次','会议'组成最终的分词结果,即修正后的分
词结果为:'南京','市长','江大桥','参加','了','本次','会议'。
[0056] 在相关技术中,分词工具的分词原理有基于词典的分词算法和基于统计的机器学习算法,基于词典分词算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分
大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词,但对于歧义词
和未被词典收录的词,很难进行识别,导致分词结果可能会存在错误;而基于统计的机器学
习算法基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备
较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果,但人工标注语料
较少,且训练分词模型不但费时费力,而且难以保证分词的质量,而本申请的实施例中,通
过上述步骤S201至S203,解决了分词工具对于歧义词和未被词典收录的词,很难进行识别,
分词结果可能会存在错误,分词准确率低的问题,也解决了分词模型难于保证分词质量的
问题,提高了分词的准确率。
[0057] 在其中一些实施例中,根据分词结果获取目标文本中的主语,获取主语的最终上位词包括:
[0058] 获取主语的英文单词;
[0059] 查询词典,获取主语的英文单词的主语解释列表,根据主语解释列表获得主语的最终上位词。
[0060] 本实施例中,可以通过有道词典将主语翻译为英文单词,若存在多个英文单词,则取第一个英文单词,当主语翻译成短语时,取短语的最后一个英文单词,若英文单词的首字
母大写,则将大写改为小写,示例性的,目标文本为“南京市长江大桥参加了本次会议”,分
词结果为[pair('南京市',  'ns'), pair('长江大桥',  'ns'),pair('参加',  'v'),pair
('了',  'ul'),pair('本次',  'r'),pair('会议',  'n')],则主语“长江大桥”翻译为
“Yangtze River Bridge”,则获取到的主语的英文单词为“bridge”,在柯林斯词典中,查询
“bridge”得到有关“bridge”的主语解释列表为:
[0061] 1. N‑COUNT A bridge is a structure that is built over a railway, river, or road so that people or vehicles can cross from one side to the 
other. 桥;
[0062] 2. N‑COUNT A bridge between two places is a piece of land that joins or connects them. (连接两地的) 陆桥,等等解释句;
[0063] 根据上述主语解释列表,可以得知主语的最终上位词为物。
[0064] 可选的,根据所述主语解释列表获得所述主语的最终上位词包括:在主语解释列表中,检查是否有一个解释句存在“is something”,若存在,则主语的最终上位词为物;
[0065] 若不存在,取解释句中“is a”后面的单词作为上位词,获取上位词的主语解释列表;
[0066] 根据上位词的主语解释列表重复上一执行步骤,直至获得主语的最终上位词,其中,在重复次数达到阈值的情况下,停止执行上一执行步骤,且主语的最终上位词为人。
[0067] 延续上述举例来说,主语解释列表中不存在“is something”,故取第一个解释句中“is a”后面的单词“structure”作为上位词,再通过上述方法继续查找上位词的上位词,
即再获取“structure”的主语解释列表为:
[0068] 1. N‑VAR The structure of something is the way in which it is made, built, or organized. 结构;
[0069] 2. N‑COUNT A structure is something that consists of parts connected together in an ordered way. 结构体,等等解释句。
[0070] 此时,主语解释列表中的第二个解释句存在“is something”,则说明“structure”的上位词为物,即主语的最终上位词为物,若阈值设置为10次,在重复次数达到10次的情况
下,即获取主语解释列表的次数达到10都无法得到主语的最终上位词为物,则无需再查找
上位词的上位词,并且得出主语的最终上位词为人。
[0071] 在其中一些实施例中,根据分词结果获取目标文本中的动词,获取动词的主语上位词约束包括:
[0072] 获取动词的英文单词;
[0073] 查询词典,获取动词的英文单词的动词解释列表,根据动词解释列表获得动词的主语上位词约束。
[0074] 本实施例中,可以通过有道词典将动词翻译为英文单词,翻译后的英文单词有多个时,可以取第一个英文单词,延续上述举例来说,动词“参加”的第一个英文单词为
“join”,对于翻译后的动词,查询柯林斯词典中动词的解释,即查询标记为"V‑T"或“V‑I”下
面的解释,例如,得到有关“join”的动词解释列表为:
[0075] 1. V‑T If one person joins another, they move or go to the same place, for example, so that both of them can do something together. 和…一道;
[0076] 2. V‑T If you join an organization, you become a member of it or start work as an employee of it. 参加 (组织);
[0077] 3. V‑T/V‑I If you join an activity that other people are doing, you take part in it or become involved with it. 参加 (活动);
[0078] 4. V‑T If you join a line, you stand at the end of it so that you are part of it. 加入 (队列);
[0079] 5. V‑T To join two things means to attach or fasten them together. 连接; 接合;
[0080] 6. V‑T If something such as a line or path joins two things, it connects them. (线、路等) 连接 (两物)。
[0081] 根据上述动词解释列表,可以得知动词的主语上位词约束为人。
[0082] 可选的,根据动词解释列表获得动词的主语上位词约束包括:在动词解释列表中,检查解释句中存在“If you”或“If one person”的数量是否超过预设值,若为是,则动词的
主语上位词约束为人,若为否,则动词的主语上位词约束为物。本实施例中,预设值可以根
据动词解释列表中解释句的数量进行设置,例如,可以设置为动词解释列表中解释句数量
的一半,延续上述举例来说,动词解释列表中,有6条标记为"V‑T"或“V‑I”的解释句,其中,
有4条解释句中存在“If you”或“If one person”,即解释句中存在“If you”或“If one 
person”的数量超过预设值,则动词的主语上位词约束为人。
[0083] 可选的,通过有道词典将动词翻译为英文单词,翻译后的英文单词有多个时,也可以取前两个英文单词,例如,动词“参加”的前两个英文单词为“join”和“attend”,分别获取
“join”和“attend”的动词解释列表,当“join”的动词解释列表中的解释句中存在“If you”
或“If one person”的数量超过预设值,或“attend”的动词解释列表中的解释句中存在“If 
you”或“If one person”的数量超过预设值,则动词的主语上位词约束为人。
[0084] 在其中的一些实施例中,获取英文单词或英文单词的解释列表包括:将词典的跳转地址和要查询的词语拼接成为要查询的URL地址,根据URL地址调用http请求,获得英文
单词或英文单词的解释列表,其中,解释列表包括主语解释列表和动词解释列表。
[0085] 本实施例中,获取英文单词、主语解释列表和动词解释列表都可以通过计算机自动去获取,例如,有道词典的跳转地址为“https://dict.youdao.com/w/”,查询的词语为
“参加”,则将“https://dict.youdao.com/w/”和“参加”拼接成为要查询的URL地址,根据
URL地址调用http请求,在http请求返回的响应体中查询每个标签
的内容,即为翻译后的一个英文单词;要获取“bridge”的主语解释列表时,将“https://
dict.youdao.com/w/”和“bridge”拼接成为要查询的URL地址,用该URL地址查询调用http
请求,在http请求返回的响应体中查询所有标签的

子标签,这些

子标签的内容组成了“bridge”的主语解释列表,其中,每个

子标签的内容为一个解释句。

[0086] 需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些
情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0087] 本实施例还提供了一种基于上位词的分词修正系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子
单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地
以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0088] 图3是根据本申请实施例的基于上位词的分词修正系统的结构框图,如图3所示,该系统包括获取模块31和判断模块32,获取模块31用于获取分词工具对目标文本的分词结
果,其中,分词结果包括分词工具输出的多个分词及对应的词性;根据分词结果获取目标文
本中的主语,获取主语的最终上位词,其中,主语的最终上位词用于指示主语为人或物;根
据分词结果获取目标文本中的动词,获取动词的主语上位词约束,其中,动词的主语上位词
约束用于指示主语为人或物;判断模块32用于判断主语的最终上位词与动词的主语上位词
约束是否相同,若为是,则分词结果正确,若为否,则分词结果不正确,判断出分词结果是否
存在错误,在分词结果存在错误的情况下,重新对目标文本进行分词,直至得到正确的分词
结果,提高了分词的准确率。
[0089] 需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位
于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器
中。
[0090] 本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0091] 可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0092] 需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0093] 另外,结合上述实施例中的基于上位词的分词修正方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现
上述实施例中的任意一种基于上位词的分词修正方法。
[0094] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机
设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、
内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存
储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部
的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于上位词的分词修
正方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的
输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球
或触控板,还可以是外接的键盘、触控板或鼠标等。
[0095] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读
取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申
请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括
非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0096] 本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,
只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0097] 以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护
范围。因此,本申请专利的保护范围应以所附权利要求为准。