一种通过语音搜索疾病知识的方法和系统转让专利

申请号 : CN202011567638.5

文献号 : CN112735475B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 游峰磊李响刘沛丰胡鑫平

申请人 : 北京博瑞彤芸科技股份有限公司

摘要 :

本发明实施例涉及一种通过语音搜索疾病知识的方法和系统,所述方法包括:对第一语音数据进行预处理生成第一语句音频数据;对第一语句音频数据,进行第一音频文字识别处理生成第一语句文字数据;对第一语句文字数据,进行第一语义标签识别处理生成第一语义标签数据集合;进行与第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据;根据每个第一疾病名称数据生成对应的第一疾病知识数据集合;由每个第一疾病名称数据、疾病概率数据、疾病知识数据集合组成第一搜索结果数据;输出第一搜索结果数据集合。本发明实施例省去了不必要的输入过程,节省了信息过滤时间,提高了用户使用体验和信息搜索精度。

权利要求 :

1.一种通过语音搜索疾病知识的方法,其特征在于,所述方法包括:

疾病知识搜索系统接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据;

对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据;

对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;

所述第一语义标签数据集合包括第一标签类型数据和多个第一语义标签数据;

根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据;

根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合;

由每个所述第一疾病名称数据,及其对应的所述第一疾病概率数据和所述第一疾病知识数据集合,组成第一搜索结果数据;

由所有所述第一搜索结果数据组成第一搜索结果数据集合,并输出;

其中,所述疾病知识搜索系统接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据,具体包括:所述疾病知识搜索系统的数据预处理模块接收所述第一语音数据,并对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据;

所述对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据,具体包括:所述疾病知识搜索系统的语音识别模块将所述第一语句音频数据,输入第一声学语言识别模型中进行识别处理,生成所述第一语句文字数据;

所述数据预处理模块对所述第一语音数据进行第一音频滤波和降噪处理时,通过语音活动检测算法对语音进行静音、噪音分离处理;并使用最小均方自适应滤波和维纳滤波对语音数据中的环境噪音、回声、混响等进行噪音消除处理;

所述语音识别模块将第一语句音频数据输入第一声学语言识别模型中进行识别处理时,由所述第一声学语言识别模型对输入的所述第一语句音频数据进行特征数据提取,并对特征数据进行发音匹配得到最大概率的发音数据序列,再对所述发音数据序列进行语言单字、词识别得到最大概率的词串做为对应的所述第一语句文字数据;所述第一声学语言识别模型包括由隐马尔科夫模型+高斯混合模型+N‑Gram语言模型或汉语语言模型组成的声学语言识别模型,和由隐马尔科夫模型+深度神经网络+N‑Gram语言模型或汉语语言模型组成的声学语言识别模型。

2.根据权利要求1所述的通过语音搜索疾病知识的方法,其特征在于,所述对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合,具体包括:所述疾病知识搜索系统的语义识别模块将所述第一语句文字数据,输入第一智能分词识别模型中进行识别处理,生成多个第一分词数据;

使用所述多个第一分词数据,查询反映分词与语义标签对应关系的第一分词与语义标签对应关系表,得到多个第一语义标签数据;

根据每个所述第一语义标签数据,查询反映语义标签与标签类型对应关系的第一语义标签与标签类型对应关系表,生成对应的第一查询标签类型数据;

在所有所述第一查询标签类型数据中,将类型相同的所述第一查询标签类型数据合并为一个类型组,并将包含所述第一查询标签类型数据的数量最多的所述类型组对应的标签类型,做为所述第一标签类型数据;

由所有所述第一语义标签数据,组成所述多个第一语义标签数据;由所述第一标签类型数据及所述多个第一语义标签数据,组成所述第一语义标签数据集合。

3.根据权利要求2所述的通过语音搜索疾病知识的方法,其特征在于,所述使用所述多个第一分词数据,查询反映分词与语义标签对应关系的第一分词与语义标签对应关系表,得到多个第一语义标签数据,具体包括:对所述第一分词与语义标签对应关系表的所有第一分词与语义标签对应关系记录进行轮询,并将当前被轮询的所述第一分词与语义标签对应关系记录,做为第一当前记录;所述第一分词与语义标签对应关系表包括多个所述第一分词与语义标签对应关系记录;所述第一分词与语义标签对应关系记录包括第一分词信息和第一语义标签信息;

使用所述多个第一分词数据,与所述第一当前记录的所述第一分词信息进行第一匹配处理;从所述多个第一分词数据中,依次提取第一分词数据,做为第一当前分词数据;当所述第一当前分词数据与所述第一分词信息相同时,所述第一匹配处理成功;

所述第一匹配处理成功时,提取所述第一当前记录的所述第一语义标签信息,生成所述第一语义标签数据。

4.根据权利要求1所述的通过语音搜索疾病知识的方法,其特征在于,所述根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据,具体包括:所述疾病知识搜索系统的疾病学习模块根据所述第一标签类型数据,确定对应的第一疾病分类学习模型;并将所述多个第一语义标签数据,输入所述第一疾病分类学习模型中进行学习,得到多组第一学习输出数据组;每组所述第一学习输出数据组包括所述第一疾病名称数据和对应的所述第一疾病概率数据。

5.根据权利要求1所述的通过语音搜索疾病知识的方法,其特征在于,

所述第一名称与相关信息对应关系表包括多个第一名称与相关信息对应关系记录;所述第一名称与相关信息对应关系记录包括第一疾病名称信息、第一疾病定义信息、第一疾病症状信息、第一疾病成因信息、第一疾病诊断方式信息、第一疾病临床表现信息和第一疾病治疗方式信息;

所述第一疾病知识数据集合至少包括第一疾病定义数据、第一疾病症状数据、第一疾病成因数据、第一疾病诊断方式数据、第一疾病临床表现数据和第一疾病治疗方式数据;

所述根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合,具体包括:所述疾病知识搜索系统的疾病知识提取模块根据每个所述第一疾病名称数据,对所述第一名称与相关信息对应关系表的所有所述第一名称与相关信息对应关系记录进行轮询,并将当前被轮询的所述第一名称与相关信息对应关系记录,做为第二当前记录;

当每个所述第一疾病名称数据与所述第二当前记录的所述第一疾病名称信息相同时,从所述第二当前记录中,提取所述第一疾病定义信息做为对应的所述第一疾病定义数据,提取所述第一疾病症状信息做为对应的所述第一疾病症状数据,提取所述第一疾病成因信息做为对应的所述第一疾病成因数据,提取所述第一疾病诊断方式信息做为对应的所述第一疾病诊断方式数据,提取所述第一疾病临床表现信息做为对应的所述第一疾病临床表现数据,提取所述第一疾病治疗方式信息做为对应的所述第一疾病治疗方式数据;

并由所述第一疾病定义数据、所述第一疾病症状数据、所述第一疾病成因数据、所述第一疾病诊断方式数据、所述第一疾病临床表现数据、所述第一疾病治疗方式数据,组成对应的所述第一疾病知识数据集合。

6.根据权利要求4所述的通过语音搜索疾病知识的方法,其特征在于,使用所述第一疾病分类学习模型之前,所述方法还包括:所述疾病知识搜索系统的模型训练模块使用语义标签及疫病名称训练库,对所述第一疾病分类学习模型进行学习模型训练处理;从语义标签及疫病名称训练库中,提取出与指定疫病名称训练数据对应的多组所述语义标签训练数据,输入所述第一疾病分类学习模型中进行训练,得到多组训练输出数据组;其中,所述语义标签及疫病名称训练库中包括多个所述语义标签训练数据和多个所述疫病名称训练数据;每个所述疫病名称训练数据,对应多个所述语义标签训练数据;所述训练输出数据组包括训练输出疾病名称数据和训练输出疾病概率数据;

当所述多组训练输出数据组中,概率最高的所述训练输出疾病概率数据对应的所述训练输出疾病名称数据与所述指定疫病名称训练数据相同、且概率最高的所述训练输出疾病概率数据超出设定的训练概率阈值、和或其他所述训练输出疾病名称数据与指定疫病名称训练数据的相关度超出设定的训练相关度阈值时,所述学习模型训练处理成功。

7.根据权利要求6所述的通过语音搜索疾病知识的方法,其特征在于,所述疾病知识搜索系统输出所述第一搜索结果数据集合之后,所述方法还包括:所述疾病知识搜索系统的评分处理模块接收第一评分数据集合;所述第一评分数据集合包括多个第一评分数据;所述第一评分数据集合与所述第一搜索结果数据集合对应;所述第一评分数据与所述第一搜索结果数据对应;

将所述多个第一语义标签数,做为新增语义标签训练数据;

在所述语义标签及疫病名称训练库中,将与评分最高的所述第一评分数据对应的训练疾病名称数据,做为目标训练疾病名称数据;

在所述语义标签及疫病名称训练库中,添加所述新增语义标签训练数据,并在所述新增语义标签训练数据与所述目标训练疾病名称数据间,建立对应关系。

8.一种用于实现权利要求1‑7任一项所述的通过语音搜索疾病知识的方法的系统,其特征在于,所述系统包括:数据预处理模块用于接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据;

语音识别模块用于对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据;

语义识别模块用于对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;所述第一语义标签数据集合包括第一标签类型数据和多个第一语义标签数据;

疾病学习模块用于根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据;

疾病知识提取模块用于根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合;

搜索结果输出模块用于将每个所述第一疾病名称数据,及其对应的所述第一疾病概率数据和所述第一疾病知识数据集合,组成第一搜索结果数据;并由所有所述第一搜索结果数据组成第一搜索结果数据集合,并输出。

说明书 :

一种通过语音搜索疾病知识的方法和系统

技术领域

[0001] 本发明涉及数据处理技术领域,特别涉及一种通过语音搜索疾病知识的方法和系统。

背景技术

[0002] 老年人对各种疾病、健康信息都比较关注,经常会对相关信息进行检索,当前主要的检索方式还是通过文字输入的方式来实现,并且需要个人对海量的搜索结果进行信息过
滤。这对老年人来说是有难度的,一方面由于视力问题,老人打字输入的速度慢、出错率高,
会影响搜索效果;另一方面,对太多的信息进行全过滤,处理时间长反而还会影响老人的身
体健康。

发明内容

[0003] 本发明的目的,就是针对现有技术的缺陷,提供一种通过语音搜索疾病知识的方法和系统,基于预设的疾病知识库,并在其之上附加语音识别功能和疾病分类学习模型,不
仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使
用体验和信息搜索精度。
[0004] 为实现上述目的,本发明实施例第一方面提供了一种通过语音搜索疾病知识的方法,所述方法包括:
[0005] 疾病知识搜索系统接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据;
[0006] 对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据;
[0007] 对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;所述第一语义标签数据集合包括第一标签类型数据和多个第一语义标签数据;
[0008] 根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据;
[0009] 根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合;
[0010] 由每个所述第一疾病名称数据,及其对应的所述第一疾病概率数据和所述第一疾病知识数据集合,组成第一搜索结果数据;
[0011] 由所有所述第一搜索结果数据组成第一搜索结果数据集合,并输出。
[0012] 优选的,所述疾病知识搜索系统接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据,具体包括:
[0013] 所述疾病知识搜索系统的数据预处理模块接收所述第一语音数据,并对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据。
[0014] 优选的,所述对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据,具体包括:
[0015] 所述疾病知识搜索系统的语音识别模块将所述第一语句音频数据,输入第一声学语言识别模型中进行识别处理,生成所述第一语句文字数据。
[0016] 优选的,所述对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合,具体包括:
[0017] 所述疾病知识搜索系统的语义识别模块将所述第一语句文字数据,输入第一智能分词识别模型中进行识别处理,生成多个第一分词数据;
[0018] 使用所述多个第一分词数据,查询反映分词与语义标签对应关系的第一分词与语义标签对应关系表,得到多个第一语义标签数据;
[0019] 根据每个所述第一语义标签数据,查询反映语义标签与标签类型对应关系的第一语义标签与标签类型对应关系表,生成对应的第一查询标签类型数据;
[0020] 在所有所述第一查询标签类型数据中,将类型相同的所述第一查询标签类型数据合并为一个类型组,并将包含所述第一查询标签类型数据的数量最多的所述类型组对应的
标签类型,做为所述第一标签类型数据;
[0021] 由所有所述第一语义标签数据,组成所述多个第一语义标签数据;由所述第一标签类型数据及所述多个第一语义标签数据,组成所述第一语义标签数据集合。
[0022] 进一步的,所述使用所述多个第一分词数据,查询反映分词与语义标签对应关系的第一分词与语义标签对应关系表,得到多个第一语义标签数据,具体包括:
[0023] 对所述第一分词与语义标签对应关系表的所有第一分词与语义标签对应关系记录进行轮询,并将当前被轮询的所述第一分词与语义标签对应关系记录,做为第一当前记
录;所述第一分词与语义标签对应关系表包括多个所述第一分词与语义标签对应关系记
录;所述第一分词与语义标签对应关系记录包括第一分词信息和第一语义标签信息;
[0024] 使用所述多个第一分词数据,与所述第一当前记录的所述第一分词信息进行第一匹配处理;从所述多个第一分词数据中,依次提取第一分词数据,做为第一当前分词数据;
当所述第一当前分词数据与所述第一分词信息相同时,所述第一匹配处理成功;
[0025] 所述第一匹配处理成功时,提取所述第一当前记录的所述第一语义标签信息,生成所述第一语义标签数据。
[0026] 优选的,所述根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据,具
体包括:
[0027] 所述疾病知识搜索系统的疾病学习模块根据所述第一标签类型数据,确定对应的第一疾病分类学习模型;并将所述多个第一语义标签数据,输入所述第一疾病分类学习模
型中进行学习,得到多组第一学习输出数据组;每组所述第一学习输出数据组包括所述第
一疾病名称数据和对应的所述第一疾病概率数据。
[0028] 优选的,
[0029] 所述第一名称与相关信息对应关系表包括多个第一名称与相关信息对应关系记录;所述第一名称与相关信息对应关系记录包括第一疾病名称信息、第一疾病定义信息、第
一疾病症状信息、第一疾病成因信息、第一疾病诊断方式信息、第一疾病临床表现信息和第
一疾病治疗方式信息;
[0030] 所述第一疾病知识数据集合至少包括第一疾病定义数据、第一疾病症状数据、第一疾病成因数据、第一疾病诊断方式数据、第一疾病临床表现数据和第一疾病治疗方式数
据。
[0031] 优选的,所述根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合,具体
包括:
[0032] 所述疾病知识搜索系统的疾病知识提取模块根据每个所述第一疾病名称数据,对所述第一名称与相关信息对应关系表的所有所述第一名称与相关信息对应关系记录进行
轮询,并将当前被轮询的所述第一名称与相关信息对应关系记录,做为第二当前记录;
[0033] 当每个所述第一疾病名称数据与所述第二当前记录的所述第一疾病名称信息相同时,从所述第二当前记录中,提取所述第一疾病定义信息做为对应的所述第一疾病定义
数据,提取所述第一疾病症状信息做为对应的所述第一疾病症状数据,提取所述第一疾病
成因信息做为对应的所述第一疾病成因数据,提取所述第一疾病诊断方式信息做为对应的
所述第一疾病诊断方式数据,提取所述第一疾病临床表现信息做为对应的所述第一疾病临
床表现数据,提取所述第一疾病治疗方式信息做为对应的所述第一疾病治疗方式数据;
[0034] 并由所述第一疾病定义数据、所述第一疾病症状数据、所述第一疾病成因数据、所述第一疾病诊断方式数据、所述第一疾病临床表现数据、所述第一疾病治疗方式数据,组成
对应的所述第一疾病知识数据集合。
[0035] 优选的,使用所述第一疾病分类学习模型之前,所述方法还包括:
[0036] 所述疾病知识搜索系统的模型训练模块使用语义标签及疫病名称训练库,对所述第一疾病分类学习模型进行学习模型训练处理;从语义标签及疫病名称训练库中,提取出
与指定疫病名称训练数据对应的多组所述语义标签训练数据,输入所述第一疾病分类学习
模型中进行训练,得到多组训练输出数据组;其中,所述语义标签及疫病名称训练库中包括
多个所述语义标签训练数据和多个所述疫病名称训练数据;每个所述疫病名称训练数据,
对应多个所述语义标签训练数据;所述训练输出数据组包括训练输出疾病名称数据和训练
输出疾病概率数据;
[0037] 当所述多组训练输出数据组中,概率最高的所述训练输出疾病概率数据对应的所述训练输出疾病名称数据与所述指定疫病名称训练数据相同、且概率最高的所述训练输出
疾病概率数据超出设定的训练概率阈值、和或其他所述训练输出疾病名称数据与指定疫病
名称训练数据的相关度超出设定的训练相关度阈值时,所述学习模型训练处理成功。
[0038] 优选的,所述疾病知识搜索系统输出所述第一搜索结果数据集合之后,所述方法还包括:
[0039] 所述疾病知识搜索系统的评分处理模块接收第一评分数据集合;所述第一评分数据集合包括多个第一评分数据;所述第一评分数据集合与所述第一搜索结果数据集合对
应;所述第一评分数据与所述第一搜索结果数据对应;
[0040] 将所述多个第一语义标签数,做为新增语义标签训练数据;
[0041] 在所述语义标签及疫病名称训练库中,将与评分最高的所述第一评分数据对应的所述训练疾病名称数据,做为目标训练疾病名称数据;
[0042] 在所述语义标签及疫病名称训练库中,添加所述新增语义标签训练数据,并在所述新增语义标签训练数据与所述目标训练疾病名称数据间,建立对应关系。
[0043] 本发明实施例第二方面提供了一种通过语音搜索疾病知识的系统,所述系统包括:
[0044] 数据预处理模块用于接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据;
[0045] 语音识别模块用于对所述第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据;
[0046] 语义识别模块用于对所述第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;所述第一语义标签数据集合包括第一标签类型数据和多个第一语
义标签数据;
[0047] 疾病学习模块用于根据所述多个第一语义标签数据,进行与所述第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数
据;
[0048] 疾病知识提取模块用于根据每个所述第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集
合;
[0049] 搜索结果输出模块用于将每个所述第一疾病名称数据,及其对应的所述第一疾病概率数据和所述第一疾病知识数据集合,组成第一搜索结果数据;并由所有所述第一搜索
结果数据组成第一搜索结果数据集合,并输出。
[0050] 本发明实施例提供一种通过语音搜索疾病知识的方法和系统,基于预设的疾病知识库,并在其之上附加语音识别功能和疾病分类学习模型,不仅为用户省去了不必要的输
入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。

附图说明

[0051] 图1为本发明实施例一提供的一种通过语音搜索疾病知识的方法示意图;
[0052] 图2为本发明实施例二提供的一种通过语音搜索疾病知识的系统结构示意图。

具体实施方式

[0053] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施
例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的
所有其它实施例,都属于本发明保护的范围。
[0054] 本发明实施例一提供一种通过语音搜索疾病知识的方法,如图1为本发明实施例一提供的一种通过语音搜索疾病知识的方法示意图所示,本方法主要包括如下步骤:
[0055] 步骤1,疾病知识搜索系统接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据;
[0056] 具体包括:疾病知识搜索系统的数据预处理模块接收第一语音数据,并对第一语音数据,进行第一音频滤波和降噪处理,生成第一语句音频数据。
[0057] 这里,疾病知识搜索系统可以理解为一个具有语音语义识别和智能知识库的系统;该系统包括数据预处理模块、语音识别模块、语义识别模块、疾病学习模块、疾病知识提
取模块;数据预处理模块用于对原始语音数据进行获取和降噪、滤波;语音识别模块用于对
预处理后的音频数据,进行语音识别,得到语句文字数据;语义识别模块再对语句文字数据
进行分词和疾病语义识别,统计出所有的疾病标签也就是语义标签和最大概率的疾病类型
也就是标签类型;疾病学习模块用于按标签类型确定疾病分类学习模型,并将统计出的所
有的疾病标签输入其中进行深度学习,最终得到多个可能的疾病名称以及对应的概率;疾
病知识提取模块用于提取出与所有可能的疾病相关的疾病知识,做为最终的语音搜索结
果。
[0058] 这里,本步骤中,第一语音数据来自于与疾病知识搜索系统连接的语音录音设备或者存储了原始语音数据的终端设备或服务器,疾病知识搜索系统的数据预处理模块通过
语音活动检测算法(Voice Activity Detection,VAD)对语音进行静音、噪音分离处理;使
用最小均方(Least mean square,LMS)自适应滤波、维纳滤波等方式对语音数据中的环境
噪音、回声、混响等进行噪音消除处理。
[0059] 步骤2,对第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据;
[0060] 具体包括:疾病知识搜索系统的语音识别模块将第一语句音频数据,输入第一声学语言识别模型中进行识别处理,生成第一语句文字数据。
[0061] 这里,疾病知识搜索系统的语音识别模块使用的第一声学语言识别模型常用的有:1)隐马尔科夫模型((Hidden Markov Model,HMM)+高斯混合模型(Gaussian Mixture 
Model,GMM)+N‑Gram语言模型/汉语语言模型(Chinese Language Model,CLM)组成的声学
语言识别模型;2)HMM+深度神经网络(Deep Neural Network,DNN)+N‑Gram/CLM组成的声学
语言识别模型;第一声学语言识别模型对输入的第一语句音频数据,进行特征数据提取,并
对特征数据进行发音匹配得到最大概率的发音数据序列,再对发音数据序列进行语言单
字、词识别,得到最大概率的词串也就是第一语句文字数据。
[0062] 步骤3,对第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;
[0063] 其中,第一语义标签数据集合包括第一标签类型数据和多个第一语义标签数据;
[0064] 这里,疾病知识搜索系统的语义识别模块从第一语句文字数据中提取出与已知疾病有关的标签类型和语义标签;
[0065] 具体包括:步骤31,疾病知识搜索系统的语义识别模块将第一语句文字数据,输入第一智能分词识别模型中进行识别处理,生成多个第一分词数据;
[0066] 这里,疾病知识搜索系统的语义识别模块使用的第一智能分词识别模型是一种基于自然语言处理(Natural Language Processing,NLP)的算法模型,常用的有:正向最大匹
配(Maximum Match,MM)算法模型、逆向最大匹配(Reverse Maximum Match,RMM)算法模型、
双向最大匹配(Bi‑directction Matching,BM)算法模型、HMM算法模型和条件随机场
(conditional random field,CRF)算法模型;
[0067] 这里,NLP理论是计算机科学领域以及人工智能领域中,用于处理、理解以及运用人类语言,从而达到人与计算机之间进行有效通讯的技术理论;NLP基本可以分为两个部
分:自然语言分解处理以及自然语言生成处理;本发明实施例中主要是涉及其对自然语言
的分解处理部分,具体的,是使用基于NLP理论的第一人工智能分词算法模型从第一原始信
息中提取出分词;所谓分词,就是一段文字信息中的最小单位的词语,一段文字信息会包含
多个分词;
[0068] 例如,第一语句文字数据为“我的牙疼疼得牙床肿了”,使用第一智能分词识别模型对第一语句文字数据进行分词提炼,并在提炼中以名词+动词做为提炼增项,最后得到的
多个第一分词信息分别为:“我”、“的”、“牙”、“疼”、“疼”、“得”、“牙”、“床”、“肿”、“了”+“牙疼”、“牙床肿”;
[0069] 步骤32,使用多个第一分词数据,查询反映分词与语义标签对应关系的第一分词与语义标签对应关系表,得到多个第一语义标签数据;
[0070] 其中,第一分词与语义标签对应关系表包括多个第一分词与语义标签对应关系记录;第一分词与语义标签对应关系记录包括第一分词信息和第一语义标签信息;
[0071] 具体包括:对第一分词与语义标签对应关系表的第一分词与语义标签对应关系记录进行轮询,并将当前被轮询的第一分词与语义标签对应关系记录,做为第一当前记录;
[0072] 使用多个第一分词数据,与第一当前记录的第一分词信息进行第一匹配处理;从多个第一分词数据中,依次提取第一分词数据,做为第一当前分词数据;当第一当前分词数
据与第一分词信息相同时,第一匹配处理成功;第一匹配处理成功时,提取第一当前记录的
第一语义标签信息,生成第一语义标签数据;
[0073] 这里,疾病知识搜索系统的语义识别模块使用的第一分词与语义标签对应关系表可以为数据库关系表,还可以为数据文件;通过第一分词与语义标签对应关系表对自然语
言的词语进行疾病语义标签化处理,可以减少因重复表达、近似表达而产生的冗余数据;这
里的语义标签实际就是与疾病症状相关的标签,例如,195表示牙神经感知不良、196表示牙
龈病变、197表示牙出血症状、279表示胸腔不适、280表示呼吸不畅等等;
[0074] 例如,第一分词与语义标签对应关系表如表一所示,多个第一分词信息分别为:“我”、“的”、“牙”、“疼”、“疼”、“得”、“牙”、“床”、“肿”、“了”+“牙疼”、“牙床肿”,则得到两个第一语义标签数据:195和196;
[0075]
[0076] 表一
[0077] 步骤33,根据每个第一语义标签数据,查询反映语义标签与标签类型对应关系的第一语义标签与标签类型对应关系表,生成对应的第一查询标签类型数据;
[0078] 其中,第一语义标签与标签类型对应关系表包括多个第一语义标签与标签类型对应关系记录;第一语义标签与标签类型对应关系记录包括第二语义标签信息和第一标签类
型信息;
[0079] 具体包括:对第一语义标签与标签类型对应关系表的第一语义标签与标签类型对应关系记录进行轮询,并将当前被轮询的第一语义标签与标签类型对应关系记录,做为第
二当前记录;
[0080] 当每个第一语义标签数据与第二当前记录的第二语义标签信息相同时,提取第二当前记录的第一标签类型信息,做为对应的第一查询标签类型数据;
[0081] 这里,疾病知识搜索系统的语义识别模块使用的第一语义标签与标签类型对应关系表可以为数据库关系表,还可以为数据文件;通过第一语义标签与标签类型对应关系表
查询疾病语义标签对应的疾病类型,这里的疾病类型实际是大类,例如,11表示与牙相关的
疾病,21表示与心脏相关的疾病,31表示与呼吸道相关的疾病等等;
[0082] 例如,第一语义标签与标签类型对应关系表如表二所示,两个第一语义标签数据:195和196,则得到的两个第一查询标签类型数据为11、11;
[0083]
[0084] 表二
[0085] 步骤34,在所有第一查询标签类型数据中,将类型相同的第一查询标签类型数据合并为一个类型组,并将包含第一查询标签类型数据的数量最多的类型组对应的标签类
型,做为第一标签类型数据;
[0086] 这里,是从多种疾病大类中挑出概率最大的疾病大类;
[0087] 例如,两个第一语义标签数据:195和196;对应的所有第一查询标签类型数据为11、11;产生一个类型组,包括11,11;包含第一查询标签类型数据的数量最多的类型组对应
的标签类型也就是该类型组的标签类型11,则第一标签类型数据为11;
[0088] 步骤35,由所有第一语义标签数据,组成多个第一语义标签数据;由第一标签类型数据及多个第一语义标签数据,组成第一语义标签数据集合。
[0089] 这里,经过步骤3的步骤31‑35的,疾病知识搜索系统的语义识别模块对步骤2得出的第一语句文字数据,做了进一步关于疾病的语义分析,得到的第一语义标签数据集合中,
包含了最大概率疾病大类也就是第一标签类型数据,和从原始语句中提炼出的所有与症状
相关的语义标签。
[0090] 步骤4,根据多个第一语义标签数据,进行与第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据;
[0091] 具体包括:疾病知识搜索系统的疾病学习模块根据第一标签类型数据,确定对应的第一疾病分类学习模型;并将多个第一语义标签数据,输入第一疾病分类学习模型中进
行学习,得到多组第一学习输出数据组;每组第一学习输出数据组包括第一疾病名称数据
和对应的第一疾病概率数据。
[0092] 这里,疾病知识搜索系统中可以有多个疾病分类学习模型,例如与牙相关疾病的牙病分类学习模型,与心脏相关疾病的心脏病分类学习模型,与呼吸道相关疾病的呼吸道
分类学习模型等等;每个疾病分类学习模型在使用之前,都需由疾病知识搜索系统的模型
训练模块使用语义标签及疫病名称训练库训练成熟;疾病分类学习模型采用的算法模型常
用的是随机森林模型,可以对输入数据的类型进行分类识别,并得到多个可能的分类结果
以及每个结果的概率;例如,第一标签类型数据为11,选择对应的疾病分类学习模型也就是
牙病分类学习模型,对两个第一语义标签数据:195和196,进行学习,最终的计算结果是:牙
周炎及其可能概率44%,牙龈炎及其可能概率10.27%,牙髓炎及其可能概率8.57%,龋齿
及其可能概率4.11%。
[0093] 步骤5,根据每个第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集合;
[0094] 其中,第一名称与相关信息对应关系表包括多个第一名称与相关信息对应关系记录;第一名称与相关信息对应关系记录包括第一疾病名称信息、第一疾病定义信息、第一疾
病症状信息、第一疾病成因信息、第一疾病诊断方式信息、第一疾病临床表现信息和第一疾
病治疗方式信息;第一疾病知识数据集合至少包括第一疾病定义数据、第一疾病症状数据、
第一疾病成因数据、第一疾病诊断方式数据、第一疾病临床表现数据和第一疾病治疗方式
数据;
[0095] 具体包括:疾病知识搜索系统的疾病知识提取模块根据每个第一疾病名称数据,对第一名称与相关信息对应关系表的所有第一名称与相关信息对应关系记录进行轮询,并
将当前被轮询的第一名称与相关信息对应关系记录,做为第二当前记录;
[0096] 当每个第一疾病名称数据与第二当前记录的第一疾病名称信息相同时,从第二当前记录中,提取第一疾病定义信息做为对应的第一疾病定义数据,提取第一疾病症状信息
做为对应的第一疾病症状数据,提取第一疾病成因信息做为对应的第一疾病成因数据,提
取第一疾病诊断方式信息做为对应的第一疾病诊断方式数据,提取第一疾病临床表现信息
做为对应的第一疾病临床表现数据,提取第一疾病治疗方式信息做为对应的第一疾病治疗
方式数据;
[0097] 并由第一疾病定义数据、第一疾病症状数据、第一疾病成因数据、第一疾病诊断方式数据、第一疾病临床表现数据、第一疾病治疗方式数据,组成对应的第一疾病知识数据集
合。
[0098] 这里,疾病知识搜索系统的疾病知识提取模块使用的第一名称与相关信息对应关系表实际就是一个疾病知识库,其可以为一个关系型数据库,也可以为由多个数据库关系
表组成的表单集合,还可以为由多个数据文件组成的文件集合;第一名称与相关信息对应
关系表中,每条第一名称与相关信息对应关系记录,记录了一种疾病的相关信息,包括名
称、定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等;以第一疾病名称数据做
为查询关键字,通过查询第一名称与相关信息对应关系,就能将所有相关信息提取出来;
[0099] 例如,从步骤4中得到4组第一疾病名称数据和对应的第一疾病概率数据:牙周炎及其可能概率44%,牙龈炎及其可能概率10.27%,牙髓炎及其可能概率8.57%,龋齿及其
可能概率4.11%;那么通过步骤5就可以得到4个第一疾病知识数据集合:关于牙周炎的疾
病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等),关
于牙龈炎的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治
疗方式等),关于牙髓炎的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、
临床表现、治疗方式等),关于龋齿的疾病知识数据集合(包括定义、常见症状、病因和诱因、
诊断方式、临床表现、治疗方式等)。
[0100] 步骤6,由每个第一疾病名称数据,及其对应的第一疾病概率数据和第一疾病知识数据集合,组成第一搜索结果数据。
[0101] 例如,疾病知识搜索系统的疾病知识提取模块由4组第一疾病名称数据和对应的第一疾病概率数据,和4个第一疾病知识数据集合,得到4个第一搜索结果数据:
[0102] 第1个第一搜索结果数据:牙周炎、可能概率44%、关于牙周炎的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等);
[0103] 第2个第一搜索结果数据:牙龈炎、可能概率10.27%、关于牙龈炎的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等);
[0104] 第3个第一搜索结果数据:牙髓炎、可能概率8.57%、关于牙髓炎的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等);
[0105] 第4个第一搜索结果数据:龋齿、可能概率4.11%、关于龋齿的疾病知识数据集合(包括定义、常见症状、病因和诱因、诊断方式、临床表现、治疗方式等)。
[0106] 步骤7,由所有第一搜索结果数据组成第一搜索结果数据集合,并输出。
[0107] 这里,疾病知识搜索系统的疾病知识提取模块将得到的所有第一搜索结果数据,组装成第一搜索结果数据集合向用户进行反馈。
[0108] 另外,疾病知识搜索系统还包括模型训练模块,本发明实施例在将每个疾病分类学习模型投入使用之前,都需由模型训练模块使用语义标签及疫病名称训练库,对每个疾
病分类学习模型进行训练,这里将训练过程简要描述如下:
[0109] 步骤A1,疾病知识搜索系统的模型训练模块从语义标签及疫病名称训练库中,提取出与指定疫病名称训练数据对应的多组语义标签训练数据,输入第一疾病分类学习模型
中进行训练,得到多组训练输出数据组;
[0110] 其中,语义标签及疫病名称训练库中包括多个语义标签训练数据和多个疫病名称训练数据;每个疫病名称训练数据,对应多个语义标签训练数据;训练输出数据组包括训练
输出疾病名称数据和训练输出疾病概率数据。
[0111] 这里,语义标签及疫病名称训练库里的训练数据都是经过验证过的数据,其中语义标签训练数据与疫病名称训练数据的对应关系也是经过验证无误的;语义标签及疫病名
称训练库的数据可以为第三方测试机构提供的有效测试数据,也可以是从医疗机构获取的
医疗数据;训练数据量越大、对应关系越准确,训练出的模型精度越高。
[0112] 步骤A2,当多组训练输出数据组中,概率最高的训练输出疾病概率数据对应的训练输出疾病名称数据与指定疫病名称训练数据相同、且概率最高的训练输出疾病概率数据
超出设定的训练概率阈值、和或其他训练输出疾病名称数据与指定疫病名称训练数据的相
关度超出设定的训练相关度阈值时,学习模型训练处理成功。
[0113] 这里是描述的在模型训练过程中终止训练的条件:在保证指定疾病名称数据会出现且概率最大的前提下,其概率的精度要足够高,以超过设定的训练概率阈值为基准;并且
还可以考虑其他分类结果与主要分类结果的相关性,相关度越高、模型的计算精度也越高,
以超过设定的训练相关度阈值为基准。
[0114] 又另外,疾病知识搜索系统还包括评分处理模块,本发明实施例在输出第一搜索结果数据集合之后,评分处理模块会根据用户对输出结果的评分,来自动充实语义标签及
疫病名称训练库,具体描述如下:
[0115] 步骤B1,疾病知识搜索系统的评分处理模块接收第一评分数据集合;
[0116] 其中,第一评分数据集合包括多个第一评分数据;第一评分数据集合与第一搜索结果数据集合对应;第一评分数据与第一搜索结果数据对应。
[0117] 例如,疾病知识搜索系统向用户显示了4个第一搜索结果数据之后,还为用户提供了一个评价功能,评价的等级有三等:最符合、一般符合、不符合;若用户对第1个第一搜索
结果数据评分最符合,对第2个评分一般符合,对第3、4个评分不符合,则评分处理模块会获
得的第一评分数据集合中的4个第一评分数据为:最符合、一般符合、不符合、不符合。
[0118] 步骤B2,将多个第一语义标签数,做为新增语义标签训练数据;在语义标签及疫病名称训练库中,将与评分最高的第一评分数据对应的训练疾病名称数据,做为目标训练疾
病名称数据;在语义标签及疫病名称训练库中,添加新增语义标签训练数据,并在新增语义
标签训练数据与目标训练疾病名称数据间,建立对应关系。
[0119] 例如,从第一评分数据集合的4个第一评分数据中,评分最高的也就是评分为最符合的第1个第一搜索结果数据对应的疾病名称数据为“牙周炎”,那么本步骤就会将本次由
用户语音转换得到的两个第一语义标签数:195和196,在语义标签及疫病名称训练库中进
行添加,并使之与库中具体为“牙周炎”的训练疾病名称数据进行关联,这实际就是为语义
标签及疫病名称训练库增加有效的训练数据。
[0120] 本发明实施例二提供一种通过语音搜索疾病知识的系统,该系统用于实现与上述实施例中的疾病知识搜索系统的系统功能,具体如图2为本发明实施例二提供的一种通过
语音搜索疾病知识的系统结构示意图所示,该系统20主要包括:数据预处理模块201、语音
识别模块202、语义识别模块203、疾病学习模块204、疾病知识提取模块205和搜索结果输出
模块206。
[0121] 数据预处理模块201用于接收第一语音数据,并对其进行第一语音预处理,生成第一语句音频数据。
[0122] 语音识别模块202用于对第一语句音频数据,进行第一音频文字识别处理,生成第一语句文字数据。
[0123] 语义识别模块203用于对第一语句文字数据,进行第一语义标签识别处理,生成第一语义标签数据集合;第一语义标签数据集合包括第一标签类型数据和多个第一语义标签
数据。
[0124] 疾病学习模块204用于根据多个第一语义标签数据,进行与第一标签类型数据对应的第一疾病分类学习处理,生成多个第一疾病名称数据和对应的第一疾病概率数据。
[0125] 疾病知识提取模块205用于根据每个第一疾病名称数据,查询反映疾病名称与疾病相关信息对应关系的第一名称与相关信息对应关系表,生成对应的第一疾病知识数据集
合。
[0126] 搜索结果输出模块206用于将每个第一疾病名称数据,及其对应的第一疾病概率数据和第一疾病知识数据集合,组成第一搜索结果数据;并由所有第一搜索结果数据组成
第一搜索结果数据集合,并输出。
[0127] 这里,本发明实施例二提供的一种通过语音搜索疾病知识的系统,其模块功能与实施例一中疾病知识搜索系统对应模块的功能一致,在此不做进一步赘述。
[0128] 本发明实施例提供一种通过语音搜索疾病知识的方法和系统,基于预设的疾病知识库,并在其之上附加语音识别功能和疾病分类学习模型,不仅为用户省去了不必要的输
入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
[0129] 专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬
件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。
这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现
不应认为超出本发明的范围。
[0130] 结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器
(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD‑ROM、或技术领域
内所公知的任意其它形式的存储介质中。
[0131] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明
的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含
在本发明的保护范围之内。