一种基于深度学习实现疾病名称标准化分级的系统转让专利
申请号 : CN202311794506.X
文献号 : CN117497111B
文献日 : 2024-03-15
发明人 : 吴行伟 , 童荣生 , 邓博 , 沈浩
申请人 : 四川省医学科学院·四川省人民医院
摘要 :
权利要求 :
1.一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,包括:第一获取模块,用于获取诊断数据的原始疾病名称,得到初始数据;
第二获取模块,用于获取标准分级规则的标准分级标签,得到第一分级标签,所述第一分级标签用于区分属于不同所述标准分级标签的所述初始数据;
第一处理模块,用于分别以每一所述初始数据为中心字,根据第一预设距离和所述中心字对所述初始数据进行划分,得到第一数据;
其中,所述第一预设距离的取值为正整数;
第一分析模块,用于分别将每一所述第一数据输入第一分析模型,输出对应的字向量,所述字向量为将每一所述第一数据映射到向量空间得到的实数向量;
第二分析模块,用于将所述初始数据的所有所述字向量输入第二分析模型,所述第二分析模型对所述字向量进行特征提取,根据所述第一分级标签对所述初始数据进行分类,输出第一分级结果。
2.根据权利要求1所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二分析模型包括:第二输入层,用于加载所述初始数据的所有所述字向量;
第二隐藏层,用于对所有所述字向量进行特征分析和提取,得到第一信息向量和第二信息向量,根据所述第一信息向量和所述第二信息向量计算得到注意力权重,将所述注意力权重和所述第二信息向量相乘得到第三信息向量;
其中,所述第一信息向量为所述初始数据的特征向量,所述第二信息向量为所述初始数据每个字的特征向量;
第二输出层,用于根据所述第三信息向量和所述第一分级标签对所述初始数据进行分类,得到所述第一分级结果。
3.根据权利要求2所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二分析模型还包括根据长短期记忆神经网络模型构建所述第二隐藏层,所述第二分析模型根据预设顺序对每一所述字向量进行特征提取,得到对应的所述第二信息向量。
4.根据权利要求2所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二分析模型还包括根据双向长短期记忆神经网络模型构建所述第二隐藏层,所述第二分析模型根据根据所述初始数据的正向顺序对所有所述字向量进行特征提取,得到第四信息向量,根据所述初始数据的逆向顺序对所有所述字向量进行特征提取,得到第五信息向量,根据所述第四信息向量和所述第五信息向量计算得到所述第二信息向量。
5.根据权利要求3或4所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二分析模型还包括根据最后一个输入所述第二隐藏层的所述字向量对应的所述第二信息向量计算得到所述第一信息向量。
6.根据权利要求1‑4任意一项所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第一分析模型的训练方法包括:获取历史诊断数据中的原始疾病名称,得到第一训练数据集;
所述第一分析模块对所述第一训练数据集中每一样本的每个字预设不同的预设向量,不同字采用不同的所述预设向量,相同字采用相同的所述预设向量;
将所述预设向量作为真实数据,对所述第一分析模型进行训练。
7.根据权利要求6所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二分析模型的训练方法包括:获取第二训练数据集,所述第二训练数据集包括历史诊断数据的原始疾病名称和预设分级标签;
将所述第二训练数据集中的每一所述原始疾病名称输入所述第一处理模块,得到所述第一数据,将对应的所述第一数据输入所述第一分析模块,得到所述字向量;
将所述预设分级标签作为真实数据,将对应的所有所述字向量输入所述第二分析模型,对所述第二分析模型进行训练。
8.根据权利要求7所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述第二训练数据集的获取方法还包括:根据所述标准分级规则对所述第一训练数据集每一样本进行分级得到对应的所述预设分级标签,根据所述预设分级标签和所述第一训练数据集得到所述第二训练数据集。
9.根据权利要求8所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述标准分级规则包括ICD‑10,根据ICD‑10中记录的疾病名称建立所述第一训练数据集和所述第二训练数据集。
10.根据权利要求1所述的一种基于深度学习实现疾病名称标准化分级的系统,其特征在于,所述系统还包括对所述标准分级规则和/或所述标准分级标签进行修改时,采用迁移学习的方式对所述第一分析模型和所述第二分析模型进行训练。
说明书 :
一种基于深度学习实现疾病名称标准化分级的系统
技术领域
背景技术
世界研究的重要变量,包含的诊断名称繁多,在开展医学真实世界研究时通常面临由于原
始临床诊断名称记录不规范或记录标准不统一等原因导致的相同诊断名称记录不一致,进
而导致诊断变量离散或数据损失,对诊断名称的合并费时费力,对诊断数据的统计分析容
易出现难度大、出错率高等问题,同时还对除研究病种之外的合并症、继发病等研究协变量
合并、后续的研究分析及结果解释等存在影响。传统方法通过人工的方式进行识别和处理,
在耗费大量时间和人力成本的同时延长研究周期。
发明内容
准化分级的系统,第一获取模块获取诊断数据的原始疾病名称;第二获取模块获取标准分
级规则的标准分级标签得到第一分级标签;第一处理模块分别以每一初始数据为中心字,
根据第一预设距离和中心字对原始疾病名称进行划分得到第一数据;第一分析模块分别将
每一第一数据输入第一分析模型,输出字向量;第二分析模块将所有字向量输入第二分析
模型,第二分析模型对字向量进行特征提取,根据第一分级标签对原始疾病名称进行分类,
输出第一分级结果,更加全面的获取原始疾病名称中单个字特征、字与字相对位置特征、字
与原始疾病名称相对位置特征的提取,提高分级准确性。
级结果。
注意力权重和所述第二信息向量相乘得到第三信息向量;
到对应的所述第二信息向量。
字向量进行特征提取,得到第四信息向量,根据所述初始数据的逆向顺序对所有所述字向
量进行特征提取,得到第五信息向量,根据所述第四信息向量和所述第五信息向量计算得
到所述第二信息向量。
分级标签和所述第一训练数据集得到所述第二训练数据集。
练。
为“(”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“)”、“高”、“血”、“压”、“亚”、“急”和“症”。其目的在于使分析后的分级结果能够全面、无遗漏地反应原始疾病名称中所包含的信息,避免由于
输入的信息不全面导致分级的不准确。
型更加全面,训练得到的所述第二分析模型的分级经验更加科学和客观。
中心字相邻位置的字的特征,例如中心字在第一预设距离范围内的字的特征,同时还包含
了中心字和相邻位置的字的距离特征和位置特征。距离特征包括中心字与相邻位置的字之
间的距离不大于所述第一预设距离。位置特征包括根据中心字对应的第一数据中的所述第
二数据的数量,可以得到中心字在初始数据中的位置,但是不限于此。例如中心字“(”对应
的第二数据的数量等于3(即第二数据的数量等于第一预设距离的取值),则中心字“(”为初
始数据的第一个字或最后一个字,中心字“I”对应的第二数据的数量为4(即第二数据的数
量等于第一预设距离加一的值),则中心字“I”为初始数据的第二个字或倒数第二个字。因
此,字向量在表示初始数据的特征时,既包含了中心字本身的特征,又包含了中心字的上下
文特征,从而实现更加全面的反映原始疾病名称的特征。
每一所述第二信息向量中的特征。
一个所述字向量进行特征提取后的特征产生影响,从而实现每一所述信息向量中包含的特
征除了对应所述字向量本身的特征以外,还保留了所述第二输入层输入每一所述字向量的
序列信息,所述序列信息反映了所述原始疾病名称中每个字的排列顺序,更加全面的提取
了所述原始疾病名称的特征。
征和逆向顺序特征,避免模型过分关注字与所述原始疾病名称之间的绝对位置关系,更加
关注字与所述原始疾病的上下文和相对位置关系,例如所述原始疾病名称为“(I10.x14)高
血压亚急症”,“高”字位于表所述原始疾病名称的第10位,从而片面地认为第10位为“高”字
的所述原始疾病名称是“(I10.x14)高血压亚急症”。当模型同时学习正向顺序和逆向顺序,
所述信息向量中,第10位(正向顺序)为“高”字的所述原始疾病名称和第6位(逆向顺序)为
“高”字的所述原始疾病名称均代表“(I10.x14)高血压亚急症”,因此,模型在学习
“(I10.x14)高血压亚急症”的特征时,会减少对具体数字“第10位”和“第6位”的关注,从而
更加全面准确地反映所述原始疾病名称中字与字的顺序特征。
所述第二分析模型的准确率,根据所述第一分析模型的所述第一训练数据集得到所述所述
第二分析模型的所述第二训练数据集,一方面实现对数据集的充分利用,避免由于数据集
的样本数量过少,使得难以完成对两个模型训练,另一方面所述第一测试数据集先完成对
所述第一分析模型的训练,所述第一分析模型学习了所述第一训练数据集中的特征,所述
第一分析模型对所述第一训练数据集的预测准确率高,再将所述第一训练数据集输入所述
第二分析模型进行训练,避免新的测试数据集中数据的特征不确定性影响由导致所述第一
分析模型预测结果的不准确,进一步影响对所述第二分析模型的学习结果。
系统需要重新从0开始构建模型结构、训练所述第一分析模型和所述第二分析模型,减少更
新模型的训练量,提高更新效率。
附图说明
具体实施方式
分级标签;第一处理模块分别以每一初始数据为中心字,根据第一预设距离和中心字对原
始疾病名称进行划分得到第一数据;第一分析模块分别将每一第一数据输入第一分析模
型,输出字向量;第二分析模块将所有字向量输入第二分析模型,第二分析模型对字向量进
行特征提取,根据第一分级标签对原始疾病名称进行分类,输出第一分级结果,更加全面的
获取原始疾病名称中单个字特征、字与字相对位置特征、字与原始疾病名称相对位置特征
的提取,提高分级准确性。
仅是本申请一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实
施例的组件可以以各种不同的配置来布置和设计。因此,参考术语“一个实施例”、“一些实
施例”、“实施方式”、“实施例”、“示意性实施例”、“示例”、“具体示例”或“一些示例”等,以下
对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而
是仅仅表示结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个
实施例或示例中。而且描述的具体特征、结构或者特点可以在任何一个或多个实施例或示
例中以合适的方式结合。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的
前提下所获得的所有其他实施例,都属于本申请保护的范围。
描述中,术语“第一”、“第二”等关系术语仅仅用于将一个实体或者操作与另一个实体或操
作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或顺
序。
“(”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“)”、“高”、“血”、“压”、“亚”、“急”和“症”。
应原始疾病名称中所包含的信息,避免由于输入的信息不全面导致分级的不准确。
进行图像识别后得到文字数据、直接调用电子数据、对音频数据进行文字识别后人工修正
的结果,但是其不限于此。上述所述原始疾病名称和所述初始数据的获取方法仅为示意,不
构成对本发明要求保护技术方案的限制。
床表现等特征进行分级,但是在进行疾病的研究任务过程中,会增加对病理等特征的关注。
因此,所述标准分级规则可以根据实际应用场景进行预设,也可根据本领域内技术人员公
知的分级规范进行预设,或者其他分级规则。
编码的方法来表示。所述方法收录的疾病记录近26000多条,内容全面准确,涵盖医院所有
科别的各种疾病,是国内目前最完备的,主要包括ICD‑10编码,手术码,疾病名称,拼音码。
使用ICD‑10中的疾病名称作为所述训练数据集得到的所述字向量能更好的表示疾病名称
领域中每个字的特征和关系。使用ICD‑10作为所述标准分级规则覆盖的疾病类型更加全
面,训练得到的所述第二分析模型的分级经验更加科学和客观。
如原始疾病名称为“(I10.x14)高血压亚急症”,根据所述标准分级规则进行分级后,所述原
始疾病名称对应的三级疾病名称为高血压亚急症,对应的二级疾病名称为高血压急症,对
应的一级疾病名称为循环系统疾病,则在上述标准分级规则中的所述标准分级标签包括所
述一级疾病名称、所述二级疾病名称和所述三级疾病名称,所述第一分级标签为所述三级
疾病名称。上述所述标准分级标签和所述第一分级标签仅为示意,不构成对本发明要求保
护技术方案的限制。
病编码,或者是其他用于区分不同所述原始疾病名称的数据。本发明不对所述标准分级标
签和所述第一分级标签的具体形式进行进一步的限定。
括数据集中每一样本的长度和分析精度,但是其不限于此。
值越大,例如对于字数大于6的所述原始疾病名称,若所述第一预设距离的取值为1,则所述
中心字对应的所述第一数据的数量为1或2,若所述第一预设距离的取值为3,则所述中心字
对应的所述第一数据的数量为3‑6,则模型在获取所述原始疾病名称的特征时,单个字的所
述第一数据更多,模型学到的分级经验更全面。
“(”、“I”、“1”、“0”、“.”、“x”、“1”、“4”、“)”、“高”、“血”、“压”、“亚”、“急”和“症”,则中心字“(”对应的所述第一数据包括[“(”:“I”]、[“(”:“1”]和[“(”:“0”],中心字“0”对应的所述第一数据为[“0”:“(”]、[“0”:“I”] 、[“0”:“1”]、[“0”:“.”]、[“0”:“x”]和[“0”:“1”],中心字“症”对应的所述第一数据包括[“症”:“压”]、[“症”:“亚”]和[“症”:“急”]。
只包含:“高”“糖”“病”“压”和“血”数据进行编码,则“高”字经过编码后的所述字向量可以
表示为[1,0,0,0,0],“压”字经过编码后的所述字向量可以表示为[0,0,0,1,0]。
实现,例如卷积神经网络、感知机等。
述第一分析模型,所述第一输入层根据所述第一数据随机生成一个预设维度的向量,例如
中心字“(”对应的所述第一数据为[“(”:“I”]、[“(”:“1”]和[“(”:“0”],预设维度为300维,则所述第一输入层对“(”、“I”、“1”和“0”分别随机生成一个298维向量进行表示,根据所述
298维向量分别对[“(”:“I”]、[“(”:“1”]和[“(”:“0”]进行编码得到对应的299维向量,根据
3个所述299维向量对中心字“(”进行编码得到对应的300维向量。所述第一隐藏层用于对所
述第一数据在所述输入层的编码结果进行特征提取,所述第一输出层用于输出所述中心字
对应的所述字向量。
述第一数据都有对应的所述中心字,又包含了所述中心字相邻位置的字的特征,例如所述
中心字在所述第一预设距离范围内的字的特征,同时还包含了所述中心字和相邻位置的字
的距离特征和位置特征。所述距离特征包括所述中心字与相邻位置的字之间的距离不大于
所述第一预设距离。所述位置特征包括根据所述中心字对应的所述第一数据中的所述第二
数据的数量,可以得到所述中心字在所述初始数据中的位置,但是不限于此。例如中心字
“(”对应的所述第二数据的数量等于3(即所述第二数据的数量等于所述第一预设距离的取
值),则所述中心字“(”为所述初始数据的第一个字或最后一个字,中心字“I”对应的所述第
二数据的数量为4(即所述第二数据的数量等于所述第一预设距离加一的值),则所述中心
字“I”为所述初始数据的第二个字或倒数第二个字。因此,所述字向量在表示所述初始数据
的特征时,既包含了所述中心字本身的特征,又包含了所述中心字的上下文特征,从而实现
更加全面的反映所述原始疾病名称的特征。
级结果。
特征提取后分类,得到所述第一分级结果,从而实现对所述原始疾病名称的分级。
级结果为所述标准分级标准中所述原始疾病名称的所有所述标准分级标签。
注意力权重和所述第二信息向量相乘得到第三信息向量;
加、取均值等方式对所有所述第二信息向量进行整合,本实施例不对具体整合方法进行进
一步限制。
选择性地提取每一所述第二信息向量中的特征。所述注意力权重的获取方法可以选择加性
模型或缩放点积模型等注意力评分模型进行注意力分数的计算。
为所述第一信息向量,K为所述第一信息向量的转置。
量进行特征提取,得到对应的所述第二信息向量。
高血压亚急症”,则所述原始疾病名称的正向顺序为“(I10.x14)高血压亚急症”,所述原始
疾病名称的逆向顺序为“症急亚压血高)41x.01I(”。
所述第二隐藏层的所述字向量的所述第二信息向量h(t)表示为:
向量,并对下一个所述字向量进行特征提取后的特征产生影响,从而实现每一所述信息向
量中包含的特征除了对应所述字向量本身的特征以外,还保留了所述第二输入层输入每一
所述字向量的序列信息,所述序列信息反映了所述原始疾病名称中每个字的排列顺序,更
加全面的提取了所述原始疾病名称的特征。
正向顺序对所有所述字向量进行特征提取,得到第四信息向量,根据所述初始数据的逆向
顺序对所有所述字向量进行特征提取,得到第五信息向量,根据所述第四信息向量和所述
第五信息向量计算得到所述第二信息向量。
生影响的同时,还分别按照所述原始疾病名称的正向顺序和逆向顺序对每一所述字向量进
行特征提取。
析,依次得到第t1个所述字向量对应的所述第四信息向量;将所有所述字向量按照所述原
始疾病名称的逆向顺序排列,得到第二序列信息;将所述第二序列信息输入长短期记忆神
经网络模型进行特征提取和分析,依次得到第t2个所述字向量对应的所述第五信息向量。
号, 为所述第t个所述字向量在所述第二隐藏层提取到的特征向量。
于对所述第四信息向量和所述第五信息向量进行整合,可以选择线性求和、取平均等方式,
本发明不对 的具体选择方式进行进一步限制。
正向顺序特征和逆向顺序特征,避免模型过分关注字与所述原始疾病名称之间的绝对位置
关系,更加关注字与所述原始疾病的上下文和相对位置关系,例如所述原始疾病名称为
“(I10.x14)高血压亚急症”,“高”字位于表所述原始疾病名称的第10位,从而片面地认为第
10位为“高”字的所述原始疾病名称是“(I10.x14)高血压亚急症”。当模型同时学习正向顺
序和逆向顺序,所述信息向量中,第10位(正向顺序)为“高”字的所述原始疾病名称和第6位
(逆向顺序)为“高”字的所述原始疾病名称均代表“(I10.x14)高血压亚急症”,因此,模型在
学习“(I10.x14)高血压亚急症”的特征时,会减少对具体数字“第10位”和“第6位”的关注,
从而更加全面准确地反映所述原始疾病名称中字与字的顺序特征。
述第二隐藏层根据双向长短期记忆神经网络模型构建,则所述第一信息向量为将所述第一
序列信息中最后一个所述字向量的所述第二信息向量和所述第二序列信息中最后一个所
述字向量的所述第二信息向量整合得到,可以选择线性相加、取平均等方式进行整合,本发
明不对具体的整合方式进行进一步限定。
了所述第一序列信息或所述第二序列信息中所有所述字向量的特征,由此可知,最后一个
所述字向量的所述第二信息向量可以作为所述第一信息向量进行计算。
布差异,具体计算方法如下:
述第一训练数据集中的第i个样本的所述预测向量。
模型的模型参数进行调整。所述性能参数包括准确率和计算时长,但是其不限于此。所述模
型参数包括所述第一隐藏层中包含的计算层数,但是其不限于此。
分析模型根据所述字向量对所述第二训练数据集中的每一样本进行分类,得到预测分级标
签,根据所述第而分析模型的损失函数计算所述预测分级标签和所述预设分级标签的分布
差异,具体如下:
第二训练数据集中样本的数量。
模型的模型参数进行调整。所述性能参数包括准确率和计算时长,但是其不限于此。所述模
型参数包括所述第二隐藏层中包含的计算层数,但是其不限于此。
预设分级标签和所述第一训练数据集得到所述第二训练数据集。
准确率会影响所述第二分析模型的准确率,根据所述第一分析模型的所述第一训练数据集
得到所述所述第二分析模型的所述第二训练数据集,一方面实现对数据集的充分利用,避
免由于数据集的样本数量过少,使得难以完成对两个模型训练,另一方面所述第一测试数
据集先完成对所述第一分析模型的训练,所述第一分析模型学习了所述第一训练数据集中
的特征,所述第一分析模型对所述第一训练数据集的预测准确率高,再将所述第一训练数
据集输入所述第二分析模型进行训练,避免新的测试数据集中数据的特征不确定性影响由
导致所述第一分析模型预测结果的不准确,进一步影响对所述第二分析模型的学习结果。
二信息模型进行更新。
二分类模型的所述第二输入层和所述第二隐藏层结构和权重参数,将新的训练数据集用于
训练所述第二输出层,从而实现新的分类,得到新的分级结果。
类的权重参数存在差异,因此仅仅需要重新对所述第二输出层根据新的所述标准分级规则
进行训练,得到新的分类权重参数,从而实现对所述第二分析模型的训练。
化导致对整个系统需要重新从0开始构建模型结构、训练所述第一分析模型和所述第二分
析模型,减少更新模型的训练量,提高更新效率。
有处理器可执行的计算机程序,当计算设备运行时,处理器执行该计算机程序,以执行上述
实施例的任一可选的实施方式中的系统。
性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access
Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable
Read‑Only Memory,简称EEPROM),可擦出可编程只读存储器(Erasable Programmable
Read‑Only Memory,简称EPROM),可编程只读存储器(Programmable Read‑Only Memory,简
称PROM),只读存储器(Read‑Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
分,实际实现时可以由另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到
另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或
直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以
是电性,机械或其他的形式。
个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的
目的。
步骤。同时,也可以将其他操作添加到这些过程中。
们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解
释,除非这里明确地这样定义。
仅为本申请的实施例而已,只是用于帮助理解本申请的一种基于深度学习实现疾病名称标
准化分级的系统,并不用于限制本申请的保护范围;同时,对于本领域的技术人员来说,本
申请可以有各种更改和变化。凡在本申请的和精神和原则之内,所作的任何修改、等同替
换,均应包含在本申请的保护范围之内。