病历文书中实体概念的提取方法、装置及可读存储介质转让专利

申请号 : CN202111058855.6

文献号 : CN113505599B

文献日 : 2021-12-07

本申请提供了一种病历文书中实体概念的提取方法、装置及可读存储介质，基于从病历文书中提取出的至少一个实体概念分词以及每个实体概念分词的属性类型，构建得到至少一个候选概念元组；基于每个候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；根据预测判别类型从至少一个候选概念元组中确定出至少一个目标概念元组；对每个目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。这样，在统一了病历文本中病症描述信息的同时，还能够简化病历文本中的信息。

1.一种病历文书中实体概念的提取方法，其特征在于，所述提取方法包括：从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；

基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组；

针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；

基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组；

针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组；

其中，通过以下步骤确定该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量：

确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量；

针对于该候选概念元组包括的每个实体概念分词，确定该实体概念分词的属性类型的属性id，将所述属性id对应的类型向量确定为该实体概念分词的类型向量；

针对于该候选概念元组中的每两个实体概念分词，确定该两个实体概念分词之间关联关系的关联id，将所述关联id对应的关系向量确定为该两个实体概念分词的关系向量；

利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

2.根据权利要求1所述的提取方法，其特征在于，所述从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型，包括：将获取到的病历文书切分为至少一个待提取医学语句；

对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；

从所述至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

3.根据权利要求1所述的提取方法，其特征在于，所述针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型，包括：拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，得到该候选概念元组的特征向量矩阵；

将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型。

4.根据权利要求3所述的提取方法，其特征在于，所述将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型，包括：将所述特征向量矩阵输入至训练好的类别预测模型的分值评估层中，通过所述分值评估层确定该候选概念元组的评估分值；

将所述评估分值输入至所述类别预测模型的判别层中，通过所述判别层确定该候选概念元组的预测判别类型。

5.一种病历文书中实体概念的提取装置，其特征在于，所述提取装置包括：提取模块，用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；

构建模块，用于基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组；

预测模块，用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；

元组确定模块，用于基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组；

处理模块，用于针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组；

其中，所述提取装置还包括向量确定模块，所述向量确定模块用于：确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量；

利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

6.根据权利要求5所述的提取装置，其特征在于，所述提取模块在用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型时，所述提取模块用于：将获取到的病历文书切分为至少一个待提取医学语句；

对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；

从所述至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

7.根据权利要求5所述的提取装置，其特征在于，所述预测模块在用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型时，所述预测模块用于：拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，得到该候选概念元组的特征向量矩阵；

将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型。

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至4任一所述的提取方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至4任一所述的提取方法的步骤。

病历文书中实体概念的提取方法、装置及可读存储介质

技术领域

[0001] 本申请涉及数据处理技术领域，尤其是涉及一种病历文书中实体概念的提取方法、装置及可读存储介质。

背景技术

[0002] 传统的病历管理系统往往采用纸质档案，不仅管理不方便，因此，随着科技的不断发展，医院的病历文本逐渐电子化，但是，由于医生的录入习惯上的差异，对于相同病症可
能存在有不同的描述信息，当需要针对于某一患者或者某一科室的病历进行整理时，仍然
需要花费大量的时间在信息核对上，因此，如何将不同医生开具的病历中的描述信息标准
化成为了亟待解决的问题。

发明内容

[0003] 有鉴于此，本申请的目的在于提供一种病历文书中实体概念的提取方法、装置及可读存储介质，可以基于病历文本中描述病症的实体概念分词，构建得到用于描述病历文
书的至少一个实体概念元组，进而，在统一了病历文本中病症描述信息的同时，还能够简化
病历文本中的信息。

[0004] 本申请实施例提供了一种病历文书中实体概念的提取方法，所述提取方法包括：

[0005] 从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；

[0006] 基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组；

[0007] 针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系
向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；

[0008] 基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组；

[0009] 针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。

[0010] 在一种可能的实施方式中，所述从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型，包括：

[0011] 将获取到的病历文书切分为至少一个待提取医学语句；

[0012] 对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；

[0013] 从所述至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

[0014] 在一种可能的实施方式中，所述针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、
每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念
元组的预测判别类型，包括：

[0015] 拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的
完整度向量，得到该候选概念元组的特征向量矩阵；

[0016] 将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型。

[0017] 在一种可能的实施方式中，通过以下步骤确定该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分
词之间的关系向量以及该候选概念元组的完整度向量：

[0018] 确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量；

[0019] 针对于该候选概念元组包括的每个实体概念分词，确定该实体概念分词的属性类型的属性id，将所述属性id对应的类型向量确定为该实体概念分词的类型向量；

[0020] 针对于该候选概念元组中的每两个实体概念分词，确定该两个实体概念分词之间关联关系的关联id，将所述关联id对应的关系向量确定为该两个实体概念分词的关系向
量；

[0021] 利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

[0022] 在一种可能的实施方式中，所述将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型，包括：

[0023] 将所述特征向量矩阵输入至训练好的类别预测模型的分值评估层中，通过所述分值评估层确定该候选概念元组的评估分值；

[0024] 将所述评估分值输入至所述类别预测模型的判别层中，通过所述判别层确定该候选概念元组的预测判别类型。

[0025] 本申请实施例还提供了一种病历文书中实体概念的提取装置，所述提取装置包括：

[0026] 提取模块，用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；

[0027] 构建模块，用于基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组；

[0028] 预测模块，用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念
分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别
类型；

[0029] 元组确定模块，用于基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组；

[0030] 处理模块，用于针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。

[0031] 在一种可能的实施方式中，所述提取模块在用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型时，所述提取模块用于：

[0032] 将获取到的病历文书切分为至少一个待提取医学语句；

[0033] 对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；

[0034] 从所述至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

[0035] 在一种可能的实施方式中，所述预测模块在用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类
型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，
确定该候选概念元组的预测判别类型时，所述预测模块用于：

[0036] 拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的
完整度向量，得到该候选概念元组的特征向量矩阵；

[0037] 将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型。

[0038] 在一种可能的实施方式中，所述提取装置还包括向量确定模块，所述向量确定模块用于：

[0039] 确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量；

[0040] 针对于该候选概念元组包括的每个实体概念分词，确定该实体概念分词的属性类型的属性id，将所述属性id对应的类型向量确定为该实体概念分词的类型向量；

[0041] 针对于该候选概念元组中的每两个实体概念分词，确定该两个实体概念分词之间关联关系的关联id，将所述关联id对应的关系向量确定为该两个实体概念分词的关系向
量；

[0042] 利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

[0043] 在一种可能的实施方式中，所述预测模块在用于将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型时，所述预测模块用于：

[0044] 将所述特征向量矩阵输入至训练好的类别预测模型的分值评估层中，通过所述分值评估层确定该候选概念元组的评估分值；

[0045] 将所述评估分值输入至所述类别预测模型的判别层中，通过所述判别层确定该候选概念元组的预测判别类型。

[0046] 本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之
间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的提取方法的步骤。

[0047] 本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的提取方法的步骤。

[0048] 本申请实施例提供的病历文书中实体概念的提取方法、装置及可读存储介质，从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；基于所
述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建
得到至少一个候选概念元组；针对于每个候选概念元组，基于该候选概念元组包括的每个
实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体
概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测
判别类型；基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定
出至少一个目标概念元组；针对于每个目标概念元组，对该目标概念元组进行标准化处理，
得到用于描述所述病历文书的至少一个实体概念元组。这样，便可以基于病历文本中描述
病症的实体概念分词，构建得到用于描述病历文书的至少一个实体概念元组，进而，在统一
了病历文本中病症描述信息的同时，还能够简化病历文本中的信息。

[0049] 为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0050] 为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对
范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这
些附图获得其他相关的附图。

[0051] 图1为本申请实施例所提供的一种病历文书中实体概念的提取方法的流程图；

[0052] 图2为本申请实施例所提供的一种病历文书中实体概念的提取装置的结构示意图之一；

[0053] 图3为本申请实施例所提供的一种病历文书中实体概念的提取装置的结构示意图之二；

[0054] 图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

[0055] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅
是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实
施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的
实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实
施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每
个其他实施例，都属于本申请保护的范围。

[0056] 经研究发现，传统的病历管理系统往往采用纸质档案，不仅管理不方便，因此，随着科技的不断发展，医院的病历文本逐渐电子化，但是，由于医生的录入习惯上的差异，对
于相同病症可能存在有不同的描述信息，当需要针对于某一患者或者某一科室的病历进行
整理时，仍然需要花费大量的时间在信息核对上，因此，如何将不同医生开具的病历中的描
述信息标准化成为了亟待解决的问题。

[0057] 基于此，本申请实施例提供了一种病历文书中实体概念的提取方法，在统一了病历文本中病症描述信息的同时，还能够简化病历文本中的信息。

[0058] 请参阅图1，图1为本申请实施例所提供的一种病历文书中实体概念的提取方法的流程图。如图1中所示，本申请实施例提供的病历文书中实体概念的提取方法，包括：

[0059] S101、从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

[0060] S102、基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组。

[0061] S103、针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间
的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型。

[0062] S104、基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组。

[0063] S105、针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。

[0064] 这里，从病例文书中提取出的实体概念分词是指用于描述患者的病症详情的医学概念的词语，例如，“头部”、“疼痛”、“出血”等等。属性类型是指实体概念分词对应的属性信
息，例如：“头部”的属性类型为“部位”、“疼痛”的属性类型为“表现”、“出血”的属性类型为
“表现”。

[0065] 步骤S101、从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

[0066] 该步骤中，获取到的病例文书中不仅仅只包括有用于描述患者病症的实体概念分词，还包括“的”、“地”、“得”等助词，在病例文书的分析阶段中助词对病症的分析并不会有
所帮助，而大量助词的出现还会对数据处理过程造成干扰，增加数据的处理量；因此，为了
便于对病历文书进行分析，需将实体概念分词从病历文书中提取出来，同时，确定提取出的
每个实体概念分词的属性类型。

[0067] 在一种实施方式中，步骤S101包括：将获取到的病历文书切分为至少一个待提取医学语句；对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；从所述
至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类
型。

[0068] 该步骤中，将获取到的病历文书根据语句、段落等拆分为至少一个待提取医学语句；对每个待提取医学语句进行分词处理，得到至少一个可以用于描述患者症状的医学分
词；从至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属
性类型。

[0069] 作为示例，对病历文本进行拆分后得到待提取医学语句“头面部破裂出血伴鼻部肿痛4小时”；对该待提取医学语句进行分词得到至少一个医学分词：“头面部”、“破裂”、“出
血”、“伴”、“鼻部”、“肿痛”、“4小时”；从上述医学分词中提取出实体概念分词：“头面部”、
“破裂”、“出血”、 “鼻部”、“肿痛”、“4小时”；并确定出每个实体概念分词的属性类型：“头面
部：部位”、“破裂：表现”、“出血：表现”、“鼻部：部位”、“肿痛：表现”、“4小时：时间”。

[0070] 步骤S102、基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组。

[0071] 该步骤中，按照预设元组构建模板所预定义的模式，根据每个实体概念分词的属性类型，排列组合提取出的至少一个实体概念分词，构建得到至少一个候选概念元组。

[0072] 作为示例，预设元组构建模板“部位1＋表现1＋表现2”；进一步的，在根据该预设元组构建模板构建候选概念元组时，可以通过进一步的拆分该预设元组构建模板，得到三
种解释该预设元组构建模板的方式：“部位1＋表现1”、“部位1＋表现2”、“部位1＋表现1＋
表现2”；进而，可以根据拆分出的解释该预设元组构建模板的方式，构建得到三个候选概念
元组：“头面部，破裂”、“头面部，出血”、“头面部，破裂，出血”。

[0073] 步骤S103、针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词
之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类
型。

[0074] 这里，由于按照预设元组构建模板构建得到至少一个候选概念元组存在不完整或构建错误的情况，因此，并不是每个候选概念元组均可以用于描述病历文本，为了准确的对
病历文本中的内容进行描述，需要对构建得到的至少一个候选概念元组进行预判，并根据
确定出的候选概念元组的预测判别类型，确定候选概念元组的是否适合用于描述病历文
本。

[0075] 其中，预测判别类型表示候选概念元组是否为可用于描述病历文本的元组，当候选概念元组的预测判别类型为“1”时，可确定该候选概念元组为可用于描述病历文本的目
标概念元组；相应的，当候选概念元组的预测判别类型为“0”时，确定该候选概念元组不可
用于描述病历文本。

[0076] 在一种实施方式中，通过以下步骤确定该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间
的关系向量以及该候选概念元组的完整度向量：

[0077] 步骤1：确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量。

[0078] 该步骤中，首先，确定每个实体概念分词中每个字的字id，例如，实体概念分词“头面部”，需分别确定“头”的字id1、“面”的字id2以及“部”的字id3；然后，将字id1对应的字向
量，确定为“头”字对应的字向量、将字id2对应的字向量，确定为“面”字对应的字向量以及
将字id3对应的字向量，确定为“部”字对应的字向量。

[0079] 步骤2：针对于该候选概念元组包括的每个实体概念分词，确定该实体概念分词的属性类型的属性id，将所述属性id对应的类型向量确定为该实体概念分词的类型向量。

[0080] 该步骤中，首先，确定候选概念元组中每个实体概念分词的属性类型的属性id，例如，“头面部”的属性类型为“部位”、“破裂”的属性类型为“表现”，此时，便需要确定“部位”
的属性id1以及“表现”的属性id2；然后，将属性id对应的类型向量，确定为实体概念分词的
类型向量，例如，将属性id1对应的类型向量确定为“头面部”的类型向量，将属性id2对应的
类型向量确定为“破裂”的类型向量。

[0081] 步骤3：针对于该候选概念元组中的每两个实体概念分词，确定该两个实体概念分词之间关联关系的关联id，将所述关联id对应的关系向量确定为该两个实体概念分词的关
系向量。

[0082] 该步骤中，由于实体概念分词是从病历文本中提取出的，因此，两个实体概念分词之间会存在一定的关联关系，具体的，首先，可以利用设计好的attention机制，确定每两个
实体概念分词之间的关联关系；其次，确定关联关系对应的关联id；然后，将关联id对应的
关系向量确定为两个实体概念分词的关系向量。

[0083] 例如，实体概念分词“破裂”用于描述实体概念分词“头面部”，因此，“头面部”与“破裂”之间存在描述的关联关系，确定“描述”这一关联关系的关联id ，将关联id对应的关
系向量，确定为“头面部”与“破裂”这两个实体概念分词的关系向量。

[0084] 步骤4：利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

[0085] 该步骤中，由于对预设元组构建模板进行解释的多样性，例如，预设元组构建模板“部位1＋表现1＋表现2”，可解释为：“部位1＋表现1”、“部位1＋表现2”、“部位1＋表现1＋
表现2”，因此，构建得的多个候选概念元组会存在不完整的情况，例如，相较于“部位1＋表
现1＋表现2”，“部位1＋表现1”则是不完整；因此，本申请利用设计好的attention机制确定
每个候选概念元组对应的完整度id，将完整度id对应的完整度向量，确定为候选概念元组
的完整度向量。

[0086] 在一种实施方式中，步骤S103包括：拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之
间的关系向量以及该候选概念元组的完整度向量，得到该候选概念元组的特征向量矩阵；
将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类
型。

[0087] 该步骤中，针对于每个候选概念元组，在拼接该候选概念元组的各个向量得到该候选概念元组的特征向量矩阵时，可以以行向量进行拼接，也可以以列向量进行拼接，在此
不做具体限制，可根据实际情况决定向量的拼接方式。

[0088] 在一种实施方式中，所述将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型，包括：将所述特征向量矩阵输入至训练好的类别预
测模型的分值评估层中，通过所述分值评估层确定该候选概念元组的评估分值；将所述评
估分值输入至所述类别预测模型的判别层中，通过所述判别层确定该候选概念元组的预测
判别类型。

[0089] 该步骤中，首先，将候选概念元组的特征向量矩阵输入至训练好的类别预测模型的分值评估层中，分值评估层会根据候选概念元组的特征向量矩阵，确定该候选概念元组
的评估分值；将候选概念元组的评估分值输入至类别预测模型的判别层中，使得判别层可
根据候选概念元组的评估分值确定候选概念元组的预测判别类型。

[0090] 作为示例，分值评估层在确定出候选概念元组的评估分值后，判别层可根据候选概念元组的评估分值对候选概念元组进行二分类，确定候选概念元组的预测判别类型，例
如，候选概念元组1：（头面部，破裂）评估分值为0.4<0.5，预测判别类型为“0”；候选概念元
组2：（头面部，破裂，4小时）评估分值为0.9>0.5，预测判别类型为“1”；候选概念元组3：（头
面部，出血）评估分值为0.3<0.5，预测判别类型为“0”；候选概念元组4：（头面部，出血，4小
时）评估分值为0.9>0.5，预测判别类型为“1”；候选概念元组5：（鼻部，肿痛，4小时）评估分
值为0.9>0.5，预测判别类型为“1”。

[0091] 这里，类别预测模型是基于深度学习模型训练得到的，具体的，通过以下步骤训练得到类别预测模型：

[0092] 步骤1：获取每个样本概念元组的样本特征矩阵，每个样本概念元组的判别标签以及每个样本概念元组的样本评估分值；

[0093] 步骤2：将每个样本概念元组的样本特征矩阵作为输入特征，将每个样本概念元组的样本评估分值作为输出特征，训练构建好的深度学习模型中的分值评估层；

[0094] 步骤3：将每个样本概念元组的样本评估分值作为输入特征，将每个样本概念元组的判别标签作为输出特征，训练构建好的深度学习模型中的判别层，得到训练好的类别预
测模型。

[0095] 步骤S104、基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组。

[0096] 该步骤中，当候选概念元组的预测判别类型指示该候选概念元组为可用于描述病历文本时，确定该候选概念元组为目标概念元组，以此，从至少一个候选概念元组中确定出
至少一个目标概念元组。

[0097] 步骤S105、针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。

[0098] 该步骤中，对确定出的目标概念元组进行标准化，首先，根据目标概念元组中的实体概念分词，确定目标概念元组的标准实体名；然后，利用实体概念分词以及实体概念分词
的属性类型描述标准实体名，得到用于描述病历文书的至少一个实体概念元组。

[0099] 作为示例，这对于目标概念元组1：（头面部，破裂，4小时）、目标概念元组2：（头面部，出血，4小时）、目标概念元组3：（鼻部，肿痛，4小时），对上述目标概念元组1进行标准化
处理，得到实体概念元组1：（标准实体名：头部破裂，部位：头面部，表现：破裂，时间：4小
时）；对上述目标概念元组2进行标准化处理，得到实体概念元组2（标准实体名：头部出血，
部位：头面部，表现：出血，时间：4小时）：对上述目标概念元组3进行标准化处理，得到实体
概念元组3：（标准实体名：鼻部肿痛，部位：鼻部，表现：肿痛，时间：4小时）。

[0100] 本申请实施例提供的病历文书中实体概念的提取方法，从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；基于所述至少一个实体概念分
词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念
元组；针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字
的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向
量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；基于每个候
选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元
组；针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历
文书的至少一个实体概念元组。这样，便可以基于病历文本中描述病症的实体概念分词，构
建得到用于描述病历文书的至少一个实体概念元组，进而，在统一了病历文本中病症描述
信息的同时，还能够简化病历文本中的信息。

[0101] 请参阅图2、图3，图2为本申请实施例所提供的一种病历文书中实体概念的提取装置的结构示意图之一，图3为本申请实施例所提供的一种病历文书中实体概念的提取装置
的结构示意图之二。如图2中所示，所述提取装置200包括：

[0102] 提取模块210，用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；

[0103] 构建模块220，用于基于所述至少一个实体概念分词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念元组；

[0104] 预测模块230，用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概
念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判
别类型；

[0105] 元组确定模块240，用于基于每个候选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元组；

[0106] 处理模块250，用于针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历文书的至少一个实体概念元组。

[0107] 进一步的，如图3所示，所述提取装置200还包括向量确定模块260，所述向量确定模块260用于：

[0108] 确定每个实体概念分词中每个字的字id，将所述字id对应的字向量确定为该字的字向量；

[0109] 针对于该候选概念元组包括的每个实体概念分词，确定该实体概念分词的属性类型的属性id，将所述属性id对应的类型向量确定为该实体概念分词的类型向量；

[0110] 针对于该候选概念元组中的每两个实体概念分词，确定该两个实体概念分词之间关联关系的关联id，将所述关联id对应的关系向量确定为该两个实体概念分词的关系向
量；

[0111] 利用设计好的attention机制确定该候选概念元组对应的完整度id，将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。

[0112] 进一步的，所述提取模块210在用于从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型时，所述提取模块210用于：

[0113] 将获取到的病历文书切分为至少一个待提取医学语句；

[0114] 对所述至少一个待提取医学语句进行分词处理，得到至少一个医学分词；

[0115] 从所述至少一个医学分词中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型。

[0116] 进一步的，所述预测模块230在用于针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向
量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量，确定该候选
概念元组的预测判别类型时，所述预测模块230用于：

[0117] 拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的
完整度向量，得到该候选概念元组的特征向量矩阵；

[0118] 将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型。

[0119] 进一步的，所述预测模块230在用于将所述特征向量矩阵输入至训练好的类别预测模型中，确定该候选概念元组的预测判别类型时，所述预测模块230用于：

[0120] 将所述特征向量矩阵输入至训练好的类别预测模型的分值评估层中，通过所述分值评估层确定该候选概念元组的评估分值；

[0121] 将所述评估分值输入至所述类别预测模型的判别层中，通过所述判别层确定该候选概念元组的预测判别类型。

[0122] 本申请实施例提供的病历文书中实体概念的提取装置，从病历文书中提取出至少一个实体概念分词，并确定每个实体概念分词的属性类型；基于所述至少一个实体概念分
词以及每个实体概念分词的属性类型，按照预设元组构建模板构建得到至少一个候选概念
元组；针对于每个候选概念元组，基于该候选概念元组包括的每个实体概念分词中每个字
的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向
量以及该候选概念元组的完整度向量，确定该候选概念元组的预测判别类型；基于每个候
选概念元组的预测判别类型，从所述至少一个候选概念元组中确定出至少一个目标概念元
组；针对于每个目标概念元组，对该目标概念元组进行标准化处理，得到用于描述所述病历
文书的至少一个实体概念元组。这样，便可以基于病历文本中描述病症的实体概念分词，构
建得到用于描述病历文书的至少一个实体概念元组，进而，在统一了病历文本中病症描述
信息的同时，还能够简化病历文本中的信息。

[0123] 请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

[0124] 所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处
理器410执行时，可以执行如上述图1以所示方法实施例中的病历文书中实体概念的提取方
法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

[0125] 本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的病历
文书中实体概念的提取方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

[0126] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0127] 在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，
仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可
以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨
论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接
耦合或通信连接，可以是电性，机械或其它的形式。

[0128] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。

[0129] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

[0130] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请
的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件
产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得
一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所
述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read‑Only
Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存
储程序代码的介质。

[0131] 最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申
请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员
在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使
相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护
范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

病历文书中实体概念的提取方法、装置及可读存储介质转让专利

申请号 : CN202111058855.6

文献号 : CN113505599B

文献日 : 2021-12-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 全福亮 , 王实 , 张奇

申请人 : 北京惠每云科技有限公司

摘要 :

权利要求 :

说明书 :