病历文书中实体概念的提取方法、装置及可读存储介质转让专利
申请号 : CN202111058855.6
文献号 : CN113505599B
文献日 : 2021-12-07
发明人 : 全福亮 , 王实 , 张奇
申请人 : 北京惠每云科技有限公司
摘要 :
权利要求 :
1.一种病历文书中实体概念的提取方法,其特征在于,所述提取方法包括:从病历文书中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型;
基于所述至少一个实体概念分词以及每个实体概念分词的属性类型,按照预设元组构建模板构建得到至少一个候选概念元组;
针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型;
基于每个候选概念元组的预测判别类型,从所述至少一个候选概念元组中确定出至少一个目标概念元组;
针对于每个目标概念元组,对该目标概念元组进行标准化处理,得到用于描述所述病历文书的至少一个实体概念元组;
其中,通过以下步骤确定该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量:
确定每个实体概念分词中每个字的字id,将所述字id对应的字向量确定为该字的字向量;
针对于该候选概念元组包括的每个实体概念分词,确定该实体概念分词的属性类型的属性id,将所述属性id对应的类型向量确定为该实体概念分词的类型向量;
针对于该候选概念元组中的每两个实体概念分词,确定该两个实体概念分词之间关联关系的关联id,将所述关联id对应的关系向量确定为该两个实体概念分词的关系向量;
利用设计好的attention机制确定该候选概念元组对应的完整度id,将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。
2.根据权利要求1所述的提取方法,其特征在于,所述从病历文书中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型,包括:将获取到的病历文书切分为至少一个待提取医学语句;
对所述至少一个待提取医学语句进行分词处理,得到至少一个医学分词;
从所述至少一个医学分词中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型。
3.根据权利要求1所述的提取方法,其特征在于,所述针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型,包括:拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,得到该候选概念元组的特征向量矩阵;
将所述特征向量矩阵输入至训练好的类别预测模型中,确定该候选概念元组的预测判别类型。
4.根据权利要求3所述的提取方法,其特征在于,所述将所述特征向量矩阵输入至训练好的类别预测模型中,确定该候选概念元组的预测判别类型,包括:将所述特征向量矩阵输入至训练好的类别预测模型的分值评估层中,通过所述分值评估层确定该候选概念元组的评估分值;
将所述评估分值输入至所述类别预测模型的判别层中,通过所述判别层确定该候选概念元组的预测判别类型。
5.一种病历文书中实体概念的提取装置,其特征在于,所述提取装置包括:提取模块,用于从病历文书中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型;
构建模块,用于基于所述至少一个实体概念分词以及每个实体概念分词的属性类型,按照预设元组构建模板构建得到至少一个候选概念元组;
预测模块,用于针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型 的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型;
元组确定模块,用于基于每个候选概念元组的预测判别类型,从所述至少一个候选概念元组中确定出至少一个目标概念元组;
处理模块,用于针对于每个目标概念元组,对该目标概念元组进行标准化处理,得到用于描述所述病历文书的至少一个实体概念元组;
其中,所述提取装置还包括向量确定模块,所述向量确定模块用于:确定每个实体概念分词中每个字的字id,将所述字id对应的字向量确定为该字的字向量;
针对于该候选概念元组包括的每个实体概念分词,确定该实体概念分词的属性类型的属性id,将所述属性id对应的类型向量确定为该实体概念分词的类型向量;
针对于该候选概念元组中的每两个实体概念分词,确定该两个实体概念分词之间关联关系的关联id,将所述关联id对应的关系向量确定为该两个实体概念分词的关系向量;
利用设计好的attention机制确定该候选概念元组对应的完整度id,将所述完整度id对应的完整度向量确定为该候选概念元组的完整性向量。
6.根据权利要求5所述的提取装置,其特征在于,所述提取模块在用于从病历文书中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型时,所述提取模块用于:将获取到的病历文书切分为至少一个待提取医学语句;
对所述至少一个待提取医学语句进行分词处理,得到至少一个医学分词;
从所述至少一个医学分词中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类型。
7.根据权利要求5所述的提取装置,其特征在于,所述预测模块在用于针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型 的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型时,所述预测模块用于:拼接该候选概念元组包括的每个实体概念分词中每个字的字向量、每个实体概念分词的属性类型的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,得到该候选概念元组的特征向量矩阵;
将所述特征向量矩阵输入至训练好的类别预测模型中,确定该候选概念元组的预测判别类型。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至4任一所述的提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至4任一所述的提取方法的步骤。
说明书 :
病历文书中实体概念的提取方法、装置及可读存储介质
技术领域
背景技术
能存在有不同的描述信息,当需要针对于某一患者或者某一科室的病历进行整理时,仍然
需要花费大量的时间在信息核对上,因此,如何将不同医生开具的病历中的描述信息标准
化成为了亟待解决的问题。
发明内容
书的至少一个实体概念元组,进而,在统一了病历文本中病症描述信息的同时,还能够简化
病历文本中的信息。
向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型;
每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念
元组的预测判别类型,包括:
完整度向量,得到该候选概念元组的特征向量矩阵;
词之间的关系向量以及该候选概念元组的完整度向量:
量;
分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别
类型;
型 的类型向量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,
确定该候选概念元组的预测判别类型时,所述预测模块用于:
完整度向量,得到该候选概念元组的特征向量矩阵;
量;
间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的提取方法的步骤。
述至少一个实体概念分词以及每个实体概念分词的属性类型,按照预设元组构建模板构建
得到至少一个候选概念元组;针对于每个候选概念元组,基于该候选概念元组包括的每个
实体概念分词中每个字的字向量、每个实体概念分词的属性类型 的类型向量、每两个实体
概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测
判别类型;基于每个候选概念元组的预测判别类型,从所述至少一个候选概念元组中确定
出至少一个目标概念元组;针对于每个目标概念元组,对该目标概念元组进行标准化处理,
得到用于描述所述病历文书的至少一个实体概念元组。这样,便可以基于病历文本中描述
病症的实体概念分词,构建得到用于描述病历文书的至少一个实体概念元组,进而,在统一
了病历文本中病症描述信息的同时,还能够简化病历文本中的信息。
附图说明
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他相关的附图。
具体实施方式
是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实
施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的
实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实
施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每
个其他实施例,都属于本申请保护的范围。
于相同病症可能存在有不同的描述信息,当需要针对于某一患者或者某一科室的病历进行
整理时,仍然需要花费大量的时间在信息核对上,因此,如何将不同医生开具的病历中的描
述信息标准化成为了亟待解决的问题。
的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型。
息,例如:“头部”的属性类型为“部位”、“疼痛”的属性类型为“表现”、“出血”的属性类型为
“表现”。
所帮助,而大量助词的出现还会对数据处理过程造成干扰,增加数据的处理量;因此,为了
便于对病历文书进行分析,需将实体概念分词从病历文书中提取出来,同时,确定提取出的
每个实体概念分词的属性类型。
至少一个医学分词中提取出至少一个实体概念分词,并确定每个实体概念分词的属性类
型。
词;从至少一个医学分词中提取出至少一个实体概念分词,并确定每个实体概念分词的属
性类型。
血”、“伴”、“鼻部”、“肿痛”、“4小时”;从上述医学分词中提取出实体概念分词:“头面部”、
“破裂”、“出血”、 “鼻部”、“肿痛”、“4小时”;并确定出每个实体概念分词的属性类型:“头面
部:部位”、“破裂:表现”、“出血:表现”、“鼻部:部位”、“肿痛:表现”、“4小时:时间”。
种解释该预设元组构建模板的方式:“部位1+表现1”、“部位1+表现2”、“部位1+表现1+
表现2”;进而,可以根据拆分出的解释该预设元组构建模板的方式,构建得到三个候选概念
元组:“头面部,破裂”、“头面部,出血”、“头面部,破裂,出血”。
之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类
型。
病历文本中的内容进行描述,需要对构建得到的至少一个候选概念元组进行预判,并根据
确定出的候选概念元组的预测判别类型,确定候选概念元组的是否适合用于描述病历文
本。
标概念元组;相应的,当候选概念元组的预测判别类型为“0”时,确定该候选概念元组不可
用于描述病历文本。
的关系向量以及该候选概念元组的完整度向量:
量,确定为“头”字对应的字向量、将字id2对应的字向量,确定为“面”字对应的字向量以及
将字id3对应的字向量,确定为“部”字对应的字向量。
的属性id1以及“表现”的属性id2;然后,将属性id对应的类型向量,确定为实体概念分词的
类型向量,例如,将属性id1对应的类型向量确定为“头面部”的类型向量,将属性id2对应的
类型向量确定为“破裂”的类型向量。
系向量。
实体概念分词之间的关联关系;其次,确定关联关系对应的关联id;然后,将关联id对应的
关系向量确定为两个实体概念分词的关系向量。
系向量,确定为“头面部”与“破裂”这两个实体概念分词的关系向量。
表现2”,因此,构建得的多个候选概念元组会存在不完整的情况,例如,相较于“部位1+表
现1+表现2”,“部位1+表现1”则是不完整;因此,本申请利用设计好的attention机制确定
每个候选概念元组对应的完整度id,将完整度id对应的完整度向量,确定为候选概念元组
的完整度向量。
间的关系向量以及该候选概念元组的完整度向量,得到该候选概念元组的特征向量矩阵;
将所述特征向量矩阵输入至训练好的类别预测模型中,确定该候选概念元组的预测判别类
型。
不做具体限制,可根据实际情况决定向量的拼接方式。
测模型的分值评估层中,通过所述分值评估层确定该候选概念元组的评估分值;将所述评
估分值输入至所述类别预测模型的判别层中,通过所述判别层确定该候选概念元组的预测
判别类型。
的评估分值;将候选概念元组的评估分值输入至类别预测模型的判别层中,使得判别层可
根据候选概念元组的评估分值确定候选概念元组的预测判别类型。
如,候选概念元组1:(头面部,破裂)评估分值为0.4<0.5,预测判别类型为“0”;候选概念元
组2:(头面部,破裂,4小时)评估分值为0.9>0.5,预测判别类型为“1”;候选概念元组3:(头
面部,出血)评估分值为0.3<0.5,预测判别类型为“0”; 候选概念元组4:(头面部,出血,4小
时)评估分值为0.9>0.5,预测判别类型为“1”;候选概念元组5:(鼻部,肿痛,4小时)评估分
值为0.9>0.5,预测判别类型为“1”。
测模型。
至少一个目标概念元组。
的属性类型描述标准实体名,得到用于描述病历文书的至少一个实体概念元组。
处理,得到实体概念元组1:(标准实体名:头部破裂,部位:头面部,表现:破裂,时间:4小
时);对上述目标概念元组2进行标准化处理,得到实体概念元组2(标准实体名:头部出血,
部位:头面部,表现:出血,时间:4小时):对上述目标概念元组3进行标准化处理,得到实体
概念元组3:(标准实体名:鼻部肿痛,部位:鼻部,表现:肿痛,时间:4小时)。
词以及每个实体概念分词的属性类型,按照预设元组构建模板构建得到至少一个候选概念
元组;针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字
的字向量、每个实体概念分词的属性类型 的类型向量、每两个实体概念分词之间的关系向
量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型;基于每个候
选概念元组的预测判别类型,从所述至少一个候选概念元组中确定出至少一个目标概念元
组;针对于每个目标概念元组,对该目标概念元组进行标准化处理,得到用于描述所述病历
文书的至少一个实体概念元组。这样,便可以基于病历文本中描述病症的实体概念分词,构
建得到用于描述病历文书的至少一个实体概念元组,进而,在统一了病历文本中病症描述
信息的同时,还能够简化病历文本中的信息。
的结构示意图之二。如图2中所示,所述提取装置200包括:
念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判
别类型;
量;
量、每两个实体概念分词之间的关系向量以及该候选概念元组的完整度向量,确定该候选
概念元组的预测判别类型时,所述预测模块230用于:
完整度向量,得到该候选概念元组的特征向量矩阵;
词以及每个实体概念分词的属性类型,按照预设元组构建模板构建得到至少一个候选概念
元组;针对于每个候选概念元组,基于该候选概念元组包括的每个实体概念分词中每个字
的字向量、每个实体概念分词的属性类型 的类型向量、每两个实体概念分词之间的关系向
量以及该候选概念元组的完整度向量,确定该候选概念元组的预测判别类型;基于每个候
选概念元组的预测判别类型,从所述至少一个候选概念元组中确定出至少一个目标概念元
组;针对于每个目标概念元组,对该目标概念元组进行标准化处理,得到用于描述所述病历
文书的至少一个实体概念元组。这样,便可以基于病历文本中描述病症的实体概念分词,构
建得到用于描述病历文书的至少一个实体概念元组,进而,在统一了病历文本中病症描述
信息的同时,还能够简化病历文本中的信息。
理器410执行时,可以执行如上述图1以所示方法实施例中的病历文书中实体概念的提取方
法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
文书中实体概念的提取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可
以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨
论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接
耦合或通信连接,可以是电性,机械或其它的形式。
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件
产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得
一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所
述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read‑Only
Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存
储程序代码的介质。
请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员
在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使
相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护
范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。