一种基于电子病历的主题癌症分期的判别方法及系统转让专利

申请号 : CN202011416351.2

文献号 : CN112530534B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 顾大中付桂振

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明公开一种基于电子病历的主题癌症分期的判别方法及系统,所述方法包括:抽取待处理电子病历中的癌症分期信息;对待处理电子病历进行分段;利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。本发明能够判断电子病历中哪些癌症分期信息是主题分期信息,为医生进行电子病历匹配提供可靠的技术支持。

权利要求 :

1.一种基于电子病历的主题癌症分期的判别方法,其特征在于,包括以下步骤:抽取待处理电子病历中的癌症分期信息;

对待处理电子病历进行分段;

利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;

将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率;

所述癌症分期信息至少包括stage1、stage2、stage3、stage4四种标准分期,以及癌症分期信息在电子病历的文本信息中的位置信息;对待处理电子病历进行分段获得电子病历中每一个句子的分段标签;所述分段标签至少包括B、P、R、C四种分段;所述B为背景分段;所述P为患者情况分段;所述R为患者结局分段;所述C为总结分段;

抽取待处理电子病历中的癌症分期信息的步骤具体包括:抽取候选癌症分期字符串;

过滤错误癌症分期字符串;

对过滤错误癌症分期字符串后的癌症分期标准化,获得最终的癌症分期信息;

对过滤错误癌症分期字符串后的癌症分期标准化具体包括:将癌症分期字符串的字符序列输入第一字符级卷积神经网络层,提取字符串的浅层语义特征;

将字符串的浅层语义特征输入自注意力层,对癌症分期字符串的浅层语义特征做加权处理,获得加权处理的初级语义特征;

将加权处理的初级语义特征输入第二字符级卷积神经网络层,再次做特征提取,得到癌症分期字符串的高层语义特征;

将癌症分期字符串的高层语义特征输入全连接层,计算癌症分期字符串属于每个癌症分期的概率。

2.根据权利要求1所述的一种基于电子病历的主题癌症分期的判别方法,其特征在于,对待处理电子病历进行分段的步骤具体包括:对电子病历分句,并将句子分词,输入词嵌入层,将单词转化为词向量e1,e2……,en;

将获得的句话的词向量输入双向循环神经网络,得到隐藏向量h1,h2……,hn;

将隐藏向量进行注意力机制计算得到当前句子的表征向量s;

获取电子病历中所有句子表征向量序列s1,s2……,sm;

将句子表征向量序列s1,s2……,sm输入到后续的双向循环神经网络,得到对应的隐藏向量h1,h2……,hm;

隐藏向量h1,h2……,hm经过条件随机场层,输出电子病历中所有句子的每句的预测标签序列y1,y2……,ym。

3.根据权利要求1所述的一种基于电子病历的主题癌症分期的判别方法,其特征在于,利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵,包括:建立电子病历的癌症分期特征矩阵,矩阵的行对应分期,矩阵的列对应分段;分期的种类为M,分段的个数为N;矩阵中的第m行第n列的值表示在n列对应的分段中m行对应分期的出现次数;

其中,m=1,2……M;n=1,2……N。

4.根据权利要求1所述的一种基于电子病历的主题癌症分期的判别方法,其特征在于,将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率,包括:将电子病历的每一个句子中的每一个单词转化为词向量;将句子中的所有单词输入对应的句子级LSTM网络;句子级LSTM网络输出每个句子的语义向量;将每个句子的语义向量输入到文献级LSTM网络中,输出整篇文献的语义向量;

通过第一全连接层将将癌症分期特征进行维度变换,将矩阵变为癌症分期特征向量;

将整篇文献的语义向量和癌症分期特征向量进行拼接,得到总特征向量;将总特征向量输入第二全连接层,输出各分期为主题分期的概率信息。

5.一种基于电子病历的主题癌症分期的判别系统,其特征在于,包括:分期模块,用于抽取待处理电子病历中的癌症分期信息;

分段模块,用于对待处理电子病历进行分段;

癌症分期特征矩阵构建模块,用于利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;

癌症分期判断模块,用于将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率;

所述癌症分期信息至少包括stage1、stage2、stage3、stage4四种标准分期,以及癌症分期信息在电子病历的文本信息中的位置信息;对待处理电子病历进行分段获得电子病历中每一个句子的分段标签;所述分段标签至少包括B、P、R、C四种分段;所述B为背景分段;所述P为患者情况分段;所述R为患者结局分段;所述C为总结分段;

分期模块抽取待处理电子病历中的癌症分期信息的步骤具体包括:抽取候选癌症分期字符串;

过滤错误癌症分期字符串;

对过滤错误癌症分期字符串后的癌症分期标准化,获得最终的癌症分期信息;

对过滤错误癌症分期字符串后的癌症分期标准化具体包括:将癌症分期字符串的字符序列输入第一字符级卷积神经网络层,提取字符串的浅层语义特征;

将字符串的浅层语义特征输入自注意力层,对癌症分期字符串的浅层语义特征做加权处理,获得加权处理的初级语义特征;

将加权处理的初级语义特征输入第二字符级卷积神经网络层,再次做特征提取,得到癌症分期字符串的高层语义特征;

将癌症分期字符串的高层语义特征输入全连接层,计算癌症分期字符串属于每个癌症分期的概率。

6.一种非临时性计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑4中任一项所述的一种基于电子病历的主题癌症分期的判别方法。

说明书 :

一种基于电子病历的主题癌症分期的判别方法及系统

技术领域

[0001] 本发明属于智慧医疗技术领域,特别涉及一种基于电子病历的主题癌症分期的判别方法及系统

背景技术

[0002] 电子病历(EMR,Electronic Medical Record)也叫计算机化的病案系统或称基于计算机的病人记录(CPR,Computer‑Based Patient Record)。它是用电子设备保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病历。
[0003] 海量的电子病历能够为一声提供完整准确的数据、警示、提示和临床决策支持;癌症分期信息是匹配电子病历过程中需要重点考虑的特征。不同分期的癌症具有完全不同的特性。比如早期癌症的临床特点和晚期癌症的临床特点就很不一样,早期癌症的诊断是一个难点,而晚期癌症的诊断则很容易。早期癌症可以使用内镜切除,而完全癌症则需要化疗、放疗、手术等多种方式组合治疗。因此癌症分期差异很大的病例之间,几乎不具有参考价值。因此,如果医生输入的是一篇癌症病例,那么系统返回的病例必须具有相近的癌症分期。因此准确抽取文献的癌症分期信息,对于电子病历匹配至关重要。
[0004] 在一篇癌症电子病历中,一般一定会有主题癌症分期信息,即本次患者所得癌症的分期。但是有时也会有一些不太重要的癌症分期信息,比如患者的家族史(例如患者爷爷的癌症分期)、患者的既往史(例如患者10年前其他癌症的癌症分期)等。这些信息虽然也有一定的意义,但是对于电子病历匹配来讲,并不重要,反而会产生噪声。比如,医生想搜索一个IIA分期的胃癌病例,那么他一定想要患者为IIA分期的病例,而不是患者家人有IIA分期的病例。因此判定哪些癌症分期是病例的主题分期,对电子病历匹配任务有重要意义。
[0005] 面对海量的电子病历数据,目前还没有一种成熟的方法能够在有多个癌症分期信息的电子病历中,准确判断哪些癌症分期信息是主题分期信息。

发明内容

[0006] 本发明的目的在于提供一种基于电子病历的主题癌症分期的判别方法及系统,能够判断电子病历中哪些癌症分期信息是主题分期信息,以解决上述技术问题;为医生进行电子病历匹配提供可靠的技术支持。
[0007] 为了实现上述目的,本发明采用如下技术方案:
[0008] 第一方面,本发明提供一种基于电子病历的主题癌症分期的判别方法,包括以下步骤:
[0009] 抽取待处理电子病历中的癌症分期信息;
[0010] 对待处理电子病历进行分段;
[0011] 利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;
[0012] 将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。
[0013] 本发明进一步的改进在于:所述癌症分期信息至少包括stage1、stage2、stage3、stage4四种标准分期,以及癌症分期信息在病历文本中的位置信息;对待处理电子病历进行分段获得电子病历中每一个句子的分段标签;所述分段标签至少包括B、P、R、C四种分段;所述B为背景分段;所述P为患者情况分段;所述R为患者结局分段;所述C为总结分段。
[0014] 本发明进一步的改进在于:抽取待处理电子病历中的癌症分期信息的步骤具体包括:
[0015] 抽取候选癌症分期字符串;
[0016] 过滤错误癌症分期字符串;
[0017] 对过滤错误癌症分期字符串后的癌症分期标准化,获得最终的癌症分期信息。
[0018] 本发明进一步的改进在于:对过滤错误癌症分期字符串后的癌症分期标准化具体包括:
[0019] 将癌症分期字符串的字符序列输入第一字符级卷积神经网络层,提取字符串的浅层语义特征;
[0020] 将字符串的浅层语义特征输入自注意力层,对癌症分期字符串的浅层语义特征做加权处理,获得加权处理的初级语义特征;
[0021] 将加权处理的初级语义特征输入第二字符级卷积神经网络层,再次做特征提取,得到癌症分期字符串的高层语义特征;
[0022] 将癌症分期字符串的高层语义特征输入全连接层,计算癌症分期字符串属于每个癌症分期的概率。
[0023] 本发明进一步的改进在于:对待处理电子病历进行分段的步骤具体包括:
[0024] 对电子病历分句,并将句子分词,输入词嵌入层,将单词转化为词向量e1,e2……,en;
[0025] 将获得的句话的词向量输入双向循环神经网络,得到隐藏向量h1,h2……,hn;
[0026] 将隐藏向量进行注意力机制计算得到当前句子的表征向量s;
[0027] 获取电子病历中所有句子表征向量序列s1,s2……,sm;
[0028] 将句子表征向量序列s1,s2……,sm输入到后续的双向循环神经网络,得到对应的隐藏向量h1,h2……,hm;
[0029] 隐藏向量h1,h2……,hm经过条件随机场层,输出电子病历中所有句子的每句的预测标签序列y1,y2……,ym。
[0030] 本发明进一步的改进在于:利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵,包括:
[0031] 建立电子病历的癌症分期特征矩阵,矩阵的行对应分期,矩阵的列对应分段;分期的种类为M,分段的个数为N;矩阵中的第m行第n列的值表示在n列对应的分段中m行对应分期的出现次数;
[0032] 其中,m=1,2……M;n=1,2……N。
[0033] 本发明进一步的改进在于:将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率,包括:
[0034] 将电子病历的每一个句子中的每一个单词转化为词向量;将句子中的所有单词输入对应的句子级LSTM网络;句子级LSTM网络输出每个句子的语义向量;将每个句子的语义向量输入到文献级LSTM网络中,输出整篇文献的语义向量;
[0035] 通过第一全连接层将将癌症分期特征进行维度变换,将矩阵变为癌症分期特征向量;
[0036] 将整篇文献的语义向量和癌症分期特征向量进行拼接,得到总特征向量;将总特征向量输入第二全连接层,输出各分期为主题分期的概率信息。
[0037] 第二方面,本发明提供一种基于电子病历的主题癌症分期的判别系统,其特征在于,包括:
[0038] 分期模块,用于抽取待处理电子病历中的癌症分期信息;
[0039] 分段模块,用于对待处理电子病历进行分段;
[0040] 癌症分期特征矩阵构建模块,用于利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;
[0041] 癌症分期判断模块,用于将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。
[0042] 第三方面,本发明提供一种计算机程序产品,当所述计算机程序产品中的指令被处理器执行时实现所述的一种基于电子病历的主题癌症分期的判别方法。
[0043] 第四方面,本发明提供一种非临时性计算机可读存储介质,其上存储有计算机程度,所述计算机程序被处理器执行时实现所述的一种基于电子病历的主题癌症分期的判别方法。
[0044] 相对于现有技术,本发明具有以下有益效果:
[0045] 本发明提供一种基于电子病历的主题癌症分期的判别方法和系统,方法包括:抽取待处理电子病历中的癌症分期信息;对待处理电子病历进行分段;利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。本发明深入电子病历的具体信息,进行分段和分期信息提取,并利用深度学习模型对提取的信息进行判断,能够够准确的识别一篇电子病历中的主题癌症分期概率,为医生进行电子病历匹配提供可靠的技术支持;本发明利用了电子病历分段信息,提高了癌症主题分期的判断准确率。

附图说明

[0046] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0047] 图1为本发明一种基于电子病历的主题癌症分期的判别方法的流程示意图;
[0048] 图2是本发明深度学习模型的结构示意图;
[0049] 图3是本发明一种基于电子病历的主题癌症分期的判别系统的结构框图;
[0050] 图4为分期验证模型的网络结构图;
[0051] 图5为标准化模型的网络结构图;
[0052] 图6为用于电子病历分段的深度学习模型的网络结构图。

具体实施方式

[0053] 下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0054] 以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
[0055] 本发明的一些基本概念:
[0056] (1)癌症分期信息:
[0057] 癌症分期表示癌症的严重程度,一般分期数值越高,严重程度越高。癌症分期的表达方式很丰富,例如“Stage II cancer”、“early cancer”、“T2N2M0 cancer”等,但是这些都可以归一化到标准的分期上。在本发明中,为了方便表述,约定所有的癌症分期都归一化到stage 1、2、3、4四种标准分期上(在实际应用中,标准分期还有stage2A等细化分期,但标准分期的数量不影响对本发明的理解)。
[0058] (2)电子病历分段信息:
[0059] 一般电子病历可以分为背景(Background,一般简称为B),患者情况(People,一般简称为P),患者结局(Result,一般简称为R),总结(Conclusion,一般简称为C)等段落。病历中不会显示的标记出这些分段,需要读者自己去总结。段落信息对癌症主题分期判定有重要参考价值。如果一个癌症分期出现在R分段中,它就很可能是患者经过治疗后的最终癌症分期,是主题分期的一部分。如果一个癌症分期出现在B分段中,它就有可能是其他相似患者的分期,不是本患者的分期,所以不是主题分期的一部分。(病历经常会这么描述:“一般只有早期胃癌病人才可以使用内镜手术,但本文介绍了一个内镜手术成功治愈晚期胃癌的案例”,那么“早期胃癌”就是一个非主题分期)。在本发明中,为了方便表述,约定电子病历只有B、P、R、C四种分段(在实际应用中,还可能有干预手段Intervention、治疗方法Method等分段,但分段数量不影响对本发明的理解)。
[0060] 实施例1
[0061] 请参阅图1所述,本发明提供一种基于电子病历的主题癌症分期的判别方法,包括以下步骤:
[0062] S1、抽取待处理电子病历中的癌症分期信息;
[0063] S2、对待处理电子病历进行分段;
[0064] S3、利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;
[0065] S4、将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。
[0066] 实施例2
[0067] 更具体的,本发明提供一种基于电子病历的主题癌症分期的判别方法,包括以下步骤:
[0068] S1、抽取待处理电子病历中的癌症分期信息;
[0069] 获取待处理电子病历的文本信息,抽取电子病历中的癌症分期信息;抽取的癌症分期信息包括:标准化分期(即stage 1、2、3、4四种标准分期之一)和分期信息在病历文本中的位置(例如电子病历中第105个字符到第115个字符是分期信息)。
[0070] S2、对待处理电子病历进行分段;
[0071] 对待处理电子病历进行分段;获得电子病历中每一个句子的分段标签。(即每一个句子属于B、P、R、C四种分段之一)。
[0072] S3、利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;
[0073] 本步骤对应图2的右下角“分期信息编码”和“癌症分期特征矩阵”两个部分。通过步骤S1和步骤S2,获取了电子病历的癌症分期信息和分段信息,因为分期信息中有分期在文本中位置,基于该位置信息可以判断分期信息位于病历的哪个分段中。基于上述信息本发明构建了癌症分期特征矩阵。
[0074] 电子病历只有B、P、R、C四种分段,且只有stage 1、2、3、4四种标准分期。所以本发明为每一个病历构建一个4*4的矩阵,矩阵的行对应分期,矩阵的列对应分段。假设矩阵的第1、2、3、4行分别对应stage1、2、3、4,矩阵的第1、2、3、4列分别对应B、P、R、C分段。矩阵中的第m行第n列的值表示,在n列对应的分段中,m行对应分期的出现次数。例如第2行第3列的值表示,在R分段中,stage 2分期出现的次数。以下面这篇病历为例:
[0075] “B:经食管内镜切除术切除胃肠交界处癌一直是一个难点,通常难以根治,需要后续配合化放疗,本文我们介绍一个案例。P:患者72岁,男。自述患II期胃癌,后发展为III期胃癌。经检查后确诊为III期胃癌。本院对患者行经食管内镜切除术,过程如下……。R:因患者体力情况差,只能部分切除癌变部分。治疗后,经评估,患者的癌症分期降低为I期,后续需继续化放疗治疗。C:通过这个病例可以看出,经食管内镜切除术的效果受患者体力情况影响很大,如何通过该手术根除癌症将是今后的重要课题。”
[0076] 其中,B、P、R、C是为了方便理解,人工标记出来的标记,正常病历中不会显示标注。另外将癌症分期信息用下划线标记出来;此段病历为人工标记的示例,实际的计算机对电子病历进行癌症分期信息抽取和分段后的电子病历和上述方式相同,或者采用其它文本或者数据形式表示。
[0077] 基于该病历,进行癌症分期信息抽取和分段后建立的对应的癌症分期特征矩阵为:
[0078] (0,0,0,00,1,0,00,2,1,00,0,0,0)
[0079] S4、将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率;
[0080] 本步骤对应图2的深度学习网络,主要分为左右两个部分。
[0081] S4.1、网络的左半部分,是两级长短期记忆网络(LSTM,Long Short‑Term Memory)。第一级是句子级LSTM网络,对于电子病历的每一个句子,将句子中的每一个单词转化为词向量,之后将句子中的所有单词输入对应的句子级LSTM网络。句子级LSTM网络输出每个句子的语义向量。第二级是文献级LSTM网络,所有句子级LSTM网络的输出输入文献级LSTM网络;将每个句子的语义向量作为输入,输入到文献级LSTM网络中。文献级LSTM输出整篇文献的语义向量。
[0082] S4.2.网络的右半部分,是一个预先训练的第一全连接层,第一层将癌症分期特征矩阵转化为癌症分期特征向量。第一全连接层经过预先的学习训练,学习如何将癌症分期特征矩阵转化为癌症分期特征向量。第一全连接层的目的主要有两个:一是将癌症分期特征进行维度变换,将矩阵变为向量,便于后期计算。二是学习训练的过程中,对癌症分期信息做一个初步的特征提取,对发现的比较重要的特征增加权重。
[0083] S4.3.通过网络左半部分,得到了文献语义向量;通过网络右半部分,得到了癌症分期特征向量。在步骤S4.3中,将文献语义向量和癌症分期特征向量进行拼接,得到总特征向量。之后将总特征向量输入预先训练的第二全连接层中,第二全连接层的输出为各分期为主题分期的概率。
[0084] 其中,第二全连接层经过预先的学习训练,学习如何从总特征向量中判定哪些分期是主题分期。
[0085] 之前约定一共有stage 1、2、3、4四种标准分期,所以全连接层的输出为一个4维向量,向量的每一维为一个0到1之间的实数,表示该维对应标准分期是主题分期的概率。例如如果最后的输出为(0.8,0.7,0.1,0.2),则表示stage 1有80%的概率是主题分期,stage 2有70%的概率是主题分期,stage 3有10%的概率是主题分期,stage 4有20%的概率是主题分期。本发明可以根据具体业务需求,设定一个门限值,比如超过70%的分期,认为是主题分期。
[0086] 实施例3
[0087] 请参阅图3所示,本发明提供一种基于电子病历的主题癌症分期的判别系统,包括:
[0088] 分期模块,用于抽取待处理电子病历中的癌症分期信息;
[0089] 分段模块,用于对待处理电子病历进行分段;
[0090] 癌症分期特征矩阵构建模块,用于利用癌症分期信息和电子病历分段信息构建癌症分期特征矩阵;
[0091] 癌症分期判断模块,用于将待处理电子病历的文本信息和癌症分期特征矩阵输入到深度学习模型中,获取各癌症分期为主题的概率。
[0092] 需要说明的是,一种基于电子病历的主题癌症分期的判别系统各功能模块对电子病历的的具体处理过程,与实施例2中步骤S1‑S4的处理过程相同,在此不再赘述。
[0093] 实施例4
[0094] 为了实现上述实施例,本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令被处理器执行时实现实施例2所述的一种基于电子病历的主题癌症分期的判别方法。
[0095] 实施例5
[0096] 为了实现上述实施例,本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程度,所述计算机程序被处理器执行时实现实施例2所述的一种基于电子病历的主题癌症分期的判别方法。
[0097] 实施例6
[0098] 本发明一种基于电子病历的主题癌症分期的判别方法中,步骤S1具体的可以采用如下方法:
[0099] S11、抽取候选癌症分期字符串
[0100] 本步骤可以采用字典或者正则表达式抽取待处理电子病历文本信息中的候选癌症分期字符串。例如“Stage I”,“T2N2M0”等。这一步应为只是单纯的字符完全匹配,没有分析语义信息。因此有一些抽取出的候选癌症分期字符串并不是表示癌症分期信息的,在后面的步骤中筛除。
[0101] S12、过滤错误癌症分期字符串
[0102] 对于步骤S11中抽取出的候选癌症分期字符串,使用图4的分期验证模型判别其是否真正表达癌症分期信息。
[0103] 分期验证模型的输入是候选癌症分期字符串所在的句子和候选癌症分期字符串在句子中的位置。以“A T2 stage patient with lung cancer”中“T2 stage”这个分期为例。T2 stage是句子中的第1个单词和第2个单词(一般单词序号从0开始,即A是句子的第0个单词),所以位置为(1,2)。
[0104] 分期验证模型的第一层是特征提取层,该层分左右两个部分。
[0105] (1)左边是一个LSTM网络,它将句子“A T2 stage patient with lung cancer”作为输入,分析句子的语义信息,并将语义信息以一个实数向量的方式输出。
[0106] (2)右边是一个位置编码层,该层是一个简单的映射,将两个正整数映射为一个向量。该层的输出为一个100维向量,如果输入的两个自然数为(a,b)。那么这个100维向量的第a维到第b维的值为1,其余维的值为0。例如对于(1,2),输出向量为0110……0(97个0);对于(2,4),输出向量为001110……0(95个0)。如果输入的句子长度超过100个单词,将输入的句子截断为多个句子,使截断后的句子长度都小于100个单词。
[0107] 分期验证模型的第二层是拼接层,该层将句子的语义向量和分期信息位置向量做一个简单拼接。
[0108] 分期验证模型的第二层是评分层,该层的结构是一个全连接网络。全连接网络将拼接后的语义向量和分期信息位置向量作为输入,为分期信息的质量进行打分。该层输出的是一个0‑1的实数,表示“T2 stage”是癌症分期信息的概率。如果概率高于预设的阈值,则认为“T2stage”是一个有效的分期信息。
[0109] LSTM层和全连接层都是深度学习的基本模块,在此不再赘述。
[0110] S13、癌症分期标准化
[0111] 对于步骤S12中筛选出的有效癌症分期字符串,进行标准化。所谓标准化就是一个多标签分类任务。假设认为癌症只有T1、T2、T3、T4四种(真实情况有50中左右的分类),也可以采用前述stage1、stage2、stage3、stage4的表述形式。那么标准化需要做的就是判断一个癌症分期字符串能对应哪些分类。比如“T2 stage”对应T2分类,而“T1‑3 cancer”对应T1、T2、T3三个分类。采用图5所示标准化模型对癌症分期字符串进行分类。
[0112] 标准化模型的输入是癌症分期字符串,输出是每个可能分类的概率(在上述假设下,即为分别T1、T2、T3、T4的概率,是一个4维向量,向量的每一维都是一个0‑1之间的实数)。下面以“T2‑4 stage”这个字符串为例进行说明。
[0113] 标准化模型的第一层是特征提取层,该层的目的是提取癌症分期字符串的语义特征。该层可以分为三个子层:
[0114] (1)第一个字符级卷积神经网络层(Char CNN层),该层以癌症分期字符串的字符序列作为输入,即“T、2、‑、4、s、t、a、g、e”。提取字符串的浅层语义特征。
[0115] (2)自注意力层,该层为癌症分期字符串的底层语义特征做加权处理,判别哪些特征是重要特征,哪些特征是不重要特征。
[0116] (3)第二个字符级卷积神经网络层(Char CNN层),该层对已经进行过加权处理的初级语义特征再次做特征提取,得到癌症分期字符串的高层语义特征。
[0117] 标准化模型的第二层是全连接层(分类层),以癌症分期字符串的高层语义特征作为输入,基于这些特征做分析,计算出该字符串属于每个分类的概率。在“T2‑4 stage”这个例子中,如果模型训练好,输出T2、T3、T4的概率会比较高,而T1这个类别的对应概率会比较低。
[0118] Char层、自注意力层和全连接层都是深度学习的基本模块,在此不再赘述。
[0119] 实施例7
[0120] 标签数据是一种适用于待处理电子病历的结构化标签数据,有BPRC四个类别标签。
[0121] 对于电子病历的标签之间顺序有依赖关系。文章语句标签的顺序服从一定的概率分布,而不是随机的。例如:电子病历开头几句话的标签一般是背景B,电子病历最后几句话的标签一般是总结C。这种语句标签之间的概率分布可以用来帮助程序进行噪音标签数据的过滤。对于背景(Background,一般简称为B),患者情况(People,一般简称为P),患者结局(Result,一般简称为R),总结(Conclusion,一般简称为C),一般都是按照B→P→R→C的顺序进行记录。
[0122] 一篇电子病历分句后如果有N句,每个句子都有对应的标签,对应的标签是(Lable_1,……,Lable_N),Lable_i表示第i局的标签。这里判断(Lable_1,……,Lable_N)标签是否符合最大概率的标签顺序,如果符合则保留该数据样例;反之则说明该样例是噪音错误数据,删除该数据样例,注明4分类最大概率的标签顺序是B→P→R→C。
[0123] 本发明一种基于电子病历的主题癌症分期的判别方法中,步骤S2基于搭建的层次LSTM‑CRF+ATT网络模型对对待处理电子病历进行分段:
[0124] 本发明涉及的用于电子病历中分段的深度学习模型的主要结构如图6所示。这里的数据是对电子病历进行分句后的句子序列。首先针对每个句子通过Bi‑LSTM(双向LSTM)+Attention(注意力机制)学习句子的表示(Representation),然后将句子序列输入到后续的BiLSTM获得句子序列表示,然后通过CRF层得到句子序列的标签。
[0125] (1)对于一句话,先将句子分词,输入词嵌入层(Token Embedding层),将单词转化为词向量e1,e2……,en(词向量携带了单词语义信息)。
[0126] (2)将一句话的词向量输入双向循环神经网络(Bi‑LSTM层),得到隐藏向量h1,h2……,hn(每个隐藏向量都携带了一部分句子信息)。
[0127] (3)将隐藏向量进行注意力机制(Attention)计算得到当前句子的表征向量s;
[0128] (4)将电子病历对应句子集合中所有句子依次经过1‑3的操作,从而得到电子病历中所有句子表征向量序列s1,s2……,sm。
[0129] (5)将句子向量序列s1,s2……,sm输入到后续的双向循环神经网络(Bi‑LSTM层),得到对应的隐藏向量h1,h2……,hm。
[0130] (6)最后经过条件随机场层(conditional random field,简称CRF层),输出电子病历中所有句子的每句的预测标签序列y1,y2……,ym。
[0131] 该模型的主要创新点在于,已有的模型大部分是仅仅使用简单一层RNN网络模型;本发明使用层次BiLSTM+ATT模型,句子表示部分使用了Attention机制,同时对得到的句子序列再使用一次BiLSTM,这个BiLSTM层的输入是一篇电子病历中的所有句子序列,前面句子表征部分的BiLSTM层M输入的是一个句子中所有单词的序列。本发明涉及的模型可以深度挖掘语句的深层信息以及语句间的语义信息,从而提高模型效果。
[0132] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0133] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0134] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0135] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0136] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。