基于深度学习的关键临床指标实体识别方法和系统转让专利

申请号 : CN202211103092.7

文献号 : CN115394435B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孔桂兰张路霞丁国辉张家豪林鸿波沈鹏孙烨祥王怀玉彭苏元孟若谷孙小宇郝建国

申请人 : 北京大学

摘要 :

本发明公开了基于深度学习的关键临床指标实体识别方法和系统,该方法包括:根据慢性肾脏病原始临床指标数据建立原始指标实体库;基于专家标记法建立慢性肾脏病的关键指标实体知识库;基于EntityEmbeddings算法构建指标实体归一化模型,形成原始指标实体库和关键指标实体知识库之间映射关系和分类器;将待处理的化验数据输入至指标实体归一化模型得到分类结果。相对于现有技术而言,本发明的技术方案实现了高效、精准的多源慢性肾脏病临床关键指标的自动化识别,可靠性强,准确度高,具有良好的推广应用前景。

权利要求 :

1.一种基于深度学习的关键临床指标实体识别方法,其特征在于,包括:根据慢性肾脏病原始临床指标数据建立原始指标实体库;

基于专家标记法建立慢性肾脏病的关键指标实体知识库;

基于EntityEmbeddings算法构建指标实体归一化模型,形成所述原始指标实体库和所述关键指标实体知识库之间映射关系和分类器;

将待处理的化验数据输入至所述指标实体归一化模型得到分类结果;

所述基于EntityEmbeddings算法构建指标实体归一化模型,形成所述原始指标实体库和所述关键指标实体知识库之间映射关系和分类器包括:获取混合后的所述原始指标实体库和所述关键指标实体知识库记载的化验数据,根据化验数据不同字段的特征,对所述待处理的化验数据进行预处理;

采用基于EntityEmbeddings算法的模型,将分类型化验数据逐个映射为离散型特征数值;

基于Softmax函数输出各个指标类别对应的概率以形成Softmax分类器;通过上述Softmax分类器的处理可以实现相同指标实体下不同名称指标的归一化处理,即可完成原始指标实体库和所述关键指标实体知识库之间映射关系;

利用交叉熵损失函数计算指标分类结果与实际结果之间的偏差度,并通过梯度下降法调整权重参数以缩小所述偏差度;

所述采用基于EntityEmbeddings算法的模型,将分类型化验数据逐个映射为离散型特征数值包括:利用硬编码方法将所述分类型化验数据逐个映射为数值,并将映射关系存入哈希表,并对目标列进行One‑Hot编码;

设置向量的长度,将通过One‑Hot编码的分类型字段输入Entity Embeddings层进行转化处理,得到固定维度向量。

2.根据权利要求1所述的基于深度学习的关键临床指标实体识别方法,其特征在于,所述基于Softmax函数输出各个指标类别对应的概率包括:将所述固定维度向量输入至神经网络层进行训练;

在输出层采用所述Softmax函数将训练后的向量归一化为概率分布向量,得到各个指标类别对应的概率值,且总概率和为1。

3.根据权利要求2所述的基于深度学习的关键临床指标实体识别方法,其特征在于,所述将待处理的化验数据输入至所述指标实体归一化模型得到分类结果包括:获取所述待处理的化验数据;

将所述待处理的化验数据通过所述哈希表进行映射处理得到映射结果;

将映射结果输入所述神经网络层进行训练,并经过所述Softmax函数得到化验数据所属类别的概率,实现分类器的分类;

选取所述化验数据所属类别中概率最高值所对应的类别作为临床指标实体类别。

4.根据权利要求3所述的基于深度学习的关键临床指标实体识别方法,其特征在于,所述临床指标实体类别包括机构编号、指标内部编号、化验中文名称、化验英文名称、单位和参考范围。

5.根据权利要求3所述的基于深度学习的关键临床指标实体识别方法,其特征在于,所述将通过One‑Hot编码的分类型字段输入Entity Embeddings层进行转化处理包括:在所述EntityEmbeddings层将所述离散型特征数值映射为向量;

通过向量距离确定不同离散型特征数值之间的关联程度,并根据关联程度大小确定所述固定维度向量的距离长度。

6.根据权利要求3所述的基于深度学习的关键临床指标实体识别方法,其特征在于,所述对所述待处理的化验数据进行预处理包括:对所述待处理的化验数据进行数据清洗和数据补全,并筛选出需要的分类型的数据。

7.根据权利要求3所述的基于深度学习的关键临床指标实体识别方法,其特征在于,还包括:判断是否存在新的字段值或类别,且所述字段值或类别未纳入训练集中;

若是,则将所述新的字段值或类别进行统一替换。

说明书 :

基于深度学习的关键临床指标实体识别方法和系统

技术领域

[0001] 本发明涉及电子病历数据分类技术领域,尤其涉及基于深度学习的关键临床指标实体识别方法和系统。

背景技术

[0002] 在“健康中国”作为国家战略的当下,为人民群众提供全方位全周期的健康服务是重中之重。其中,慢性病作为严重危害我国国民健康的头号大敌,给医疗卫生系统带来沉重负担。统计数据显示,我国成人高血压患病率为18%,患病人数将近两亿。我国慢性肾脏病、心血管疾病、肿瘤、糖尿病、呼吸系统疾病等慢性病导致的死亡占总死亡人数的半数以上,慢性病的防控形势非常严峻。
[0003] 随着互联网技术的不断深入发展,云计算、大数据、人工智能、互联技术等融合在一起,正对健康医疗行业进行着创造性的颠覆。“全生命周期”的数据采集和结构化整合,对临床研究乃至慢性病防控决策都将产生深远的影响。然而数据整合过程中,随之而来的是如何提升数据质量以及满足数据标准等问题。当来自不同医疗机构的数据集成后,由于EMR(电子病历,Electronic Medical Records)中缺乏统一的临床指标命名规范以及不同医疗机构不同的命名习惯,导致相同的实验室临床指标具有多个不同的表示名称,对后续开展基于多模态EMR数据的跨模态检索、疾病风险因素分析与预后预测、以及医疗决策支持造成了极大的障碍。
[0004] 现有技术主要依赖临床大夫手工方式进行数据处理,将实验室临床指标名称进行归一化,工作效率低且难以推广。实际上,指标实体归一化问题可以归结为结构化数据分类问题,目前对于结构化数据分类的相关研究主要分为两类,一类是传统机器学习模型,另一类是深度学习神经网络模型,但两类方法均仅限于理论研究,准确率仍难以满足现实工作需要,并未在电子病历数据处理领域获得应用和突破,而当前手工处理的方式已难以为继,亟需发明一种能够高效、准确开展临床指标实体识别方法和系统。

发明内容

[0005] 有鉴于此,本发明实施例提出基于深度学习的关键临床指标实体识别方法和系统,实现了高效、精准的多源慢性肾脏病临床关键指标的自动化识别,具有良好的推广应用前景。
[0006] 本发明的实施例提出基于深度学习的关键临床指标实体识别方法,包括:
[0007] 根据慢性肾脏病原始临床指标数据建立原始指标实体库;
[0008] 基于专家标记法建立慢性肾脏病的关键指标实体知识库;
[0009] 基于Entity Embeddings算法构建指标实体归一化模型,形成所述原始指标实体库和所述关键指标实体知识库之间映射关系和分类器;
[0010] 将待处理的化验数据输入至所述指标实体归一化模型得到分类结果。
[0011] 进一步地,所述基于Entity Embeddings算法构建指标实体归一化模型,形成所述原始指标实体库和所述关键指标实体知识库之间映射关系和分类器包括:
[0012] 获取混合后的所述原始指标实体库和所述关键指标实体知识库记载的化验数据,根据化验数据不同字段的特征,对所述待处理的化验数据进行预处理;
[0013] 采用基于Entity Embeddings算法的模型,将分类型化验数据逐个映射为离散型特征数值;
[0014] 基于Softmax函数输出各个指标类别对应的概率计算以形成Softmax分类器;
[0015] 利用交叉熵损失函数计算指标分类结果与实际结果之间的偏差度,并通过梯度下降法调整权重参数以缩小所述偏差度。
[0016] 进一步地,所述采用基于Entity Embeddings算法的模型,将分类型化验数据逐个映射为离散型特征数值包括:
[0017] 利用硬编码方法将所述分类型化验数据逐个映射为数值,并将映射关系存入哈希表,并对目标列进行One‑Hot编码(One‑Hot Encoding,下称“独热编码”);
[0018] 设置向量的长度,将通过独热编码的分类型字段输入Entity Embeddings层进行转化处理,得到固定维度向量。
[0019] 进一步地,所述基于Softmax函数输出各个指标类别对应的概率包括:
[0020] 将所述固定维度向量输入至神经网络层进行训练;
[0021] 在输出层采用所述Softmax函数将训练后的向量归一化为概率分布向量,得到各个指标类别对应的概率值,且总概率和为1。
[0022] 进一步地,所述将待处理的化验数据输入至所述指标实体归一化模型得到分类结果包括:
[0023] 获取所述待处理的化验数据;
[0024] 将所述待处理的化验数据通过所述哈希表进行映射处理得到映射结果;
[0025] 将映射结果输入所述神经网络层进行训练,并经过所述Softmax函数得到所述化验数据所属类别的概率,实现分类器的分类;
[0026] 选取所述化验数据所属类别中概率最高值所对应的类别作为临床指标实体类别,以作为分类器的分类结果。
[0027] 进一步地,所述临床指标实体类别包括机构编号、指标内部编号、化验中文名称、化验英文名称、单位和参考范围。
[0028] 进一步地,所述将通过One‑Hot编码(或称独热编码)的分类型字段输入Entity Embeddings层进行转化处理包括:
[0029] 在所述Entity Embeddings层将所述离散型特征数值映射为向量;
[0030] 通过向量距离确定不同离散型特征数值之间的关联程度,并根据关联程度大小确定所述固定维度向量的距离长度。
[0031] 进一步地,所述对所述待处理的化验数据进行预处理包括:
[0032] 对所述待处理的化验数据进行数据清洗和数据补全,并筛选出需要分类型的数据。
[0033] 进一步地,还包括:
[0034] 判断是否存在新的字段值或类别,且所述字段值或类别未纳入训练集中;
[0035] 若是,则将所述新的字段值或类别进行统一替换。
[0036] 本发明的另一实施例提出基于深度学习的关键临床指标实体识别系统,包括:
[0037] 原始指标实体库建立单元,用于根据慢性肾脏病原始临床指标数据建立原始指标实体库;
[0038] 指标实体知识库建立单元,用于基于专家标记法建立慢性肾脏病的关键指标实体知识库;
[0039] 模型构建单元,用于基于Entity Embeddings算法构建指标实体归一化模型,形成所述原始指标实体库和所述关键指标实体知识库之间映射关系和分类器;
[0040] 数据分类单元,用于将待处理的化验数据输入至所述指标实体归一化模型得到分类结果。
[0041] 本发明的再一实施例提出一种计算机可读存储介质,其存储有计算机程序,在所述计算机程序被执行时,实施根据上述的基于深度学习的关键临床指标实体识别方法。
[0042] 本发明提出的基于深度学习的关键临床指标实体识别方法和系统,首先,基于海量的慢性肾脏病原始临床指标数据建立原始指标实体库;其次,由专业医学人员构建慢性肾脏病的关键指标实体知识库;通过基于Entity Embeddings算法构建指标实体归一化模型,形成原始指标实体库和关键指标实体知识库之间映射关系形成关联知识库,并利用深度学习技术从关联库中学习原始指标实体和知识库指标实体之间的关联,从而可以将待处理的化验数据输入至指标实体归一化模型得到分类结果。相对于现有技术而言,本发明的技术方案实现了高效、精准的多源慢性肾脏病临床关键指标的自动化识别,可靠性强,准确度高,具有良好的推广应用前景。

附图说明

[0043] 为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0044] 图1为本发明实施例提供的基于深度学习的关键临床指标实体识别方法流程示意图;
[0045] 图2为本发明实施例提供的步骤S103方法流程图;
[0046] 图3为本发明实施例提供的数据预处理示意图;
[0047] 图4为本发明实施例提供的步骤S104方法流程图;
[0048] 图5为本发明实施例提供的不同分类方法的ROC‑AUC曲线对比图;
[0049] 图6为本发明实施例提供的不同分类方法的PR‑AP曲线对比图;
[0050] 图7为本发明实施例提供的基于深度学习的关键临床指标实体识别系统示意图。
[0051] 主要元件符号说明:
[0052] 10‑原始指标实体库建立单元;20‑指标实体知识库建立单元;30‑模型构建单元;40‑数据分类单元。

具体实施方式

[0053] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0054] 原始CKD(Chronic Kidney Disease,即多源慢性肾脏病)临床指标实体由机构代码、指标内部代码、指标中文名称、指标英文名称、单位、参考范围等六个字段构成,属于典型的结构化数据(即上述原始临床指标实体)。上述字段的类型一般可分为是数值型数据和分类型数据,对结构化数据进行分类主要是经由结构化数据中的某一列或某几列的值对该条记录的类别标签进行填充,目前,对结构化数据进行分类的算法研究主要分为使用传统机器学习分类算法如决策树等以及基于深度神经网络的方法,本发明实施例提供了利用Entity Embeddings技术在深度学习框架下对CKD关键指标实体进行分类的方法。
[0055] 实施例1
[0056] 图1为本发明实施例提供的基于深度学习的关键临床指标实体识别方法流程示意图。
[0057] 参照图1,基于深度学习的关键临床指标实体识别方法包括:
[0058] 步骤S101,根据慢性肾脏病原始临床指标数据建立原始指标实体库;
[0059] 步骤S102,基于专家标记法建立慢性肾脏病的关键指标实体知识库(关键指标实体知识库也称为专家标记法是常用的标记处理方法,使用人工标记数据方式来生成知识库(原始指标实体库)以聚集来自公共源(例如慢性肾脏病原始临床指标数据)的信息。关于专家标记法对此不再赘述);
[0060] 步骤S103,基于Entity Embeddings算法构建指标实体归一化模型,形成原始指标实体库和关键指标实体知识库之间映射关系和分类器;
[0061] 步骤S104,将待处理的化验数据输入至指标实体归一化模型得到分类结果。
[0062] 具体地,Entity Embeddings算法是将离散特征值映射成向量的技术,其优点是可以通过向量距离反应两个特征值之间的关联程度,关联程度越大,对应的向量距离越小,Entity Embeddings算法可以使神经网络更好地学习表格数据的离散特征。在传统的结构化数据集分类算法中,经常使用硬编码方式,将原始临床指标实体的分类型数据一一映射到向量空间中,这种做法会模糊了数值之间的差异,误导函数的运算。使用Entity Embeddings算法对硬编码进行补充能弥补这个缺陷,同时Entity Embeddings的具体权重参数由神经反向传播训练得到,与人工设定的权重相比能更好地拟合目标问题,具有更强的泛化能力。本发明实施例通过对输入的x经过多层的神经元计算,每个神经元对输入运算后将输出传给下一层神经元,最后的输出层通过Softmax函数将输出向量中的值映射到0‑1之间,以表示分类后属于某个类别的概率。
[0063] 参照图2,步骤S103(即基于Entity Embeddings算法构建指标实体归一化模型,形成原始指标实体库和关键指标实体知识库之间映射关系和分类器)包括:
[0064] 步骤S201,获取混合后的所述原始指标实体库和所述关键指标实体知识库记载的化验数据,根据化验数据不同字段的特征,对待处理的化验数据进行预处理,图3为预处理后的数据情况;上述所用数据来自4246万张化验单,包含超过6亿条化验记录,我们从中抽取出45384万条包含机构代码、指标内部代码、指标中文名称、指标英文名称、单位、参考范围等6个字段标记的指标实体,形成原始指标实体库。由专业医学人员构建包含78个CKD关键指标实体的知识库,然后混合建立原始指标实体和关键指标实体的知识库,利用深度学习技术从关联知识库中学习原始指标实体和知识库指标实体之间的关联,即在上述混合知识库基础上学习相同指标实体下不同名称表示的归一化规则,该归一化规则称为基于深度学习的多源CKD关键临床指标实体识别方法。
[0065] 步骤S202,采用基于Entity Embeddings的算法,将分类型化验数据逐个映射为离散型特征数值;
[0066] 具体地,利用硬编码方法将原始临床指标实体的分类型化验数据逐个映射为数值,上述映射仅是将分类型化验数据映射呈数字数据的过程;同时将映射关系存入哈希表中,并对目标列进行独热编码,将通过独热编码的分类型字段输入EntityEmbeddings层进行转化处理,得到固定维度向量。在EntityEmbeddings层可以将离散型特征数值映射为向量,通过向量距离确定不同离散型特征数值之间的关联程度,并根据关联程度大小确定固定维度向量的距离长度。这里,本发明实施例在对神经网络的分类型数据进行处理时,首先使用硬编码方式将数据映射为数字,例如,若分类型数据字段含有两种:红细胞和红细胞计数,则两个字段将会被分别映射为1、2,从而用数值表示分类型字段。
[0067] 接下来,对通过独热编码的分类型字段进行EntityEmbeddings处理,假设N表示映射后的数据维度,M表示传入的字段值种类个数,OM×M代表存储One‑Hot向量(One‑HotVector,下称“独热向量”)的矩阵,每一行代表一个独热向量,WM×N是存放神经网络学习得到的权重的矩阵,通过公式(1),得到了矩阵EM×N,EM×N是存放字段值Embedding向量的矩阵,每一行就是每个字段值的Embedding向量表示。
[0068] EM×N=OM×M×WM×N  公式(1)
[0069] 步骤S203,基于Softmax函数输出各个指标类别对应的概率计算以形成Softmax分类器;通过上述Softmax分类器的处理可以实现相同指标实体下不同名称指标的归一化处理,即可完成原始指标实体库和所述关键指标实体知识库之间映射关系;
[0070] 具体地,将向量传入后面的网络层依次进行训练,在输出层中采用Softmax函数将所有结果映射到[0,1]之间,Softmax函数的输出结果为化验数据(即样本)属于各个类别的概率,且总概率和为1。上述Softmax函数为输出层的激活函数;本发明实施例提供的神经网络分为三层,分别为输入层、隐藏层、输出层,在经过上述EntityEmbeddings算法之后,结构化数据中的所有字段都已被转换为数值类型,满足计算需求,最后通过输出层输出当前化验数据属于某一类别的概率。例如:若对应(血肌酐,尿肌酐)的输出向量为(0.2,0.8),则该化验结果为血肌酐的概率为0.2,为尿肌酐的概率为0.8,利用Softmax函数使得输出结果的向量和为1从而能够表示为概率。
[0071]
[0072] 其中,上述(2)中,Si表示属于第i个类别的概率,Vi为输出层该类别所在列数值,e为常数,j表示属于所在的列(或目标列)。
[0073] 步骤S204,利用交叉熵损失函数计算指标分类结果与实际结果(即实际类别)之间的偏差度,并通过梯度下降法调整权重参数以缩小偏差度。
[0074] 具体地,对于Softmax函数输出的结果,需尽量使正确分类的概率升高。例如,若实际类别为血肌酐,则需使血肌酐的概率值0.2升高,相应的尿肌酐的概率值0.8降低,可利用交叉熵损失函数衡量实际结果和指标分类结果之间的差异,其中,θ代表样本编号,m代表batch大小(即Batchsize),h函数代表全连接的训练过程,λ代表防止陷入局部最优的超参数,n代表产生相同概率的个数:
[0075]
[0076] 上述公式(3)利用了交叉熵损失函数实施计算J(θ),上述公式(3)中的x代表指标分类结果的特征值(x代表指标分类结果),上述y代表实际结果的特征值(即实际结果或称实际类别),且i代表第i个类别,j表示属于所在的列,遍历每个batch后计算J(θ),该J(θ)为遍历所有样本产生的相同概率后计算的偏差度;Batch:即使用训练集中的一部分样本对模型参数权重进行一次反向传播的更新,这一小部分样本被称为“一批数据”。“一批数据”的大小就是Batchsize。Batchsize:1次迭代所使用的样本量,每跑完一个batch都要更新参数。
[0077] 通过上述交叉熵损失函数衡量了当前预测结果与实际结果之间的偏差度,相较于普通的均方误差损失有更好的平滑度,方便进行梯度下降计算,可防止函数陷入局部最优。
[0078] 通过梯度下降使得权重和偏差改变,可缩小偏差值,本发明实施例利用偏导数的正负来判断参数变更的方式,通过下式实现参数更新;
[0079]
[0080] 其中x0,x1,……xn代表若干个指标分类结果的特征值,y代表实际结果的特征值;m代表batch大小(即Batchsize),h函数代表全连接的训练过程;i代表第i个类别,j表示属于所在的列;其中,α代表学习率;
[0081] θi表示第i个类别的偏导数;
[0082] 综上所述,一个深度神经网络由输入层,隐藏层和输出层构成,通过对输入层输入的x经过多层的神经元计算,每个神经元对输入进行运算后将输出传给下一层神经元,同时最后一层也就是输出层通过Softmax函数将输出向量中的值映射到0‑1之间表示分类后属于某个类别的概率。
[0083] 对于神经网络的训练包括四个步骤,分别是初始化神经网络参数、前向传播、计算损失(即loss)、反向传播。其中,前向传播根据输入值从前至后依次经过每一层神经元来完成运算,并将运算结果输入给下一层。在损失计算阶段,根据交叉熵损失函数计算网络分类结果和实际类别之间的差异,使得差异值向零趋近;
[0084] 为实现该目的,则需要向函数值更小的方向迭代更新参数,而交叉熵损失函数的值由前向传播计算得来,因而损失函数包含了每一层神经元的参数信息,对交叉熵函数计算的偏差值再求偏导数即可判断如何更新每层神经元的参数。
[0085] 所以说,在loss计算阶段,根据交叉熵损失函数计算网络分类结果和实际类别之间的差异,要使得差异值向零靠近,则需要向函数值更小的方向迭代更新参数,而交叉熵损失函数的值由前向传播计算得来,因而损失函数包含了每一层神经元的参数信息,对交叉熵函数计算的偏差值再求偏导数即可判断如何更新每层神经元的参数。
[0086] 本发明实施例利用神经网络自动学习参数能够得到鲁棒性很强的模型,对于结构化数据中的分类型字段,需要通过硬编码方法将其转换为数值矩阵,而硬编码方法处理后的矩阵会造成不同类别硬编码后差异相同的缺陷,通过Entity Embeddings算法,在神经网络中将硬编码之后的数据映射成固定大小的向量,而进行Entity Embeddings操作的函数也作为神经元加入神经网络,经由前向传播和反向传播来迭代更新函数中的参数,从而使得训练过后,向量与向量之间的关系更加贴合其实际含义。
[0087] 参照图4,步骤S104包括:
[0088] 步骤S301,获取待处理的化验数据;
[0089] 步骤S302,将待处理的化验数据通过哈希表进行映射处理;
[0090] 步骤S303,将映射结果输入神经网络层进行训练,并经过Softmax函数得到化验数据所属类别的概率,实现分类器的分类;
[0091] 步骤S304,选取化验数据所属类别中概率最高值所对应的类别作为临床指标实体类别。
[0092] 需要说明的是,本发明实施例提供的临床指标实体类别包括,但不限于机构编号、指标内部编号、化验中文名称、化验英文名称、单位和参考范围。
[0093] 本发明实施例通过构建CKD关键指标实体的知识库,然后建立原始指标实体和知识库中的指标实体的关联,形成关联知识库,利用深度学习技术从关联库中学习原始指标实体和知识库指标实体之间的关联,即学习相同指标实体不同名称表示的归一化规则、学习专业医学人员的标记经验,实现了高效、精准的多源慢性肾脏病临床关键指标的自动化识别,可靠性强,准确度高,具有良好的推广应用前景。
[0094] 实施例2
[0095] 本发明利用某地区多家医疗机构的实验室化验数据,对临床指标名称命名规则进行统计分析,建立指标实体归一化模型。所用数据来自化验单及化验记录,从中抽取出数亿条包含机构代码、指标内部代码、指标中文名称、指标英文名称、单位、参考范围等6个字段标记的指标实体,形成原始指标实体库。由专业医学人员构建包含78个CKD关键指标实体的知识库,然后建立原始指标实体和知识库中的指标实体的关联,形成关联知识库,采用实施例1中的方法实现对数据的分类处理。
[0096] 本发明实施例数据集的归一化过程如下:(1)将原始名称进行变量扩张,扩张之后包括机构编号、指标内部编号、化验中文名称、化验英文名称、单位、参考范围;(2)由相关医学专业人士人工标注,并归集为78类;(3)将标注好的数据集80%的数据作为训练集;(4)进行数据预处理,对于范围字段进行清洗;对于分类型数据(即分类型化验数据),使用硬编码方法一一映射为具体的数值,并将其映射关系存入哈希表,并对目标字段使用独热编码操作。(5)将训练数据放入网络开始训练。
[0097] 将机构编号、化验编号、化验中文名称、化验英文名称、单位、范围,这6列的离散特征值分别放入Embeddings层中学习,将每列离散特征对应的Embedding向量拼接成训练向量,并将训练向量传入网络中的隐藏层。隐藏层为7层,每层含有500‑700个神经元,激活函数为ReLU(Rectified LinearUnit,修正线性单元)。
[0098] 测试集由人工标注好的数据集的20%构成,其数据的种类包含了78类。由于本发明的实验对新出现的字段值或类别需要进行统一处理,因此测试集需要进行以下处理:如果训练集中的特征值没有出现在训练集中,本发明实施例采取将这些特征值视为新特征的方式,将这些新特征统一替换为预设字符。
[0099] 为评估基于深度学习的多源CKD关键临床指标实体识别方法的效果,本发明实施例使用Accuracy(下称“准确率”)、Precision(下称“精确率”)、Recall(下称“召回率”)以及F1Score(下称“均衡平均数”)等指标作为分类效果的评价标准,并将本发明实施例方法与传统机器学习算法,如SVM(Support Vector Machine,下称“支持向量机”)、Linear Regression(下称“线性回归”)、K‑NearestNeighbor(下称“K近邻分类”)、XGBoost、Decision Tree(下称“决策树”)等算法,进行对比实验。如下表1,表1为对比实验的结果,可以看出基于Entity Embeddings进行分类在各指标上均超过其他算法,特别是相较于目前在结构化数据上运用广泛的XGBoost算法也有一定的提升。
[0100] 表1不同分类算法的相关指标值
[0101]
[0102]
[0103] 从上述表1可以看出,相较于同样神经网络训练的硬编码方式,Entity Embeddings算法的准确率高出21.47%、召回率高出37.08%、精确率高出34.17%、均衡平均数高出36.99%,相较于传统机器学习中表现最好的XGBoost算法,在准确率、召回率、均衡平均数等指标上分别高出1.1%、2.79%、0.71%。由此可知,在进行化验项目分类项目上,Entity Embeddings算法比传统的硬编码效果明显更好,同时相较于当前广泛应用的传统机器学习算法XGBoost也有一定程度的提升。
[0104] 图5给出了四种不同算法的ROC‑AUC曲线图;图6给出了四种不同算法的PR‑AP曲线图(其前述的四种不同算法为Entity Embeddings算法、硬编码方法、支持向量机和线性回归;其中PR‑AP曲线为精确率‑召回率曲线),相较于用硬编码方式训练的神经网络,Entity Embeddings算法的准确率高出21.47%、召回率高出37.08%、精确率高出34.17%、均衡平均数高出36.99%,相较于传统机器学习中表现最好的XGBoost算法,在准确率、召回率、均衡平均数上分别高出1.1%、2.79%、0.71%。由此可知,在进行化验项目分类项目上,Entity Embeddings算法比传统的硬编码效果更为显著,相较于当前广泛应用的传统机器学习算法XGBoost也有一定的提升。在神经网络结构相同的情况下,加入Entity Embeddings和仅使用硬编码方式进行神经网络训练,Entity Embeddings算法在ROC‑AUC与PR‑AP曲线图上的效果相较于硬编码均有明显提升,且远优于传统机器学习算法。这表明本发明实施例基于Entity Embeddings的神经网络分类算法在多源CKD关键临床指标实体识别方法上具有良好的实践效果。
[0105] 参见图5,图5为ROC(Receiver Operating Characteristic,或称受试者工作特征)曲线,上述ROC曲线上每个点反映着对同一信号刺激的感受性。参见上述图5可知,图5横轴:假正例率(False Postive Rate,FPR),指划分实例中所有负例占所有负例的比例;图5纵轴:真正例率(True Postive Rate TPR)。由上述图5可知,通过绘制ROC曲线图,可以得到四种不同算法曲线下方面积(Area Under Curve,下称“AUC”)的值。
[0106] 其中,图5中Entity Embeddings的AUC值为0.999;硬编码的AUC值为0.972;支持向量机的AUC值为0.908;线性回归的AUC值为0.928;
[0107] 参见图6,图6为精确率‑召回率曲线图(下称“PR‑AP曲线图”),参见上述图6可知,图6横轴上坐标为召回率,图6纵轴坐标为精确率;由上述图6可知,通过绘制PR‑AP曲线图,可以得到四种不同算法在PR‑AP曲线图上的AUC的值。
[0108] 其中,图6中Entity Embeddings的AUC值为0.987;硬编码的AUC值为0.720;支持向量机的AUC值为0.520;线性回归的AUC值为0.254;
[0109] 实施例3
[0110] 参照图7,基于深度学习的关键临床指标实体识别系统包括:
[0111] 原始指标实体库建立单元10,用于根据慢性肾脏病原始临床指标数据建立原始指标实体库;
[0112] 指标实体知识库建立单元20,用于基于专家标记法建立慢性肾脏病的关键指标实体知识库;
[0113] 模型构建单元30,用于基于Entity Embeddings算法构建指标实体归一化模型,形成原始指标实体库和关键指标实体知识库之间映射关系和分类器;
[0114] 数据分类单元40,用于将待处理的化验数据输入至所述指标实体归一化模型得到分类结果。
[0115] 可以理解,上述的基于深度学习的关键临床指标实体识别系统对应于实施例1的基于深度学习的关键临床指标实体识别方法。实施例1中的任何可选项也适用于本实施例,这里不再详述。
[0116] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。