确定临床描述信息的表型信息的方法、设备和介质转让专利
申请号 : CN202110268457.0
文献号 : CN112687328B
文献日 : 2021-08-31
发明人 : 刘蒙蒙 , 钟韵山 , 张钰
申请人 : 北京贝瑞和康生物技术有限公司
摘要 :
权利要求 :
1.一种用于确定临床描述信息的表型信息的方法,包括:获取临床描述信息;
将所述临床描述信息中的每一句话分割成字或标点,以便将经分割的字或标点转换成对应的输入标识;
经由第一神经网络模型的第一网络层,将所述输入标识转换为第一特征向量,所述第一神经网络模型包括由第一语言模型所构建的所述第一网络层、由第二语言模型所构建的第二网络层、以及第三网络层;
经由所述第二网络层,生成第二特征向量,所述第二特征向量用于指示所述临床描述信息中的每一句话中每一个字与周围字组成的短语是否属于预定关键词集合;以及基于所述第一特征向量和所述第二特征向量,经由所述第三网络层,确定所述临床描述信息的表型关键词;
基于所确定的表型关键词,针对候选基因进行排序,以便生成关于候选基因的排序信息;以及
基于候选基因的排序信息,确定与临床描述信息的表型相关联的基因;
其中基于所确定的表型关键词,针对候选基因进行排序以便生成关于候选基因的排序信息包括:
确认候选基因和对应综合征;
提取每一个对应综合征的表型;
经由第二神经网络模型,计算所述临床描述信息的表型关键词与对应综合征的表型的相似度;以及
基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。
2.根据权利要求1所述的方法,其中所述第一语言模型为基于转换器的双向编码表征模型,所述第二语言模型为N元语法模型,所述第三网络层是基于条件随机场模型而构建的。
3.根据权利要求1所述的方法,其中所述第二神经网络模型是基于由双向编码表征模型所形成的孪生神经网络而构建的。
4.根据权利要求1所述的方法,其中所述第二神经网络模型包括第一池化层、第二池化层、相似度计算网络层、以及由双向编码表征模型所分别构建的第一双向编码表征网络层和第二双向编码表征网络层。
5.根据权利要求4所述的方法,其中经由第二神经网络模型计算所述临床描述信息的表型关键词与对应综合征的表型的相似度包括:针对临床描述信息的表型关键词和对应综合征的表型分别进行预处理,以便生成第一表型输入标识和第二表型输入标识;
经由第一双向编码表征网络层,将第一表型输入标识编码为第三特征向量,所述第三特征向量与所述临床描述信息的表型关键词的所有字符相对应;
经由第二双向编码表征网络层,将第二表型输入标识编码为第四特征向量,第四特征向量与所述对应综合征的表型的所有字符相对应;
经由第一池化层,基于第三特征向量,生成第一对应编码;
经由第二池化层,基于第四特征向量,生成第二对应编码;以及经由相似度计算网络层,计算所述第一对应编码和所述第二对应编码的夹角的余弦,以便得到所述临床描述信息的表型关键词与对应综合征的表型之间的相似度。
6.根据权利要求1所述的方法,其中所述第二神经网络模型的训练方法包括:针对预定标准术语集合中的多个标准术语,计算标准术语之间的相似度,以用于针对所述第二神经网络模型进行非监督训练;以及针对相关联的口语描述和标准术语,计算口语描述和标准术语之间的相似度,以用于针对所述第二神经网络模型进行监督训练。
7.根据权利要求6所述的方法,其中针对所述第二神经网络模型进行非监督训练包括:将预定标准术语集合按照各个标准术语之间的相似度,映射到多维空间中;以及随机抽取两个标准术语,以便计算出两个标准术语之间的相似度,以用于将所计算的两个标准术语之间的相似度作为训练目标值而对所述第二神经网络模型进行训练。
8.根据权利要求6所述的方法,其中针对相关联的口语描述和标准术语计算口语描述和标准术语之间的相似度,以用于针对所述第二神经网络模型进行监督训练包括:在0和1之间随机生成第一随机数和第二随机数;
确定第一随机数是否小于第一预定阈值;
响应于确定第一随机数小于第一预定阈值,针对作为第二神经网络模型的第一输入的口语描述和作为第二神经网络模型的第二输入的标准术语,确定第二神经网络模型的训练目标值为1;以及
响应于确定第一随机数大于或者等于第一预定阈值,针对口语描述和标准术语,确定第二神经网络模型的训练目标值为口语描述所标注标准术语和作为第二输入的标准术语之间的预定表型标准术语树相似度,预定表型标准术语树包括多个节点,每一个节点对应一个标准术语,预定表型标准术语树相似度的大小与标准术语所对应的节点在预定表型标准术语树中的距离相关联。
9.根据权利要求8所述的方法,其中以关联的口语表述和预定数据库的标准术语针对第二神经网络模型进行监督训练还包括:确定第二随机数是否小于第二预定阈值;
响应于确定第二随机数小于第二预定阈值,训练所述第二神经网络模型;以及响应于确定第二随机数大于或者等于第二预定阈值,使得口语描述作为所述第二神经网络模型的第二输入以及标准术语作为所述第二神经网络模型的第一输入,以用于训练所述第二神经网络模型。
10.根据权利要求1所述的方法,其中基于所计算的相似度针对候选基因进行排序包括:基于对应综合征的多个表型和所确定的临床描述信息的多个表型关键词,确定关于对应综合征的相似度矩阵,所述相似度矩阵指示对应综合征的表型与临床描述信息的表型关键词之间的相似度;
基于关于每个对应综合征的相似度矩阵,确定关于每个对应综合征的评估值;以及基于关于对应综合征的评估值,确定关于候选基因的评估值,以便基于所确定的关于候选基因的评估值来针对候选基因进行排序。
11.根据权利要求1所述的方法,其中经由所述第三网络层确定所述临床描述信息的表型关键词包括:
融合所述第一特征向量和所述第二特征向量,以便生成经融合的特征向量;
针对经融合的特征向量进行降维,以使得经降维的特征向量的维度与标签的类别数目相一致;
经由所述第三网络层,提取经降维的特征向量的特征,以预测关于每一个经分割的字或标点的类别;以及
基于所预测的关于每一个经分割的字或标点的类别,确定所述临床描述信息的表型关键词。
12.根据权利要求11所述的方法,其中经由所述第三网络层提取经降维的特征向量的特征,以预测关于每一个经分割的字或标点的类别包括:将经降维的特征向量输入至所述第三网络层,以便计算每个经融和与降维的特征向量的对数似然值;
针对所计算的对数似然值取负平均,以作为所述第一神经网络模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个经分割的字或标点的类别。
13.一种计算设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述计算设备执行根据权利要求1至12任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至12中任一项所述的方法。
说明书 :
确定临床描述信息的表型信息的方法、设备和介质
技术领域
背景技术
在基因检测之前,表型关键词可以辅助确定要研究的区域,帮助筛选检验项目。在基因检测
之后,表型关键词例如可以和关联基因信息可以关联起来以用于针对临床描述信息进行解
释。因此,临床描述信息的表型信息(例如包括:表型关键词和关联基因信息)的准确确定变
得尤为重要。
关联的关联基因,缺乏关于确定临床描述信息的表型信息的自动化流程解决方案,进而使
得临床描述信息的表型信息的确定过程效率低下。另外,上述人工干预步骤会因为不同人
针对同一段临床描述信息存在主观性偏差和描述格式的不确定性而导致临床描述信息的
表型信息杂乱而缺乏通用性,而且容易产生错误。因此,传统的确定临床描述信息的表型信
息的方案需要耗费较多时间、效率低下,并且容易产生错误。
误。
发明内容
分割的字或标点转换成对应的输入标识;经由第一神经网络模型的第一网络层,将输入标
识转换为第一特征向量,第一神经网络模型包括由第一语言模型所构建的第一网络层、由
第二语言模型所构建的第二网络层、以及第三网络层;经由第二网络层,生成第二特征向
量,第二特征向量用于指示临床描述信息中的每一句话中每一个字与周围字组成的短语是
否属于预定关键词集合;以及基于第一特征向量和第二特征向量,经由第三网络层,确定临
床描述信息的表型关键词。
个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的
第一方面的方法。
基因的排序信息,确定与临床描述信息的表型相关联的基因。
经由第二神经网络模型,计算临床描述信息的表型关键词与对应综合征的表型的相似度;
以及基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。
行预处理,以便生成第一表型输入标识和第二表型输入标识;经由第一BERT网络层,将第一
表型输入标识编码为第三特征向量,第三特征向量与临床描述信息的表型关键词的所有字
符相对应;经由第二BERT网络层,将第二表型输入标识编码为第四特征向量, 第四特征向
量与对应综合征的表型的所有字符相对应;经由第一池化层,基于第三特征向量,生成第一
对应编码;经由第二池化层,基于第四特征向量,生成第二对应编码;以及经由相似度计算
网络层,计算第一对应编码和第二对应编码的夹角的余弦,以便得到临床描述信息的表型
关键词与对应综合征的表型之间的相似度。
训练;以及针对相关联的口语描述和标准术语,计算口语描述和标准术语之间的相似度,以
用于针对第二神经网络模型进行监督训练。
便计算出两个标准术语之间的相似度,以用于将所计算的两个标准术语之间的相似度作为
训练目标值而对第二神经网络模型进行训练。
随机数和第二随机数;确定第一随机数是否小于第一预定阈值;响应于确定第一随机数小
于第一预定阈值,针对作为第二神经网络模型的第一输入的口语描述和作为第二神经网络
模型的第二输入的标准术语,确定第二神经网络模型的训练目标值为1;以及响应于确定第
一随机数大于或者等于第一预定阈值,针对口语描述和标准术语,确定第二神经网络模型
的训练目标值为口语描述所标注标准术语和作为第二输入的标准术语之间的预定表型标
准术语树相似度,预定表型标准术语树包括多个节点,每一个节点对应一个标准术语,预定
表型标准术语树相似度的大小与标准术语所对应的节点在预定表型标准术语树中的距离
相关联。
数小于第二预定阈值,训练第二神经网络模型;以及响应于确定第二随机数大于或者等于
第二预定阈值,使得口语描述作为第二神经网络模型的第二输入以及标准术语作为第二神
经网络模型的第一输入,以用于训练第二神经网络模型。
度矩阵,相似度矩阵指示对应综合征的表型与临床描述信息的表型关键词之间的相似度;
基于关于每个对应综合征的相似度矩阵,确定关于每个对应综合征的评估值;以及基于关
于对应综合征的评估值,确定关于候选基因的评估值,以便基于所确定的关于候选基因的
评估值来针对候选基因进行排序。
维,以使得经降维的特征向量的维度与标签的类别数目相一致;经由第三网络层,提取经降
维的特征向量的特征,以预测关于每一个经分割的字或标点的类别;以及基于所预测的关
于每一个经分割的字或标点的类别,确定临床描述信息的表型关键词。
个经融和与降维的特征向量的对数似然值;针对所计算的对数似然值取负平均,以作为第
一神经网络模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个经分割的
字或标点的类别。
意限制本公开的范围。
附图说明
具体实施方式
制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整
地传达给本领域的技术人员。
例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的
实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
缺乏关于确定临床描述信息的表型信息的自动化流程解决方案,进而使得表型信息的确定
过程效率低下。另外,上述人工干预步骤会因为不同人针对同一段临床描述信息解释的主
观性偏差和描述格式的不确定性,进而导致所确定的表型信息杂乱而缺乏通用性,而且容
易产生错误。因此,传统的确定临床描述信息的表型信息的方案需要耗费较多时间,容易产
生错误,并且所确定的表型信息缺乏通用性。
床描述信息中、经分割的字或标点转换成对应的输入标识;并经由第一神经网络模型的第
一网络层和第二网络层分别生成第一特征向量和第二特征向量;以及基于第一特征向量和
第二特征向量,经由第一神经网络模型的第三网络层来确定临床描述信息的表型关键词。
本公开可以经由第一神经网络来自动提取所获取的临床描述信息的表型关键词,因而能够
更加快速地进行表型关键词的提取,避免了因人工解读电子病历的表型信息而导致的低效
率和主观差异性。另外,通过使得经由第二网络层所生成的第二特征向量用于指示临床描
述信息中的每一句话中每一个字与周围字组成的短语是否属于预定关键词集合,本公开能
够更容易捕获临床描述信息中上下文相关的字词、以及与预定关键词集合的关联等其他形
式的信息,从而使得所确定的表型关键词更为精确。因而,本公开能够实现自动、快速、准确
地确定临床描述信息的表型信息。
设备110可以通过网络140以有线或者无线的方式与生信服务器150进行数据交互。
经由第一神经网络模型的第一网络层,将输入标识转换为第一特征向量;以及经由第一神
经网络模型的第二网络层,生成第二特征向量。另外,计算设备110还可以用于基于第一特
征向量和第二特征向量,经由第一神经网络模型的第三网络层,确定临床描述信息的表型
关键词临床描述信息的表型关键词。在一些实施例中,计算设备110可以具有一个或多个处
理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外,
在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如临床描述信息获取
单元112、输入标识转换单元114、第一特征向量转换单元116、第二特征向量生成单元118、
表型关键词确定单元120。临床描述信息获取单元112、输入标识转换单元114、第一特征向
量转换单元116、第二特征向量生成单元118、表型关键词确定单元120可以配置在一个或者
多个计算设备110上。
层、由第二语言模型所构建的第二网络层、以及第三网络层。
于预定关键词集合。
200的流程图。图3示出了根据本公开的实施例的第一神经网络300的示意图。应当理解,方
法200例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110
处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本
公开的范围在此方面不受限制。
第一神经网络模型300的输入层,该临床描述信息302被分割成字或标点,即,被分割成:
“主”、“诉”、“:”、“矮”、“小”;并且第一神经网络模型300的输入层还可以将经分割的每一个
字或标点换成对应的输入标识。经分割的每一个字或标点换成对应的输入标识的方法例如
包括多种。例如,计算设备110可以按照基于转换器的双向编码表征模型Bidirectional
Encoder Representation from Transformers(BERT)模型的预先创建的字符集将分割后
的每一个字或标点转换为一维的对应的输入标识,以便输入第一神经网络模型的第一网络
层。
语言模型所构建的第二网络层、以及第三网络层。例如,计算设备110采用BERT模型所构建
的第一网络层进行编码,针对经分割的每一个字或标点所对应的输入标识进行编码,以便
得到768维的第一特征向量。
引入条件随机场模型(Conditional Random Field Algorithm,或简称为CRF)、dictionary
embedding、N‑gram模型而构建的。例如,第一网络层例如是基于BERT模型(即,第一语言模
型)所构建的,第二网络层例如是基于N‑gram模型(即,第二语言模型)所构建的,第三网络
层是基于条件随机场模型而构建的。在一些实施例中,第一网络层也可以是基于长短时记
忆网络(Long Short Term Memory Network, LSTM) 或者卷积神经网络(Convolutional
Neural Network, CNN)所构建的。第三网络层也可以是Softmax层。
络层304、由第二语言模型(第二语言模型例如而不限于为N‑gram模型)所构建的第二网络
层306、以及第三网络层310(第三网络层例如而不限于是基于CRF而构建的)。第一网络层
304例如用于将输入标识转换为第一特征向量(如图3所示的T1至T5)。第二网络层用于基于
输入和预定关键词集合生成第二特征向量(如图3所示的G1至G5)。在一些实施例中,第一神
经网络300还包括网络层308,该网络层308用于融合第一特征向量和第二特征向量, 以生
成融合后特征向量。
句子嵌入向量(Segment Embeddings)和位置嵌入向量(Position Embeddings)求和而生成
的。其中标志嵌入向量用于表征字向量,例如,如果当前字符为起始字符,则标志嵌入向量
被记为[CLS]。第一网络层304的输入可以是单句或者句对所对应的输入标识。句子嵌入向
量用于表征句对中的两个句子。例如可以通过标记符[SEP] 针对不同的句子进行分隔。同
一个句子的句子嵌入向量是共享的,对于单句所对应的输入标识,则只有一种句子嵌入向
量。通过采用上述手段,本公开针对临床描述信息的学习能够考虑字符的位置、与句间关系
等,因此能够更为准确地学习临床描述信息。
名实体(BIEOS)标注法逐字标注。在BIEOS标注法中,B表示这个字处于一个实体的开始
(Begin), I 表示内部(inside), O 表示外部(outside),E 表示这个字处于一个实体的结
束, S 表示这个字是自身就可以组成一个实体(Single)。诸如,针对图3所示的临床描述信
息302 “主诉:矮小”, 经由人工标注的对应标签为:O,O,O,B,E。
集合。例如,计算设备110基于第二网络层和预定关键词集合,生成第二特征向量。预定关键
词集合例如为Dictionary Eembedding,其例如包括:由OMIM(Online Mendelian
Inheritance in Man)数据库中疾病英文名称经由翻译而生成的疾病中文名称、常见疾病
名称及其缩写、RefGene数据库中的基因的名称。其中,RefGene数据库是从UCSC数据库创建
而来。RefGene指定了取自NCBI RNA参考序列集合(RefSeq)的已知人类蛋白质编码和非蛋
白质编码的基因。
形成了长度是N的字节片段序列(或短语)。每一个字节片段称为gram,对所有gram的出现频
度进行统计,并且按照事先设定好的阈值进行过滤,形成对应于输入的临床描述信息的向
量特征空间,每一种gram就是一个特征向量维度。例如,分别设置N‑gram长度为1 6,分别表
~
示输入的临床描述信息中的每个字与周边字构成预定长度的短语,并根据该短语是否出现
在预定关键词集合(例如为Dictionary Eembedding)中而生成21维one‑hot向量,其中“1”
指示该所构成的短语在预定关键词集合中出现过,“0”指示该所构成的短语在预定关键词
集合中未出现过。
(Conditional Random Fields, 以下简称CRF)所构建的。在一些实施例中,第三网络层例
如采用线性链条件随机场模型来构建。以下结合公式(1)来说明第三网络层计算每个位置
的条件概率的方式。
表序号。
行降维,以使得经降维的特征向量的维度与标签的类别数目相一致;经由第三网络层,提取
经降维的特征向量的特征,以预测关于每一个经分割的字或标点的类别;以及基于所预测
的关于每一个经分割的字或标点的类别,确定临床描述信息的表型关键词。
征向量)进行融合,以便生成融合后特征向量,即新的789维特征向量。之后,计算设备110将
融合后的特征向量降维至与标签的类别数目相一致的维度,如图3所示,针对输入的临床描
述信息302 “主诉:矮小”, 其对应标签的类别数目为5,因此,融合后的789维特征向量被降
维至5维的特征向量。然后,计算设备110经由第三网络层310,提取该5维的特征向量的特
征,预测关于每一个经分割的字或标点的类别,例如为图3所示输出312,即“O”、“O”、“O”、
“B”、“E”。之后,计算设备110例如基于所预测的输出312和命名实体(BIEOS)标注法(其中,B
表示这个字处于一个实体的开始“Begin”、O 表示外部“outside”, E 表示这个字处于一个
实体的结束),则确定临床描述信息302的表型关键词320为 “矮小”(输入的临床描述信息
302中的“矮”和“小”分别与图3所示的输出312中的类别中的“B”、“E”相对应)。
和第二特征向量;以及基于第一特征向量和第二特征向量,经由第一神经网络模型的第三
网络层来确定临床描述信息的表型关键词。本公开可以经由第一神经网络来自动提取所获
取的临床描述信息的表型关键词,因而能够更加快速地进行表型关键词的提取,避免了因
人工解读电子病历的表型信息而导致的低效率和主观差异性。另外,通过使得经由第二网
络层所生成的第二特征向量用于指示临床描述信息中的每一句话中每一个字与周围字组
成的短语是否属于预定关键词集合,本公开能够更容易捕获临床描述信息中上下文相关的
字词、以及与预定关键词集合的关联等其他形式的信息,从而使得所确定的表型关键词更
为精确。因而,本公开能够实现自动、快速、准确地确定临床描述信息的表型信息。
因的方法400的流程图。应当理解,方法400例如可以在图11所描述的电子设备1100处执行。
也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动
作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
选基因分别确定评估值,然后比较关于候选基因的评估值,基于候选基因的评估值针对候
选基因进行排序。例如:所确定的表型关键词分别是“出生后右眼青光眼”、“全身咖啡斑病
变”、“神经纤维瘤”,所确定的候选基因例如为:“NF1”、“NF2”、 “SPRED1”,所计算的候选基
因 “NF1” 的评估值例如为“1”、候选基因 “NF2” 的评估值例如为“0.8563”、候选基因
“SPRED1” 的评估值例如为“0.7428”。应当理解,候选基因的评估值越高则代表该候选基因
相关的表型与患者的临床表型相似度越高。因而,计算设备110例如按照候选基因的评估值
递减顺序确定的候选基因的排序信息例如是:候选基因 “NF1”、“NF2”、 “SPRED1”分别排序
第1、2、3。关于基于所确定的表型关键词来针对候选基因进行排序的方法可以包括多种。例
如,包括以下步骤:
综合征为对应综合征。其中,候选基因与对应综合征例如为多对多的关系。
取出每个对应综合征所对应的表型。
的孪生神经网络而构建的。关于计算临床描述信息的表型关键词与对应综合征的表型之间
的相似度的方法,其例如包括:针对临床描述信息中的表型关键词和对应综合征的表型分
别进行预处理,以便生成第一表型输入标识和第二表型输入标识;将第一表型输入标识编
码为第三特征向量,第三特征向量与临床描述信息的表型关键词的所有字符相对应;基于
第三特征向量生成第一对应编码;基于第四特征向量生成第二对应编码;以及计算第一对
应编码和第二对应编码的夹角的余弦,以便得到临床描述信息的表型关键词与对应综合征
的表型之间的相似度。下文将结合图5详细说明用于计算临床描述信息的表型关键词与对
应综合征的表型之间的相似度的方法,在此,不再赘述。
键词,同时一个基因或者对应综合征往往也会导致多种不同的表型。因此,需要一个综合计
算方法来确定最终单个候选基因的排名,例如基于候选基因的评估值来针对候选基因排
序。关于确定最终单个候选基因的评估值的方法,下文将结合图10详细说明,在此,不再赘
述。
个候选基因作为与临床描述信息的表型相关联的基因。例如,针对则所生成的候选基因的
排序信息例如是:候选基因 “NF1”、“NF2”、 “SPRED1”分别排序第1、2、3。则选取排名靠前的
一个候选基因“NF1”作为与临床描述信息的表型关键词相关联的基因。
生错误。
表型关键词与对应综合征的表型的相似度的方法500的流程图。图6示意性示出了根据本公
开实施例所示出的第二神经网络模型600的示意图。应当理解,方法500例如可以在图11所
描述的电子设备1100处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法
500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不
受限制。
的临床描述信息通常由医生所表述,因此,其可能使用标准术语,也可能使用口语化的表
述,因此经由第一神经网络模型所确定的临床描述信息中的表型关键词也可能是标准术
语,例如“心脏形态异常”,也可能是口语描述,例如“心脏变大”。如前文描述,对应综合征的
表型例如是根据人类表型术语集HPO的官网提供的phenotype annotation文件所提取的表
型,因此,对应综合征的表型通常为标准术语,例如“心脏形态异常”。
识612例如是按照基于BERT模型的预先创建的字符集将对应综合征的表型经分割后的每一
个字或标点转换而生成的。第一表型输入标识602例如与临床描述信息的表型关键词的所
有字符相对应。第二表型输入标识612例如与对应综合征的表型的所有字符相对应。如图6
所示,第一表型输入标识602和第二表型输入标识612用于分别输入第二神经网络模型600
的第一BERT网络层604和第二BERT网络层614。
(Siamese Network)。如图6所示,第二神经网络模型600例如而不限于包括:第一BERT网络
层604、第一池化层606、第二BERT网络层614、第二池化层616和相似度计算网络层620。
定数据集合(例如而不限于为中文人类表型标准术语联盟“CHPO”数据库)标准术语中筛选
出最相近的一个或多个表型,以作为人工提取的临床描述信息的表型关键词所对应的CHPO
标准术语。例如,以下表2示意性示出了人工提取的临床描述信息的表型关键词与CHPO标准
术语之间的对应关系。
联的口语描述与标准术语之间的相似度计算。下文将结合图7至图9具体说明第二神经网络
模型的训练方法。在此,不再赘述。
经网络模型600所计算出的第一输入(例如,第一表型输入标识602)和第二输入(例如,第二
表型输入标识612)的相似度。
应。第三特征向量605例如为768维向量。
征向量615例如为768维向量。
池化层606将768维的第三特征向量605取平均值,以便得到与表型关键词的所有字符相对
应第一对应编码608。
池化层616将768维的第四特征向量615取平均值,得到与对应综合征的表型的所有字符相
对应形成第二对应编码618。
型的相似度620。
的夹角的余弦(或称为Cosine_distance)。例如,如果临床描述信息中的表型关键词例如是
“心脏形态异常”,对应综合征的表型例如是“心脏形态异常”,则所计算的临床描述信息的
表型关键词与对应综合征的表型的相似度例如为1。
征的表型这两个表型之间的相似度。
11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处执行。应当理解,方
法700还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面
不受限制。
预定标准术语集合按照各个标准术语间的相似度,映射到多维空间中;以及随机抽取两个
标准术语,以便计算出两个标准术语之间的相似度,以用于将所计算的两个标准术语之间
的相似度作为训练的目标值而对第二神经网络模型进行训练。
定表型标准术语树包括多个节点,该多个节点例如是处于不同深度的多级节点组,每一级
节点组包括一个或多个节点,每一个节点代表一个表型标准术语(或称“标准术语”)。预定
表型标准术语树相似度指示在预定表型标准术语树中不同表型标准术语之间的相似度,预
定表型标准术语树相似度的大小与表型标准术语所对应的节点在预定表型标准术语树中
的距离相关联。两个表型标准术语节点如果在标准术语树中的位置相邻,则表明该两个表
型标准术语相似度高,如果两个表型标准术语节点如果在标准术语树中的位置越远,则表
明该两个表型标准术语相似越低。CHPO树相似度是根据CHPO数据库中各表型标准术语之间
关联关系而构建的。
异常”节点例如作为一级节点810,其定义该节点的深度为1(depth=1)。深度为2(depth=2)
的节点例如对应人体各个系统的二级节点,如:“神经系统异常”节点820、“肢体异常”节点
822、“心血管系统异常”节点824等。深度大于2(例如depth=3、depth=4)的节点以此类推。例
如“孤独症”节点和“自闭症行为”节点(未示出)具有公共的二级节点,即“神经系统异常”节
点820,例如,“孤独症”节点和“自闭症行为”节点在CHPO树结构800中为相邻节点,因此二者
的CHPO树相似度高,而“孤独症”节点和“多囊性肾发育不良”(未示出)节点分别关联有不同
系统的二级节点,例如在CHPO树结构800中,二者的距离很远,因此“孤独症”和“多囊性肾发
育不良”之间的CHPO树相似度很低。
其中5.278为两倍log(14),14为最深的节点的深度。CHPO_simij代表节点i和节点j之间的
CHPO树相似度。
非监督训练。
以关联的口语表述和CHPO数据库的标准术语(或者称为“表型标准术语”),针对第二神经网
络进行监督训练,以便生成经训练的第二神经网络。
描述信息的表型关键词与对应综合征的表型之间的相似度,也能够更为准确地口语表达的
临床描述信息的表型关键词与对应综合征的表型之间的相似度。
900例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处
执行。应当理解,方法900还可以包括未示出的附加动作和/或可以省略所示出的动作,本公
开的范围在此方面不受限制。
确定第二神经网络模型的训练目标值为1。标准术语例如为CHPO数据库的表型标准术语。
和作为第二输入的标准术语之间的预定表型标准术语树相似度,预定表型标准术语树包括
多个节点,每一个节点对应一个标准术语,预定表型标准术语树相似度的大小与标准术语
所对应的节点在预定表型标准术语树中的距离相关联。例如,如果确定第一随机数大于或
者等于第一预定阈值,针对口语描述和CHPO标准术语,确定第二神经网络的训练目标值为
口语描述所标注的标准术语和CHPO标准术语之间的CHPO树相似度。
一输入,跳转至步骤912处,以用于训练第二神经网络模型。
的临床描述信息的表型关键词与对应综合征的表型的相似度。
图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处执行。应当理解,
方法1000还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此
方面不受限制。
表型与临床描述信息的表型关键词之间的相似度。例如,所确定的候选综合征i对应有m个
对应的CHPO表型,同时,临床描述信息中可提取出n个表型关键词,则对于候选综合征i,构
建有相似度矩阵例如遵循以下表达式(6)。
n)代表候选综合征i的第m个对应的CHPO表型与临床描述信息中的第n个表型关键词之间的
相似度。
运算。average()代表平均值运算。max()代表取最大值运算。
因x对应了n个对应综合征,分别为x1, x2, ..., xn,以下结合公式(8)说明候选综合征的
评估值的计算方式。
syndrome_scorex1, x2, ..., xn代表应候选基因x所对应的n个候选综合征的的评估值。max
(syndrome_scorex1, x2, ..., xn)代表取n个对应综合征的评估值中的最大值。
的设备。如图11所示,设备1100包括CPU1101,其可以根据存储在只读存储器(ROM)1102中的
计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指
令,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序
和数据。CPU 1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口
1105也连接至总线1104。
700、900、1000。例如,在一些实施例中,方法200、400、500、700、900、1000可被实现为计算机
软件程序,其被存储于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的
部分或者全部可以经由ROM和/或通信单元1109而被载入和/或安装到设备1100上。当计算
机程序加载到RAM并由CPU执行时,可以执行上文描述的方法200、400、500、700、900、1000的
一个或多个操作。备选地,在其他实施例中,CPU可以通过其他任何适当的方式(例如,借助
于固件)而被配置为执行方法200、400、500、700、900、1000的一个或多个动作。
可读程序指令。
磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体
的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器
(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩
盘只读存储器(CD‑ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储
有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可
读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波
导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电
信号。
部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关
计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计
算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计
算机可读存储介质中。
任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如
Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机
可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独
立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机
或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包
括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利
用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令
的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可
编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方
面。
或框图中各方框的组合,都可以由计算机可读程序指令实现。
通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图
中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储
在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特
定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图
和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的
指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可
以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,
它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流
程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作
的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨
在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其
它普通技术人员能理解本文披露的各实施例。
替换、改进等,均应包含在本公开的保护范围之内。