用于确定致病风险变异位点的方法、设备和存储介质转让专利
申请号 : CN202110268390.0
文献号 : CN112687332B
文献日 : 2021-07-30
发明人 : 钟韵山 , 刘蒙蒙 , 张钰 , 穆婷 , 李云双
申请人 : 北京贝瑞和康生物技术有限公司
摘要 :
权利要求 :
1.一种用于确定致病风险变异位点的方法,包括:获取待测对象的样本的全外显子测序序列比对结果信息和关于所述待测对象的临床描述信息;
基于所述全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以生成关于变异位点的注释信息,所述关于变异位点的注释信息至少包括:基因功能注释信息、基因相关疾病信息;
经由经训练的第一神经网络模型,提取所述临床描述信息中的表型关键词,所述第一神经网络模型包括由BERT模型所构建的第一网络层、由N‑gram模型所构建的第二网络层、以及基于条件随机场模型而构建的第三网络层;
基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的排序信息,所述候选基因与所述临床描述信息相关联;
基于关于变异位点的注释信息,过滤所述变异位点;
基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成用于输入经训练的预定模型的输入数据;以及基于所述经训练的预定模型,提取所述输入数据的特征,以便确定关于待测对象的致病风险变异位点,
其中经由经训练的第一神经网络模型提取所述临床描述信息中的表型关键词包括:将所述临床描述信息中的每一句话分割成字或标点,以便将经分割的字或标点转换成对应的输入标识;
基于所述第一网络层,将每一个对应的输入标识转换为多维的第一特征向量;
基于所述第二网络层和预定关键词集合,生成第二特征向量,所述第二特征向量用于指示每一个字与周围字组成的短语是否属于预定关键词集合;以及基于所述第一特征向量和所述第二特征向量,经由所述第三网络层,确定所述临床描述信息中的表型关键词。
2.根据权利要求1所述的方法,其中确定所述临床描述信息中的表型关键词包括:融合所述第一特征向量和所述第二特征向量,以生成融合后特征向量;
经由所述第三网络层,提取融合后特征向量的特征,以预测关于每一个字符的类别;以及
基于所预测的每一个字符的类别,确定所述临床描述信息中的表型关键词。
3.根据权利要求2所述的方法,其中经由所述第三网络层提取融合后特征向量的特征以预测关于每一个字符的类别包括:经由全连接网络层,针对融合后特征向量进行降维,使得降维后的特征向量的维度和标签的类别数目相一致;
将降维后的特征向量输入至所述第三网络层中,以便计算每个降维后的特征向量的对数似然值;
针对所计算的对数似然值取负平均,以作为所述第一神经网络模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个字符的类别。
4.根据权利要求1所述的方法,其中基于所提取的表型关键词针对候选基因进行排序以便生成关于候选基因的排序信息包括:确认候选基因和对应综合征;
提取每一个对应综合征的表型;
经由第二神经网络模型,计算所述临床描述信息中的表型关键词与对应综合征的表型的相似度,所述第二神经网络模型是基于由BERT模型所形成的孪生神经网络而构建的;以及
基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。
5.根据权利要求4所述的方法,其中经由第二神经网络模型计算所述临床描述信息中的表型关键词与对应综合征的表型的相似度包括:针对临床描述信息中的表型关键词和对应综合征的表型分别进行预处理,以便生成第一表型输入标识和第二表型输入标识;
将第一表型输入标识和第二表型输入标识编码为第三特征向量和第四特征向量,以用于输入第二神经网络模型;
将所述临床描述信息中的表型关键词中所有的字符所对应的第三特征向量取平均值,以便得到所述临床描述信息中的表型关键词的第一对应编码;
将对应综合征的表型中所有的字符所对应的第四特征向量取平均值,以便得到对应综合征的表型的第二对应编码;以及计算所述第一对应编码和第二对应编码的夹角的余弦,以便确定所述临床描述信息中的表型关键词与对应综合征的表型相似度。
6.根据权利要求4所述的方法,其中所述第二神经网络模型的训练方法包括:将预定数据库的标准术语集按照各个标准术语间的相似度,映射到多维空间中;
随机抽取两个标准术语,以便计算出两个标准术语之间的相似度,以用于将所计算的相似度作为训练的目标值进行训练;以及以关联的口语表述和预定数据库的标准术语,针对第二神经网络模型进行监督训练,以便生成经训练的第二神经网络模型。
7.根据权利要求6所述的方法,其中以关联的口语表述和预定数据库的标准术语针对第二神经网络模型进行监督训练包括:在0和1之间随机生成第一随机数和第二随机数;
确定第一随机数是否小于第一预定阈值;
响应于确定第一随机数小于第一预定阈值,针对作为第二神经网络模型的第一输入的口语关键词和作为第二神经网络模型的第二输入的标准术语,确定第二神经网络模型的训练目标值为1,所述标准术语获取自预定数据集合;
响应于确定第一随机数大于或者等于第一预定阈值,针对所述口语关键词和所述标准术语,确定第二神经网络模型的训练目标值为口语关键词所标注标准术语和作为所述第二输入的标准术语之间的预定数据集合树相似度,预定数据集合树包括多个节点,每一个节点对应一个标准术语;
确定第二随机数是否小于第二预定阈值;
响应于确定第二随机数小于第二预定阈值,训练所述第二神经网络模型;以及响应于确定第二随机数大于或者等于第二预定阈值,使得口语关键词作为所述第二神经网络模型的第二输入以及标准术语作为所述第二神经网络模型的第一输入,以用于训练所述第二神经网络模型。
8.根据权利要求4所述的方法,其中基于所计算的相似度针对候选基因进行排序包括:基于对应综合征所对应的多个表型和临床描述信息中所提取的多个表型关键词,确定关于对应综合征的相似度矩阵,所述相似度矩阵指示对应综合征对应的表型与临床描述信息中的表型关键词之间的相似度;
基于关于每个对应综合征的相似度矩阵,确定每个对应综合征的评估值;以及基于对应综合征的评估值,确定候选基因的评估值,以便基于所确定的候选基因的评估值来针对候选基因进行排序。
9.根据权利要求1所述的方法,其中关于变异位点的注释信息还包括人群频率信息。
10.根据权利要求9所述的方法,其中基于关于变异位点的注释信息过滤所述变异位点包括:
基于关于变异位点的注释信息,过滤掉良性和可能良性的变异位点;
响应于确定变异位点的人群频率信息属于预定频率阈值范围并且变异位点未注释到第一预定数据集合的相关疾病信息,过滤掉所述变异位点;
响应于确定变异位点的基因相关疾病信息未注释到第二预定数据集合的相关疾病信息,过滤掉所述变异位点;以及响应于确定变异位点的基因功能注释信息所指示的基因属于第三预定数据集合的预定基因范围,过滤掉所述变异位点。
11.根据权利要求1所述的方法,其中基于经过滤而留下的变异位点的注释信息和候选基因的排序信息生成输入数据包括:融合经过滤而留下的变异位点的注释信息和候选基因的排序信息;
将经融合的变异位点的注释信息和候选基因的排序信息转换为特征向量;以及针对经转换的特征向量进行归一化处理,以生成所述输入数据。
12.一种计算设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述计算设备执行根据权利要求1至11任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至11中任一项所述的方法。
说明书 :
用于确定致病风险变异位点的方法、设备和存储介质
技术领域
背景技术
的鉴定等。其中,全外显子组测序技术是非常具有代表性的一种高通量测序技术,该项技术
通过对外显子区域的捕获,能够一次性检测人类基因组中超过20000个基因外显子区域的
突变,具有极高的临床价值。在实际应用中,全外显子组测序通常会鉴定出数以万计的变异
位点,对海量的变异位点进行注释和致病性解读,最终正确地寻找到导致疾病风险或表型
的某个或少数几个位点是一项具有挑战性的任务。
确定致病风险变异位点的自动化流程解决方案;另一方面,人工干预步骤会显著降低解读
效率,并且因为不同人对于同一段临床描述会存在一些主观性偏差,以及电子病例中记录
的临床表型描述格式不确定,信息罗列杂乱冗余,因此,传统的确定致病风险变异位点的方
案需要效率低下、耗费较多时间,并且容易产生错误。
发明内容
信息;基于全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以
生成关于变异位点的注释信息;经由经训练的第一神经网络模型,提取临床描述信息中的
表型关键词;基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的
排序信息,候选基因与临床描述信息相关联;以及基于关于变异位点的注释信息,过滤变异
位点;基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成输入数
据;以及基于经训练的预定模型,提取输入数据的特征,以便确定关于待测对象的致病风险
变异位点。
个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的
第一方面的方法。
提取临床描述信息中的表型关键词包括:将临床描述信息中的每一句话分割成字或标点,
以便将经分割的字或标点转换成对应的输入标识;基于第一网络层,将每一个对应的输入
标识转换为多维的第一特征向量;基于第二网络层和预定关键词集合,生成第二特征向量,
第二特征向量用于指示每一个字与周围字组成的短语是否属于预定关键词集合;以及基于
第一特征向量和第二特征向量,经由第三网络层,确定临床描述信息中的表型关键词。
预测关于每一个字符的类别;以及基于所预测的每一个字符的类别,确定临床描述信息中
的表型关键词。
量的维度和标签的类别数目相一致;将降维后的特征向量输入至第三网络层中,以便计算
每个降维后的特征向量的对数似然值;针对所计算的对数似然值取负平均,以作为第一神
经网络模型模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个字符的类
别。
由第二神经网络模型,计算临床描述信息中的表型关键词与对应综合征的表型的相似度;
以及基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。
别进行预处理,以便生成第一表型输入标识和第二表型输入标识;将第一表型输入标识和
第二表型输入标识编码为第三特征向量和第四特征向量,以用于输入第二神经网络模型;
以及将临床描述信息中的表型关键词中所有的字符所对应的第三特征向量取平均值,以便
得到临床描述信息中的表型关键词的第一对应编码;将对应综合征的表型中所有的字符所
对应的第四特征向量取平均值,以便得到对应综合征的表型的第二对应编码;以及计算第
一对应编码和第二对应编码的夹角的余弦,以便确定临床描述信息中的表型关键词与对应
综合征的表型相似度。
两个标准术语之间的相似度,以用于将所计算的相似度作为训练的目标值进行训练;以及
以关联的口语表述和预定数据库的标准术语,针对第二神经网络模型进行监督训练,以便
生成经训练的第二神经网络模型。
是否小于第一预定阈值;响应于确定第一随机数小于第一预定阈值,针对作为第二神经网
络模型的第一输入的口语关键词和作为第二神经网络模型的第二输入的标准术语,确定第
二神经网络模型的训练目标值为1,标准术语获取自预定数据集合;响应于确定第一随机数
大于或者等于第一预定阈值,针对口语关键词和标准术语,确定第二神经网络模型的训练
目标值为口语关键词所标注标准术语和作为第二输入的标准术语之间的预定数据集合树
相似度,预定数据集合树包括多个节点,每一个节点对应一个标准术语;确定第二随机数是
否小于第二预定阈值;响应于确定第二随机数小于第二预定阈值,训练第二神经网络模型;
以及响应于确定第二随机数大于或者等于第二预定阈值,使得口语关键词作为第二神经网
络模型的第二输入以及标准术语作为第二神经网络模型的第一输入,以用于训练第二神经
网络模型。
的相似度矩阵,相似度矩阵指示对应综合征对应的表型与临床描述信息中的表型关键词之
间的相似度;基于关于每个对应综合征的相似度矩阵,确定每个对应综合征的评估值;以及
基于对应综合征的评估值,确定候选基因的评估值,以便基于所确定的候选基因的评估值
来针对候选基因进行排序。
合的相关疾病信息,过滤掉变异位点;响应于确定变异位点的基因相关疾病信息未注释到
第二预定数据集合的相关疾病信息,过滤掉变异位点;以及响应于确定变异位点的基因功
能注释信息所指示的基因属于第三预定数据集合的预定基因范围,过滤掉变异位点。
将经融合的变异位点的注释信息和候选基因的排序信息转换为特征向量;针对经转换的特
征向量进行归一化处理,以生成输入数据。
意限制本公开的范围。
附图说明
具体实施方式
制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整
地传达给本领域的技术人员。
例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的
实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
风险变异位点的自动化流程解决方案;而且传统的确定致病风险变异位点的方案需要耗费
较多时间,容易产生错误。
象的样本的全外显子测序序列比对结果信息确定变异位点,并且针对变异位点进行注释,
以及经由第一神经网络模型来提取所获取的关于待测对象的临床描述信息中的表型关键
词;本公开能够更加准确和快速地进行表型关键词的提取,而避免了因人工解读电子病历
的表型关键词的低效率和易错性。另外,本公开基于所提取的表型关键词针对候选基因进
行排序,本公开能够提升候选基因排序的性能。再者,通过基于变异位点的注释信息过滤变
异位点;以及基于经训练的预定模型提取基于经过滤的变异位点的注释信息和候选基因的
排序信息所生成的输入数据的特征,进而确定关于待测对象的致病风险变异位点。本公开
能够通过位点过滤、位点注释信息和基因排序结果等多种技术提取数据特征进而生成向量
表示以输入预定模型,来用于确定关于待测对象的致病风险变异位点,从而能够实现所确
定的致病风险变异位点更加准确。因此,本公开实现自动、快速并准确地确定致病风险变异
位点。
110可以通过网络140以有线或者无线的方式与生信服务器150进行数据交互。
变异位点进行注释以生成关于变异位点的注释信息。计算设备110还可以用于提取临床描
述信息中的表型关键词;以及基于所提取的表型关键词,针对候选基因进行排序。另外,计
算设备110还可以用于基于关于变异位点的注释信息过滤变异位点,以及基于经训练的预
定模型,提取由经过滤的变异位点的注释信息和候选基因的排序信息所生成的输入数据的
特征,以便确定关于待测对象的致病风险变异位点。在一些实施例中,计算设备110可以具
有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用
处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包
括比对结果信息和临床描述信息获取单元112、变异位点确定和注释单元114、表型关键词
提取单元116、候选基因排序单元118、变异位点过滤单元120、输入数据生成单元122、致病
风险变异位点确定单元124。比对结果信息和临床描述信息获取单元112、变异位点确定和
注释单元114、表型关键词提取单元116、候选基因排序单元118、变异位点过滤单元120、输
入数据生成单元122、致病风险变异位点确定单元124可以配置在一个或者多个计算设备
110上。
解,方法200例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设
备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动
作,本公开的范围在此方面不受限制。
首先获取经由NGS测序的全外显子测序数据的FASTQ文件,然后调用数据比对软件(例如,
BWA)进行测序序列比对(例如,将待测对象的血液样本的全外显子测序数据与人类参考基
因组测序数据进行比对),以生成测序序列比对结果信息。
对所获取的测序序列比对结果信息中的变异为点进行检测,以便检测SNP和Indel变异位
点,从而生成VCF文件。
释。关于对变异位点进行注释的方法例如包括多种。例如,计算设备110调用ANNOVAR针对变
异位点进行注释,得到每个SNP和Indel变异位点的精确的注释信息。其中,ANNOVAR是一个
perl编写的命令行工具,可以在安装了perl解释器的多种操作系统上执行。
床表型关键词,该第一神经网络模型是经由多样本训练的。
注。诸如,针对电子病例中的临床表型描述 “主诉:矮小”, 经由人工标注的对应标签为:O,
O,O,B,E。
预训练语言模型Bidirectional Encoder Representation from Transformers(BERT)作
为网络主体架构,同时引入多算法融合的神经网络。例如,第一神经网络模型是基于在BERT
基础上引入条件随机场模型(Conditional Random Field Algorithm,或简称为CRF)、
dictionary embedding、N‑gram模型而构建的。以下将结合图4来说明第一神经网络模型的
架构。图4示出了根据本公开的实施例的第一神经网络模型400的示意图。如图4所示,第一
神经网络模型400例如包括由第一语言模型(第一语言模型例如而不限于为BERT模型)所构
建的第一网络层404、由第二语言模型(第二语言模型例如而不限于为N‑gram模型)所构建
的第二网络层406、以及第三网络层(第三网络层例如而不限于是基于CRF而构建的)410。其
中,第一网络层404例如用于将输入转换为第一特征向量(如图4所示的T1至T5)。第二网络
层用于基于输入和预定关键词集合生成第二特征向量(如图4所示的G1至G5)。在一些实施
例中,第一神经网络模型400还包括网络层408,该网络层408用于融合第一特征向量和第二
特征向量, 以生成融合后特征向量。
层,将每一个对应的输入标识转换为多维的第一特征向量;基于第二网络层和预定关键词
集合,生成第二特征向量,第二特征向量用于指示每一个字与周围字组成的短语是否属于
预定关键词集合;以及基于第一特征向量和第二特征向量,经由第三网络层,确定临床描述
信息中的表型关键词。下文将结合图3具体说明提取临床描述信息中的表型关键词的方法
300,在此,不再赘述。
关键词与对应综合征的表型的相似度;以及基于所计算的相似度,针对候选基因进行排序,
以便生成关于候选基因的排序信息。
为候选基因。确认对应综合征的方法例如包括:在第四预定数据集合(例如,OMIM数据库)中
确定有明确对应基因的综合征为对应综合征。其中,候选基因与对应综合征例如为多对多
的关系。
入的两个表型,经由第二神经网络模型进行相似度计算。关于计算临床描述信息中的表型
关键词与对应综合征的表型的相似度的方法,下文将结合图6详细说明,在此,不再赘述。
键词,同时一个基因或者综合征往往也会导致多种不同的表型。因此,需要一个综合计算方
法来确定最终单个候选基因的排名。关于确定最终单个候选基因的排名的方法,下文将结
合图9详细说明,在此,不再赘述。
公开实施例所示出的第二神经网络模型500的示意图。第二神经网络模型500例如而不限于
包括:第一BERT网络层504、第一池化层506、第二BERT网络层514、第二池化层516和相似度
计算网络层520。
床描述信息中的表型关键词的对应编码508。第二BERT网络层514的输出经由第二池化层
516(例如pooling层)后形成对应综合征的表型的对应编码518。临床描述信息中的表型关
键词的对应编码508和对应综合征的表型的对应编码518经由相似度计算网络层520而计算
两个向量夹角的余弦,以便确定两个表型之间的相似度。相似度计算网络层520的算法例如
是cosine_sim(u,v)。其中cosine_sim()代表两个u和v向量夹角的余弦。u代表临床描述信
息中的表型关键词的对应编码。v代表对应综合征的表型的对应编码。
的夹角的余弦(或称为Cosine_distance)关于第二神经网络模型500的训练样本,其例如是
多个经标注的语料样本。语料样本例如是经由人工提取的临床描述信息中的表型关键词。
对于每一个表型关键词,例如从预定数据集合(例如而不限于为CHPO数据库)标准术语中筛
选出最相近的一个或多个表型,以作为人工提取的临床描述信息中的表型关键词所对应的
CHPO标准术语。例如,以下表2示意性示出了人工提取的临床描述信息中的表型关键词与
CHPO标准术语之间的对应关系。
计算,第二步为监督训练,用以实现口语描述到标准描述的相似度计算。下文将结合图7和
图8具体说明第二神经网络模型500的训练方法700。在此,不再赘述。
的第二神经网络模型500所计算出的第一输入和第二输入的相似度。
释信息中人群频率过滤:如大于0.05或大于0.01且小于0.05且未注释到HGMD或ClinVar数
据库致病性信息,则过滤掉该位点。
注释到HGMD、OMIM、ClinVar数据库疾病相关信息,则过滤掉该位点。
滤:如以OMIM中有phenotype的HGNC基因作为基因考虑范围,如基因不在该基因范围内,则
过滤该位点。
下的变异位点,并且获取该经过滤而留下的变异位点的注释信息;以及基于经过滤而留下
的变异位点的注释信息和关于候选基因的排序信息生成输入数据。
信息转换为特征向量;以及针对经转换的特征向量进行归一化处理,以生成输入数据。例
如,计算设备110利用OrdinalEncoding,OneHotEncoding,连续变量分段表示
(KBinsDiscretizer)等向量编码方式,并且结合特征统计、特征融合等多种技术方法,将经
过滤而留下的变异位点的注释信息和候选基因的排序信息融合并转换成特征向量。然后利
用如下公式(4)的方式针对经转换的特征向量进行归一化处理,然后基于经归一化处理后
的特征向量生成输入数据。
重复以上两步m次,即生成m棵决策树,形成随机森林;对于新数据,经过每棵树决策,最后投
票确认分到哪一类。关于基尼系数的选择的标准就是每个子节点达到最高的纯度,即落在
子节点中的所有观察都属于同一个分类,此时基尼系数最小,纯度最高,不确定度最小,数
据分割越彻底,越干净。
低进行排序;然后确定按照变异位点的排序顺序,确认所计算的变异位点评估值是否大于
或者等于预定位点阈值,如果确定变异位点评估值大于或者等于预定位点阈值,则确定该
变异位点为关于待测对象的致病风险变异位点。如果确定所有变异位点的评估值均小于预
定位点阈值,则确定该样本为阴性。
取的关于待测对象的临床描述信息中的表型关键词;本公开能够更加准确和快速地进行表
型关键词的提取,而避免了因人工解读电子病历的表型关键词的低效率和易错性。另外,本
公开基于所提取的表型关键词针对候选基因进行排序,本公开能够提升候选基因排序的性
能。再者,通过基于变异位点的注释信息过滤变异位点;以及基于经训练的预定模型提取基
于经过滤的变异位点的注释信息和候选基因的排序信息所生成的输入数据的特征,进而确
定关于待测对象的致病风险变异位点。本公开能够通过位点过滤、位点注释信息和基因排
序结果等多种技术提取数据特征进而生成向量表示以输入预定模型,来用于确定关于待测
对象的致病风险变异位点,从而能够实现所确定的致病风险变异位点更加准确。因此,本公
开实现自动、快速并准确地确定致病风险变异位点。
图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或
可以省略所示出的动作,本公开的范围在此方面不受限制。
例中的临床表型描述中的每一句话,按照字或标点进行分割。然后将分割后的字或标点转
换为相应标识(例如ID)。如图4所示,整段的临床描述信息402为“主诉:矮小”。该临床描述
信息402被分割成字或标点,即,被分割成:“主”、“诉”、“:”、“矮”、“小”。
解,利用Word2Vec模型将分割后的字或标点所转换的相应标识通常与该分割后的字或标点
出现的上下文无关,相较而言,利用BERT模型所生成的相应标识与分割后的字或标点周围
的字或标点是相关联的。因此,其不仅更容易捕获类似一词多义之类的差异之外,还能够捕
获上下文相关的字词等其他形式的信息,从而使得所转换的相应标识能够更为精确的特征
表示,从而提高模型性能。以下以基于BERT模型构建的第一神经网络模型的第一网络层为
例,示例性说明提取临床描述信息中的表型关键词的方法300的后续步骤。
标识,采用BERT模型对字符进行编码,以便得到768维的第一特征向量。
称。
示每个字与周边字构成预定长度的短语,并根据该短语是否出现在预定关键词集合中而生
成21维one‑hot向量,其中“1”指示该所构成的短语在预定关键词集合中出现过,“0”指示该
所构成的短语在预定关键词集合中未出现过。
(Conditional Random Fields, 以下简称CRF)所构建的。
个经分割的字或符号,将经由步骤304处所转换的第一特征向量(例如768维特征向量)和经
由步骤306处所得到生成第二特征向量(例如21维特征向量进行融合,以便生成融合后特征
向量,即新的789维特征向量。
合后特征向量进行降维,使得降维后的特征向量的维度和标签的类别数目相一致。然后,计
算设备110将降维后的特征向量输入至第三网络层(例如条件随机场模型)中,以便计算每
个降维后的特征向量的对数似然值(log‑likelihood)。之后,计算设备110针对所计算的对
数似然值取负平均,以作为第三网络层(例如条件随机场模型)。同时采用维特比(Viterbi)
算法进行解码,以便预测关于每一个字符的类别。
的整段的临床描述信息402为“主诉:矮小”。所预测的每一个字符的类别412例如为“O”、
“O”、“O”、“B”、“E”。根据所预测的每一个字符的类别所确定得到表型关键词420为“矮小”。
行。也可以在图1所描述的计算设备110处执行。应当理解,方法600还可以包括未示出的附
加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
将临床描述信息中的表型关键词分割成字或标点;然后按照BERT模型的预先创建的字符集
提取出与分割后的字或标点对应的输入标识,以便生成与第一表型相应的第一表型输入标
识(例如,图5所示第一输入502)。计算设备110将对应综合征的表型分割成字或标点;然后
按照BERT模型的预先创建的字符集提取出与分割后的字或标点对应的输入标识,以便生成
与第二表型相应的第二表型输入标识(例如,图5所示第二输入512)。
二BERT网络层,分别将第一表型输入标识和第二表型输入标识分别编码为768维特征向量。
所示,对应于临床描述信息中的表型关键词的第一表型作为第一输入502和对应综合征的
表型的第二表型作为第二输入512分别输入第一BERT网络层504和第二BERT网络层514。第
一BERT网络层504的输出经由第一池化层506后形成第一对应编码,即临床描述信息中的表
型关键词的对应编码508。
输出经由第二池化层516后形成第二对应编码,即对应综合征的表型的对应编码518。
算设备110处执行。应当理解,方法700还可以包括未示出的附加动作和/或可以省略所示出
的动作,本公开的范围在此方面不受限制。
语的CHPO树相似度,并且将所计算的CHPO树相似度作为训练的目标值进行训练。
异常”节点例如作为一级节点810,其定义该节点的深度为1(depth=1)。深度为2(depth=2)
的节点例如为各个系统的二级节点,如:“神经系统异常”节点820、“肢体异常”节点822、“心
血管系统异常”节点824等。深度大于2(例如depth=3、depth=4)的节点以此类推。例如“孤独
症”节点和“自闭症行为”节点(未示出)在CHPO树结构800中为相邻节点,因此其相似度高,
而“孤独症”节点和“多囊性肾发育不良”节点例如在CHPO树结构800中距离很远,因此相似
度很低。
其中5.278为两倍log(14),14为最深的节点的深度。CHPO_simij代表节点i和节点j之间的
CHPO树相似度。
900例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处
执行。应当理解,方法900还可以包括未示出的附加动作和/或可以省略所示出的动作,本公
开的范围在此方面不受限制。
语,确定第二神经网络模型的训练目标值为1,标准术语获取自预定数据集合。标准术语例
如为CHPO标准术语。
术语和作为第二输入的标准术语之间的预定数据集合树相似度,预定数据集合树包括多个
节点,每一个节点对应一个标准术语。例如,如果确定第一随机数大于或者等于第一预定阈
值,针对口语关键词和CHPO标准术语,确定第二神经网络的训练目标值为为口语关键词所
标注的标准术语和CHPO标准术语之间的CHPO树相似度。
第一输入,跳转至步骤912处,以用于训练第二神经网络模型。
的临床描述信息中的表型关键词与对应综合征的表型的相似度。
图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处执行。应当理解,
方法1000还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此
方面不受限制。
合征对应的表型与临床描述信息中的表型关键词之间的相似度。例如,所确定的候选综合
征i对应有m个对应的CHPO表型,同时,临床描述信息中可提取出n个表型关键词,则对于候
选综合征i,构建有相似度矩阵例如遵循以下表达式(7)。
n)代表候选综合征i的第m个对应的CHPO表型与临床描述信息中的第n个表型关键词之间的
相似度。
运算。average()代表平均值运算。max()代表取最大值运算。
个对应综合征,分别为x1, x2, ..., xn,以下结合公式(9)说明候选综合征的评估值的计
算方式。
syndrome_scorex1, x2, ..., xn代表应候选基因x所对应的n个候选综合征的的评估值。max
(syndrome_scorex1, x2, ..., xn)代表取n个对应综合征的评估值中的最大值。
的设备。如图11所示,设备1100包括CPU1101,其可以根据存储在只读存储器(ROM)1102中的
计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指
令,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序
和数据。CPU 1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口
1105也连接至总线1104。
700、900、1000。例如,在一些实施例中,方法200、300、600、700、900、1000可被实现为计算机
软件程序,其被存储于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的
部分或者全部可以经由ROM和/或通信单元1109而被载入和/或安装到设备1100上。当计算
机程序加载到RAM并由CPU执行时,可以执行上文描述的方法200、300、600、700、900、1000的
一个或多个操作。备选地,在其他实施例中,CPU可以通过其他任何适当的方式(例如,借助
于固件)而被配置为执行方法200、300、600、700、900、1000的一个或多个动作。
可读程序指令。
磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体
的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器
(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩
盘只读存储器(CD‑ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储
有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可
读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波
导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电
信号。
部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关
计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计
算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计
算机可读存储介质中。
任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如
Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机
可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独
立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机
或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包
括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利
用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令
的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可
编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方
面。
或框图中各方框的组合,都可以由计算机可读程序指令实现。
通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图
中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储
在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特
定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图
和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的
指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可
以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,
它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流
程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作
的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨
在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其
它普通技术人员能理解本文披露的各实施例。
替换、改进等,均应包含在本公开的保护范围之内。