用于确定致病风险变异位点的方法、设备和存储介质转让专利

申请号 : CN202110268390.0

文献号 : CN112687332B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 钟韵山刘蒙蒙张钰穆婷李云双

申请人 : 北京贝瑞和康生物技术有限公司

摘要 :

本公开涉及一种用于确定致病风险变异位点的方法、计算设备和存储介质。该方法包括:一种用于确定致病风险变异位点的方法,包括:获取待测对象的样本的全外显子测序序列比对结果信息和关于待测对象的临床描述信息;基于全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释;经由第一神经网络模型,提取临床描述信息中的表型关键词;基于表型关键词,针对候选基因进行排序;以及基于关于变异位点的注释信息,过滤变异位点;基于经过滤的变异位点的注释信息和关于候选基因的排序信息,生成输入数据用以输入经训练的预定模型,以便确定关于待测对象的致病风险变异位点。本公开能够实现自动、快速并准确地确定致病风险变异位点。

权利要求 :

1.一种用于确定致病风险变异位点的方法,包括:获取待测对象的样本的全外显子测序序列比对结果信息和关于所述待测对象的临床描述信息;

基于所述全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以生成关于变异位点的注释信息,所述关于变异位点的注释信息至少包括:基因功能注释信息、基因相关疾病信息;

经由经训练的第一神经网络模型,提取所述临床描述信息中的表型关键词,所述第一神经网络模型包括由BERT模型所构建的第一网络层、由N‑gram模型所构建的第二网络层、以及基于条件随机场模型而构建的第三网络层;

基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的排序信息,所述候选基因与所述临床描述信息相关联;

基于关于变异位点的注释信息,过滤所述变异位点;

基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成用于输入经训练的预定模型的输入数据;以及基于所述经训练的预定模型,提取所述输入数据的特征,以便确定关于待测对象的致病风险变异位点,

其中经由经训练的第一神经网络模型提取所述临床描述信息中的表型关键词包括:将所述临床描述信息中的每一句话分割成字或标点,以便将经分割的字或标点转换成对应的输入标识;

基于所述第一网络层,将每一个对应的输入标识转换为多维的第一特征向量;

基于所述第二网络层和预定关键词集合,生成第二特征向量,所述第二特征向量用于指示每一个字与周围字组成的短语是否属于预定关键词集合;以及基于所述第一特征向量和所述第二特征向量,经由所述第三网络层,确定所述临床描述信息中的表型关键词。

2.根据权利要求1所述的方法,其中确定所述临床描述信息中的表型关键词包括:融合所述第一特征向量和所述第二特征向量,以生成融合后特征向量;

经由所述第三网络层,提取融合后特征向量的特征,以预测关于每一个字符的类别;以及

基于所预测的每一个字符的类别,确定所述临床描述信息中的表型关键词。

3.根据权利要求2所述的方法,其中经由所述第三网络层提取融合后特征向量的特征以预测关于每一个字符的类别包括:经由全连接网络层,针对融合后特征向量进行降维,使得降维后的特征向量的维度和标签的类别数目相一致;

将降维后的特征向量输入至所述第三网络层中,以便计算每个降维后的特征向量的对数似然值;

针对所计算的对数似然值取负平均,以作为所述第一神经网络模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个字符的类别。

4.根据权利要求1所述的方法,其中基于所提取的表型关键词针对候选基因进行排序以便生成关于候选基因的排序信息包括:确认候选基因和对应综合征;

提取每一个对应综合征的表型;

经由第二神经网络模型,计算所述临床描述信息中的表型关键词与对应综合征的表型的相似度,所述第二神经网络模型是基于由BERT模型所形成的孪生神经网络而构建的;以及

基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。

5.根据权利要求4所述的方法,其中经由第二神经网络模型计算所述临床描述信息中的表型关键词与对应综合征的表型的相似度包括:针对临床描述信息中的表型关键词和对应综合征的表型分别进行预处理,以便生成第一表型输入标识和第二表型输入标识;

将第一表型输入标识和第二表型输入标识编码为第三特征向量和第四特征向量,以用于输入第二神经网络模型;

将所述临床描述信息中的表型关键词中所有的字符所对应的第三特征向量取平均值,以便得到所述临床描述信息中的表型关键词的第一对应编码;

将对应综合征的表型中所有的字符所对应的第四特征向量取平均值,以便得到对应综合征的表型的第二对应编码;以及计算所述第一对应编码和第二对应编码的夹角的余弦,以便确定所述临床描述信息中的表型关键词与对应综合征的表型相似度。

6.根据权利要求4所述的方法,其中所述第二神经网络模型的训练方法包括:将预定数据库的标准术语集按照各个标准术语间的相似度,映射到多维空间中;

随机抽取两个标准术语,以便计算出两个标准术语之间的相似度,以用于将所计算的相似度作为训练的目标值进行训练;以及以关联的口语表述和预定数据库的标准术语,针对第二神经网络模型进行监督训练,以便生成经训练的第二神经网络模型。

7.根据权利要求6所述的方法,其中以关联的口语表述和预定数据库的标准术语针对第二神经网络模型进行监督训练包括:在0和1之间随机生成第一随机数和第二随机数;

确定第一随机数是否小于第一预定阈值;

响应于确定第一随机数小于第一预定阈值,针对作为第二神经网络模型的第一输入的口语关键词和作为第二神经网络模型的第二输入的标准术语,确定第二神经网络模型的训练目标值为1,所述标准术语获取自预定数据集合;

响应于确定第一随机数大于或者等于第一预定阈值,针对所述口语关键词和所述标准术语,确定第二神经网络模型的训练目标值为口语关键词所标注标准术语和作为所述第二输入的标准术语之间的预定数据集合树相似度,预定数据集合树包括多个节点,每一个节点对应一个标准术语;

确定第二随机数是否小于第二预定阈值;

响应于确定第二随机数小于第二预定阈值,训练所述第二神经网络模型;以及响应于确定第二随机数大于或者等于第二预定阈值,使得口语关键词作为所述第二神经网络模型的第二输入以及标准术语作为所述第二神经网络模型的第一输入,以用于训练所述第二神经网络模型。

8.根据权利要求4所述的方法,其中基于所计算的相似度针对候选基因进行排序包括:基于对应综合征所对应的多个表型和临床描述信息中所提取的多个表型关键词,确定关于对应综合征的相似度矩阵,所述相似度矩阵指示对应综合征对应的表型与临床描述信息中的表型关键词之间的相似度;

基于关于每个对应综合征的相似度矩阵,确定每个对应综合征的评估值;以及基于对应综合征的评估值,确定候选基因的评估值,以便基于所确定的候选基因的评估值来针对候选基因进行排序。

9.根据权利要求1所述的方法,其中关于变异位点的注释信息还包括人群频率信息。

10.根据权利要求9所述的方法,其中基于关于变异位点的注释信息过滤所述变异位点包括:

基于关于变异位点的注释信息,过滤掉良性和可能良性的变异位点;

响应于确定变异位点的人群频率信息属于预定频率阈值范围并且变异位点未注释到第一预定数据集合的相关疾病信息,过滤掉所述变异位点;

响应于确定变异位点的基因相关疾病信息未注释到第二预定数据集合的相关疾病信息,过滤掉所述变异位点;以及响应于确定变异位点的基因功能注释信息所指示的基因属于第三预定数据集合的预定基因范围,过滤掉所述变异位点。

11.根据权利要求1所述的方法,其中基于经过滤而留下的变异位点的注释信息和候选基因的排序信息生成输入数据包括:融合经过滤而留下的变异位点的注释信息和候选基因的排序信息;

将经融合的变异位点的注释信息和候选基因的排序信息转换为特征向量;以及针对经转换的特征向量进行归一化处理,以生成所述输入数据。

12.一种计算设备,包括:

至少一个处理单元;

至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述计算设备执行根据权利要求1至11任一项所述的方法。

13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被机器执行时实现根据权利要求1至11中任一项所述的方法。

说明书 :

用于确定致病风险变异位点的方法、设备和存储介质

技术领域

[0001] 本公开总体上涉及生物信息处理,并且具体地,涉及用于确定致病风险变异位点的方法、计算设备和计算机存储介质。

背景技术

[0002] 近些年,随着高通量测序技术的测序通量的上升以及成本的快速下降,高通量测序技术得到了飞速的发展,被广泛应用于疾病致病性位点、染色体拷贝数变异和结构变异
的鉴定等。其中,全外显子组测序技术是非常具有代表性的一种高通量测序技术,该项技术
通过对外显子区域的捕获,能够一次性检测人类基因组中超过20000个基因外显子区域的
突变,具有极高的临床价值。在实际应用中,全外显子组测序通常会鉴定出数以万计的变异
位点,对海量的变异位点进行注释和致病性解读,最终正确地寻找到导致疾病风险或表型
的某个或少数几个位点是一项具有挑战性的任务。
[0003] 传统的确定致病风险变异位点的方案中的很多关键步骤需要人工的干预,例如,需要人工解读电子病历的表型关键词以用于匹配肝癌细胞(例如HPO)等等,因此缺乏关于
确定致病风险变异位点的自动化流程解决方案;另一方面,人工干预步骤会显著降低解读
效率,并且因为不同人对于同一段临床描述会存在一些主观性偏差,以及电子病例中记录
的临床表型描述格式不确定,信息罗列杂乱冗余,因此,传统的确定致病风险变异位点的方
案需要效率低下、耗费较多时间,并且容易产生错误。
[0004] 综上,传统的确定致病风险变异位点的方案存在的不足之处在于:无法实现确定致病风险变异位点的自动化,并且效率低下、容易产生错误。

发明内容

[0005] 本公开提供一种用于确定致病风险变异位点的方法、计算设备和计算机存储介质,能够实现自动、快速并准确地确定致病风险变异位点。
[0006] 根据本公开的第一方面,提供了一种用于确定致病风险变异位点的方法。该方法包括:获取待测对象的样本的全外显子测序序列比对结果信息和关于待测对象的临床描述
信息;基于全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以
生成关于变异位点的注释信息;经由经训练的第一神经网络模型,提取临床描述信息中的
表型关键词;基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的
排序信息,候选基因与临床描述信息相关联;以及基于关于变异位点的注释信息,过滤变异
位点;基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成输入数
据;以及基于经训练的预定模型,提取输入数据的特征,以便确定关于待测对象的致病风险
变异位点。
[0007] 根据本发明的第二方面,还提供了一种计算设备,该设备包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一
个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的
第一方面的方法。
[0008] 根据本公开的第三方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被机器执行时实现根据本公开的第一方面的方法。
[0009] 在一些实施例中,第一神经网络模型包括由第一语言模型所构建的第一网络层、由第二语言模型所构建的第二网络层、以及第三网络层,经由经训练的第一神经网络模型
提取临床描述信息中的表型关键词包括:将临床描述信息中的每一句话分割成字或标点,
以便将经分割的字或标点转换成对应的输入标识;基于第一网络层,将每一个对应的输入
标识转换为多维的第一特征向量;基于第二网络层和预定关键词集合,生成第二特征向量,
第二特征向量用于指示每一个字与周围字组成的短语是否属于预定关键词集合;以及基于
第一特征向量和第二特征向量,经由第三网络层,确定临床描述信息中的表型关键词。
[0010] 在一些实施例中,第一语言模型为BERT模型,第二语言模型为N‑gram模型,第三网络层是基于条件随机场模型而构建的。
[0011] 在一些实施例中,确定临床描述信息中的表型关键词包括:融合第一特征向量和第二特征向量,以生成融合后特征向量;经由第三网络层,提取融合后特征向量的特征,以
预测关于每一个字符的类别;以及基于所预测的每一个字符的类别,确定临床描述信息中
的表型关键词。
[0012] 在一些实施例中,经由第三网络层提取融合后特征向量的特征以预测关于每一个字符的类别包括:经由全连接网络层,针对融合后特征向量进行降维,使得降维后的特征向
量的维度和标签的类别数目相一致;将降维后的特征向量输入至第三网络层中,以便计算
每个降维后的特征向量的对数似然值;针对所计算的对数似然值取负平均,以作为第一神
经网络模型模型的损失值;以及采用维特比算法进行解码,以便预测关于每一个字符的类
别。
[0013] 在一些实施例中,基于所提取的表型关键词针对候选基因进行排序以便生成关于候选基因的排序信息包括:确认候选基因和对应综合征;提取每一个对应综合征的表型;经
由第二神经网络模型,计算临床描述信息中的表型关键词与对应综合征的表型的相似度;
以及基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。
[0014] 在一些实施例中,经由第二神经网络模型计算临床描述信息中的表型关键词与对应综合征的表型的相似度包括:针对临床描述信息中的表型关键词和对应综合征的表型分
别进行预处理,以便生成第一表型输入标识和第二表型输入标识;将第一表型输入标识和
第二表型输入标识编码为第三特征向量和第四特征向量,以用于输入第二神经网络模型;
以及将临床描述信息中的表型关键词中所有的字符所对应的第三特征向量取平均值,以便
得到临床描述信息中的表型关键词的第一对应编码;将对应综合征的表型中所有的字符所
对应的第四特征向量取平均值,以便得到对应综合征的表型的第二对应编码;以及计算第
一对应编码和第二对应编码的夹角的余弦,以便确定临床描述信息中的表型关键词与对应
综合征的表型相似度。
[0015] 在一些实施例中,第二神经网络模型的训练方法包括:将预定数据库的标准术语集按照各个标准术语间的相似度,映射到多维空间中;随机抽取两个标准术语,以便计算出
两个标准术语之间的相似度,以用于将所计算的相似度作为训练的目标值进行训练;以及
以关联的口语表述和预定数据库的标准术语,针对第二神经网络模型进行监督训练,以便
生成经训练的第二神经网络模型。
[0016] 在一些实施例中,以关联的口语表述和预定数据库的标准术语针对第二神经网络模型进行监督训练包括:在0和1之间随机生成第一随机数和第二随机数;确定第一随机数
是否小于第一预定阈值;响应于确定第一随机数小于第一预定阈值,针对作为第二神经网
络模型的第一输入的口语关键词和作为第二神经网络模型的第二输入的标准术语,确定第
二神经网络模型的训练目标值为1,标准术语获取自预定数据集合;响应于确定第一随机数
大于或者等于第一预定阈值,针对口语关键词和标准术语,确定第二神经网络模型的训练
目标值为口语关键词所标注标准术语和作为第二输入的标准术语之间的预定数据集合树
相似度,预定数据集合树包括多个节点,每一个节点对应一个标准术语;确定第二随机数是
否小于第二预定阈值;响应于确定第二随机数小于第二预定阈值,训练第二神经网络模型;
以及响应于确定第二随机数大于或者等于第二预定阈值,使得口语关键词作为第二神经网
络模型的第二输入以及标准术语作为第二神经网络模型的第一输入,以用于训练第二神经
网络模型。
[0017] 在一些实施例中,基于所计算的相似度针对候选基因进行排序包括:基于对应综合征所对应的多个表型和临床描述信息中所提取的多个表型关键词,确定关于对应综合征
的相似度矩阵,相似度矩阵指示对应综合征对应的表型与临床描述信息中的表型关键词之
间的相似度;基于关于每个对应综合征的相似度矩阵,确定每个对应综合征的评估值;以及
基于对应综合征的评估值,确定候选基因的评估值,以便基于所确定的候选基因的评估值
来针对候选基因进行排序。
[0018] 在一些实施例中,第二神经网络模型是基于由BERT模型所形成的孪生神经网络而构建的。
[0019] 在一些实施例中,关于变异位点的注释信息至少包括:基因功能注释信息、基因相关疾病信息和人群频率信息。
[0020] 在一些实施例中,基于关于变异位点的注释信息过滤变异位点包括:
[0021] 基于关于变异位点的注释信息,过滤掉良性和可能良性的变异位点;响应于确定变异位点的人群频率信息属于预定频率阈值范围并且变异位点未注释到第一预定数据集
合的相关疾病信息,过滤掉变异位点;响应于确定变异位点的基因相关疾病信息未注释到
第二预定数据集合的相关疾病信息,过滤掉变异位点;以及响应于确定变异位点的基因功
能注释信息所指示的基因属于第三预定数据集合的预定基因范围,过滤掉变异位点。
[0022] 在一些实施例中,基于经过滤而留下的变异位点的注释信息和候选基因的排序信息生成输入数据包括:融合经过滤而留下的变异位点的注释信息和候选基因的排序信息;
将经融合的变异位点的注释信息和候选基因的排序信息转换为特征向量;针对经转换的特
征向量进行归一化处理,以生成输入数据。
[0023] 提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无
意限制本公开的范围。

附图说明

[0024] 图1示出了根据本公开的实施例的用于确定致病风险变异位点的方法的系统的示意图。
[0025] 图2示出了根据本公开的实施例的用于确定致病风险变异位点的方法的流程图。
[0026] 图3示出了根据本公开的实施例的用于提取临床描述信息中的表型关键词的方法的流程图。
[0027] 图4示出了根据本公开的实施例的第一神经网络模型的示意图。
[0028] 图5示意性示出了根据本公开实施例所示出的第二神经网络模型的示意图。
[0029] 图6示出了根据本公开的实施例的用于计算两个表型之间的相似度的方法的流程图。
[0030] 图7示出了根据本公开的实施例的第二神经网络模型的训练方法的流程图。
[0031] 图8示出了根据本公开的实施例的CHPO树结构的示意图。
[0032] 图9示出了根据本公开的实施例的用于针对第二神经网络模型进行监督训练的方法的流程图。
[0033] 图10示出了根据本公开的实施例的用于针对候选基因进行排序的方法的流程图。
[0034] 图11示意性示出了适于用来实现本公开实施例的电子设备的框图。
[0035] 在各个附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

[0036] 下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限
制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整
地传达给本领域的技术人员。
[0037] 在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施
例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的
实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
[0038] 如前文提及,在传统的确定致病风险变异位点的方案中的很多关键步骤(例如,人工解读电子病历的表型关键词以用于匹配HPO)需要人工的干预,因此,缺乏关于确定致病
风险变异位点的自动化流程解决方案;而且传统的确定致病风险变异位点的方案需要耗费
较多时间,容易产生错误。
[0039] 为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于确定致病风险变异位点的方案。该方案通过基于所获取的待测对
象的样本的全外显子测序序列比对结果信息确定变异位点,并且针对变异位点进行注释,
以及经由第一神经网络模型来提取所获取的关于待测对象的临床描述信息中的表型关键
词;本公开能够更加准确和快速地进行表型关键词的提取,而避免了因人工解读电子病历
的表型关键词的低效率和易错性。另外,本公开基于所提取的表型关键词针对候选基因进
行排序,本公开能够提升候选基因排序的性能。再者,通过基于变异位点的注释信息过滤变
异位点;以及基于经训练的预定模型提取基于经过滤的变异位点的注释信息和候选基因的
排序信息所生成的输入数据的特征,进而确定关于待测对象的致病风险变异位点。本公开
能够通过位点过滤、位点注释信息和基因排序结果等多种技术提取数据特征进而生成向量
表示以输入预定模型,来用于确定关于待测对象的致病风险变异位点,从而能够实现所确
定的致病风险变异位点更加准确。因此,本公开实现自动、快速并准确地确定致病风险变异
位点。
[0040] 图1示出了根据本公开的实施例的用于确定致病风险变异位点的方法的系统100的示意图。如图1所示,系统100例如包括计算设备110、生信服务器150、网络140。计算设备
110可以通过网络140以有线或者无线的方式与生信服务器150进行数据交互。
[0041] 计算设备110例如可以用于获取待测对象的样本的全外显子测序序列比对结果信息和关于待测对象的临床描述信息;基于测序序列比对结果信息确定变异位点,以及针对
变异位点进行注释以生成关于变异位点的注释信息。计算设备110还可以用于提取临床描
述信息中的表型关键词;以及基于所提取的表型关键词,针对候选基因进行排序。另外,计
算设备110还可以用于基于关于变异位点的注释信息过滤变异位点,以及基于经训练的预
定模型,提取由经过滤的变异位点的注释信息和候选基因的排序信息所生成的输入数据的
特征,以便确定关于待测对象的致病风险变异位点。在一些实施例中,计算设备110可以具
有一个或多个处理单元,包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用
处理单元。另外,在每个计算设备上也可以运行着一个或多个虚拟机。计算设备110例如包
括比对结果信息和临床描述信息获取单元112、变异位点确定和注释单元114、表型关键词
提取单元116、候选基因排序单元118、变异位点过滤单元120、输入数据生成单元122、致病
风险变异位点确定单元124。比对结果信息和临床描述信息获取单元112、变异位点确定和
注释单元114、表型关键词提取单元116、候选基因排序单元118、变异位点过滤单元120、输
入数据生成单元122、致病风险变异位点确定单元124可以配置在一个或者多个计算设备
110上。
[0042] 关于比对结果信息和临床描述信息获取单元112,其用于获取待测对象的样本的全外显子测序序列比对结果信息和关于待测对象的临床描述信息。
[0043] 关于变异位点确定和注释单元114,其用于基于全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以生成关于变异位点的注释信息。
[0044] 关于表型关键词提取单元116,其用于经由经训练的第一神经网络模型,提取临床描述信息中的表型关键词。
[0045] 关于候选基因排序单元118,其用于基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的排序信息,候选基因与临床描述信息相关联。
[0046] 关于变异位点过滤单元120,其用于基于关于变异位点的注释信息,过滤变异位点。
[0047] 关于输入数据生成单元122,其用于基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成输入数据。
[0048] 关于致病风险变异位点确定单元124,其用于基于经训练的预定模型,提取输入数据的特征,以便确定关于待测对象的致病风险变异位点。
[0049] 以下将结合图2描述根据本公开的实施例的用于确定致病风险变异位点的方法。图2示出了根据本公开的实施例的用于确定致病风险变异位点的方法200的流程图。应当理
解,方法200例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设
备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动
作,本公开的范围在此方面不受限制。
[0050] 在步骤202处,计算设备110获取待测对象的样本的全外显子测序序列比对结果信息和关于待测对象的临床描述信息。
[0051] 关于待测对象的样本,其例如是待测对象的血液样本。关于待测对象的临床描述信息,其例如是待测对象的电子病历。待测对象例如是先证者本人。
[0052] 关于获取待测对象的样本的全外显子测序序列比对结果信息的方式,其例如包括:计算设备110从生信服务器150获取测序序列比对结果信息。也可以包括:计算设备110
首先获取经由NGS测序的全外显子测序数据的FASTQ文件,然后调用数据比对软件(例如,
BWA)进行测序序列比对(例如,将待测对象的血液样本的全外显子测序数据与人类参考基
因组测序数据进行比对),以生成测序序列比对结果信息。
[0053] 在步骤204处,计算设备110基于全外显子测序序列比对结果信息,确定变异位点,以便针对变异位点进行注释以生成关于变异位点的注释信息。
[0054] 关于确定变异位点的方法,其例如包括:计算设备110获取测序序列比对结果信息之后,调用基因数据变异检测软件(例如而不限于调用GATK 的HaplotypeCaller模块来针
对所获取的测序序列比对结果信息中的变异为点进行检测,以便检测SNP和Indel变异位
点,从而生成VCF文件。
[0055] 关于变异位点的注释信息,其例如至少包括:基因功能注释信息、基因相关疾病信息、人群频率信息。在一些实施例中,关于变异位点的注释信息还包括:致病性预测软件注
释。关于对变异位点进行注释的方法例如包括多种。例如,计算设备110调用ANNOVAR针对变
异位点进行注释,得到每个SNP和Indel变异位点的精确的注释信息。其中,ANNOVAR是一个
perl编写的命令行工具,可以在安装了perl解释器的多种操作系统上执行。
[0056] 在步骤206处,计算设备110经由经训练的第一神经网络模型,提取临床描述信息中的表型关键词。例如,计算设备110从电子病例中的临床表型描述中识别先证者本人的临
床表型关键词,该第一神经网络模型是经由多样本训练的。
[0057] 关于用于训练第一神经网络模型的多样本,其例如是经由人工标注多个(例如而不限于是6000多个)临床病例而形成的训练数据集。标注方法例如采用BIEOS标注法逐字标
注。诸如,针对电子病例中的临床表型描述 “主诉:矮小”, 经由人工标注的对应标签为:O,
O,O,B,E。
[0058] 关于第一神经网络模型,其例如包括由第一语言模型所构建的第一网络层、由第二语言模型所构建的第二网络层、以及第三网络层。在一些实施例中,第一神经网络模型以
预训练语言模型Bidirectional Encoder Representation from Transformers(BERT)作
为网络主体架构,同时引入多算法融合的神经网络。例如,第一神经网络模型是基于在BERT
基础上引入条件随机场模型(Conditional Random Field Algorithm,或简称为CRF)、
dictionary embedding、N‑gram模型而构建的。以下将结合图4来说明第一神经网络模型的
架构。图4示出了根据本公开的实施例的第一神经网络模型400的示意图。如图4所示,第一
神经网络模型400例如包括由第一语言模型(第一语言模型例如而不限于为BERT模型)所构
建的第一网络层404、由第二语言模型(第二语言模型例如而不限于为N‑gram模型)所构建
的第二网络层406、以及第三网络层(第三网络层例如而不限于是基于CRF而构建的)410。其
中,第一网络层404例如用于将输入转换为第一特征向量(如图4所示的T1至T5)。第二网络
层用于基于输入和预定关键词集合生成第二特征向量(如图4所示的G1至G5)。在一些实施
例中,第一神经网络模型400还包括网络层408,该网络层408用于融合第一特征向量和第二
特征向量, 以生成融合后特征向量。
[0059] 关于提取临床描述信息中的表型关键词的方法,其包括:将临床描述信息中的每一句话分割成字或标点,以便将经分割的字或标点转换成对应的输入标识;基于第一网络
层,将每一个对应的输入标识转换为多维的第一特征向量;基于第二网络层和预定关键词
集合,生成第二特征向量,第二特征向量用于指示每一个字与周围字组成的短语是否属于
预定关键词集合;以及基于第一特征向量和第二特征向量,经由第三网络层,确定临床描述
信息中的表型关键词。下文将结合图3具体说明提取临床描述信息中的表型关键词的方法
300,在此,不再赘述。
[0060] 以下表1示意性示出了第一神经网络模型的部分网络参数。其余未示出的网络参数例如均为默认值。
[0061]
[0062] 在步骤208处,计算设备110基于所提取的表型关键词,针对候选基因进行排序,以便生成关于候选基因的排序信息,候选基因与临床描述信息相关联。
[0063] 关于生成关于候选基因的排序信息的方法,其例如包括:确认候选基因和对应综合征;提取每一个对应综合征的表型;经由第二神经网络模型,计算临床描述信息中的表型
关键词与对应综合征的表型的相似度;以及基于所计算的相似度,针对候选基因进行排序,
以便生成关于候选基因的排序信息。
[0064] 具体而言,例如,首先计算设备110确认候选基因和对应综合征。确认候选基因的方法例如包括:在第四预定数据集合(例如,OMIM数据库)中确定有明确对应综合征的基因
为候选基因。确认对应综合征的方法例如包括:在第四预定数据集合(例如,OMIM数据库)中
确定有明确对应基因的综合征为对应综合征。其中,候选基因与对应综合征例如为多对多
的关系。
[0065] 其次,计算设备110提取每一个对应综合征的表型。例如,计算设备110根据HPO官网提供的phenotype annotation文件,提取出每个对应综合征所对应的表型。
[0066] 之后,计算设备110经由第二神经网络模型,计算临床描述信息中的表型关键词与对应综合征的表型的相似度。例如,对于第二神经网络模型的第一输入和第二输入分别输
入的两个表型,经由第二神经网络模型进行相似度计算。关于计算临床描述信息中的表型
关键词与对应综合征的表型的相似度的方法,下文将结合图6详细说明,在此,不再赘述。
[0067] 再者,计算设备110基于所计算的相似度,针对候选基因进行排序,以便生成关于候选基因的排序信息。应当理解,一个临床案例或者临床描述信息中往往含有多个表型关
键词,同时一个基因或者综合征往往也会导致多种不同的表型。因此,需要一个综合计算方
法来确定最终单个候选基因的排名。关于确定最终单个候选基因的排名的方法,下文将结
合图9详细说明,在此,不再赘述。
[0068] 关于第二神经网络模型,其用于计算两个表型之间的相似度。第二神经网络模型例如是基于BERT模型所构建的孪生神经网络(Siamese Network)。图5示意性示出了根据本
公开实施例所示出的第二神经网络模型500的示意图。第二神经网络模型500例如而不限于
包括:第一BERT网络层504、第一池化层506、第二BERT网络层514、第二池化层516和相似度
计算网络层520。
[0069] 关于第一池化层506或第二池化层516,其例如分别采用mean‑pooling的方法所构建,以下结合公式(1)说明第一池化层506和第二池化层516的计算方式。
[0070]
[0071] 在上述公式(1)中, Vi代表第i位置处,BERT网络层的输出向量,x代表第一池化层506或第二池化层516的输出。
[0072] 如图5所示,将第一输入502和第二输入512分别输入第一BERT网络层504和第二BERT网络层514。第一BERT网络层504的输出经由第一池化层506(例如pooling层)后形成临
床描述信息中的表型关键词的对应编码508。第二BERT网络层514的输出经由第二池化层
516(例如pooling层)后形成对应综合征的表型的对应编码518。临床描述信息中的表型关
键词的对应编码508和对应综合征的表型的对应编码518经由相似度计算网络层520而计算
两个向量夹角的余弦,以便确定两个表型之间的相似度。相似度计算网络层520的算法例如
是cosine_sim(u,v)。其中cosine_sim()代表两个u和v向量夹角的余弦。u代表临床描述信
息中的表型关键词的对应编码。v代表对应综合征的表型的对应编码。
[0073] 在一些实施例中,相似度计算网络层520的计算方式例如如以下公式(2)所示。
[0074]
[0075] 在上述公式(2)中, x代表第一池化层输出的特征向量。y代表第二池化层输出的特征向量。 代表第一池化层输出的特征向量和第二池化层输出的特征向量之间
的夹角的余弦(或称为Cosine_distance)关于第二神经网络模型500的训练样本,其例如是
多个经标注的语料样本。语料样本例如是经由人工提取的临床描述信息中的表型关键词。
对于每一个表型关键词,例如从预定数据集合(例如而不限于为CHPO数据库)标准术语中筛
选出最相近的一个或多个表型,以作为人工提取的临床描述信息中的表型关键词所对应的
CHPO标准术语。例如,以下表2示意性示出了人工提取的临床描述信息中的表型关键词与
CHPO标准术语之间的对应关系。
[0076]
[0077] 关于第二神经网络模型500的训练方法,可以采用两步Fine‑tuning的方法得到最终经训练的第二神经网络模型500。第一步为非监督训练,主要实现标准术语之间的相似度
计算,第二步为监督训练,用以实现口语描述到标准描述的相似度计算。下文将结合图7和
图8具体说明第二神经网络模型500的训练方法700。在此,不再赘述。
[0078] 关于第二神经网络模型500的损失函数,其例如为以下公式(3)所示。
[0079]
[0080] 在上述公式(3)中,loss代表第二神经网络模型500的损失函数。object_sim代表第二神经网络模型500的训练目标值,cosine_sim代表经由基于孪生神经网络结构所构建
的第二神经网络模型500所计算出的第一输入和第二输入的相似度。
[0081] 以下表3示意性示出了第二神经网络模型的部分网络参数。其余未示出的网络参数例如均为默认值。
[0082]
[0083] 在步骤210处,计算设备110基于关于变异位点的注释信息,过滤变异位点。
[0084] 关于过滤变异位点的方式,其例如包括以下几种方式:
[0085] 基于关于变异位点的注释信息,过滤掉良性和可能良性的变异位点。例如,计算设备110基于位点注释信息中位点评级过滤Benign、Likely Benign的位点。
[0086] 响应于确定变异位点的人群频率信息属于预定频率阈值范围并且变异位点未注释到第一预定数据集合的相关疾病信息,过滤掉变异位点。例如,计算设备110根据位点注
释信息中人群频率过滤:如大于0.05或大于0.01且小于0.05且未注释到HGMD或ClinVar数
据库致病性信息,则过滤掉该位点。
[0087] 响应于确定变异位点的基因相关疾病信息未注释到第二预定数据集合的相关疾病信息,过滤掉变异位点。例如,计算设备110根据位点注释信息中疾病相关内容过滤:如未
注释到HGMD、OMIM、ClinVar数据库疾病相关信息,则过滤掉该位点。
[0088] 响应于确定变异位点的基因功能注释信息所指示的基因属于第三预定数据集合的预定基因范围,过滤掉变异位点。例如,计算设备110根据位点注释信息中的基因名称过
滤:如以OMIM中有phenotype的HGNC基因作为基因考虑范围,如基因不在该基因范围内,则
过滤该位点。
[0089] 在步骤212处,计算设备110基于经过滤而留下的变异位点的注释信息和关于候选基因的排序信息,生成输入数据。例如,计算设备110获取经由上述几种方式过滤过滤而留
下的变异位点,并且获取该经过滤而留下的变异位点的注释信息;以及基于经过滤而留下
的变异位点的注释信息和关于候选基因的排序信息生成输入数据。
[0090] 关于生成输入数据的方法,其例如包括:计算设备110融合经过滤而留下的变异位点的注释信息和候选基因的排序信息;将经融合的变异位点的注释信息和候选基因的排序
信息转换为特征向量;以及针对经转换的特征向量进行归一化处理,以生成输入数据。例
如,计算设备110利用OrdinalEncoding,OneHotEncoding,连续变量分段表示
(KBinsDiscretizer)等向量编码方式,并且结合特征统计、特征融合等多种技术方法,将经
过滤而留下的变异位点的注释信息和候选基因的排序信息融合并转换成特征向量。然后利
用如下公式(4)的方式针对经转换的特征向量进行归一化处理,然后基于经归一化处理后
的特征向量生成输入数据。
[0091]
[0092] 在上述公式(4)中,xi代表经归一化处理后的第i个特征向量。max(xi)代表第i个特征向量的最大值。min(xi)代表第i个特征向量的最小值。
[0093] 在步骤214处,计算设备110基于经训练的预定模型,提取输入数据的特征,以便确定关于待测对象的致病风险变异位点。
[0094] 关于预定模型,其例如而不限于是基于随机森林(Random Forest,RF)模型所构建的。预定模型例如采用bootstrap有放回抽样及基尼(Gini)系数进行特征选择。
[0095] 基于随机森林模型所构建的预定模型的处理方法包括:从样本集中有放回随机采样选出n个样本;从所有特征中随机选择k个特征,对选出的样本利用这些特征建立决策树;
重复以上两步m次,即生成m棵决策树,形成随机森林;对于新数据,经过每棵树决策,最后投
票确认分到哪一类。关于基尼系数的选择的标准就是每个子节点达到最高的纯度,即落在
子节点中的所有观察都属于同一个分类,此时基尼系数最小,纯度最高,不确定度最小,数
据分割越彻底,越干净。
[0096] 关于确定关于待测对象的致病风险变异位点的方法例如是:计算设备110首先经由经训练的预测模型针对变异位点计算评估值,以便基于所计算的变异位点评估值由高到
低进行排序;然后确定按照变异位点的排序顺序,确认所计算的变异位点评估值是否大于
或者等于预定位点阈值,如果确定变异位点评估值大于或者等于预定位点阈值,则确定该
变异位点为关于待测对象的致病风险变异位点。如果确定所有变异位点的评估值均小于预
定位点阈值,则确定该样本为阴性。
[0097] 以下表4示意性示出了关于待测对象的致病风险变异位点的预测结果。
[0098]
[0099] 在上述方案中,通过基于所获取的待测对象的样本的全外显子测序序列比对结果信息确定变异位点,并且针对变异位点进行注释,以及经由第一神经网络模型来提取所获
取的关于待测对象的临床描述信息中的表型关键词;本公开能够更加准确和快速地进行表
型关键词的提取,而避免了因人工解读电子病历的表型关键词的低效率和易错性。另外,本
公开基于所提取的表型关键词针对候选基因进行排序,本公开能够提升候选基因排序的性
能。再者,通过基于变异位点的注释信息过滤变异位点;以及基于经训练的预定模型提取基
于经过滤的变异位点的注释信息和候选基因的排序信息所生成的输入数据的特征,进而确
定关于待测对象的致病风险变异位点。本公开能够通过位点过滤、位点注释信息和基因排
序结果等多种技术提取数据特征进而生成向量表示以输入预定模型,来用于确定关于待测
对象的致病风险变异位点,从而能够实现所确定的致病风险变异位点更加准确。因此,本公
开实现自动、快速并准确地确定致病风险变异位点。
[0100] 图3示出了根据本公开的实施例的用于提取临床描述信息中的表型关键词的方法300的流程图。应当理解,方法300例如可以在图11所描述的电子设备1100处执行。也可以在
图1所描述的计算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或
可以省略所示出的动作,本公开的范围在此方面不受限制。
[0101] 在步骤302处,计算设备110将临床描述信息中的每一句话分割成字或标点,以便将经分割的字或标点转换成对应的输入标识。例如,计算设备110对于先证者本人的电子病
例中的临床表型描述中的每一句话,按照字或标点进行分割。然后将分割后的字或标点转
换为相应标识(例如ID)。如图4所示,整段的临床描述信息402为“主诉:矮小”。该临床描述
信息402被分割成字或标点,即,被分割成:“主”、“诉”、“:”、“矮”、“小”。
[0102] 将分割后的字或标点转换为相应标识的方法例如包括多种。例如,计算设备110可以按照BERT模型的预先创建的字符集提取出与分割后的字或标点对应的输入标识。应当理
解,利用Word2Vec模型将分割后的字或标点所转换的相应标识通常与该分割后的字或标点
出现的上下文无关,相较而言,利用BERT模型所生成的相应标识与分割后的字或标点周围
的字或标点是相关联的。因此,其不仅更容易捕获类似一词多义之类的差异之外,还能够捕
获上下文相关的字词等其他形式的信息,从而使得所转换的相应标识能够更为精确的特征
表示,从而提高模型性能。以下以基于BERT模型构建的第一神经网络模型的第一网络层为
例,示例性说明提取临床描述信息中的表型关键词的方法300的后续步骤。
[0103] 在步骤304处,计算设备110基于第一网络层,将每一个对应的输入标识转换为多维的第一特征向量,第一语言模型为BERT模型。例如,计算设备110对于每一个对应的输入
标识,采用BERT模型对字符进行编码,以便得到768维的第一特征向量。
[0104] 在步骤306处,计算设备110基于第二网络层和预定关键词集合,生成第二特征向量,第二特征向量用于指示每一个字与周围字组成的短语是否属于预定关键词集合。
[0105] 预定关键词集合例如为Dictionary Eembedding,其包括:由OMIM中疾病英文名称经由翻译而生成的疾病中文名称、常见疾病名称及其缩写、refgene数据库中的基因的名
称。
[0106] 关于第二语言模型,其例如为N‑Gram模型。
[0107] 关于生成第二特征向量的方法,其例如包括:分别设置N‑gram长度为1 6,分别表~
示每个字与周边字构成预定长度的短语,并根据该短语是否出现在预定关键词集合中而生
成21维one‑hot向量,其中“1”指示该所构成的短语在预定关键词集合中出现过,“0”指示该
所构成的短语在预定关键词集合中未出现过。
[0108] 在步骤308处,计算设备110基于第一特征向量和第二特征向量,经由第三网络层,确定临床描述信息中的表型关键词。第三网络层例如而不限于是基于条件随机场
(Conditional Random Fields, 以下简称CRF)所构建的。
[0109] 在一些实施例中,第三网络层例如采用线性链条件随机场模型来构建。以下结合公式(5)来说明第三网络层计算每个位置的条件概率的方式。
[0110]
[0111] 在上述公式(5)中,t和s代表特征函数,其中t代表转移特征,s代表状态特征,x为观察变量,y为隐含变量。
[0112] 关于确定临床描述信息中的表型关键词的方法,其例如包括:首先,计算设备110融合第一特征向量和第二特征向量,以生成融合后特征向量。例如,计算设备110对于每一
个经分割的字或符号,将经由步骤304处所转换的第一特征向量(例如768维特征向量)和经
由步骤306处所得到生成第二特征向量(例如21维特征向量进行融合,以便生成融合后特征
向量,即新的789维特征向量。
[0113] 然后,计算设备110经由第三网络层,提取融合后特征向量的特征,以预测关于每一个字符的类别。预测关于每一个字符的类别的方法例如包括:经由全连接网络层,针对融
合后特征向量进行降维,使得降维后的特征向量的维度和标签的类别数目相一致。然后,计
算设备110将降维后的特征向量输入至第三网络层(例如条件随机场模型)中,以便计算每
个降维后的特征向量的对数似然值(log‑likelihood)。之后,计算设备110针对所计算的对
数似然值取负平均,以作为第三网络层(例如条件随机场模型)。同时采用维特比(Viterbi)
算法进行解码,以便预测关于每一个字符的类别。
[0114] 之后,计算设备110基于所预测的每一个字符的类别,确定临床描述信息中的表型关键词。例如,提取相应的整段临床描述的表型关键词。例如,如图4所示,输入语言模型410
的整段的临床描述信息402为“主诉:矮小”。所预测的每一个字符的类别412例如为“O”、
“O”、“O”、“B”、“E”。根据所预测的每一个字符的类别所确定得到表型关键词420为“矮小”。
[0115] 在上述方案中,本公开能够提升整体临床描述信息的解读效率,以及降低不同解读人员的主观性差异。
[0116] 图6示出了根据本公开的实施例的用于第二神经网络模型计算两个表型之间的相似度的方法600的流程图。应当理解,方法600例如可以在图11所描述的电子设备1100处执
行。也可以在图1所描述的计算设备110处执行。应当理解,方法600还可以包括未示出的附
加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0117] 在步骤602处,计算设备110针对临床描述信息中的表型关键词和对应综合征的表型分别进行预处理,以便生成第一表型输入标识和第二表型输入标识。例如,计算设备110
将临床描述信息中的表型关键词分割成字或标点;然后按照BERT模型的预先创建的字符集
提取出与分割后的字或标点对应的输入标识,以便生成与第一表型相应的第一表型输入标
识(例如,图5所示第一输入502)。计算设备110将对应综合征的表型分割成字或标点;然后
按照BERT模型的预先创建的字符集提取出与分割后的字或标点对应的输入标识,以便生成
与第二表型相应的第二表型输入标识(例如,图5所示第二输入512)。
[0118] 在步骤604处,计算设备110将第一表型输入标识和第二表型输入标识编码为第三特征向量和第四特征向量,以用于输入第二神经网络模型。例如,经由第一BERT网络层和第
二BERT网络层,分别将第一表型输入标识和第二表型输入标识分别编码为768维特征向量。
[0119] 在步骤606处,计算设备110将临床描述信息中的表型关键词中所有的字符所对应的第三特征向量取平均值,以便得到临床描述信息中的表型关键词的第一对应编码。如图5
所示,对应于临床描述信息中的表型关键词的第一表型作为第一输入502和对应综合征的
表型的第二表型作为第二输入512分别输入第一BERT网络层504和第二BERT网络层514。第
一BERT网络层504的输出经由第一池化层506后形成第一对应编码,即临床描述信息中的表
型关键词的对应编码508。
[0120] 在步骤608处,计算设备110将对应综合征的表型中所有的字符所对应的第四特征向量取平均值,以便得到对应综合征的表型的第二对应编码。例如,第二BERT网络层514的
输出经由第二池化层516后形成第二对应编码,即对应综合征的表型的对应编码518。
[0121] 在步骤610处,计算设备110计算第一对应编码和第二对应编码的夹角的余弦,以便确定临床描述信息中的表型关键词与对应综合征的表型相似度。
[0122] 通过采用上述手段,本公开可以快速并准确地确定临床描述信息中的表型关键词和对应综合征的表型这两个表型之间的相似度。
[0123] 图7示出了根据本公开的实施例的第二神经网络模型的训练方法700的流程图。应当理解,方法700例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计
算设备110处执行。应当理解,方法700还可以包括未示出的附加动作和/或可以省略所示出
的动作,本公开的范围在此方面不受限制。
[0124] 在步骤702处,计算设备110将预定数据库(例如而不限于是CHPO)标准术语集按照各个术语间的相似度,映射到多维(例如768维)空间中。
[0125] 在步骤704处,计算设备110随机抽取两个标准术语,以便计算出两个标准术语之间的相似度,以用于将所计算的相似度作为训练的目标值进行训练。例如,计算两个标准术
语的CHPO树相似度,并且将所计算的CHPO树相似度作为训练的目标值进行训练。
[0126] CHPO树相似度本身具有树状结构,因此,表型的相似度应该满足树形结构。图8示出了根据本公开实施例的CHPO树结构800的示意图。在图8所示的CHPO树结构800中, “表型
异常”节点例如作为一级节点810,其定义该节点的深度为1(depth=1)。深度为2(depth=2)
的节点例如为各个系统的二级节点,如:“神经系统异常”节点820、“肢体异常”节点822、“心
血管系统异常”节点824等。深度大于2(例如depth=3、depth=4)的节点以此类推。例如“孤独
症”节点和“自闭症行为”节点(未示出)在CHPO树结构800中为相邻节点,因此其相似度高,
而“孤独症”节点和“多囊性肾发育不良”节点例如在CHPO树结构800中距离很远,因此相似
度很低。
[0127] 以下结合公式(6)来说明用于计算任意的两个CHPO树结构800中的节点i和节点j之间CHPO树相似度的计算方法。
[0128]
[0129] 在上述公式(6)中,i代表第i个节点。j代表第j个节点。x代表节点i和节点j的最深公共父节点。depthi代表节点i的深度。depthj代表节点j的深度。depthx代表节点x的深度。
其中5.278为两倍log(14),14为最深的节点的深度。CHPO_simij代表节点i和节点j之间的
CHPO树相似度。
[0130] 在步骤706处,计算设备110以关联的口语表述和预定数据库(例如而不限于是CHPO)标准术语,针对第二神经网络进行监督训练,以便生成经训练的第二神经网络模型。
[0131] 下文将结合图9说明针对第二神经网络进行监督训练的方法。图9示出了根据本公开的实施例的用于针对第二神经网络进行监督训练的方法900的流程图。应当理解,方法
900例如可以在图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处
执行。应当理解,方法900还可以包括未示出的附加动作和/或可以省略所示出的动作,本公
开的范围在此方面不受限制。
[0132] 在步骤902处,计算设备110在0和1之间随机生成第一随机数和第二随机数。
[0133] 在步骤904处,计算设备110确定第一随机数是否小于第一预定阈值。
[0134] 在步骤906处,如果计算设备110确定第一随机数小于第一预定阈值,针对作为第二神经网络模型的第一输入的口语关键词和作为第二神经网络模型的第二输入的标准术
语,确定第二神经网络模型的训练目标值为1,标准术语获取自预定数据集合。标准术语例
如为CHPO标准术语。
[0135] 在步骤908处,如果计算设备110确定第一随机数大于或者等于第一预定阈值,针对口语关键词和标准术语,确定第二神经网络模型的训练目标值为口语关键词所标注标准
术语和作为第二输入的标准术语之间的预定数据集合树相似度,预定数据集合树包括多个
节点,每一个节点对应一个标准术语。例如,如果确定第一随机数大于或者等于第一预定阈
值,针对口语关键词和CHPO标准术语,确定第二神经网络的训练目标值为为口语关键词所
标注的标准术语和CHPO标准术语之间的CHPO树相似度。
[0136] 在步骤910处,计算设备110确定第二随机数是否小于第二预定阈值。
[0137] 如果计算设备110确定第二随机数小于第二预定阈值,在步骤912处,训练第二神经网络模型。
[0138] 在步骤914处,如果计算设备110确定第二随机数大于或者等于第二预定阈值,使得口语关键词作为第二神经网络模型的第二输入以及标准术语作为第二神经网络模型的
第一输入,跳转至步骤912处,以用于训练第二神经网络模型。
[0139] 在上述方案中,通过上述基于标准术语之间的非监督训练和基于关联的口语与标准术语之间的监督训练,使得第二神经网络模型可以更为准确地计算口语或术语方式表达
的临床描述信息中的表型关键词与对应综合征的表型的相似度。
[0140] 下文将结合图10说明针对候选基因进行排序的方法。图10示出了根据本公开的实施例的用于针对候选基因进行排序的方法1000的流程图。应当理解,方法1000例如可以在
图11所描述的电子设备1100处执行。也可以在图1所描述的计算设备110处执行。应当理解,
方法1000还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此
方面不受限制。
[0141] 在步骤1002处,计算设备110基于对应综合征所对应的多个表型和临床描述信息中所提取的多个表型关键词,确定关于对应综合征的相似度矩阵,相似度矩阵指示对应综
合征对应的表型与临床描述信息中的表型关键词之间的相似度。例如,所确定的候选综合
征i对应有m个对应的CHPO表型,同时,临床描述信息中可提取出n个表型关键词,则对于候
选综合征i,构建有相似度矩阵例如遵循以下表达式(7)。
[0142]
[0143] 在上述表达式(7)中,matrixi代表对于候选综合征i所构建的相似度。m代表候选综合征i对应的第m个对应的CHPO表型。n代表临床描述信息中的第n个表型关键词。Sim(m,
n)代表候选综合征i的第m个对应的CHPO表型与临床描述信息中的第n个表型关键词之间的
相似度。
[0144] 在步骤1004处,计算设备110基于关于每个对应综合征的相似度矩阵,确定每个对应综合征的评估值。以下结合公式(8)说明候选综合征的评估值的计算方式。
[0145]
[0146] 在上述表达式(8)中,syndrome_scorei代表对于对应综合征i所计算的评估值。matrixi代表对于候选综合征i所构建的相似度矩阵。axis为1代表该矩阵运算应按列进行
运算。average()代表平均值运算。max()代表取最大值运算。
[0147] 在步骤1006处,计算设备110基于对应综合征的评估值,确定候选基因的评估值,以便基于所确定的候选基因的评估值来针对候选基因进行排序。例如,候选基因x对应了n
个对应综合征,分别为x1, x2,  ..., xn,以下结合公式(9)说明候选综合征的评估值的计
算方式。
[0148]
[0149] 在上述表达式(9)中,gene_scorex代表对于候选基因x所计算的评估值。max()代表取最大值运算。x1, x2,  ...,  xn分别对应候选基因x所对应的n个对应综合征。
syndrome_scorex1, x2, ..., xn代表应候选基因x所对应的n个候选综合征的的评估值。max
(syndrome_scorex1, x2, ..., xn)代表取n个对应综合征的评估值中的最大值。
[0150] 图11示意性示出了适于用来实现本公开实施例的电子设备1100的框图。设备1100可以是用于实现执行图2、图3、图6、图7图9和图10所示的方法200、300、600、700、900、1000
的设备。如图11所示,设备1100包括CPU1101,其可以根据存储在只读存储器(ROM)1102中的
计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指
令,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序
和数据。CPU 1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口
1105也连接至总线1104。
[0151] 设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108,CPU 1101执行上文所描述的各个方法和处理,例如执行方法200、300、600、
700、900、1000。例如,在一些实施例中,方法200、300、600、700、900、1000可被实现为计算机
软件程序,其被存储于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的
部分或者全部可以经由ROM和/或通信单元1109而被载入和/或安装到设备1100上。当计算
机程序加载到RAM并由CPU执行时,可以执行上文描述的方法200、300、600、700、900、1000的
一个或多个操作。备选地,在其他实施例中,CPU可以通过其他任何适当的方式(例如,借助
于固件)而被配置为执行方法200、300、600、700、900、1000的一个或多个动作。
[0152] 需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机
可读程序指令。
[0153] 计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电
磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体
的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器
(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩
盘只读存储器(CD‑ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储
有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可
读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波
导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电
信号。
[0154] 这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外
部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关
计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计
算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计
算机可读存储介质中。
[0155] 用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的
任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如
Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机
可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独
立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机
或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包
括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利
用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令
的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可
编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方
面。
[0156] 这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/
或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0157] 这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在
通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图
中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储
在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特
定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图
和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0158] 也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产
生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的
指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0159] 附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代
表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可
以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,
它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流
程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作
的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0160] 以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨
在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其
它普通技术人员能理解本文披露的各实施例。
[0161] 以上仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效
替换、改进等,均应包含在本公开的保护范围之内。