患者样本数据中结构变异的报告解读方法及系统转让专利
申请号 : CN202010529411.5
文献号 : CN111883223B
文献日 : 2021-05-25
发明人 : 马旭 , 蔡瑞琨 , 曹宗富 , 喻浴飞 , 陈翠霞
申请人 : 国家卫生健康委科学技术研究所
摘要 :
权利要求 :
1.一种患者样本数据中结构变异的报告解读方法,其特征在于,包括:获取患者的待测样本数据,所述待测样本数据包括基因序列、疾病名称和特征集合I;
将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种;
遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称的方法包括:将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准疾病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,并按照相似度值大小降序推荐多个标准疾病名称;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;
从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
2.根据权利要求1所述的方法,其特征在于,参考基线的构建方法包括:获取与待测样本数据同批次的多个表型正常的人群基因序列;
若人群基因序列属于全基因组测序数据,则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线;
若人群基因序列属于全外显子测序数据,则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
3.根据权利要求1或2所述的方法,其特征在于,对结构变异进行注释,同时根据注释结果得到结构变异致病性分级的方法包括:采用AnnotSV软件分别对每个结构变异进行注释,注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种;
根据所述注释结果对结构变异进行致病性分级,所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。
4.根据权利要求1所述的方法,其特征在于,根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括:
根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因;
根据所述特征集合I中的临床特征,遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合;
采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值;
匹配输出与多个显著性值对应的第二疾病基因;
汇总第一疾病基因和第二疾病基因,构建基因推荐列表。
5.根据权利要求1所述的方法,其特征在于,在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值之前还包括:从疾病的公共数据库和文献数据库,获得已知的标准疾病名称及其对应的标准临床特征;
基于已知的标准疾病及其对应的标准临床特征,建立标准疾病名称与标准临床特征的特征关系数据库;
分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci;
从特征关系数据库中获取数据,基于HPO构建疾病的标准化临床特征表型树;
所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
6.根据权利要求1所述的方法,其特征在于,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括:采用公式 分别计算每个结构变异的重要性程度评分,其中,f为影响要素的数量,wi为第i各影响要素的权重,si为第i各影响要素的赋值;
统计各结构变异的重要性程度评分,并按照分值大小降序输出对应的结构变异。
7.一种患者样本数据中结构变异的报告解读系统,包括:输入单元,用于获取患者的待测样本数据,所述待测样本数据包括基因序列、疾病名称和特征集合I;
注释单元,用于将所述基因序列与参考基线比对,检测出待测样本数据中的多个结构变异并对其一一进行注释,同时根据注释结果对每个结构变异进行致病性分级;
推荐列表生成单元,用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;
疾病名称推荐单元,用于遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称;
报告输出单元,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告,所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种;
遍历特征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个标准疾病名称的方法包括:将特征集合I中的临床特征在标准化临床特征表型树上的节点标记;
遍历特征关系数据库中的第n个标准疾病名称,将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记,所述n的初始值为1;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;
根据每个临床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合相似度值;
令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,并按照相似度值大小降序推荐多个标准疾病名称;
基于标准化临床特征表型树上的节点标记,从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括:所述特征集合I包括多个临床特征,所述特征集合A包括多个标准临床特征;
遍历所述特征集合I中的第i个临床特征,从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征,作为与所述第i个临床特征对应的最佳标准临床特征,所述i的初始值为1;
令i=i+1后重新遍历所述特征集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征;
从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括:
遍历所述特征集合A中的第j个标准临床特征,基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt,所述j的初始值为1;
若判断结果为否,则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零;
若判断结果为是,基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值;
令j=j+1后重新遍历所述特征集合A中的第j个标准临床特征,并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算,直至所述特征集合A中的标准临床特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。
说明书 :
患者样本数据中结构变异的报告解读方法及系统
技术领域
背景技术
进行致病突变鉴定和分子诊断的理想方法之一。
病的病因学探究。这些问题包括:一是结构变异的识别,其分析流程过于复杂,难以为医疗
机构人员和其他广大非生物信息学人员所掌握使用;二是致病突变的鉴定,需利用大量的
人工对筛选的结构变异进行逐个检查确认,效率非常低。
发明内容
疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的
已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的
一种或多种。
多种;
床特征的索引。
包括:
并按照相似度值大小降序推荐多个标准疾病名称。
征,所述i的初始值为1;
征一一对应的多个最佳标准临床特征。
特征遍历完毕,对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值;
测出待测样本数据中的结构变异并进行注释,然后根据注释结果对每个结构变异进行致病
性分级并评分,接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关
的疾病基因构建基因推荐列表,另外,遍历特征关系数据库中各标准疾病名称对应的特征
集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多个
标准疾病名称,最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出
生成解读报告。
的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中
的一种或多种,也即本发明从多个维度评价了结构变异的致病性,进而能够对患者的待测
样本进行准确解读。而且本发明提供的患者样本数据中结构变异的报告解读方法能够实现
从待测样本数据到致病结构变异推荐的全程自动化,极大降低了人工对结构变异数据的解
读分析工作量,提高了结构变异的分析和临床解读的效率。
疾病名称;
与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐
列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异
发生位置中的一种或多种。
不做赘述。
法的步骤。
附图说明
具体实施方式
仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技
术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范
围。
释,同时根据注释结果对每个结构变异进行致病性分级;根据疾病名称和/或特征集合I中
的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表;遍历特
征关系数据库中各标准疾病名称对应的特征集合A,分别计算每个特征集合A与特征集合I
的集合相似度值,按照相似度值大小推荐多个标准疾病名称;基于各结构变异对应的影响
要素的重要性程度将多个结构变异降序输出并生成解读报告,影响要素包括与结构变异对
应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包
含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相
似度值、人群发生频率、变异发生位置中的一种或多种。
检测出待测样本数据中的结构变异并进行注释,然后根据注释结果对每个结构变异进行致
病性分级并评分,接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相
关的疾病基因构建基因推荐列表,另外,遍历特征关系数据库中各标准疾病名称对应的特
征集合A,分别计算每个特征集合A与特征集合I的集合相似度值,按照相似度值大小推荐多
个标准疾病名称,最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输
出生成解读报告。
的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中
的一种或多种,也即本实施例从多个维度评价了结构变异的致病性,进而能够对患者的待
测样本进行准确解读。而且本实施例提供的患者样本数据中结构变异的报告解读能够实现
从待测样本数据到致病结构变异推荐的全程自动化,极大降低了人工对结构变异数据的解
读分析工作量,提高了结构变异的分析和临床解读的效率。
和解读。质量检查的指标包括:总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含
量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K‑mer含量等。
和表型正常人群基因序列输入BWA软件,使其与人类参考基因hg19或人类参考基因hg38进
行序列比对;对比对结果进行预处理,如去重、indel区域校正、碱基质量校正等操作后得到
比对数据;比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体
上的比对位置、插入片段长度、序列的碱基组成或序列质量。
组数据库中发现的已知indel位点,利用GATK IndelRealigner对这些indel区域进行局部
重新比对,以实现indel区域的校正;碱基质量校正的方法为使用GATK BaseRecalibrator
软件结合已知位点信息对碱基的质量分数进行校正。
均读序长度、indel的比例、正负链是否平衡等信息。另外,此阶段还可对靶向区域的序列覆
盖情况进行观察,以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、
非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。
群基因序列输入CNVKit软件构建参考基线;若人群基因序列属于全外显子测序数据,则将
多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。
绝对拷贝数,对于绝对拷贝数不是2的识别为结构变异。同理,若待测样本数据为全基因组
测序数据可通过CNVKit软件识别出结构变异,对于待测样本数据为全外显子测序数据可通
过ExomeDepth软件识别出结构变异。
和目的区域外的测序深度,合并所有对照样本,矫正GC含量等系统误差,构建表型正常人群
基因序列的基参考基线,对于全基因组测序数据采用CNVKit软件实现,对于全外显子测序
数据采用ExomeDepth软件实现。采用同批次的多个表型正常人群基因序列建立参考基线能
够减小因系统误差造成的比对结果偏差。
多种;根据注释结果对结构变异进行致病性分级,致病性分级包括致病或可能致病、致病或
可能致病但注释结果也包含良性注释、其他情况三种类型。
数据库和OMIM数据库中已知变异的致病情况等采用AnnotSV软件进行注释,该软件使用了
美国医学遗传学和基因组学学院(ACMG)定义的分类标准进行致病性分级,具体致病性分级
的操作步骤为本领域技术人员所熟知的,本实施例对此不做赘述。
合;采用临床特征富集度分析算法计算特征集合I分别与公共数据库和文献数据库中各疾
病对应集合的显著性值;匹配输出与多个显著性值对应的第二疾病基因;汇总第一疾病基
因和第二疾病基因,构建基因推荐列表。
基因;另一种为根据特征集合I中的临床特征,遍历公共数据库和文献数据库中的疾病‑基
因关联数据库,获取全部的疾病名称,每种疾病对应的临床特征组成一个标准集合;统计标
准集合的数量X,并顺序对各标准集合标记。然后采用临床特征富集度分析算法计算特征集
合I分别与各标准集合的显著性值;具体算法如下:
的临床特征包含在集合B中的临床特征数目,c表示特征集合I不包含在集合B中的临床特征
数目,d表示疾病‑基因关联数据库中的临床特征不包含在集合B中的临床特征数目;
集合B中的临床特征数目,c表示特征集合I不包含在集合B中的临床特征数目,d表示疾病‑
基因关联数据库中的临床特征不包含在集合B中的临床特征数目;其中,Jaccard相似性系
数是用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元
素个数,对应的计算公式为
I和集合B交集中的临床特征数目,|A∪B|表示特征集合I和集合B并集中的临床特征数目。J
(A,B)取值范围为[0,1],距离向量的值越小,则表示两个集合越相似,若特征集合I和集合B
的集合均为空,则J(A,B)=1。最终获取到特征集合I与各标准集合的显著性值P,而显著性
值P越小则说明两个集合的相似性越大。
阈值可由用户自由设定,默认的第一阈值为1,第二阈值为0。
合A与特征集合I的集合相似度值之前还包括:
特征的特征关系数据库;分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci;
从特征关系数据库中获取数据,基于HPO构建疾病的标准化临床特征表型树;标准化临床特
征表型树由多个干节点和与每个干节点关联的至少一个支节点组成,每个支节点用于表示
一个标准化临床特征,每个干节点用于表示关联的标准化临床特征的索引。
征关系数据库中出现的频率为fi,fi的计算公式为:
对该疾病的贡献度ci的计算公式为:
法包括:
特征表型树上的节点标记,所述n的初始值为1;基于标准化临床特征表型树上的节点标记,
从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征;根据每个临
床特征与对应的最佳标准临床特征的相似度值,计算出特征集合I与当前特征集合A的集合
相似度值;令n=n+1重新遍历特征关系数据库中的第n个标准疾病名称,直至特征关系数据
库中的标准疾病名称遍历完毕,将特征集合I与每个特征集合A对应的集合相似度值汇总,
并按照相似度值大小降序推荐多个标准疾病名称。
作为与第i个临床特征对应的最佳标准临床特征,i的初始值为1;令i=i+1后重新遍历特征
集合I中的第i个临床特征,直至特征集合I中的临床特征遍历完毕,从第n个标准疾病名称
对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。
第j个标准临床特征与第i个临床特征的相似度值为零;若判断结果为是,基于多层级结构
相似度算法计算第j个标准临床特征与第i个临床特征的相似度值;令j=j+1后重新遍历特
征集合A中的第j个标准临床特征,并继续执行第j个标准临床特征与第i个临床特征的相似
度计算,直至特征集合A中的标准临床特征遍历完毕,对应得到与特征集合A中标准临床特
征一一对应的多个相似度值;从多个相似度值筛中筛选出最大值对应的标准临床特征作为
与第i个临床特征对应的最佳标准临床特征。
中所有节点的有向集合AB,有向集合IB长度的值为通路中节点的个数LIB,有向集合AB长度
的值为通路中节点的个数LAB;提取有向集合IB和有向集合AB中节点的交集IAB,交集IAB长
度的值为通路中共有节点的个数LIAB;采用公式 计算第j个标准
临床特征与第i个临床特征的相似度值;
数。
标准疾病名称均对应一个集合A。假若某一疾病患者输入的标准化特征集合I,有m个临床特
征Ii组成,对应的特征集合I=[I1、I2、……、Im]。如果Ii与Aj的干节点不相同,则认为Ii与Aj
的相似度为0,如果Ii与Aj的干节点相同,如图2所示,相同的干节点为Bt,则计算Ii与Aj的相
似度,计算方法为:Ii到Bt之间连接通路中的所有节点组成有向集合IB,有向集合IB的元素
个数记为NIB,有向集合IB的长度定义为该通路上节点的个数,记为LIB,且LIB=NIB;
(LAB,LIB),SI=1/(LAB+LIB‑2LIAB+1),β为权重系数,β∈(0,1);Ii与Aj之间的相似度的取值范
围
准临床特征的最大相似度值进行加权处理,直至将特征集合A中筛选出的全部最佳标准临
床特征加权处理完毕,累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值,
得到特征集合I与当前特征集合A的集合相似度值。
似度值,特征集合I和特征集合A的相似度,定义为特征集合I中的每个临床特征Ii与特征集
合A的相似度之和。
集合I和特征集合A的相似度值,定义为特征集合I中每个临床特征Ii与特征集合A的相似度
之和,其计算公式为 SIA表示特征集合I与特征集合A的相似度值。
重要性程度评分,并按照分值大小降序输出对应的结构变异。
情况赋值0分,wc默认值为1,可根据实际情况进行调整。
默认值为1,可根据实际情况进行调整。
病基因赋值10分,注释结果中结构变异包含的基因不属于基因推荐列表中存在的已知致病
基因赋值0分,we默认值为1,可根据实际情况进行调整。
或者无消息时赋值2分,当人群中的最大频率处于0.05至10 时赋值0分,当人群发生频率大
于0.05时赋值‑5分,wp默认值为1,可根据实际情况进行调整。
况进行调整。
括了结构变异的位置、覆盖的基因名称、外显子、评分结果、染色体水平上突变的位置图,以
及相关的表型信息和变异频率信息等。
疾病名称;
与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐
列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异
发生位置中的一种或多种。
在此不做赘述。
骤。
用程序中待测样本数据的输入,用户终端中的应用程序将基因序列发送至注释单元,将疾
病名称和特征集合I发送至推荐列表生成单元,将特征集合I发送至疾病名称推荐单元,其
中,注释单元、推荐列表生成单元和疾病名称推荐单元均可通过服务器实现,最后由报告输
出单元如显示器,基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出
并生成解读报告。
在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储
卡等。
本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。