患者样本数据中结构变异的报告解读方法及系统转让专利

申请号 : CN202010529411.5

文献号 : CN111883223B

文献日 : 2021-05-25

本发明公开一种患者样本数据中结构变异的报告解读方法及系统，能够对患者的样本数据准确解读，在降低报告解读门槛的同时提升了解读效率。该方法包括：获取患者的待测样本数据；将基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，根据注释结果得到每个结构变异的致病性分级；根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告。

1.一种患者样本数据中结构变异的报告解读方法，其特征在于，包括：获取患者的待测样本数据，所述待测样本数据包括基因序列、疾病名称和特征集合I；

将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；

基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种；

遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方法包括：将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，并按照相似度值大小降序推荐多个标准疾病名称；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特征，所述i的初始值为1；

令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征；

从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt，所述j的初始值为1；

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

2.根据权利要求1所述的方法，其特征在于，参考基线的构建方法包括：获取与待测样本数据同批次的多个表型正常的人群基因序列；

若人群基因序列属于全基因组测序数据，则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线；

若人群基因序列属于全外显子测序数据，则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。

3.根据权利要求1或2所述的方法，其特征在于，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或多种；

根据所述注释结果对结构变异进行致病性分级，所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。

4.根据权利要求1所述的方法，其特征在于，根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；

根据所述特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合；

采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值；

匹配输出与多个显著性值对应的第二疾病基因；

汇总第一疾病基因和第二疾病基因，构建基因推荐列表。

5.根据权利要求1所述的方法，其特征在于，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值之前还包括：从疾病的公共数据库和文献数据库，获得已知的标准疾病名称及其对应的标准临床特征；

基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床特征的特征关系数据库；

分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci；

从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；

所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

6.根据权利要求1所述的方法，其特征在于，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：采用公式分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，wi为第i各影响要素的权重，si为第i各影响要素的赋值；

统计各结构变异的重要性程度评分，并按照分值大小降序输出对应的结构变异。

7.一种患者样本数据中结构变异的报告解读系统，包括：输入单元，用于获取患者的待测样本数据，所述待测样本数据包括基因序列、疾病名称和特征集合I；

注释单元，用于将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

推荐列表生成单元，用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

疾病名称推荐单元，用于遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；

报告输出单元，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的一种或多种；

遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

患者样本数据中结构变异的报告解读方法及系统

技术领域

[0001] 本发明涉及医学信息技术领域，尤其涉及一种患者样本数据中结构变异的报告解读方法及系统。

背景技术

[0002] 新一代测序技术在疾病的致病突变研究和医疗实践中的应用越来越广泛。近年来，大量的研究证实，全基因组测序和全外显子测序是开展疾病基因组学相关研究，对患者
进行致病突变鉴定和分子诊断的理想方法之一。

[0003] 然而，在精准医学应用层面，基于新一代测序技术在数据分析和临床解读方面还存在着很多问题，不利于精准医学的发展，阻碍着基于新一代测序技术中结构变异相关疾
病的病因学探究。这些问题包括：一是结构变异的识别，其分析流程过于复杂，难以为医疗
机构人员和其他广大非生物信息学人员所掌握使用；二是致病突变的鉴定，需利用大量的
人工对筛选的结构变异进行逐个检查确认，效率非常低。

发明内容

[0004] 本发明的目的在于提供一种患者样本数据中结构变异的报告解读方法及系统，能够对患者的样本数据准确解读，在降低报告解读门槛的同时提升了解读效率。

[0005] 为了实现上述目的，本发明的一方面提供一种患者样本数据中结构变异的报告解读方法，包括：

[0006] 获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

[0007] 将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

[0008] 根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

[0009] 遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称；

[0010] 基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称与注释结果中
疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在的
已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中的
一种或多种。

[0011] 优选地，参考基线的构建方法包括：

[0012] 获取与待测样本数据同批次的多个表型正常的人群基因序列；

[0013] 若人群基因序列属于全基因组测序数据，则将多个表型正常的人群基因序列输入CNVKit软件构建参考基线；

[0014] 若人群基因序列属于全外显子测序数据，则将多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。

[0015] 较佳地，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：

[0016] 采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或
多种；

[0017] 根据所述注释结果对结构变异进行致病性分级，所述致病性分级包括致病或可能致病、致病或可能致病但注释结果也包含良性注释、其他情况三种类型。

[0018] 优选地，根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

[0019] 根据所述疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；

[0020] 根据所述特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集合；

[0021] 采用临床特征富集度分析算法计算所述特征集合I分别与公共数据库和文献数据库中各疾病对应集合的显著性值；

[0022] 匹配输出与多个显著性值对应的第二疾病基因；

[0023] 汇总第一疾病基因和第二疾病基因，构建基因推荐列表。

[0024] 优选地，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值之前还包括：

[0025] 从疾病的公共数据库和文献数据库，获得已知的标准疾病名称及其对应的标准临床特征；

[0026] 基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床特征的特征关系数据库；

[0027] 分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci；

[0028] 从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；

[0029] 所述标准化临床特征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示一个标准化临床特征，每个干节点用于表示关联的标准化临
床特征的索引。

[0030] 较佳地，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方法
包括：

[0031] 将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；

[0032] 遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床特征表型树上的节点标记，所述n的初始值为1；

[0033] 基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；

[0034] 根据每个临床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合相似度值；

[0035] 令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，
并按照相似度值大小降序推荐多个标准疾病名称。

[0036] 进一步地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

[0037] 所述特征集合I包括多个临床特征，所述特征集合A包括多个标准临床特征；

[0038] 遍历所述特征集合I中的第i个临床特征，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征，作为与所述第i个临床特征对应的最佳标准临床特
征，所述i的初始值为1；

[0039] 令i＝i+1后重新遍历所述特征集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称对应的特征集合A中筛选出与特征集合I中临床特
征一一对应的多个最佳标准临床特征。

[0040] 进一步地，从所述特征集合A中筛选出与所述第i个临床特征相似度最高的标准临床特征的方法包括：

[0041] 遍历所述特征集合A中的第j个标准临床特征，基于已建立的索引判断所述第j个标准临床特征与所述第i个临床特征是否存在相同的干节点Bt，所述j的初始值为1；

[0042] 若判断结果为否，则认为所述第j个标准临床特征与所述第i个临床特征的相似度值为零；

[0043] 若判断结果为是，基于多层级结构相似度算法计算所述第j个标准临床特征与所述第i个临床特征的相似度值；

[0044] 令j＝j+1后重新遍历所述特征集合A中的第j个标准临床特征，并继续执行所述第j个标准临床特征与所述第i个临床特征的相似度计算，直至所述特征集合A中的标准临床
特征遍历完毕，对应得到与所述特征集合A中标准临床特征一一对应的多个相似度值；

[0045] 从多个相似度值筛中筛选出最大值对应的标准临床特征作为与第i个临床特征对应的最佳标准临床特征。

[0046] 优选地，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：

[0047] 采用公式分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，wi为第i各影响要素的权重，si为第i各影响要素的赋值；

[0048] 统计各结构变异的重要性程度评分，并按照分值大小降序输出对应的结构变异。

[0049] 与现有技术相比，本发明提供的患者样本数据中结构变异的报告解读方法具有以下有益效果：

[0050] 本发明提供的患者样本数据中结构变异的报告解读方法中，首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据，通过将基因序列与参考基线比对，检
测出待测样本数据中的结构变异并进行注释，然后根据注释结果对每个结构变异进行致病
性分级并评分，接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相关
的疾病基因构建基因推荐列表，另外，遍历特征关系数据库中各标准疾病名称对应的特征
集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个
标准疾病名称，最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输出
生成解读报告。

[0051] 可见，由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在
的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中
的一种或多种，也即本发明从多个维度评价了结构变异的致病性，进而能够对患者的待测
样本进行准确解读。而且本发明提供的患者样本数据中结构变异的报告解读方法能够实现
从待测样本数据到致病结构变异推荐的全程自动化，极大降低了人工对结构变异数据的解
读分析工作量，提高了结构变异的分析和临床解读的效率。

[0052] 本发明的另一方面提供一种患者样本数据中结构变异的报告解读系统，包括：

[0053] 输入单元，用于获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

[0054] 注释单元，用于将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

[0055] 推荐列表生成单元，用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

[0056] 疾病名称推荐单元，用于遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准
疾病名称；

[0057] 报告输出单元，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称
与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐
列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异
发生位置中的一种或多种。

[0058] 与现有技术相比，本发明提供的患者样本数据中结构变异的报告解读系统的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法有益效果相同，在此
不做赘述。

[0059] 本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述患者样本数据中结构变异的报告解读方
法的步骤。

[0060] 与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同，在此不做赘述。

附图说明

[0061] 此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0062] 图1为实施例一中患者样本数据中结构变异的报告解读方法的流程示意图；

[0063] 图2为实施例一中标准化临床特征表型树上的节点标记示例图；

[0064] 图3为实施例二中患者样本数据中结构变异的报告解读系统的结构框图；

[0065] 图4为实施例四中患者样本数据中结构变异的报告解读方法应用环境架构示例图。

具体实施方式

[0066] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例
仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技
术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范
围。

[0067] 实施例一

[0068] 请参阅图1，本实施例提供一种患者样本数据中结构变异的报告解读方法，其特征在于，包括：

[0069] 获取患者的待测样本数据，待检测样本数据包括基因序列、疾病名称和特征集合I；将基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注
释，同时根据注释结果对每个结构变异进行致病性分级；根据疾病名称和/或特征集合I中
的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；遍历特
征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I
的集合相似度值，按照相似度值大小推荐多个标准疾病名称；基于各结构变异对应的影响
要素的重要性程度将多个结构变异降序输出并生成解读报告，影响要素包括与结构变异对
应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包
含的基因是否属于基因推荐列表中存在的已知致病基因、特征集合I与特征集合A的最大相
似度值、人群发生频率、变异发生位置中的一种或多种。

[0070] 本实施例提供的患者样本数据中结构变异的报告解读方法中，首先需要获取一份包括基因序列、疾病名称和特征集合I的待测样本数据，通过将基因序列与参考基线比对，
检测出待测样本数据中的结构变异并进行注释，然后根据注释结果对每个结构变异进行致
病性分级并评分，接着基于疾病名称和/或特征集合I从公共数据库和文献数据库中抓取相
关的疾病基因构建基因推荐列表，另外，遍历特征关系数据库中各标准疾病名称对应的特
征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多
个标准疾病名称，最终基于各结构变异对应的影响要素重要性程度将多个结构变异降序输
出生成解读报告。

[0071] 可见，由于影响要素包括了与结构变异对应的致病性分级、疾病名称与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐列表中存在
的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异发生位置中
的一种或多种，也即本实施例从多个维度评价了结构变异的致病性，进而能够对患者的待
测样本进行准确解读。而且本实施例提供的患者样本数据中结构变异的报告解读能够实现
从待测样本数据到致病结构变异推荐的全程自动化，极大降低了人工对结构变异数据的解
读分析工作量，提高了结构变异的分析和临床解读的效率。

[0072] 在将基因序列与参考基线比对之前，还需对待测样本数据的基因序列和表型正常人群基因序列的质量进行检查，确保使用的基因序列的质量是合格的，能够用于下游分析
和解读。质量检查的指标包括：总序列数、序列长度、碱基质量、序列质量、碱基含量、GC含
量、碱基水平N含量、序列长度分布、重复序列、过渡表达序列、接头序列、K‑mer含量等。

[0073] 具体实施时，针对待测样本数据的基因序列和表型正常人群基因序列进行质量检测，对质量检测不合格的基因序列进行标记；将质量检测合格的待测样本数据的基因序列
和表型正常人群基因序列输入BWA软件，使其与人类参考基因hg19或人类参考基因hg38进
行序列比对；对比对结果进行预处理，如去重、indel区域校正、碱基质量校正等操作后得到
比对数据；比对数据的内容包括序列在染色体上的比对位置、比对质量、配对序列在染色体
上的比对位置、插入片段长度、序列的碱基组成或序列质量。

[0074] 具体实施时，采用Picard MarkDuplicates软件对比对结果进行去重；对indel区域校正的方法为利用GATK RealignerTargetCreator软件产生indel列表，并追加千人基因
组数据库中发现的已知indel位点，利用GATK IndelRealigner对这些indel区域进行局部
重新比对，以实现indel区域的校正；碱基质量校正的方法为使用GATK BaseRecalibrator
软件结合已知位点信息对碱基的质量分数进行校正。

[0075] 这些操作步骤完成后，可针对比对数据进行汇总性分析，汇总性分析的内容包括比对数据的质量，以及双端测序的原始读序数目、比对到人类参考基因组上的读序数目、平
均读序长度、indel的比例、正负链是否平衡等信息。另外，此阶段还可对靶向区域的序列覆
盖情况进行观察，以获取基因组长度、靶向区域的长度、总读序数目、靶向区域的读序数目、
非靶向区域的读序数目、靶向区域读序所占的比例、靶向区域的平均测序深度等信息。

[0076] 最终将待测样本数据的基因序列和每个表型正常人群基因序列的质量检查结果分别以bam格式的数据输出，用于后续分析使用。

[0077] 上述实施例中，参考基线的构建方法包括：获取与待测样本数据同批次的多个表型正常的人群基因序列；若人群基因序列属于全基因组测序数据，则将多个表型正常的人
群基因序列输入CNVKit软件构建参考基线；若人群基因序列属于全外显子测序数据，则将
多个表型正常的人群基因序列输入ExomeDepth软件构建参考基线。

[0078] 待测样本数据中的结构变异识别过程如下，分别计算待测样本的目的区域内和目的区域外的测序深度，然后计算它们相对于参考基线的相对比值，接着将相对比值转换成
绝对拷贝数，对于绝对拷贝数不是2的识别为结构变异。同理，若待测样本数据为全基因组
测序数据可通过CNVKit软件识别出结构变异，对于待测样本数据为全外显子测序数据可通
过ExomeDepth软件识别出结构变异。

[0079] 具体实施时，将输入的基因序列与待检测样本同批次的多个表型正常的人群基因序列对照，建立一个参考基线。具体地，分别计算每个表型正常人群基因序列的目的区域内
和目的区域外的测序深度，合并所有对照样本，矫正GC含量等系统误差，构建表型正常人群
基因序列的基参考基线，对于全基因组测序数据采用CNVKit软件实现，对于全外显子测序
数据采用ExomeDepth软件实现。采用同批次的多个表型正常人群基因序列建立参考基线能
够减小因系统误差造成的比对结果偏差。

[0080] 上述实施例中，对结构变异进行注释，同时根据注释结果得到结构变异致病性分级的方法包括：

[0081] 采用AnnotSV软件分别对每个结构变异进行注释，注释结果包括人群发生频率、结构变异包含的基因及对应的疾病名称、变异类型、人群发生频率、变异致病情况中的一种或
多种；根据注释结果对结构变异进行致病性分级，致病性分级包括致病或可能致病、致病或
可能致病但注释结果也包含良性注释、其他情况三种类型。

[0082] 上述实施例中对于识别的结构变异，可根据公共数据库对变异起始/终止位置、所覆盖的基因、变异类型、在世界范围内的人群发生频率、以及DGV数据库、千人数据库、dbVar
数据库和OMIM数据库中已知变异的致病情况等采用AnnotSV软件进行注释，该软件使用了
美国医学遗传学和基因组学学院(ACMG)定义的分类标准进行致病性分级，具体致病性分级
的操作步骤为本领域技术人员所熟知的，本实施例对此不做赘述。

[0083] 上述实施例中，根据疾病名称和/或特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表的方法包括：

[0084] 根据疾病名称从公共数据库和文献数据库中抓取相关的第一疾病基因；根据特征集合I中的临床特征，遍历公共数据库和文献数据库中每种疾病对应的临床特征的多个集
合；采用临床特征富集度分析算法计算特征集合I分别与公共数据库和文献数据库中各疾
病对应集合的显著性值；匹配输出与多个显著性值对应的第二疾病基因；汇总第一疾病基
因和第二疾病基因，构建基因推荐列表。

[0085] 具体实施时，基因推荐列表中的基因数据来源有两种，一种为根据公共数据库和文献数据库中的疾病‑基因关联数据库，抓取与待测样本数据中疾病名称相关的第一疾病
基因；另一种为根据特征集合I中的临床特征，遍历公共数据库和文献数据库中的疾病‑基
因关联数据库，获取全部的疾病名称，每种疾病对应的临床特征组成一个标准集合；统计标
准集合的数量X，并顺序对各标准集合标记。然后采用临床特征富集度分析算法计算特征集
合I分别与各标准集合的显著性值；具体算法如下：

[0086] 步骤S1，从X个标准集合中选择第Y个标准集合作为待处理集合B，设置Y的初始值为1；

[0087] 步骤S2，采用Jaccard相似性算法计算待处理集合B与特征集合I的相似性系数；

[0088] 步骤S3，基于所述相似性系数采用Jaccard距离算法计算特征集合I与待处理集合B的距离向量；

[0089] 步骤S4，利用算法计算特征集合I与集合B的临床特征富集因子系数f，其中，a表示特征集合I包含在集合B中的临床特征数目，b表示疾病‑基因关联数据库中
的临床特征包含在集合B中的临床特征数目，c表示特征集合I不包含在集合B中的临床特征
数目，d表示疾病‑基因关联数据库中的临床特征不包含在集合B中的临床特征数目；

[0090] 步骤S5，基于所述距离向量的值和所述临床特征富集因子系数f，对待处理集合B做过滤处理，使得未被清除的待处理集合B执行步骤S6；

[0091] 步骤S6，利用算法计算特征集合I与集合B的显著性值，其中n＝a+b+c+d；

[0092] 步骤S67，当Y＜X时，令Y＝Y+1，并返回步骤S1，直至X个标准集合全部被选择处理为止；

[0093] 具体实施时，为了简化运算可采用表格法来辅助显著性值的计算，其中，a表示特征集合I包含在集合B中的临床特征数目，b表示疾病‑基因关联数据库中的临床特征包含在
集合B中的临床特征数目，c表示特征集合I不包含在集合B中的临床特征数目，d表示疾病‑
基因关联数据库中的临床特征不包含在集合B中的临床特征数目；其中，Jaccard相似性系
数是用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元
素个数，对应的计算公式为

[0094] Jaccard距离算法为其中，|A|表示特征集合I中的临床特征数目，|B|表示集合B中的临床特征数目，|A∩B|表示特征集合
I和集合B交集中的临床特征数目，|A∪B|表示特征集合I和集合B并集中的临床特征数目。J
(A,B)取值范围为[0,1]，距离向量的值越小，则表示两个集合越相似，若特征集合I和集合B
的集合均为空，则J(A,B)＝1。最终获取到特征集合I与各标准集合的显著性值P，而显著性
值P越小则说明两个集合的相似性越大。

[0095] 示例性地，步骤S5包括：当距离向量的值小于第一阈值，且临床特征富集因子系数f的值大于第二阈值时，将该集合B保留，否则将该待处理集合B剔除。其中，第一阈值和第二
阈值可由用户自由设定，默认的第一阈值为1，第二阈值为0。

[0096] 最后，将多个显著性值由低到高排序，并将匹配的第二疾病基因顺序输出，显著性值越小则说明对应的第二疾病基因越符合特征集合I中表现的临床特征。

[0097] 示例性地，公共数据库为MedGen数据库，文献数据库为PubMed数据库上述实施例中，在步骤遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集
合A与特征集合I的集合相似度值之前还包括：

[0098] 从疾病的公共数据库和文献数据库中，获得已知的标准疾病名称及其对应的标准临床特征；基于已知的标准疾病及其对应的标准临床特征，建立标准疾病名称与标准临床
特征的特征关系数据库；分别计算每种疾病对应的各标准临床特征对该疾病的贡献度ci；
从特征关系数据库中获取数据，基于HPO构建疾病的标准化临床特征表型树；标准化临床特
征表型树由多个干节点和与每个干节点关联的至少一个支节点组成，每个支节点用于表示
一个标准化临床特征，每个干节点用于表示关联的标准化临床特征的索引。

[0099] 具体实施时，每种疾病名称对应的各标准临床特征对该疾病的贡献度ci的计算方法如下：

[0100] 在特征关系数据库中，假设共有a种标准临床特征，a种标准临床特征在特征关系数据库中一共出现N次，假定每种标准临床特征出现的次数为ai，则每个标准临床特征在特
征关系数据库中出现的频率为fi，fi的计算公式为：

[0101] fi＝ai/N；

[0102] 对于特征关系数据库中的某种标准疾病名称，假定对应有m个标准临床特征，每个标准临床特征在特征关系数据库中的分布频率依次为f1、f2、……、fm，则某个标准临床特征
对该疾病的贡献度ci的计算公式为：

[0103]

[0104] 上述公式中，k为校正因子，且k＞1，特征关系数据库作为参考数据库使用。

[0105] 进一步地，遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准疾病名称的方
法包括：

[0106] 将特征集合I中的临床特征在标准化临床特征表型树上的节点标记；遍历特征关系数据库中的第n个标准疾病名称，将其对应的特征集合A中的标准临床特征在标准化临床
特征表型树上的节点标记，所述n的初始值为1；基于标准化临床特征表型树上的节点标记，
从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征；根据每个临
床特征与对应的最佳标准临床特征的相似度值，计算出特征集合I与当前特征集合A的集合
相似度值；令n＝n+1重新遍历特征关系数据库中的第n个标准疾病名称，直至特征关系数据
库中的标准疾病名称遍历完毕，将特征集合I与每个特征集合A对应的集合相似度值汇总，
并按照相似度值大小降序推荐多个标准疾病名称。

[0107] 具体地，基于标准化临床特征表型树上的节点标记，从特征集合A中匹配出与特征集合I中每个临床特征对应的最佳标准临床特征的方法包括：

[0108] 特征集合I包括多个临床特征，特征集合A包括多个标准临床特征；遍历特征集合I中的第i个临床特征，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征，
作为与第i个临床特征对应的最佳标准临床特征，i的初始值为1；令i＝i+1后重新遍历特征
集合I中的第i个临床特征，直至特征集合I中的临床特征遍历完毕，从第n个标准疾病名称
对应的特征集合A中筛选出与特征集合I中临床特征一一对应的多个最佳标准临床特征。

[0109] 其中，从特征集合A中筛选出与第i个临床特征相似度最高的标准临床特征的方法包括：

[0110] 遍历特征集合A中的第j个标准临床特征，基于已建立的索引判断第j个标准临床特征与第i个临床特征是否存在相同的干节点Bt，j的初始值为1；若判断结果为否，则认为
第j个标准临床特征与第i个临床特征的相似度值为零；若判断结果为是，基于多层级结构
相似度算法计算第j个标准临床特征与第i个临床特征的相似度值；令j＝j+1后重新遍历特
征集合A中的第j个标准临床特征，并继续执行第j个标准临床特征与第i个临床特征的相似
度计算，直至特征集合A中的标准临床特征遍历完毕，对应得到与特征集合A中标准临床特
征一一对应的多个相似度值；从多个相似度值筛中筛选出最大值对应的标准临床特征作为
与第i个临床特征对应的最佳标准临床特征。

[0111] 上述实施例中基于多层级结构相似度算法计算第j个标准临床特征与第i个临床特征的相似度值的方法包括：

[0112] 基于标准化临床特征表型树上的节点标记，获取第i个临床特征与相同干节点Bt连接通路中所有节点的有向集合IB，以及获取第j个标准临床特征相同干节点Bt连接通路
中所有节点的有向集合AB，有向集合IB长度的值为通路中节点的个数LIB，有向集合AB长度
的值为通路中节点的个数LAB；提取有向集合IB和有向集合AB中节点的交集IAB，交集IAB长
度的值为通路中共有节点的个数LIAB；采用公式计算第j个标准
临床特征与第i个临床特征的相似度值；

[0113] 其中，SM表示第j个标准临床特征与第i个临床特征在表型树多层次间的相似度值；SI表示第j个标准临床特征与第i个临床特征在表型树同层次间的相似度值，β为权重系
数。

[0114] 具体实施时，对于特征关系数据库中某一标疾病名称对应的特征集合A有n个元素Aj组成，分别为A1、A2、……、An，也即A＝[A1，A2，...,Aj...,An]，特征关系数据库中的每一个
标准疾病名称均对应一个集合A。假若某一疾病患者输入的标准化特征集合I，有m个临床特
征Ii组成，对应的特征集合I＝[I1、I2、……、Im]。如果Ii与Aj的干节点不相同，则认为Ii与Aj
的相似度为0，如果Ii与Aj的干节点相同，如图2所示，相同的干节点为Bt，则计算Ii与Aj的相
似度，计算方法为：Ii到Bt之间连接通路中的所有节点组成有向集合IB，有向集合IB的元素
个数记为NIB，有向集合IB的长度定义为该通路上节点的个数，记为LIB，且LIB＝NIB；

[0115] Aj到Bt之间连接通路中的所有节点组成有向集合AB，有向集合AB的元素个数记为NAB，有向集合AB的长度定义为该通路上节点的个数，记为LAB，且LAB＝NAB；

[0116] 有向集合IB和有向集合AB的交集集合记为IAB，交集集合IAB的元素个数记为NIAB，集合IAB的长度定义为共有路径上节点的个数，记为LIAB，则LIAB＝NIAB，其中，SM＝LIAB/max
(LAB,LIB)，SI＝1/(LAB+LIB‑2LIAB+1)，β为权重系数，β∈(0,1)；Ii与Aj之间的相似度的取值范
围

[0117] 进一步地，计算特征集合I与当前特征集合A的集合相似度值的方法包括：

[0118] 利用第i个临床特征的贡献度ci，对特征集合A中与之对应最佳标准临床特征的最大相似度值进行加权处理；令i＝i+1，重新对特征集合A中与第i个临床特征对应的最佳标
准临床特征的最大相似度值进行加权处理，直至将特征集合A中筛选出的全部最佳标准临
床特征加权处理完毕，累加特征集合A中全部最佳标准临床特征对应的加权最大相似度值，
得到特征集合I与当前特征集合A的集合相似度值。

[0119] 具体实施时，对于每个输入的临床特征Ii，都可以在特征集合A中找到一个与之对应相似度最大的标准临床特征Aj，也就是说每个临床特征Ii都会得到一个与特征集合A的相
似度值，特征集合I和特征集合A的相似度，定义为特征集合I中的每个临床特征Ii与特征集
合A的相似度之和。

[0120] 考虑到每个临床特征对疾病的贡献程度不一，需对相应的最大相似度值进行加权处理，其计算公式为其中表示临床特征Ii与特征集合A的相似度值。特征
集合I和特征集合A的相似度值，定义为特征集合I中每个临床特征Ii与特征集合A的相似度
之和，其计算公式为 SIA表示特征集合I与特征集合A的相似度值。

[0121] 可见，上述实施例采用多层级结构相似度算法具有标准疾病名称推荐准确度高的特点。

[0122] 上述实施例中，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出的方法包括：

[0123] 采用公式分别计算每个结构变异的重要性程度评分，其中，f为影响要素的数量，wi为第i各影响要素的权重，si为第i各影响要素的赋值；统计各结构变异的
重要性程度评分，并按照分值大小降序输出对应的结构变异。

[0124] 致病性分级sc的评分项设置如下：对于致病或可能致病的等级赋值5分，对于致病或可能致病但注释结果也包含良性注释的等级赋值3分，对于除上述两种情况之外的其他
情况赋值0分，wc默认值为1，可根据实际情况进行调整。

[0125] 疾病名称与注释结果中疾病名称一致性情况sd的评分项设置如下：疾病名称与注释结果中的疾病名称一致赋值5分，疾病名称与注释结果中的疾病名称不一致赋值0分，wd
默认值为1，可根据实际情况进行调整。

[0126] 注释结果中结构变异包含的基因是否属于基因推荐列表中存在的已知致病基因se的评分项设置如下：注释结果中结构变异包含的基因属于基因推荐列表中存在的已知致
病基因赋值10分，注释结果中结构变异包含的基因不属于基因推荐列表中存在的已知致病
基因赋值0分，we默认值为1，可根据实际情况进行调整。

[0127] 特征集合I与特征集合A的最大相似度值为sh，wh默认值为5，可根据实际情况进行调整。

[0128] 人群发生频率sp的评分项设置如下：当人群中的最大频率MAX_AF小于或等于10‑3‑3
或者无消息时赋值2分，当人群中的最大频率处于0.05至10 时赋值0分，当人群发生频率大
于0.05时赋值‑5分，wp默认值为1，可根据实际情况进行调整。

[0129] 变异发生位置sq的评分项设置如下：如果结构变异区域包含蛋白质编码区域或其他重要功能原件(如剪切位点调控区)赋值0分，否则赋值‑2分，wq默认值为1，可根据实际情
况进行调整。

[0130] 评分结果的值越大则说明重要性程度越高，最后根据评分结果的大小将多个结构变异及其对应的基因名称在解读报告中降序输出，实现致病变异的推荐，推荐的信息还包
括了结构变异的位置、覆盖的基因名称、外显子、评分结果、染色体水平上突变的位置图，以
及相关的表型信息和变异频率信息等。

[0131] 实施例二

[0132] 请参阅图3，本实施例提供一种患者样本数据中结构变异的报告解读系统，包括：

[0133] 输入单元，用于获取患者的待测样本数据，所述待检测样本数据包括基因序列、疾病名称和特征集合I；

[0134] 注释单元，用于将所述基因序列与参考基线比对，检测出待测样本数据中的多个结构变异并对其一一进行注释，同时根据注释结果对每个结构变异进行致病性分级；

[0135] 推荐列表生成单元，用于根据所述疾病名称和/或所述特征集合I中的临床特征从公共数据库和文献数据库中抓取相关的疾病基因构建基因推荐列表；

[0136] 疾病名称推荐单元，用于遍历特征关系数据库中各标准疾病名称对应的特征集合A，分别计算每个特征集合A与特征集合I的集合相似度值，按照相似度值大小推荐多个标准
疾病名称；

[0137] 报告输出单元，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出并生成解读报告，所述影响要素包括与结构变异对应的致病性分级、所述疾病名称
与注释结果中疾病名称的一致性情况、注释结果中结构变异包含的基因是否属于基因推荐
列表中存在的已知致病基因、特征集合I与特征集合A的最大相似度值、人群发生频率、变异
发生位置中的一种或多种。

[0138] 与现有技术相比，本实施例提供的患者样本数据中结构变异的报告解读系统的有益效果与上述实施例一提供的患者样本数据中结构变异的报告解读方法的有益效果相同，
在此不做赘述。

[0139] 实施例三

[0140] 本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述患者样本数据中结构变异的报告解读方法的步
骤。

[0141] 与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的患者样本数据中结构变异的报告解读方法的有益效果相同，在此不做赘述。

[0142] 实施例四

[0143] 基于上述实施例，请参阅图4所示，提供一种应用场景的环境架构示意图。

[0144] 可以开发一个应用软件，用于实现上述实施例中的患者样本数据中结构变异的报告解读方法，并且，该应用软件可以安装在用户终端，用户终端与服务器连接，实现通信。

[0145] 其中，用户终端可以为计算机、平板电脑等任何智能设备，本实施例仅以电脑为例进行说明。

[0146] 例如，打开智能设备相关的应用程序，用户使用输入单元如键盘、鼠标等输入获取患者的待测样本数据，其中，待测样本数据包括基因序列、疾病名称和特征集合I，实现在应
用程序中待测样本数据的输入，用户终端中的应用程序将基因序列发送至注释单元，将疾
病名称和特征集合I发送至推荐列表生成单元，将特征集合I发送至疾病名称推荐单元，其
中，注释单元、推荐列表生成单元和疾病名称推荐单元均可通过服务器实现，最后由报告输
出单元如显示器，基于各结构变异对应的影响要素的重要性程度将多个结构变异降序输出
并生成解读报告。

[0147] 本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序
在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储
卡等。

[0148] 以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在
本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

患者样本数据中结构变异的报告解读方法及系统转让专利

申请号 : CN202010529411.5

文献号 : CN111883223B

文献日 : 2021-05-25

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 马旭 , 蔡瑞琨 , 曹宗富 , 喻浴飞 , 陈翠霞

申请人 : 国家卫生健康委科学技术研究所

摘要 :

权利要求 :

说明书 :