一种基于表型的基因优先级排序方法和电子设备转让专利
申请号 : CN202110694967.4
文献号 : CN113270144B
文献日 : 2022-02-11
发明人 : 吴南 , 郑羽 , 陈泽夫 , 杨永鑫 , 赵森 , 吴志宏 , 范燃 , 郑思思 , 陈泽根
申请人 : 北京易奇科技有限公司
摘要 :
权利要求 :
1.一种基于表型的基因优先级排序方法,其特征在于,包括:接收输入表型组,所述输入表型组包括至少一个表型;
获取所述输入表型组的向量表示,所述表型组的向量表示是通过图嵌入算法映射得到的;
获取每个待排序基因的向量表示,所述每个待排序基因的向量表示是通过图嵌入算法映射得到的;
分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示,获取每个待排序基因与所述输入表型组之间的相关性分值;和将所有待排序基因按照所述相关性分值进行排序,排序结果作为待排序基因相对于所述输入表型组的优先级排序。
2.根据权利要求1所述的基于表型的基因优先级排序方法,其特征在于,所述获取所述输入表型组的向量表示,包括:获取所述输入表型组中的每个表型的向量表示;和获取所述输入表型组中的每个表型的向量表示的平均值,所述平均值作为所述输入表型组的向量表示。
3.根据权利要求1所述的基于表型的基因优先级排序方法,其特征在于,所述获取所述输入表型组的向量表示,包括:获取所述输入表型组中每个表型的向量表示;
获取所述输入表型组中部分表型或全部表型的权重;
利用所述权重对所对应的表型的向量表示进行加权;和获取加权后的所述输入表型组中的所有表型的向量表示的平均值,所述平均值作为所述输入表型组的向量表示。
4.根据权利要求3所述的基于表型的基因优先级排序方法,其特征在于,所述获取所述输入表型组中部分表型或全部表型的权重,是通过接收用户输入的所述部分表型或全部表型的自定义权重得到的。
5.根据权利要求3所述的基于表型的基因优先级排序方法,其特征在于,所述权重为固有权重,所述固有权重的生成方法包括:利用TF‑IDF算法,获取表型‑疾病关联集合中的所有表型的固有权重。
6.根据权利要求5所述的基于表型的基因优先级排序方法,其特征在于,所述利用TF‑IDF算法,获取表型‑疾病关联集合中的所有表型的固有权重,包括:针对所述表型‑疾病关联集合中的每个表型‑疾病对,分别将表型‑表型关联集合和表型‑疾病关联集合中与本表型‑疾病对中的疾病相关的表型数量取倒数,所述倒数作为本表型‑疾病对的词频;
将所述表型‑疾病关联集合和疾病‑基因关联集合中的所有疾病的数量除以所述表型‑疾病关联集合中本表型‑疾病对中的表型相关的疾病的数量得到商,对所述商取以10为底的对数,所述对数作为本表型‑疾病对的逆向文件频率;
分别将每个表型‑疾病对的词频和逆向文件频率相乘,分别得到所述每个表型‑疾病对的TF‑IDF分数;和
针对表型‑表型关联集合和表型‑疾病关联集合中的每个表型,分别获取所述每个表型所对应的所有表型‑疾病对的TF‑IDF分数平均值,所述 TF‑IDF分数平均值为对应的表型的固有权重。
7.根据权利要求1所述的基于表型的基因优先级排序方法,其特征在于,所述图嵌入算法包括:
利用表型‑表型关联集合、表型‑疾病关联集合和疾病‑基因关联集合,构建表型‑疾病‑基因的有向图;和
将所述有向图中的每个节点转换为一个相应的向量表示;
其中,在所述有向图中,每个节点分别代表一个表型、一个疾病或一个基因;在相关的表型和表型对应的节点之间,在相关的表型和疾病对应的节点之间,以及在相关的疾病和基因对应的节点之间,均通过有向边连接。
8.根据权利要求7所述的基于表型的基因优先级排序方法,其特征在于,在所述有向图中,相关的表型和表型对应的节点之间由两个方向相反的有向边进行连接;相关的表型和疾病对应的节点之间由一个从表型所对应的节点指向疾病所对应的节点的有向边进行连接,相关的疾病和基因对应的节点之间由一个从疾病所对应的节点指向基因所对应的节点的有向边进行连接。
9.一种电子设备,其特征在于,包括:数据接收模块,用于接收输入表型组,所述输入表型组包括至少一个表型;
表型组向量表示模块,用于获取所述输入表型组的向量表示,所述表型组的向量表示是通过图嵌入算法映射得到的;
基因向量表示模块,用于获取每个待排序基因的向量表示,所述每个待排序基因的向量表示是通过图嵌入算法映射得到的;
相关性分值获取模块,用于分别根据所述每个待排序基因的向量表示与所述输入表型组的向量表示,获取每个待排序基因与所述输入表型组之间的相关性分值;和优选级排序模块,用于将所有待排序基因按照所述相关性分值进行排序,排序结果作为待排序基因相对于所述输入表型组的优先级排序。
10.一种电子设备,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行权利要求1至8任一项所述的基于表型的基因优先级排序方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于表型的基因优先级排序方法。
说明书 :
一种基于表型的基因优先级排序方法和电子设备
技术领域
背景技术
括全基因组测序(whole genome sequencing, WGS)、全外显子组测序(whole exome
sequencing, WES)和靶向目的基因测序等。鉴于有85%的引起孟德尔遗传病的变异位于外
显子区域,全外显子组测序已经是孟德尔遗传病的主流检测手段之一。通过全外显子组测
序对孟德尔遗传病进行快速和准确的诊断,可以预防疾病进展,改变患者管理并减轻财务
负担。但是,典型的WES经过严格过滤后会调用数百个变体,这需要专家花费平均数小时的
时间来进行分析,这极大地阻碍了对致病基因的快速鉴定。随着处理能力、存储和算法的进
步,计算机技术越来越多的被应用于WES数据的解释,具体来说,计算机技术越来越多的被
用于整合WES数据中的表型和基因的关系。
药物的国际参考知识库)等数据库,采用语义相似性算法,结合或不结合对变异致病性的计
算机模拟预测,开发了多种基因/疾病优先级排序工具,通过量化患者表型与数据库相关表
型之间的相似性,进行致病基因排序。另外,随着遗传学知识的快速积累,一些使用机器学
习算法的工具被开发出来,用以整合表型‑基因关系、检索相关文章和将候选基因进行等级
排序等。
的准确性较低。
发明内容
本表型‑疾病对的词频;
10为底的对数,所述对数作为本表型‑疾病对的逆向文件频率;
型的固有权重。
疾病和基因对应的节点之间,均通过有向边连接。
节点指向疾病所对应的节点的有向边进行连接,相关的疾病和基因对应的节点之间由一个
从疾病所对应的节点指向基因所对应的节点的有向边进行连接。
表型的基因优先级排序方法。
之间的相关性分值,根据相关性分值对待排序基因进行排序。基于上述方法采用预先收集
的病例报告测试集和真实患者测试集中进行测试,该方法将致病基因排到Top10的概率高
于Phenolyzer、Phenomizer、Phrank和HANRD等排序工具,并且该方法检测到致病基因等级
的中位数低于Phenolyzer、Phenomizer、Phrank和HANRD等排序工具;综上可以看出本发明
中的基于表型的基因优先级排序方法将致病基因排到较前等级的概率高于现有的排序工
具,因此判定其具有更好的排序效果。
附图说明
本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附
图。
具体实施方式
序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号
本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可
以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不
同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施
例,都属于本发明保护的范围。
白血症,马尔芬氏综合征,威尔逊氏综合征,亨丁顿氏舞蹈病,结肠息肉,阵发性心动过速,
体质性低血压,椭圆形红细胞增多症,肌强直性营养不良,先天性肌强直,周期性麻痹,胱氨
酸尿症,遗传性球形细胞增多症。常染色体隐性遗传病包括但不限于苯丙酮尿症,黑尿症,
白化病,先天性葡萄糖,半乳糖吸收不良症,镰刀形红细胞贫血病,体位性(直)蛋白尿,肝糖
原贮积症,半乳糖血症,丙酮酸激酶缺乏症,黑蒙性痴呆,高雪氏病。X伴性显性遗传病包括
但不限于高雪氏病,深褐色齿,牙珐琅质发育不良,钟摆型眼球震颤,口、面、指综合症,脂肪
瘤,脊髓空洞症,棘状毛囊角质化,抗维生素D佝偻病,遗传性老年痴呆,遗传性脑智力超常
型孤独症。X伴性隐性遗传病包括但不限于红绿色盲症、血友病、进行性肌营养不良、家族性
遗传性视神经萎缩、眼白化病、无眼畸形、先天性夜盲症、血管瘤病、致死性肉芽肿、睾丸女
性化综合症、先天性丙种球蛋白缺乏症、水脑、眼—脑—肾综合症。Y伴性遗传病包括但不限
于外耳道多毛症、鸭蹼病、箭猪病。
源性膀胱功能障碍、身材矮小、发育迟缓、不同部位的黑素缺失、智力障碍、小头畸形、眼球
震颤、听觉障碍、共济失调、脊柱侧凸、斜视、小颌畸形、构音障碍、代谢异常、癫痫、发育停
滞、无精症、隐睾、男性假两性畸形、软腭裂、大头畸形、前囟增宽、枕骨突出、颅缝闭合延迟、
视网膜色素变性、视网膜电流图异常、晶状体异常、眼球突出、进行性眼外肌麻痹、蓝巩膜、
眼肌瘫痪、眼距过窄、非言语行为应用障碍、尿道梗阻、垂体性侏儒症、肾素‑血管紧张素系
统亢进、甲状腺肿、下丘脑‑垂体轴异常、继发性闭经、全垂体功能减退、皮肤着色异常、皮下
脂肪组织异常、多发性雀斑样痣、少毛症、发疹性黄瘤、发作性多汗症。
良好的临床应用价值和前景。
器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例
中,该方法包括以下步骤:
型,优选的,该步骤中的输入表型组可以是患者的适应症所对应的一组表型。适应症是临床
医生进行致病基因检测的主要依据,它通常代表一组特定的表型,这些表型可以是原发性
的,显著的或严重的,符合孟德尔的分离定律并且需要用致病基因来解释。
多对一的搜索问题简化为一对一问题,进而提高数据处理速度。
是针对一个个体的突变基因的排序,那么此时待排序基因是该个体基因测序结果中突变基
因。
(可以是病人或者其他有基因测序需要的人群)进行基因测试结果分析后得到的文件。
型组之间的相关性分值的具体方法是通过将某个待排序基因的向量表示与输入表型组的
向量表示进行点积运算,点积运算的结果即为该待排序基因与输入表型组之间的相关性分
值。
的可能性更大。具体来说,对于基因排序可以按照Top10、Top20、Top50、Top100这样的等级
来表示,例如,如果说某个基因相对一个输入表型组排到了Top10,指的是在该基因与该输
入表型组之间的相关性分值,在所有待排序基因中位于前10位。
根据后续验证实施例1中的评估结果可知,本发明中的基于表型的基因优先级排序方法将
致病基因排到较前等级的概率高于现有的排序工具,因此判定其具有更好的排序效果。
的中点。例如,如果一个输入表型组包括N个表型,N个表型的向量表示为 ,则
整个该输入表型组的向量表示为 。
,其中 是第 个表型的权重。
方法的使用者可以对输入表型组中的部分或者全部表型的权重进行自定义设置,从而得到
自定义权重。例如,使用者可以根据需要增加所述输入表型组中的单个或多个表型的权重,
从而提高加权的表型对于基因排序结果的影响力,具体来说例如使用者如果是临床医生,
其可以根据自己的临床经验判断哪些表型是比较重要的,然后采用自定义的方式对不同的
表型赋予不同的权重,例如使用者认为比较重要的表型的权重要高于其他表型的权重。对
于WES数据的判读很大程度上依赖于临床背景,需要进行全面的临床分析和深入的表型分
析;本实施中通过设置自定义权重,本实施例中的方法融合了使用者(尤其是临床医生)的
专业知识和经验,从而使得该方法的基因等级排序性能更好。
其他表型的权重。
信息检索和数据挖掘的常用加权技术,固有权重是由表型的固有特性(可能致病性)来确定
的。对于经验丰富的临床医生来说,可以通过的设置自定义权重将临床医生的专业知识和
经验结合到基因排序中,提高本专利中的方法的基因优先级排序的准确性;但是对于临床
经验较为欠缺的使用者来说,确定自定义权重存在一定的难度,为了解决这一问题,我们定
义了本实施例中的由表型固有特性确定的固有权重。具体来说,即为采用TF‑IDF算法在表
型‑表型关联集合、表型‑疾病关联集合和疾病‑基因关联集合中进行数据挖掘,从而获得所
有表型的固有权重。当需要对输入表型组中的部分表型或全部表型的权重时,只需要从得
到所有表型的权重中选出对应表型的权重即可。
本表型‑疾病对的词频;
10为底的对数,所述对数作为本表型‑疾病对的逆向文件频率;
型的固有权重。
之间的关联的数据的集合。具体来说在本实施例中,其中的表型‑表型关联集合来自于HPO,
其中的表型‑疾病关联集合和疾病‑基因关联集合来自于OMIM和Orphanet。
和D5代表的是疾病点,节点G1、G2、G3、G4和G5代表的是基因。在整个数据集中包括7个表型、
5个疾病和5个基因。我们以其中的表型P1的权重计算过程为例:首先我们选取表型‑疾病对
P1‑D1,与疾病D1相关的表型有P1和P2,因此词频 ;所有疾病的个数为5,与表型P1相
关的疾病有2个D1和D2,因此 ,因此表型P1的固有权重为 与 的
乘积,为0.1990。
节点之间,在相关的表型和疾病对应的节点之间,以及在相关的疾病和基因对应的节点之
间,均通过有向边连接。
所对应的节点的有向边进行连接,相关的疾病和基因对应的节点之间由一个从疾病所对应
的节点指向基因所对应的节点的有向边进行连接。
(HPO),人类孟德尔遗传在线数据库(OMIM)和Orphanet,其中人类表型本体论(HPO)提供了
人类疾病中遇到的表型异常的标准化词汇表。HPO中的每个术语都描述了一个表型异常。
OMIM是人类基因和遗传表型的全面、权威的数据库,包含疾病信息:包括疾病的发现、与疾
病相关的基因、临床特征、遗传方式等详细描述;基因信息:包括基因定位、与基因相关的表
型、基因功能、研究进展等详细描述。Orphanet是罕见病和孤儿药物的国际参考知识库,
Orphanet提供有关罕见病的免费信息,以帮助改善罕见病患者的诊断、护理、治疗方面的知
识集合。
以采用其他方式例如收集相关数据并进行相关的关联来完成表型‑表型关联集合、表型‑疾
病关联集合和疾病‑基因的数据关联集合,在此不做赘述。
P7代表的是表型,其中节点D1、D2、D3、D4和D5代表的是疾病,节点G1、G2、G3、G4和G5代表的
是基因。该实施例中的表型、疾病和基因的个数,以及相关表型和表型,相关表型和疾病,相
关疾病和基因的节点之的连接,都是起到了举例说明的作用,并不代表和限定实际的有向
图的具体结构。
疾病相关联,并将所有疾病与相关基因相关联。但是,在利用这样的无向图在分析一个表型
和一个基因之间的联系时,这种图构造的方式会导致了一些歧义。例如,当疾病作为桥梁
时,从表型开始到基因结束的路径可能会经过许多不相关的表型,例如会得到表型‑>疾病‑
>表型‑>疾病‑>基因这样自环的路径,这是反直觉的。因为通常来说,我们的推论是线性的,
即表型‑>疾病‑>基因。
们将无向边替换为两个有向边:A到B和B到A。对于两个相连的表型和疾病的节点,我们将单
向边替换为一个有向边:表型到疾病。对于两个相连的疾病和基因的节点,我们将单向边替
换为一个有向边:疾病到基因。这实际上意味着我们可以穿越几种表型(因为给定的表型可
能太粗糙或太细),但是当我们遇到某种疾病时,它只能前进到某个基因,而不能返回另一
个表型。这样就使得我们每次从表型开始到基因结束的路径中,得到的是线性的。
点互信息PMI(Pointwise mutual information)。当PMI可用时,可以将几种流行的词嵌入
方法理解为该PMI矩阵的一些简单变换(例如shift)的隐式分解。
是一个有效分布的重归一化因子。当既不存在从节点 和 的路径,也不存在从
的路径时, 本质上是零。这种分布与玻耳兹曼分布(有时称为
吉布斯分布)有相似的形式,其中 充当调节分布平滑度的温度因子。
750;其中:
及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也
可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对
应的操作。
总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用
于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易
失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系
统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或
无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计
算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显
示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆
盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键
盘、触控板或鼠标等。
Pediatrics, Frontiers in Genetics, Molecular Genetics & Genomic Medicine;2)病
例报告在2018年11月25日至2019年5月25日之间发布;3)病例报告描述了至少一个HPO记录
的表型;4)病例报告确定了具有对应Entrez ID的致病基因。病例报告的排除标准为:1)该
病例报告鉴定出一个人中有多个致病基因;2)该病例报告描述了染色体异常。
病例报告测试集中的表型和研究特征。然后,我们在该病例报告测试集上评估了本发明实
施例中的基于表型的基因优先级排序方法(以下和所有附图中简称“本方法”)、
Phenolyzer, Phenomizer, Phrank和HANRD等工具的性能。图8示出了本验证实施例的评估
结果示意图,图8包括A、B和C三个图,图A表示是本方法、Phrank,Phenomizer,HANRD和
Phenolyzer对致病基因进行优先级排序的性能,由图A可以看出,在本次评估中,本方法将
致病基因排名到Top10的概率高达37.3%,Phrank,Phenomizer,HANRD和Phenolyzer将致病
基因分别排到Top10的概率分别为:29.7%,27.6%,24.9%和17.3%。由此可知本方法相对
其他排序工具将致病基因排到Top10的概率高出25.4% 115.6%。图B为本方法、Phrank,
~
Phenomizer,HANRD和Phenolyzer的小提琴图,揭示了排序等级的完整分布模式;由图B显示
了本方法将致病基因等级聚集在等级Top1附近,致病基因排序等级的中位数为30,Phrank,
Phenomizer,HANRD和Phenolyzer的中位数分别为97、62、90、375;中位数越低代表将致基因
排到靠前的位置的概率越高,排序性能越好;因此本方法排序性能高于其他工具。图C为病
例报告测试集的表型分布,如图C所示该病例报告测试集,报告了30.6%的精确表型,8.3%
的不精确表型和61.1%的噪声表型,与此前报告中的研究相似。
声表型是与致病基因无关的表型(既不是精确表型也不是不精确表型)。
我们在测试集中排除了报告了新型致病基因的病例,并再次进行了评估。再次评估的结果
中,本方法仍然比其他工具的性能要高,将致病基因排名到Top10的概率高达43.1%(如图9
所示)。
将致病基因排Top10的概率分别为40.8%和46.5%,优于其他排序工具。
了本方法、Phenolyzer, Phenomizer, Phrank和HANRD等工具的性能。图11示出了本验证实
施例的评估结果示意图,图11包括A、B和C三个图,图A表示是本方法、Phrank,Phenomizer,
HANRD和Phenolyzer对致病基因进行优先级排序的性能,由图A可以看出,在此次评估中,本
方法在真实患者测试集中将致病基因排到Top10的概率为11.7%,Phrank,Phenomizer,
HANRD和Phenolyzer将致病基因分别排到Top10的概率分别为:9.6%,5.2%,7.1%和
5.2%;由此可知本方法相对其他排序工具将致病基因排到Top10的概率高出21.9%至
125.0%。图B为本方法、Phrank,Phenomizer,HANRD和Phenolyzer的小提琴图,揭示了排序
等级的完整分布模式;由图B显示了将致病基因等级聚集在等级Top1附近,致病基因排序等
级的中位数为172.5,Phrank,Phenomizer,HANRD和Phenolyzer的中位数分别为273、266、
382.5和2285。图C为真实患者测试集的表型分布,该真实患者测试集报告了27.5%的精确
表型,11.9%的不精确表型和60.6%的噪声表型,与病例报告测试集及先前的研究相似。
(37.3% vs. 11.7%)的潜在因素包括信息偏差和选择偏差。具体来说就是,由于病例报告
撰写者已经知道分子诊断结果,病例报告更倾向于描述致病基因相关的表型。与其相反的
是,对真实患者测试集进行表型分析时,医生并不知道致病基因。因此,真实的患者测试集
中报告了更少的精确表型。此外,当WES被视作孟德尔遗传病的诊断性预测的最终方法时,
真实的患者测试集才被纳入;因此真实患者测试集由难以解决的病例组成,这极大地影响
了检测效果。因此,该评估突出了基于表型的基因优先级排序方法在难以解决的临床外显
子组病例中的表现。
的检测性能呈正相关(分别为P = 2.20e‑16和P = 3.79e‑8)。相反,噪声表型的百分比与软
件的检测性能(performance)呈负相关(P = 2.20e‑16)。该结果强烈表明,增加精确表型或
不精确表型的权重可以改善本方法的性能。
响了本方法在综合测试集中的性能。
基因G在学习集合中有6种相关的表型,所有这些表型都是精确的。首先,我们随机删除4个
(6个中的2/3)相关表型。因此,基因“G”现在只有2个(6个中的1/3)相关的精确表型,即“1/3
|N|0|0”。这里的“N”是指与基因“G”相关的精确表型的数量(在这里,N=2)。然后,我们将N个
精确表型中的1/2随机替换为不精确表型,即‘1/3|1/2N|1/2N|0’。最后,我们随机添加N个
噪声表型。为此,基因G有1/2 N个相关的精确表型,1/2 N个相关的不精确表型和N个相关的
噪声表型。B和C分别表示 ' 2/3|1/2N|1/2N|N '测试集和' 3/3|1/2N|1/2N|N '测试集的
构造过程,方法与A类似,在此不做赘述。
因排到Top1的概率。由图14可知,当精确表型的权重增加时,本方法的检测性能显著提高。
2N|1/2N|N '测试集)中,对精确表型增加权重的性能评估,如图A、D和G所示,如果不增加精
确表型的权重,本方法将综合测试集中的5997例病例中的579例的致病基因排在Top1,大约
为9.7%;当精确表型的权重增加到5时,本方法将综合测试集中的5997例病例中的2343例
的致病基因排在Top1,大约为39.0%;随着权重的增加,排序等级的分布越来越聚集到Top1
附近,如图B、E和H所示为本方法在综合测试集中的排名分布,当精确表型的权重增加时,检
测到致病基因的中位数显著下降。上述结果突出表明,在精确表型上增加权重可显著改善
本方法在综成测试集中的性能。
型一个权重,本方法的性能随着不精确表型权重的增加而形成一条倒U形曲线。
它通常代表一组特定的表型,这些表型可以是原发性的,显著的或严重的,符合孟德尔的分
离定律并且需要用致病基因来解释。直观地说,在适应症上增加权重可能有助于分析临床
外显子组测序数据。
较了为适应症增加权重和默认设置(两种情况下)本方法的性能。如图16A所示,在该评估
中,当适应症的权重为1(默认设置)时,本方法将471例病例中的58例的致病基因排入
Top10,概率约12.3%。当适应症的权重增加到2、3、4和5时,本方法将致病基因排在Top10的
概率分别为15.1%,14.9%,16.3%和17.4%。尤其当适应症的权重增加到5时与权重为1时
相比,本方法将471例病例中的82例的致病基因排入Top10,概率约为17.4%,性能提高约
41.4%。
为骨骼疾病,该数据来源于系统解析脊柱侧凸及相关合并症研究(DISCO)。如图16B所示,当
适应症的权重为1(默认设置)时,本方法将208例病例中的79例的致病基因排入Top10,概率
约为38.0%。当权重增加到2、3、4和5时,概率分别为42.8%,46.6%,49.0%和49.0%。尤其
是,当适应症的权重增加到5时,本方法将208例病例中有102例的致病基因排入Top10,概率
约为49.0%,性能提高约29.1%。该实验结果表明,增加在基因测试中的适应症的权重可以
提高本方法的检测性能。
型赋予固有权重,具体来说我们根据每个表型的“可能致病性”计算每种表型的固有权重。
例如,如果怀疑患有孟德尔疾病的患者表现出“癫痫发作”(HP:0001250)作为主要表型之
一,则认为“癫痫发作”(HP:0001250)是由病因引起的表型之一基因。 相比之下,如果患者
表现出“局部皮肤病变”(HP:0011355),这通常是由非遗传性疾病引起的,则认为“局部皮肤
病变”(HP:0011355)并非这种疾病的表型之一。 孟德尔疾病。 在这种情况下,“癫痫发作”
(HP:0001250)在临床环境中可以被视为特定的表型,无论精确表型还是不精确表型。基于
此假设,我们提出使用词频‑逆向文件频率(term frequency–inverse document
frequency ,TF‑IDF)在训练集(表型、疾病和基因数据)中执行数据挖掘。通过TF‑IDF算法,
我们为每个表型分配了固有权重,图17示出了本验证实施例为数据中的所有表型分配固有
权重后,固有权重最高的20种重要表型。
配固有权重的情况下比默认设置下高出24.4%。
配固有权重的情况下比默认设置下高出17.7%。
划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件
可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或
讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦
合或通信连接,可以是电性,机械或其它的形式。
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random
Access Memory)、磁盘或光盘等。
述提到的存储介质可以是只读存储器,磁盘或光盘等。
述,本说明书内容不应理解为对本发明的限制。