一种慢性病辅助决策的患者数据可视化方法及系统转让专利

申请号 : CN202011270972.4

文献号 : CN112102937B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李劲松朱世强周天舒田雨苟玲

申请人 : 之江实验室

摘要 :

本发明公开了一种慢性病辅助决策的患者数据可视化方法及系统,本发明通过构建慢性病知识图谱,并结合患者静态数据和动态数据构建患者在超平面的管理数据模型图,再将其投影至二维平面。比较患者信息模型在二维平面图上特征之间的欧式距离和标准特征之间的距离差异,结合路径节点概念以及概念间的属性关系,生成并推荐管理方案。融合患者信息模型和慢性病知识图谱可以充分运用各个特征的语义信息,在二维平面上以位置、颜色等方式全面、系统地展示各个风险因素的重要性以及关联。通过几何位置评估患者慢病管理的效果,然后利用路径制定个性化的患者健康管理方案,帮助患者从多个维度提升慢病管理能力。

权利要求 :

1.一种慢性病辅助决策的患者数据可视化方法,其特征在于,该方法包括以下步骤:

(1)构建慢性病知识图谱:慢性病相关临床指南、知识文献作为知识图谱的知识源,通过医学系统命名法-临床术语SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例,添加数据关系和属性关系,生成知识图谱原型文件;

(2)建立患者信息模型:采集患者信息;进行患者数据RDF转换,将患者数据库中的数据转换成符合OWL语言规范的RDF三元组关系;以SNOMED CT标识患者信息模型的节点,实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型;

(3)超平面特征图绘制:患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型;

(4)二维平面映射:二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重;

(5)决策支持反馈:以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算二维平面映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标;计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,将欧式距离与标准数值进行比较,寻找相似距离的路径;根据特征的距离信息获取知识图谱内的知识。

2.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,所述知识图谱的知识内容覆盖疾病诊断、检查项目、体征状态、相关疾病、治疗药物、生活习惯、计量单位和检测量。

3.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(2)采集的患者信息包括日常移动端手动输入或者可穿戴设备采集的患者健康数据,以及区域慢病管理中心所记录的患者电子病历数据。

4.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(2)患者数据RDF转换过程中,采用D2R语义映射技术将关系型数据库中的数据映射到RDF格式;D2R包括D2R Server、D2RQ Engine和D2RQ Mapping语言;D2RQ Mapping语言定义关系型数据转换成RDF格式的 Mapping规则;D2RQ Engine使用定制的D2RQ Mapping文件完成数据映射,具体是指将关系型数据库的表和字段分别映射为OWL文件中的类和属性,类之间的关系从表示关系的表中得出。

5.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(3)超平面特征图绘制具体包括以下子步骤:(3.1)采用TransH模型将三元组编码为空间的分布式向量,具体为:

患者信息模型中知识被存储为(h,r,t)的三元组形式,其中h表示头实体向量,r表示关系向量,t表示尾实体向量;三元组集合组成有向图,图形节点代表实体,边代表不同类型的关系,边是有向的表明关系是非对称的;通过TransH模型构建自反关系、多对一、一对多、多对多关系的实体分布式向量;

(3.2)优化目标函数,具体为:

TransH模型对于每一个关系r,假设有一个对应的超平面,r在超平面上的关系投影表示为 ,该超平面法向量表示为 ,且有 , 、 分别表示h、t在该超平面的投影,则有:定义评分函数为:

得到目标函数:

其中S是知识库中的三元组, 是负采样的三元组,是取值大于0的间隔距离参数;

使用随机梯度下降训练方法,TransH模型训练完成后,得到实体和关系的向量表示。

6.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(4)二维平面映射具体包括以下子步骤:(4.1)使用t-SNE算法进行降维可视化,具体为:

步骤一:假设数据集X,它共有N个数据点,每个高维数据点 的维度为D,降维为二维,即在平面上表示出所有数据;

计算数据点高维空间中的相似性的条件概率;将数据点之间的高维欧几里得距离转换为表示相似性的条件概率,高维数据点 、之间的相似性条件概率 如下:其中 是以高维数据点 为中心的高斯方差;

步骤二:计算数据点低维空间中的相似性的条件概率;对于高维数据点 、的低维对应点 、 ,计算条件概率 如下:步骤三:最小化条件概率的差异,即令条件概率 近似于 ;通过最小化两个条件概率分布之间的Kullback-Leibler散度实现,并使用梯度下降进行迭代更新,损失函数如下:(4.2)特征重要性排序:使用Regularized Gradient Boosted Decision Tree算法实现知识图谱中的各实体的重要性排序以及获得特征权重值,具体为:数据集为已知慢病管理效果或者结局的患者信息模型,每个样本包含n维特征;

Regularized Gradient Boosted Decision Tree的目标函数L包括损失函数和复杂度,定义为:其中i表示第i个样本,k是第k颗树,为预测输出,为标签值,T表示叶子节点数,ω表示叶子权重值;为叶子树惩罚正则项,具有剪枝作用;为叶子权重惩罚正则项,防止过拟合; 表示第i个样本的预测误差; 表示损失函数; 表示树的复杂度函数;

树的生长过程中,通过对比分裂前后的目标函数值,分裂后目标函数值最小的分裂为最佳分裂点;

其中 为加入新叶子节点引入的复杂度代价, 为左子树梯度值, 为左子树样本集合二阶导数; 为右子树梯度值, 为右子树样本集合二阶导数;如果Gain<0,则此叶子节点不做分割;

特征重要性分数通过计算所有树中特征在每次分裂节点时带来的总增益实现;通过调用booster参数的get_score方法获取对应的特征权重值。

7.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(4)特征重要性排序过程中,Regularized Gradient Boosted Decision Tree参数训练采用网格搜索方法进行,包括一般参数、提升参数和学习目标参数;一般参数控制宏观参数,提升参数控制每一步的提升,学习目标参数控制训练目标的表现。

8.根据权利要求1所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(5)中,根据特征的距离信息使用SPARQL查询语言和Jena规则推理获取知识图谱内的知识,生成患者个性化管理方案。

9.根据权利要求8所述的一种慢性病辅助决策的患者数据可视化方法,其特征在于,步骤(5)中,SPARQL查询语句包括查询信息以及名称应该符合的条件,条件以三元组形式出现,按照,即主谓宾的顺序排列,查询的结果实际就是条件三元组与数据文件中RDF三元组匹配的结果。

10.一种慢性病辅助决策的患者数据可视化系统,其特征在于,包括:

慢性病知识图谱构建模块:慢性病相关临床指南、知识文献作为知识图谱的知识源,通过SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例,添加数据关系和属性关系,生成知识图谱原型文件;

患者信息模型构建模块:采集患者信息,将患者数据库中的数据转换成符合OWL语言规范的RDF三元组关系;以医学系统命名法-临床术语SNOMED CT标识患者信息模型的节点,实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型;

超平面特征图绘制模块:患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型;

二维平面映射模块:二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重;

决策支持反馈模块:以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算二维平面映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标;计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,将欧式距离与标准数值进行比较,寻找相似距离的路径;根据特征的距离信息获取知识图谱内的知识。

说明书 :

一种慢性病辅助决策的患者数据可视化方法及系统

技术领域

[0001] 本发明属于医疗及数据可视化技术领域,尤其涉及一种慢性病辅助决策的患者数据可视化方法及系统。

背景技术

[0002] 慢性病又称慢性非传染性疾病,主要包括心脑血管疾病(高血压、冠心病、脑卒中)、糖尿病和慢性呼吸系统疾病等,具有起病隐匿、病程长且病情迁延不愈、病因复杂且有些尚未完全被确认等特点。随着我国经济迅速发展、居民生活方式改变,慢性病患病和死亡人数不断增多,群众疾病负担日益沉重,已成为严重威胁我国居民健康、影响国家经济社会发展的重大公共卫生问题之一。有数据显示,国内慢性病约占疾病死亡率的86%、占疾病负担的76%。慢性病难以根治,主要依赖患者长期的自我健康管理。对于患者电子病历信息以及日常管理所记录的数据,如饮食、运动、日常体征数据,进行一定的分析,提供一种辅助决策的数据可视化方法,有利于患者了解自身健康状况及时调整健康管理方案,也有助于医生为患者制定并推荐管理方案,节省医疗资源。可视化的方式能够清晰地展现患者管理目标,提供健康相关的精准帮助,从而提升患者管理的依从性。
[0003] 现有的慢性病数据可视化技术主要是指患者日常管理记录的数据在应用程序中以数据图表形式呈现,比较常用的数据设计组件是柱状图、折线图、环形图等,它们简单易懂,容易被用户接受。患者在移动端通过多点触控技术实现图片的放大、缩小、旋转、位移效果。辅助决策支持可视化主要通过重要性排序、相关矩阵等形式展现,不是用户友好的可视化方案同时信息传达不够全面、丰富;现有慢病数据可视化方案的不足具体如下:
[0004] (1)只是展示患者日常在移动端记录的体征等数据,以表达某种趋势,缺少了患者日常管理效果的评估体系,患者和医护人员无法明确患者健康管理对其健康状况的影响效果。
[0005] (2)大多以折线图、柱状图等基础图形表示,无法体现慢病风险因素之间的关联,并且各类型数据分开统计并绘制,不能系统化、全面地整合患者多维度信息及其慢病风险因素的关联、重要程度等语义信息。
[0006] (3)健康管理方案没有综合考虑患者个人身体状况、运动饮食习惯等各类型数据,从而决策缺少个性化,患者数据没有在制定并推荐其管理方案内容时得到充分应用。

发明内容

[0007] 本发明根据患者电子病历数据以及日常所记录的各类数据(运动、饮食、体征、用药、化验等),结合语义技术、临床决策支持技术与可视化技术,提出了一种用于慢性病辅助决策的患者数据可视化方法及系统。
[0008] 本发明通过构建慢性病知识图谱,并结合患者静态数据和动态数据构建患者在超平面的管理数据模型图,再将其投影至二维平面。比较患者信息模型在二维平面图上特征之间的欧式距离和标准特征之间的距离(被医生诊断为管理效果好的患者二维平面映射图)差异,结合路径节点概念以及概念间的属性关系,生成并推荐管理方案。融合患者信息模型和慢性病知识图谱可以充分运用各个特征的语义信息,在二维平面上以位置、颜色等方式全面、系统地展示各个风险因素的重要性以及关联。通过几何位置评估患者慢病管理的效果,然后利用路径制定个性化的患者健康管理方案,帮助患者从多个维度提升慢病管理能力。
[0009] 本申请提出的慢性病辅助决策的患者数据可视化方法,该方法的具体实现包括以下步骤:
[0010] (1)构建慢性病知识图谱:慢性病相关临床指南、知识文献作为知识图谱的知识源,通过SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例,添加数据关系和属性关系,生成知识图谱原型文件;
[0011] (2)建立患者信息模型:采集患者信息;进行患者数据RDF转换,将患者数据库中的数据转换成符合OWL语言规范的RDF三元组关系;以SNOMED CT标识患者信息模型的节点,实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型;
[0012] (3)超平面特征图绘制:患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型;
[0013] (4)二维平面映射:二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重;
[0014] (5)决策支持反馈:以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标;计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,并结合其计算出的特征权重值,将其与标准数值进行比较,寻找相似距离的路径;根据特征的距离信息获取知识图谱内的知识。
[0015] 进一步地,所述知识图谱的知识内容覆盖疾病诊断、检查项目、体征状态、相关疾病、治疗药物、生活习惯、计量单位和检测量。
[0016] 进一步地,步骤(2)采集的患者信息包括日常移动端手动输入或者可穿戴设备采集的患者健康数据,以及区域慢病管理中心所记录的患者电子病历数据。
[0017] 进一步地,步骤(2)患者数据RDF转换过程中,采用D2R语义映射技术将关系型数据库中的数据映射到RDF格式;D2R包括D2R Server、D2RQ Engine和D2RQ Mapping语言;D2RQ Mapping语言定义关系型数据转换成RDF格式的 Mapping规则;D2RQ Engine使用定制的D2RQ Mapping文件完成数据映射,具体是指将关系型数据库的表和字段分别映射为OWL文件中的类和属性,类之间的关系从表示关系的表中得出。
[0018] 进一步地,步骤(3)超平面特征图绘制具体包括以下子步骤:
[0019] (3.1)采用TransH模型将三元组编码为空间的分布式向量,具体为:
[0020] 患者信息模型中知识被存储为(h,r,t)的三元组形式,其中h表示头实体向量,r表示关系向量,t表示尾实体向量;三元组集合组成有向图,图形节点代表实体,边代表不同类型的关系,边是有向的表明关系是非对称的;通过TransH模型构建自反关系、多对一、一对多、多对多关系的实体分布式向量;
[0021] (3.2)优化目标函数,具体为:
[0022] TransH模型对于每一个关系r,假设有一个对应的超平面,r在超平面上的关系投影表示为 ,该超平面法向量表示为 ,且有 , 、 分别表示h、t在该超平面的投影,则有:
[0023]
[0024] 定义评分函数为:
[0025]
[0026] 得到目标函数:
[0027]
[0028] 其中S是知识库中的三元组, 是负采样的三元组,是取值大于0的间隔距离参数;
[0029] 在优化目标函数L的过程中,需要使正例三元组的值小,负例三元组的值大,即排序损失最小化;使用随机梯度下降训练方法,TransH模型训练完成后,得到实体和关系的向量表示。
[0030] 进一步地,步骤(4)二维平面映射具体包括以下子步骤:
[0031] (4.1)使用t-SNE算法进行降维可视化,具体为:
[0032] 步骤一:假设数据集X,它共有N个数据点,每个数据点 的维度为D,降维为二维,即在平面上表示出所有数据;
[0033] 计算数据点高维空间中的相似性的条件概率;将数据点之间的高维欧几里得距离转换为表示相似性的条件概率,高维数据点 、之间的相似性条件概率 如下:
[0034]
[0035] 其中 是以数据点 为中心的高斯方差;
[0036] 步骤二:计算数据点低维空间中的相似性的条件概率;对于高维数据点 、的低维对应点 、 ,计算条件概率 如下:
[0037]
[0038] 步骤三:最小化条件概率的差异,即令条件概率 近似于 ;通过最小化两个条件概率分布之间的Kullback-Leibler散度实现,并使用梯度下降进行迭代更新,损失函数如下:
[0039]
[0040] (4.2)特征重要性排序:使用Regularized Gradient Boosted Decision Tree算法实现知识图谱中的各实体的重要性排序以及获得特征权重值,具体为:
[0041] 数据集为已知慢病管理效果或者结局的患者信息模型,每个样本包含n维特征(患者信息模型实体数);Regularized Gradient Boosted Decision Tree的目标函数 包括损失函数和复杂度,定义为:
[0042]
[0043]
[0044] 其中i表示第i个样本,k是第k颗树,为预测输出,为标签值,T表示叶子节点数,ω表示叶子权重值;为叶子树惩罚正则项,具有剪枝作用;为叶子权重惩罚正则项,防止过拟合; 表示第i个样本的预测误差; 表示损失函数; 表示树的复杂度函数;
[0045] 树的生长过程中,通过对比分裂前后的目标函数值,分裂后目标函数值最小的分裂为最佳分裂点;
[0046]
[0047] 其中 为加入新叶子节点引入的复杂度代价, 为左子树梯度值, 为左子树样本集合二阶导数; 为右子树梯度值, 为右子树样本集合二阶导数;如果Gain<0,则此叶子节点不做分割;
[0048] 特征重要性分数通过计算所有树中某特征在每次分裂节点时带来的总增益实现;通过调用booster参数的get_score方法获取对应的特征权重值。
[0049] 进一步地,步骤(4)特征重要性排序过程中,Regularized Gradient Boosted Decision Tree参数训练采用网格搜索方法进行,包括一般参数、提升参数和学习目标参数;一般参数控制宏观参数,提升参数控制每一步的提升,学习目标参数控制训练目标的表现。
[0050] 进一步地,步骤(5)中,根据特征的距离信息使用SPARQL查询语言和Jena规则推理获取知识图谱内的知识,生成患者个性化管理方案。
[0051] 进一步地,步骤(5)中,SPARQL查询语句包括查询信息以及名称应该符合的条件,条件以三元组形式出现,按照,即主谓宾的顺序排列,查询的结果实际就是条件三元组与数据文件中RDF三元组匹配的结果。
[0052] 本申请提出的慢性病辅助决策的患者数据可视化系统,该系统包括以下模块:
[0053] 慢性病知识图谱构建模块:慢性病相关临床指南、知识文献作为知识图谱的知识源,通过SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例,添加数据关系和属性关系,生成知识图谱原型文件;
[0054] 患者信息模型构建模块:采集患者信息,将患者数据库中的数据转换成符合OWL语言规范的RDF三元组关系;以SNOMED CT标识患者信息模型的节点,实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型;
[0055] 超平面特征图绘制模块:患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型;
[0056] 二维平面映射模块:二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重;
[0057] 决策支持反馈模块:以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标;计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,并结合其计算出的特征权重值,将其与标准数值进行比较,寻找相似距离的路径;根据特征的距离信息获取知识图谱内的知识。
[0058] 本发明的有益效果是:较之现有的慢病数据可视化方案,本发明结合知识图谱,能够以可视化的方式构建患者各类型数据的二维平面映射图像,是用户友好的可视化方案。通过二维平面上节点距离、颜色等方式能够表达患者信息之间的关联、特征和重要性,能够传达全面且丰富的信息。通过几何位置评估患者慢病管理的效果,然后利用路径制定个性化的患者健康管理方案,帮助患者从多个维度提升慢病管理能力,有助于提升患者依从性。
本发明从健康信息收集、健康评估到健康促进实现了长期连续、周而复始、螺旋上升的全程全方位的可视化健康管理服务。

附图说明

[0059] 图1为本发明慢性病辅助决策的患者数据可视化方法实现流程图;
[0060] 图2为TransH模型示意图;
[0061] 图3为二维平面映射示意图。

具体实施方式

[0062] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
[0063] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0064] 本申请提出的一种慢性病辅助决策的患者数据可视化方法及系统,能够帮助患者更好地了解个人健康状况和疾病干预情况,帮助医生更高效地查看患者病情并制定健康管理方案。如图1所示,本发明方法的具体实现包括以下步骤:
[0065] (1)慢性病知识图谱构建
[0066] 慢性病相关的临床指南、知识文献作为知识图谱的知识源,知识内容覆盖疾病诊断、检查项目、体征状态、相关疾病、治疗药物、生活习惯等方面,还包括了计量单位、检测量等医学辅助词。选择SNOMED CT(Systematized Nomenclature of Medicine -- Clinical Terms,医学系统命名法-临床术语)作为标准化编码体系,通过 SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例等信息,添加数据关系和属性关系,生成知识图谱原型文件。
[0067] (2)患者信息模型建立
[0068] (2.1)患者信息采集
[0069] 患者信息主要来源有两类:一类是日常移动端手动输入或者可穿戴设备采集的患者健康数据;另一类是区域慢病管理中心所记录的患者电子病历数据。
[0070] (2.2)患者数据RDF转换
[0071] 患者数据库中的XML、JSON等格式数据需要转换成符合OWL(Web Ontology Language)语言规范的RDF(Resource Description Framework)三元组关系。此处采用D2R(Database to RDF)语义映射技术将关系型数据库中的数据映射到RDF格式。D2R主要包括D2R Server、D2RQ Engine和D2RQ Mapping语言。D2RQ Mapping语言定义关系型数据转换成RDF格式的 Mapping规则。D2RQ Engine则是使用定制的D2RQ Mapping文件完成数据映射,具体是指将关系型数据库的表和字段分别映射为OWL文件中的类和属性,类之间的关系可以从表示关系的表中得出。同慢性病知识图谱一样,还是以SNOMED CT标识患者数据模型的节点,从而实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型。
[0072] (3)超平面特征图绘制
[0073] 患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型。
[0074] 步骤一:采用TransH模型将三元组编码为空间的分布式向量,如图2所示。
[0075] TransH根据关系r的类型(一对一、一对多、多对一、多对多),以不同的概率替换头尾实体。例如,对于一对多关系,替换头实体比替换尾实体有更大的可能获得合法的负样本,因此可以以更大的概率替换头实体。对于关系 所对应的三元组,TransH首先统计平均每个头实体对应的尾实体个数tph以及平均每个尾实体对应的头实体个数hpt,然后定义一个伯努利分布,以概率 替换头实体,以概率 替换尾实体。
[0076] 患者信息模型中知识被存储为(h,r,t)的三元组形式,其中h表示头实体向量,r表示关系向量,t表示尾实体向量。三元组集合组成有向图,图形节点代表实体,边代表不同类型的关系,边是有向的表明关系是非对称的。TransH模型可以构建自反关系、多对一、一对多、多对多关系的实体分布式向量。
[0077] 步骤二:优化目标函数。TransH模型对于每一个关系r,假设有一个对应的超平面(关系r落在该超平面),r在超平面上的关系投影表示为 ,该超平面法向量表示为 ,且有。 、 分别表示h、t在该超平面的投影,则有:
[0078]
[0079] 定义评分函数为:
[0080]
[0081] 得到目标函数:
[0082]
[0083] 其中S是知识库中的三元组, 是负采样的三元组,是取值大于0的间隔距离参数,是一个超参数,[x]+表示正值函数,即x > 0时,[x]+ = x,当 时,[x]+ = 0。两个节点评分函数值比较低,表示距离较近,反之距离较远。在优化目标函数L的过程中,需要使正例三元组的值小,负例三元组的值大,也就是排序损失最小化。使用随机梯度下降(Stochastic Gradient Descent,SGD)训练方法,TransH模型训练完成后,可得到实体和关系的向量表示。
[0084] (4)二维平面映射
[0085] 二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重。
[0086] (4.1)降维可视化
[0087] 使用t-SNE算法(t-distributed Stochastic Neighbor Embedding,t-分布邻域嵌入算法)进行降维可视化。
[0088] t-SNE算法是一种用于降维的机器学习方法,它能帮我们识别相关联的模式。t-SNE主要的优势就是保持局部结构的能力。这意味着高维数据空间中距离相近的点投影到低维中仍然相近。t-SNE 同样能生成漂亮的可视化。
[0089] t-SNE算法对每个数据点近邻的分布进行建模,其中近邻是指相互靠近数据点的集合。在原始高维空间中,我们将高维空间建模为高斯分布,而在二维输出空间中,我们可以将其建模为t分布。该过程的目标是找到将高维空间映射到二维空间的变换,并且最小化所有点在这两个分布之间的差距。与高斯分布相比t分布有较长的尾部,这有助于数据点在二维空间中更均匀地分布。
[0090] 步骤一:假设数据集X,它共有N个数据点,每个数据点 的维度为D,降维为d维,这里d取值为2,即在平面上表示出所有数据。计算数据点高维空间中的相似性的条件概率。将数据点之间的高维欧几里得距离转换为表示相似性的条件概率,高维数据点 、之间的相似性条件概率 如下:
[0091]
[0092] 其中 是以数据点 为中心的高斯方差。
[0093] 步骤二:计算数据点低维空间中的相似性的条件概率;对于高维数据点 、的低维对应点 、 ,计算条件概率 如下:
[0094]
[0095] 步骤三:最小化条件概率的差异,即令条件概率 近似于 。这一步骤通过最小化两个条件概率分布之间的Kullback-Leibler散度(KL散度)实现。这一过程使用梯度下降进行迭代更新,损失函数如下,即最小化损失函数:
[0096]
[0097] 二维平面映射示意图如图3所示。图中显示了两类不同特征各个实体的投影点,对应了此类特征大概的投影区域,并标志出了每类特征的中心点。中心点的距离以及投影点的集群情况可以判断出特征之间的相关性。
[0098] (4.2)特征重要性排序
[0099] 使用Regularized Gradient Boosted Decision Tree算法(eXtreme Gradient Boosting,极值梯度提升算法)实现知识图谱中的各实体的重要性排序以及获得特征权重值。数据集为已知慢病管理效果或者结局的患者信息模型,每个样本包含n维特征(患者信息模型实体数)。Regularized Gradient Boosted Decision Tree的目标函数L包括损失函数和复杂度,定义为:
[0100]
[0101]
[0102] 其中i表示第i个样本,k是第k颗树,为预测输出,为标签值,T表示叶子节点数,ω表示叶子权重值;为叶子树惩罚正则项,具有剪枝作用;为叶子权重惩罚正则项,防止过拟合; 表示第i个样本的预测误差,该误差值越小越好; 表示损失函数; 表示树的复杂度函数,该复杂度越低,表示模型的泛化能力越强。
[0103] 树的生长过程中,通过对比分裂前后的目标函数值,分裂后目标函数值最小的分裂为最佳分裂点。这里的Gain可以看作是未分割前的目标函数值减去分裂后的左右目标函数值,因此如果Gain<0,则此叶子节点不做分割。为加入新叶子节点引入的复杂度代价,为左子树梯度值, 为左子树样本集合二阶导数; 为右子树梯度值, 为右子树样本集合二阶导数; 可以评价一棵树的结构。
[0104]
[0105] 特征重要性分数是通过计算所有树中某特征在每次分裂节点时带来的总增益,即total_gain实现。该分数衡量了特征在提升决策树构建中的价值,因此可以作为特征重要性排序的指标。最后,通过调用booster参数的get_score方法获取对应的特征权重值。
[0106] 该步骤中Regularized Gradient Boosted Decision Tree参数训练采用网格搜索方法进行,包括一般参数、提升参数和学习目标参数。一般参数控制宏观参数,提升参数控制每一步的提升,学习目标参数控制训练目标的表现。
[0107] (5)决策支持反馈
[0108] 以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过上述的分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标。计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,并结合其计算出的特征权重值,将其跟标准数值进行比较,寻找相似距离的路径。根据特征的距离信息使用SPARQL(SPARQL Protocol and RDF Query Language, SPARQL协议与RDF查询语言)查询语言和Jena规则推理获取知识图谱内的知识,生成患者个性化管理方案,包括运动建议、饮食建议、用药建议、检查建议、生活习惯建议等。SPARQL查询语句包括查询信息以及名称应该符合的条件,条件以三元组形式出现,按照(主谓宾)的顺序排列,查询条件也成为一个模式,查询的结果实际就是条件三元组与数据文件中RDF三元组匹配的结果。Jena推理基于规则,规则通过Rule对象来进行定义。
[0109] 本申请还提出了一种慢性病辅助决策的患者数据可视化系统,该系统包括以下模块:
[0110] 慢性病知识图谱构建模块:慢性病相关临床指南、知识文献作为知识图谱的知识源,通过SNOMED CT对数据语义进行唯一标识,手动构建类、属性与实例,添加数据关系和属性关系,生成知识图谱原型文件;
[0111] 患者信息模型构建模块:采集患者信息,将患者数据库中的数据转换成符合OWL语言规范的RDF三元组关系;以SNOMED CT标识患者信息模型的节点,实现患者数据向领域知识的语义扩展,融合患者信息和慢性病知识图谱构建患者信息模型;
[0112] 超平面特征图绘制模块:患者信息模型通过分布式表示转换为超平面特征图,分布式表示采用实体向量与关系向量之间基于翻译的模型;
[0113] 二维平面映射模块:二维平面节点的位置信息对应患者信息模型超平面特征图降维后的二维位置,利用节点的颜色区分知识图谱中所属的信息类别不同,利用Regularized Gradient Boosted Decision Tree算法特征重要性排序作为各个节点与疾病进展相关性的排序,特征权重值作为欧式距离计算的权重;
[0114] 决策支持反馈模块:以领域专家标注结果为慢病管理效果理想的患者信息模型作为标准,通过分布式表示和降维可视化绘制出患者数据的二维平面映射图像,结合特征权重值计算映射图像中各个特征区域的几何中心之间的欧式距离,作为标准化的管理目标;计算需要决策支持反馈的患者在二维平面映射图像中特征之间的欧式距离,并结合其计算出的特征权重值,将其与标准数值进行比较,寻找相似距离的路径;根据特征的距离信息获取知识图谱内的知识。
[0115] 以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。例如,特征重要性排序还可以运用CatBoost(Categorical Boosting)算法、Light GBM算法。分布式表示还可以运用TransG、TransR和CTransR等翻译模型。二维平面映射还可以使用主成分分析(Principal Component Analysis,PCA)、Sammon映射、SNE等降维算法。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。