一种基于知识图谱的DHI报告解读方法、系统及存储介质转让专利
申请号 : CN202110969609.X
文献号 : CN113656600B
文献日 : 2022-04-29
发明人 : 高萌 , 沈维政 , 付强 , 寇胜利 , 张翼 , 张永根 , 熊本海
申请人 : 东北农业大学
摘要 :
权利要求 :
1.一种基于知识图谱的DHI报告解读方法,其特征在于,包括以下步骤:S1、获取牧场的DHI数据,DHI指标数据包括本月数据和历史数据两种;
本月数据直接使用DHI检测中心根据中国奶牛生产性能测定分析系统制作完成的DHI报告文件;
历史数据则通过遍历历史DHI报告文件中的相关指标数据,按照既定的字段获取相关指标数据;
S2、对DHI指标数据进行分析,分析指标数据包括静态分析和动态分析两方面:静态分析是根据各项指标的本月数据,按照各指标正常范围值标准,找到异常指标,并对应形成事实描述;
动态分析是结合各指标的本月数据和历史数据,分析各指标近期的变化规律,并对应形成事实描述;
S3、结合DHI领域知识图谱对动态分析的结果进行问题诊断,问题诊断的过程包括问题定位,所述的问题定位是基于DHI领域知识图谱,将动态分析的事实描述作为“性能指标/症状”实体,计算得到事实描述由某种影响因素影响而发生的概率,记为P(fac):P(fac)=P(fac|sym)·Pprior(sym)其中,P(fac|sym)是性能指标/症状与影响因素之间的条件概率,也就是实体之间边的权重;Pprior(sym)为性能指标/症状的先验概率;
所述的DHI领域知识图谱包含“性能指标/症状”、“影响因素”、“解决措施”三类实体及实体关系;“影响因素”和“性能指标/症状”两类实体构成三元组,“影响因素”和“性能指标/症状”实体之间边设置权重,权重为两类实体之间的条件概率P(fac|sym),所述两类实体之间的条件概率确定过程包括以下步骤:获取参与者Qn针对于“性能指标/症状i”反馈的各“影响因素j”及对应分数Ij;
基于某个性能指标/症状i,将所有的参与者对应的影响因素j进行统计得到影响因素集合J={jm},m=1,2,……,M,M为某个性能指标/症状i对应的所有影响因素的总数;
按照影响因素设置M个影响位次;
针对参与者Qn,分别对给出的影响因素j按照对应的分数进行排序;然后统计参与者Qn排在第一位的影响因素数量,将数量最多的影响因素作为第一影响位次;再统计参与者Qn排在第二位的影响因素数量,将数量最多的影响因素作为第二影响位次;依次进行统计并的得到对应的影响位次,直至得到M个影响位次;
从第一影响位次开始,至第M个影响位次结束,针对于每个影响位次分别计算对应影响位次所体现的因素的得分,包括以下步骤:针对影响位次m对应的影响因素Pj,统计参与者Qn对影响因素Pj的排序与影响位次m是一致的情况下的参与者Qn'以及Qn'给出的影响因素Pj的分数,并根据Qn'的数量计算Qn'给出影响因素Pj对应分数的平均分;所述平均分即为“影响因素Pj”和“性能指标/症状”两类实体之间的条件概率;
参与者Qn对影响因素Pj的排序与影响位次m是一致的情况,即:基于参与者Qn的排序结果,参与者Qn也将影响因素Pj排在了该参与者给出排序结果的第m位。
2.根据权利要求1所述的一种基于知识图谱的DHI报告解读方法,其特征在于,问题诊断的过程还包括给出指导措施建议,指导措施建议是基于定位得到的影响因素,从DHI领域知识图谱中根据“影响因素”与“解决措施”两类实体之间的关系,确定该影响因素对应的解决措施。
3.根据权利要求1所述的一种基于知识图谱的DHI报告解读方法,其特征在于,所述的Pprior(sym)初始值根据历史DHI报告及牧场记录数据统计计算得到,并按照月份数据进行更新。
4.根据权利要求1、2或3所述的一种基于知识图谱的DHI报告解读方法,其特征在于,所述的DHI领域知识图谱为预先构建好的,构建过程包括以下步骤:(1)构造DHI领域本体,DHI领域本体包含“性能指标/症状”、“影响因素”、“解决措施”三类实体及实体关系;
(2)将DHI测定与应用指导相关资料电子化后得到的电子文本作为标注对象,以本体为标注依据,对电子文本数据进行语义标注,形成标注数据;
(3)利用标注数据中的数据作为训练数据,按照DHI领域知识图谱的本体结构,从互联网文本中抽取实体和实体关系,得到扩充数据,形成完整的DHI领域知识图谱。
5.一种基于知识图谱的DHI报告解读系统,其特征在于,包括:DHI数据获取单元,用于获取牧场的DHI数据;
DHI指标数据包括本月数据和历史数据两种;本月数据直接使用DHI检测中心根据中国奶牛生产性能测定分析系统制作完成的DHI报告文件;历史数据则通过遍历历史DHI报告文件中的相关指标数据,按照既定的字段获取相关指标数据;
DHI指标数据分析单元,用于对DHI指标数据进行分析;
分析指标数据包括静态分析和动态分析两方面:静态分析是根据各项指标的本月数据,按照各指标正常范围值标准,找到异常指标,并对应形成事实描述;
动态分析是结合各指标的本月数据和历史数据,分析各指标近期的变化规律,并对应形成事实描述;
问题诊断单元,用于调取DHI领域知识图谱对动态分析的结果进行问题诊断;问题诊断单元包括问题定位模块,所述问题定位模块基于DHI领域知识图谱,将动态分析的事实描述作为“性能指标/症状”实体,计算得到事实描述由某种影响因素影响而发生的概率;
数据库,数据库用于存储DHI领域知识图谱;
所述的DHI领域知识图谱包含“性能指标/症状”、“影响因素”、“解决措施”三类实体及实体关系;“影响因素”和“性能指标/症状”两类实体构成三元组,“影响因素”和“性能指标/症状”实体之间边设置权重;
所述系统还包括众包数据获取单元;
所述众包数据获取单元用于向不同用户提供“性能指标/症状”和对应的“影响因素”选项,以及用户添加选项,用户通过添加选项添加“性能指标/症状”和“影响因素”内容;
所述众包数据获取单元还用于获取不同参与者反馈的“性能指标/症状”,以及每个“性能指标/症状”对应的“影响因素”及影响因素相应的分数;
所述系统还包括边权重计算单元,用于计算“影响因素”和“性能指标/症状”实体之间边的权重,具备包括以下步骤:
获取参与者Qn针对于“性能指标/症状i”反馈的各“影响因素j”及对应分数Ij;
基于某个性能指标/症状i,将所有的参与者对应的影响因素j进行统计得到影响因素集合J={jm},m=1,2,……,M,M为某个性能指标/症状i对应的所有影响因素的总数;
按照影响因素设置M个影响位次;
针对参与者Qn,分别对给出的影响因素j按照对应的分数进行排序;然后统计参与者Qn排在第一位的影响因素数量,将数量最多的影响因素作为第一影响位次;再统计参与者Qn排在第二位的影响因素数量,将数量最多的影响因素作为第二影响位次;依次进行统计并的得到对应的影响位次,直至得到M个影响位次;
从第一影响位次开始,至第M个影响位次结束,针对于每个影响位次分别计算对应影响位次所体现的因素的得分,包括以下步骤:针对影响位次m对应的影响因素Pj,统计参与者Qn对影响因素Pj的排序与影响位次m是一致的情况下的参与者Qn'以及Qn'给出的影响因素Pj的分数,并根据Qn'的数量计算Qn'给出影响因素Pj对应分数的平均分;所述平均分即为“影响因素Pj”和“性能指标/症状”两类实体之间的条件概率,条件概率即为“影响因素Pj”和对应“性能指标/症状”实体之间边的权重;
参与者Qn对影响因素Pj的排序与影响位次m是一致的情况,即:基于参与者Qn的排序结果,参与者Qn也将影响因素Pj排在了该参与者给出排序结果的第m位。
6.根据权利要求5所述的一种基于知识图谱的DHI报告解读系统,其特征在于,所述性能指标/症状的先验概率确定单元,用于根据历史DHI报告及牧场记录数据计算性能指标/症状的先验概率Pprior(sym),为问题诊断单元提供用于计算事实描述是由某种影响因素影响发生概率的性能指标/症状的先验概率。
7.根据权利要求5或6所述的一种基于知识图谱的DHI报告解读系统,其特征在于,所述问题诊断单元还包括指导措施建议模块,所述指导措施建议模块基于定位得到的影响因素,从DHI领域知识图谱中根据“影响因素”与“解决措施”两类实体之间的关系,确定该影响因素对应的解决措施。
8.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至4之一所述的一种基于知识图谱的DHI报告解读方法。
说明书 :
一种基于知识图谱的DHI报告解读方法、系统及存储介质
技术领域
背景技术
致判断,未能充分结合牧场生产实际进行深入分析,导致其欠缺实用性;
件未能结合专家知识给出指导性结论,因而无法有效发挥和利用DHI报告的价值。
发明内容
标/症状”实体,计算得到事实描述由某种影响因素影响而发生的概率,记为P(fac):
指标/症状”实体之间边设置权重,权重为两类实体之间的条件概率P(fac|sym),所述两类
实体之间的条件概率确定过程包括以下步骤:
者Qn排在第二位的影响因素数量,将数量最多的影响因素作为第二影响位次;依次进行统
计并的得到对应的影响位次,直至得到M个影响位次;
Qn'给出影响因素Pj对应分数的平均分;所述平均分即为“影响因素Pj”和“性能指标/症状”
两类实体之间的条件概率;
系,确定该影响因素对应的解决措施。
告文件中的相关指标数据,按照既定的字段获取相关指标数据;
描述作为“性能指标/症状”实体,计算得到事实描述由某种影响因素影响而发生的概率;
指标/症状”实体之间边设置权重。
者Qn排在第二位的影响因素数量,将数量最多的影响因素作为第二影响位次;依次进行统
计并的得到对应的影响位次,直至得到M个影响位次;
Qn'给出影响因素Pj对应分数的平均分;所述平均分即为“影响因素Pj”和“性能指标/症状”
两类实体之间的条件概率,条件概率即为“影响因素Pj”和对应“性能指标/症状”实体之间
边的权重;
描述是由某种影响因素影响发生概率的性能指标/症状的先验概率。
之间的关系,确定该影响因素对应的解决措施。
度,实现DHI报告自动解读,能够实现有效的利用DHI报告信息指导畜牧养殖过程。
效率高的优点,而且不依赖人员的经验,可以在保证提高工作效率的同时,还能够保证客观
有效的利用DHI报告的信息,进而保证解读的准确性,能够更好的辅助牧场管理人员根据实
际生产、管理情况,对照解读结果,排除并定位导致DHI测定指标异常的原因。
附图说明
具体实施方式
康状态的指标或者奶牛所体现的症状;
扩充数据,形成完整的DHI领域知识图谱。
与者对这些因素的影响程度进行排序并打分,例如:导致性能指标“脂蛋比偏高”的影响因
素有“饲料中添加过瘤胃脂肪”、“热应激”、“干物质采食量不足”、“瘤胃菌体蛋白合成不足”
等4个,分别记为I1、I2、I3、I4,参与者A排序及打分结果为I1(0.6)、I3(0.2)、I2(0.1)、I4
(0.1),参与者B排序及打分结果为I1(0.4)、I2(0.2)、I3(0.2)、I4(0.2),参与者C排序及打
分结果为I1(0.4)、I4(0.2)、I2(0.1)、I3(0.1),参与者D排序及打分结果为I1(0.5)、I3
(0.2)、I4(0.2)、I2(0.1),以此即可获得若干参与者的经验数据;
响因素,并对该位次中该影响因素的参与者打分值求平均值,作为该影响因素与该性能指
标/症状之间的权重;
的性能指标的分值总和确定为1,实际上每个分数就是对应的概率,概率总和为1,其中A四
个指标I1、I2、I3、I4打分0.6、0.1、0.2、0.1,当对其进行排序后为I1、I3、I2、I4;基于A、B、C、
D四个参与者数据,在第一位次中I1出现次数最多,因此I1处于第一位次;在第二位次中I3
出现次数最多,因此I3处于第二位次;以此类推,得到排序结果为I1、I3、I2、I4。其次,基于
确定的排序结果,按照第一位次至最后位次的顺序,选取出在相应位次中给出了对应位次
参与者的打分计算排序后处于各位次影响因素与性能指标/症状的权重,对于I1,计算参与
者A、B、C、D都在第一位次给出了I1,那么计算所有参与者给出I1打分的均值,得到I1权重为
(0.6+0.4+0.4+0.5)/4=0.475;对于I3,计算参与者A、D在第二位次给出了I3,那么计算A、D
给出I3打分的均值,得到I3权重为(0.2+0.2)/2=0.2;对于I2,计算参与者A、C打分的均值,
得到I2权重为(0.1+0.1)/2=0.1;对于I4,计算参与者A、B打分的均值,得到I4权重为(0.1+
0.2)/2=0.15。以此类推,即可得到各个性能指标/症状与各个影响因素之间的关联强度,
构成相关性系数矩阵,表示性能指标/症状与影响因素两类实体之间边的权重。
素,并同固定影响因素一起排序打分,反馈众包系统,经过统计并经过领域专家确认后,将
新的影响因素作为实体节点更新到知识图谱中,对应的权重值作为该影响因素与性能指
标/症状之间边的权重。例如:性能指标“脂蛋比偏高”的影响因素有I1、I2、I3、I4,参与者E
接到问题后,认为“蛋白质质量不理想”也可能导致“脂蛋比偏高”,则参与者E可添加该影响
因素,记为I5,并对I1、I2、I3、I4、I5进行排序打分后,反馈众包系统。
通过软件自动提取得到,该方法简单、高效,能够提供基础测定数据及相关统计指标,例如
平均产犊间隔、泌乳天数、乳脂率、蛋白率、脂蛋比、高峰奶、高峰日、持续力、尿素氮等;历史
数据则通过软件遍历历史DHI报告文件中的相关指标数据,按照既定的字段获取相关指标
数据存入数据库。
则表现为“脂蛋比偏高”;
24.4kg,则表现为“产奶量持续下降”。
牧场记录数据统计计算得到,即:性能指标的先验概率为历史DHI报告中出现该指标异常的
报告数占总报告数的比重;症状的先验概率为牧场记录数据中出现该症状的奶牛数占奶牛
总数的比重。此外,Pprior(sym)可逐月更新,例如:5月份时,计算Pprior(sym)的值采用截至4
月份的DHI报告及牧场记录数据;6月份时,计算Pprior(sym)的值采用截至5月份的DHI报告及
牧场记录数据;
克/100毫升,该牛群中高脂蛋比牛群平均尿素氮水平22.33毫克/100毫升>18毫克/100毫
升,判定该部分牛群存在“尿素氮水平过高”问题,对应生成“高脂蛋比牛群尿素氮水平过
高”的事实描述;
料蛋白过剩和能量不足”、“蛋白质质量不理想”、“饲料中的粗蛋白未被有效利用”。
定的实用性,有助于DHI测定工作在我国的全面推广。
本发明所附的权利要求的保护范围。