基于分布式协同信任管理框架的大数据信任管理系统转让专利
申请号 : CN202010135849.5
文献号 : CN111368315B
文献日 : 2021-05-04
发明人 : 郑伟发 , 苏礼楷 , 谢少群
申请人 : 广东财经大学
摘要 :
权利要求 :
1.基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,所述系统包括:信任处理代理,用于对直接管理数据源的直接可信度进行计算并存储;
大数据需求商,用于向信任处理代理发送对特定数据源的综合可信度的获取请求;
所述信任处理代理,还用于基于对特定数据源的获取请求,在所述信任处理代理所存储的直接可信度中查询结果,根据查询结果计算特定数据源的综合可信度并输出所述综合可信度至大数据需求商;
所述信任处理代理包括:
信任数据库,用于存储数据源的直接可信度和邻居信任处理代理的链接信息;
信任收集器,用于在所属信任处理代理未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过所属信任处理代理的邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
信任计算器,用于计算所属信任处理代理直接管理数据源的直接可信度、计算特定数据源的推荐可信度,以及根据信任收集器的遍历结果计算间接可信度、根据间接可信度/直接可信度和推荐可信度计算综合可信度;
信任值发布器,用于输出综合可信度至大数据需求商;
其中,所述邻居信任处理代理表示对于所述信任收集器所属的信任处理代理来说是可信任的信任处理代理,信任处理代理之间通过大数据生产和消费关系建立信任,通过信任处理代理节点与其邻居信任处理代理之间的信任关系形成信任传播网络;
所述间接可信度是遍历获取的其他信任处理代理所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成;
所述综合可信度T的计算方式为:
其中,Td(t)表示t时刻的直接可信度,Ti(t)表示t时刻的间接可信度,Tr(t)表示t时刻的推荐可信度,且 所述t表示在信任计算器计算综合可信度T的时刻;
所述间接可信度Ti(t)的计算方式为:其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数, 表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递;
所述推荐可信度Tr(t)为:
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果;PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值;
定义邻接矩阵为G,若数据源r生产数据给数据源s使用,则grs=1,否则grs=0,设t时刻大数据生产消费关系网络中有L个数据源,则邻接矩阵G为L×L的01矩阵,r≤L,s≤L;设邻接矩阵为G的列求和Cs、行求和dr分别为:cs=∑rgrs
dr=∑sgrs
其中,Cs给出了数据源s的使用其他数据源的数量,dr给出了数据源r的提供给其他数据源使用的数量;定义转移概率矩阵为M=(drs),则:设推荐向量 为用户使用数据源的概率,xL为用户选用数据源L的概率, 也是数据源的推荐向量;当数据源F为大数据生产消费关系网络的一个数据源时,PRF=xF,xF表示数据源F的排名PR值,设对于 而言,数据源排名值PRF初始值为xr=1/N,则L个数据源组成的推荐向量初始值设为 而对于推荐向量 而言, 则表示经过遍历后用户选择数据源时,用户使用每个数据源的概率分布,对 进行遍历更新的过程具体为:
其中,e表示用户选择当前数据源的概率,1‑e表示用户选择其他数据源的概率,计算时将e设定为0.85;当n→∞时, 最终收敛,并保持在一个稳定值附近,此时再使用户选择作为参考,计算数据源F对应的排名制PRF。
2.如权利要求1所述的基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,
其中,
所述信任收集器,还用于根据所属信任处理代理与其它信任处理代理之间产生的生产和消费关系建立其它信任处理代理对于所属信任处理代理的单向信任关系;
所述信任数据库,还用于根据其它信任处理代理对于所属信任处理代理的单向信任关系,存储所述的其它信任处理代理的链接信息为所属信任处理代理的邻居信任处理代理。
3.如权利要求1所述的基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,
所述信任计算器用于计算所属信任处理代理直接管理数据源的直接可信度,具体为获取直接管理数据源的信用评价并将所述信用评价按D‑S证据的识别框架和直接管理数据源的评价属性进行分类;
根据直接管理数据源的评价属性的分类结果确认直接管理数据源对应的基本概率分配函数并对所述基本概率分配函数进行证据合成以获取直接管理数据源对应的信任函数及似然函数;
根据直接管理数据源对应的信任函数及似然函数计算直接可信度。
4.如权利要求3所述的基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,对于焦元A而言,可能性计算公式为:对于直接可信度Td(t)而言,焦元A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
其中,|A|和|Θ|分别代表焦元A和识别框架Θ所包含的元素数量,|{T}|=1,|{T,‑T}|=2,所述Pl(A)为D‑S证据理论中的似然函数,所述Bel(A)为D‑S证据理论中的信任函数,所述Pl(A)和Bel(A)用于组成信度区间[Bel(A),Pl(A)]以表示对A的确认程度,A表示识别框架Θ的焦元,{T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为信任,{T,‑T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不确定,在验证直接可信度时,所述识别框架Θ包括信任{T}、不信任{‑T}、不确定{T,‑T}这3个焦元,{‑T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不可信。
5.如权利要求4所述的基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,
其中,
所述信任计算器用于根据信任收集器的遍历结果计算间接可信度,具体为:根据信任收集器的遍历结果确认所属信任处理代理从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径,并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度。
6.如权利要求3所述的基于分布式协同信任管理框架的大数据信任管理系统,其特征在于,所述证据合成计算为:
设对特定数据源的n个mass函数进行证据合成计算,则所述证据合成公式为:所述K为归一化常数,具体为:
其中, 为正交和运算,An表示识别框架Θ的子集,所述Bel(A)及Pl(A)需基于证据合成的计算结果中的信任多元组{m(A1),m(A2)…m(An)}进行计算,所述信任多元组中的m(An)表示集合An的基础概率函数,A为焦元A。
说明书 :
基于分布式协同信任管理框架的大数据信任管理系统
技术领域
背景技术
据数据源的时候,如果能够通过大数据可信计算技术对各种数据源的可信程度(可信包括
服务质量、数据真实程度)进行定量评估,评估结果将能成为大数据需求方选购大数据的客
观依据,但在数据源的选择过程中,大数据用户往往无法直接获取到目标信息源的可信度,
这就导致了用户与数据源之间的传输存在较大的不确定性,尤其是在去中心化的场景下。
为使数据节点之间的信任度有一个较为准确的参照,人们在数据传输框架中加入了信任代
理这一重要角色,用户可以通过信任代理及其相关的模块对信号源的可信度进行评估或验
证,这在一定程度上解决了节点之间不确定性的问题。但同时,由于信用代理的判断是机械
性的,这便导致存在恶意的数据源能够有机可乘,而信用代理之间的环境更是存在实际性
的差异,对于数据源的评价更是无法统一,这便导致了大数据环境下对大数据节点的信任
评估存在的多维属性和不确定性的问题。
发明内容
性的技术问题。
综合可信度至大数据需求商。
络的数据交互节点之间的信任问题,当大数据需求商存在对数据源可信度的查询需求时,
大数据需求商可以通过信任处理代理对数据源的可信度进行查询,信任处理代理对数据源
的可信度进行计算以得到综合可信度。以综合可信度为参考标准,大数据客户可以更直接
有效地对数据源的可信度进行判断,解决了大数据环境下对大数据节点的信任评估存在的
多维属性和不确定性的问题。
播网络内的其他信任处理代理进行遍历以获取遍历结果;
度/直接可信度和推荐可信度计算综合可信度;
进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价。
行评价,通过直接可信度、间接可信度、推荐可信度的综合计算,任何大数据需求商在采购
大数据的时候都可以得到该数据的综合可信度。通过分布式的信任处理代理的收集、存储
和计算大数据数据源DS的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据
源可信度的系统。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代
理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网
络对该数据源的可信度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理
着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理
代理的链接信息,直接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任
处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进
行查询,在能够查到的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任
处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任
处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信
度;同时,信任处理代理的信任计算器对特定数据源的推荐可信度进行查询;最后,信任处
理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,
并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据
源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处
理代理而言是可信任的其他信任处理代理。
代理。
过信任传播网络能够从其他信任处理代理上得到关于某个数据源的可信度。如果大数据需
求商需要查询的数据源的直接可信度不在大数据需求商所对应的信任处理代理的存储或
管理范围内,则信任处理代理需要根据查询请求在信任传播网络内进行查询,直到查询完
所述大数据需求商对应的信任处理代理可查询到的所有其他信任处理代理。因此对于信任
传播网络而言,信任处理代理对应的存储的数据源可信度都能通过邻居信任处理代理之间
的信任关系在信用传播网络内互相共享,这不仅提升了大数据数据源的可信度查询成功
率,更使得可信度的来源更安全且有迹可循,进一步地提升了本发明所述系统对可信度数
据的处理能力的同时,还提升了可信度的有效性。
函数及似然函数;
述评价属性为最能够判定数据源可信度的识别框架内的焦元。对于基于D‑S证据理论的识
别框架而言,其焦元是用于区分最终结果选项的主要因素,对于可信度的焦元优先选择“可
信”、“不可信”及“不确定”(在考虑到Zadeh悖论的情况下不一定),而对于多次的数据评价,
本发明可以通过识别框架对其进行切割,然后通过证据合成规则得到用于计算数据源可信
度的信任函数及似然函数。
计算器计算综合可信度T的时刻。
据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理
代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使
用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理
代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计
算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于
综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可
信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设
置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
函数,所述Pl(A)和Bel(A)用于组成信度区间[Bel(A),Pl(A)]以表示对A的确认程度,A表示
识别框架Θ的焦元,{T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为
信任,{T,‑T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不确定,所
述识别框架Θ包括信任{T}、不信任{‑T}、不确定{T,‑T}这3个焦元,{‑T}表示信任计算器所
属的信任处理代理与特定数据源之间的关系为不可信。
中,由数据源可信度的识别因素所衍生的识别框架存在{T}、{‑T}、{T,‑T}三个焦元,同时根
据数据源的可信度特征,选取数据源性能E1、数据源数据规范性E2、数据项空值频率E3、数
据到达率E4作为证据属性,其中数据源性能由信任处理代理通过大数据平台的CPU、内存、
磁盘I/O、负载等客观数据技术获得,数据源数据规范性、数据项空值频率、数据到达率通过
数据源的主观评价获得,所述焦元分别对应着数据源最直观的三种状态信任{T}、不信任{‑
T}、不确定{T,‑T},所述识别框架用于评价数据源的证据属性,而本发明基于所述识别框架
的信度区间的构成方式设定的可信度判断方式可以将多次评价的不同数据进行综合考量,
进而使得本发明能够输出可靠的可信度。
源的直接可信度及特定数据源的直接可信度的获取路径,并根据特定数据源的直接可信度
及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度。
为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到
TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要
对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据
进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,
在将可信度数据进行聚合的同时还使计算结果更为准确。
示第x条路径上第y个信任处理代理的衰减系数, 表示信任的聚合算法或表示算术平均,
表示信任处理代理之间的直接可信度的传递。
本发明通过设置了基于获取路径的可信度聚合算法以获得间接可信度,因此本发明所述的
间接可信度实际上是通过信任传播网络上的多个传播路径聚合计算得出。由于可信度的获
取路线可能不唯一,这就导致大数据服务商对应的信任处理代理如何通过其他信任处理代
理去评价特定数据源的可信度成为了一个难题,通过随机的单一路径对特定数据源进行评
价则容易使得判断的结果不够全面,而本发明对于多个路径聚合计算的可信度是基于获取
路径上信任处理代理的可信度衰减进行聚合计算获得的,这使得本发明所述的间接可信度
是一个全面的可信度计算结果,避免了间接获取可信度计算中考虑不够全面的问题。
一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和
最小排名值。
率矩阵为M=(drs),则:
数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排
名PR值,设对于 而言,数据源排名值PRr的初始值为xr=1/L,则L个数据源组成的推荐向量
初始值设为 而对于推荐向量 而言, 则表示经过n次遍历后用户选择
数据源时,用户使用每个数据源的概率分布,对 进行历遍更新的过程具体为:
择 作为参考,计算数据源F对应的排名值PRF。
率矩阵M,初始的推荐向量经过多次迭代,最后收敛于最终推荐向量。推荐可信度需要根据
整个大数据生产消费关系网络进行计算,本发明通过数据源之间的生成和消费关系及数据
源的评价来计算推荐信任。所有数据源都可以以e为经验值,经验值在这里表示用户选择当
前数据源的概率,也就是特定数据源以一定概率生产数据给其他数据源使用的经验值,用
于避免算法出现沉淀现象。最终通过结合推荐可信度进行综合可信度的计算以解决可信度
考虑的因素不够全面的问题。
(An)表示集合An的基础概率函数。
处理代理未存储有特定数据源的可信度的情况下,本发明在遍历邻居信任处理代理计算间
接可信度时,还通过考虑了获取可信度的路径进而提升了间接可信度的有效性;基于改进
D‑S证据理论算法的直接可信度能够对数据源的状态有更好的判定;设置并使用推荐信用
度降低了信任处理代理在计算综合可信度时的数据偏离。
附图说明
具体实施方式
人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
综合可信度至大数据需求商。
数据数据源的可信属性值,需求商在使用大数据数据源的过程中也不断对数据源进行评
价,通过直接可信度、间接可信度、推荐可信度的综合计算,任何大数据需求商在采购大数
据的时候都可以得到该数据的综合可信度。通过分布式协同信任管理框架,设置信任处理
代理用以专门处理大数据网络的数据交互节点之间的信任问题,当大数据需求商存在对数
据源可信度的查询需求时,大数据需求商可以通过信任处理代理对数据源的可信度进行查
询,信任处理代理对数据源的可信度进行计算以得到综合可信度。以综合可信度为参考标
准,大数据客户可以更直接有效地对数据源的可信度进行判断,解决了大数据环境下对大
数据节点的信任评估存在的多维属性和不确定性的问题。
播网络内的其他信任处理代理进行遍历以获取遍历结果;
度/直接可信度和推荐可信度计算综合可信度;
可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的
评价。本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS
的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的系统。直接可
信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对
应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对对应数据源的可信
度。在具体实施过程中,在可以直接获得/计算直接可信度的情况下,可以直接将直接可信
度作为综合可信度输出,还可以根据直接可信度/间接可信度结合推荐可信度来计算综合
可信度。
息,供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可
信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,
信任处理代理获取直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和
邻居信任处理代理的链接信息来对信任传播网络内其他的信任处理代理进行遍历查询,信
任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理的信
任计算器对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推
荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输
出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理
代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他
信任处理代理。
代理。在本发明中,信任处理代理之间通过大数据生产和消费关系建立信任,通过信任处理
代理与其邻居信任处理代理之间的信任关系形成信任传播网络。信任处理代理通过信任传
播网络能够从其他信任处理代理上得到关于某个数据源的可信度。如果大数据需求商需要
查询的数据源的直接可信度不在大数据需求商所对应的信任处理代理的存储或管理范围
内,则信任处理代理需要根据查询请求在信任传播网络内进行查询,直到查询完所述大数
据需求商对应的信任处理代理可查询到的所有其他信任处理代理。因此对于信任传播网络
而言,信任处理代理对应的存储的数据源可信度都能通过邻居信任处理代理之间的信任关
系在信用传播网络内互相共享,这不仅提升了大数据数据源的可信度查询成功率,更使得
可信度的来源更安全且有迹可循,进一步地提升了本发明所述系统对可信度数据的处理能
力的同时,还提升了可信度的有效性。
函数及似然函数;
述评价属性为最能够判定数据源可信度的识别框架内的焦元。对于基于D‑S证据理论的识
别框架而言,其焦元是用于区分最终结果选项的主要因素,对于可信度的焦元优先选择“可
信”、“不可信”及“不确定”(在考虑到Zadeh悖论的情况下不一定),而对于多次的数据评价,
本发明可以通过识别框架对其进行切割,然后通过证据合成规则得到用于计算数据源可信
度的信任函数及似然函数。
计算器计算综合可信度T的时刻。
据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理
代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使
用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理
代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计
算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于
综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可
信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设
置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
函数,所述Pl(A)和Bel(A)用于组成信度区间[Bel(A),Pl(A)]以表示对A的确认程度,A表示
识别框架Θ的焦元,{T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为
信任,{T,‑T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不确定,在
验证直接可信度时,所述识别框架包括T和‑T两个元素,因此所述识别框架Θ包括信任{T}、
不信任{‑T}、不确定{T,‑T}这3个焦元,{‑T}表示信任计算器所属的信任处理代理与特定数
据源之间的关系为不可信。
中,由数据源可信度的识别因素所衍生的识别框架存在{T}、{‑T}、{T,‑T}三个焦元,同时根
据数据源的可信度特征,选取数据源性能E1、数据源数据规范性E2、数据项空值频率E3、数
据到达率E4作为证据属性,其中数据源性能由信任处理代理通过大数据平台的CPU、内存、
磁盘I/O、负载等客观数据技术获得,数据源数据规范性、数据项空值频率、数据到达率通过
数据源的主观评价获得,所述焦元分别对应着数据源最直观的三种状态信任{T}、不信任{‑
T}、不确定{T,‑T},所述识别框架用于评价数据源的证据属性,而本发明基于所述识别框架
的信度区间的构成方式设定的可信度判断方式可以将多次评价的不同数据进行综合考量,
进而使得本发明能够输出可靠的可信度。
源的直接可信度及特定数据源的直接可信度的获取路径,并根据特定数据源的直接可信度
及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度。
理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通
过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候
我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取
到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进
行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
可聚合性,假设信任网络中存在多条信
任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,这时就产生了信任
聚合问题,例如TPBC可通过TPBC→TPBB→TPBA这条路径与TPBA建立信任关系,也可通过TPBC
→TPBD→TPBE→TPBA这条路径与TPBA建立关系,因此计算TPBc与TPBA的信任值的时候我们需
要对这两条路径进行聚合计算,即:
其中, 表示信任的聚合
算法,本计算框架采用算术平均进行计算;非对称性,大数据的信任关系是通过生产和消费
建立的,TPBB信任TPBA的数据,并不代表TPBA就信任TPBB的数据,因此在本发明中信任并不
具有对称性。
示第x条路径上第y个信任处理代理的衰减系数, 表示信任的聚合算法或表示算术平均,
表示信任处理代理之间的直接可信度的传递。
本发明通过设置了基于获取路径的可信度聚合算法以获得间接可信度,因此本发明所述的
间接可信度实际上是通过信任传播网络上的多个传播路径聚合计算得出。由于可信度的获
取路线可能不唯一,这就导致大数据服务商对应的信任处理代理如何通过其他信任处理代
理去评价特定数据源的可信度成为了一个难题,通过随机的单一路径对特定数据源进行评
价则容易使得判断的结果不够全面,而本发明对于多个路径聚合计算的可信度是基于获取
路径上信任处理代理的可信度衰减进行聚合计算获得的,这使得本发明所述的间接可信度
是一个全面的可信度计算结果,避免了间接获取可信度计算中考虑不够全面的问题。
一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和
最小排名值。
率矩阵为M=(drs),则:
数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排
名PR值,设对于 而言,数据源排名值PRr的初始值为xr=1/L,则L个数据源组成的推荐向量
初始值设为 而对于推荐向量 而言, 则表示经过n次遍历后用户选择
数据源时,用户使用每个数据源的概率分布,对 进行历遍更新的过程具体为:
择 作为参考,计算数据源F对应的排名值PRF。
率矩阵M,初始的推荐向量经过多次迭代,最后收敛于最终推荐向量。对最终推荐向量值进
行归一化处理后,得到数据源的推荐可信度。推荐可信度需要根据整个大数据生产消费关
系网络进行计算,本发明通过数据源之间的生成和消费关系及数据源的评价来计算推荐信
任。所有数据源都可以以e为经验值,经验值在这里表示用户选择当前数据源的概率,也就
是特定数据源以一定概率生产数据给其他数据源使用的经验值,用于避免算法出现沉淀现
象。最终通过结合推荐可信度进行综合可信度的计算以解决可信度考虑的因素不够全面的
问题。在实际应用时,直接可信度或间接可信度其实都可以作为直接依据判断数据源是否
可信,但通过结合推荐可信度所计算的综合可信度可以进一步地避免数据可信度被修改。
(An)表示集合An的基础概率函数。
的评价,属性E1、E2、E3、E4的评价值分别为a1,a2,a3,a4,可得:
{‑T} m12 m22 m32 m42
{T,‑T} m13 m23 m33 m43
据网络中往往是灵活多变的,对于大数据提供商所提供的数据源,大数据需求商基本上是
无法直接确定其安全性的,因此通过权威有效的途径去确认大数据提供商所提供的数据源
的可信度是从业者在本领域所研究的一个重要方向。信任处理代理是一个中立且公正的可
信度判断中介,大数据需求商可以通过其对大数据提供商的可信度进行确认,同时,由于单
个的信任处理代理存在局限性,因此,信任处理代理还能通过生成消费关系建立信任传播
网络,当信任处理代理之间存在生产消费关系时,消费的一方可以将生产的一方标记为邻
居信任处理代理,同时这种标记是单向的,即信任处理代理A是信任处理代理B的邻居信任
处理代理,但不表示信任处理代理B是信任处理代理A的邻居信任处理代理。通过信任处理
代理,大数据需求商便可以解决大数据环境下对大数据节点的信任评估存在的多维属性和
不确定性的技术问题。
属性及评价属性对应的可信评价;
性而遇到判定效果不准确的问题。在本发明中,数据源由信任处理代理进行管理,大数据需
求商可以通过信任处理代理对数据源的可信度进行判定,因此信任处理代理如何去获取可
供大数据需求商进行参考的可信度便是解决所述技术问题的主要核心之一。在本发明中,
信任处理代理通过对其所直接管理的数据源的直接可信度进行计算,所述直接可信度可以
体现直接管理数据源对于其所属的信任处理代理而言是否是可以信任的,而基于数据源的
直接可信度,信任处理代理可以将是否可信的结果返回给大数据需求商,以此完成对数据
源的可信度评估。信任处理代理用于处理其所管理的数据源的可信度,相对于直接由大数
据需求商进行处理,信任处理代理能够综合大数据网络中的信息对其所管理的数据源的直
接可信度进行判定,因此所述判定结果所能考虑的因素更多,且在大数据环境中,信任处理
代理能够降低评估所产生的风险,避免了有害数据源对大数据需求商造成的直接危害,解
决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。其
中,一个信任处理代理能够管理多个数据源,一个数据源也能被多个信任处理代理所管理,
评价属性包括数据规范性、数据项空值频率、数据到达率,主观评价具体为大数据需求商对
评价属性的评价值,并发送给信任处理代理,而客观属性则为数据源性能,可以是通过大数
据数据源的代理获得并发送给信任处理代理。
体包括;
数;
规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为
对直接数据源的评价属性的评价,所述信任值数据库存储有至少两个评价属性及每个评价
属性对应的至少四个mass函数;
骤具体包括:
决的技术问题是信任评估存在的多维属性和不确定性问题,基于上述理论,如何获取准确
有效的基础概率函数便是解决问题的关键所在。本发明通过对评价数据的综合判定来对基
础概率函数即mass函数对应的焦元即评价属性的权重进行调整,来获取更为有效的基础概
率函数,进而使得所述直接可信度更能体现数据源是否可信。
评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时
数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源
所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示
有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],
在fij=0时,令fijlnfij=0。
管理数据源的可信评价,通过计算信息熵来对单个评价属性的可确定性进行计算。其中,fij
是计算属性j信息熵过程的中间变量,aij第i次评价时第j个属性在第j个属性所有评价的比
重就是fij。经典D‑S证据理论中的合成规则应用存在一些缺陷和局限性,当证据间没有冲突
或低冲突时,证据的推理基本正常,但当证据之间严重冲突时,组合结果往往与实际情况不
相符合,即组合规则无法处理冲突。对于发明中的客观属性数据源性能属性值可以直接从
数据源进行采集,而对于数据源数据规范性、数据项空值频率、数据到达率这样的主观评价
则是从数据源用户处采集到的。熵理论认为信息熵越小,信息的效用值越大,指标的权重越
大。本发明根据熵理论,动态计算证据的信息熵大小,形成修正系数,利用修正系数修正基
本概率分配(BPA),以改进Dempster合成规则,降低证据的冲突程度。
集频率的数据或评价进行插值以保证主观评价和客观属性的采集频率保持一致,例如客观
属性E1每周采集一次,主观评价属性E2、E3及E4每月采集一次,则计算的时候按每月采集四
次(即每周一次)计算,在一个月的数据采集范围内,p=4,a11、a21、a31、a41为ai1每周采集后
直接计算得到的数据,a12、a13、a14为第一周采集后计算得到的数据,均为实际采集获得的数
据。但当i=2,3,4时,即每月的第二、三、四周时,ai2、ai3、ai4,没有采集主观数据,则用第一
周a12、a13、a14的值进行插值,即令ai2=a12,ai3=a13,ai4=a14。
函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度
的可参考价值更高。
调整具体为:
一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,
仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
成规则可以对评价属性的重要性进行区分,从而有效地缓解证据合成时由于重要性不同而
引起的冲突。
的数据mpj(A)做为mj(A)所对应的函数。
以获取遍历结果;
度;
据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系
的至少两个信任处理代理组成。
可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的
对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对该数据源的可信
度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处
理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,直
接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据
源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到
的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任处理代理则通过信任
收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任处理代理进行遍历查
询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理
对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度
结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,
所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代
理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理
代理。
步骤具体包括;
的直接可信度的获取路径计算特定数据源的间接可信度;
理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通
过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候
我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取
到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进
行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
信任{T}、不信任{‑T}、不确定{T,‑T}这3个焦元,{‑T}表示特定数据源为不可信任的,{T}表
示特定数据源为可信任的,{T,‑T}表示特定数据源为不确定是否可信任的;
示第x条路径上第y个信任处理代理的衰减系数, 表示信任的聚合算法或表示算术平均,
表示信任处理代理之间的直接可信度的传递;
一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和
最小排名值。
据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理
代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使
用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理
代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计
算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于
综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可
信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设
置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
用基于本发明所述的系统及方法,在大数据提供商安装部署有信任处理代理(TPB)、数据需
求商安装有信任评估代理(TEA),通过信任处理代理的协调工作,从而为在平台上交易的大
数据数据源建立可信网络,对每个数据源的可信程度进行评估,为大数据需求商提供决策
依据。
提供商,也是大数据需求商(DS),而D不进行二次销售,因此D仅是大数据需求商。
数据源;P4为车辆维修保养记录的大数据数据源。大数据提供商A能提供P1和P2对应的两种
数据,大数据提供商B能提供P3对应的数据,大数据提供商C能提供P4对应的数据。
提供商C在生产车辆维修保养记录大数据P4时使用了P1、P2和P3的数据。
据生产消费关系如图5所示。在生产消费关系图中,箭头指向被使用的数据及其数据源。
1,其中E1为数据源性能,数据源上的agent收集数据源P1的CPU、内存、磁盘I/O、负载等客观
数据后,把收集的数据发送给TPB进行计算,得到ai1。而数据源数据规范性E2、数据项空值频
率E3、数据到达率E4的评价值则通过DU的主观评分获得,大数据用户通过信任评估代理
(TEA)分别填写对数据源的主观评价属性E2、E3、E4的评分ai2、ai3、ai4。
率越高,属性值越低,vram为为第i次评价时数据源所在服务器的内存总量,vuram为第i次评
价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数
据源所在服务器的网络带宽,vunet为为第i次评价时数据源所在服务器已使用的网络带宽。
上述数据均可通过操作系统直接采集。所述的四个客观数值在判定数据源性能上都具备较
为优秀的代表性,所述客观属性的计算公式在于通过这四个客观数值之间的联系对其进行
在评价值计算上的归一化处理,使得信任处理代理能够基于数据源的客观数值来获取数据
源所对应的有效可信评价。
而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),
且:
得焦元{T},{‑T},{T,‑T}对应的基础概率分配,计算结果见表二。
{‑T} 0.135876 0.609082 0.098033 0.239434
{T,‑T} 0.135876 0.195459 0.098033 0.380283
对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直
接可信度的可参考价值更高。
令fijlnfij=0。
0.23893 0.31238 0.260956 0.187734
应的mass函数进行调整具体为:
{‑T} 0.032465 0.190265 0.025582 0.04495
{T,‑T} 0.793535 0.748677 0.764627 0.883658
可信性度为:
信任的真实性。TPB_A对数据源P1的直接信任度存储在TPB_A的信任值数据库中。
示第x条路径上第y个信任处理代理的衰减系数, 表示信任的聚合算法或表示算术平均,
表示信任处理代理之间的直接可信度的传递。
值,它是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生
产消费关系网络中的最大排名值和最小排名值。
率矩阵为M=(drs)
数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排
名PR值,设对于 而言,数据源排名值PRr的初始值为xr=1/L,则L个数据源组成的推荐向
量初始值设为 而对于推荐向量 而言, 则表示经过n次遍历后用户选
择数据源时,用户使用每个数据源的概率分布,对 进行历遍更新的过程具体为:
推荐向量,排名越高用户选择的概率就越高。任意t时刻通过计算大数据生产消费关系网络
中L个数据源的转移概率矩阵M,初始推荐向量经过多次迭代,最后收敛于最终推荐向量。对
最终推荐向量值进行归一化处理,便可到数据源的推荐可信度。
P2、P4,数据源P4没有消费者。求得邻接矩阵G为:
而言是可信的。
任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。