基于因果的模型双重检查方法、系统、设备及存储介质转让专利

申请号 : CN202211136771.4

文献号 : CN115700546A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 冯福利邓迅王翔何向南

申请人 : 中国科学技术大学

摘要 :

本发明公开了一种基于因果的模型双重检查方法、系统、设备及存储介质,可以准确的评估模型推理结果(分类预测结果)是否可靠,同时,在认定推理结果不可靠时,可以结合评估出的一致性结果对模型的推理结果进行有效进行修正,本发明对于各种分类模型均有效,且对干扰的鲁棒性更强。

权利要求 :

1.一种基于因果的模型双重检查方法,其特征在于,包括:

将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;

获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;

当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

2.根据权利要求1所述的一种基于因果的模型双重检查方法,其特征在于,所述通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本包括:所述事实样本生成过程中包含多个中介变量,从中选取指定中介变量,并将其取值由T改为其他取值Ty,并通过下述方式生成反事实样本的特征其中,X与Y为随机变量,分别表示样本特征和类别,x表示事实样本的特征, 表示假设类别Y等于真实类别 时的样本特征, 表示真实类别为 时指定中介变量的取值,为事实样本的指定中介变量的取值, 代表将指定中介变量的取值T改为其他取值Ty后得到的反事实样本特征,E表示期望,y为假设的反事实样本的类别,y∈[1,C],C为类别数目,表示类别为y的反事实样本的特征。

3.根据权利要求1所述的一种基于因果的模型双重检查方法,其特征在于,所述评估所述事实样本与每个类别的反事实样本的一致性包括:设置孪生子网络,通过所述孪生子网络评估所述事实样本与每个类别的反事实样本的一致性,评估一致性时,带入各样本的特征进行计算;定义一个搜索任务来训练所述孪生子网络,将事实样本的特征x设为搜索对象,将所有反事实样本的特征 划分为正负样本,y表示一个类别,C为类别数目;正样本为与事实样本的特征x类别相同的反事实样本的特征 即 将正样本记为 为事实样本的真实类别,为分类预测结果中概率最高的类别;负样本为其他类别的反事实样本的特征 即 y′为负样本的类别。

4.根据权利要求3所述的一种基于因果的模型双重检查方法,其特征在于,孪生子网络的训练损失为如下三元损失函数:其中,表示训练后的孪生子网络的参数; 表示事实样本的特征x与负样本的一致性结果, 表示事实样本的特征x与正样本 的一致性结果,α为设定的超参数。

5.根据权利要求1所述的一种基于因果的模型双重检查方法,其特征在于,所述结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠表示为:其中, 表示对比可信度,δ为克罗内克函数,仅当括号中的两个参数相同时等于1,否则为0; 表示事实样本x与反事实样本 的一致性结果,y∈[1,C],y表示一个类别,C为类别数目; 表示输出一致性结果最高的反事实样本对应的类别;为分类预测结果中概率最高的类别;

若 则表示分类模型的分类预测结果可靠;若 则表示分类模型的分类预

测结果不可靠。

6.根据权利要求1所述的一种基于因果的模型双重检查方法,其特征在于,将根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改包括:设置一个修改模型,其输入为所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果;所述修改模型将所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果堆叠为矩阵,再根据矩阵中的信息修改所述分类预测结果。

7.根据权利要求6所述的一种基于因果的模型双重检查方法,其特征在于,所述修改模型包括依次设置的:堆叠层,一维卷积层和两个全连接层;其中:所述堆叠层,用于将所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果堆叠为矩阵,矩阵记为 其中,表示分类预测结果,它是一个向量,每一元素表示属于对应类别的概率;表示事实样本与每个类别的反事实样本的一致性结果,它是一个向量,每一元素表示单个类别反事实样本和事实样本之间的一致性结果;R为实数集,C为类别数目;堆叠时,矩阵每一列为所述分类预测结果中某一类的概率值以及相应类别的反事实样本与事实样本的一致性结果,即矩阵的第i列A[i]对应的是分类预测结果中概率第i大的类别的概率值以及相应类别的反事实样本和事实样本的一致性结果值,i∈[1,C],C为类别数目;

一维卷积层包括若干一维卷积滤波器,每个一维卷积滤波器用于独立提取堆叠层输出矩阵内部的规律并输出到第一个全连接层;

两个全连接层依次连接,用于整合一维卷积层输出的特征,并由第二个全连接层输出修正后的分类预测结果。

8.一种基于因果的模型双重检查系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:反事实生成模型,将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;

一致性评估模型,获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;

修改模型,当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。

9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

说明书 :

基于因果的模型双重检查方法、系统、设备及存储介质

技术领域

[0001] 本发明涉及机器学习和因果推理领域技术领域,尤其涉及一种基于因果的模型双重检查方法、系统、设备及存储介质。

背景技术

[0002] 深度学习在近十年内飞速发展,神经网络模型在视觉,自然语言和推荐系统等场景得到了广泛的应用。现有的应用中,模型通常是在线上训练好,然后直接部署于线下的测试场景中。此时模型往往会不加区分地处理各种数据,但它对难样本的推理结果往往是不可靠的。为了解决模型过于简单的单通推理过程(即对每个数据只通过一次前向传播)导致的在难样本上性能骤降的问题,现有的研究从模型的后处理技术以及因果推断等角度进行了探索。
[0003] 后处理通常基于启发式的策略。一些研究利用集成学习的方式来整合多个模型的预测,但难样本往往会让大部分模型给出的预测结果均置信度较低,最终使集成的效果不理想。有些研究则在特定的问题上基于领域知识来人为设计规则用以检查模型预测结果,但这些方法往往难以迁移到其他场景中。
[0004] 为了让模型更好的处理难样本,基于因果的视角来改善训练数据或者训练方案的研究近来得到较多的关注。一些研究从数据角度出发,认为模型性能下降是因为模型没有根据数据中因果稳定的特征来做预测,因此针对训练样本通过修改其中因果的特征来生成反事实样本,并一同用于训练。另外一些研究不仅仅做反事实样本生成,还考虑利用反事实样本来改变训练方案。然而这些方法没有赋予模型反思自身决策结果的能力,因此,如何使模型学会对自身决策结果进行检查和修正(双重检查)是目前亟待解决的技术问题。

发明内容

[0005] 本发明的目的是提供一种基于因果的模型双重检查方法、系统、设备及存储介质,具备反思推理结果并进行修正的能力。
[0006] 本发明的目的是通过以下技术方案实现的:
[0007] 一种基于因果的模型双重检查方法,包括:
[0008] 将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;
[0009] 获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;
[0010] 当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。
[0011] 一种基于因果的模型双重检查系统,包括:
[0012] 反事实生成模型,将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;
[0013] 一致性评估模型,获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;
[0014] 修改模型,当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。
[0015] 一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0016] 其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0017] 一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0018] 由上述本发明提供的技术方案可以看出,可以准确的评估模型推理结果(分类预测结果)是否可靠,同时,在认定推理结果不可靠时,可以结合评估出的一致性结果对模型的推理结果进行有效进行修正,本发明对于各种分类模型均有效,且对干扰的鲁棒性更强。

附图说明

[0019] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0020] 图1为本发明实施例提供的一种基于因果的模型双重检查方法的流程图;
[0021] 图2为本发明实施例提供的数据生成的因果图的原理示意图;
[0022] 图3为本发明实施例提供的一种基于因果的模型双重检查方法的框架图;
[0023] 图4为本发明实施例提供的实验结果的示意图;
[0024] 图5为本发明实施例提供的一种基于因果的模型双重检查系统的示意图;
[0025] 图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

[0026] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0027] 首先对本文中可能使用的术语进行如下说明:
[0028] 术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
[0029] 术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0030] 下面对本发明所提供的一种基于因果的模型双重检查方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
[0031] 实施例一
[0032] 本发明实施例提供一种基于因果的模型双重检查方法,如图1所示,主要包括如下步骤:
[0033] 步骤1、将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本。
[0034] 本发明实施例中,主要涉及具体任务中因果图中的假设,即具有至少两个中介变量,可以通过干预其中一个中介变量来生成反事实样本。
[0035] 步骤2、获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠。
[0036] 本发明实施例中,分类模型可以为图像分类模型,也可以为文本分类模型;相应的,根据分类模型的不同,输入样本为图像或者文本。
[0037] 本发明实施例中,图像分类模型与文本分类模型都可以是各类现有模型,其通过推理获得分类预测结果。对于图像分类模型,输出的分类预测结果为图像中目标的类别;文本分类模型,根据文本分类任务的不同,分类预测结果也存在差异,例如,文本分类任务中的情感分析任务,分类预测结果为文本的情感类别。
[0038] 步骤3、当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。
[0039] 本发明实施例上述方案对于各种分类模型均有效,例如,可以应用到各种图像识别系统中(比如,某购物平台),在原有的图像识别模型基础上,通过本发明提出的双重检查方法,可以减少模型对难样本(不能通过双重检查框架中的一致性评估的样本)做出的明显错误的决策被直接用于下游任务而引发的不必要的问题,增强了模型对于决策结果反馈的概率的可信度。同时,对于本发明给出的少部分反馈(对所述分类预测结果进行修改的相关信息内容),在系统中还可以引入代价较大的超大模型或者人类进行核验,进一步提升系统的上限。
[0040] 下面通过以图像分类问题为例,详细介绍本发明提供的双重检查方法的原理。
[0041] 为了实现双重检查,分类模型需要具备两个能力:评估模型推理结果的可靠性,以及对不可靠的结果进行合理修改。
[0042] 一、评估模型推理结果的可靠性。
[0043] 假设分类模型做出不可靠推理是因为错误地识别了样本特征。基于此,双重检查从相反的方向出发来判断特征识别的可靠性:首先假设分类模型预测的类别是正确的,然后想象事实样本匹配上该类别的特征后的反事实样本,并估计事实样本和想象的反事实样本之间的一致性,可以基于此判断原本推理结果的可靠性。因此,建模第一个能力的关键在于反事实思考的建模和一致性评估。
[0044] 需要说明的是,本发明实施例中是以样本(事实样本与反事实样本)作为介绍对象,但实际操作中,参与计算的是样本的特征。
[0045] 对于C分类问题,将事实样本的特征记为x,真实类别记为 传统的反事实样本的特征定义为:
[0046]
[0047] 其中,X和Y为随机变量,分别代表样本特征和类别,y为假设的反事实样本的类别;XY=y表示通过干预使变量Y的值为假设的类别y时,得到的反事实样本特征,因此当即真实类别时,反事实样本特征 即为事实样本的特征x。但是,实际并不能根据上述式子来估计反事实样本的特征,一方面,在测试时真实类别 是未知的,另一方面,并不知道数据生成过程的完整因果图,难以做到对其中所有的中介变量进行干预。
[0048] 如图2所示,展示了数据生成的因果图的原理。如图2左侧部分所示,难以对事实样本特征生成过程的完整因果图中的所有中间变量进行干预,针对这一问题,将假设条件放松为仅干涉一个中介变量:T=Ty,其中T为因果图中从Y到X的路径上的一个关键中介变量,此时,生成反事实样本特征的因果图如图2右侧所示。
[0049] 基于上述原理,本发明实施例中,从事实样本的特征生成过程中包含的多个中介变量中选取指定中介变量,并将其取值由T改为其他取值Ty,并通过下述方式生成反事实样本的特征
[0050]
[0051] 其中,X与Y为随机变量,分别表示样本特征和类别, 是条件部分,代表在反事实样本的特征生成时,当假设的类别恰好是真实的类别 时,生成的特征 和实际的特征x是相同的, 表示真实类别为 时指定中介变量的取值,为事实样本的指定中介变量的取值, 代表将指定中介变量的取值T改为其他取值Ty后得到的反事实样本特征。当然,这是理想情况,实际中不会完全一样,E表示期望,y为假设的反事实样本的类别,y∈[1,C],C为类别数目, 表示类别为y的反事实样本的特征。
[0052] 在物体识别任务中的中介变量可以是形状和纹理。优选的,本发明对纹理这个中介变量进行干预操作(T在下文均代表纹理变量),只要各个类别的TY=y之间是可判别的则生成的反事实样本的特征便是可判别的(在类别上具有区分性),此处的TY=y也即前文提到的Ty,不同类别对应不同的Ty值。
[0053] 示例性的,可以选择预训练的反事实生成网络(CGN)来完成反事实样本的自动生成,且对每个类别均生成反事实样本的特征:
[0054] 此部分主要涉及具体任务中因果图中的假设,即具有至少两个中介变量,可以通过干预其中一个中介变量来生成反事实样本的特征。如之前所述,本发明同样可以适用于文本分类模型,对于文本分类模型,中介变量不在是纹理变量,而是根据具体文本分类任务来确定,例如,情感分析这一文本分类任务,分类结果为情感类别,在干预中介变量时可以选择写作风格或者句子结构这些中介变量。
[0055] 当具有可判别的反事实样本后,接下来考虑如何进行一致性评估。
[0056] 本发明实施例中,选择设置一个孪生子网络 通过所述孪生子网络评估所述事实样本与每个类别的反事实样本的一致性,评估一致性时,带入的是各样本的特征进行计算。其中,s(.,.|η)为孪生子网络的标识符号,η表示训练前的孪生子网络的参数,事实样本的特征x与反事实样本的特征 均为孪生子网络的输入。
[0057] 为使得该网络可以从生成的各类别的反事实样本中区分出可信的反事实样本(类别和事实样本相同),定义一个搜索任务来训练所述孪生子网络,将事实样本的特征x设为搜索对象,将所有反事实样本的特征 划分为正负样本,y表示一个类别,C为类别数目;正样本为与事实样本的特征x类别相同的反事实样本的特征 即 将正样本记为 为事实样本的真实类别,为分类预测结果中概率最高的类别;负样本为其他类别的反事实样本的特征 即 y′为负样本的类别。此时用来度量反事实样本和事实样本一致性的孪生子网络等价于一个图像搜索模型,它首先计算各个反事实样本和事实样本的一致性,然后输出一致性最高的反事实样本类别,并且孪生子网络的结构设置与分类模型f(x|θ)一致,θ为分类模型的参数。
[0058] 本发明实施例中,孪生子网络的训练损失为如下三元损失函数:
[0059]
[0060] 其中,表示训练后的孪生子网络的参数,η表示训练前的孪生子网络的参数;表示事实样本的特征x与负样本 的一致性结果, 表示事实样本的特征x
与正样本 的一致性结果,α为设定的超参数。
[0061] 示例性的,一致性度量函数s(.)可以为余弦相似度函数,它利用事实样本的特征与各反事实样本的特征在隐空间的表征的余弦相似度进行一致性评估。
[0062] 通过训练完毕后的孪生子网络,获得事实样本与所有反事实样本的一致性结果后,结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠,表示为:
[0063]
[0064] 其中, 表示对比可信度,δ为克罗内克函数(Kronecker函数),仅当括号中的两个参数相同时等于1,否则为0; 表示事实样本的特征x与反事实样本的特征 的一致性结果,y∈[1,C]; 表示输出一致性结果最高的反事实样本对应的类别;为分类预测结果中概率最高的类别。
[0065] 若 则表示分类模型的分类预测结果可靠,即分类模型预测的类别对应的反事实样本特征和事实样本特征之间的一致性在所有类别中是最高的。若 则表示分类模型的分类预测结果不可靠,即其他类别反事实样本和事实样本的一致性要更高。
[0066] 二、对不可靠的结果进行合理修改。
[0067] 各类反事实样本和事实样本之间的一致性结果为修改原始推理结果提供了重要线索,本发明并基于此设计一个修改模型: 其中,w为修改模型的参数w,表示分类预测结果,它是一个向量,每一元素表示属于对应类别的概率,为孪生子网络计算的各类别的反事实样本和事实样本之间的一致性结果,它是一个向量,每一元素表示单个类别反事实样本和事实样本之间的一致性结果。修改模型输入一致性结果 和分类预测结果将所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果堆叠为矩阵,再根据矩阵中的信息修改所述分类预测结果。
[0068] 本发明实施例中,所述修改模型包括依次设置的:堆叠层,一维卷积层和两个全连接层。所述堆叠层,用于将所述分类预测结果,以及事实样本与每个类别的反事实样本的一致性结果堆叠为矩阵,矩阵记为 其中,R为实数集。堆叠时,矩阵每一列为所述分类预测结果中某一类的概率值以及相应类别的反事实样本与事实样本的一致性结果,即矩阵的第i列A[i]对应的是分类预测结果中概率第i大的类别的概率值以及相应类别的反事实样本和事实样本的一致性结果值,i∈[1,C],这样可以更好的突出模型推理结果和一致性评估结果之间的规律。一维卷积层包括若干一维卷积滤波器,每个一维卷积滤波器用于独立提取堆叠层输出矩阵内部的规律并输出到第一个全连接层。两个全连接层,用于整合一维卷积层输出的特征并做出最后的决策。
[0069] 本发明实施例中,一维卷积滤波器都是独立工作的,它们的输出都各自连接第一个全连接层,一维卷积滤波器为了使得映射的输入变得更复杂(从低维映射到高维),从而可以更容易被全连接层学习。规律可以理解为当分类预测结果中概率最高的类别 不是真实类别 时,从堆叠矩阵A到真实类别 之间的正确映射方式,即需要学习正确映射方式的函数来修正分类模型输出的分类预测结果。
[0070] 本发明实施例中,两个全连接层依次连接,二者之间设有Relu激活函数层,第二个全连接层输出的结果是修正后的概率向量(修正后的分类预测结果),取其中概率最高的类别作为最终分类结果。
[0071] 本发明实施例中,修改模块根据交叉熵损失函数进行训练。修改模块在训练中学会如何根据一致性结果提供的信息来修改不可靠的推理结果。此处所涉及交叉熵损失函数以及训练流程可参照常规技术,本发明不做赘述。
[0072] 图3展示了基于因果的模型双重检查方法的整体框架,其包含反事实生成模型(CGN),一致性评估模型 和修改模型 将它们与分类模型f(x|θ)看作一个整体,从而赋予分类模型f(x|θ)双重检查的反思和修正能力。为了将该框架和传统的机器学习框架结合,需要分别对训练和测试流程进行修改:训练时,依次训练好分类模型,反事实生成模型,一致性评估模型和修改模型;测试时,利用双重检查框架对分类模型的每个推理结果计算对比可信度,对不可靠的结果再进行修改。需要说明的是,图3呈现的预测分类以及修正后的分类均为举例,并非构成限制。
[0073] 本发明实施例提供的上述方案主要具有如下优点:
[0074] 1)在可靠性评估过程中可以高效筛选出各个概率区间内模型的不可靠推理,使难样本得到更多的关注。
[0075] 2)针对筛选出的不可靠推理结果,特别是对概率较低部分,可以有效进行修正。即对于分类模型分类预测结果中的概率最高的类别 当分类模型输出的概率 很小,表示分类模型预测结果的置信度较低,例如,当分类预测结果中的概率最高的类别 的概率即概率为60%,虽然是所有类别的概率中最高数值,但是,数值大小较低,因此,预测结果的可信度并不高。
[0076] 3)对于各种分类模型均有效,且对干扰的鲁棒性更强。
[0077] 为了充分说明本发明(简称为L2D)的上述优点,下面在一个常用的考察模型泛化性和迁移性的图像分类数据集NICO上针对一些典型分类模型做了详尽的实验(此场景下典型分类模型的预测结果更需要修正)。数据集NICO包括两个不同的子集,即数据集Animal与Vehicle,其中每个数据集的每个类别均有10种不同的背景(如草地,城市,雪地,河流等),通过控制每个类对应的测试样本的背景不同于训练时的背景来构建不同分布的测试集。表1展示了实验中关于两个数据集的具体设定信息。
[0078] 表1:实验中数据集NICO的两个子集的划分设定
[0079]数据集 训练集 验证集 测试集 训练集背景数 测试集背景数
Animal 5318 1088 2524 5 5
Vehicle 4322 885 2073 5 5
[0080] 1、高效筛选各个概率区间的不可靠推理结果。
[0081] 针对模型的推理结果,首先依据模型在每个样本上预测的最大类概率来将样本划分到多个不同的组,每组中分别统计原本的准确率和被L2D的一
致性评估模型判别为可靠和不可靠的推理结果的准确率。对三种模型进行测试,分别是ResNet‑18,表征自我挑战模型RSC和深度稳定学习模型DSL,实验结果如图4所示,左侧一列对应数据集Animal,右侧一列对应数据集Vehicle。
[0082] 可以看出,对于模型在各个概率区间的推理结果,当L2D的一致性评估模型判别为“可靠”时的准确率要远远高于判别为“不可靠”时的准确率。即使对于概率在0.9到0.99的这部分结果,这个差距仍有20%到40%,而且此时不可靠推理结果的准确率普遍低于60%,说明了检查和修改模型原始预测结果的巨大潜力和L2D框架的合理性。
[0083] 2、对难样本的错误推理结果进行有效修正。
[0084] 将完整的L2D框架应用于分类模型,并观测L2D对于测试集中的难样本的表现,其中在数据集Animal和Vehicle上,难样本的占比分别在20%和
10%左右,结果如表2所示。
[0085] 表2:模型在难样本上的准确率(%)以及加上L2D框架后的准确率
[0086]模型 ResNet‑18 RSC DSL
Animal 31.10 29.47 29.23
+L2D 40.08 38.55 39.78
Vehicle 41.85 31.88 38.97
+L2D 47.04 39.85 45.67
[0087] 可以看到,通过给分类模型增加L2D框架,模型对于难样本的性能在Animal和Vehicle上分别提升了9.8%和6.6%。这个提升一方面是因为L2D中的一致性评估模型可以很好地捕捉事实样本和反事实样本的特征之间的一致性,提高模型的特征分辨能力;另一方面也是因为L2D中的修改模型可以有效地学习到修改策略。
[0088] 3、对各种模型均有效,且增强了鲁棒性。
[0089] 首先考察L2D对于不同模型在完整的测试集上的影响,结果如表3所示。
[0090] 表3:模型添加L2D前后在测试集上的准确率(%)
[0091]模型 ResNet‑18 RSC DSL
Animal 75.04 78.26 74.61
+L2D 76.47 79.32 77.10
Vehicle 83.99 85.32 83.26
+L2D 84.50 85.88 84.21
[0092] 可以看出L2D对于不同的分类模型上均能在模型原有的性能上取得进一步提升。
[0093] 此外,考虑对数据加入一定的扰动:原本的处理是将图像直接内插成(224,224),考虑加入一个额外的内插,即先将图像大小内插为(256,256),然后再内插为(224,224)。这个额外的内插不会改变图像的语义信息,但是对整体像素值施加了一个微小的改变,相比表3,模型的测试准确率有了一个明显的下降,结果如表4所示。
[0094] 表4:模型添加L2D前后在扰动后的测试集上的准确率(%)
[0095] 模型 ResNet‑18 RSC DSLAnimal 72.58 76.15 72.34
+L2D 75.16 77.50 75.35
Vehicle 82.58 83.84 82.00
+L2D 83.72 84.61 83.44
[0096] 可以看到L2D此时仍能显著提升模型的性能,这是因为对于像素的扰动并不会影响L2D中的一致性评估模型对于样本特征之间的一致性估计。
[0097] 实施例二
[0098] 本发明还提供一种基于因果的模型双重检查系统,其主要基于前述实施例提供的方法实现,如图5所示,该系统主要包括:
[0099] 反事实生成模型,将输入样本作为事实样本,通过干预事实样本生成过程中的中介变量,生成每个类别的反事实样本;
[0100] 一致性评估模型,获取分类模型对事实样本的分类预测结果,评估所述事实样本与每个类别的反事实样本的一致性,并结合分类预测结果与评估获得的一致性结果检查分类模型的分类预测结果是否可靠;其中,所述分类模型包括图像分类模型与文本分类模型,对于图像分类模型所述输入样本为输入图像,对于文本分类模型,所述输入样本为输入文本;
[0101] 修改模型,当分类模型的分类预测结果不可靠时,根据事实样本与每个类别的反事实样本的一致性结果对所述分类预测结果进行修改。
[0102] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0103] 实施例三
[0104] 本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
[0105] 进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
[0106] 本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
[0107] 输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
[0108] 输出设备可以为显示终端;
[0109] 存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non‑volatile memory),例如磁盘存储器。
[0110] 实施例四
[0111] 本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
[0112] 本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read‑Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0113] 以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。