一种用于非人智能体的智能度量方法转让专利

申请号 : CN201910525943.9

文献号 : CN110399279B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 纪雯汪宇琴

申请人 : 中国科学院计算技术研究所

摘要 :

本发明涉及一种针对非人智能体的通用智能度量方法、介质、装置和服务器。该方法首先确认一种非人智能体作为智能度量对象并获取其在目标领域下各问题的类别及概率。然后,建立智能体对每类问题的能力预测模型,通过测量得到的数据对模型进行拟合,得到当前最佳的模型参数,根据模型得到每类问题的期望能力值。最后,将上述的问题类别概率以及每类问题的期望能力值带入本发明提出的通用智能度量计算公式,求得智能体的智能量。由于该方法中的能力值在不同领域中可解释为不同的含义,因此本方法对所有领域都适用,因此本方法是一种通用的智能度量方法。

权利要求 :

1.一用于非人智能体的智能度量方法,包括如下步骤:

步骤1,用于确认一种非人智能体作为智能度量对象,并记录所述度量对象在设定的目标问题领域下各问题的类型{1,2,3…i…N}和概率{μ1,μ2,μ3,…μi…μN};

步骤2,用于建立所述度量对象的能力模型,并在数据同化框架下优化所述能力模型,并采用优化后的能力模型M={M1,M2,…,Mi,...MN}预测所述度量对象的期望完成程度{E(M1),E(M2),…,E(Mi),...., E(MN)};其中, E(Mi)表示所述度量对象在第i类问题下的期望完成程度;

步骤3,用于根据所述步骤1和步骤2的计算结果求出所述度量对象在所述目标问题领域下的智能量Q=∑i∈μN iE(Mi),其中,i∈N,i、N均为正整数。

2.根据权利要求1所述的智能度量方法,其特征在于,在步骤1中,所述目标问题领域下问题类型i的概率μi通过统计ni/∑j∈Nnj得到或将μi定义为1/N,其中,j表示问题类别,n为问题的出现次数。

3.根据权利要求2所述的智能度量方法,其特征在于,所述步骤2,又包括:步骤21,用于收集所述度量对象对目标领域各类问题的历史完成情况序列 ,i表示问题的类别,p表示状态,其中p又包括测试时间、问题产生时间和问题产生地域,s表示完成情况,其中s又包括问题回答、评测结果、目标得分和服务质量;

步骤22,用于根据专家知识库或已有经验选定目标领域下所述能力模型的步骤;

步骤23,用于基于数据同化框架,结合所述能力模型的优化方法,拟合所述步骤21和步骤22的数据与能力模型,求解模型参数,得到优化后的能力模型M={M1,M2,…Mi,...MN};

步骤24,用于通过M= 计算出指定时间范围内所述度量

对象对问题的期望完成程度 。

4.根据权利要求3所述的智能度量方法,其特征在于,所述步骤23又包括:步骤231,使用数据拟合所述能力模型,拟合的目标是最小化平方误差或最大似然,拟合的方式根据所述能力模型来选择,得到当前数据下优化后的能力模型M=;

步骤232,构造数据同化的目标函数,一般数据同化系统中的目标函数由背景损失和模型损失两项组成,公式表示为其中, 是目标函数;x0是状态矢量的初始值,它是被同化或被反演变量组成的列b矩阵,下标0表示同化周期的开始;x0 是环境背景矢量,也就是 代入M得到的模拟值;B是模拟值误差的协方差矩阵;i表示时刻;yi是i时刻的观测值; 是 代入M运行到i时刻得到的值;Ri是观测误差的协方差矩阵;求解使 达到最小值的 为初始时刻的最优解,也就是初始时刻x0的同化值;

步骤233,获取新的数据,取 的一随机值,与所述步骤231中的M一起,代入步骤232中数据同化的目标函数 ,采用遗传算法或差分进化方法优化目标函数,得到目标函数的最优值,如果最优值小于自定义的阈值,则表明模型M能准确预估且具有良好的泛化性能,进入步骤24,否则将新的数据和当前数据一起代入步骤231。

5.根据权利要求3所述的智能度量方法,其特征在于,所述步骤24又包括:步骤241,给出所述度量对象的作用时间范围[t1,t2];

步骤242,在[t1,t2]上对所述优化后的能力模型Mi进行积分,得到积分值Pi;

步骤243,用积分值Pi除以|t2-t1|,得到期望完成程度 。

6.根据权利要求1至5任一所述的度量方法,其特征在于,所述度量对象为一种问答系统、超级智力竞赛服务器、人脸识别系统、智能语音或翻译服务器、无人驾驶设备或智能服务机器人。

7.根据权利要求6所述的度量方法,其特征在于,所述问答系统包括谷歌BERT模型、微软nlnet模型、CMU的QANet模型和/或苹果的siri模块、微软的cortana模块。

8.根据权利要求6所述的度量方法,其特征在于,用于测试所述问答系统智力能力的数据集包括:SQuAD,NewsQA,SearchQA,RACE或CoQA;涉及的问题包括维基百科、初高中考试、科普文章、新闻、电影和/或历史。

9.一种用于非人智能体的智能度量装置,其特征在于,采用如权利要求1至8中任意一种非人智能体的智能度量方法。

10.一种服务器,其特征在于,包括权利要求9所述的一种用于非人智能体的智能度量装置。

11.一种存储介质,用于存储一种执行权利要求1-8任一所述智能度量方法的计算机程序。

说明书 :

一种用于非人智能体的智能度量方法

技术领域

[0001] 本发明涉及一种用于非人智能体的智能度量方法。

背景技术

[0002] 随着智能时代的到来,越来越多的独立实体开始拥有智能,它们能够思考并能同环境交互,这类实体在人工智能领域被统称为智能体(Agent),本专利将智能体分为机器和服务两大类。
[0003] 但人工智能的发展迅猛,非人的智能体展现出的能力越来越强,例如对机器而言,知识问答领域的IBM超级电脑沃森在智力竞赛中战胜人类选手,图像识别领域的微软Deep Image系统在人脸识别测试中正确率超过人类,围棋领域的AlphaGo战胜李世石;对服务而言,智能语音服务助手siri可以与人流畅对话甚至合理预测球赛得分,智能客服助手已经渗透到金融、电商、o2o以及旅游等行业,智能服务机器人(血管清理/口腔修复/智能轮椅)的功能也越来越强大。人们开始疑惑这些智能体究竟有多少智能,它们的智能是否会超过人类。然而智能体的通用智能至今没有一个明确的方法、系统、平台或者网络等可以提供这种服务,因此,需要提出一种通用智能度量方法,该方法能合理的、有效的、可计算的度量智能体的智能量。
[0004] 目前的度量方法只针对智能体在单个领域的效率:例如在知识问答领域典型评价方法是EM,EM表示智能体的答案与正确答案完全匹配的概率,在图像识别领域的典型评价方法是topN-error,表示图像识别模型预测出的前N个最高概率的答案中有正确答案的概率,在语音服务方面典型的评价方法是准确度,表示在不同环境(嘈杂,安静等)下对问题的正确理解率或正确回答率。然而目前没有一个通用的公式可以衡量一个智能体在各个方面的智能程度,比如知识问答领域的EM评价方法不适用于图像识别领域,评价方法之间的差异导致目前没有通用的公式来评价智能体的智能。
[0005] 目前,学术界对此进行了一定的研究,文献“陈荣元,林立宇,王四春,等:数据同化框架下基于差分进化的遥感图像融合[J].自动化学报,2010,36(3):392-398.”借鉴气象领域中的数据同化系统能综合其模型算子和观测算子两者优点的思想,提出一个基于差分进化的遥感图像融合框架,在该框架下,用差分进化(DE)算法来优化由图像定了评价指标组成的目标函数,从视觉效果和定量指标两方面验证了该框架的有效性,一定程度上解决了融合模型建立不够客观、参数选取随意性大的问题,也解决了不同融合方法的优点不易综合的问题,因此通过构造数据同化的目标函数可以用来评价建立的智能体能力模型。
[0006] 文献“镡志伟,彭景,白福利:基于AIC准则优选AR模型研究我国生产事故[J].工业安全与环保,2009,35(6):45-4.”提出了将基于AIC准则进行AR模型优选的方法应用到生产事故的预测中,避免了繁琐的模型统计检验,方便建模,因此应用AIC准则进行AR模型优选适用多变量评估领域。

发明内容

[0007] 为了解决上述技术问题,本发明的目的是提供一种合理的、有效的、可计算的通用的度量智能体智能的方法,适用于包括机器、服务在内的所有具有思考并能同环境进行交互的非人智能体。该方法包括以下步骤:
[0008] 步骤1:统计目标问题领域下各问题的类型{1,2,...i...N}和概率{μ1,μ2,μ3,...μi...μN};
[0009] 步骤2:建立智能体能力模型{M1,M2,.....MN},在数据同化框架下优化这些模型,使用M预测智能体的期望完成程度{E(M1),E(M2),...,E(Mi),....,E(MN)}(Mi表示第i类问题的模型,模型的值是问题回答/评测结果/目标得分/服务质量等);
[0010] 步骤3:根据步骤1和2得到的结果求得智能体在目标问题领域下的智能量[0011] 所述步骤1中的所述目标领域下问题类型i的概率μi可以通过统计 得到,j表示问题类别,n为问题的出现次数,μi也可以简单定义为1/N。
[0012] 所述步骤2包括:
[0013] 步骤21,收集智能体对目标领域各类问题的历史完成情况序列{(i,p,s)},i表示问题的类别,p表示状态(例如p可能包括测试时间、问题产生时间、问题产生地域等),s表示智能体的完成情况(问题回答/评测结果/目标得分/服务质量等);
[0014] 步骤22,根据专家知识或已有经验选定目标领域下智能体能力变化的模型M;
[0015] 步骤23,基于数据同化框架,结合模型M优化方法,拟合步骤21中的数据与模型{M1,M2,.....MN},求解模型参数,得到最优模型;
[0016] 步骤24,通过{M1,M2,.....MN}计算出指定时间范围内的智能体对问题的期望完成程度{E(M1),E(M2),...,E(Mi),....,E(MN)};
[0017] 所述步骤23包括:
[0018] 步骤231,使用数据拟合模型{M1,M2,.....MN},拟合的目标可以是最小化平方误差、最大似然等,拟合的方式根据模型来选择,得到当前数据下最优的模型{M1,M2,.....MN};
[0019] 步骤232,构造数据同化的目标函数,一般数据同化系统中的目标函数由背景损失和模型损失两项组成,公式表示为
[0020]
[0021] 其中,J(x0)是目标函数;x0是状态矢量的初始值,它是被同化或被反演变量组成的列矩阵,下标0表示同化周期的开始;x0b是环境背景矢量,也就是x0带入M得到的模拟值;B是模拟值误差的协方差矩阵;i表示时刻;yi是i时刻的观测值;xi是x0带入模型算子M运行到i时刻得到的值;Ri是观测误差的协方差矩阵;求解使J(x0)达到最小值的x0为初始时刻的最优解,也就是初始时刻的x(t0)同化值;
[0022] 步骤233,获取新的数据,取随机值x0,与步骤231中的M一起,带入步骤232中数据同化的目标函数J(x0),可以采用遗传算法或差分进化等优化方法优化目标函数,得到目标函数的最优值,如果最优值小于自定义的阈值,则表明模型M能准确预估且具有良好的泛化性能,进入步骤24,否则将新的数据和当前数据一起带入步骤231;
[0023] 所述步骤24包括:
[0024] 步骤241,给出智能体的作用时间范围[t1,t2];
[0025] 步骤242,在[t1,t2]上对模型Mi进行积分,得到积分值Pi;
[0026] 步骤243,用积分值Pi除以|t2-t2|,得到期望E(Mi)。
[0027] 所述步骤3中计算智能体的智能量,将问题出现的概率视为权重,对问题的期望完成程度进行加权求和得到智能体的智能量
[0028] 本发明还公开了一种存储介质,存储有可执行指令,该可执行指令用于执行如前述的非人智能体的智能度量方法。
[0029] 本发明还公开了一种用于非人智能体的智能度量装置,包括所述的存储介质,该智能度量装置调取并执行该存储介质中的可执行指令,以完成对非人智能体的智能度量。
[0030] 本发明还提出了一种服务器,包括所述的用于非人智能体的智能度量装置,该服务器可以实现对非人智能体的智能度量。例如具有非人智能体的智能度量功能的单机、联网运行的应用程序。

附图说明

[0031] 图1为通用智能计算方法流程图。
[0032] 图2为数据同化框架。
[0033] 图3为知识问答领域的公开数据集。

具体实施方式

[0034] 为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0035] 实施例1:
[0036] 上述方法把现实空间中的每个任务/挑战都视为一个问题,考虑在任意问题领域下智能体处理每一类小问题的期望完成程度,通过建立问题概率、期望完成程度与智能量之间关系的模型,利用已知的问题概率和期望完成程度来求得智能体的智能量。从而提供一种任何问题领域都适用的非人智能体智能的度量方法,由此形成一种通用智能度量方法。
[0037] 在求解智能体的期望完成程度时,即使在同一个问题类别中,智能体的完成程度还受多种因素的影响,例如问题产生的时间、地域等,因此,本发明拟建立一个以影响因素和智能体历史完成数据为自变量的智能体能力预测模型,以得到在影响因素改变的情况下的智能体的预期完成程度,从而得到智能体的期望完成程度。同时,对于智能体能力预测模型的优化问题,在考虑数据误差和数据时空异构性的条件下,拟采用通常用于解决气象预报模型修正问题的数据同化框架,数据同化框架旨在通过不断向模型中输入新的多源的观测数据来修正模型参数,以得到最接近真实情况的模型参数,得到最优模型。
[0038] 为实现上述目的,本方法包括如下步骤:
[0039] 步骤1:统计目标问题领域下各问题的类型{1,2,...i...N}(S100)和概率{μ1,μ2,μ3,...μi...μN}(S110);
[0040] 步骤2:建立智能体能力模型{M1,M2,.....MN}(S210),在数据同化框架下优化这些模型,使用M预测智能体的期望完成程度{E(M1),E(M2),...,E(Mi),....,E(MN)}(Mi表示第i类问题的模型,模型的值是问题回答/评测结果/目标得分/服务质量等)(S220);
[0041] 步骤3:根据步骤1和2得到的结果求得智能体在目标问题领域下的智能量(S300)。
[0042] 所述步骤1中的所述目标领域下问题类型i的概率μi可以通过统计 得到,j表示问题类别,n为问题的出现次数,μi也可以简单定义为1/N。
[0043] 所述步骤2包括:
[0044] 步骤21,收集智能体对目标领域各类问题的历史完成情况序列{(i,p,s)},i表示问题的类别,p表示状态(例如p可能包括测试时间、问题产生时间、问题产生地域等),s表示智能体的完成情况(问题回答/评测结果/目标得分/服务质量等);
[0045] 步骤22,根据专家知识或已有经验选定目标领域下智能体能力变化的模型M;
[0046] 步骤23,基于数据同化框架,结合模型M优化方法,拟合步骤21中的数据与模型{M1,M2,.....MN},求解模型参数,得到最优模型;
[0047] 步骤24,通过{M1,M2,.....MN}计算出指定时间范围内的智能体对问题的期望完成程度{E(M1),E(M2),...,E(Mi),....,E(MN)};
[0048] 所述步骤23包括:
[0049] 步骤231,使用数据拟合模型{M1,M2,.....MN},拟合的目标可以是最小化平方误差、最大似然等,拟合的方式根据模型来选择,得到当前数据下最优的模型{M1,M2,.....MN};
[0050] 步骤232,构造数据同化的目标函数,一般数据同化系统中的目标函数由背景损失和模型损失两项组成,公式表示为
[0051]
[0052] 其中,J(x0)是目标函数;x0是状态矢量的初始值,它是被同化或被反演变量组成的列矩阵,下标0表示同化周期的开始;x0b是环境背景矢量,也就是x0带入M得到的模拟值;B是模拟值误差的协方差矩阵;i表示时刻;yi是i时刻的观测值;xi是x0带入模型算子M运行到i时刻得到的值;Ri是观测误差的协方差矩阵;求解使J(x0)达到最小值的x0为初始时刻的最优解,也就是初始时刻的x(t0)同化值;
[0053] 步骤233,获取新的数据,取随机值x0,与步骤231中的M一起,带入步骤232中数据同化的目标函数J(x0),可以采用遗传算法或差分进化等优化方法优化目标函数,得到目标函数的最优值,如果最优值小于自定义的阈值,则表明模型M能准确预估且具有良好的泛化性能,进入步骤24,否则将新的数据和当前数据一起带入步骤231;
[0054] 所述步骤24包括:
[0055] 步骤241,给出智能体的作用时间范围[t1,t2];
[0056] 步骤242,在[t1,t2]上对模型Mi进行积分,得到积分值Pi;
[0057] 步骤243,用积分值Pi除以|t2-t1|,得到期望E(Mi)。
[0058] 所述步骤3中计算智能体的智能量,将问题出现的概率视为权重,对问题的期望完成程度进行加权求和得到智能体的智能量
[0059] 为了方便理解本发明的工作方式,特介绍本发明可能应用的领域之一——知识问答领域,然后详细介绍本发明应用于知识问答领域的过程。
[0060] 知识问答的目标是回答人提出的自然语言问题,这对人类而言是非常简单和自然的事情,人类通过识别问题,搜索知识库,给出答案来进行问题的回答,对非人的智能体而言则通常需要涉及到自然语言处理、信息检索、数据挖掘等多个交叉领域的技术,通常这类智能体被称为问答系统(Question Answering system,QA system)。为了测试问答能力,目前有许多公开的数据集,例如SQuAD,NewsQA,SearchQA,RACE,CoQA等,它们的问题包含维基百科、初高中考试、科普文章、新闻、电影、历史等多方面内容,CoQA更是一种基于对话的问答数据集,可以用来辅助评测问答类服务的智能。目前问答系统也有很多,例如机器/模型类的有谷歌的BERT模型,微软的nlnet模型,CMU的QANet模型,服务类的有苹果的siri,微软的cortana等,这些知识问答系统和人都可视为智能体。
[0061] 本发明应用于知识问答领域的过程如下:
[0062] 1.统计知识问答领域下各问题的类型和问题概率。
[0063] 由于知识问答领域的数据集是按照问题进行分类(如图3所示),因此可以用数据库代表问题类型,本例中选择的问题类型列表为{1=SQuAD,2=NewsQA,3=SearchQA,4=TriviaQA,5=RACE,6=NarrativeQA,7=CoQA}。然后统计各个问题类型下问题的条目数,7
本例中为各个数据集的数据量,分别为{n1,n2,…,n7},各个问题类型的概率μi=ni/∑i=
1ni。
[0064] 2.建立智能体能力模型{M1,M2,.....M7}。具体步骤如下:
[0065] 2.1对各智能体进行多次实验,收集智能体对目标领域各类问题的历史完成情况{(i,p,s)},其中i为问题种类;p为状态,p包含产生问题的时间/地点、测量时间t等,在此可定义智能体第一次测量时间为t=0,其后每间隔一个单位时间(单位时间等于测量间隔时间的最小值),t自增1;对人和机器类智能体而言s表示对第i类问题在时间t下的回答的正确率(答对问题个数/问题总个数),对服务类智能体而言s表示服务的对象对第i类问题的回答的质量(w1*答对问题个数/问题总个数+w2*用户满意度,w1和w2表示自定义的权重,w1+w2=1,用户满意度取值范围为[0.0,1.0])。
[0066] 2.2根据专家知识初始化知识问答领域智能体能力模型{M1,M2,.....M7}。
[0067] 新西兰奥塔哥大学的教授,詹姆斯·R·弗林(James R.Flynn),28年前发现全球人类的IQ从20世纪初以来一直在持续增长。弗林调查了20多个国家的智力测试资料,发现IQ得分每年增长0.3——也就是10年增长3点。这之后,将近30年的跟踪研究,证明了这一全球性变化的统计真实性(这一现象现在被称为弗林效应)。
[0068] 由于人类IQ测试本质上也是知识问答题目,所以知识问答领域的智能体能力可能也符合随时间变化的趋势,那么基于弗林效应,每个M可定义为基于时间预测的多变量自回归模型(AR,Autoregressive Model),多变量AR模型与其他模型相比可以方便地引入除时间变量之外的多个解释变量,例如地点、问题规模等,便于模型的扩展。多变量AR模型的公式为
[0069]
[0070] 其中,t表示时间,St为t时刻的能力值,S表示影响St的因素列表,包括t-j时刻的能力值、问题产生时间、问题产生地点、问题规模等,p表示自回归项数,a表示AR系数,∈表示噪声,∈一般为均值为0,方差为σ2的高斯噪声。自回归方法基于假设当前时期的指标值依赖于过去时期的指标值,对过去时期的指标值进行加权平均得到当前的指标。
[0071] 2.3基于如图2所示的数据同化框架,结合模型优化方法,拟合步骤21中的数据与模型{M1,M2,.....MN},求解模型参数,得到最优模型。Mi为问题类型i的模型,以模型Mi为例,基于数据同化框架求解模型参数的步骤为:
[0072] 2.3.1取得被观测系统时间序列数据,本例中为智能体对目标领域的第i类问题的历史完成情况序列{(p,s)},将数据处理为AR模型的输入格式,一个(i,p,s)形式的列表(S201);
[0073] 2.3.2代入数据对AR模型进行拟合,得到参数{a1,...ap,b1,...bq},拟合目标为AIC准则或BIC准则,求解参数的方式为Yule-Walker方法,得到当前数据下最优模型M(S202);
[0074] 2.3.3构造数据同化的目标函数,在本实例中为
[0075]
[0076] 其中,J(x0)是目标函数;x0为待同化的初始量,意义是预测的0时刻的完成情况,可初始化为一个随机数(S203);M是模型算子,此处为AR模型;M(x0)0是背景量,也就是x0状态下模型在0时刻的模拟值;t表示时刻;T是时间窗口大小;M(x0)t是x0带入M后在时刻t的值;St是t时刻的观测值;B是模拟值误差的协方差矩阵;Rt是观测误差的协方差矩阵;由于本例的目标是为了得到在J(x0)最小的情况下的x0值,由于本例中的完成程度s和预测完成程度x0都是标量,因此本例中B和R均为1;最后该实例下的数据同化目标可简单视为最小化两项的和,前一项为预测值与模型值之差的平方,后一项是时间窗口内模型值与观测值之差的平方和。目标函数为
[0077]
[0078] 2.3.4采样新的观测数据{(p,s)},带入2.3.3的数据同化目标函数(S205),本例的应用场景下目标函数简单,可以直接采用求导的方式取到最优的x0,令 将最优的x0代入目标函数,如果满足目标函数的值小于阈值(S206),则说明模型能预测准确且泛化性能好,执行步骤2.4,否则将之前的数据和新增的数据都带入2.3.2;
[0079] 2.4通过{M1,M2,.....,MN}计算出指定时间范围内的智能体对问题的期望完成程度{E(M1),E(M2),…,E(Mi),....,E(MN)}。以第i类问题的模型Mi为例,考虑一定时间范围内智能体的能力,首先给出智能体的作用时间范围[t1,t2],然后在[t1,t2]上对Mi模型进行积分,最后用积分值Pi除以|t2-t1|,得到期望E(Mi)。
[0080] 3.计算智能体的智能量,将问题出现的概率视为权重,对问题的期望完成程度进行加权求和得到智能体的智能量
[0081] 前面对发明内容进行了清晰的说明,但是,本实施例应当看作为举例,而不是限制性的。本发明并不局限于前面给出的细节,而可以在所附权利要求的范围内修改。在权利要求中,不减或步骤不隐含任何特定顺序的操作。除非在权利要求中制定说明。