对风洞试验数据进行异常检测的方法转让专利
申请号 : CN202011188917.0
文献号 : CN112362292B
文献日 : 2021-12-14
发明人 : 李清勇 , 张靖 , 孙文举
申请人 : 北京交通大学
摘要 :
权利要求 :
1.一种对风洞试验数据进行异常检测的方法,其特征在于,包括:以风洞试验正常数据为基础,根据风洞试验数据异常规律生成风洞试验异常仿真数据,将风洞试验异常仿真数据与风洞试验真实数据组成风洞试验标准数据集;
将所述风洞试验标准数据集中的所有风洞试验数据转化成固定长度的特征表示,组成统一长度的特征向量;
根据风洞试验数据的特征向量利用孤立森林算法对风洞试验数据进行属性随机选择和切割处理,建立多棵孤立二叉树,将所有的孤立二叉树进行组合处理,构成了孤立森林;
根据待测的风洞试验数据样本在所述孤立森林中的平均遍历路径,对所述待测的风洞试验数据样本进行异常检测;
所述的以风洞试验正常数据为基础,根据风洞试验数据异常规律生成风洞试验异常仿真数据,将风洞试验异常仿真数据与风洞试验真实数据组成风洞试验标准数据集,包括:将风洞试验数据的异常分成3大类和6个小类,3大类为:孤立跳点异常、簇异常和整组实验异常,孤立跳点异常包括轴向力CA孤立跳点和法向力CN孤立跳点两个小类,簇异常包括CN模型碰支杆和CN多个跳点两个小类,整组试验异常包括CN斜率异常和CA整体偏大两个小类;
根据各小类异常的数据异常规律,以风洞试验正常数据为基础生成各小类的风洞试验异常仿真数据,在生成风洞试验异常仿真数据时,数据及参数选择按照随机的原则,将生成的风洞试验异常仿真数据与风洞试验真实数据组成风洞试验标准数据集,按照3:1:1的比例将风洞试验标准数据集划分成训练集、验证集和测试集。
2.根据权利要求1所述的方法,其特征在于,所述的风洞试验数据的6个小类的异常规律如表1所示;
表1
其中,CN_abnormal(αi)表示法向力CN异常曲线在攻角为αi的值,CA_normal(αi)表示轴向力CA正常曲线在攻角为αi时的值,a为异常变化率,它的取值范围为0到1,不同种类的异常取值不同,k(CN_abnormal)表示CN异常曲线的斜率。
3.根据权利要求1或2所述的方法,其特征在于,所述的将所述风洞试验标准数据集中的所有风洞试验数据转化成固定长度的特征表示,组成统一长度的特征向量,包括:从力分量本身和力分量曲线斜率两个层面选择13个设定特征,提取出所述风洞试验标准数据集中的各个风洞试验数据中的所述13个设定特征的特征值,将所有特征值按固定的顺序拼接成13维的特征向量,以所述13维的特征向量来代替原始的风洞试验数据;
所述13个设定特征包括CN的7个特征和CA的6个特征,CN的7个特征包括:CN的均值、方差、大攻角之差和期望变化率,以及CN分斜率的均值、方差和相邻分斜率之差的最大值;大攻角之差指大于20度的相邻攻角的CN值之差的最小值;期望变化率为每个CN值与期望CN值的变化率,当攻角为αj时,CN期望变化率表示为:分斜率是指两个相邻攻角之间的斜率,分斜率均值、方差计算方式与CN均值、方差相同;相邻分斜率之差最大值表示为max|ki‑ki+1|,其中ki表示第i个分斜率;
所述CA的6个特征包括:CA的均值、方差和期望变化率以及CA分斜率的均值、方差和相邻分斜率之差最大值。
4.根据权利要求3所述的方法,其特征在于,所述的根据风洞试验数据的特征向量利用孤立森林算法对风洞试验数据进行属性随机选择和切割处理,建立多棵孤立二叉树,将所有的孤立二叉树进行组合处理,构成了孤立森林,包括:根据风洞试验数据的特征向量利用孤立森林算法对风洞试验数据进行属性随机选择和切割处理,设风洞试验标准数据集为X={x1,x2,...,xn},n为X中的样本数据数量,样本数据的特征维度为d维,d=13,将风洞试验数据的每个特征作为一个属性,特征值作为属性值,递归地随机选择一个属性q和该属性的一个分割值p,根据属性q和分割值p将数据集X中的样本数据进行切分,将属性值小于分割值p的样本数据划分到左子树,将属性值大于分割值p的样本数据划分到右子树,直到满足停止条件,停止条件共有三个:(1)孤立树达到了高度上限;
(2)数据集剩余样本数据个数为1;
(3)所有剩余样本数据的特征值相同;
根据上述随机选择和切割处理过程建立多棵孤立二叉树,将所有的孤立二叉树进行组合处理,构成了孤立森林。
5.根据权利要求4所述的方法,其特征在于,所述的根据待测的风洞试验数据样本在所述孤立森林中的平均遍历路径,对所述待测的风洞试验数据样本进行异常检测,包括:给定一个待测的风洞试验数据样本x,在所述孤立森林中遍历搜索所述待测的风洞试验数据样本x,x的搜索路径长度h(x)为搜索过程中在孤立树中从根节点到叶子结点经过的边的数量,孤立树遍历的过程等价于二叉搜索树的不成功搜索过程;
针对含有n个样本数据的风洞试验标准数据集为X,二叉搜索树的不成功搜索的平均路径长度为:
c(n)=2H(n‑1)‑(2(n‑1)/n)其中H(i)为调和平均数,c(n)为h(x)的平均值,用它来规则化h(x),样本x的异常分数s定义为:
其中E(h(x))是孤立森林中h(x)的均值,当E(h(x))趋近于c(n)时,异常分数趋近于第一异常阈值,说明样本数据没有明显异常表现;当E(h(x))趋近于0时,异常分数趋近于第二异常阈值,说明样本数据为异常;当E(h(x))趋近于n‑1时,异常分数趋近于第三异常阈值,说明样本数据为正常;所述第一异常阈值为0.5,第二异常阈值为1,第三异常阈值为0。
6.根据权利要求5所述的方法,其特征在于,所述的样本x的异常分数s的异常阈值的确定方法为:
设定异常分数s的异常阈值为δ,训练样本中异常分数大于异常阈值δ的样本的比例、均值和方差分别为ω1、μ1和σ1,异常分数小于异常阈值δ的样本的比例、均值和方差分别为ω2、μ2和σ2,得到两类样本的类内差异值:将遍历所有的δ,并将使类内差异最小的值作为最后的异常阈值。
说明书 :
对风洞试验数据进行异常检测的方法
技术领域
背景技术
分必要和重要的。在实际的风洞试验过程中,为了获取目标气动模型详细完整的气动性能
参数,风洞试验人员首先需要根据测试需求设计不同的试验条件,并将每个气动外形的测
试任务分为成百甚至上千车次逐步进行推进。而对于每一个车次的风洞试验结果,风洞数
据分析人员都需要进行人工的分析与判断,在确保该车次的试验结果没有受到物理或者其
他因素的影响而导致异常后,才能进行下一个车次的试验,不然就需要告诉现场的试验人
员进行异常的排查和解决。这种人工检测异常的方式虽然具有较高的准确率和可靠性,但
却十分依赖现场分析人员的专业知识和经验,对于某些难以判断的异常(例如整组试验异
常),甚至需要多人共同讨论才能判定。在任务车次较多时,这种异常识别方法效率较低,会
对分析人员造成较大的负担。
能将人工智能方法应用到风洞试验数据异常检测问题上,实现自动化数据异常检测,能够
极大的提高风洞试验的效率,减少人力、物力的开销,具有重要的现实意义。
还没有一种有效地利用人工智能对风洞试验数据进行异常检测的方法。
发明内容
林;
据集,包括:
簇异常包括CN模型碰支杆和CN多个跳点两个小类,整组试验异常包括CN斜率异常和CA整体
偏大两个小类;
生成的风洞试验异常仿真数据与风洞试验真实数据组成风洞试验标准数据集,按照3:1:1
的比例将风洞试验标准数据集划分成训练集、验证集和测试集。
的异常取值不同,k(CN_abnormal)表示CN异常曲线的斜率。
定的顺序拼接成13维的特征向量,以所述13维的特征向量来代替原始的风洞试验数据;
值;大攻角之差指大于20度的相邻攻角的CN值之差的最小值;期望变化率为每个CN值与期
望CN值的变化率,当攻角为αj时,CN期望变化率表示为:
构成了孤立森林,包括:
本数据的特征维度为d维,d=13,将风洞试验数据的每个特征作为一个属性,特征值作为属
性值,递归地随机选择一个属性q和该属性的一个分割值p,根据属性q和分割值p将数据集X
中的样本数据进行切分,将属性值小于分割值p的样本数据划分到左子树,将属性值大于分
割值p的样本数据划分到右子树,直到满足停止条件,停止条件共有三个:
过的边的数量,孤立树遍历的过程等价于二叉搜索树的不成功搜索过程;
异常阈值,说明样本数据为异常;当E(h(x))趋近于n‑1时,异常分数趋近于第三异常阈值,
说明样本数据为正常;所述第一异常阈值为0.5,第二异常阈值为1,第三异常阈值为0。
为ω2、μ2和σ2,得到两类样本的类内差异值:
设置或者调整,可以根据样本的分布自动进行确定。本发明方法的检测准确率较高。针对风
洞试验场景中的多类异常,异常检出率达到90%以上,检测准确率大于93%。
附图说明
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的
附图。
具体实施方式
考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加
一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元
件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在
中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞
“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意
义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
领域,一直是国内外研究者们的研究重点。根据研究方法的不同,目前的异常检测方法可以
分为基于统计的、近邻度的、聚类的和分类的方法。基于统计的方法通常假设正常数据符合
某个特定分布或概率模型,将不符合该分布/模型的样本判定为异常。基于近邻度的方法利
用正常样本和异常样本与周围样本相似度不同的特点来进行检测。基于聚类的方法的基本
原理是利用聚类操作,将不属于任何一簇或者远离簇中心的数据判断为异常,经典算法有
DBSCAN、SOM等。基于分类的方法则是将异常检测问题看作是一个二分类或者多分类问题,
使用已有数据训练一个分类器,来完成异常数据的判断检测。
问题进行形式化时,本发明结合了专业分析人员的专家知识与经验,对常见的风洞试验数
据的异常类型进行了分析与总结,并据此合成了异常数据。针对不同风洞车次数据表示长
度不一的问题,设计了针对风洞试验数据异常的特征表示,将所有的数据用统一的特征向
量来表示。
点两个小类,簇异常包括CN模型碰支杆和CN多个跳点两个小类,整组试验异常包括CN斜率
异常和CA整体偏大两个小类。
到1,不同种类的异常取值不同。k(CN_abnormal)表示CN异常曲线的斜率。
常车次的试验数据,从该车次的攻角集合中随机选择一个攻角,将该攻角下的轴向力(CA)
值按异常规律进行变化率为a的变化,a的取值也是从给定范围内随机选择。
使用的样本个数、异常阈值等。在测试阶段,利用建立好的孤立森林对测试数据进行检测,
得到测试集的异常检测结果,判断异常检测算法的性能。
表示,从力分量本身和力分量曲线斜率两个层面选择了13个设定特征作为风洞试验数据的
特征表示。具体来说,给定某一个车次的风洞试验数据xi,分别提取该车次CN的7个特征和
CA的6个特征,组成13维的特征向量。下面介绍每个力分量的具体特征设计。
相邻攻角的CN值之差的最小值;期望变化率为每个CN值与期望CN值的变化率,当攻角为αj
时,CN期望变化率可以表示为:
表示为max|ki‑ki+1|,其中ki表示第i个分斜率,此特征可以检测斜率的突变,对于跳点异常
非常有效。
该过程可以表示为:
了孤立森林。
森林算法的核心原理为:在合适的特征空间中,孤立异常点所需的切割次数统计意义上要
比孤立正常点所需的切割次数要少,如图2(a)(b)所示。可以通过属性随机选择和切割的方
式建立多棵孤立二叉树,通过比较样本在由孤立二叉组成的孤立森林中的平均遍历路径来
进行异常检测。
递归地随机选择一个属性q和该属性的一个分割值p,根据属性q和分割值p将数据集X中的
样本数据进行切分,将属性值小于分割值p的样本数据划分到左子树,将属性值大于分割值
p的样本数据划分到右子树,直到满足停止条件,该停止条件共有三个:
本x,x的搜索路径长度h(x)为搜索过程中在孤立树中从根节点到叶子结点经过的边的数
量。因为孤立树遍历的过程等价于二叉搜索树的不成功搜索过程,因此这里我们借鉴二叉
搜索树的思路来进行异常分析。具体来说,给定含有n个样本的数据集,二叉搜索树的不成
功搜索的平均路径长度为:
(x))趋近于0时,异常分数趋近于第二异常阈值,说明样本很有可能为异常;当E(h(x))趋近
于n‑1时,异常分数趋近于第三异常阈值,说明样本很有可能为正常。所述第一异常阈值为
0.5,第二异常阈值为1,第三异常阈值为0。图4为本发明实施例提出的一种期望路径长度与
异常分数关系图。
σ1,小于该阈值的样本的比例、均值和方差分别为在ω2、μ2和σ2,我们可以得到两类样本的
类内差异值:
了风洞试验的效率。本发明方法可以部署于数据采集与分析的平台中,实时对采集到的数
据进行异常检测,为专业分析人员提供辅助,从而提高整体的效率。图5为本发明实施例提
出的一种异常检测结果示例图,变化较大的曲线为CN,平缓的曲线为CA。目前,本发明方法
已实地部署到风洞试验现场,为现场的数据试验人员提供异常报警,协助进行数据异常检
测。
面,异常检测问题是机器学习领域中常见的应用问题,自然异常检测方法应用了人工智能。
常检测。
法针对数据可以实现快速的异常检测,在普通的windows系统PC上,检测速度可以达到0.1
秒每车次,且具有较高的检测准确率。
上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品
可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备
(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些
部分所述的方法。
系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法
实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为
分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或
者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术
人员在不付出创造性劳动的情况下,即可以理解并实施。
都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围
为准。