一种信息隐写的检测方法及装置转让专利

申请号 : CN201811494711.3

文献号 : CN109740369B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 樊利安刘建国谢云龙

申请人 : 中国联合网络通信集团有限公司联通大数据有限公司

摘要 :

本申请公开了一种信息隐写的检测方法及装置,包括:对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,敏感信息模型库中存储有敏感信息模型以及与敏感信息模型对应的输出概率;若敏感信息模型库中存在对应的敏感信息模型,则将扫描信息输入敏感信息模型,以计算第一输出概率,第一输出概率为与扫描信息对应的输出概率;判断第一输出概率是否大于或等于敏感信息模型的输出概率;若是,则确定扫描信息存在信息隐写。实现针对模型程序输出隐写信息的深度检测,有效的规避了有计划、有目的的刻意数据输出风险,有效的防止恶意的信息窃取行为,防止信息泄漏,为合法合规的使用大数据提供安全保障。

权利要求 :

1.一种信息隐写的检测方法,其特征在于,包括:对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率;

若所述敏感信息模型库中存在对应的敏感信息模型,则将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率;

判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率;

若是,则确定所述扫描信息存在信息隐写;

若所述敏感信息模型库不存在对应的敏感信息模型,则判断所述扫描信息是否存在敏感信息;

若所述扫描信息存在敏感信息,则根据所述敏感信息建立敏感信息模型;

所述根据所述敏感信息建立敏感信息模型步骤,具体包括:将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;

根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w))计算特征向量集合g(w);

其中,

w为敏感词,Context(w)为w的上下文,NEG(w)为负样本子集, 为Context(w)中各词的词向量之和,θu为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))为低维向量数据训练集;

通过公式 计算敏感系数概率作为所述敏感信息模型的输出概率,产生敏感信息模型;

T T

其中,z=wx+b,w为权重,x为所述特征向量集合g(w),b 为常量。

2.根据权利要求1所述的信息隐写的检测方法,其特征在于,所述方法,还包括:若所述扫描信息存在敏感信息,则确定所述扫描信息存在信息隐写。

3.根据权利要求2所述的信息隐写的检测方法,其特征在于,所述判断所述扫描信息是否存在敏感信息步骤,具体包括:通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素;

对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合;

若存在,则确定所述扫描信息存在敏感信息;

若不存在,确定所述扫描信息不存在敏感信息。

4.根据权利要求3所述的信息隐写的检测方法,其特征在于,所述判断所述扫描信息是否存在敏感信息步骤中,若判断出所述扫描信息存在敏感信息,所述方法还包括:获取所述敏感信息模型的输出概率;

将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。

5.根据权利要求1-4任一项所述的信息隐写的检测方法,其特征在于,所述方法还包括:若所述第一输出概率小于所述敏感信息模型的输出概率,则确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。

6.一种信息隐写的检测装置,其特征在于,包括:第一判断模块,用于对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率;

第一计算模块,用于若所述敏感信息模型库中存在对应的敏感信息模型,则将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率;

第二判断模块,用于判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率;

第一确定模块,用于若是,则确定所述扫描信息存在信息隐写;

第三判断模块,用于若所述敏感信息模型库不存在对应的敏感信息模型,则判断所述扫描信息是否存在敏感信息;

模型建立模块,用于若所述扫描信息存在敏感信息,则根据所述敏感信息建立敏感信息模型;

所述模型建立模块,具体包括:

第二转义子模块,用于将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;

第一计算子模块,用于根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w))计算特征向量集合g(w);

其中, ,w为敏感词,Context(w)为w的上下文,u

NEG(w)为负样本子集, 为Context(w)中各词的词向量之和,θ为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))为低维向量数据训练集;

第二计算子模块,用于通过公式 计算敏感系数概率作为所述敏感信息模型的输出概率,产生敏感信息模型;

其中,z=wTx+b,wT为权重,x为所述特征向量集合g(w),b为常量。

7.根据权利要求6所述的信息隐写的检测装置,其特征在于,所述装置还包括:第二确定模块,用于若所述扫描信息存在敏感信息,则确定所述扫描信息存在信息隐写。

8.根据权利要求7所述的信息隐写的检测装置,其特征在于,所述第三判断模块,具体包括:第一转义子模块,用于通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素;

判断子模块,用于对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合;

第一确定子模块,用于若存在,则确定所述扫描信息存在敏感信息;

第二确定子模块,用于若不存在,确定所述扫描信息不存在敏感信息。

9.根据权利要求7所述的信息隐写的检测装置,其特征在于,若所述第三判断模块判断出所述扫描信息存在敏感信息,所述装置还包括:模型建立模块还用于获取所述敏感信息模型的输出概率;

存储模块,用于将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。

10.根据权利要求6-9任一项所述的信息隐写的检测装置,其特征在于,所述装置还包括:优化模块,用于若所述第一输出概率小于所述敏感信息模型的输出概率,则确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。

说明书 :

一种信息隐写的检测方法及装置

技术领域

[0001] 本发明属于信息安全技术领域,具体涉及一种信息隐写的检测方法及装置。

背景技术

[0002] 大数据涉及国家数据主权和用户个人隐私,保障大数据安全是推动大数据资源整合和开放共享的前提条件。由于部分企业大数据体系不完善,缺乏大数据安全运营经验,已经出现了类似电话诈骗案件等大数据安全问题。
[0003] 网络运营商的网络承载着海量用户信息,与此同时也在合法合规的使用海量数据为各行各业提供服务,在与友商合作时会输出标签类数据,该类数据已经利用现有技术手段例如:数据脱敏、DLP技术、DPI技术进行了敏感数据检测,防止输出的数据包含敏感数据。
[0004] 但是,即便如此,信息安全团队仍然无法解决有目的刻意数据输出。运营商在与客户进行大数据业务合作时,合作方会将自己的模型程序部署于运营商的大数据计算中心,通过调用运营商的计算资源和海量数据输出符合自己预期的数据,输出的数据都是标签类和统计型数据。但是如果合作方的模型程序将手机号码、IMIE、身份证、银行卡号等敏感信息拆分并隐写于输出文件的特定位置,然后再进行隐写还原,就能绕过目前已有的数据防泄漏检测方法(基于关键字作为特征进行内容检测),导致窃取用户隐私数据,达到不可告人的目的。
[0005] 因此如何检测和杜绝利用上述手段进行敏感信息的隐写输出,保护用户信息,防止信息泄漏是目前亟待解决的问题。

发明内容

[0006] 本申请针对现有技术中进行敏感信息的隐写输出的问题,提供一种信息隐写的检测方法及装置。
[0007] 本申请提供一种信息隐写的检测方法,包括:
[0008] 对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率;
[0009] 若所述敏感信息模型库中存在对应的敏感信息模型,则将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率;
[0010] 判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率;
[0011] 若是,则确定所述扫描信息存在信息隐写。
[0012] 可选的,所述方法,还包括:
[0013] 若判断出敏感信息模型库不存在对应的敏感信息模型,则判断所述扫描信息是否存在敏感信息;
[0014] 若所述扫描信息存在敏感信息,则确定所述扫描信息存在信息隐写。
[0015] 可选的,所述判断所述扫描信息是否存在敏感信息步骤,具体包括:
[0016] 通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素;
[0017] 对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合;
[0018] 若存在,则确定所述扫描信息存在敏感信息;
[0019] 若不存在,确定所述扫描信息不存在敏感信息。
[0020] 可选的,所述判断所述扫描信息是否存在敏感信息步骤中,若判断出所述扫描信息存在敏感信息,所述方法还包括:
[0021] 根据所述敏感信息建立敏感信息模型,并获取所述敏感信息模型的输出概率;
[0022] 将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。
[0023] 可选的,所述根据所述敏感信息建立敏感信息模型步骤,具体包括:
[0024] 将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;
[0025] 根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w))计算特征向量集合g(w);
[0026] 其中, ,
[0027] w为敏感词,Context(w)为w的上下文,NEG(w)为负样本子集, 为Context(w)中各词的词向量之和,θu为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))为低维向量数据训练集;
[0028] 通过公式 计算敏感系数概率作为所述敏感信息模型的输出概率,产生敏感信息模型;
[0029] 其中,z=wTx+b,wT为权重,x为所述特征向量集合g(w),b为常量。
[0030] 可选的,所述方法还包括:
[0031] 若所述第一输出概率小于所述敏感信息模型的输出概率,则确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。
[0032] 本申请还提供一种信息隐写的检测装置,包括:
[0033] 第一判断模块,用于对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率;
[0034] 第一计算模块,用于若所述敏感信息模型库中存在对应的敏感信息模型,则将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率;
[0035] 第二判断模块,用于判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率;
[0036] 第一确定模块,用于若是,则确定所述扫描信息存在信息隐写。
[0037] 可选的,所述装置还包括:
[0038] 第三判断模块,用于若判断出敏感信息模型库不存在对应的敏感信息模型,则判断所述扫描信息是否存在敏感信息;
[0039] 第二确定模块,用于若所述扫描信息存在敏感信息,则确定所述扫描信息存在信息隐写。
[0040] 可选的,所述第三判断模块,具体包括:
[0041] 第一转义子模块,用于通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素;
[0042] 判断子模块,用于对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合;
[0043] 第一确定子模块,用于若存在,则确定所述扫描信息存在敏感信息;
[0044] 第二确定子模块,用于否不存在,确定所述扫描信息不存在敏感信息。
[0045] 可选的,若所述第三判断模块判断出所述扫描信息存在敏感信息,所述装置还包括:
[0046] 模型建立模块,用于根据所述敏感信息建立敏感信息模型,并获取所述敏感信息模型的输出概率;
[0047] 存储模块,用于将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。
[0048] 可选的,所述模型建立模块,具体包括:
[0049] 第二转义子模块,用于将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;
[0050] 第一计算子模块,用于根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w))计算特征向量集合g(w);
[0051] 其中, ,
[0052] w为敏感词,Context(w)为w的上下文,NEG(w)为负样本子集, 为Context(w)中各词的词向量之和,θu为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))为低维向量数据训练集;
[0053] 第二计算子模块,用于通过公式 计算敏感系数概率作为所述敏感信息模型的输出概率,产生敏感信息模型;
[0054] 其中,z=wTx+b,wT为权重,x为所述特征向量集合g(w),b为常量。
[0055] 可选的,所述装置还包括:
[0056] 优化模块,用于若所述第一输出概率小于所述敏感信息模型的输出概率,则确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。
[0057] 本申请通过对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,进而通过对应的敏感信息模型计算扫描信息的第一输出概率,根据比较第一输出概率与对应的敏感信息模型原先保存的输出概率的大小,确定扫描信息是否进行了信息隐写。实现针对模型程序输出隐写信息的深度检测,有效的规避了有计划、有目的的刻意数据输出风险,有效的防止恶意的信息窃取行为,防止信息泄漏,为合法合规的使用大数据提供安全保障。

附图说明

[0058] 图1为本申请第一实施例提供的一种信息隐写的检测方法的流程图;
[0059] 图2为本申请第二实施例提供的一种信息隐写的检测方法的流程图;
[0060] 图3为本申请第二实施例提供的图2中步骤S206的流程图;
[0061] 图4为本申请第三实施例提供的一种信息隐写的检测装置的结构示意图;
[0062] 图5为本申请第四实施例提供的一种信息隐写的检测装置的结构示意图。

具体实施方式

[0063] 为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。
[0064] 本申请提供一种信息隐写的检测方法、装置。以下分别结合本申请提供的实施例的附图逐一进行详细说明。
[0065] 本申请第一实施例提供的一种信息隐写的检测方法如下:
[0066] 本申请实施例的执行主体是服务端,如图1所示,其示出了本申请实施例提供的一种信息隐写的检测方法的流程图,包括以下步骤。
[0067] 步骤S101,对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率,若是,则执行步骤S102;若否,则执行步骤S103。
[0068] 步骤S102,将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率。
[0069] 步骤S103,判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率,若是,则执行步骤S104;若否,则执行步骤S105。
[0070] 步骤S104,确定所述扫描信息存在信息隐写。
[0071] 步骤S105,确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。
[0072] 步骤S106,判断所述扫描信息是否存在敏感信息,若是,则执行步骤S107;若否,则流程结束。
[0073] 步骤S107,确定所述扫描信息存在信息隐写。
[0074] 本申请实施例通过对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,进而通过对应的敏感信息模型计算扫描信息的第一输出概率,根据比较第一输出概率与对应的敏感信息模型原先保存的输出概率的大小,确定扫描信息是否进行了信息隐写。实现针对模型程序输出隐写信息的深度检测,有效的规避了有计划、有目的的刻意数据输出风险,有效的防止恶意的信息窃取行为,防止信息泄漏,为合法合规的使用大数据提供安全保障。
[0075] 本申请第二实施例提供的一种信息隐写的检测方法如下:
[0076] 本申请实施例的执行主体是服务端,如图2所示,其示出了本申请实施例提供的一种信息隐写的检测方法的流程图,包括以下步骤。
[0077] 步骤S201,对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,若是,则执行步骤S202;若否,则执行步骤S206。
[0078] 运营商将客户开发的模型程序部署于分布式计算集群中,其模型输出的数据在输出之前会进行多次检测(电话号码、身份证信息、位置信息等敏感数据一律禁止输出),所输出的数据都为合法合规的信息。但在此数据基础上,现有技术无法针对已通过规则审核的大数据中隐藏的敏感信息进行检测。
[0079] 为了保护用户信息,防止信息泄漏,有效的规避有计划、有目的的刻意数据输出风险,需对扫描信息进行检测,检测输出的数据是否进行了信息隐写。
[0080] 在该步骤中,先对扫描信息进行分析,核查敏感信息模型库是否存在适用的对应的敏感信息模型。如果存在,则利用该敏感信息模型计算第一输出概率,如果不存在,则还需要建立新的对应的敏感信息模型。所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率。
[0081] 步骤S202,将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率。
[0082] 在该步骤中,敏感信息模型是生成概率的模型,将需要检测的扫描信息输入对应的敏感信息模型,获得第一输出概率。
[0083] 步骤S203,判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率,若是,则执行步骤S204;若否,则执行步骤S205。
[0084] 步骤S204,确定所述扫描信息存在信息隐写。
[0085] 步骤S205,确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。
[0086] 在上述步骤中,将扫描信息放到敏感信息模型中计算获得第一输出概率,根据第一输出概率进行判断。
[0087] 具体的,如果第一输出概率大于或等于敏感信息模型的输出概率,认为所述扫描信息存在信息隐写,针对所述扫描信息停止推送并告知客户。其中,敏感信息模型的输出概率即是初始的敏感信息模型的输出概率或者优化后的敏感信息模型的输出概率。例如,若初始的敏感信息模型的输出概率是0.8,获取对应的扫描信息后,将扫描信息输入到该初始的敏感信息模型之后,计算出的输出概率为0.85,则可判断该扫描信息进行了信息隐写的概率大于模型原有的输出概率,确定所述扫描信息存在信息隐写。
[0088] 如果第一输出概率小于敏感信息模型的输出概率,则需对所述敏感信息模型进行优化。敏感信息模型进行优化的具体步骤在下文产生敏感信息模型中论述,此处不作过多解释。
[0089] 优选地,所述信息隐写的检测方法还包括以下步骤:
[0090] 步骤S206,判断所述扫描信息是否存在敏感信息,若是,则执行步骤S207;若否,则流程结束。
[0091] 优选地,所述步骤S206具体包括以下步骤:
[0092] 步骤S301,通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素。
[0093] 若对扫描信息进行分析,核查敏感信息模型库不存在适用的对应的敏感信息模型,则需确定扫描信息是否为敏感信息,再建立新的对应的敏感信息模型。
[0094] 在该步骤中,先对扫描信息进行元素转义。对扫描信息进行元素转义之前,预先定义关键字特征库和元素关系映射库。
[0095] 关键字特征库包括:身份证号,手机号,护照号,社保卡号,银行卡号,邮箱,姓名信息等。例如,建立以手机号码、身份信息、IMIE、通话记录等用户隐私数据为基础的敏感信息关键字特征库。预先建立以数字、字母、具有运营商数据特性的汉字等信息的元素关系映射库,映射之后的数据包括数值/汉字和位置。如数字1的位置为1、汉字性别“共”映射为10等。例如,按如下映射关系进行映射:
[0096] 元素1------>1 2----->2 3----->3
[0097] 元素10------>话 11----->单 12----->钟
[0098] 具体的,通过元素关系映射库提取扫描信息中可能产生敏感数据的元素并进行元素转义,转义成位置与特征库相关向量矩阵集合。例如,扫描信息的示例数据如下:
[0099]20180910 611 90 5678 通 123 话 230121 单 详
[0100] 提取可疑敏感数据元素并转义,获取转义后的元素如下:
[0101] 1->1 8->8 6->6 7->7.......
[0102] 通->12 话->15 单->19 详->20......
[0103] 然后,对转义后的元素逐个标记位置。位置标记示例如下:1是第几位,2位置1.1,8位置1.3,0位置1.4。转义后的元素和每个元素的位置构成特征向量。
[0104]
[0105] 步骤S302,对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合,若是,则执行步骤S303;若否,则执行步骤S304。
[0106] 在该步骤中,对转义后的元素进行排列组合,排列采用 公式,组合采用 公式,将排列组合的结果集合与关键字特征库进行组合分析,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合,根据分析结果建立敏感信息的位置分布。
[0107] 具体的,排列组合策略采取按行处理:先将数字和非数字的进行分割;若分割出的数字,进行电话号码、身份证号码等快速筛查。
[0108] 例如,假定提取的转义后的数字集合为n{1,8,8,9,3,3,1,4,5,2,7,0,7……},然后从n个不同元素中,任取11(m≤n,m与n均为自然数,下同)个元素按照一定的顺序进行排列,将产生的排列结果集合逐个与关键字特征库中的电话号码特征进行碰撞。碰撞成功则说明,预先建立的关键字特征库中存在与排列组合的结果集合中一致的组合,即扫描信息存在敏感信息,碰撞结果集合即为敏感信息集合。
[0109] 步骤S303,确定所述扫描信息存在敏感信息。
[0110] 在该步骤中,通过判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合,若存在,则确定扫描信息存在敏感信息。
[0111] 步骤S304,确定所述扫描信息不存在敏感信息。
[0112] 在该步骤中,通过判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合,若不存在,则确定扫描信息不存在敏感信息,结束流程。
[0113] 步骤S207,确定所述扫描信息存在信息隐写。
[0114] 在该步骤中,步骤S206中判断所述扫描信息存在敏感信息,则可以确定所述扫描信息存在信息隐写。
[0115] 优选地,所述判断所述扫描信息是否存在敏感信息步骤中,若判断出所述扫描信息存在敏感信息,在步骤S207之后,所述信息隐写的检测方法还可以包括以下步骤:
[0116] 步骤S208,根据所述敏感信息建立敏感信息模型,并获取所述敏感信息模型的输出概率。
[0117] 优选地,根据所述敏感信息建立敏感信息模型,具体包括:将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w)) 计算特征向量集合g(w);其中,w为敏感词,Context(w)为w的上下文,NEG(w)为
负样本子集, 为Context(w)中各词的词向量之和,θu为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))
为低维向量数据训练集;通过公式 计算敏感系数概率作为所述敏感信息模型的T T
输出概率,产生敏感信息模型;其中,z=wx+b,w为权重,x为所述特征向量集合g(w),b为常量。
[0118] 在该步骤中,将敏感信息通过元素关系映射库依据步骤S301转义为特征向量w,再利用g (w)=∏u∈{w}∪NEG(w)p(u|Context(w))进行降维运算,其中,
[0119] 正样本是u是敏感词的样本,负样本是u不是敏感词的样本,p(u|Context(w))是低维向量数据训练集,通过将u是敏感词的样本的p(u|Context(w))与u不是敏感词的样本的p(u|Context(w))连乘获得低维特征向量集合g(w)。然后通过 z=wTx+b,将权重wT,特征向量x,即上述步骤计算出的g(w),常量b带入其中,计算出敏感系数概率,产生敏感信息模型。将所述敏感系数概率作为敏感信息模型的输出概率,也是初始的敏感信息模型的输出概率,针对所述敏感信息对应的扫描信息停止推送并告知客户。
[0120] 此外,在步骤S203中,如果第一输出概率小于敏感信息模型的输出概率时,则需对所述敏感信息模型进行优化。优化的步骤和建立敏感信息模型的步骤基本一致,即返回步骤S206-S208重复执行。只是输入的敏感信息会发生变化,计算敏感系数概率时的权重wT和常量b等参数也会发生变化,从而产生新的敏感系数概率,作为新的敏感信息模型的输出概率,也是优化后的敏感信息模型的输出概率。优化敏感信息模型直至产生较之前敏感信息模型的敏感系数概率高为止。
[0121] 步骤S209,将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。
[0122] 在该步骤中,将新建的敏感信息模型及对应的输出概率存储在敏感信息模型库中,便于日后调用该新建的敏感信息模型进行敏感数据检测。
[0123] 此外,若是对敏感信息模型进行优化,则将此优化后的敏感信息模型和优化后的敏感信息模型的输出概率更新至敏感信息模型库中,便于日后调用最新的敏感信息模型进行敏感数据检测。
[0124] 本申请实施例能够对与运营商合作方模型输出的标签类型数据进行信息隐写检测,不同于传统DLP、DPI、数据脱敏技术针对于内容的检测方法,而是提出了一种全新的内容检测思想。
[0125] 本申请实施例通过定义关键字特征库、元素关系映射库,对输出的标签类信息进行扫描转义,确定是否为敏感信息。进而形成分布规律模型,利用多种参数对输出的数据排列规律进行画像,根据分布规律模型确定输出的数据是否进行了信息隐写,实现针对模型程序输出隐写信息的深度检测。有效的规避了有计划、有目的的刻意数据输出风险,有效的防止恶意的信息窃取行为,防止信息泄漏,为合法合规的使用大数据提供安全保障。
[0126] 本申请第三实施例提供的一种信息隐写的检测装置如下:
[0127] 在上述的实施例中,提供了一种信息隐写的检测方法,与之相对应的,本申请还提供了信息隐写的检测装置。
[0128] 如图4所示,其示出了本申请实施例提供的一种信息隐写的检测装置的结构示意图,包括以下模块。
[0129] 第一判断模块11,用于对扫描信息进行分析,判断敏感信息模型库中是否存在对应的敏感信息模型,所述敏感信息模型库中存储有敏感信息模型以及与所述敏感信息模型对应的输出概率;
[0130] 第一计算模块12,用于若所述敏感信息模型库中存在对应的敏感信息模型,则将所述扫描信息输入所述敏感信息模型,以计算第一输出概率,所述第一输出概率为与所述扫描信息对应的输出概率;
[0131] 第二判断模块13,用于判断所述第一输出概率是否大于或等于所述敏感信息模型的输出概率;
[0132] 第一确定模块14,用于若是,则确定所述扫描信息存在信息隐写。
[0133] 本申请第四实施例提供的一种信息隐写的检测装置如下:
[0134] 可选的,如图5所示,其示出了本申请实施例提供的一种信息隐写的检测装置的结构示意图,本申请实施例在上述第三实施例的基础上,所述装置,还包括:
[0135] 第三判断模块15,用于若判断出敏感信息模型库不存在对应的敏感信息模型,则判断所述扫描信息是否存在敏感信息;
[0136] 第二确定模块16,用于若所述扫描信息存在敏感信息,则确定所述扫描信息存在信息隐写。
[0137] 可选的,如图5所示,所述第三判断模块15,具体包括:
[0138] 第一转义子模块151,用于通过预先建立的元素关系映射库对所述扫描信息进行元素转义,获得转义后的元素;
[0139] 判断子模块152,用于对所述转义后的元素进行排列组合,判断预先建立的关键字特征库中是否存在与所述排列组合的结果集合中一致的组合;
[0140] 第一确定子模块153,用于若存在,则确定所述扫描信息存在敏感信息;
[0141] 第二确定子模块154,用于否不存在,确定所述扫描信息不存在敏感信息。
[0142] 可选的,如图5所示,若所述第三判断模块判断出所述扫描信息存在敏感信息,所述装置还包括:
[0143] 模型建立模块17,用于根据所述敏感信息建立敏感信息模型,并获取所述敏感信息模型的输出概率;
[0144] 存储模块18,用于将所述敏感信息模型及对应的输出概率存储在所述敏感信息模型库中。
[0145] 可选的,如图5所示,所述模型建立模块17(图中未画出),具体包括:
[0146] 第二转义子模块,用于将所述敏感信息通过预先建立的元素关系映射库转义为特征向量w;
[0147] 第一计算子模块,用于根据所述特征向量w,通过公式g(w)=∏u∈{w}∪NEG(w)p(u|Context(w))计算特征向量集合g(w);
[0148] 其中,
[0149] w为敏感词,Context(w)为w的上下文,NEG(w)为负样本子集, 为Context(w)中各词的词向量之和,θu为词u对应的一个辅助向量,正样本是u是敏感词的样本,负样本是u不是敏感词的样本, p(u|Context(w))为低维向量数据训练集;
[0150] 第二计算子模块,用于通过公式 计算敏感系数概率作为所述敏感信息模型的输出概率,产生敏感信息模型;
[0151] 其中,z=wTx+b,wT为权重,x为所述特征向量集合g(w),b为常量。
[0152] 可选的,如图5所示,所述装置还包括:
[0153] 优化模块18,用于若所述第一输出概率小于所述敏感信息模型的输出概率,则确定所述扫描信息不存在信息隐写,并对所述敏感信息模型进行优化。
[0154] 可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。