辅助定密方法和装置转让专利

申请号 : CN201510613516.8

文献号 : CN105260878B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱永强江雪黄筱聪

申请人 : 成都网安科技发展有限公司

摘要 :

本发明提供了一种辅助定密方法和装置,涉及保密科学技术领域。采用多个辅助定密方式对待定密文件进行辅助定密,得到对应的多个辅助定密意见,多个辅助定密方式包括基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式、基于待定密文件的定密特征的辅助定密方式、基于待定密文件的文件结构的辅助定密方式以及基于待定密文件的文件主题的辅助定密方式。接收用户输入的选择指令,输出用户所选择的至少一个辅助定密方式对应的辅助定密意见。本发明提供的辅助定密方法和装置,对待定密文件从不同的角度进行处理,通过不同的判定方式对同一篇待定密文件分别给出不同辅助定密意见,能够帮助定密工作人员更高效更准确的完成定密工作。

权利要求 :

1.一种辅助定密方法,其特征在于,所述方法包括:

获得需要进行定密的待定密文件;

采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见,其中,所述多个辅助定密方式包括基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式、基于待定密文件的定密特征的辅助定密方式、基于待定密文件的文件结构的辅助定密方式以及基于待定密文件的文件主题的辅助定密方式;

接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;

输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看,所述基于待定密文件的文件结构的辅助定密方式包括:按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;

将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;

查找相互匹配的待定密指纹段和已定密指纹段;

计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;

将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出;

查找相互匹配的待定密指纹段和已定密指纹段,包括:

计算进行对比的待定密指纹段和已定密指纹段的长度差值;

如果长度差值大于预设的长度差值阈值,对比待定密指纹段和已定密指纹段的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配;

如果长度差值小于预设的长度差值阈值,计算所述进行对比的待定密指纹段与已定密指纹段的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配;

所述基于待定密文件的文件主题的辅助定密方式包括:

对所述待定密文件进行文本向量化,由所述待定密文件生成对应的待定密样本向量;

将所述待定密样本向量与预先保存的主题空间中的主题矩阵进行相似度计算,计算所述待定密样本向量与每一个主题向量的相似度,所述主题矩阵包括多个主题向量,所述主题向量是对预先保存的已定密文件进行文本向量化得到的,一个所述主题向量对应一个所述已定密文件;

选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出,N为预设的第三阈值。

2.根据权利要求1所述的方法,其特征在于,所述基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式包括:接收用户输入的选择指令,所述选择指令包括在多个领域中用户选择的所述待定密文件的所属领域;

判断所述待定密文件的所属领域是否属于涉密领域,若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出表示该所属领域涉密的辅助定密意见。

3.根据权利要求1所述的方法,其特征在于,所述基于待定密文件的定密特征的辅助定密方式包括:将所述待定密文件与预先保存的定密特征库中的定密特征的定密特征段使用通配符匹配算法进行匹配,所述定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;

将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。

4.根据权利要求1所述的方法,其特征在于,所述预设的分段优化规则,包括:根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;

计算每一个原始指纹段的长度,删除长度小于预设的长度阈值的原始指纹段;

计算每一个原始指纹段的有效词个数,删除有效词个数小于预设的有效词个数阈值的原始指纹段;

将未被删除的原始指纹段作为已定密指纹段。

5.一种辅助定密装置,其特征在于,所述装置包括:

待定密文件接收单元,用于获得需要进行定密的待定密文件;

辅助定密单元,用于采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见;

选择指令接收单元,用于接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;

辅助定密意见输出单元,用于输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看;

其中,所述辅助定密单元包括:

第一辅助定密单元,用于采用基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;

第二辅助定密单元,用于采用基于待定密文件的定密特征的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;

第三辅助定密单元,用于采用基于待定密文件的文件结构的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;

第四辅助定密单元,用于采用基于待定密文件的文件主题的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;

所述第三辅助定密单元包括:

指纹段生成单元,用于按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;

指纹段对比单元,用于将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;

指纹段匹配单元,用于查找相互匹配的待定密指纹段和已定密指纹段;

比例值计算单元,用于计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;

第三辅助定密意见输出单元,用于将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出;

所述指纹段匹配单元包括:

长度差值计算单元,用于计算进行对比的待定密指纹段和已定密指纹段的长度差值;

第一指纹段匹配单元,用于如果长度差值大于预设的长度差值阈值,对比待定密指纹段和已定密指纹段的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配;

第二指纹段匹配单元,用于如果长度差值小于预设的长度差值阈值,计算所述进行对比的待定密指纹段与已定密指纹段的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配;

所述第四辅助定密单元包括:

第二文本向量化单元,用于对所述待定密文件进行文本向量化,由所述待定密文件生成对应的待定密样本向量;

第二相似度计算单元,用于将所述待定密样本向量与预先保存的主题空间中的主题矩阵进行相似度计算,计算所述待定密样本向量与每一个主题向量的相似度,所述主题矩阵包括多个主题向量,所述主题向量是对预先保存的已定密文件进行文本向量化得到的,一个所述主题向量对应一个所述已定密文件;

第四辅助定密意见输出单元,用于选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出,N为预设的第三阈值。

6.根据权利要求5所述的装置,其特征在于,所述第一辅助定密单元包括:行业识别单元,用于接收用户输入的选择指令,所述选择指令包括在多个领域中用户选择的所述待定密文件的所属领域;

第一辅助定密意见输出单元,用于若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的非涉密的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出辅助定密意见为“此领域涉密,涉密领域的密级具体范围的规定不予支持”。

7.根据权利要求5所述的装置,其特征在于,所述第二辅助定密单元包括:定密特征匹配单元,用于将所述待定密文件与预先保存的定密特征库中的定密特征的经过模糊涉密信息后的定密特征段使用通配符匹配算法进行匹配,所述定密特征库中的经过模糊涉密信息后的定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成的定密特征段,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;

第二辅助定密意见输出单元,用于将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。

8.根据权利要求5所述的装置,其特征在于,所述指纹段生成单元包括:原始指纹段生成单元,用于根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;

原始指纹段长度计算单元,用于计算每一个原始指纹段的长度,删除长度小于预设的长度阈值的原始指纹段;

有效词个数计算单元,用于计算每一个原始指纹段的有效词个数,删除有效词个数小于预设的有效词个数阈值的原始指纹段;

已定密指纹段生成单元,用于将未被删除的原始指纹段作为已定密指纹段。

说明书 :

辅助定密方法和装置

技术领域

[0001] 本发明涉及保密科学技术领域,具体而言,涉及一种辅助定密方法和装置。

背景技术

[0002] 保密工作关系着国家安全,定密工作作为开展保密工作的一个重要环节,其目的是确定哪些信息是国家秘密,哪些信息不是。传统的定密工作,一直依赖于人工,定密的准确性和工作效率不高。
[0003] 目前市面上存在一些辅助定密类产品,但大部分的辅助定密类产品所做的工作都还是局限在流程管理上,对于辅助定密系统的算法核心,即如何通过计算机对文件的涉密性进行辅助识别上,往往依旧采用关键字匹配的方法,这样得到的辅助定密结果往往缺乏准确依据,效率不高。
[0004] 综上所述,在利用计算机对文件进行定密这一领域当前的研究并不多且都不太深入,因此需要寻求一种辅助定密系统,来更好的帮助定密工作人员高效准确的完成定密工作。

发明内容

[0005] 本发明的目的在于提供一种辅助定密方法和装置,以使辅助定密系统定密的准确性和工作效率不高的问题得到改善。
[0006] 为了实现上述目的,本发明实施例采用的技术方案如下:
[0007] 第一方面,本发明实施例提供了一种辅助定密方法,所述方法包括:
[0008] 获得需要进行定密的待定密文件;
[0009] 采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见,其中,所述多个辅助定密方式包括基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式、基于待定密文件的定密特征的辅助定密方式、基于待定密文件的文件结构的辅助定密方式以及基于待定密文件的文件主题的辅助定密方式;
[0010] 接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;
[0011] 输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看。
[0012] 第二方面,本发明实施例提供了一种辅助定密装置,所述装置包括:
[0013] 待定密文件接收单元,用于获得需要进行定密的待定密文件;
[0014] 辅助定密单元,用于采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见;
[0015] 选择指令接收单元,用于接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;
[0016] 辅助定密意见输出单元,用于输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看;
[0017] 其中,所述辅助定密单元包括:
[0018] 第一辅助定密单元,用于采用基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0019] 第二辅助定密单元,用于采用基于待定密文件的定密特征的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0020] 第三辅助定密单元,用于采用基于待定密文件的文件结构的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0021] 第四辅助定密单元,用于采用基于待定密文件的文件主题的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见。
[0022] 本发明提供的辅助定密方法和装置,能对定密文件进行统一管理,对待定密文件从不同的角度进行处理,通过不同的判定方式对同一篇待定密文件分别给出不同辅助定密意见,能够帮助定密工作人员更高效更准确的完成定密工作。
[0023] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0024] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
[0025] 图1示出了本发明实施例提供的一种辅助定密方法的流程图;
[0026] 图2示出了本发明实施例提供的一种基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式的流程图;
[0027] 图3示出了本发明实施例提供的一种基于待定密文件的定密特征的辅助定密方式的流程图;
[0028] 图4示出了本发明实施例提供的一种基于待定密文件的文件结构的辅助定密方式的流程图;
[0029] 图5示出了本发明实施例提供的另一种基于待定密文件的文件结构的辅助定密方式的流程图;
[0030] 图6示出了本发明实施例提供的一种基于待定密文件的文件主题的辅助定密方式的流程图;
[0031] 图7示出了本发明实施例提供的一种辅助定密装置的结构框图;
[0032] 图8示出了本发明实施例提供的第一辅助定密单元的结构框图;
[0033] 图9示出了本发明实施例提供的第二辅助定密单元的结构框图;
[0034] 图10示出了本发明实施例提供的第三辅助定密单元的结构框图;
[0035] 图11示出了本发明实施例提供的第四辅助定密单元的结构框图。

具体实施方式

[0036] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037] 参阅图1,本发明实施例提供的一种辅助定密方法,所述方法包括:
[0038] 步骤S101,获得需要进行定密的待定密文件;
[0039] 待定密文件可以由用户通过手动输入的方式获得,也可以通过设置本地的导入路径获得。
[0040] 步骤S102,采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见,其中,所述多个辅助定密方式包括基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式、基于待定密文件的定密特征的辅助定密方式、基于待定密文件的文件结构的辅助定密方式以及基于待定密文件的文件主题的辅助定密方式;
[0041] 步骤S103,接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;
[0042] 步骤S104,输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看。
[0043] 需要说明的是,本发明实施例中所指的用户泛指需要对待定密文件进行定密的人,例如定密工作者。
[0044] 本实施例提供的辅助定密方法中,在用户输入待定密文件后,分别采用不同的辅助定密方式对待定密文件进行处理,进而得到了不同角度的辅助定密意见。然后根据用户做出的选择,展示对应的辅助定密意见。用户可以根据辅助定密意见进行综合分析,判定该待定密文件是否涉密及涉密密级,能够帮助用户更高效更准确的完成定密工作。
[0045] 参阅图2,本发明实施例提供的一种基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式,包括:
[0046] 步骤S201,接收用户输入的选择指令,所述选择指令包括在多个领域中用户选择的所述待定密文件的所属领域;
[0047] 步骤S202,判断所述待定密文件的所属领域是否属于涉密领域,若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出表示该所属领域涉密的辅助定密意见。
[0048] 每一个领域都有国家规定的国家秘密范围的规定,定密工作人员根据各个领域的国家秘密范围的规定对待定密文件进行定密。国家秘密范围的规定中包含本身属于涉密信息的规定和本身不涉密的规定,对于本身涉密的所有规定,并不录入。当用户识别出所述待定密文件所属领域的密级具体范围的规定不涉密,则将该所属领域对应的非涉密的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则则输出表示该所属领域涉密的辅助定密意见,比如输出“此领域涉密,涉密领域的密级具体范围的规定不予支持”这种类似的辅助定密意见。这样用户就能很方便的查看到所述待定密文件所属领域的密级具体范围的规定,给用户以参考,为用户提供了很有效的辅助定密意见。
[0049] 例如,首先由用户选择待定密文件所属领域,假设为“建筑”领域,若“建筑”领域为非涉密领域,此时,将提前录入的“建筑”领域对应的密级具体范围的规定作为辅助定密意见输出;假设用户选择待定密文件所属领域为“国家安全”领域,若“国家安全”领域本身为涉密领域,此时,则可以输出辅助定密意见为“此领域涉密,涉密领域的密级具体范围的规定不予支持”。
[0050] 参阅图3,本发明实施例提供的一种基于待定密文件的定密特征的辅助定密方式,包括:
[0051] 步骤S301,将所述待定密文件与预先保存的定密特征库中的定密特征的定密特征段使用通配符匹配算法进行匹配,所述定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;
[0052] 定密特征包含了其对应的定密特征段的相关信息,除了定密属性以及定密期限以外,还可以包括文件名、所属行业等其他信息。
[0053] 步骤S302,将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。
[0054] 例如,用户手动选出定密特征原文为“成都今年发放灾款2000万”,并且用户认为“2000”为涉密信息,手动把“2000”进行模糊处理,处理后生成的定密特征段为“成都今年发放灾款***万”,将此模糊涉密信息后的定密特征段与其定密属性,定密期限作为一个定密特征存入定密特征库中。假设此时待定密文件中包含“成都今年发放灾款5000万”,则根据通配符匹配算法,认为定密特征段为“成都今年发放灾款***万”与“成都今年发放灾款5000万”匹配,此时将定密特征段为“成都今年发放灾款***万”对应的定密特征作为辅助定密意见返回。
[0055] 参阅图4,本发明实施例提供的一种基于待定密文件的文件结构的辅助定密方式,包括:
[0056] 步骤S401,按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;
[0057] 步骤S402,将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0058] 步骤S403,查找相互匹配的待定密指纹段和已定密指纹段;
[0059] 步骤S404,计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0060] 步骤S405,将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0061] 在本实施例中,采用的分段规则是根据文件内容的标点符号将定密文件进行划分。将预先保存的已定密文件和接收到的待定密文件按照同样的方式生产对应的指纹段,再进行匹配。通过匹配的待定密指纹段和已定密指纹段,查找与待定密文件相似度高的已定密文件,进而获得对待定密文件的辅助定密意见。
[0062] 参阅图5,作为本发明的优选实施方式,本发明实施例提供的另一种基于待定密文件的文件结构的辅助定密方式,包括:
[0063] 步骤S451,根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;
[0064] 步骤S452,计算每一个原始指纹段的长度,删除长度小于预设的长度阈值的原始指纹段;
[0065] 步骤S453,计算每一个原始指纹段的有效词个数,删除有效词个数小于预设的有效词个数阈值的原始指纹段;
[0066] 步骤S454,将未被删除的原始指纹段作为已定密指纹段;
[0067] 步骤S455,将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0068] 步骤S456,计算进行对比的待定密指纹段和已定密指纹段的长度差值;
[0069] 步骤S457,判断长度差值是否大于预设的长度差值阈值,如果是,执行步骤S458,如果否,执行步骤S459;
[0070] 步骤S458,对比待定密指纹段和已定密指纹段的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配;
[0071] 步骤S459,计算所述进行对比的待定密指纹段与已定密指纹段的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配。
[0072] 步骤S460,计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0073] 步骤S461,将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0074] 对已定密文件和待定密文件共同采用的分段划分方式是按标点进行分段。分段后为了提高匹配的效率,还要对分段后的指纹段进行优化。优化的方式是通过预设的长度阈值和有效词个数阈值对指纹段进行筛选,删除不符合要求的指纹段,其中有效词个数是利用中文分词函数及停词表计算得到的。对优化后已定密文件的已定密指纹段保存于指纹库中,作为对比的对象。将接收到的待定密文件分段并优化后的待定密指纹段与保存于指纹库中的已定密指纹段进行对比。
[0075] 判断已定密指纹段和待定密指纹段是否匹配有两种不同的方式,具体采用哪一种,是根据已定密指纹段和待定密指纹段的长度差值确定的。如果两者的长度差值大于预设的长度差值阈值,采用的是直接对比的方式,对比两者的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配。如果两者的长度差值小于预设的长度差值阈值,通过Lenvenshtein算法计算两者的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配。
[0076] 在获得了与待定密指纹段匹配的已定密指纹段后,要计算属于同一个已定密文件的已定密指纹段匹配的待定密指纹段在所有待定密指纹段中的比例,进而得到对应的辅助定密意见。
[0077] 例如,设已定密文件1含有[a。b。c。d,e,f。]这些元素,首先以语义划分的标点符号作为分段规则,分段后得到原始指纹段:[分段1]a、[分段2]b、[分段3]c、[分段4]e、[分段5]f。假设指纹段长度阈值T为10,有效词个数阈值S为8,假设分段1~5的长度分别为:80,90,45,5,55,则此时分段4长度小于阈值T,不能作为指纹段而被淘汰,接着对剩下的分段1,分段2,分段3,分段5进行分词去停词后统计有效词的个数分别为:9,11,5,7,此时分段3与分度5也因为有效词个数小于阈值S被淘汰。因此分段1,分段2被作为指纹段选出。把已定密文件1以及提取出的指纹段作为已定密指纹段录入进指纹库。
[0078] 假设待定密指纹段1为:“成都拨发灾款2000万”,此时与已定密指纹段1:“成都政府于2008年向汶川灾区拨发灾款2000万”,进行匹配,假设预设的长度差值阈值为8,此时认为待定密指纹段1与已定密指纹段1的长度相差太大,超过长度差值阈值,不采用Lenvenshtein算法进行模糊匹配,但此时待定密指纹段1恰好是已定密指纹段1的精确子集,因此认为这2个指纹段匹配。假设待定密指纹段2为:“成都军区2008年招募军人人数为1000人”,此时与已定密指纹段2:“成都军区2008年入伍军人人数为1000人"对比,两个指纹的长度相差不大,小于长度差值阈值,采用Lenvenshtein算法进行模糊匹配,编辑距离阈值设置为3,此时两个指纹的编辑距离为2,因此认为这2个指纹的也是匹配的。
[0079] 假设有5篇已定密文件,每篇文件中包含了5个已定密指纹段,假设待定密文件A有10个待定密指纹段,如果样本库中已定密文件B1的已定密指纹段与待定密文件A的待定密指纹段通过相似度比较后,没有相似或者相同的指纹段,则返回比例值((A∩B1)/A)=0,如果样本库中已定密文件B2的已定密指纹段与待定密文件A的待定密指纹通过相似度比较后,有1个匹配的指纹段,则返回((A∩B2)/A)=1/10,如果样本库中已定密文件文件B3的已定密指纹段与待定密文件A的待定密指纹通过相似度比较后,有3个匹配的指纹段,则返回((A∩B3)/A)=3/10。
[0080] 假设此时预设第二阈值N=2/10,分别把3个相似度值,即0,1/10,3/10与阈值N=2/10进行比较,发现只有样本库文件B3大于第二阈值,把待定密文件与已定密文件B3的相似度,及对应的已定密指纹段作为辅助定密结果输出。
[0081] 参阅图6,本发明实施例提供的一种基于待定密文件的文件主题的辅助定密方式,包括:
[0082] 步骤S501,对所述待定密文件进行文本向量化,由所述待定密文件生成对应的待定密样本向量;
[0083] 步骤S502,将所述待定密样本向量与预先保存的主题空间中的主题矩阵进行相似度计算,计算所述待定密样本向量与每一个主题向量的相似度,所述主题矩阵包括多个主题向量,所述主题向量是对预先保存的已定密文件进行文本向量化得到的,一个所述主题向量对应一个所述已定密文件;
[0084] 步骤S503,选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出,N为预设的第三阈值。
[0085] 采用相同的文本向量化方法,对预先保存的已定密文件和接收到的待定密文件文件进行处理。在本实施例中,采用的是IG特征词选择算法作为提取算法提取文本向量,再采用TF-IDF权重计算法计算向量对应特征值的权重。
[0086] 预先保存的已定密文件进行文本向量化得到的主题向量组成的主题矩阵,保存于主题空间中。计算由所述待定密文件生成对应的待定密样本向量与主题矩阵的每一个主题向量的相似度。在本实施例中,相似度计算采用的是计算余弦距离的方法。最后选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出。
[0087] 本发明提供的辅助定密方法,对待定密文件从不同的角度进行处理,通过不同的判定方式对同一篇待定密文件分别给出不同辅助定密意见,能够帮助定密工作人员更高效更准确的完成定密工作。
[0088] 参阅图7,本发明实施例提供的一种辅助定密装置,所述装置包括:
[0089] 待定密文件接收单元601,用于获得需要进行定密的待定密文件;
[0090] 辅助定密单元602,用于采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见;
[0091] 选择指令接收单元603,用于接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;
[0092] 辅助定密意见输出单元604,用于输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看;
[0093] 其中,所述辅助定密单元602包括:
[0094] 第一辅助定密单元651,用于采用基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0095] 第二辅助定密单元652,用于采用基于待定密文件的定密特征的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0096] 第三辅助定密单元653,用于采用基于待定密文件的文件结构的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0097] 第四辅助定密单元654,用于采用基于待定密文件的文件主题的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见。
[0098] 参阅图8,本发明实施例提供的第一辅助定密单元,包括:
[0099] 行业识别单元701,用于用户对所述待定密文件所属领域进行识别;
[0100] 第一辅助定密意见输出单元702,用于将若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的非涉密的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出辅助定密意见为“此领域涉密,涉密领域的密级具体范围的规定不予支持”。
[0101] 参阅图9,本发明实施例提供的第二辅助定密单元,包括:
[0102] 定密特征匹配单元801,用于将所述待定密文件与预先保存的定密特征库中的定密特征的经过模糊涉密信息后的定密特征段使用通配符匹配算法进行匹配,所述定密特征库中的经过模糊涉密信息后的定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成的定密特征段,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;
[0103] 第二辅助定密意见输出单元802,用于将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。
[0104] 参阅图10,本发明实施例提供的第三辅助定密单元,包括:
[0105] 指纹段生成单元901,用于按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;
[0106] 指纹段对比单元902,用于将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0107] 指纹段匹配单元903,用于查找相互匹配的待定密指纹段和已定密指纹段;
[0108] 比例值计算单元904,用于计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0109] 第三辅助定密意见输出单元905,用于将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0110] 所述指纹段生成单元901包括:
[0111] 原始指纹段生成单元951,用于根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;
[0112] 原始指纹段长度计算单元952,用于计算每一个原始指纹段的长度,删除长度小于预设的长度阈值的原始指纹段;
[0113] 有效词个数计算单元953,用于计算每一个原始指纹段的有效词个数,删除有效词个数小于预设的有效词个数阈值的原始指纹段;
[0114] 已定密指纹段生成单元954,用于将未被删除的原始指纹段作为已定密指纹段。
[0115] 所述指纹段匹配单元903包括:
[0116] 长度差值计算单元955,用于计算进行对比的待定密指纹段和已定密指纹段的长度差值;
[0117] 第一指纹段匹配单元956,用于如果长度差值大于预设的长度差值阈值,对比待定密指纹段和已定密指纹段的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配;
[0118] 第二指纹段匹配单元957,用于如果长度差值小于预设的长度差值阈值,计算所述进行对比的待定密指纹段与已定密指纹段的编辑距离,如果编辑距离小于预设编辑距离阈值,则认为匹配。
[0119] 参阅图11,本发明实施例提供的第四辅助定密单元,包括:
[0120] 第二文本向量化单元1001,用于对所述待定密文件进行文本向量化,由所述待定密文件生成对应的待定密样本向量;
[0121] 第二相似度计算单元1002,用于将所述待定密样本向量与预先保存的主题空间中的主题矩阵进行相似度计算,计算所述待定密样本向量与每一个主题向量的相似度,所述主题矩阵包括多个主题向量,所述主题向量是对预先保存的已定密文件进行文本向量化得到的,一个所述主题向量对应一个所述已定密文件;
[0122] 第四辅助定密意见输出单元1003,用于选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出,N为预设的第三阈值。
[0123] 本发明实施例所提供的辅助定密装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0124] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0125] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0126] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0127] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0128] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0129] 在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0130] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。