数据表识别方法和系统转让专利

申请号 : CN201610263635.X

文献号 : CN107305615B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱隽

申请人 : 深信服科技股份有限公司

摘要 :

本发明涉及一种数据表识别方法和系统,该数据表识别方法包括以下步骤:获取用户数据表,并对用户数据表进行特征识别,获取用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法和系统可以精确识别用户数据表的属性和类型,识别准确率高。

权利要求 :

1.一种数据表识别方法,其特征在于,包括以下步骤:

获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征,所述内容特征为数据字段的特征,所述辅助特征为所述用户数据表中的数据的数据项、数据结构、数据流、数据存储、处理逻辑和外部实体进行定义和描述的集合;

将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;

根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值,所述用户数据表的评价值用于判断所述用户数据表的重要性等级;

当所述评价值大于第一预设阈值时,将所述用户数据表判定为预定类型的核心数据资产表。

2.根据权利要求1所述的方法,其特征在于,所述根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值的步骤包括:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。

3.根据权利要求1所述的方法,其特征在于,将所述用户数据表判定为预定类型的核心数据资产表的步骤包括:获取所述第一匹配度最大的内容特征;

将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。

4.根据权利要求1所述的方法,其特征在于,在将所述用户数据表判定为预定类型的重要数据资产表的步骤之后,还包括:显示所述用户数据表的识别结果。

5.根据权利要求1所述的方法,其特征在于,还包括:

当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,则显示与所述用户数据表相关联的数据表,并将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值。

6.一种数据表识别系统,其特征在于,包括:

特征识别模块,用于获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征,所述内容特征为数据字段的特征,所述辅助特征为所述用户数据表中的数据的数据项、数据结构、数据流、数据存储、处理逻辑和外部实体进行定义和描述的集合;

匹配模块,用于将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;

评价值计算模块,用于根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值,所述用户数据表的评价值用于判断所述用户数据表的重要性等级;

识别模块,用于当所述评价值大于第一预设阈值时,则将所述用户数据表判定为预定类型的核心数据资产表。

7.根据权利要求6所述的系统,其特征在于,所述评价值计算模块还用于:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。

8.根据权利要求6所述的系统,其特征在于,所述识别模块还用于:获取所述第一匹配度最大的内容特征;将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。

9.根据权利要求6所述的系统,其特征在于,还包括:

显示模块,用于显示所述用户数据表的识别结果。

10.根据权利要求9所述的系统,其特征在于,还包括:存储模块;

当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,所述存储模块用于将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值;

所述显示模块还用于显示与所述用户数据表相关联的数据表。

11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述数据表识别方法。

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述数据表识别方法。

说明书 :

数据表识别方法和系统

技术领域

[0001] 本发明涉及数据库技术领域,特别是涉及一种数据表识别方法和系统。

背景技术

[0002] 对于数据库的安全保护,一般会采用数据库审计或者数据库防火墙。然而数据库保护的核心是要保护用户在数据库存储的数据,因此识别哪些数据属于重要资产,从而可以设计敏感度更高的审计、监控策略来实现对这些重要数据的保护。
[0003] 目前的数据库安全产品,需要用户手动去配置,操作繁琐。另外,对于一些复杂的业务系统,用户根本无法精确判定哪些数据资产属于核心资产,因此不能针对不同等级的数据资产实施不同的审计和保护策略。

发明内容

[0004] 基于此,有必要针对上述技术问题,提供一种数据表识别方法和系统,其能够自动识别用户数据表的类型和属性,识别准确率高。
[0005] 一种数据表识别方法,包括以下步骤:
[0006] 获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;
[0007] 将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;
[0008] 根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;
[0009] 当所述评价值大于第一预设阈值时,将所述用户数据表判定为预定类型的核心数据资产表。
[0010] 在其中一个实施例中,所述根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值的步骤包括:
[0011] 计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。
[0012] 在其中一个实施例中,将所述用户数据表判定为预定类型的核心数据资产表的步骤包括:
[0013] 获取所述第一匹配度最大的内容特征;
[0014] 将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0015] 在其中一个实施例中,在将所述用户数据表判定为预定类型的重要数据资产表的步骤之后,还包括:
[0016] 显示所述用户数据表的识别结果。
[0017] 在其中一个实施例中,还包括:
[0018] 当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,则显示与所述用户数据表相关联的数据表,并将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值。
[0019] 一种数据表识别系统,包括:
[0020] 特征识别模块,用于获取用户数据表,并对所述用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;
[0021] 匹配模块,用于将所述内容特征和所述辅助特征与预先存储的特征库中的特征进行匹配,获取所述内容特征的第一匹配度和所述辅助特征的第二匹配度;
[0022] 评价值计算模块,用于根据所述第一匹配度和所述第二匹配度计算所述用户数据表的评价值;
[0023] 识别模块,用于当所述评价值大于第一预设阈值时,则将所述用户数据表判定为预定类型的核心数据资产表。
[0024] 在其中一个实施例中,所述评价值计算模块还用于:计算所述第一匹配度和所述第二匹配度的加权平均值,将所述加权平均值作为所述评价值。
[0025] 在其中一个实施例中,所述识别模块还用于:获取所述第一匹配度最大的内容特征;将所述用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0026] 在其中一个实施例中,还包括:
[0027] 显示模块,用于显示所述用户数据表的识别结果。
[0028] 在其中一个实施例中,还包括:存储模块;当所述评价值大于第二预设阈值且所述评价值小于或者等于第一预设阈值时,所述存储模块用于,将所述用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中所述第二预设阈值小于所述第一预设阈值;所述显示模块还用于显示与所述用户数据表相关联的数据表。
[0029] 上述的数据表识别方法和系统,通过对用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,则将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法和系统可以精确识别用户数据表的属性和类型,识别准确率高。

附图说明

[0030] 图1为一个实施例中的数据表识别方法的流程图;
[0031] 图2为一个实施例中的数据表识别系统的结构框图;
[0032] 图3为另一个实施例中的数据表识别系统的结构框图。

具体实施方式

[0033] 在一个实施例中,如图1所示,提出了一种数据表识别方法。该方法包括以下步骤:
[0034] 步骤102,获取用户数据表,并对用户数据表进行特征识别,得到用户数据表中的内容特征和辅助特征。
[0035] 从用户数据库中获取待识别的用户数据表。这些用户数据表包括表名、字段,字段类型,字段长度,数据记录等。
[0036] 在本实施例中,用户数据表中的内容特征为数据记录部分,即为一些数据字段的特征。例如,密码可能是hash值,身份证可能是具有某种特征组合的数字,生日是日期数据等。内容特征可以为一个或者多个。
[0037] 辅助特征即为数据字典,数据字典是指对用户数据表中的数据的数据项、数据结构、数据流、数据存储、处理逻辑、外部实体等进行定义和描述的集合。例如辅助特征可以为:表名、字段名、存储过程名等特征。例如根据用户数据表的表名可以预测用户数据表的类型,例如表名为order或dingdan的用户数据表可能为订单,表名为*user*或*usr*的用户数据表可能为用户表。辅助特征可以为一个或者多个。
[0038] 对获取的用户数据表进行特征识别,获取用户数据表中所有的内容特征和辅助特征。
[0039] 步骤104,将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度。
[0040] 在本实施例中,预先存储的特征库包括基本特征库和行业特征库,那么预先存储的特征库中的特征则包括基本特征和行业特征。基本特征包括如上述实施例中所述的身份证、hash值、用户名等基本特征。行业特征包括特定行业数据库特征,例如医疗行业几个常见HIS系统中的特征(例如哪些是医院的药品信息,哪些是处方信息),社区软件discuz系统(例如哪些存储用户名,哪些存储重要档案等)等。
[0041] 将上述实施例102中的内容特征和辅助特征与预先存储的特征库中的特征进行匹配,分别获取内容特征的第一匹配度和辅助特征的第二匹配度。匹配的方式可以为字符串匹配,还可以为其他匹配方式,这里不再赘述。
[0042] 步骤106,根据第一匹配度和第二匹配度计算用户数据表的评价值。
[0043] 在本实施例中,用户数据表的评价值用于判断用户数据表的属性(重要性等级)。该评价值越高,则用户数据表的重要性等级就越高。当该评价值大于第一预设阈值时,则可将该用户数据表判定为核心用户数据资产表。
[0044] 步骤108,当评价值大于第一预设阈值时,将用户数据表判定为预定类型的核心数据资产表。
[0045] 当评价值大于预设阈值时,则可将该用户数据表判定为核心数据资产表。反之,则该用户数据表为非核心数据资产表。
[0046] 通过上述步骤102和步骤104获取内容特征的第一匹配度和辅助特征第二匹配度之后,步骤106将会计算用户数据表的评价值,即对用户数据表进行打分。例如某个数据表,其表名匹配到了*user*这个特征,表中的字段名存在user_name,passwd这种关键字,返回的数据中存在满足hash值特征,身份证等特征。那么会给这张表匹配用户信息表打分。当分数超过某个阈值时,则可将该数据表自动识别为某个类型的核心数据资产表。
[0047] 在本实施例中,当用户数据表的评价值大于第一预设阈值时,则可判定该用户数据表的属性为核心数据资产表。同时可以判定用户数据表的类型为第一匹配度最大的内容特征对应的类型。即将用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0048] 进一步地,当用户数据表的评价值小于第一预设阈值时,则可判定该用户数据表为非核心数据资产表。
[0049] 上述的数据表识别方法,通过对用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,则将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法可以精确识别用户数据表的属性和类型,识别准确率高。
[0050] 在一个实施例中,根据第一匹配度和第二匹配度计算用户数据表的评价值的步骤包括:
[0051] 计算第一匹配度和第二匹配度的加权平均值,将加权平均值作为评价值。
[0052] 在本实施例中,通过线性加权运算计算第一匹配度和第二匹配度的加权平均值,即评价值。例如,可以假设有m个内容特征,n个辅助特征。内容特征的第一匹配度为xi,辅助特征的第二匹配度为yj,则用户数据表的评价值E可以表示为:
[0053]
[0054] 其中,ωi和λj分别为第一匹配度xi和第二匹配度yj的权重,且0<ωi<1,0<λj<1,i和j为正整数。
[0055] 通过上述的加权运算,可以获取用户数据表的评价值,该评价值可以评价该用户数据表的属性(重要性等级)。
[0056] 在一个实施例中,将用户数据表判定为预定类型的核心数据资产表的步骤包括:
[0057] 获取第一匹配度最大的内容特征;
[0058] 将用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0059] 在本实施例中,首先将至少一个内容特征的第一匹配度进行排序,获取第一匹配度最大的内容特征,将用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0060] 例如内容特征中包含身份证,身份证的第一匹配度最大。另外身份证中18个数字特征,如果其中5个数字特征满足,那么就识别为身份证,即将用户数据表判定为身份证类型的核心数据资产表。
[0061] 通过上述实施例的方式,识别出用户数据表的类型,便于分类存储。
[0062] 在一个实施例中,在将用户数据表判定为预定类型的重要数据资产表的步骤之后,还包括:
[0063] 显示用户数据表的识别结果。
[0064] 在本实施例中,自动识别完成以后,为用户提供并展示用户数据表的自动识别结果,即该用户数据表是否为核心资产数据表。
[0065] 进一步地,在一个实施例中,该方法还包括:
[0066] 当评价值大于第二预设阈值且评价值小于或者等于第一预设阈值时,则显示与用户数据表相关联的数据表,并将用户数据表存储为匹配度最大的内容特征对应的数据资产表。第二预设阈值小于第一预设阈值。
[0067] 当用户数据表的评价值大于第二预设阈值且评价值小于或者等于第一预设阈值时,显示与该用户数据表相关联的数据表,例如使用union进行联查的表。例如当某个数据表的评价值大于第二预设阈值且评价值小于或者等于第一预设阈值时,那么可判定该数据表疑似用户信息表,那么显示和这个数据表相关联的数据表,利用这些关联的数据表,用户(管理员)可以进一步辅助识别结果,从而快速定位到核心数据资产表。
[0068] 另外,当用户数据表的评价值大于第二预设阈值且评价值小于或者等于第一预设阈值时,将该用户数据表另存为第一匹配度最大的内容特征对应的数据资产表。
[0069] 例如某个数据表被判断疑似用户身份表,但是判分(评价值)不足,则将该数据表另存到用户身份表区域,以便于进一步识别判断。
[0070] 进一步的,当评价值小于第二预设阈值时,则可将该用户数据表判定为非核心数据资产表。
[0071] 在一个实施例中,如图2所示,提出了一种数据表识别系统200。该系统200包括:特征识别模块202、匹配模块204、评价值计算模块206和识别模块208。
[0072] 特征识别模块202,用于获取用户数据表,并对用户数据表进行特征识别,获取用户数据表中的内容特征和辅助特征。匹配模块204用于将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度。评价值计算模块206用于根据第一匹配度和第二匹配度计算用户数据表的评价值。识别模块210用于当评价值大于第一预设阈值时,则将用户数据表判定为预定类型的核心数据资产表。
[0073] 在一个实施例中,评价值计算模块206还用于:计算第一匹配度和第二匹配度的加权平均值,将该加权平均值作为评价值。
[0074] 在一个实施例中,识别模块208还用于:获取第一匹配度最大的内容特征;将用户数据表判定为第一匹配度最大的内容特征对应的核心数据资产表。
[0075] 在一个实施例中,如图3所示,该系统200还包括:显示模块210。
[0076] 显示模块210用于显示用户数据表的识别结果。
[0077] 在一个实施例中,该系统200还包括:存储模块212。当评价值大于第二预设阈值且评价值小于或者等于第一预设阈值时,存储模块212用于将用户数据表存储为第一匹配度最大的内容特征对应的数据资产表,其中第二预设阈值小于第一预设阈值。显示模块210还用于显示与该用户数据表相关联的数据表。
[0078] 本实施例的数据表识别系统200用于实现前述的数据表识别方法,因此数据表识别系统200中的具体实施可参见前文中数据表识别方法的实施例部分,在此不再累述。
[0079] 上述的数据表识别系统,通过对用户数据表进行特征识别,获取所述用户数据表中的内容特征和辅助特征;将内容特征和辅助特征与预先存储的特征库中的特征进行匹配,获取内容特征的第一匹配度和辅助特征的第二匹配度;根据第一匹配度和第二匹配度计算用户数据表的评价值;当评价值大于第一预设阈值时,则将用户数据表判定为预定类型的核心数据资产表。上述的数据表识别方法可以精确识别用户数据表的属性和类型,识别准确率高。
[0080] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0081] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。