数据处理方法、装置、服务器及存储介质转让专利

申请号 : CN201910195385.4

文献号 : CN110110543A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈兆东王门门张健

申请人 : 深圳壹账通智能科技有限公司

摘要 :

一种数据处理方法,所述方法包括:获取需要进行数据脱敏的待处理数据;对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。本发明还提供一种数据处理装置、服务器以及存储介质。本发明不仅解决了数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。

权利要求 :

1.一种数据处理方法,其特征在于,所述方法包括:获取需要进行数据脱敏的待处理数据;

对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;

从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;

使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述脱敏数据存储至脱敏数据库;

建立所述脱敏数据与所述脱敏数据库的第二对应关系。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:生成所述脱敏数据的表视图,其中,生成所述表视图后,所述脱敏数据具有被访问的权限。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:统计每种所述数据类型的待处理数据的数量;

根据所述数量从高到低的顺序,按照所述数据类型,对所述待处理数据进行排序,获得排序结果;

根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在对所述待处理数据进行数据脱敏的过程中,监控脱敏任务的执行状态。

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述预设脱敏规则有多个,所述方法还包括:输出多个所述预设脱敏规则的选项;

接收针对多个所述预设脱敏规则的选项中的目标选项的选择指令;

响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则;

所述使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据包括:使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。

7.根据权利要求1至5中任一项所述的方法,其特征在于,所述数据类型为姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。

8.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取需要进行数据脱敏的待处理数据;

识别模块,用于对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;

查询模块,用于从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;

脱敏模块,用于使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。

9.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的数据处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至7中任意一项所述的数据处理方法。

说明书 :

数据处理方法、装置、服务器及存储介质

技术领域

[0001] 本发明涉及大数据技术领域,尤其涉及一种数据处理方法、装置、服务器及存储介质。

背景技术

[0002] 随着信息技术的发展与大数据时代的到来,数据流通成为释放数据红利与价值的主要手段和途径,而敏感数据在流通中缺乏有效管控,处于高风险状态。近年来,敏感数据泄漏事件屡见不鲜。敏感数据泄漏带来的不仅仅是经济损失,同时损害了金融机构和政府部门等权威机构的公信力,严重破坏了社会信用体系,影响了相关产业与全社会健康和谐发展。
[0003] 在大数据的时代背景下,如何在实现大数据高效共享的同时,保护敏感信息不被泄露,也将是数据脱敏必须解决的难题。

发明内容

[0004] 鉴于以上内容,有必要提供一种数据处理方法、装置、服务器及存储介质,能够解决数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。
[0005] 本发明的第一方面提供一种数据处理方法,所述方法包括:
[0006] 获取需要进行数据脱敏的待处理数据;
[0007] 对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;
[0008] 从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;
[0009] 使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0010] 在一种可能的实现方式中,所述方法还包括:
[0011] 将所述脱敏数据存储至脱敏数据库;
[0012] 建立所述脱敏数据与所述脱敏数据库的第二对应关系。
[0013] 在一种可能的实现方式中,所述方法还包括:
[0014] 生成所述脱敏数据的表视图,其中,生成所述表视图后,所述脱敏数据具有被访问的权限。
[0015] 在一种可能的实现方式中,所述方法还包括:
[0016] 统计每种所述数据类型的待处理数据的数量;
[0017] 根据所述数量从高到低的顺序,按照所述数据类型,对所述待处理数据进行排序,获得排序结果;
[0018] 根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0019] 在一种可能的实现方式中,所述方法还包括:
[0020] 在对所述待处理数据进行数据脱敏的过程中,监控脱敏任务的执行状态。
[0021] 在一种可能的实现方式中,所述预设脱敏规则有多个,所述方法还包括:
[0022] 输出多个所述预设脱敏规则的选项;
[0023] 接收针对多个所述预设脱敏规则的选项中的目标选项的选择指令;
[0024] 响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则;
[0025] 所述使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据包括:
[0026] 使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0027] 在一种可能的实现方式中,所述数据类型为姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。
[0028] 本发明的第二方面提供一种数据处理装置,所述装置包括:
[0029] 获取模块,用于获取需要进行数据脱敏的待处理数据;
[0030] 识别模块,用于对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;
[0031] 查询模块,用于从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;
[0032] 脱敏模块,用于使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0033] 本发明的第三方面提供一种服务器,所述服务器包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的数据处理方法。
[0034] 本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的数据处理方法。
[0035] 由以上技术方案,本发明中,可以获取需要进行数据脱敏的待处理数据,对所述待处理数据进行扫描,并识别所述待处理数据的数据类型,进一步地,从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则,更进一步地,使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。可见,本发明中,可以基于智能脱敏配置平台,预先在智能脱敏配置平台上进行数据脱敏规则的相关配置,之后即可对需要进行数据脱敏的待处理数据进行脱敏处理,整个过程完全自动化实现,不需要数据管理人员手动操作,从而不仅解决了数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。

附图说明

[0036] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0037] 图1是本发明公开的一种数据处理方法的较佳实施例的流程图。
[0038] 图2是本发明公开的一种数据处理装置的较佳实施例的功能模块图。
[0039] 图3是本发明实现数据处理方法的较佳实施例的服务器的结构示意图。

具体实施方式

[0040] 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
[0041] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
[0043] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0044] 本发明实施例的数据处理方法应用在服务器中。
[0045] 其中,所述服务器可以是指能对网络中其它设备(如电子设备)提供服务的计算机系统。如果一个个人电脑能够对外提供文件传输协议(File Transfer Protocol,简称FTP)服务,也可以叫服务器。从狭义范围上讲,服务器专指某些高性能计算机,能通过网络,对外提供服务,其相对于普通的个人电脑来说,稳定性、安全性、性能等方面都要求更高,因此在CPU、芯片组、内存、磁盘系统、网络等硬件和普通的个人电脑有所不同。
[0046] 所述电子设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA、游戏机、交互式网络电视IPTV、智能式穿戴式设备等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络VPN等。
[0047] 请参见图1,图1是本发明公开的一种数据处理方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
[0048] S11、服务器获取需要进行数据脱敏的待处理数据。
[0049] 本发明所述的数据处理方法可以基于智能脱敏配置平台来实现。
[0050] 具体的,该智能脱敏配置平台集成有敏感数据配置、脱敏方案制定、敏感数据发现以及脱敏任务管理四大模块。
[0051] 其中,敏感数据配置模块主要用于配置原始数据库与脱敏数据库之间的映射关系及扫描脱敏状态,对不需要脱敏的原始数据库自动生成表视图,同时提供指定数据库的详情查看功能,这能够方便直观地对数据库有一个全局把控及了解。其中,原始数据库共三种状态:待扫描、不扫描以及待确认。其中,处于待扫描状态的原始数据库中可能存在敏感字段,需要进行敏感字段扫描,在下一个智能敏感字段发现任务时自动进行扫描,从而进行脱敏,生成脱敏表视图;处于不扫描状态的原始数据库中不含敏感字段,不需要进行敏感字段扫描,直接生成表视图;处于待确认状态的原始数据库为新接入的数据库,还未进行是否脱敏扫描配置,需进行“库扫描脱敏状态”设置。
[0052] 此外,敏感数据配置模块还可以用于定制化配置数据库中的表是否进行脱敏扫描,并配置脱敏表关系,这有利于灵活查看编辑已配置的脱敏表设置及表视图,实现脱敏表的一站式管理。
[0053] 其中,脱敏方案制定模块可以根据脱敏类型、脱敏掩码、脱敏位置等配置丰富的脱敏方法,并针对不同的敏感字段类型,配置定制化的脱敏方法,以实现敏感字段脱敏方法的统一配置及管理。
[0054] 其中,敏感数据发现模块主要使用内置的敏感数据发现算法,对数据进行扫描,发现系统中的敏感字段及敏感字段的数据类型,包括姓名、证件号、银行账户、住址、电话号码、企业工商注册号、车牌号等,对于复合敏感字段类型也能精准识别。
[0055] 脱敏任务管理模块主要支持脱敏任务运行过程中的运行情况查看和执行完成列表的查询,对执行失败任务可进行重启,此外,还可以支持历史记录查询(最近一周、最近一月、本月、上月及指定时间段),支持脱敏执行日志的导出,这利于实现灵活的脱敏任务管理机制。
[0056] 本发明实施例中,原始数据库中可能存在一些敏感字段的数据,比如姓名、证件号、银行账户、住址、电话号码、企业工商注册号以及车牌号等,这些数据不便于其他用户访问的,需要对这些数据进行数据脱敏处理。
[0057] 本发明实施例中,可以基于智能脱敏配置平台,获取需要进行数据脱敏的待处理数据,其中,所述待处理数据为处于待扫描状态的原始数据库中的数据。
[0058] S12、服务器对所述待处理数据进行扫描,并识别所述待处理数据的数据类型。
[0059] 本发明实施例中,除了能够识别常见的敏感字段,如姓名、身份证号、手机号码等,还支持生日、IP地址、银行卡号、固话、设备号(比如IMEI(International Mobile Equipment Identity,国际移动设备识别码))、车牌号、邮箱、地址、JSON以及组合字段等13种敏感字段的识别。其中,JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。
[0060] 其中,所述数据类型可以包括但不限于姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。
[0061] 本发明实施例中,所述待处理数据可能存在敏感字段,需要对所述待处理数据中的敏感字段进行扫描,以确定哪些待处理数据属于敏感字段,同时,识别出所述待处理数据中敏感字段的数据类型。
[0062] S13、服务器从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则。
[0063] 其中,可以根据脱敏类型(如掩码脱敏、加密脱敏)以及脱敏位置等配置丰富的脱敏规则,并建立预设数据类型与脱敏规则的第一对应关系。
[0064] 举例来说,针对姓名,可以设置脱敏规则为:1、长度在2~4之间;2、不包含英文字母、数字及标点符号;3、前1~2个字符为姓氏。
[0065] 又举例来说,针对车牌号,可以设置脱敏规则为:1、长度为6或7;2、第一个字符为省份;3、第二个字符为字母。
[0066] 又举例来说,针对邮箱,可以设置脱敏规则为:1、需在除首尾处包含1个@;2、在@后包含1个.com或.edu。
[0067] S14、服务器使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0068] 其中,所述待处理数据可以有一种数据类型,或者,所述待处理数据可以有多种数据类型。如果所述待处理数据为一种数据类型,则可以从第一对应关系中,查询到一种预设脱敏规则,并使用该预设脱敏规则,对所述待处理数据进行脱敏,获得脱敏数据。如果所述待处理数据为多种数据类型,则可以从第一对应关系中,查询到多种预设脱敏规则,则需要针对不同的数据类型,分别采用不同的预设脱敏规则,来分别进行数据脱敏,以获得脱敏数据。
[0069] 可选的,预设数据类型与脱敏规则的第一对应关系中,一种预设数据类型可以对应一种脱敏规则,或者,一种预设数据类型可以对应多种脱敏规则。
[0070] 作为一种可选的实施方式,所述预设脱敏规则有多个,所述方法还包括:
[0071] 输出多个所述预设脱敏规则的选项;
[0072] 接收针对多个所述预设脱敏规则的选项中的目标选项的选择指令;
[0073] 响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则;
[0074] 所述使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据包括:
[0075] 使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0076] 在该可选的实施方式中,在预设数据类型与脱敏规则的第一对应关系中,一种预设数据类型可以对应多种脱敏规则。当查询到的所述数据类型对应的预设脱敏规则为多个时,可以输出包括多个所述预设脱敏规则的选项,用户可以针对该多个选择进行选择,当接收到针对多个所述预设脱敏规则的选项中的目标选项的选择指令时,电子设备可以响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则,进而使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据,从而能够根据用户的个性化需求来选择脱敏规则,进而实现数据脱敏。
[0077] 作为一种可选的实施方式,所述方法还包括:
[0078] 将所述脱敏数据存储至脱敏数据库;
[0079] 建立所述脱敏数据与所述脱敏数据库的第二对应关系。
[0080] 在该可选的实施方式中,在对原始数据库中的所述待处理数据进行脱敏,获得脱敏数据之后,就需要把该脱敏数据存储在脱敏数据库,这便于后续脱敏数据库的管理。比如:原始数据库为smelp_rpt,通过设置脱敏数据库为smelp_rpt_mask,则脱敏后的脱敏数据可以存储在smelp_rpt_mask中。
[0081] 此外,还需要建立所述脱敏数据与所述脱敏数据库的第二对应关系。接着,通过该第二对应关系,可以很清楚地知道哪个脱敏数据存储在哪个脱敏数据库中,便于后续脱敏数据的查询。
[0082] 作为一种可选的实施方式,所述方法还包括:
[0083] 生成所述脱敏数据的表视图,其中,生成所述表视图后,所述脱敏数据具有被访问的权限。
[0084] 其中,原始数据库中的数据是以表的形式存在的,数据存储分为落地层和脱敏层,落地层中的每一张表在脱敏层都有一个视图,落地层不对外开放,只有脱敏层中的表视图供外部访问,即要想访问落地层数据,必须要生成脱敏层的表视图以保证数据安全。
[0085] 不管是否包含敏感字段,数据库中的表都需要生成表视图。其中,包含敏感字段的数据库的表需要进行数据脱敏后,才能生成表视图,而不需要进行数据脱敏的数据库的表则可以自动生成表视图。
[0086] 在该可选的实施方式中,在对所述待处理数据进行脱敏,获得脱敏数据后,可以生成所述脱敏数据的表视图,其中,在生成所述表视图后,所述脱敏数据具有被访问的权限,也就是说,所述脱敏数据才能够被外部用户访问。
[0087] 此外,还需要预先对原始数据库中的表进行表脱敏配置,其中,表脱敏配置属于表层级的脱敏配置及管理功能,表脱敏配置可以分为“未配置表管理”和“已配置表管理”。
[0088] 其中,未配置表管理中包含所有还未生成表视图的表信息,可以配置脱敏表名,建立原始数据表名与脱敏数据表名之间的对应关系,还可以配置是否进行敏感字段扫描,其中,扫描具有即时性,可以对新接入的数据立刻进行表配置,需要扫描的数据进行数据脱敏后,生成表视图,不需要扫描的数据可以直接生成表视图,同时,还可以查看表详情(包括表字段名、字段类型、表明细预览等)。
[0089] 其中,已配置表管理中包含所有已经生成表视图的表信息(包括脱敏表名、表字段名、字段类型、是否为敏感字段、敏感字段类型、脱敏方式、表明细预览等),同时,还可以对表重新进行智能敏感字段扫描配置。
[0090] 作为一种可选的实施方式,所述方法还包括:
[0091] 统计每种所述数据类型的待处理数据的数量;
[0092] 根据所述数量从高到低的顺序,按照所述数据类型,对所述待处理数据进行排序,获得排序结果;
[0093] 根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0094] 其中,所述待处理数据有多种数据类型,电子设备可以针对每种所述数据类型,分别来统计所述数据类型的待处理数据的数量,进而根据数量从高到低的顺序,对每种数据类型的待处理数据进行排序,获得排序结果,该排序结果可以显示每种数据类型的待处理数据的数据高低的排序情况。进一步地,可以根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0095] 其中,在可视化图上,可以很直观地看到目前所有数据库敏感字段扫描及脱敏情况,包括历史扫描情况(扫描库、表、字段数量,发现敏感字段数量等)及脱敏情况统计(包含敏感字段表分布、敏感字段数量、敏感字段类型分布、业务线分布、包含敏感字段的前5个数据库及各类型分布等),通过可视化图,可以实现对敏感字段的可视化管理。
[0096] 作为一种可选的实施方式,所述方法还包括:
[0097] 在对所述待处理数据进行数据脱敏的过程中,监控脱敏任务的执行状态。
[0098] 在该可选的实施方式中,脱敏任务可以分为四大类:脱敏任务,视图任务,扫描任务和同步数据任务等。在对所述待处理数据进行数据脱敏的过程中,电子设备可以监控脱敏任务的执行状态。具体的,可以监控所述待处理数据在进行数据脱敏时的进度,数据脱敏是否正常执行,所述待处理数据进行数据脱敏后的表视图是否生成,原始数据库的数据扫描任务的执行进度,数据同步的完成情况等等。
[0099] 在图1所描述的方法流程中,可以获取需要进行数据脱敏的待处理数据,对所述待处理数据进行扫描,并识别所述待处理数据的数据类型,进一步地,从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则,更进一步地,使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。可见,本发明中,可以基于智能脱敏配置平台,预先在智能脱敏配置平台上进行数据脱敏规则的相关配置,之后即可对需要进行数据脱敏的待处理数据进行脱敏处理,整个过程完全自动化实现,不需要数据管理人员手动操作,从而不仅解决了数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。
[0100] 以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
[0101] 请参见图2,图2是本发明公开的一种数据处理装置的较佳实施例的功能模块图。
[0102] 在一些实施例中,所述数据处理装置运行于服务器中。所述数据处理装置可以包括多个由程序代码段所组成的功能模块。所述数据处理装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的数据处理方法中的部分或全部步骤。
[0103] 本实施例中,所述数据处理装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、识别模块202、查询模块203、及脱敏模块204。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在一些实施例中,关于各模块的功能将在后续的实施例中详述。
[0104] 在图2所示的数据处理装置中:
[0105] 获取模块201,用于获取需要进行数据脱敏的待处理数据;
[0106] 本发明所述的数据处理方法可以基于智能脱敏配置平台来实现。
[0107] 具体的,该智能脱敏配置平台集成有敏感数据配置、脱敏方案制定、敏感数据发现以及脱敏任务管理四大模块。
[0108] 其中,敏感数据配置模块主要用于配置原始数据库与脱敏数据库之间的映射关系及扫描脱敏状态,对不需要脱敏的原始数据库自动生成表视图,同时提供指定数据库的详情查看功能,这能够方便直观地对数据库有一个全局把控及了解。其中,原始数据库共三种状态:待扫描、不扫描以及待确认。其中,处于待扫描状态的原始数据库中可能存在敏感字段,需要进行敏感字段扫描,在下一个智能敏感字段发现任务时自动进行扫描,从而进行脱敏,生成脱敏表视图;处于不扫描状态的原始数据库中不含敏感字段,不需要进行敏感字段扫描,直接生成表视图;处于待确认状态的原始数据库为新接入的数据库,还未进行是否脱敏扫描配置,需进行“库扫描脱敏状态”设置。
[0109] 此外,敏感数据配置模块还可以用于定制化配置数据库中的表是否进行脱敏扫描,并配置脱敏表关系,这有利于灵活查看编辑已配置的脱敏表设置及表视图,实现脱敏表的一站式管理。
[0110] 其中,脱敏方案制定模块可以根据脱敏类型、脱敏掩码、脱敏位置等配置丰富的脱敏方法,并针对不同的敏感字段类型,配置定制化的脱敏方法,以实现敏感字段脱敏方法的统一配置及管理。
[0111] 其中,敏感数据发现模块主要使用内置的敏感数据发现算法,对数据进行扫描,发现系统中的敏感字段及敏感字段的数据类型,包括姓名、证件号、银行账户、住址、电话号码、企业工商注册号、车牌号等,对于复合敏感字段类型也能精准识别。
[0112] 脱敏任务管理模块主要支持脱敏任务运行过程中的运行情况查看和执行完成列表的查询,对执行失败任务可进行重启,此外,还可以支持历史记录查询(最近一周、最近一月、本月、上月及指定时间段),支持脱敏执行日志的导出,这利于实现灵活的脱敏任务管理机制。
[0113] 本发明实施例中,原始数据库中可能存在一些敏感字段的数据,比如姓名、证件号、银行账户、住址、电话号码、企业工商注册号以及车牌号等,这些数据不便于其他用户访问的,需要对这些数据进行数据脱敏处理。
[0114] 本发明实施例中,可以基于智能脱敏配置平台,获取需要进行数据脱敏的待处理数据,其中,所述待处理数据为处于待扫描状态的原始数据库中的数据。
[0115] 识别模块202,用于对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;
[0116] 本发明实施例中,除了能够识别常见的敏感字段,如姓名、身份证号、手机号码等,还支持生日、IP地址、银行卡号、固话、设备号(比如IMEI(International Mobile Equipment Identity,国际移动设备识别码))、车牌号、邮箱、地址、JSON以及组合字段等13种敏感字段的识别。
[0117] 其中,所述数据类型可以包括但不限于姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。
[0118] 本发明实施例中,所述待处理数据可能存在敏感字段,需要对所述待处理数据中的敏感字段进行扫描,以确定哪些待处理数据属于敏感字段,同时,识别出所述待处理数据中敏感字段的数据类型。
[0119] 查询模块203,用于从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;
[0120] 其中,可以根据脱敏类型(如掩码脱敏、加密脱敏)以及脱敏位置等配置丰富的脱敏规则,并建立预设数据类型与脱敏规则的第一对应关系。
[0121] 举例来说,针对姓名,可以设置脱敏规则为:1、长度在2~4之间;2、不包含英文字母、数字及标点符号;3、前1~2个字符为姓氏。
[0122] 又举例来说,针对车牌号,可以设置脱敏规则为:1、长度为6或7;2、第一个字符为省份;3、第二个字符为字母。
[0123] 又举例来说,针对邮箱,可以设置脱敏规则为:1、需在除首尾处包含1个@;2、在@后包含1个.com或.edu。
[0124] 脱敏模块204,用于使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0125] 其中,所述待处理数据可以有一种数据类型,或者,所述待处理数据可以有多种数据类型。如果所述待处理数据为一种数据类型,则可以从第一对应关系中,查询到一种预设脱敏规则,并使用该预设脱敏规则,对所述待处理数据进行脱敏,获得脱敏数据。如果所述待处理数据为多种数据类型,则可以从第一对应关系中,查询到多种预设脱敏规则,则需要针对不同的数据类型,分别采用不同的预设脱敏规则,来分别进行数据脱敏,以获得脱敏数据。
[0126] 可选的,预设数据类型与脱敏规则的第一对应关系中,一种预设数据类型可以对应一种脱敏规则,或者,一种预设数据类型可以对应多种脱敏规则。
[0127] 作为一种可选的实施方式,所述数据处理装置还包括:
[0128] 存储模块,用于将所述脱敏数据存储至脱敏数据库;
[0129] 建立模块,用于建立所述脱敏数据与所述脱敏数据库的第二对应关系。
[0130] 在该可选的实施方式中,在对原始数据库中的所述待处理数据进行脱敏,获得脱敏数据之后,就需要把该脱敏数据存储在脱敏数据库,这便于后续脱敏数据库的管理。比如:原始数据库为smelp_rpt,通过设置脱敏数据库为smelp_rpt_mask,则脱敏后的脱敏数据可以存储在smelp_rpt_mask中。
[0131] 此外,还需要建立所述脱敏数据与所述脱敏数据库的第二对应关系。接着,通过该第二对应关系,可以很清楚地知道哪个脱敏数据存储在哪个脱敏数据库中,便于后续脱敏数据的查询。
[0132] 作为一种可选的实施方式,所述数据处理装置还包括:
[0133] 生成模块,用于生成所述脱敏数据的表视图,其中,生成所述表视图后,所述脱敏数据具有被访问的权限。
[0134] 其中,原始数据库中的数据是以表的形式存在的,数据存储分为落地层和脱敏层,落地层中的每一张表在脱敏层都有一个视图,落地层不对外开放,只有脱敏层中的表视图供外部访问,即要想访问落地层数据,必须要生成脱敏层的表视图以保证数据安全。
[0135] 不管是否包含敏感字段,数据库中的表都需要生成表视图。其中,包含敏感字段的数据库的表需要进行数据脱敏后,才能生成表视图,而不需要进行数据脱敏的数据库的表则可以自动生成表视图。
[0136] 在该可选的实施方式中,在对所述待处理数据进行脱敏,获得脱敏数据后,可以生成所述脱敏数据的表视图,其中,在生成所述表视图后,所述脱敏数据具有被访问的权限,也就是说,所述脱敏数据才能够被外部用户访问。
[0137] 此外,还需要预先对原始数据库中的表进行表脱敏配置,其中,表脱敏配置属于表层级的脱敏配置及管理功能,表脱敏配置可以分为“未配置表管理”和“已配置表管理”。
[0138] 其中,未配置表管理中包含所有还未生成表视图的表信息,可以配置脱敏表名,建立原始数据表名与脱敏数据表名之间的对应关系,还可以配置是否进行敏感字段扫描,其中,扫描具有即时性,可以对新接入的数据立刻进行表配置,需要扫描的数据进行数据脱敏后,生成表视图,不需要扫描的数据可以直接生成表视图,同时,还可以查看表详情(包括表字段名、字段类型、表明细预览等);
[0139] 其中,已配置表管理中包含所有已经生成表视图的表信息(包括脱敏表名、表字段名、字段类型、是否为敏感字段、敏感字段类型、脱敏方式、表明细预览等),同时,还可以对表重新进行智能敏感字段扫描配置。
[0140] 作为一种可选的实施方式,所述数据处理装置还包括:
[0141] 统计模块,用于统计每种所述数据类型的待处理数据的数量;
[0142] 排序模块,用于根据所述数量从高到低的顺序,按照所述数据类型,对所述待处理数据进行排序,获得排序结果;
[0143] 所述生成模块,还用于根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0144] 其中,所述待处理数据有多种数据类型,电子设备可以针对每种所述数据类型,分别来统计所述数据类型的待处理数据的数量,进而根据数量从高到低的顺序,对每种数据类型的待处理数据进行排序,获得排序结果,该排序结果可以显示每种数据类型的待处理数据的数据高低的排序情况。进一步地,可以根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0145] 其中,在可视化图上,可以很直观地看到目前所有数据库敏感字段扫描及脱敏情况,包括历史扫描情况(扫描库、表、字段数量,发现敏感字段数量等)及脱敏情况统计(包含敏感字段表分布、敏感字段数量、敏感字段类型分布、业务线分布、包含敏感字段的前5个数据库及各类型分布等),通过可视化图,可以实现对敏感字段的可视化管理。
[0146] 作为一种可选的实施方式,所述数据处理装置还包括:
[0147] 监控模块,用于在对所述待处理数据进行数据脱敏的过程中,监控脱敏任务的执行状态。
[0148] 在该可选的实施方式中,脱敏任务可以分为四大类:脱敏任务,视图任务,扫描任务和同步数据任务等。在对所述待处理数据进行数据脱敏的过程中,电子设备可以监控脱敏任务的执行状态。具体的,可以监控所述待处理数据在进行数据脱敏时的进度,数据脱敏是否正常执行,所述待处理数据进行数据脱敏后的表视图是否生成,原始数据库的数据扫描任务的执行进度,数据同步的完成情况等等。
[0149] 作为一种可选的实施方式,所述数据处理装置还包括:
[0150] 输出模块,用于输出多个所述预设脱敏规则的选项;
[0151] 接收模块,用于接收针对多个所述预设脱敏规则的选项中的目标选项的选择指令;
[0152] 确定模块,用于响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则;
[0153] 所述脱敏模块204使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据包括:
[0154] 使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0155] 在该可选的实施方式中,在预设数据类型与脱敏规则的第一对应关系中,一种预设数据类型可以对应多种脱敏规则。当查询到的所述数据类型对应的预设脱敏规则为多个时,可以输出包括多个所述预设脱敏规则的选项,用户可以针对该多个选择进行选择,当接收到针对多个所述预设脱敏规则的选项中的目标选项的选择指令时,电子设备可以响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则,进而使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据,从而能够根据用户的个性化需求来选择脱敏规则,进而实现数据脱敏。
[0156] 作为一种可选的实施方式,所述数据类型为姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。
[0157] 在图2所描述的数据处理装置中,可以获取需要进行数据脱敏的待处理数据,对所述待处理数据进行扫描,并识别所述待处理数据的数据类型,进一步地,从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则,更进一步地,使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。可见,本发明中,可以基于智能脱敏配置平台,预先在智能脱敏配置平台上进行数据脱敏规则的相关配置,之后即可对需要进行数据脱敏的待处理数据进行脱敏处理,整个过程完全自动化实现,不需要数据管理人员手动操作,从而不仅解决了数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。
[0158] 如图3所示,图3是本发明实现数据处理方法的较佳实施例的服务器的结构示意图。所述服务器3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
[0159] 本领域技术人员可以理解,图3所示的示意图仅仅是所述服务器3的示例,并不构成对所述服务器3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器3还可以包括输入输出设备、网络接入设备、总线等。
[0160] 所述服务器3是指能对网络中其它设备(如电子设备)提供服务的计算机系统。如果一个个人电脑能够对外提供文件传输协议(File Transfer Protocol,简称FTP)服务,也可以叫服务器。从狭义范围上讲,服务器专指某些高性能计算机,能通过网络,对外提供服务,其相对于普通的个人电脑来说,稳定性、安全性、性能等方面都要求更高,因此在CPU、芯片组、内存、磁盘系统、网络等硬件和普通的个人电脑有所不同。所述电子设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA、游戏机、交互式网络电视IPTV、智能式穿戴式设备等。其中,所述用户设备及网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络VPN等。
[0161] 所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述服务器3的控制中心,利用各种接口和线路连接整个服务器3的各个部分。
[0162] 所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述服务器3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0163] 结合图1,所述服务器3中的所述存储器31存储多个指令以实现一种数据处理方法,所述处理器32可执行所述多个指令从而实现:
[0164] 获取需要进行数据脱敏的待处理数据;
[0165] 对所述待处理数据进行扫描,并识别所述待处理数据的数据类型;
[0166] 从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则;
[0167] 使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0168] 在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
[0169] 将所述脱敏数据存储至脱敏数据库;
[0170] 建立所述脱敏数据与所述脱敏数据库的第二对应关系。
[0171] 在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
[0172] 生成所述脱敏数据的表视图,其中,生成所述表视图后,所述脱敏数据具有被访问的权限。
[0173] 在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
[0174] 统计每种所述数据类型的待处理数据的数量;
[0175] 根据所述数量从高到低的顺序,按照所述数据类型,对所述待处理数据进行排序,获得排序结果;
[0176] 根据所述排序结果以及所述数据类型,生成所述待处理数据的可视化图。
[0177] 在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
[0178] 在对所述待处理数据进行数据脱敏的过程中,监控脱敏任务的执行状态。
[0179] 在一种可选的实施方式中,所述处理器32可执行所述多个指令从而实现:
[0180] 输出多个所述预设脱敏规则的选项;
[0181] 接收针对多个所述预设脱敏规则的选项中的目标选项的选择指令;
[0182] 响应所述选择指令,将所述目标选项对应的预设脱敏规则确定为目标脱敏规则;
[0183] 所述使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据包括:
[0184] 使用所述目标脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。
[0185] 在一种可选的实施方式中,所述数据类型为姓名、身份证号、银行卡号、住址、手机号码、固话、设备号、车牌号、邮箱、生日、IP地址以及JSON中的任一种或多种的组合。
[0186] 具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0187] 在图3所描述的服务器3中,可以获取需要进行数据脱敏的待处理数据,对所述待处理数据进行扫描,并识别所述待处理数据的数据类型,进一步地,从预先设置的预设数据类型与脱敏规则的第一对应关系中,查询所述数据类型对应的预设脱敏规则,更进一步地,使用所述预设脱敏规则对所述待处理数据进行脱敏,获得脱敏数据。可见,本发明中,可以基于智能脱敏配置平台,预先在智能脱敏配置平台上进行数据脱敏规则的相关配置,之后即可对需要进行数据脱敏的待处理数据进行脱敏处理,整个过程完全自动化实现,不需要数据管理人员手动操作,从而不仅解决了数据脱敏的问题,提高数据脱敏的效率,同时,基于智能脱敏配置平台,还能够实现全方位的敏感数据管理。
[0188] 所述服务器3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0189] 在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0190] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0191] 另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0192] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0193] 最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。