内网终端敏感数据的检测方法、装置、服务器及系统转让专利

申请号 : CN202310670717.6

文献号 : CN116432240B

文献日 : 2023-08-22

本发明涉及数据检测技术领域，特别涉及一种内网终端敏感数据的检测方法、装置、服务器及系统。其中，方法应用于服务器，包括：当接收到配置于目标终端的数据采集器的连接请求时，服务器与对应的数据采集器建立安全加密连接；针对预设的每一个采集周期均执行：获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，文件信息列表含有各非结构化文件的指纹信息；基于指纹信息和文件信息列表，利用数据采集器从对应目标终端获取非结构化文件；对每一个非结构化文件进行特征提取，检测出每一个非结构化文件的敏感数据，得到检测结果。本方案，可以大大提高对企业内非结构化数据中敏感数据的检测能力，并且可以提高检测时的安全性和保密性。

1.一种内网终端敏感数据的检测方法，其特征在于，应用于服务器，所述方法包括：当接收到配置于目标终端的数据采集器的连接请求时，所述服务器与对应的数据采集器建立安全加密连接；其中，所述数据采集器与所述目标终端为一一对应关系，所述数据采集器用于采集对应目标终端的非结构化文件；

针对预设的每一个采集周期，均执行：

获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，所述文件信息列表含有各非结构化文件的指纹信息；所述指纹信息用于表征对应的非结构化文件是否发生变化；

基于所述指纹信息和所述文件信息列表，利用所述数据采集器从对应目标终端获取非结构化文件；

对每一个所述非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果；

当接收到配置于目标终端的数据采集器的连接请求时，所述服务器与对应的数据采集器建立安全加密连接，包括：针对每一个发送连接请求的数据采集器，均执行：

判断当前数据采集器IP是否在所述服务器预设的白名单中；

若不在，则拒绝连接；若在，则判断所述服务器当前已经连接的数据采集器IP中是否存在当前数据采集器IP；

若存在，则拒绝连接；若不存在，则向当前数据采集器发起身份确认指令，使当前数据采集器返回其身份ID；

若返回的身份ID不为空，则直接建立安全加密连接；若为空，则在所述服务器的界面显示当前数据采集器的连接请求，以根据用户指令判断是否建立安全加密连接；

若用户确定建立，则建立安全加密连接，并创建身份ID下发至当前数据采集器；

所述服务器与所述数据采集器的网络通信基于TCP通信协议和目标传输协议；

所述目标传输协议的头部结构包括2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度；

所述接口类型包括服务端主动请求接口和终端主动推送接口；

所述服务端主动请求接口包括用于向数据采集器发起身份确认指令的第一接口、用于获取数据采集器采集的文件信息列表的第二接口、用于获取非结构化文件的第三接口；

所述服务器与所述数据采集器是通过如下方式进行网络通信的：基于TCP通信协议，接收每一个TCP报文；

针对每一个TCP报文，均执行：

基于当前TCP报文中的目标传输协议头，从当前TCP报文中获取目标传输协议的版本号，以获取目标传输协议的解析规则；

获取当前TCP报文的数据类型，以判断当前TCP报文为指令还是非结构化文件；

当当前TCP报文的数据类型为非结构化文件时，确定接口为第三接口，并获取当前TCP报文的数据长度，以利用所述第三接口根据所述数据长度，下载当前TCP报文中所携带的非结构化文件数据；

当当前TCP报文的数据类型为指令时，获取当前TCP报文的接口类型和数据长度，以利用对应接口根据所述数据长度执行对应指令。

2.根据权利要求1所述的方法，其特征在于，所述基于所述指纹信息和所述文件信息列表，利用所述数据采集器从对应目标终端获取非结构化文件，包括：判断当前采集周期的所述文件信息列表中是否存在新增的非结构化文件；

若存在，则利用所述数据采集器从对应目标终端获取新增的非结构化文件；

判断所述文件信息列表中剩余的每一个非结构化文件，在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同；

若相同，则当前采集周期不获取该非结构化文件；

若不同，则利用所述数据采集器从对应目标终端获取该非结构化文件。

3.根据权利要求1或2中所述的方法，其特征在于，所述对每一个所述非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果，包括：基于每一个非结构化文件预设的魔术数字，确定每一个非结构化文件的格式；

根据所述格式，调用对应的解析算法来对所述非结构化文件进行解析，得到每一个非结构化文件的文本数据；

利用自然语言算法和敏感特征库，对每一个非结构化文件的文本数据进行特征提取，确定出每一个非结构化文件的敏感数据；

基于每一个非结构化文件的敏感数据，对每一个非结构化文件进行风险评估，得到检测结果。

4.一种内网终端敏感数据的检测装置，其特征在于，设置于服务器，所述装置包括：连接单元，用于当接收到配置于目标终端的数据采集器的连接请求时，所述服务器与对应的数据采集器建立安全加密连接；其中，所述数据采集器与所述目标终端为一一对应关系，所述数据采集器用于采集对应目标终端的非结构化文件；

获取单元，用于针对预设的每一个采集周期，均执行：获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，所述文件信息列表含有各非结构化文件的指纹信息；所述指纹信息用于表征对应的非结构化文件是否发生变化；

下载单元，用于基于所述指纹信息和所述文件信息列表，利用所述数据采集器从对应目标终端获取非结构化文件；

检测单元，用于对每一个所述非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果；

所述连接单元用于执行：

针对每一个发送连接请求的数据采集器，均执行：

判断当前数据采集器IP是否在服务器预设的白名单中；

若不在，则拒绝连接；若在，则判断服务器当前已经连接的数据采集器IP中是否存在当前数据采集器IP；

若存在，则拒绝连接；若不存在，则向当前数据采集器发起身份确认指令，使当前数据采集器返回其身份ID；

若返回的身份ID不为空，则直接建立安全加密连接；若为空，则在服务器的界面显示当前数据采集器的连接请求，以根据用户指令判断是否建立安全加密连接；

若用户确定建立，则建立安全加密连接，并创建身份ID下发至当前数据采集器；

所述连接单元、所述获取单元和所述下载单元中，服务器与数据采集器的网络通信基于TCP通信协议和目标传输协议；目标传输协议的头部结构包括2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度；

所述连接单元、所述获取单元和所述下载单元中的接口类型包括服务端主动请求接口和终端主动推送接口；

服务端主动请求接口包括用于向数据采集器发起身份确认指令的第一接口、用于获取数据采集器采集的文件信息列表的第二接口、用于获取非结构化文件的第三接口；

所述连接单元、所述获取单元和所述下载单元中服务器与数据采集器是通过如下方式进行网络通信的：基于TCP通信协议，接收每一个TCP报文；

针对每一个TCP报文，均执行：

基于当前TCP报文中的目标传输协议头，从当前TCP报文中获取目标传输协议的版本号，以获取目标传输协议的解析规则；

获取当前TCP报文的数据类型，以判断当前TCP报文为指令还是非结构化文件；

当当前TCP报文的数据类型为非结构化文件时，确定接口为第三接口，并获取当前TCP报文的数据长度，以利用第三接口根据数据长度，下载当前TCP报文中所携带的非结构化文件数据；

当当前TCP报文的数据类型为指令时，获取当前TCP报文的接口类型和数据长度，以利用对应接口根据数据长度执行对应指令。

5.一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1‑3中任一项所述的方法。

6.一种内网终端敏感数据的检测系统，其特征在于，包括内网中的各目标终端和如权利要求5所述的服务器，所述目标终端分别与所述服务器进行通讯。

内网终端敏感数据的检测方法、装置、服务器及系统

技术领域

[0001] 本发明实施例涉及数据检测技术领域，特别涉及一种内网终端敏感数据的检测方法、装置、服务器及系统。

背景技术

[0002] 现代企业信息化建设中，内网已经成为企业重要的信息基础设施，传统的基于边界的网络安全架构主要集中在企业网络的出口处进行安全防护，导致企业可能忽略了内网终端设备中的敏感数据管理。随着企业信息化程度的提高，越来越多的敏感数据储存在内网终端设备上，如员工个人信息、财务数据、战略计划等。为了加强企业对内网终端设备中敏感数据的管理和保护，需要对内网终端的敏感数据进行安全有效地检测。

[0003] 然而，现有的敏感数据检测方法主要包括网络流量监测和结构化数据监测两个方面，对于分散在内网终端的非结构化数据，在检测能力和安全保密性上都比较有限。

[0004] 因此，亟需一种新的内网终端敏感数据的检测方法。

发明内容

[0005] 为了解决现有敏感数据检测方法的安全性和保密性较差的问题，本发明实施例提供了一种内网终端敏感数据的检测方法、装置、服务器及系统。

[0006] 第一方面，本发明实施例提供了一种内网终端敏感数据的检测方法，应用于服务器，方法包括：

[0007] 当接收到配置于目标终端的数据采集器的连接请求时，所述服务器与对应的数据采集器建立安全加密连接；其中，所述数据采集器与所述目标终端为一一对应关系，所述数据采集器用于采集对应目标终端的非结构化文件；

[0008] 针对预设的每一个采集周期，均执行：

[0009] 获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，所述文件信息列表含有各非结构化文件的指纹信息；所述指纹信息用于表征对应的非结构化文件是否发生变化；

[0010] 基于所述指纹信息和所述文件信息列表，利用所述数据采集器从对应目标终端获取非结构化文件；

[0011] 对每一个所述非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。

[0012] 第二方面，本发明实施例还提供了一种内网终端敏感数据的检测装置，设置于服务器，包括：

[0013] 连接单元，用于当接收到配置于目标终端的数据采集器的连接请求时，所述服务器与对应的数据采集器建立安全加密连接；其中，所述数据采集器与所述目标终端为一一对应关系，所述数据采集器用于采集对应目标终端的非结构化文件；

[0014] 获取单元，用于针对预设的每一个采集周期，均执行：获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，所述文件信息列表含有各非结构化文件的指纹信息；所述指纹信息用于表征对应的非结构化文件是否发生变化；

[0015] 下载单元，用于基于所述指纹信息和所述文件信息列表，利用所述数据采集器从对应目标终端获取非结构化文件；

[0016] 检测单元，用于对每一个所述非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。

[0017] 第三方面，本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本说明书任一实施例所述的方法。

[0018] 第四方面，本发明实施例还提供了一种内网终端敏感数据的检测系统，包括内网中的各目标终端和如第三方面所述的服务器，所述目标终端分别与所述服务器进行通讯。

[0019] 本发明实施例提供了一种内网终端敏感数据的检测方法、装置、服务器及系统，首先，当服务器接收到配置于目标终端的数据采集器的连接请求时，服务器与对应的数据采集器建立安全加密连接；然后，在每一个采集周期服务器均会获取每一个数据采集器在当前采集周期上报的文件信息列表，且文件信息列表含有各非结构化文件的指纹信息；那么每个采集周期，服务器均会基于指纹信息和文件信息列表，利用数据采集器从对应的目标终端获取非结构化文件；最后，会对每一个非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。本方案，通过在内网的各目标终端设置数据采集器，且服务器与数据采集器进行了加密连接，使得服务器可以及时自动地从目标终端获取各非结构化文件，可以大大提高对企业内非结构化数据中敏感数据的检测能力，并且可以提高检测时的安全性和保密性。

附图说明

[0020] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0021] 图1是本发明一实施例提供的一种内网终端敏感数据的检测方法的流程图；

[0022] 图2是本发明一实施例提供的一种目标传输协议的头部结构示意图；

[0023] 图3是本发明一实施例提供的一种计算设备的硬件架构图；

[0024] 图4是本发明一实施例提供的一种内网终端敏感数据的检测装置结构图。

具体实施方式

[0025] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0026] 下面描述以上构思的具体实现方式。

[0027] 请参考图1，本发明实施例提供了一种内网终端敏感数据的检测方法，应用于服务器，该方法包括：

[0028] 步骤100，当接收到配置于目标终端的数据采集器的连接请求时，服务器与对应的数据采集器建立安全加密连接；其中，数据采集器与目标终端为一一对应关系，数据采集器用于采集对应目标终端的非结构化文件；

[0029] 步骤102，针对预设的每一个采集周期，均执行：获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，文件信息列表含有各非结构化文件的指纹信息；指纹信息用于表征对应的非结构化文件是否发生变化；

[0030] 步骤104，基于指纹信息和文件信息列表，利用数据采集器从对应目标终端获取非结构化文件；

[0031] 步骤106，对每一个非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。

[0032] 本发明实施例中，首先，当服务器接收到配置于目标终端的数据采集器的连接请求时，服务器与对应的数据采集器建立安全加密连接；然后，在每一个采集周期服务器均会获取每一个数据采集器在当前采集周期上报的文件信息列表，且文件信息列表含有各非结构化文件的指纹信息；那么每个采集周期，服务器均会基于指纹信息和文件信息列表，利用数据采集器从对应的目标终端获取非结构化文件；最后，会对每一个非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。本方案，通过在内网的各目标终端设置数据采集器，且服务器与数据采集器进行了加密连接，使得服务器可以及时自动地从目标终端获取各非结构化文件，可以大大提高对企业内非结构化数据中敏感数据的检测能力，并且可以提高检测时的安全性和保密性。

[0033] 针对步骤100：

[0034] 根据企业内网拓扑结构，用户需将数据采集器安装到内网中各目标终端上，数据采集器支持Windows和Linux操作系统部署。用户需配置服务器的IP地址、端口号以及文件扫描相关的模式和日志信息。扫描模式分为正常模式、黑名单模式和白名单模式。正常模式为扫描系统全盘；黑名单模式为扫描黑名单以外的文件；白名单模式为扫描白名单内的文件。

[0035] 服务器设有白名单，用于过滤非法请求，只有在白名单内的数据采集器IP（即目标终端IP）才能请求与服务器建立连接，用户可设置单独IP和IP段。服务器还具有定时器功能，定时向数据采集器下发指令以获取目标终端中非结构化文件的最新变动情况。

[0036] 在一些实施方式中，步骤100可以包括：

[0037] 针对每一个发送连接请求的数据采集器，均执行：

[0038] 判断当前数据采集器IP是否在服务器预设的白名单中；

[0039] 若不在，则拒绝连接；若在，则判断服务器当前已经连接的数据采集器IP中是否存在当前数据采集器IP；

[0040] 若存在，则拒绝连接；若不存在，则向当前数据采集器发起身份确认指令，使当前数据采集器返回其身份ID；

[0041] 若返回的身份ID不为空，则直接建立安全加密连接；若为空，则在服务器的界面显示当前数据采集器的连接请求，以根据用户指令判断是否建立安全加密连接；

[0042] 若用户确定建立，则建立安全加密连接，并创建身份ID下发至当前数据采集器。

[0043] 在本实施例中，当数据采集器IP在服务器预设的白名单中时，需要判断数据采集器IP是否已经处于连接状态，只有确认当前数据采集器IP没有已连接才可以进行身份确认，这样可以防止同一数据采集器多次重复连接，可以节省时间；然而，由于数据采集器IP（即目标终端IP）为动态IP，在重新连接时，数据采集器IP可能和首次连接的IP不同，因此，为了服务器可以正确识别数据采集器的身份，在数据采集器首次需要与服务器连接时，服务器会下发一个身份ID给该数据采集器，那么在下次重连时，服务器下发身份确认指令，数据采集器会返回其身份ID，便于服务器识别该数据采集器。因此，在当前数据采集器返回的身份ID不为空时，说明当前数据采集器之前已经与服务器连接过，那么就可以直接与服务器建立SSL/TLS连接；在当前数据采集器返回的身份ID为空时，说明当前数据采集器为首次连接，那么需要用户确认当前数据采集器是否可以与服务器连接，若用户选择不连接，那么就拒绝当前数据采集器的连接请求，若用户选择建立，就可以建立SSL/TLS连接，并且服务器会创建身份ID下发至当前数据采集器。可见，通过建立白名单、验证身份ID，可以提高服务器与数据采集器连接的有效性。

[0044] 在一些实施方式中，服务器与数据采集器的网络通信基于TCP通信协议和目标传输协议；

[0045] 目标传输协议的头部结构包括2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度。

[0046] 在本实施例中，为了提高保密性，服务器与数据采集器的网络通信不仅基于TCP通信协议，还基于本发明提供的目标传输协议。可以参考图2所示的目标传输协议的头部结构，总共分为6个部分，分别为2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度。本实施例中，服务器与数据采集器的网络通信信息，需要利用目标传输协议来进行解析，若发生数据泄露，黑客无法解析出网络通信信息的内容，可以大大提高保密性和安全性。

[0047] 在一些实施方式中，接口类型包括服务端主动请求接口和终端主动推送接口；

[0048] 服务端主动请求接口包括用于向数据采集器发起身份确认指令的第一接口、用于获取数据采集器采集的文件信息列表的第二接口、用于获取非结构化文件的第三接口。

[0049] 在本实施例中，第一接口用于本步骤100中的身份确认，第二接口用于步骤102中的文件信息列表传输，第三接口用于步骤104中的获取非结构化文件。

[0050] 可以理解，服务端主动请求接口还可以包括用于通知目标终端新增或删除数据源的第四接口、用于通知目标终端更新密钥的第五接口；终端主动推送接口可以包括用于目标终端主动推送数据源更新或新增的第六接口和用于目标终端主动推送数据源连接状态的第七接口。

[0051] 在一些实施方式中，服务器与数据采集器是通过如下方式进行网络通信的：

[0052] 基于TCP通信协议，接收每一个TCP报文；

[0053] 针对每一个TCP报文，均执行：

[0054] 基于当前TCP报文中的目标传输协议头，从当前TCP报文中获取目标传输协议的版本号，以获取目标传输协议的解析规则；

[0055] 获取当前TCP报文的数据类型，以判断当前TCP报文为指令还是非结构化文件；

[0056] 当当前TCP报文的数据类型为非结构化文件时，确定接口为第三接口，并获取当前TCP报文的数据长度，以利用第三接口根据数据长度，下载当前TCP报文中所携带的非结构化文件数据；

[0057] 当当前TCP报文的数据类型为指令时，获取当前TCP报文的接口类型和数据长度，以利用对应接口根据数据长度执行对应指令。

[0058] 在本实施例中，服务器与数据采集器的每一次通信，服务器或数据采集器都会基于目标传输协议解析报文。具体地，基于TCP通信协议，接收每一个TCP报文，针对每一个TCP报文，均会按照目标传输协议头，从TCP报文中截取并识别解析本次通信信息所需的版本号、本次通信信息的数据类型、数据源状态、所需的接口类型和通信信息的数据长度，以使服务器和数据采集器根据解析的内容进行下一步操作。

[0059] 针对步骤102：

[0060] 在本步骤中，数据采集器首次与服务端建立连接后，会利用第二接口下发拉取目标终端文件信息列表的指令，数据采集器扫描配置要求的文件信息，记录文件路径、文件类型、指纹信息等信息，生成文件信息列表，并将文件信息列表返回给服务器，并且数据采集器在首次扫描结束后，会监控该目标终端中非结构化文件的变化情况，新增和修改时指纹信息会发生改变，那么在下一个采集周期服务端下发拉取目标终端文件信息列表的指令后，数据采集器会重新生成新的文件信息列表上报给服务器，且文件信息列表含有各非结构化文件的指纹信息。

[0061] 针对步骤104：

[0062] 在一些实施方式中，步骤104可以包括：

[0063] 判断当前采集周期的文件信息列表中是否存在新增的非结构化文件；

[0064] 若存在，则利用数据采集器从对应目标终端获取新增的非结构化文件；

[0065] 判断文件信息列表中剩余的每一个非结构化文件，在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同；

[0066] 若相同，则当前采集周期不获取该非结构化文件；

[0067] 若不同，则利用数据采集器从对应目标终端获取该非结构化文件。

[0068] 在本实施例中，服务器可以遍历当前采集周期的文件信息列表和上一采集周期的文件信息列表，当存在新增的非结构化文件，则利用数据采集器从对应目标终端获取新增的非结构化文件内容；并且判断文件信息列表中剩余的每一个非结构化文件，在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同，当不同时，代表该非结构化文件产生了变动，那么可以利用数据采集器从对应目标终端获取该非结构化文件，当相同时，代表该非结构化文件未产生变动，那么就不需要再拉取该非结构化文件的内容，避免重复检测，这样可以提高服务器采集非结构化文件的效率。

[0069] 针对步骤106：

[0070] 在一些实施方式中，步骤106可以包括如下步骤S1‑S4：

[0071] 步骤S1，基于每一个非结构化文件预设的魔术数字，确定每一个非结构化文件的格式；

[0072] 步骤S2，根据格式，调用对应的解析算法来对非结构化文件进行解析，得到每一个非结构化文件的文本数据；

[0073] 步骤S3，利用自然语言算法和敏感特征库，对每一个非结构化文件的文本数据进行特征提取，确定出每一个非结构化文件的敏感数据；

[0074] 步骤S4，基于每一个非结构化文件的敏感数据，对每一个非结构化文件进行风险评估，得到检测结果。

[0075] 在本实施例中，由于非结构化文件包括pdf、ppt等格式，这些格式文件中会有图片，因此，需要对数据采集器发来的非结构化文件进行预处理，首先，根据步骤S1中的魔术数字，确定每一个非结构化文件的格式，然后，根据步骤S2，针对不同的文件格式，采用相应的解析算法提取非结构化文件的文本数据。例如，对于doc/docx文件，使用Word处理库读取文件内容；对于ppt/pptx文件，可以使用PowerPoint处理库读取幻灯片文本；对于pdf文件，可以使用PDF处理库提取文本信息；对于txt文件，直接读取文件数据。最后，对文本数据进行清洗，去除特殊字符、空白符、以及将多个空格或换行符合并为单个空格或换行符，以消除噪声和无关信息。

[0076] 在一些实施方式中，敏感特征库包括内置特征库和扩展特征库。内置特征库包含了预定义的一些常规规则，如人的敏感信息、货币敏感信息、工厂敏感信息等共计36项。这些规则为默认设置，用于识别常见的敏感数据类型。扩展特征库则根据用户特定需求进行定制，支持关键字、后缀、标签、来源、正则表达式、AI识别等规则及其组合方式。AI识别包括命名实体识别，如人名、机构名、地址等，以便更精确地检测敏感数据。通过内置特征库和扩展特征库规则进行敏感数据检测，系统将记录每一个非结构化文件的敏感数据匹配情况，包括匹配到的敏感数据信息和匹配次数。

[0077] 在一些实施方式中，步骤S4包括：

[0078] 基于预先确定的分类规则，对非结构化文件进行分类；

[0079] 基于敏感数据和分类结果，对每一个非结构化文件进行风险评估。

[0080] 在本实施例中，步骤“基于预先确定的分类规则，对所述非结构化文件进行分类”包括：

[0081] 基于非结构化文件的领域标签，对非结构化文件进行一级分类；

[0082] 确定每个一级类别的分类规则，并基于分类规则对对应一级类别中的非结构化文件进行识别，以对每个一级类别中的非结构化文件进行二级分类。

[0083] 本实施例中，由于不同领域或不同类型的非结构化文件的敏感程度不一样，因此要对非结构文件进行多级分类，以提高评估的准确性。

[0084] 在一些实施方式中，敏感数据库包括每一种敏感数据的识别规则、基础敏感值以及与其他敏感数据的相关性系数；识别规则为关键字、后缀、标签、来源、正则表达式、AI智能识别中的一种或多种。

[0085] 那么，步骤“基于敏感数据和分类结果，对每一个非结构化文件进行风险评估”包括：

[0086] 针对每一个二级类别中的每一个非结构化文件，均执行：

[0087] 基于当前二级类别中当前非结构化文件所命中的各种敏感数据的基础敏感值、各种敏感数据的数量和各种敏感数据之间的相关性系数，计算当前非结构化文件的敏感度；

[0088] 获取当前二级类别的评估阈值；

[0089] 基于当前非结构化文件的敏感度和当前二级类别的评估阈值，对当前非结构化文件进行风险评估。

[0090] 在本实施例中，每一个非结构化文件的敏感度是通过如下公式计算的：

[0091]

[0092] 式中，为敏感度，为设定参数，下标1...n代表各种敏感数据，n为当前文件的敏感数据的种类数量，为敏感数据的基础敏感值，为每种敏感数据命中的数量，为各种敏感数据之间的相关性系数。

[0093] 在本实施例中，采用对数函数log，是为了弱化相同敏感特征命中多次，对最终的计算结果急速上升的问题。实际生活中也是，数量变大对结果是有正增益，但是增加效果会越来越小。采用各种敏感特征之间的相关性系数p，可以根据命中的敏感特征之间的相关性，对该文件的敏感度产生正增益或负增益，相较于简单的累加，会产生明显的增大效果或者减小效果。因此，本实施例能够更加科学合理地评估数据的敏感程度，提高分类和分级的准确性和实用性。

[0094] 每个二级类别设置的评估阈值可以不同，那么当非结构化文件的敏感度为A时，且A大于当前非结构化文件所属二级类别的第一阈值，将该非结构化文件评为第一风险等级（风险较高）。其中，第二阈值小于第一阈值，第三阈值小于第二阈值，以此对每一个非结构化文件进行风险评估，将所有检测到的敏感数据按目标终端汇总，以便用户对不同目标终端的风险状况进行分析。采用柱状图、饼状图、列表等形式展示敏感数据分布及其风险等级，以便用户直观地了解整个企业网络中的数据安全风险。

[0095] 如图3、图4所示，本发明实施例提供了一种内网终端敏感数据的检测装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图3所示，为本发明实施例提供的一种内网终端敏感数据的检测装置所在计算设备的一种硬件架构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的计算设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图4所示，作为一个逻辑意义上的装置，是通过其所在计算设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种内网终端敏感数据的检测装置，设置于服务器，包括：

[0096] 连接单元401，用于当接收到配置于目标终端的数据采集器的连接请求时，服务器与对应的数据采集器建立安全加密连接；其中，数据采集器与目标终端为一一对应关系，数据采集器用于采集对应目标终端的非结构化文件；

[0097] 获取单元402，用于针对预设的每一个采集周期，均执行：获取每一个数据采集器在当前采集周期上报的文件信息列表；其中，文件信息列表含有各非结构化文件的指纹信息；指纹信息用于表征对应的非结构化文件是否发生变化；

[0098] 下载单元403，用于基于指纹信息和文件信息列表，利用数据采集器从对应目标终端获取非结构化文件；

[0099] 检测单元404，用于对每一个非结构化文件进行特征提取，以检测出每一个非结构化文件的敏感数据，得到检测结果。

[0100] 本发明一个实施例中，连接单元401用于执行：

[0101] 针对每一个发送连接请求的数据采集器，均执行：

[0102] 判断当前数据采集器IP是否在服务器预设的白名单中；

[0103] 若不在，则拒绝连接；若在，则判断服务器当前已经连接的数据采集器IP中是否存在当前数据采集器IP；

[0104] 若存在，则拒绝连接；若不存在，则向当前数据采集器发起身份确认指令，使当前数据采集器返回其身份ID；

[0105] 若返回的身份ID不为空，则直接建立安全加密连接；若为空，则在服务器的界面显示当前数据采集器的连接请求，以根据用户指令判断是否建立安全加密连接；

[0106] 若用户确定建立，则建立安全加密连接，并创建身份ID下发至当前数据采集器。

[0107] 本发明一个实施例中，下载单元403用于执行：

[0108] 判断当前采集周期的文件信息列表中是否存在新增的非结构化文件；

[0109] 若存在，则利用数据采集器从对应目标终端获取新增的非结构化文件；

[0110] 判断文件信息列表中剩余的每一个非结构化文件，在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同；

[0111] 若相同，则当前采集周期不获取该非结构化文件；

[0112] 若不同，则利用数据采集器从对应目标终端获取该非结构化文件。

[0113] 本发明一个实施例中，连接单元401、获取单元402和下载单元403中，服务器与数据采集器的网络通信基于TCP通信协议和目标传输协议；目标传输协议的头部结构包括2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度。

[0114] 本发明一个实施例中，连接单元401、获取单元402和下载单元403中的接口类型包括服务端主动请求接口和终端主动推送接口；

[0115] 服务端主动请求接口包括用于向数据采集器发起身份确认指令的第一接口、用于获取数据采集器采集的文件信息列表的第二接口、用于获取非结构化文件的第三接口。

[0116] 本发明一个实施例中，连接单元401、获取单元402和下载单元403中服务器与数据采集器是通过如下方式进行网络通信的：

[0117] 基于TCP通信协议，接收每一个TCP报文；

[0118] 针对每一个TCP报文，均执行：

[0119] 基于当前TCP报文中的目标传输协议头，从当前TCP报文中获取目标传输协议的版本号，以获取目标传输协议的解析规则；

[0120] 获取当前TCP报文的数据类型，以判断当前TCP报文为指令还是非结构化文件；

[0121] 当当前TCP报文的数据类型为非结构化文件时，确定接口为第三接口，并获取当前TCP报文的数据长度，以利用第三接口根据数据长度，下载当前TCP报文中所携带的非结构化文件数据；

[0122] 当当前TCP报文的数据类型为指令时，获取当前TCP报文的接口类型和数据长度，以利用对应接口根据数据长度执行对应指令。

[0123] 本发明一个实施例中，检测单元404用于执行：

[0124] 基于每一个非结构化文件预设的魔术数字，确定每一个非结构化文件的格式；

[0125] 根据格式，调用对应的解析算法来对非结构化文件进行解析，得到每一个非结构化文件的文本数据；

[0126] 利用自然语言算法和敏感特征库，对每一个非结构化文件的文本数据进行特征提取，确定出每一个非结构化文件的敏感数据；

[0127] 基于每一个非结构化文件的敏感数据，对每一个非结构化文件进行风险评估，得到检测结果。

[0128] 可以理解的是，本发明实施例示意的结构并不构成对一种内网终端敏感数据的检测装置的具体限定。在本发明的另一些实施例中，一种内网终端敏感数据的检测装置可以包括比图示更多或者更少的部件单元，或者组合某些部件单元，或者拆分某些部件单元，或者不同的部件单元布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

[0129] 上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

[0130] 本发明实施例还提供了一种服务器，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时，实现本发明任一实施例中的一种内网终端敏感数据的检测方法。

[0131] 本发明实施例还提供了一种内网终端敏感数据的检测系统，包括内网中的各目标终端和如本发明任一实施例中的服务器，所述目标终端分别与所述服务器进行通讯。

[0132] 需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

[0133] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

内网终端敏感数据的检测方法、装置、服务器及系统转让专利

申请号 : CN202310670717.6

文献号 : CN116432240B

文献日 : 2023-08-22

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李宇哲 , 代向东 , 陈志强 , 姜海昆 , 范宇

申请人 : 长扬科技(北京)股份有限公司

摘要 :

权利要求 :

说明书 :