用户终端使用情况识别方法、系统、设备及存储介质转让专利

申请号 : CN202211368224.9

文献号 : CN115442156B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 马成张倩瑜王菁

申请人 : 联通(广东)产业互联网有限公司

摘要 :

本发明提供用户终端使用情况识别方法、系统、设备及存储介质,方法包括:确定所有用户当天的终端在线时长;过滤终端在线时长为0的用户;确定所有在线用户在终端上执行的n种操作的操作频率并绘制n维散点图;在所述n维散点图中的每个点对应每个在线用户的n个操作频率;对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;确定m个簇中在特征空间中分布位置最接近原点的簇,将对应的在线用户确定为非正常使用用户。该方法可在多种安全监管、节能调控的场景中应用,对非正常使用用户的判断标准不是直接认为设定操作次数的阈值,而是通过确定分布位置最接近原点的簇来确定非正常使用用户,因此也不受具体行业工种对终端操作频次的影响。

权利要求 :

1.一种基于多维操作聚类的用户终端使用情况识别方法,其特征在于,包括:确定所有用户当天的终端在线时长;

过滤终端在线时长为0的用户,未被过滤的用户作为在线用户;

确定所有在线用户在终端上执行的n种操作的操作频率;

根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;在所述n维散点图中的每个点对应每个在线用户的n个操作频率;

将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;

确定m个簇中在特征空间中分布位置最接近原点的簇,将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。

2.根据权利要求1所述的基于多维操作聚类的用户终端使用情况识别方法,其特征在于,确定m个簇中在特征空间中分布位置最接近原点的簇,具体包括:确定每个簇的簇中心,确定向量模长最小的簇中心;

将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇。

3.根据权利要求1所述的基于多维操作聚类的用户终端使用情况识别方法,其特征在于,所述n种操作的操作频率至少包括文件操作频率、网页浏览频率和应用使用频率;

所述文件操作频率是指用户当天在终端上执行文件操作行为的频率;

所述网页浏览频率是指用户当天在终端上执行网页浏览行为的频率;

所述应用使用频率是指用户当天在终端上使用应用程序的频率。

4.根据权利要求3所述的基于多维操作聚类的用户终端使用情况识别方法,其特征在于,所述文件操作频率由用户当天在终端上执行文件操作行为的次数与当天的终端在线时长确定;

所述网页浏览频率由用户当天在终端上执行网页浏览行为的次数与当天的终端在线时长确定;

所述应用使用频率由用户当天在终端上使用应用程序的次数与当天的终端在线时长确定。

5.根据权利要求1 4任一项所述的基于多维操作聚类的用户终端使用情况识别方法,~其特征在于,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇,具体包括:利用DBSCAN聚类算法对n维散点图中的散点进行聚类,以将所有散点划分为m个簇。

6.一种基于多维操作聚类的用户终端使用情况识别系统,其特征在于,包括:在线时长确定模块,用于确定所有用户当天的终端在线时长;

用户过滤模块,用于过滤终端在线时长为0的用户,未被过滤的用户作为在线用户;

操作频率确定模块,用于确定所有在线用户在终端上执行的n种操作的操作频率;

散点图绘制模块,用于根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;在所述n维散点图中的每个点对应每个在线用户的n个操作频率;

聚类模块,用于将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;

用户分类模块,用于确定m个簇中在特征空间中分布位置最接近原点的簇,将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。

7.根据权利要求6所述的基于多维操作聚类的用户终端使用情况识别系统,其特征在于,所述用户分类模块包括:最接近原点簇确定子模块,用于确定每个簇的簇中心,确定向量模长最小的簇中心;将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇;

用户分类子模块,用于将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。

8.根据权利要求6或7所述的基于多维操作聚类的用户终端使用情况识别系统,其特征在于,所述n种操作的操作频率至少包括文件操作频率、网页浏览频率和应用使用频率;

所述文件操作频率是指用户当天在终端上执行文件操作行为的频率;

所述网页浏览频率是指用户当天在终端上执行网页浏览行为的频率;

所述应用使用频率是指用户当天在终端上使用应用程序的频率。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1 5任一项所述的基于多维操作聚类~的用户终端使用情况识别方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1 5任一项所述的基于多维操作聚类的用户终端使用情况识~别方法。

说明书 :

用户终端使用情况识别方法、系统、设备及存储介质

技术领域

[0001] 本发明涉及企业安全管理领域,更具体地,涉及用户终端使用情况识别方法、系统、设备及存储介质。

背景技术

[0002] 在网络安全风险的威胁下,越来越多的企业开始重视日常办公中企业资料、生产数据等信息的安全问题。在企业安全制度的要求下,一般会为员工配备具有防护、审计功能的安全终端用于办公。但由于资料转移、使用习惯等原因,有些员工拒绝使用安全终端,仍私下用个人电脑办公,从而带来了企业安全隐患。
[0003] 因此,对未使用安全终端进行办公的员工需要进行监控监管,确保安全制度有效执行,是企业安全管理的一大需求。
[0004] 在现有的监管方案中,一般会从后台查看所有配发的安全终端是否在线,在线即认为该电脑正在被使用。这一方案存在的漏洞是,某些员工每天会将安全终端开机,并挂机(即不执行任何操作)放在一边,或只进行少量操作,员工的主要工作仍在自己的个人电脑上进行。这一违反了公司的安全管理规定的行为不但难以能够避开监管,同时增加了公司耗电成本。另一方面,由于员工工种的不同,难以从单一操作日志设定的指标去定义这些违反规定的挂机人员。

发明内容

[0005] 本发明旨在克服上述现有技术的至少一种缺陷,提供用户终端使用情况识别方法、系统、设备及存储介质,用于解决现有技术中无法严格监管违反公司安全规定的挂机人员,且无法提出一种适用性广的监管方法的问题。
[0006] 本发明采用的技术方案包括:
[0007] 本发明提供一种基于多维操作聚类的用户终端使用情况识别方法,包括:确定所有用户当天的终端在线时长;过滤终端在线时长为0的用户,未被过滤的用户作为在线用户;确定所有在线用户在终端上执行的n种操作的操作频率;根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;在所述n维散点图中的每个点对应每个在线用户的n个操作频率;将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;确定m个簇中在特征空间中分布位置最接近原点的簇,将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0008] 本发明提供的识别方法,首先过滤终端不在线的用户得到在线用户,获取并将在线用户在终端上的多种维度的操作数据映射至多维的特征空间,通过聚类将特征空间中的数据进行分类得到若干个簇,确定特征空间中分布位置相比于其他分布的簇更接近原点的簇,分布位置最接近原点的簇对应的在线用户在多种维度的操作上都执行得最少,因此将该簇对应的在线用户定义为非正常使用用户,该方法通过聚类将特征空间中的样本划分为不同的簇,再定义出最有可能是属于挂机人员,也就是非正常使用用户所在的簇。该方法综合考虑了在线用户的多维度数据,避免了单一维度标准衡量不同工种的片面性,因此可在多种安全监管、节能调控的场景中应用,且该方法对非正常使用用户的判断标准不是直接人为设定操作次数的阈值,而是基于样本在特征空间中的分布,即通过确定分布位置最接近原点的簇来确定非正常使用用户,因此也不受具体行业工种对终端操作频次的影响,有利于支撑各种企业、单位对终端的精细化管理和运营。
[0009] 进一步,确定m个簇中在特征空间中分布位置最接近原点的簇,具体包括:确定每个簇的簇中心,确定向量模长最小的簇中心;将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇。
[0010] 在确定分布位置最接近原点的簇时可通过每个簇的簇中心的向量大小确定,簇中心的向量模长最小的簇表示对应的簇在特征空间中分布位置最接近原点。
[0011] 进一步,所述n种操作的操作频率至少包括文件操作频率、网页浏览频率和应用使用频率;所述文件操作频率是指用户当天在终端上执行文件操作行为的频率;所述网页浏览频率是指用户当天在终端上执行网页浏览行为的频率;所述应用使用频率是指用户当天在终端上使用应用程序的频率。
[0012] 本发明选取用户在终端上执行文件操作行为、网页浏览行为以及使用应用程序的频率作为构建特征空间的基本特征,根据以上至少三种操作频率可准确确定用户是否在正常使用终端,而非挂机。
[0013] 进一步,所述文件操作频率由用户当天在终端上执行文件操作行为的次数与当天的终端在线时长确定;所述网页浏览频率由用户当天在终端上执行网页浏览行为的次数与当天的终端在线时长确定;所述应用使用频率由用户当天在终端上使用应用程序的次数与当天的终端在线时长确定。
[0014] 进一步,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇,具体包括:利用DBSCAN聚类算法对n维散点图中的散点进行聚类,以将所有散点划分为m个簇。
[0015] 通过DBSCAN聚类算法这一基于密度的无监督学习算法进行聚类,将所有散点划分为m个簇,而非人工进行划分,在划分簇后再定义出最有可能是属于挂机人员,也就是非正常使用用户所在的簇。
[0016] 本发明提供一种基于多维操作聚类的用户终端使用情况识别系统,包括:在线时长确定模块,用于确定所有用户当天的终端在线时长;用户过滤模块,用于过滤终端在线时长为0的用户,未被过滤的用户作为在线用户;操作频率确定模块,用于确定所有在线用户在终端上执行的n种操作的操作频率;散点图绘制模块,用于根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;在所述n维散点图中的每个点对应每个在线用户的n个操作频率;聚类模块,用于将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;用户分类模块,用于确定m个簇中在特征空间中分布位置最接近原点的簇,将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0017] 进一步,所述用户分类模块包括:最接近原点簇确定子模块,用于确定每个簇的簇中心,确定向量模长最小的簇中心;将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇;用户分类子模块,用于将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0018] 本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的基于多维操作聚类的用户终端使用情况识别方法。
[0019] 本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于多维操作聚类的用户终端使用情况识别方法。
[0020] 与现有技术相比,本发明的有益效果为:
[0021] 本发明提供的基于多维操作聚类的用户终端使用情况识别方法,获取在线用户在终端上的多种维度的操作数据并映射至多维的特征空间,将特征空间中的数据样本进行聚类得到若干个簇,通过确定特征空间中分布位置更接近原点的簇而确定非正常用户,该方法通过聚类将特征空间中的样本划分为不同的簇,再定义出最有可能是非正常使用用户所在的簇。该方法综合考虑了在线用户在使用终端过程中的多个维度数据,避免了单一维度标准衡量不同工种的片面性,可在多种安全监管、节能调控的场景中应用,且该方法对非正常使用用户的判断标准不是直接人为设定操作次数的阈值,而是基于样本在特征空间中的分布,通过确定分布位置最接近原点的簇来确定非正常使用用户,因此在判断非正常使用用户时也不受具体行业工种对终端操作频次的影响,无需针对具体行业工种设定特定的阈值,有利于支撑各种企业、单位对终端的精细化管理和运营。

附图说明

[0022] 图1为本发明实施例1提供的方法步骤S110 S170的流程示意图。~
[0023] 图2为本发明实施例1中作为示例说明的三维散点图。
[0024] 图3为本发明实施例1中对散点进行聚类后的三维散点图。
[0025] 图4为本发明实施例2提供的系统的模块组成示意图。

具体实施方式

[0026] 本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0027] 实施例1
[0028] 本实施例提供一种基于多维操作聚类的用户终端使用情况识别方法,该方法能够有效对非正常使用终端的用户进行监管,且应用范围广泛,有利于对企业安全的保障,以及对员工进行精细化管理。
[0029] 如图1所示,该方法包括以下步骤:
[0030] S110、确定所有用户当天的终端在线时长;
[0031] 在本实施例中,终端是指用户使用的电子设备,尤其是指已规定用户需要在工作时使用的电子设备,例如是已配备具有防护、审计功能的安全终端等。
[0032] 各个终端的管理后台记录了每台终端的“开机时间” 和“最后在线”时间 ,根据 和 可确定用户当天使用终端的在线时长 ,在线时长 可以以小时为单位,不足1小时按照0计算。
[0033] 在具体的实施方式中,根据不同的情况,分类定义终端的“当天在线时长” 。
[0034]
[0035] S120、过滤终端在线时长为0的用户,未被过滤的用户作为在线用户;
[0036] 终端在线时长为0,表示用户当天没有使用过终端,可以按照规定或实际情况直接过滤掉的用户归类为离线用户,离线用户可以确定为非正常使用用户或违规用户。而终端在线时长超过0,表示用户当天使用过终端,但并不确定是否正常使用终端,需执行后续步骤进行判断。
[0037] S130、确定所有在线用户在终端上执行的n种操作的操作频率;
[0038] 用户在终端上执行的操作一般是指用户在使用终端的过程中发出过的指令,例如是对终端内的文件进行处理,对终端进行控制等等。操作频率是指用户在当天使用终端时执行操作的频繁程度。
[0039] 在具体的实施方式中,n种操作的操作频率至少包括文件操作频率、网页浏览频率和应用使用频率。实际应用过程中,可以根据实际情况增加其他适用的操作频率。
[0040] 其中,文件操作频率是指用户当天在终端上执行文件操作行为的频率,具体地,终端管理后台可以对终端上所有的文件操作行为(例如:修改、复制、外发等)进行记录,再统计每台终端当天记录的所有文件操作行为的次数,通过式子计算文件操作频率:文件操作频率=当天文件操作次数/当天在线时长y。
[0041] 网页浏览频率是指用户当天在终端上执行网页浏览行为的频率,具体地,终端管理后台可以对终端上所有的网页浏览行为进行记录,再统计每台终端当天记录的所有网页浏览行为的次数,通过式子计算网页浏览频率:网页浏览频率=当天网页浏览次数/当天在线时长y。
[0042] 应用使用频率是指用户当天在终端上使用应用程序的频率,具体地,终端管理后台可以对终端上所有的应用程序使用行为进行记录,再统计每台终端当天记录的所有应用程序使用行为的次数,通过式子计算应用使用频率:应用使用频率=当天应用使用次数/当天在线时长y。
[0043] S140、根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;
[0044] 在绘制n维散点图之前,使用最小值最大值标准化的方法,对n个操作频率进行线性变换,使每个在线用户的n个操作频率映射到区间[0,1]。
[0045] 在将每个在线用户的n个操作频率的数据归一化后,绘制n维散点图,使所有在线用户的操作频率的数据以散点的形式分布于散点图中,n维散点图也是n维特征空间,该方式能够可视化所有在线用户的操作频率在特征空间中的分布。作为示例说明,如图2所示,仅根据在线用户的文件操作频率、网页浏览频率和应用使用频率的3个操作频率可绘制三维散点图。
[0046] S150、将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇;
[0047] 在具体的实施方式中,利用DBSCAN聚类算法,将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇。在聚类的过程中,需以特征空间中的分布设定合适的模型超参数,半径eps和邻域密度阈值min_samples。作为示例说明,如图2所示的特征空间,可尝试设置半径eps=0.03,min_samples=2,从而对三维散点图中的数据进行聚类,如图3所示,DBSCAN聚类算法可将所有数据划分为若干个簇,标记为不同的颜色,将不满足密度要求的噪声点标记为黑色颜色。
[0048] S160、确定m个簇中在特征空间中分布位置最接近原点的簇;
[0049] 在特征空间中分布位置最接近原点的簇,表示该簇对应的数据较其他簇更小,对应为在线用户的n个操作频率的数值均较低,表示该簇对应的在线用户最有可能是非正常使用用户,也可以称为“挂机人员”。
[0050] 在具体的实施方式中,本步骤中确定分布位置最接近原点的簇的具体过程包括以下步骤:
[0051] S161、确定每个簇的簇中心;
[0052] 对于每个簇,定义簇内散点的均值为簇中心,如式子表示。其中, 为簇中心, 为簇。
[0053] S162、确定向量模长最小的簇中心,将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇;
[0054] 在本步骤中,需确定所有簇中心向量的模,并找出向量模长最小的簇中心向量,如[0055] 表示,其中, 为向量模长最小的簇中心向量,为各个簇的簇中心向量。
[0056] S170、将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0057] 非正常使用用户为“挂机人员”,该类在线用户在当天使用终端的过程中,各维度的操作频率数值均较其他在线用户的小,被认为是仅将终端开机,但没有利用终端进行日常工作的情况。而其余簇对应的在线用户被确定为正常使用用户。
[0058] 本实施例提供的基于多维操作聚类的用户终端使用情况识别方法至少从用户使用终端过程中的文件操作、网页浏览、应用使用的三个维度综合判断终端当天的使用情况,避免了单一维度标准衡量不同工种的片面性,且本实施例的方法也可以根据维度更多的数据进行综合分析。其次,该方法在判断用户是否为非正常使用用户时,并不直接人为设定一阈值进行判断,而是假设所有在特征空间中的数据来自于多个不同的分布,并将在特征空间中分布位置最接近原点的簇对应的在线用户定义为最大可能性的非正常使用用户。在特征空间中有多种分布的数据,需要利用基于密度的无监督学习算法将特征空间中的样本划分为不同的簇,再定义出最有可能是“挂机”终端的簇。由于该方法无需人工定义一个固定阈值,只需确定特征空间中分布位置最接近原点的簇,因此可在多种安全监管、节能调控的场景中应用,不受具体行业工种对终端操作频次的影响。
[0059] 实施例2
[0060] 基于与实施例1相同的构思,本实施例提供一种基于多维操作聚类的用户终端使用情况识别系统,如图4所示,该系统包括:
[0061] 在线时长确定模块210,用于确定所有用户当天的终端在线时长。
[0062] 用户过滤模块220,用于过滤终端在线时长为0的用户,未被过滤的用户作为在线用户。
[0063] 操作频率确定模块230,用于确定所有在线用户在终端上执行的n种操作的操作频率。
[0064] 具体地,n种操作的操作频率至少包括文件操作频率、网页浏览频率和应用使用频率。文件操作频率是指用户当天在终端上执行文件操作行为的频率;网页浏览频率是指用户当天在终端上执行网页浏览行为的频率;应用使用频率是指用户当天在终端上使用应用程序的频率。
[0065] 其中,文件操作频率=用户当天在终端上执行文件操作行为的次数/当天的终端在线时长;
[0066] 网页浏览频率=用户当天在终端上执行网页浏览行为的次数/当天的终端在线时长确定;
[0067] 应用使用频率=用户当天在终端上使用应用程序的次数/当天的终端在线时长确定。
[0068] 用户当天在终端上执行文件操作行为、网页浏览行为以及使用应用程序的次数均可以通过终端管理后台获取。
[0069] 散点图绘制模块240,用于根据每个在线用户的n个操作频率绘制n维散点图,以形成n维特征空间;在所述n维散点图中的每个点对应每个在线用户的n个操作频率。
[0070] 聚类模块250,用于将n个操作频率作为训练特征,对n维散点图中的散点进行聚类,以将所有散点划分为m个簇。
[0071] 具体地,聚类模块250是将n个操作频率作为训练特征,并利用DBSCAN聚类算法对n维散点图中的散点进行聚类,以将所有散点划分为m个簇。
[0072] 用户分类模块260,用于确定m个簇中在特征空间中分布位置最接近原点的簇,将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0073] 具体地,用户分类模块260包括:
[0074] 最接近原点簇确定子模块261,用于确定每个簇的簇中心,确定向量模长最小的簇中心;将向量模长最小的簇中心所在簇作为在特征空间中分布位置最接近原点的簇。
[0075] 用户分类子模块262,用于将分布位置最接近原点的簇的散点对应的在线用户确定为非正常使用用户,将其余的在线用户确定为正常使用用户。
[0076] 上述的基于多维操作聚类的用户终端使用情况识别系统的实施方式中,各功能模块的逻辑划分仅作为举例说明,实际应用中可根据需要,例如出于硬件的配置要求或软件的实现的考虑,将上述功能分配由不同的功能模块完成,即可对该识别系统的内部结构划分为与上述内容不同的功能模块,但能够完成以上描述的全部功能。其次,上述识别系统的模块的执行过程等内容,由于与本实施例前述的基于多维操作聚类的用户终端使用情况识别方法基于同一构思,其原理和所带来的技术效果与前述的方法相同,具体内容可参见方法实施方式的叙述,此处不再赘述。
[0077] 显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。