一种异常行为检测方法、装置、设备及存储介质转让专利
申请号 : CN202010465343.0
文献号 : CN111641629B
文献日 : 2021-08-10
发明人 : 张李均焕
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种异常行为检测方法,其特征在于,包括:获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的前序时间的比率,所述前序时间在时间上位于所述后序时间之前,所述前序时间为所述预定时间段内当前单位时间之前的时间,所述后续时间为所述预定时间段内所述当前单位时间之后的时间;
依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。
2.根据权利要求1所述的方法,其特征在于,所述获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,包括:在所述预定时间段中,获取所述流量载体集合中的所述每个流量载体在N个单位时间内的N个实体集合,所述N个实体集合与所述N个单位时间一一对应,所述N个实体集合为所述每个单位时间的所述多个实体构成的与所述N个单位时间对应的集合,N为所述预定时间段内的单位时间的数量,N为大于等于1的整数;
基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率;
基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的留存来源信息,从而得到所述流量载体集合在所述预定时间段的所述留存来源信息集合,所述留存来源信息为所述每个流量载体在所述每个单位时间的所述留存率和所述来源率构成的与所述N个单位时间对应的信息。
3.根据权利要求2所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率,包括:基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,从而得到所述当前单位时间对应的留存率,其中,所述后序单位时间为所述预定时间段内,所述当前单位时间之后的各个单位时间中的任一单位时间,所述当前单位时间为所述N个单位时间中的任意一个,所述当前单位时间对应的留存率包括至少一个单位留存率;
基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,从而得到所述当前单位时间对应的来源率,其中,所述前序单位时间为所述预定时间段内,所述当前单位时间之前的各个单位时间中的任一单位时间,所述当前单位时间对应的来源率包括至少一个单位来源率;
将所述当前单位时间更换为所述N个单位时间中另一单位时间重复上述操作,得到所述另一单位时间的留存率和来源率,直至处理完所述N个单位时间时为止,得到所述每个单位时间的所述留存率和所述来源率。
4.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,包括:基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述后序单位时间对应的后序实体集合之间的共同实体,得到第一单位共同实体;
将所述第一单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述后序单位时间的所述单位留存率。
5.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,包括:基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述前序单位时间对应的前序实体集合之间的共同实体,得到第二单位共同实体;
将所述第二单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述前序单位时间的所述单位来源率。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体之后,以及针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度之前,所述方法还包括:
获取所述每类流量载体中的当前流量载体对应的总互动量;所述当前流量载体为所述每类流量载体中的任一流量载体;
利用所述总互动量,计算所述每类流量载体对应的平均互动量;
所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度,包括:
当所述平均互动量大于预设平均互动量阈值时,针对所述至少一类流量载体的所述每类流量载体,获取所述每类流量载体中的流量载体之间的所述实体相似度。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度,包括:针对所述至少一类流量载体中的所述每类流量载体,获取任意两流量载体之间的相似度,得到所述每类流量载体对应的相似度集合;
将所述相似度集合中最小的相似度,作为所述实体相似度。
8.根据权利要求7所述的方法,其特征在于,所述获取任意两流量载体之间的相似度,包括:
获取所述任意两流量载体对应的总实体数量;
获取所述任意两流量载体对应的共同实体数量;
将所述共同实体数量与所述总实体数量的比值,作为所述任意两流量载体之间的所述相似度。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度之后,所述方法还包括:
当所述实体相似度大于所述预设相似度阈值时,确定所述实体相似度对应的异常实体。
10.根据权利要求2至5任一项所述的方法,其特征在于,所述当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为之后,所述方法还包括:
根据所述留存来源信息,生成所述每个流量载体对应的留存来源热力图;
展示所述每个流量载体对应的所述留存来源热力图。
11.根据权利要求2至5任一项所述的方法,其特征在于,所述基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的留存来源信息,包括:基于所述每个单位时间与所述N个单位时间的对应关系,将所述留存率和所述来源率,组合为与所述每个单位时间对应的子留存来源信息;
将所述子留存来源信息,作为矩阵中与所述每个单位时间对应的行或列,构成留存来源矩阵;
将所述留存来源矩阵展开为一个留存来源向量,将所述留存来源向量作为所述每个流量载体在所述预定时间段的所述留存来源信息。
12.一种异常行为检测装置,其特征在于,包括:留存来源获取模块,用于获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的前序时间的比率,所述前序时间在时间上位于所述后序时间之前,所述前序时间为所述预定时间段内当前单位时间之前的时间,所述后续时间为所述预定时间段内所述当前单位时间之后的时间;
分类模块,用于依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
相似度模块,用于针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
异常检测模块,用于当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。
13.一种异常行为检测设备,其特征在于,包括:存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的异常行为检测方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的异常行为检测方法。
说明书 :
一种异常行为检测方法、装置、设备及存储介质
技术领域
背景技术
用户的,因此,多媒体投放对象通常通过多媒体推广平台中的流量载体进行多媒体信息的
投放,以实现多媒体信息的推广。目前,多媒体推广平台上存在很多流量载体,而一部分恶
意流量载体常常与恶意被推广用户合作,采用异常的方式,对流量载体上投放的多媒体信
息进行虚假点击等恶意处理,提升在流量载体对应的推广位上展示的多媒体信息的点击
率、曝光率或转化率等信息,以此获取更多利润。所以,需要对恶意流量载体的作弊等异常
行为进行检测,以维护多媒体投放对象的利益。
进而根据估计的异常用户或异常实体确定流量载体的作弊等异常行为。
的准确度低。
发明内容
合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每
个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存
在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作
的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后
序时间之前;
段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每
个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间
进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每
个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间
在时间上位于所述后序时间之前;
各流量载体之间在留存率和来源率方面具备高相似度的多类流量载体;又由于流量载体的
留存率和来源率表征了流量载体中的实体进行操作的规律,以及异常的实体进行操作的规
律相同;因此,当某类流量载体中流量载体之间的实体相似度大于预设相似度阈值时,也就
表明该类流量载体中存在较多的操作规律相同的实体,从而也就能够确定该类流量载体存
在异常行为;如此,实现了一种准确确定流量载体的异常行为的技术方案,进而,提升了异
常行为检测的准确度。
附图说明
具体实施方式
做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
的情况下相互结合。
次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
明实施例的目的,不是旨在限制本发明。
实体的载体,通常称为流量主,即提供被推广实体流量的载体,通常指媒体、网站或软件,比
如,微信广告平台中具有一定粉丝(被推广实体)量的公众号。而被推广实体,简称为实体,
指用户账户、设备、IP地址等信息。
媒体信息进行曝光、点击和效果体验的行为。
告。
网页上多媒体信息被点击的次数指点击量,网页上多媒体信息被显示的次数指曝光量。
体信息被点击的次数(即点击量)的比例。这里,被推广实体发生购买、注册或信息需求等行
为的次数指转化量。
通过该推广位展示多媒体信息,同时自身的被推广用户对该多媒体信息进行了曝光、点击、
转发或注册等推广操作时,则该流量载体能够获取到收益;从而,多媒体信息的推广过程
中,诱发了各种作弊等异常行为。目前,多媒体推广平台上存在很多被推广用户,而一部分
恶意被推广用户常常采用异常的方式,对流量载体上投放的多媒体信息进行虚假点击等恶
意处理,提升在流量载体对应的推广位上展示的多媒体信息的点击率、曝光率或转化率等
信息,以此获取流量载体的利润分成。比如图1所示,多媒体信息推广平台微信平台1‑1包括
公众号1‑11和小程序1‑12两种流量载体,这两种流量载体在微信平台上能够申请到广告位
(多媒体信息推广位),当用户(被推广用户)在广告位上针对广告(多媒体信息)进行曝光、
点击或转化操作等时,流量载体就会有收益;从而诱发了各种作弊等异常行为,其中,这些
恶意被推广用户常采用的异常处理包括4种,下面以多媒体信息为广告,被推广实体为用户
为例进行说明:
广告的曝光、点击和转化处理。
户,但并没有看到过广告。
被推广用户进行离群检测,将检测出的离群点估计为异常实体。然而,上述确定异常实体的
过程中,仅仅是通过被推广实体的推广指标的离群结果确定的,不存在异常实体的异常数
据,无法准确确定离群点就是异常用户或异常实体,进而无法准确确定多个流量载体的作
弊等异常行为;所以,进行异常行为检测的判断手段单一,存在误差的可能性高;比如图3所
示,展示的为采用孤立森林算法对被推广实体进行处理时所获得的结果,其中,能够发现3
处由孤立点组成的群:3‑1、3‑2和3‑3,然而,仅能够估计3‑1、3‑2和3‑3为异常的被推广实体
构成的集合。因此,异常行为检测的准确度低。
构成的集合,进而估计该异常实体对应的流量载体的异常行为。比如图4所示,展示的为采
用K‑means聚类对被推广实体进行处理时所获得的结果,其中,能够发现3类被推广实体:4‑
1、4‑2和4‑3,然而,仅能够估计4‑1、4‑2和4‑3中的至少一个为异常的被推广实体构成的集
合。因此,聚类效果难以评估,不可预期,异常行为检测的准确度低。
用,本发明实施例提供的异常行为检测设备可以实施为智能手机、平板电脑、笔记本电脑等
各种类型的用户终端,也可以实施为服务器。其中,服务器可以是独立的物理服务器,也可
以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服
务器。下面,将说明异常行为检测设备实施为服务器时的示例性应用。
常行为检测设备)分别连接终端300和数据库500‑4,这里的连接网络可以是广域网或者局
域网,又或者是二者的组合。另外,该异常行为检测系统100中,还包括终端500‑1、服务器
200、数据库500‑2和终端500‑3;其中,终端500‑1接收多媒体信息的投放,通过服务器200存
储至数据库500‑2中;当通过终端500‑3和服务器200对数据库500‑2中的多媒体信息进行推
广处理时,生成对应的操作日志,并通过服务器200存放在数据库500‑4中,以使服务器400
响应终端300的异常行为检测请求,从数据库500‑4中选择操作日志进行异常行为的检测。
体集合在预定时间段的留存来源信息集合,其中,预定时间段包括多个单位时间,多个实体
在每个单位时间对每个流量载体中的内容进行操作,留存率表示在每个单位时间进行操作
的实体留存在预定时间段中的后序时间中的比率,来源率表示在每个单位时间进行操作的
实体来自预定时间段中的前序时间的比率,前序时间在时间上位于后序时间之前;依据留
存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体;针对至少一类流量载
体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度;当实体相似度大
于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为。还用于向终端300发
送存在异常行为的流量载体。
去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了
一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以
包括区块链底层平台、平台产品服务层以及应用服务层。对于本发明实施例提供的结合区
块链技术的异常行为检测方法,具体参见后续描述。
430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现
这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线
和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统440。
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器
450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器410
的一个或多个存储设备。
Universal Serial Bus)等;
接口);
软件,包括以下软件模块:留存来源获取模块4551、分类模块4552、相似度模块4553、异常检
测模块4554、互动量模块4555和展示模块4556,将在下文中说明各个模块的功能。
处理器,其被编程以执行本发明实施例提供的异常行为检测方法,例如,硬件译码处理器形
式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific
Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可
编程逻辑器件(CPLD,Comple x Programmable Logic Device)、现场可编程门阵列(FPGA,
Field‑Programma ble Gate Array)或其他电子元件。
测设备进行异常行为检测时,针对流量载体集合中的每个流量载体,对预定时间段中的每
个单位时间的多个实体的留存情况和来源情况进行获取,也就获得了每个流量载体在预定
时间段中的每个单位时间的多个实体的留存率和来源率;当将每个流量载体对应的每个单
位时间对应的多个实体的留存率和来源率进行组合,也就获得了流量载体集合在预定时间
段的留存来源信息集合;易知,留存来源信息集合为每个流量载体在预定时间段的留存来
源信息构成的集合,且,留存来源信息集合中所包含的留存来源信息的数量,与流量载体集
合中所包含的流量载体的数量相同。
行刷量等异常操作,因此,检测设备针对流量载体集合进行异常行为的检测。
体信息,比如,广告)进行操作,留存率表示在每个单位时间进行操作的实体留存在预定时
间段中的后序时间中的比率,来源率表示在每个单位时间进行操作的实体来自预定时间段
中的前序时间的比率;前序时间在时间上位于后序时间之前;并且,前序时间为预定时间段
内当前单位时间之前的时间,后序时间为预定时间段内当前单位时间之后的时间。
体进行分类,所获得的分类结果即至少一类流量载体。易知,至少一类流量载体中的每类流
量载体中,各流量载体之间在留存来源信息上具备较高的相似性。
存来源信息集合中的各留存来源信息不适合进行分类处理时,还需要对留存来源信息进行
预处理后再进行分类;比如,将留存来源信息进行向量表示等。
流量载体中两两流量载体之间实体的相似度,也就得到了每类流量载体的实体相似度。
类类流量载体中两两流量载体之间实体的相似度中最小的实体的相似度,还可以是每类类
流量载体中两两流量载体之间实体的相似度中最大的实体的相似度,又可以是每类类流量
载体中两两流量载体之间实体的相似度的平均相似度,等等,本发明实施例对此不作具体
限定。
似度之后,将该实体相似度与预设相似度阈值进行比较,当实体相似度大于预设相似度阈
值时,也就确定该类流量载体的各流量载体之间存在协同作弊等异常行为的实体;进而,表
明该类流量载体的各流量载体在利用实体进行作弊等恶意操作,也就表明该类流量载体中
的流量载体存在异常行为。
提供的异常行为检测方法的一个可选的流程示意图,
量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载体
集合在预定时间段的留存来源信息集合,包括S1011‑S1013实现,下面对各步骤分别进行说
明。
个单位时间内的N个实体集合。易知,N个实体集合与N个单位时间一一对应,N个实体集合为
每个单位时间的多个实体构成的与N个单位时间对应的集合;N为所述预定时间段内的单位
时间的数量,N为大于等于1的整数。
后的时间段(即后序时间)的留存情况,也就获得了每个单位时间的留存率;同理,检测设备
获取每个单位时间对应的实体集合来源于预定时间段中每个单位时间之前的时间段(即前
序时间)对应的实体的情况,也就获得了每个单位时间的来源率。
息;而各个流量载体对应的各个流程来源信息也就组合成了流量载体集合在预定时间段的
留存来源信息集合。这里,留存来源信息为每个流量载体在每个单位时间的留存率和来源
率构成的与N个单位时间对应的信息。
如,点击规律,曝光规律,转化规律等。
S10123,下面对各步骤分别进行说明。
当前单位时间对应的实体集合在每个后序单位时间的留存情况,也就得到了当前单位时间
在后序单位时间的单位留存率;这里,当前单位时间在各个后序单位时间的单位留存率组
成的集合,即当前单位时间对应的留存率。
存率包括至少一个单位留存率;另外,后序时间包括至少一个后序单位时间。
前序单位时间对应的实体集合的来源情况,也就得到了当前单位时间在前序单位时间的单
位来源率;这里,当前单位时间在各个前序单位时间的单位来源率组成的集合,即当前单位
时间对应的来源率。
间对应的实体集合即当前单位时间的多个实体;另外,前序时间包括至少一个前序单位时
间。
存率和来源率。
位时间的留存率和来源率。
位留存率,包括S101211和S101212,下面对各步骤分别进行说明。
实体集合和后序单位时间对应的后序实体集合,并确定当前实体集合和后序实体集合之间
的共同实体;易知,当前实体集合和后序实体集合之间的各个共同实体也就组成了第一单
位共同实体。
位时间的当前实体集合在每个后序单位时间的留存情况,该当前单位时间的当前实体集合
在每个后序单位时间的留存情况即当前单位时间在后序单位时间的单位留存率。
(实体)是U1、第2天的点击用户(实体)是U2和第3天的点击用户(实体)是U3。当当前单位时间
为第1天时,则当前实体集合为U1,且U1、U2和U3均是后序实体集合;当前实体集合在每个后
序单位时间(第1天、第2天或第3天)的单位留存率依次为式(1)、式(2)和式(3),如下所示:
前实体集合U1在第3天的单位留存率;STAY_rate(1,1)、STAY_rate(1,2)和STAY_rate(1,3)
共同组成留存率。
骤分别进行说明。
单位时间对应的当前实体集合和前序单位时间对应的前序实体集合,并确定当前实体集合
和前序实体集合之间的共同实体,也就得到了第二单位共同实体。
位时间的当前实体集合在每个前序单位时间的前序实体集合的来源率,该来源率即当前单
位时间在前序单位时间的单位来源率。
用户(实体)是U1、第2天的点击用户(实体)是U2和第3天的点击用户(实体)是U3。当当前单位
时间是第3天时,则当前实体集合为U3,且U1、U2和U3均是前序实体集合;当前实体集合在每
个前序单位时间(第3天、第2天或第1天)的单位来源率依次为式(4)、式(5)和式(6),如下所
示:
前实体集合U3在第1天的单位来源率;FROM_rate(3,3)、FROM_rate(3,2)和FROM_rate(3,1)
共同组成为来源率。
明。
测设备基于该每个单位时间与N个单位时间的对应关系,对留存率和来源率进行组合。
所获得的结果即与每个单位时间对应的子留存来源信息。
阵。
留存来源信息,11‑2指与第2天对应的子留存来源信息,11‑3指与第3天对应的子留存来源
信息。并且,11‑11指第1天对应的留存率,而11‑111指第1天在第2天的单位留存率,11‑112
指第1天在第3天的单位留存率;11‑21指第2天对应的来源率,11‑22指第2天对应的留存率,
而11‑211指第2天在第1天的单位来源率,11‑221指第2天在第3天的单位留存率;11‑31指第
3天对应的来源率,而11‑311指第3天在第1天的单位来源率,11‑312指第3天在第2天的单位
来源率。
留存来源信息。
期)至0925对应的留存来源矩阵;通过该留存来源矩阵易知:有2个异常用户群体12‑1和12‑
2(异常实体),在轮流刷广告的点击(异常行为);第一个群体12‑1的作弊周期是0827‑0905,
第二个群体12‑2的作弊周期是0906‑0914;在0915开始,数值接近0,说明群体12‑1和12‑2都
离开了;在12‑3处数值又再次变大,说明,在0924和0925这两天,之前消失的群体12‑1和12‑
2,同时回归在该流量载体上进行刷广告点击。
之后,以及针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间
的实体相似度之前,该异常行为检测方法还包括S105和S106,下面对各步骤分别进行说明。
量载体对应的总互动量。这里,当前流量载体为每类流量载体中的任一流量载体。
量载体对应的平均互动量。
测设备针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实
体相似度。也就是说,检测设备在每类流量载体的平均互动量大于预设平均互动量阈值时,
才进行实体相似度的获取。
面,由于平均互动量不满足条件时就结束了异常行为的检测流程,节省了检测功耗,能够提
升异常行为检测的效率;另一方面,由于异常行为的检测是通过平均互动量和实体相似度
两种维度进行的,所获得的检测结果的准确度高。
似度,包括S1031和S1032,下面对各步骤分别进行说明。
每类流量载体中所有任意两流量载体之间的相似度进行组合,也就得到了每类流量载体对
应的相似度集合;这里,实体相似度集合包括至少一个相似度,以及,相似度表征任意两流
量载体之间的实体的相似程度。
体,从而能够更准确地确定每类流量载体中的流量载体存在异常行为。
数量,也就得到了总实体数量。
两流量载体对应的共同实体,并计算获取到的任意两流量载体对应的共同实体的数量,也
就得到了共同实体数量。
数量的比值的计算,也就得到了任意两流量载体之间的相似度。
如式(7)所示:
个流量载体的相似度就是1/3。
方法还包括S107,下面对该步骤进行说明。
行为的流量载体类,实现了对异常实体的关系链的挖掘。
后,该异常行为检测方法还包括S108和S109,下面对各步骤分别进行说明。
射至展示效果(比如,展示的颜色的深浅或颜色的种类)上,也就生成了每个流量载体对应
的留存来源热力图。
热力图,直观地确定实体的作弊周期或作弊规律等异常信息。
法还包括S110:将异常实体发送至区块链网络,以使区块链网络的节点将异常实体填充至
新区块,且当对新区块共识一致时,将新区块追加至区块链的尾部以完成上链。这里,检测
设备将获得的异常实体进行上链,如此,以保证不可篡改。
证中心700中进行过登记注册。
实体而需要调用的智能合约、以及向智能合约传递的参数;交易还包括客户端节点810的数
字证书、签署的数字签名,并将交易广播到区块链网络600中的共识节点610。
800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。
验证成功后签署共识节点610自己的数字签名(例如,使用共识节点610的私钥对交易的摘
要进行加密得到),并继续在区块链网络600中广播。
行验证,例如,验证新区块中交易的数字签名是否有效,如果验证成功,则将新区块追加到
自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对
于提交的存储异常实体的交易,在状态数据库中添加包括异常实体的键值对。
服务器。
端节点910具有发起查询异常实体的权限时,可以由客户端节点910生成用于查询异常实体
的交易并提交到区块链网络600中,从共识节点610执行交易以从状态数据库中查询相应的
异常实体,并返回客户端节点910。
异常实体上链,以对作弊等异常行为进行打击时,从区块链网络中获取该异常实体进行打
击,从而可以避免服务器为获取异常实体所进行的大量的运算,进而节约了服务器的资源
的消耗。
束异常行为检测。
留存来源热力图,图16描述的为流量主2中点击用户的留存来源热力图。通过图15和图16中
斜线填充的粗线框易知,群体刷量规律是几乎一致的,且都会在0924‑0925两天,之前的用
户都突然集体回归,点击广告。
为该5个作弊的流量主(存在异常行为的每类流量载体中的流量载体)。另外,在确定了5个
异常的流量主之后,通过人工审核,发现该5个异常流量主的名称一样,且注册主体一样,验
证了本发明实施例中异常行为检测方法的有效性。
登录过一次的各账号,点击次数是缓慢增加的,如图18所示,以面对屏幕为参考目标,左侧
坐标轴指点击用户数,右侧坐标轴指点击总量,下侧坐标轴指时间,曲线为实际点击总量,
圆圈指近两个月(0725至0923)仅登录一次的用户;根据人均点击量示意图,易知,这些仅登
录一次的用户中,竖线填充的圆圈的点击次数约为1次至2次,横线填充的圆圈的点击次数
约为2次至2.5次,斜线填充的圆圈的点击次数约为2.5次至3.25次,从而说明这些仅登录一
次的用户的点击次数是从1.75次至3.25次缓慢增加的。另外,还能够确定,作弊团伙中的账
号的登录天数与广告的点击天数一致;比如,登录天数5天,点击广告的天数也是5天。
为检测,实现了准确地检测异常行为,维护了多媒体推广对象的利益。
件模块可以包括:
时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所
述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位
时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所
述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序
时间在时间上位于所述后序时间之前;
所述N个单位时间一一对应,所述N个实体集合为所述每个单位时间的所述多个实体构成的
与所述N个单位时间对应的集合,N为所述预定时间段内的单位时间的数量,N为大于等于1
的整数;基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和
所述来源率;基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的
留存来源信息,从而得到所述流量载体集合在所述预定时间段的所述留存来源信息集合,
所述留存来源信息为所述每个流量载体在所述每个单位时间的所述留存率和所述来源率
构成的与所述N个单位时间对应的信息。
留存率,其中,所述后序单位时间为所述预定时间段内,所述当前单位时间之后的各个单位
时间中的任一单位时间,所述当前单位时间为所述N个单位时间中的任意一个,所述当前单
位时间对应的留存率包括至少一个单位留存率;基于所述N个实体集合,计算出所述当前单
位时间的多个实体来源于前序单位时间的单位来源率,从而得到所述当前单位时间对应的
来源率,其中,所述前序单位时间为所述预定时间段内,所述当前单位时间之前的各个单位
时间中的任一单位时间,所述当前单位时间对应的来源率包括至少一个单位来源率;将所
述当前单位时间更换为所述N个单位时间中另一单位时间重复上述操作,得到所述另一单
位时间的留存率和来源率,直至处理完所述N个单位时间时为止,得到所述每个单位时间的
所述留存率和所述来源率。
实体,得到第一单位共同实体;
实体,得到第二单位共同实体;
任一流量载体;利用所述总互动量,计算所述每类流量载体对应的平均互动量。
载体之间的所述实体相似度。
集合;将所述相似度集合中最小的相似度,作为所述实体相似度。
体数量的比值,作为所述任意两流量载体之间的所述相似度。
所述留存来源热力图。
来源信息;将所述子留存来源信息,作为矩阵中与所述每个单位时间对应的行或列,构成留
存来源矩阵;将所述留存来源矩阵展开为一个留存来源向量,将所述留存来源向量作为所
述每个流量载体在所述预定时间段的所述留存来源信息。
为检测方法,例如,如图7或图8示出的异常行为检测方法。
各种设备。
可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
上执行。
量载体之间在留存率和来源率方面具备高相似度的多类流量载体;又由于流量载体的留存
率和来源率表征了流量载体中的实体进行操作的规律,以及异常的实体进行操作的规律相
同;因此,当某类流量载体中流量载体之间的实体相似度大于预设相似度阈值时,也就表明
该类流量载体中存在较多的操作规律相同的实体,从而也就能够确定该类流量载体存在异
常行为;如此,实现了一种准确确定流量载体的异常行为的技术方案,进而,提升了异常行
为检测的准确度。
内。