一种异常行为检测方法、装置、设备及存储介质转让专利

申请号 : CN202010465343.0

文献号 : CN111641629B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张李均焕

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本发明实施例提供了一种异常行为检测方法、装置、设备及存储介质;方法包括:获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载体集合在预定时间段的留存来源信息集合;依据留存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体;针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度;当实体相似度大于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为。通过本发明实施例,能够提升异常行为检测的准确度。

权利要求 :

1.一种异常行为检测方法,其特征在于,包括:获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的前序时间的比率,所述前序时间在时间上位于所述后序时间之前,所述前序时间为所述预定时间段内当前单位时间之前的时间,所述后续时间为所述预定时间段内所述当前单位时间之后的时间;

依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;

针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;

当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。

2.根据权利要求1所述的方法,其特征在于,所述获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,包括:在所述预定时间段中,获取所述流量载体集合中的所述每个流量载体在N个单位时间内的N个实体集合,所述N个实体集合与所述N个单位时间一一对应,所述N个实体集合为所述每个单位时间的所述多个实体构成的与所述N个单位时间对应的集合,N为所述预定时间段内的单位时间的数量,N为大于等于1的整数;

基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率;

基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的留存来源信息,从而得到所述流量载体集合在所述预定时间段的所述留存来源信息集合,所述留存来源信息为所述每个流量载体在所述每个单位时间的所述留存率和所述来源率构成的与所述N个单位时间对应的信息。

3.根据权利要求2所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和所述来源率,包括:基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,从而得到所述当前单位时间对应的留存率,其中,所述后序单位时间为所述预定时间段内,所述当前单位时间之后的各个单位时间中的任一单位时间,所述当前单位时间为所述N个单位时间中的任意一个,所述当前单位时间对应的留存率包括至少一个单位留存率;

基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,从而得到所述当前单位时间对应的来源率,其中,所述前序单位时间为所述预定时间段内,所述当前单位时间之前的各个单位时间中的任一单位时间,所述当前单位时间对应的来源率包括至少一个单位来源率;

将所述当前单位时间更换为所述N个单位时间中另一单位时间重复上述操作,得到所述另一单位时间的留存率和来源率,直至处理完所述N个单位时间时为止,得到所述每个单位时间的所述留存率和所述来源率。

4.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,包括:基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述后序单位时间对应的后序实体集合之间的共同实体,得到第一单位共同实体;

将所述第一单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述后序单位时间的所述单位留存率。

5.根据权利要求3所述的方法,其特征在于,所述基于所述N个实体集合,计算出所述当前单位时间的多个实体来源于前序单位时间的单位来源率,包括:基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述前序单位时间对应的前序实体集合之间的共同实体,得到第二单位共同实体;

将所述第二单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述前序单位时间的所述单位来源率。

6.根据权利要求1至5任一项所述的方法,其特征在于,所述依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体之后,以及针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度之前,所述方法还包括:

获取所述每类流量载体中的当前流量载体对应的总互动量;所述当前流量载体为所述每类流量载体中的任一流量载体;

利用所述总互动量,计算所述每类流量载体对应的平均互动量;

所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度,包括:

当所述平均互动量大于预设平均互动量阈值时,针对所述至少一类流量载体的所述每类流量载体,获取所述每类流量载体中的流量载体之间的所述实体相似度。

7.根据权利要求1至5任一项所述的方法,其特征在于,所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度,包括:针对所述至少一类流量载体中的所述每类流量载体,获取任意两流量载体之间的相似度,得到所述每类流量载体对应的相似度集合;

将所述相似度集合中最小的相似度,作为所述实体相似度。

8.根据权利要求7所述的方法,其特征在于,所述获取任意两流量载体之间的相似度,包括:

获取所述任意两流量载体对应的总实体数量;

获取所述任意两流量载体对应的共同实体数量;

将所述共同实体数量与所述总实体数量的比值,作为所述任意两流量载体之间的所述相似度。

9.根据权利要求1至5任一项所述的方法,其特征在于,所述针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度之后,所述方法还包括:

当所述实体相似度大于所述预设相似度阈值时,确定所述实体相似度对应的异常实体。

10.根据权利要求2至5任一项所述的方法,其特征在于,所述当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为之后,所述方法还包括:

根据所述留存来源信息,生成所述每个流量载体对应的留存来源热力图;

展示所述每个流量载体对应的所述留存来源热力图。

11.根据权利要求2至5任一项所述的方法,其特征在于,所述基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的留存来源信息,包括:基于所述每个单位时间与所述N个单位时间的对应关系,将所述留存率和所述来源率,组合为与所述每个单位时间对应的子留存来源信息;

将所述子留存来源信息,作为矩阵中与所述每个单位时间对应的行或列,构成留存来源矩阵;

将所述留存来源矩阵展开为一个留存来源向量,将所述留存来源向量作为所述每个流量载体在所述预定时间段的所述留存来源信息。

12.一种异常行为检测装置,其特征在于,包括:留存来源获取模块,用于获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作的实体来自所述预定时间段中的前序时间的比率,所述前序时间在时间上位于所述后序时间之前,所述前序时间为所述预定时间段内当前单位时间之前的时间,所述后续时间为所述预定时间段内所述当前单位时间之后的时间;

分类模块,用于依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;

相似度模块,用于针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;

异常检测模块,用于当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。

13.一种异常行为检测设备,其特征在于,包括:存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的异常行为检测方法。

14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的异常行为检测方法。

说明书 :

一种异常行为检测方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及计算机应用邻域中的信息处理技术,尤其涉及一种异常行为检测方法、装置、设备及存储介质。

背景技术

[0002] 多媒体投放对象有向被推广用户推送多媒体信息,以对产品或服务进行宣传的需求;在投放多媒体信息时,由于流量载体是被推广用户的载体,而多媒体信息是面向被推广
用户的,因此,多媒体投放对象通常通过多媒体推广平台中的流量载体进行多媒体信息的
投放,以实现多媒体信息的推广。目前,多媒体推广平台上存在很多流量载体,而一部分恶
意流量载体常常与恶意被推广用户合作,采用异常的方式,对流量载体上投放的多媒体信
息进行虚假点击等恶意处理,提升在流量载体对应的推广位上展示的多媒体信息的点击
率、曝光率或转化率等信息,以此获取更多利润。所以,需要对恶意流量载体的作弊等异常
行为进行检测,以维护多媒体投放对象的利益。
[0003] 一般来说,为了对恶意流量载体的作弊等异常行为进行检测,通常基于点击量、曝光量等信息对被推广用户进行离群检测,将检测出的离群点估计为异常用户或异常实体,
进而根据估计的异常用户或异常实体确定流量载体的作弊等异常行为。
[0004] 然而,上述确定流量载体的作弊等异常行为的过程中,仅仅是通过被推广用户对应的点击量、曝光量等信息的离群结果确定的,判断手段单一,存在误差的可能性高,检测
的准确度低。

发明内容

[0005] 本发明实施例提供一种异常行为检测方法、装置、设备及存储介质,能够提升异常行为检测的准确度。
[0006] 本发明实施例的技术方案是这样实现的:
[0007] 本发明实施例提供一种异常行为检测方法,包括:
[0008] 获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间段的留存来源信息集
合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每个单位时间对所述每
个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间进行操作的实体留存
在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每个单位时间进行操作
的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间在时间上位于所述后
序时间之前;
[0009] 依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
[0010] 针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
[0011] 当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。
[0012] 本发明实施例提供一种异常行为检测装置,包括:
[0013] 留存来源获取模块,用于获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定时间
段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所述每
个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位时间
进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所述每
个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序时间
在时间上位于所述后序时间之前;
[0014] 分类模块,用于依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
[0015] 相似度模块,用于针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
[0016] 异常检测模块,用于当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。
[0017] 本发明实施例提供一种异常行为检测设备,包括:
[0018] 存储器,用于存储可执行指令;
[0019] 处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的异常行为检测方法。
[0020] 本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的异常行为检测方法。
[0021] 本发明实施例具有以下有益效果:由于在进行异常行为检测时,通过获取各流量载体对应的留存来源信息集合,并基于留存来源信息集合对流量载体进行分类,能够得到
各流量载体之间在留存率和来源率方面具备高相似度的多类流量载体;又由于流量载体的
留存率和来源率表征了流量载体中的实体进行操作的规律,以及异常的实体进行操作的规
律相同;因此,当某类流量载体中流量载体之间的实体相似度大于预设相似度阈值时,也就
表明该类流量载体中存在较多的操作规律相同的实体,从而也就能够确定该类流量载体存
在异常行为;如此,实现了一种准确确定流量载体的异常行为的技术方案,进而,提升了异
常行为检测的准确度。

附图说明

[0022] 图1是一种示例性的多媒体信息推广平台的示意图;
[0023] 图2是一种示例性的异常行为的示意图;
[0024] 图3是一种示例性的离群结果示意图;
[0025] 图4是一种示例性的聚类结果示意图;
[0026] 图5是本发明实施例提供的异常行为检测系统的一个可选的架构示意图;
[0027] 图6是本发明实施例提供的一种图5中的服务器的组成结构示意图;
[0028] 图7是本发明实施例提供的异常行为检测方法的一个可选的流程示意图;
[0029] 图8是本发明实施例提供的异常行为检测方法的另一个可选的流程示意图;
[0030] 图9为本发明实施例提供的一种示例性的获取单位留存率的示意图;
[0031] 图10为本发明实施例提供的一种示例性的获取单位来源率的示意图;
[0032] 图11是本发明实施例提供的一种示例性的留存来源信息;
[0033] 图12是本发明实施例提供的另一种示例性的留存来源信息;
[0034] 图13是本发明实施例提供的异常行为检测系统的另一个可选的架构示意图;
[0035] 图14是本发明实施例提供的一种示例性的获取异常实体的流程示意图;
[0036] 图15是本发明实施例提供的一种示例性的留存来源热力图的示意图一;
[0037] 图16是本发明实施例提供的一种示例性的留存来源热力图的示意图二;
[0038] 图17是本发明实施例提供的一种示例性的相似度的示意图;
[0039] 图18是本发明实施例提供的一种示例性的实体点击信息的示意图。

具体实施方式

[0040] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有
做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0041] 在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解“, 一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突
的情况下相互结合。
[0042] 在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后
次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
[0043] 除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发
明实施例的目的,不是旨在限制本发明。
[0044] 对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
[0045] 1)多媒体投放对象,指投放多媒体信息的对象;比如,广告主,即通过付费投放广告的用户或服务商。
[0046] 2)多媒体投放平台,指提供多媒体信息(比如,广告)投放功能的平台,比如,微信广告平台和微博广告平台;其中,多媒体投放平台中包括流量载体,流量载体指关联被推广
实体的载体,通常称为流量主,即提供被推广实体流量的载体,通常指媒体、网站或软件,比
如,微信广告平台中具有一定粉丝(被推广实体)量的公众号。而被推广实体,简称为实体,
指用户账户、设备、IP地址等信息。
[0047] 3)异常行为,本发明实施例中又称为多媒体异常行为,指在多媒体信息推广的过程(比如,广告曝光、点击、效果等环节)中,被推广实体基于刷量的非真实意图,对推广的多
媒体信息进行曝光、点击和效果体验的行为。
[0048] 4)多媒体反异常,对多媒体信息的曝光、点击、效果等环节进行检查,判断多媒体信息的曝光、点击、效果等是否正常的处理过程。
[0049] 5)自动机异常,一种异常方式,指使用自动化脚本或软件,通过一台或多台电脑操控几十台甚至上百台设备,控制被推广实体点击多媒体的异常行为,比如,自动机异常点广
告。
[0050] 6)点击率,指网页上多媒体信息被点击的次数与被显示的次数之比,是一个百分比,反映了网页上多媒体信息的受关注程度,经常用来衡量多媒体信息的吸引程度。这里,
网页上多媒体信息被点击的次数指点击量,网页上多媒体信息被显示的次数指曝光量。
[0051] 7)转化率,用来反映多媒体信息对产品销售情况影响程度的指标,主要是指受多媒体信息的推广的影响,而使被推广实体发生购买、注册或信息需求等行为的次数占多媒
体信息被点击的次数(即点击量)的比例。这里,被推广实体发生购买、注册或信息需求等行
为的次数指转化量。
[0052] 8)云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
[0053] 9)区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
[0054] 10)区块链网络(Blockchain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
[0055] 需要说明的是,由于多媒体推广平台对应被推广用户,流量载体能够在多媒体推广平台中申请到多媒体信息推广位,且流量载体存在自身的被推广用户;因此,当流量载体
通过该推广位展示多媒体信息,同时自身的被推广用户对该多媒体信息进行了曝光、点击、
转发或注册等推广操作时,则该流量载体能够获取到收益;从而,多媒体信息的推广过程
中,诱发了各种作弊等异常行为。目前,多媒体推广平台上存在很多被推广用户,而一部分
恶意被推广用户常常采用异常的方式,对流量载体上投放的多媒体信息进行虚假点击等恶
意处理,提升在流量载体对应的推广位上展示的多媒体信息的点击率、曝光率或转化率等
信息,以此获取流量载体的利润分成。比如图1所示,多媒体信息推广平台微信平台1‑1包括
公众号1‑11和小程序1‑12两种流量载体,这两种流量载体在微信平台上能够申请到广告位
(多媒体信息推广位),当用户(被推广用户)在广告位上针对广告(多媒体信息)进行曝光、
点击或转化操作等时,流量载体就会有收益;从而诱发了各种作弊等异常行为,其中,这些
恶意被推广用户常采用的异常处理包括4种,下面以多媒体信息为广告,被推广实体为用户
为例进行说明:
[0056] 1)真机假用户,即通过脚本程序控制多个设备进行刷量以提升点击量、曝光量等推广指标的异常行为;比如图2所示,在通过脚本程序控制多个手机2‑1(即群控手机)进行
广告的曝光、点击和转化处理。
[0057] 2)假用户假推广处理,即流量载体支付一定的奖励,给对多媒体信息进行了推广处理的用户等,诱导用户进行推广处理。
[0058] 3)用户团伙刷量,即流量载体向工作室(用户团伙)买量,然后该工作室按照买量要求,完成推广刷量;该方式能够满足留存或者一定的转化要求。
[0059] 4)真用户假推广处理,即隐藏多媒体信息的链接,并通过运营商或路由器等渠道获取到真实用户的行为,从而伪造用户访问广告的记录。因此,这里的用户都是真实的用
户,但并没有看到过广告。
[0060] 综上,为了净化多媒体推广平台的环境,维护多媒体推广对象的利益,需要对该恶意被推广用户的异常行为进行检测。
[0061] 一般来说,为了对恶意被推广用户的异常行为进行检测,通常采用统计学指标方法和孤立森林(Isolation Forest)算法等离群点算法,基于点击量、曝光量等推广指标对
被推广用户进行离群检测,将检测出的离群点估计为异常实体。然而,上述确定异常实体的
过程中,仅仅是通过被推广实体的推广指标的离群结果确定的,不存在异常实体的异常数
据,无法准确确定离群点就是异常用户或异常实体,进而无法准确确定多个流量载体的作
弊等异常行为;所以,进行异常行为检测的判断手段单一,存在误差的可能性高;比如图3所
示,展示的为采用孤立森林算法对被推广实体进行处理时所获得的结果,其中,能够发现3
处由孤立点组成的群:3‑1、3‑2和3‑3,然而,仅能够估计3‑1、3‑2和3‑3为异常的被推广实体
构成的集合。因此,异常行为检测的准确度低。
[0062] 另外,还可以通过K‑means聚类、DBSCAN聚类和层次聚类等聚类算法,基于点击量、曝光量等推广指标对被推广实体进行聚类处理,将聚出的某一类或某些类估计为异常实体
构成的集合,进而估计该异常实体对应的流量载体的异常行为。比如图4所示,展示的为采
用K‑means聚类对被推广实体进行处理时所获得的结果,其中,能够发现3类被推广实体:4‑
1、4‑2和4‑3,然而,仅能够估计4‑1、4‑2和4‑3中的至少一个为异常的被推广实体构成的集
合。因此,聚类效果难以评估,不可预期,异常行为检测的准确度低。
[0063] 基于此,本发明实施例提供一种异常行为检测方法、装置、设备及存储介质,能够提升异常行为检测的准确度。下面说明本发明实施例提供的异常行为检测设备的示例性应
用,本发明实施例提供的异常行为检测设备可以实施为智能手机、平板电脑、笔记本电脑等
各种类型的用户终端,也可以实施为服务器。其中,服务器可以是独立的物理服务器,也可
以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服
务器。下面,将说明异常行为检测设备实施为服务器时的示例性应用。
[0064] 参见图5,图5是本发明实施例提供的异常行为检测系统的一个可选的架构示意图;如图5所示,为支撑一个异常行为检测应用,在异常行为检测系统100中,服务器400(异
常行为检测设备)分别连接终端300和数据库500‑4,这里的连接网络可以是广域网或者局
域网,又或者是二者的组合。另外,该异常行为检测系统100中,还包括终端500‑1、服务器
200、数据库500‑2和终端500‑3;其中,终端500‑1接收多媒体信息的投放,通过服务器200存
储至数据库500‑2中;当通过终端500‑3和服务器200对数据库500‑2中的多媒体信息进行推
广处理时,生成对应的操作日志,并通过服务器200存放在数据库500‑4中,以使服务器400
响应终端300的异常行为检测请求,从数据库500‑4中选择操作日志进行异常行为的检测。
[0065] 服务器400,用于响应终端300的异常行为检测请求,获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载
体集合在预定时间段的留存来源信息集合,其中,预定时间段包括多个单位时间,多个实体
在每个单位时间对每个流量载体中的内容进行操作,留存率表示在每个单位时间进行操作
的实体留存在预定时间段中的后序时间中的比率,来源率表示在每个单位时间进行操作的
实体来自预定时间段中的前序时间的比率,前序时间在时间上位于后序时间之前;依据留
存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体;针对至少一类流量载
体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度;当实体相似度大
于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为。还用于向终端300发
送存在异常行为的流量载体。
[0066] 需要说明的是,本发明实施例也可结合区块链技术实现,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个
去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了
一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以
包括区块链底层平台、平台产品服务层以及应用服务层。对于本发明实施例提供的结合区
块链技术的异常行为检测方法,具体参见后续描述。
[0067] 还需要说明的是,本发明实施例提供的异常行为检测方法还可应用于云平台中的异常行为检测,以净化云环境,提升云平台的服务质量。
[0068] 参见图6,图6是本发明实施例提供的一种图5中的服务器的组成结构示意图,图6所示的服务器400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口
430。服务器400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现
这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线
和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统440。
[0069] 处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者
晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理
器等。
[0070] 用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
[0071] 存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存
储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器
450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器410
的一个或多个存储设备。
[0072] 在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
[0073] 操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
[0074] 网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(Wi‑Fi)、和通用串行总线(USB,
Universal Serial Bus)等;
[0075] 显示模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户
接口);
[0076] 输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
[0077] 在一些实施例中,本发明实施例提供的异常行为检测装置可以采用软件方式实现,图6示出了存储在存储器450中的异常行为检测装置455,其可以是程序和插件等形式的
软件,包括以下软件模块:留存来源获取模块4551、分类模块4552、相似度模块4553、异常检
测模块4554、互动量模块4555和展示模块4556,将在下文中说明各个模块的功能。
[0078] 在另一些实施例中,本发明实施例提供的异常行为检测装置可以采用硬件方式实现,作为示例,本发明实施例提供的异常行为检测装置可以是采用硬件译码处理器形式的
处理器,其被编程以执行本发明实施例提供的异常行为检测方法,例如,硬件译码处理器形
式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific 
Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可
编程逻辑器件(CPLD,Comple x Programmable Logic Device)、现场可编程门阵列(FPGA,
Field‑Programma ble Gate Array)或其他电子元件。
[0079] 下面,将结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的异常行为检测方法。
[0080] 参见图7,图7是本发明实施例提供的异常行为检测方法的一个可选的流程示意图,将结合图7示出的步骤进行说明。
[0081] S101、获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载体集合在预定时间段的留存来源信息集合。
[0082] 在本发明实施例中,异常行为检测设备(以下简称为检测设备)中设置有预定时间段,比如,一个月、一个星期等,以及预定时间段的时间单位,比如,一天、两天等;因此,当检
测设备进行异常行为检测时,针对流量载体集合中的每个流量载体,对预定时间段中的每
个单位时间的多个实体的留存情况和来源情况进行获取,也就获得了每个流量载体在预定
时间段中的每个单位时间的多个实体的留存率和来源率;当将每个流量载体对应的每个单
位时间对应的多个实体的留存率和来源率进行组合,也就获得了流量载体集合在预定时间
段的留存来源信息集合;易知,留存来源信息集合为每个流量载体在预定时间段的留存来
源信息构成的集合,且,留存来源信息集合中所包含的留存来源信息的数量,与流量载体集
合中所包含的流量载体的数量相同。
[0083] 需要说明的是,流量载体集合为至少一个流量载体构成的集合;由于实体在一个流量载体上完成刷量等异常操作后,为了获得更多的利益,通常会在其他流量载体上也进
行刷量等异常操作,因此,检测设备针对流量载体集合进行异常行为的检测。
[0084] 还需要说明的是,预定时间段包括多个单位时间,比如,当预订时间段为一周时,则对应的多个单位时间是七天;多个实体在每个单位时间对每个流量载体中的内容(多媒
体信息,比如,广告)进行操作,留存率表示在每个单位时间进行操作的实体留存在预定时
间段中的后序时间中的比率,来源率表示在每个单位时间进行操作的实体来自预定时间段
中的前序时间的比率;前序时间在时间上位于后序时间之前;并且,前序时间为预定时间段
内当前单位时间之前的时间,后序时间为预定时间段内当前单位时间之后的时间。
[0085] S102、依据留存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体。
[0086] 在本发明实施例中,检测设备获得了留存来源信息集合之后,将留存来源信息集合作为对流量载体集合中的流量载体进行分类的信息依据,对流量载体集合中的各流量载
体进行分类,所获得的分类结果即至少一类流量载体。易知,至少一类流量载体中的每类流
量载体中,各流量载体之间在留存来源信息上具备较高的相似性。
[0087] 需要说明的是,检测设备对流量载体集合中的流量载体进行分类时,可以采用聚类的方式、还可以采用其他的分类方式,等等,本发明实施例对此不作具体限定。另外,当留
存来源信息集合中的各留存来源信息不适合进行分类处理时,还需要对留存来源信息进行
预处理后再进行分类;比如,将留存来源信息进行向量表示等。
[0088] S103、针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度。
[0089] 在本发明实施例中,检测设备获得了至少一类流量载体之后,针对至少一类流量载体中的每类流量载体,获取该类流量载体中两两流量载体之间实体的相似度,基于该类
流量载体中两两流量载体之间实体的相似度,也就得到了每类流量载体的实体相似度。
[0090] 需要说明的是,流量载体对应有进行推广处理的实体,比如,流量主上进行点击的用户;实体相似度,表征每类流量载体中在留存来源信息方面实体之间的相似度,可以是每
类类流量载体中两两流量载体之间实体的相似度中最小的实体的相似度,还可以是每类类
流量载体中两两流量载体之间实体的相似度中最大的实体的相似度,又可以是每类类流量
载体中两两流量载体之间实体的相似度的平均相似度,等等,本发明实施例对此不作具体
限定。
[0091] S104、当实体相似度大于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为。
[0092] 在本发明实施例中,检测设备中设置有预设相似度阈值,用来衡量每类流量载体的各流量载体之间是否存在协同作弊等异常行为的实体;因此,当检测设备获得了实体相
似度之后,将该实体相似度与预设相似度阈值进行比较,当实体相似度大于预设相似度阈
值时,也就确定该类流量载体的各流量载体之间存在协同作弊等异常行为的实体;进而,表
明该类流量载体的各流量载体在利用实体进行作弊等恶意操作,也就表明该类流量载体中
的流量载体存在异常行为。
[0093] 需要说明的是,当实体相似度不大于预设相似度阈值时,则确定该类流量载体中不存在异常行为,结束对该类流量载体的异常行为检测流程。参见图7,图7是本发明实施例
提供的异常行为检测方法的一个可选的流程示意图,
[0094] 进一步地,参见图8,图8是本发明实施例提供的异常行为检测方法的另一个可选的流程示意图;如图8所示,本发明实施例S101中,检测设备获取流量载体集合中的每个流
量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到流量载体
集合在预定时间段的留存来源信息集合,包括S1011‑S1013实现,下面对各步骤分别进行说
明。
[0095] S1011、在预定时间段中,获取流量载体集合中的每个流量载体在N个单位时间内的N个实体集合。
[0096] 在本发明实施例中,检测设备获取每个流量载体在预定时间段中的每个单位时间,进行了推广操作的实体,当预定时间段包括N个单位时间时,能够获得每个流量载体在N
个单位时间内的N个实体集合。易知,N个实体集合与N个单位时间一一对应,N个实体集合为
每个单位时间的多个实体构成的与N个单位时间对应的集合;N为所述预定时间段内的单位
时间的数量,N为大于等于1的整数。
[0097] S1012、基于N个实体集合,计算出每个单位时间的多个实体的留存率和来源率。
[0098] 在本发明实施例中,检测设备从N个实体集合中,获取每个单位时间对应的实体集合(即多个实体),进而获取每个单位时间对应的实体集合在预定时间段中每个单位时间之
后的时间段(即后序时间)的留存情况,也就获得了每个单位时间的留存率;同理,检测设备
获取每个单位时间对应的实体集合来源于预定时间段中每个单位时间之前的时间段(即前
序时间)对应的实体的情况,也就获得了每个单位时间的来源率。
[0099] S1013、基于留存率和来源率,构成每个流量载体在预定时间段的留存来源信息,从而得到流量载体集合在预定时间段的留存来源信息集合。
[0100] 在本发明实施例中,检测设备获得每个单位时间的留存率和来源率之后,将各个单位时间的留存率和来源率组合,也就获得了每个流量载体在预定时间段的留存来源信
息;而各个流量载体对应的各个流程来源信息也就组合成了流量载体集合在预定时间段的
留存来源信息集合。这里,留存来源信息为每个流量载体在每个单位时间的留存率和来源
率构成的与N个单位时间对应的信息。
[0101] 需要说明的是,检测设备获得了流量载体集合对应的留存来源信息之后,可进行可视化展示,通过留存来源信息的可视化展示,能够确定所对应的流量载体的行为信息,比
如,点击规律,曝光规律,转化规律等。
[0102] 进一步地,在本发明实施例中,S1012可通过S10121‑S10123实现;也就是说,检测设备基于N个实体集合,计算出每个单位时间的多个实体的留存率和来源率,包括S10121‑
S10123,下面对各步骤分别进行说明。
[0103] S10121、基于N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,从而得到当前单位时间对应的留存率。
[0104] 在本发明实施例中,检测设备基于N个实体集合,确定当前单位时间对应的实体集合和每个后序单位时间对应的实体集合,并依据每个后序单位时间对应的实体集合,确定
当前单位时间对应的实体集合在每个后序单位时间的留存情况,也就得到了当前单位时间
在后序单位时间的单位留存率;这里,当前单位时间在各个后序单位时间的单位留存率组
成的集合,即当前单位时间对应的留存率。
[0105] 需要说明的是,后序单位时间为预定时间段内,当前单位时间之后的各个单位时间中的任一单位时间,当前单位时间为N个单位时间中的任意一个,当前单位时间对应的留
存率包括至少一个单位留存率;另外,后序时间包括至少一个后序单位时间。
[0106] S10122、基于N个实体集合,计算出当前单位时间的多个实体来源于前序单位时间的单位来源率,从而得到当前单位时间对应的来源率。
[0107] 在本发明实施例中,检测设备基于N个实体集合,确定当前单位时间对应的实体集合和每个前序单位时间对应的实体集合,并确定当前单位时间对应的实体集合来源于每个
前序单位时间对应的实体集合的来源情况,也就得到了当前单位时间在前序单位时间的单
位来源率;这里,当前单位时间在各个前序单位时间的单位来源率组成的集合,即当前单位
时间对应的来源率。
[0108] 需要说明的是,前序单位时间为预定时间段内,当前单位时间之前的各个单位时间中的任一单位时间,当前单位时间对应的来源率包括至少一个单位来源率,当前单位时
间对应的实体集合即当前单位时间的多个实体;另外,前序时间包括至少一个前序单位时
间。
[0109] S10123、将当前单位时间更换为N个单位时间中另一单位时间重复上述操作,得到另一单位时间的留存率和来源率,直至处理完N个单位时间时为止,得到每个单位时间的留
存率和来源率。
[0110] 在本发明实施例中,检测设备基于当前单位时间的留存率和来源率的获取过程,进行各个单位时间的留存率和来源率的获取;当处理完N个单位时间时,也就得到了每个单
位时间的留存率和来源率。
[0111] 进一步地,在本发明实施例中,S10121可通过S101211和S101212实现;也就是说,检测设备S10121、基于N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单
位留存率,包括S101211和S101212,下面对各步骤分别进行说明。
[0112] S101211、基于N个实体集合,获取当前单位时间对应的当前实体集合和后序单位时间对应的后序实体集合之间的共同实体,得到第一单位共同实体。
[0113] 需要说明的是,由于单位留存率,指当前单位时间对应的实体集合在每个后序单位时间的留存情况;因此,检测设备需要依据N个实体集合,确定当前单位时间对应的当前
实体集合和后序单位时间对应的后序实体集合,并确定当前实体集合和后序实体集合之间
的共同实体;易知,当前实体集合和后序实体集合之间的各个共同实体也就组成了第一单
位共同实体。
[0114] S101212、将第一单位共同实体与当前实体集合的比值,作为当前单位时间在后序单位时间的单位留存率。
[0115] 在本发明实施例中,检测设备获得了第一单位共同实体和当前实体集合之后,以第一单位共同实体为分子,以当前实体集合为分母,计算比值,所获得的比值结果为当前单
位时间的当前实体集合在每个后序单位时间的留存情况,该当前单位时间的当前实体集合
在每个后序单位时间的留存情况即当前单位时间在后序单位时间的单位留存率。
[0116] 示例性地,参见图9,图9为本发明实施例提供的一种示例性的获取单位留存率的示意图;如图9所示,预定时间段是3天,单位时间是一天,N个实体集合为:第1天的点击用户
(实体)是U1、第2天的点击用户(实体)是U2和第3天的点击用户(实体)是U3。当当前单位时间
为第1天时,则当前实体集合为U1,且U1、U2和U3均是后序实体集合;当前实体集合在每个后
序单位时间(第1天、第2天或第3天)的单位留存率依次为式(1)、式(2)和式(3),如下所示:
[0117]
[0118]
[0119]
[0120] 其中,STAY_rate(1,1)指第1天的当前实体集合U1在第1天的单位留存率,STAY_rate(1,2)指第1天的当前实体集合U1在第2天的单位留存率,STAY_rate(1,3)指第1天的当
前实体集合U1在第3天的单位留存率;STAY_rate(1,1)、STAY_rate(1,2)和STAY_rate(1,3)
共同组成留存率。
[0121] 进一步地,在本发明实施例中,S10122中检测设备基于N个实体集合,计算出当前单位时间的多个实体的前序单位时间的单位来源率,包括S101221和S101222,下面对各步
骤分别进行说明。
[0122] S101221、基于N个实体集合,获取当前单位时间对应的当前实体集合和前序单位时间对应的前序实体集合之间的共同实体,得到第二单位共同实体。
[0123] 需要说明的是,由于单位来源率,指当前单位时间对应的实体集合来源于每个前序单位时间对应的实体集合的来源情况;因此,检测设备需要依据N个实体集合,确定当前
单位时间对应的当前实体集合和前序单位时间对应的前序实体集合,并确定当前实体集合
和前序实体集合之间的共同实体,也就得到了第二单位共同实体。
[0124] S101222、将第二单位共同实体与当前实体集合的比值,作为当前单位时间在前序单位时间的单位来源率。
[0125] 在本发明实施例中,检测设备获得了第二单位共同实体和当前实体集合之后,以第二单位共同实体为分子,以当前实体集合为分母,计算比值,所获得的比值结果为当前单
位时间的当前实体集合在每个前序单位时间的前序实体集合的来源率,该来源率即当前单
位时间在前序单位时间的单位来源率。
[0126] 示例性地,参见图10,图10为本发明实施例提供的一种示例性的获取单位来源率的示意图;如图10所示,预定时间段是3天,单位时间是一天,N个实体集合为:第1天的点击
用户(实体)是U1、第2天的点击用户(实体)是U2和第3天的点击用户(实体)是U3。当当前单位
时间是第3天时,则当前实体集合为U3,且U1、U2和U3均是前序实体集合;当前实体集合在每
个前序单位时间(第3天、第2天或第1天)的单位来源率依次为式(4)、式(5)和式(6),如下所
示:
[0127]
[0128]
[0129]
[0130] 其中,FROM_rate(3,3)指第3天的当前实体集合U3在第3天的单位来源率,FROM_rate(3,2)指第3天的当前实体集合U3在第2天的单位来源率,FROM_rate(3,1)指第3天的当
前实体集合U3在第1天的单位来源率;FROM_rate(3,3)、FROM_rate(3,2)和FROM_rate(3,1)
共同组成为来源率。
[0131] 进一步地,在本发明实施例中,S1013中检测设备基于留存率和来源率,构成每个流量载体在预定时间段的留存来源信息,包括S10131‑S10133,下面对各步骤分别进行说
明。
[0132] S10131、基于每个单位时间与N个单位时间的对应关系,将留存率与来源率,组合为与每个单位时间对应的子留存来源信息。
[0133] 在本发明实施例中,检测设备将每个单位时间作为一个维度,将N个单位时间作为一个维度,也就得到了具有两种维度的每个单位时间与N个单位时间的对应关系;从而,检
测设备基于该每个单位时间与N个单位时间的对应关系,对留存率和来源率进行组合。
[0134] 这里,当留存率包括至少一个单位留存率,来源率包括至少一个单位来源率时,则将各单位留存率和各单位来源率,以及每个单位时间与N个单位时间的对应关系进行组合,
所获得的结果即与每个单位时间对应的子留存来源信息。
[0135] S10132、将子留存来源信息,构成矩阵中与每个单位时间对应的行或列,得到留存来源矩阵。
[0136] 在本发明实施例中,检测设备获得了与每个单位时间对应的子留存来源信息之后,将子留存来源信息,作为矩阵中与每个单位时间对应的行或列,也就构成了留存来源矩
阵。
[0137] 示例性地,参见图11,图11是本发明实施例提供的一种示例性的留存来源信息;如图11所示,留存来源矩阵中的子留存来源信息为矩阵的行;其中,11‑1指与第1天对应的子
留存来源信息,11‑2指与第2天对应的子留存来源信息,11‑3指与第3天对应的子留存来源
信息。并且,11‑11指第1天对应的留存率,而11‑111指第1天在第2天的单位留存率,11‑112
指第1天在第3天的单位留存率;11‑21指第2天对应的来源率,11‑22指第2天对应的留存率,
而11‑211指第2天在第1天的单位来源率,11‑221指第2天在第3天的单位留存率;11‑31指第
3天对应的来源率,而11‑311指第3天在第1天的单位来源率,11‑312指第3天在第2天的单位
来源率。
[0138] S10133、将留存来源矩阵展开为一个留存来源向量,将留存来源向量作为每个流量载体在预定时间段的留存来源信息。
[0139] 在本发明实施例中,检测设备获得了留存来源矩阵之后,为了提高计算简便性,将留存来源矩阵展开为一个留存来源向量,该留存来源向量即每个流量载体在预定时间段的
留存来源信息。
[0140] 需要说明的是,留存来源信息还可以为未展开的留存来源矩阵,通过该留存来源矩阵中各单位来源率和各单位留存率,可确定实体对多媒体信息进行推广处理的规律。
[0141] 示例性地,参见图12,图12是本发明实施例提供的另一种示例性的留存来源信息;如图12所示,该留存来源信息为流量主(流量载体)的0827(即8月27日,用四位数字表示日
期)至0925对应的留存来源矩阵;通过该留存来源矩阵易知:有2个异常用户群体12‑1和12‑
2(异常实体),在轮流刷广告的点击(异常行为);第一个群体12‑1的作弊周期是0827‑0905,
第二个群体12‑2的作弊周期是0906‑0914;在0915开始,数值接近0,说明群体12‑1和12‑2都
离开了;在12‑3处数值又再次变大,说明,在0924和0925这两天,之前消失的群体12‑1和12‑
2,同时回归在该流量载体上进行刷广告点击。
[0142] 进一步地,在本发明实施例中,S102之后,以及S103之前,还包括S105和S106;也就是说,检测设备依据留存来源信息集合,对流量载体集合进行分类,得到至少一类流量载体
之后,以及针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间
的实体相似度之前,该异常行为检测方法还包括S105和S106,下面对各步骤分别进行说明。
[0143] S105、获取每类流量载体中的当前流量载体对应的总互动量。
[0144] 在本发明实施例中,检测设备针对每类流量载体,获取任一流量载体对应的总的互动量(比如,总点击量,总曝光量,或总转化量等),也就得到了每类流量载体中的当前流
量载体对应的总互动量。这里,当前流量载体为每类流量载体中的任一流量载体。
[0145] S106、利用总互动量,计算每类流量载体对应的平均互动量。
[0146] 在本发明实施例中,检测设备获得了每类流量载体中各流量载体对应的总互动量之后,对每类流量载体中各流量载体对应的总互动量进行求平均计算,也就得到了每类流
量载体对应的平均互动量。
[0147] 相应地,S103中检测设备针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实体相似度,包括:当平均互动量大于预设平均互动量阈值时,检
测设备针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实
体相似度。也就是说,检测设备在每类流量载体的平均互动量大于预设平均互动量阈值时,
才进行实体相似度的获取。
[0148] 需要说明是,当平均互动量不大于预设平均互动量阈值时,则检测设备不进行实体相似度的获取。
[0149] 可以理解的是,检测设备通过先确定每类流量载体的平均互动量,基于该平均互动量确定是否进行实体相似度的获取,进而再依据实体相似度确定异常行为。如此,一方
面,由于平均互动量不满足条件时就结束了异常行为的检测流程,节省了检测功耗,能够提
升异常行为检测的效率;另一方面,由于异常行为的检测是通过平均互动量和实体相似度
两种维度进行的,所获得的检测结果的准确度高。
[0150] 进一步地,在本发明实施例中,S103可通过S1031和S1032实现;也就是说,检测设备针对至少一类流量载体的每类流量载体,获取每类流量载体中的流量载体之间的实体相
似度,包括S1031和S1032,下面对各步骤分别进行说明。
[0151] S1031、针对至少一类流量载体中的每类流量载体,获取任意两流量载体之间的相似度,得到每类流量载体对应的相似度集合。
[0152] 在本发明实施例中,检测设备针对至少一类流量载体中的每类流量载体,对任意两流量载体之间的实体的相似度进行获取;得到了任意两流量载体之间的相似度之后,将
每类流量载体中所有任意两流量载体之间的相似度进行组合,也就得到了每类流量载体对
应的相似度集合;这里,实体相似度集合包括至少一个相似度,以及,相似度表征任意两流
量载体之间的实体的相似程度。
[0153] S1032、从相似度集合中选择最小的相似度,得到实体相似度。
[0154] 在本发明实施例中,检测设备获得了相似度集合之后,从相似度集合中选择最小的相似度,也就得到了实体相似度。
[0155] 可以理解的是,当检测设备确定每类流量载体中任意两流量载体之间最小的相似度都比预设相似度阈值大,表明每类流量载体中存在较多的存在协同作弊等异常行为的实
体,从而能够更准确地确定每类流量载体中的流量载体存在异常行为。
[0156] 进一步地,本发明实施例S1031中,检测设备获取任意两流量载体之间的相似度,包括S10311‑S10313,下面对各步骤分别进行说明。
[0157] S10311、获取任意两流量载体对应的总实体数量。
[0158] 在本发明实施例中,检测设备先分别获取任意两流量载体中各流量载体分别对应的实体,对任意两流量载体中各流量载体分别对应的实体进行组合并去重,再计算实体的
数量,也就得到了总实体数量。
[0159] 示例性地,当任意两流量载体中包括流量载体a和流量载体b,以及流量载体a的实体为A,流量载体b的实体为B时,则总实体数量为:|A∪B|。
[0160] S10312、获取任意两流量载体对应的共同实体数量。
[0161] 在本发明实施例中,检测设备计算每类流量载体中任意两流量载体之间的相似度,是基于任意两流量载体之间的共同实体确定的;因此,这里,检测设备还需要获取任意
两流量载体对应的共同实体,并计算获取到的任意两流量载体对应的共同实体的数量,也
就得到了共同实体数量。
[0162] 示例性地,当任意两流量载体中包括流量载体a和流量载体b,以及流量载体a的实体为A,流量载体b的实体为B时,则共同实体数量为:|A∩B|。
[0163] S10313、将共同实体数量与总实体数量的比值,作为任意两流量载体之间的相似度。
[0164] 在本发明实施例中,检测设备获得了共同实体数量与总实体数量之后,将共同实体数量作为分子,并将总实体数量作为分母,计算比值,也就完成了共同实体数量与总实体
数量的比值的计算,也就得到了任意两流量载体之间的相似度。
[0165] 示例性地,当任意两流量载体中包括流量载体a和流量载体b,以及流量载体a的实体为A,流量载体b的实体为B时,则总实体数量为:|A∪B|,共同实体数量为:|A∩B|,相似度
如式(7)所示:
[0166]
[0167] 其中,J(A,B)为相似度,是一种通过jaccard相似度度量出的值。比如,流量载体1有2个实体,流量载体2也有2个实体,如果流量载体1和流量载体2有1个共同实体,那么这两
个流量载体的相似度就是1/3。
[0168] 进一步地,在本发明实施例中,S103之后还包括S107;也就是说,检测设备针对至少一类流量载体的每类流量载体,获取流量载体之间的实体相似度之后,该异常行为检测
方法还包括S107,下面对该步骤进行说明。
[0169] S107、当实体相似度大于预设相似度阈值时,确定实体相似度对应的异常实体。
[0170] 在本发明实施例中,检测设备对该实体相似度对应的实体进行获取,也就得到了每类流量载体对应的存在协同作弊等异常行为的实体,即异常实体。
[0171] 可以理解的是,通过本发明实施例的异常行为检测方法,能够准确地确定出进行协同作弊等异常行为的实体,协同作弊等异常行为对应的规律,以及进行协同作弊等异常
行为的流量载体类,实现了对异常实体的关系链的挖掘。
[0172] 进一步地,在本发明实施例中,S104之后还包括S108和S109;也就是说,检测设备当实体相似度大于预设相似度阈值时,确定每类流量载体中的流量载体存在异常行为之
后,该异常行为检测方法还包括S108和S109,下面对各步骤分别进行说明。
[0173] S108、根据留存来源信息,生成每个流量载体对应的留存来源热力图。
[0174] 在本发明实施例中,检测设备确定每类流量载体中的流量载体存在异常行为之后,依据每个流量载体的留存来源信息中的单位留存率和单位来源率在数值上的大小,映
射至展示效果(比如,展示的颜色的深浅或颜色的种类)上,也就生成了每个流量载体对应
的留存来源热力图。
[0175] S109、展示每个流量载体对应的留存来源热力图。
[0176] 在本发明实施例中,检测设备获得了每个流量载体的留存来源热力图之后,将每个流量载体对应的留存来源热力图进行展示,以通过展示的每个流量载体对应的留存来源
热力图,直观地确定实体的作弊周期或作弊规律等异常信息。
[0177] 可以理解的是,检测设备通过生成异常流量载体的留存来源热力图并进行展示,提供了直观的展示效果,实现了作弊等异常行为的可视化。
[0178] 在本发明实施例中,通过检测设备获得了异常实体和异常流量载体集合之后,对异常实体和异常流量载体集合进行打击,营造更好的多媒体信息的推广环境。
[0179] 进一步地,在本发明实施例中,S107之后,还包括S110;也就是说,当所述实体相似度大于预设相似度阈值时,获取所述实体相似度对应的异常实体之后,该异常行为检测方
法还包括S110:将异常实体发送至区块链网络,以使区块链网络的节点将异常实体填充至
新区块,且当对新区块共识一致时,将新区块追加至区块链的尾部以完成上链。这里,检测
设备将获得的异常实体进行上链,如此,以保证不可篡改。
[0180] 下面以服务器将异常实体上传至区块链网络保存为例,说明区块链网络的示例性应用,参见图13,客户端节点810可以是服务器400。其中,业务主体800和业务主体900在认
证中心700中进行过登记注册。
[0181] 首先,在客户端节点810设置异常实体上链的逻辑,例如当获得异常实体时,客户端节点810将异常实体发送至区块链网络600时,生成对应的交易,交易包括:为了上链异常
实体而需要调用的智能合约、以及向智能合约传递的参数;交易还包括客户端节点810的数
字证书、签署的数字签名,并将交易广播到区块链网络600中的共识节点610。
[0182] 然后,区块链网络600中的共识节点610中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体800的身份,确认业务主体
800是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。
验证成功后签署共识节点610自己的数字签名(例如,使用共识节点610的私钥对交易的摘
要进行加密得到),并继续在区块链网络600中广播。
[0183] 最后,区块链网络600中的共识节点610接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络600中的共识节点610广播的新区块时,会对新区块进
行验证,例如,验证新区块中交易的数字签名是否有效,如果验证成功,则将新区块追加到
自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对
于提交的存储异常实体的交易,在状态数据库中添加包括异常实体的键值对。
[0184] 再以服务器在区块链网络600中查询异常实体为例,说明区块链网络的示例性应用。参见图13,客户端节点910可以是服务器400。这里,服务器是需要进行焦点用户挖掘的
服务器。
[0185] 在一些实施例中,客户端节点910在区块链网络600中能够查询的数据的类型,可以由共识节点610通过约束业务主体的客户端阶段能够发起的交易的权限来实现,当客户
端节点910具有发起查询异常实体的权限时,可以由客户端节点910生成用于查询异常实体
的交易并提交到区块链网络600中,从共识节点610执行交易以从状态数据库中查询相应的
异常实体,并返回客户端节点910。
[0186] 以异常行为检测场景为例进行应用的说明:服务器接收多媒体投放平台上的操作日志,依据该操作日志实施本发明实施例所提供的异常行为检测方法,获得异常实体,将该
异常实体上链,以对作弊等异常行为进行打击时,从区块链网络中获取该异常实体进行打
击,从而可以避免服务器为获取异常实体所进行的大量的运算,进而节约了服务器的资源
的消耗。
[0187] 需要说明的是,存在异常行为的每类流量载体中的流量载体也可以上链,具体的实施和应用过程通异常实体的上链和应该过程,本发明实施例在此不再赘述。
[0188] 下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
[0189] 示例性地,参见图14,图14是本发明实施例提供的一种示例性的获取异常实体的流程示意图;如图14所示,
[0190] S1401、开始;即检测设备开始进行异常行为检测。
[0191] S1402、获取每个流量主(流量载体集中的每个流量载体)近一个月(预定时间段)每天(单位时间)的点击用户名单(实体)。
[0192] S1403、根据点击用户名单计算每个流量主的留存来源矩阵(维度是30*30)。
[0193] S1404、对留存来源矩阵打平得到留存来源向量(维度是1*900,留存来源信息)。
[0194] S1405、基于留存来源向量,采用聚类算法(K‑Means)对流量主聚类,得到聚类结果(至少一个流量载体类)。
[0195] S1406、计算聚类结果中每类流量主(每类流量载体)的平均点击量(平均互动量)和各流量主之间的用户相似度(相似度)。
[0196] S1407、判断平均点击量和用户相似度是否均大于阈值;当是时,执行S1408,当否(平均点击量和用户相似度不是均大于阈值)时,执行S1409,结束异常行为检测。
[0197] S1408、确定作弊团伙(异常实体);即当平均点击量和用户相似度均大于阈值(预设平均互动量阈值和预设相似度阈值)时,确定每类流量主对应的作弊团伙,执行S1409,结
束异常行为检测。
[0198] S1409、结束。即检测设备结束异常行为检测。
[0199] 基于图14确定的作弊团伙,所确定的作弊团伙对应的流量主类中的其中2个异常的流量主的留存来源热力图如图15和图16所示;其中,图15描述的为流量主1中点击用户的
留存来源热力图,图16描述的为流量主2中点击用户的留存来源热力图。通过图15和图16中
斜线填充的粗线框易知,群体刷量规律是几乎一致的,且都会在0924‑0925两天,之前的用
户都突然集体回归,点击广告。
[0200] 基于图14确定的作弊团伙,所确定的作弊团伙对应的流量主类中的5个异常的流量主互相之间的jaccard相似度(相似度)如图17所示,其中,17‑1、17‑2、17‑3、17‑4和17‑5
为该5个作弊的流量主(存在异常行为的每类流量载体中的流量载体)。另外,在确定了5个
异常的流量主之后,通过人工审核,发现该5个异常流量主的名称一样,且注册主体一样,验
证了本发明实施例中异常行为检测方法的有效性。
[0201] 此外,通过对作弊团伙进行用户画像,还进一步发现了作弊团伙是大量新注册的账号,作弊团伙中各账号的昵称相同,一段时间仅登录一次,来进行广告的点击,并且,该仅
登录过一次的各账号,点击次数是缓慢增加的,如图18所示,以面对屏幕为参考目标,左侧
坐标轴指点击用户数,右侧坐标轴指点击总量,下侧坐标轴指时间,曲线为实际点击总量,
圆圈指近两个月(0725至0923)仅登录一次的用户;根据人均点击量示意图,易知,这些仅登
录一次的用户中,竖线填充的圆圈的点击次数约为1次至2次,横线填充的圆圈的点击次数
约为2次至2.5次,斜线填充的圆圈的点击次数约为2.5次至3.25次,从而说明这些仅登录一
次的用户的点击次数是从1.75次至3.25次缓慢增加的。另外,还能够确定,作弊团伙中的账
号的登录天数与广告的点击天数一致;比如,登录天数5天,点击广告的天数也是5天。
[0202] 可以理解的是,在移动互联网蓬勃发展的同时,抢夺优质流量、抢占目标微信用户,成为各多媒体推广对象大力推广多媒体信息的目标;而本发明实施例所提供的异常行
为检测,实现了准确地检测异常行为,维护了多媒体推广对象的利益。
[0203] 下面继续说明本发明实施例提供的异常行为检测装置455的实施为软件模块的示例性结构,在一些实施例中,如图6所示,存储在存储器450的异常行为检测装置455中的软
件模块可以包括:
[0204] 留存来源获取模块4551,用于获取流量载体集合中的每个流量载体在预定时间段中的每个单位时间的多个实体的留存率和来源率,从而得到所述流量载体集合在所述预定
时间段的留存来源信息集合,其中,所述预定时间段包括多个单位时间,所述多个实体在所
述每个单位时间对所述每个流量载体中的内容进行操作,所述留存率表示在所述每个单位
时间进行操作的实体留存在所述预定时间段中的后序时间中的比率,所述来源率表示在所
述每个单位时间进行操作的实体来自所述预定时间段中的所述前序时间的比率,所述前序
时间在时间上位于所述后序时间之前;
[0205] 分类模块4552,用于依据所述留存来源信息集合,对所述流量载体集合进行分类,得到至少一类流量载体;
[0206] 相似度模块4553,用于针对所述至少一类流量载体的每类流量载体,获取所述每类流量载体中的流量载体之间的实体相似度;
[0207] 异常检测模块4554,用于当所述实体相似度大于预设相似度阈值时,确定所述每类流量载体中的流量载体存在异常行为。
[0208] 进一步地,所述留存来源获取模块4551,还用于在所述预定时间段中,获取所述流量载体集合中的所述每个流量载体在N个单位时间内的N个实体集合,所述N个实体集合与
所述N个单位时间一一对应,所述N个实体集合为所述每个单位时间的所述多个实体构成的
与所述N个单位时间对应的集合,N为所述预定时间段内的单位时间的数量,N为大于等于1
的整数;基于所述N个实体集合,计算出所述每个单位时间的所述多个实体的所述留存率和
所述来源率;基于所述留存率和所述来源率,构成所述每个流量载体在所述预定时间段的
留存来源信息,从而得到所述流量载体集合在所述预定时间段的所述留存来源信息集合,
所述留存来源信息为所述每个流量载体在所述每个单位时间的所述留存率和所述来源率
构成的与所述N个单位时间对应的信息。
[0209] 进一步地,所述留存来源获取模块4551,还用于基于所述N个实体集合,计算出当前单位时间的多个实体在后序单位时间的单位留存率,从而得到所述当前单位时间对应的
留存率,其中,所述后序单位时间为所述预定时间段内,所述当前单位时间之后的各个单位
时间中的任一单位时间,所述当前单位时间为所述N个单位时间中的任意一个,所述当前单
位时间对应的留存率包括至少一个单位留存率;基于所述N个实体集合,计算出所述当前单
位时间的多个实体来源于前序单位时间的单位来源率,从而得到所述当前单位时间对应的
来源率,其中,所述前序单位时间为所述预定时间段内,所述当前单位时间之前的各个单位
时间中的任一单位时间,所述当前单位时间对应的来源率包括至少一个单位来源率;将所
述当前单位时间更换为所述N个单位时间中另一单位时间重复上述操作,得到所述另一单
位时间的留存率和来源率,直至处理完所述N个单位时间时为止,得到所述每个单位时间的
所述留存率和所述来源率。
[0210] 进一步地,所述留存来源获取模块4551,还用于基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述后序单位时间对应的后序实体集合之间的共同
实体,得到第一单位共同实体;
[0211] 将所述第一单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述后序单位时间的所述单位留存率。
[0212] 进一步地,所述留存来源获取模块4551,还用于基于所述N个实体集合,获取所述当前单位时间对应的当前实体集合和所述前序单位时间对应的前序实体集合之间的共同
实体,得到第二单位共同实体;
[0213] 将所述第二单位共同实体与所述当前实体集合的比值,作为所述当前单位时间在所述前序单位时间的所述单位来源率。
[0214] 进一步地,所述异常行为检测设备455还包括互动量模块4555,用于获取所述每类流量载体中的当前流量载体对应的总互动量;所述当前流量载体为所述每类流量载体中的
任一流量载体;利用所述总互动量,计算所述每类流量载体对应的平均互动量。
[0215] 相应地,所述相似度模块4553,还用于当所述平均互动量大于预设平均互动量阈值时,针对所述至少一类流量载体的所述每类流量载体,获取所述每类流量载体中的流量
载体之间的所述实体相似度。
[0216] 进一步地,所述异常检测模块4554,还用于针对所述至少一类流量载体中的所述每类流量载体,获取任意两流量载体之间的相似度,得到所述每类流量载体对应的相似度
集合;将所述相似度集合中最小的相似度,作为所述实体相似度。
[0217] 进一步地,所述异常检测模块4554,还用于获取所述任意两流量载体对应的总实体数量;获取所述任意两流量载体对应的共同实体数量;将所述共同实体数量与所述总实
体数量的比值,作为所述任意两流量载体之间的所述相似度。
[0218] 进一步地,所述异常检测模块4554,还用于当所述实体相似度大于所述预设相似度阈值时,确定所述实体相似度对应的异常实体。
[0219] 进一步地,所述异常行为检测装置455还包括展示模块4556,用于从根据所述留存来源信息,生成所述每个流量载体对应的留存来源热力图;展示所述每个流量载体对应的
所述留存来源热力图。
[0220] 进一步地,所述留存来源获取模块,还用于基于所述每个单位时间与所述N个单位时间的对应关系,将所述留存率和所述来源率,组合为与所述每个单位时间对应的子留存
来源信息;将所述子留存来源信息,作为矩阵中与所述每个单位时间对应的行或列,构成留
存来源矩阵;将所述留存来源矩阵展开为一个留存来源向量,将所述留存来源向量作为所
述每个流量载体在所述预定时间段的所述留存来源信息。
[0221] 本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的异常行
为检测方法,例如,如图7或图8示出的异常行为检测方法。
[0222] 在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD‑ROM等存储器;也可以是包括上述存储器之一或任意组合的
各种设备。
[0223] 在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其
可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在
计算环境中使用的其它单元。
[0224] 作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper Text 
Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件
中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0225] 作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备
上执行。
[0226] 综上所述,通过本发明实施例,由于在进行异常行为检测时,通过获取各流量载体对应的留存来源信息集合,并基于留存来源信息集合对流量载体进行分类,能够得到各流
量载体之间在留存率和来源率方面具备高相似度的多类流量载体;又由于流量载体的留存
率和来源率表征了流量载体中的实体进行操作的规律,以及异常的实体进行操作的规律相
同;因此,当某类流量载体中流量载体之间的实体相似度大于预设相似度阈值时,也就表明
该类流量载体中存在较多的操作规律相同的实体,从而也就能够确定该类流量载体存在异
常行为;如此,实现了一种准确确定流量载体的异常行为的技术方案,进而,提升了异常行
为检测的准确度。
[0227] 以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之
内。