检测应用软件下载刷量的方法及装置转让专利

申请号 : CN201510351086.7

文献号 : CN104932966B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨运超

申请人 : 广东欧珀移动通信有限公司

摘要 :

本发明实施例公开了一种检测应用软件下载刷量的方法及装置,其中方法包括:获取预设时间段内一类型应用的至少一款应用软件;统计每款应用软件的特征信息;根据所述特征信息确定存在下载刷量的应用软件。本发明实施例通过预设时间段内某一类型应用的应用软件,通过分析处理,能够自动检测到存在下载刷量的应用软件,省时省力。

权利要求 :

1.一种检测应用软件下载刷量的方法,其特征在于,包括:获取预设时间段内一类型应用的至少一款应用软件;

统计每款应用软件的特征信息;

根据所述特征信息确定存在下载刷量的应用软件;

其中,根据所述特征信息确定存在下载刷量的应用软件包括:将每款应用软件作为空间中的一个点;

根据所述特征信息为每款应用软件构造对应的特征向量;

根据所述特征向量采用以下算法中的任意一种算法确定存在下载刷量的应用软件:基于距离的离群点检测算法、基于统计的离群点检测算法、基于偏离的离群点检测算法和基于密度的局部离群点检测算法;

其中,根据所述特征向量采用基于密度的局部离群点检测算法确定存在下载刷量的应用软件包括:根据所述特征向量计算每款应用软件的局部离群点因子;

根据所述局部离群点因子确定存在下载刷量的应用软件;

其中,根据所述特征向量计算每款应用软件的局部离群点因子包括:根据所述特征向量计算每款应用软件的K-距离,所述K为预设数值;

根据所述K-距离确定每款应用软件的K-距离邻居集合,所述K-距离邻居集合中包含至少一款应用软件;

根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离;

根据所述可达距离确定每款应用软件的局部可达密度;

根据所述局部可达密度确定每款应用软件的局部离群点因子。

2.根据权利要求1所述的方法,其特征在于,所述特征信息为以下信息中至少一种:下载量、浏览量、点击量、评论数、评分和消费金额。

3.根据权利要求1或2所述的方法,其特征在于,根据所述特征向量计算一应用软件的K-距离包括:根据所述特征向量计算其它应用软件到该应用软件的欧式距离;

对所述欧式距离从小到大进行排序,选择前K个不同的欧式距离;

将所述前K个不同的欧式距离中的最大的欧式距离作为该应用软件的K-距离。

4.根据权利要求1或2所述的方法,其特征在于,根据所述K-距离确定一应用软件的K-距离邻居集合包括:从其它应用软件到该应用软件的欧式距离中选出小于或等于该应用软件的K-距离的应用软件;

由小于或等于该应用软件的K-距离的应用软件组成的集合作为该应用软件的K-距离邻居集合。

5.根据权利要求1或2所述的方法,其特征在于,根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离包括:采用下述公式一计算应用软件的可达距离:公式一:

reach_distMinPts(p,o)=max{k_distance(o),d(p,o)}其中,reach_distMinPts(p,o)为应用软件p到另一应用软件o的可达距离,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件,k_distance(o)为应用软件o的K-距离,d(p,o)为应用软件p与应用软件o的欧式距离。

6.根据权利要求5所述的方法,其特征在于,根据所述可达距离确定每款应用软件的局部可达密度包括:采用如下公式二确定每款应用软件的局部可达密度:公式二:

其中,lrdMinPts(p)为应用软件p的局部可达密度,NMinPts(p)为应用软件p的K-距离邻居集合中包含应用软件的个数,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。

7.根据权利要求6所述的方法,其特征在于,根据所述局部可达密度确定每款应用软件的局部离群点因子包括:采用如下公式三确定每款应用软件的局部离群点因子:公式三:

其中,LOFMinPts(p)为应用软件p的局部离群点因子,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。

8.一种检测应用软件下载刷量的装置,其特征在于,包括:获取模块,用于获取预设时间段内一类型应用的至少一款应用软件;

统计模块,用于统计每款应用软件的特征信息;

确定模块,用于根据所述特征信息确定存在下载刷量的应用软件;

其中,所述确定模块具体包括:

构造子模块,用于将每款应用软件作为空间中的一个点,根据所述特征信息为每款应用软件构造对应的特征向量;

确定子模块,用于根据所述特征向量采用以下算法中的任意一种算法确定存在下载刷量的应用软件:基于距离的离群点检测算法、基于统计的离群点检测算法、基于偏离的离群点检测算法和基于密度的局部离群点检测算法;

其中,所述确定子模块包括:

计算单元,用于根据所述特征向量计算每款应用软件的局部离群点因子;

确定单元,用于根据所述局部离群点因子确定存在下载刷量的应用软件;

其中,所述计算单元具体用于:

根据所述特征向量计算每款应用软件的K-距离,所述K为预设数值;

根据所述K-距离确定每款应用软件的K-距离邻居集合,所述K-距离邻居集合中包含至少一款应用软件;

根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离;

根据所述可达距离确定每款应用软件的局部可达密度;

根据所述局部可达密度确定每款应用软件的局部离群点因子。

9.根据权利要求8所述的装置,其特征在于,所述特征信息为以下信息中至少一种:下载量、浏览量、点击量、评论数、评分和消费金额。

说明书 :

检测应用软件下载刷量的方法及装置

技术领域

[0001] 本发明实施例涉及互联网技术领域,尤其涉及一种检测应用软件下载刷量的方法及装置。

背景技术

[0002] 随着计算机软件技术的发展,各种各样的应用软件遍布于人们生活的各个领域。按照应用软件的功能可分为导航类软件、音乐播放软件、视频播放软件、游戏类软件和体育竞技类软件等。由于每一类软件都有大量的应用软件,用户在选择应用软件时往往根据应用软件的下载量来进行选择,认为下载量高的软件为比较好用的应用软件。
[0003] 但是,有些应用开发者为了提高自己应用软件的排名,往往以提高自己应用软件的下载量的方式进行恶意刷量简称下载刷量。为防止开发者恶意下载刷量,网站管理方会配置一些工作人员,对每款应用软件进行定期检测,检测到存在下载刷量的应用软件时,对该应用软件采取相应措施或通告应用开发者。
[0004] 但是,上述采用人工检测应用软件是否存在下载刷量的方式,不仅耗时耗力,而且容易出现漏掉下载刷量的应用软件的情况。

发明内容

[0005] 本发明实施例提供一种检测应用软件下载刷量的方法及装置,能够自动检测到存在下载刷量的应用软件,省时省力。
[0006] 第一方面,本发明实施例提供了一种检测应用软件下载刷量的方法,包括:
[0007] 获取预设时间段内一类型应用的至少一款应用软件;
[0008] 统计每款应用软件的特征信息;
[0009] 根据所述特征信息确定存在下载刷量的应用软件。
[0010] 第二方面,本发明实施例还提供一种检测应用软件下载刷量的装置,包括:
[0011] 获取模块,用于获取预设时间段内一类型应用的至少一款应用软件;
[0012] 统计模块,用于统计每款应用软件的特征信息;
[0013] 确定模块,用于根据所述特征信息确定存在下载刷量的应用软件。
[0014] 本发明实施例通过预设时间段内某一类型应用的应用软件,通过分析处理统计每款应用软件的特征信息,即可能够自动检测到存在下载刷量的应用软件,省时省力。

附图说明

[0015] 图1为本发明实施例一提供的检测应用软件下载刷量的方法的流程示意图;
[0016] 图2为本发明实施例二提供的检测应用软件下载刷量的装置的结构示意图。

具体实施方式

[0017] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0018] 本发明实施例提供的检测应用软件下载刷量的方法的执行主体,可为检测应用软件下载刷量的装置,或者集成有所述检测应用软件下载刷量的装置的终端设备(例如,电脑、智能手机、ipad、iphone等),该检测应用软件下载刷量的装置可以采用硬件或软件实现。
[0019] 实施例一
[0020] 图1为本发明实施例一提供的检测应用软件下载刷量的方法的流程示意图,如图1所示,具体包括:
[0021] 步骤11、获取预设时间段内一类型应用的至少一款应用软件;
[0022] 其中,预设时间段可根据实际情况由用户进行设置,可按小时来计,例如1小时、3小时或10小时等等;也可按天数来计,例如1天、5天或十天等等;也可按月来计,例如1个月、2个月或5个月等等。以上所列数据仅用来举例说明,并不局限于此。
[0023] 由于市面上的应用软件种类繁多,每种类型的应用软件所表现的特征也不尽相同,为便于后续处理,在获取应用软件之前,按照应用软件的功能将应用软件进行分类,具体可分为导航类软件、音乐播放软件、视频播放软件、游戏类软件、体育竞技类软件和游戏软件等类型。然后分别获取各种类型下的应用软件,分别进行统计分析。例如,本实施例获取的应用类型为导航类软件,获取的应用软件可包括第一应用软件、第二应用软件、第三应用软件、第四应用软件等导航类软件中的一种或多种。
[0024] 步骤12、统计每款应用软件的特征信息;
[0025] 其中,所述特征信息包括下载量、浏览量、点击量、评论数、评分和消费金额中的一种或多种。
[0026] 其中,下载量为用户下载该应用软件的总次数。浏览量为用户浏览该应用软件的总次数。点击量为用户点击该应用软件的总次数。评论数为用户参与该应用软件的评论总数。评分为用户对该应用软件打的分数(可为平均分数,也可为所有用户评分的总和)。
[0027] 由于有些应用软件,是需要用户花费一定的金额才可以下载使用的,因此,消费金额也成为一个重要的衡量因素。一般消费金额为用户购买该应用软件花费的总金额,在这种情况下,消费金额和下载量成正比。或者,当该应用软件为游戏软件的情况下,用户为玩该款游戏软件所花费的金额。
[0028] 为充分说明本实施例的技术方案,下面举例说明。例如,本实施例获取的应用软件为导航类软件中的第一应用软件、第二应用软件、第三应用软件、第四应用软件,则分别对第一应用软件、第二应用软件、第三应用软件、第四应用软件的上述特征信息即下载量、浏览量、点击量、评论数、评分和消费金额进行统计,统计结果可以表格的形式进行表示并存储。例如,统计结果如下表一所示:
[0029] 表一
[0030]
[0031]
[0032] 步骤13、根据所述特征信息确定存在下载刷量的应用软件。
[0033] 在统计了上述特征信息之后,可根据统计结果,一次性确定出该类型应用软件中有哪些应用软件为下载刷量的应用软件。
[0034] 例如,如果上表一的统计结果呈现出第二应用软件的浏览量、点击量、评论数、评分和消费金额均一般,而该应用软件的下载量却很高,则将该应用软件的确定为存在下载刷量的应用软件。
[0035] 本实施例通过预设时间段内某一类型应用的应用软件,通过分析处理统计每款应用软件的特征信息,即可能够自动检测到存在下载刷量的应用软件,省时省力。
[0036] 示例性的,在上述实施例的基础上,根据所述特征信息确定存在下载刷量的应用软件包括:
[0037] 将每款应用软件作为空间中的一个点;
[0038] 根据所述特征信息为每款应用软件构造对应的特征向量;
[0039] 根据所述特征向量采用以下算法中的任意一种算法确定存在下载刷量的应用软件:基于距离的离群点检测算法、基于统计的离群点检测算法、基于偏离的离群点检测算法和基于密度的局部离群点检测算法。
[0040] 具体的,将每款应用软件作为n维空间中的一个点,n取值为特征信息中包含特征项即浏览量、点击量、评论数、评分和消费金额的个数,每个点的坐标使用包含的特征项对应的数值来表示。例如,上述表一所示的应用软件,分别将第一应用软件、第二应用软件、第三应用软件和第四应用软件看作6维空间中的四个点A、B、C和D。其中,第一应用软件对应的坐标点A可表示为(3.1,10,5.6,2,4,0)、第二应用软件对应的坐标点B可表示为(10,0.5,2.9,0.1,5,0)、第三应用软件对应的坐标点C可表示为(0.15,0.98,0.14,0.05,4,0)、第四应用软件对应的坐标点D可表示为(0.22,1.3,0.34,0.10,4.1,0)。
[0041] 在将每款应用软件转换为空间坐标点之后,基于上述确定的空间坐标点,可采用基于距离的离群点检测算法、基于统计的离群点检测算法、基于偏离的离群点检测算法和基于密度的局部离群点检测算法中的任意一种算法确定存在下载刷量的应用软件。
[0042] 其中,离群点是指在一个时间序列中,远离序列的一般水平的极端大值和极端小值。在本发明实施例中,可将获取的所有应用软件对应的空间坐标点作为一个时间序列,采用上述任意一种算法计算出时间序列中的离群点,也就是确定存在下载刷量的应用软件。
[0043] 上述基于距离的离群点检测算法、基于统计的离群点检测算法和基于偏离的离群点检测算法均是基于现有技术的,在这里不再赘述。
[0044] 而基于密度的局部离群点检测算法相对于其它三种算法,不仅更加简单可行,而且针对每种类型的应用软件,更加能够结合应用软件的局部特性,使确定的存在下载刷量的应用软件更加准确。
[0045] 示例性的,根据所述特征向量采用基于密度的局部离群点检测算法确定存在下载刷量的应用软件包括:
[0046] 根据所述特征向量计算每款应用软件的局部离群点因子;
[0047] 根据所述局部离群点因子确定存在下载刷量的应用软件。
[0048] 其中,局部离群点因子代表了每款应用软件的对应的空间坐标点为离群点的程度。这里,局部离群点因子为大于1的常数,其值越大,表示应用软件的对应的空间坐标点为离群点的程度越大,若其值接近于1,则表示应用软件的对应的空间坐标点为非离群点。
[0049] 具体的,分别计算出个应用软件对应的局部离群点因子,按照局部离群点因子的大小对所述应用软件对应的局部离群点因子进行排序,可按照由大到小的顺序进行排序,也可按照由小到大的顺序进行排序。在序列中,局部离群点因子最大的离群点对应的应用软件确定为存在下载刷量的应用软件。或者,计算各应用软件对应的局部离群点因子与标准局部离群点因子的差值,将所述差值大于预设阈值的应用软件确定为存在下载刷量的应用软件。其中标准局部离群点因子为经验值。预设阈值可根据实际情况进行设置。
[0050] 示例性的,上述根据所述特征向量计算每款应用软件的局部离群点因子包括:
[0051] 根据所述特征向量计算每款应用软件的K-距离,所述K为预设数值;
[0052] 根据所述K-距离确定每款应用软件的K-距离邻居集合,所述K-距离邻居集合中包含至少一款应用软件;
[0053] 根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离;
[0054] 根据所述可达距离确定每款应用软件的局部可达密度;
[0055] 根据所述局部可达密度确定每款应用软件的局部离群点因子。
[0056] 其中,K值为经验值,可取值为2或3等。
[0057] 示例性的,根据所述特征向量计算一应用软件的K-距离包括:
[0058] 根据所述特征向量计算其它应用软件到该应用软件的欧式距离;
[0059] 对所述欧式距离从小到大进行排序,选择前K个不同的欧式距离;
[0060] 将所述前K个不同的欧式距离中的最大的欧式距离作为该应用软件的K-距离。
[0061] 例如,以K=2为例,假如p、p1、p2和p3分别游戏类软件中为第一游戏软件、第二游戏软件、第三游戏软件和第四游戏软件对应的空间坐标点,进一步假设任意两点之间的距离分别为pp1=4、pp2=3、pp3=7、p1p2=5、p1p3=6、p2p3=8。那么可采用欧几里得距离公式分别计算各自对应的K-距离。
[0062] 具体的,以计算第一游戏软件对应的空间坐标点p的K-距离为例,已知其它应用软件对应的点p1、p2和p3点到p的距离分别为4,3,7;选择前K个不同的最小距离,这里K=2,也就是说选择前2个不同的最小距离即min(pp1=4,pp2=3,pp3=7)),结果为(3,4);最后选择前2个最小不同距离中的最大值作为p1的K-距离即k_distance(p)=max(pp1=4,pp2=3)=4。采用同样的方法可计算得到p1,p2,p3的K-距离分别是5,5,7。
[0063] 示例性的,根据所述K-距离确定一应用软件的K-距离邻居集合包括:
[0064] 从其它应用软件到该应用软件的欧式距离中选出小于或等于该应用软件的K-距离的应用软件;
[0065] 由小于或等于该应用软件的K-距离的应用软件组成的集合作为该应用软件的K-距离邻居集合。
[0066] 在得到所有应用软件的K-距离之后,进一步计算各应用软件的K-距离邻居集合。同样以上述游戏类软件为例,计算p的K-距离邻居集合,与p之间距离小于等于k-distance(p)的空间坐标点的集合称为对象p的K-距离邻居,可记作:Nkdis(p)(p)。该K-距离邻居集合其实是以p为中心,k-distance(p)为半径的空间区域内所有空间坐标点的集合(不包括P本身),可同时存在多个第K距离的坐标点,因此该K-距离邻居集合至少包括K个对象,且这K个对象分别对应于游戏类软件中的应用软件。
[0067] 示例性的,上述根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离包括:
[0068] 采用下述公式一计算应用软件的可达距离:
[0069] 公式一:
[0070] reach_distMinPts(p,o)=max{k_distance(o),d(p,o)}
[0071] 其中,reach_distMinPts(p,o)为应用软件p到另一应用软件o的可达距离,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件,k_distance(o)为应用软件o的K-距离,d(p,o)为应用软件p与应用软件o的欧式距离。
[0072] 示例性的,上述根据所述可达距离确定每款应用软件的局部可达密度包括:
[0073] 采用如下公式二确定每款应用软件的局部可达密度:
[0074] 公式二:
[0075]
[0076] 其中,lrdMinPts(p)为应用软件p的局部可达密度,NMinPts(p)为应用软件p的K-距离邻居集合中包含应用软件的个数,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。
[0077] 示例性的,上述根据所述局部可达密度确定每款应用软件的局部离群点因子包括:
[0078] 采用如下公式三确定每款应用软件的局部离群点因子:
[0079] 公式三:
[0080]
[0081] 其中,LOFMinPts(p)为应用软件p的局部离群点因子,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。
[0082] 具体的,如果某款应用软件的离群程度较大,则它K-距离邻居集合中大多数是离对象p较远且处于某一个类簇的数据对象,那么这些数据对象的lrd应该是偏大,而对象p本身的lrd是偏小,最后所得的LOF值也是偏大。反之,如果对象p的离群程度较小,对象o的lrd和对象p的lrd相似,最后所得的LOF值应该接近1。
[0083] 上述各实施例通过预设时间段内某一类型应用的应用软件,通过分析处理统计每款应用软件的特征信息,即可能够自动检测到存在下载刷量的应用软件,省时省力。
[0084] 实施例二
[0085] 图2为本发明实施例二提供的检测应用软件下载刷量的装置的结构示意图,如图2所示,具体包括:获取模块21、统计模块22和确定模块23。
[0086] 所述获取模块21用于获取预设时间段内一类型应用的至少一款应用软件;
[0087] 所述统计模块22用于统计每款应用软件的特征信息;
[0088] 所述确定模块23用于根据所述特征信息确定存在下载刷量的应用软件。
[0089] 本实施例所述的检测应用软件下载刷量的装置用于执行实施例一所述的检测应用软件下载刷量的方法,其技术原理和产生的技术效果类似,这里不再累述。
[0090] 示例性的,在上述实施例的基础上,所述特征信息为以下信息中至少一种:
[0091] 下载量、浏览量、点击量、评论数、评分和消费金额。
[0092] 示例性的,所述确定模块23具体包括:
[0093] 构造子模块231用于将每款应用软件作为空间中的一个点,根据所述特征信息为每款应用软件构造对应的特征向量;
[0094] 确定子模块232用于根据所述特征向量采用以下算法中的任意一种算法确定存在下载刷量的应用软件:基于距离的离群点检测算法、基于统计的离群点检测算法、基于偏离的离群点检测算法和基于密度的局部离群点检测算法。
[0095] 示例性的,所述确定子模块232包括:
[0096] 计算单元232A用于根据所述特征向量计算每款应用软件的局部离群点因子;
[0097] 确定单元232B用于根据所述局部离群点因子确定存在下载刷量的应用软件。
[0098] 示例性的,所述计算单元232A具体用于:
[0099] 根据所述特征向量计算每款应用软件的K-距离,所述K为预设数值;
[0100] 根据所述K-距离确定每款应用软件的K-距离邻居集合,所述K-距离邻居集合中包含至少一款应用软件;
[0101] 根据所述K-距离和所述K-距离邻居集合确定每款应用软件的可达距离;
[0102] 根据所述可达距离确定每款应用软件的局部可达密度;
[0103] 根据所述局部可达密度确定每款应用软件的局部离群点因子。
[0104] 示例性的,所述计算单元232A具体用于:
[0105] 根据所述特征向量计算其它应用软件到该应用软件的欧式距离;
[0106] 对所述欧式距离从小到大进行排序,选择前K个不同的欧式距离;
[0107] 将所述前K个不同的欧式距离中的最大的欧式距离作为该应用软件的K-距离。
[0108] 示例性的,所述计算单元232A具体用于:
[0109] 从其它应用软件到该应用软件的欧式距离中选出小于或等于该应用软件的K-距离的应用软件;
[0110] 由小于或等于该应用软件的K-距离的应用软件组成的集合作为该应用软件的K-距离邻居集合。
[0111] 示例性的,所述计算单元232A具体用于:
[0112] 采用下述公式一计算应用软件的可达距离:
[0113] 公式一:
[0114] reach_distMinPts(p,o)=max{k_distance(o),d(p,o)}
[0115] 其中,reach_distMinPts(p,o)为应用软件p到另一应用软件o的可达距离,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件,k_distance(o)为应用软件o的K-距离,d(p,o)为应用软件p与应用软件o的欧式距离。
[0116] 示例性的,所述计算单元232A具体用于:
[0117] 采用如下公式二确定每款应用软件的局部可达密度:
[0118] 公式二:
[0119]
[0120] 其中,lrdMinPts(p)为应用软件p的局部可达密度,NMinPts(p)为应用软件p的K-距离邻居集合中包含应用软件的个数,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。
[0121] 示例性的,所述计算单元232A具体用于:采用如下公式三确定每款应用软件的局部离群点因子:
[0122] 公式三:
[0123]
[0124] 其中,LOFMinPts(p)为应用软件p的局部离群点因子,所述应用软件o为应用软件p的K-距离邻居集合中的应用软件。
[0125] 上述各实施例所述的检测应用软件下载刷量的装置用于执行实施例一所述的检测应用软件下载刷量的方法,其技术原理和产生的技术效果类似,这里不再累述。
[0126] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。