一种确定对象之间相似度的方法和装置转让专利

申请号 : CN201911334893.2

文献号 : CN111125192B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄辉陈秀坤任鑫琦

申请人 : 北京明略软件系统有限公司

摘要 :

本申请实施例提供一种确定对象之间相似度的方法和装置,该方法包括:获取当前对象的统计数据,其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数;利用每个初级特征的出现次数,计算每个初级特征对应的特征值;将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值;利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数;根据相似指数,确定当前对象和目标对象的相似度。本申请实施例通过上述技术方案,能够减少确定当前对象和目标对象的相似度所消耗的时间,进而能够提高相似度的确定效率。

权利要求 :

1.一种确定对象之间相似度的方法,其特征在于,包括:获取当前对象的统计数据,其中,所述当前对象的统计数据包括与目标对象的行为相关的多个初级特征和所述多个初级特征中每个初级特征的出现次数;

利用所述每个初级特征的出现次数,计算所述每个初级特征对应的特征值;

将所述多个初级特征中的所有初级特征对应的特征值相加,得到所述当前对象对应的总特征值;

利用所述多个初级特征的特征个数和所述当前对象对应的总特征值,计算所述当前对象与所述目标对象的相似指数;

根据所述相似指数,确定所述当前对象和所述目标对象的相似度;

所述根据所述相似指数,确定所述当前对象和所述目标对象的相似度,包括:比较预设值和所述相似指数的大小;

若所述相似指数大于等于所述预设值,则将所述当前对象确定为所述目标对象的相似对象;

在所述目标对象为目标风险对象的情况下,所述方法还包括:获取所述相似对象的统计数据,其中,所述相似对象的统计数据包括与所述目标风险对象的行为相关的多个强化特征和所述多个强化特征中每个强化特征的出现次数;

利用所述每个强化特征的出现次数,计算所述每个强化特征对应的影响值;

将所述多个强化特征中的所有强化特征对应的影响值相加,得到所述相似对象对应的总影响值;

利用所述多个强化特征的特征个数和所述相似对象对应的总影响值,计算潜在风险指数;

根据所述潜在风险指数,确定所述相似对象的潜在风险。

2.根据权利要求1所述的方法,其特征在于,所述利用所述每个初级特征的出现次数,计算所述每个初级特征对应的特征值,包括,根据以下公式计算所述每个初级特征对应的特征值:其中,xi表示初级特征i对应的特征值,n表示所述初级特征i的出现次数,i为正整数。

3.根据权利要求2所述的方法,其特征在于,所述利用所述多个初级特征的特征个数和所述当前对象对应的总特征值,计算所述当前对象与所述目标对象的相似指数,包括,根据以下公式计算所述相似指数:其中,q表示所述相似指数,m表示所述所有初级特征的特征个数。

4.根据权利要求1所述的方法,其特征在于,所述利用所述每个强化特征的出现次数,计算所述每个强化特征对应的影响值,包括,根据以下公式计算所述每个强化特征对应的影响值:其中,tj表示强化特征j对应的影响值,f表示所述强化特征j的出现次数,j为正整数。

5.根据权利要求1所述的方法,其特征在于,所述利用所述多个强化特征的特征个数和所述相似对象对应的总影响值,计算潜在风险指数,包括,根据以下公式计算潜在风险指数包括:其中,l表示所述潜在风险指数,w表示所述所有强化特征的特征个数。

6.一种确定对象之间相似度的装置,其特征在于,包括:获取模块,用于获取当前对象的统计数据,其中,所述当前对象的统计数据包括与目标对象的行为相关的多个初级特征和所述多个初级特征中每个初级特征的出现次数;

计算模块,用于利用所述每个初级特征的出现次数,计算所述每个初级特征对应的特征值;

所述计算模块,还用于将所述多个初级特征中的所有初级特征对应的特征值相加,得到所述当前对象对应的总特征值;

所述计算模块,还用于利用所述多个初级特征的特征个数和所述当前对象对应的总特征值,计算所述当前对象与所述目标对象的相似指数;

确定模块,用于根据所述相似指数,确定所述当前对象和所述目标对象的相似度;

所述确定模块具体用于:

比较预设值和所述相似指数的大小;

若所述相似指数大于等于所述预设值,则将所述当前对象确定为所述目标对象的相似对象;

在所述目标对象为目标风险对象的情况下,所述确定模块还用于:获取所述相似对象的统计数据,其中,所述相似对象的统计数据包括与所述目标风险对象的行为相关的多个强化特征和所述多个强化特征中每个强化特征的出现次数;

利用所述每个强化特征的出现次数,计算所述每个强化特征对应的影响值;

将所述多个强化特征中的所有强化特征对应的影响值相加,得到所述相似对象对应的总影响值;

利用所述多个强化特征的特征个数和所述相似对象对应的总影响值,计算潜在风险指数;

根据所述潜在风险指数,确定所述相似对象的潜在风险。

7.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1‑5任一所述的确定对象之间相似度的方法。

8.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1‑5任一所述的确定对象之间相似度的方法。

说明书 :

一种确定对象之间相似度的方法和装置

技术领域

[0001] 本申请涉及数据处理技术领域,具体而言,涉及一种确定对象之间相似度的方法和装置。

背景技术

[0002] 对象之间的相似度作为一个重要课题,对于链接预测、欺诈检测、协同过滤等众多实际问题来说是十分必要的。
[0003] 目前,现有的对象之间的相似度一般是通过大量的人力和物力来确定的。例如,可通过人为比较当前对象的数据和目标对象的数据,并基于比较结果确定当前对象和目标对象之间的相似度。
[0004] 在实现本发明的过程中,发明人发现现有技术中存在如下问题:现有的对象之间的相似度的确定方法至少存在着效率比较低的问题。

发明内容

[0005] 本申请实施例的目的在于提供一种确定对象之间相似度的方法和装置,以解决现有技术中存在着的效率比较低的问题。
[0006] 第一方面,本申请实施例提供了一种确定对象之间相似度的方法,该方法包括:获取当前对象的统计数据,其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数;利用每个初级特征的出现次数,计算每个初级特征对应的特征值;将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值;利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数;根据相似指数,确定当前对象和目标对象的相似度。其中,相似度表示相似程度。
[0007] 因此,本申请实施例通过上述技术方案,能够减少确定当前对象和目标对象的相似度所消耗的时间,进而能够提高相似度的确定效率。
[0008] 在一个可能的实施例中,利用每个初级特征的出现次数,计算每个初级特征对应的特征值,包括,根据以下公式计算每个初级特征对应的特征值:
[0009]
[0010] 其中,xi表示初级特征i对应的特征值,n表示初级特征i的出现次数,i为正整数。
[0011] 因此,本申请实施例通过上述计算公式,能够精确地获得每个初级特征对应的特征值。
[0012] 在一个可能的实施例中,利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数,包括,根据以下公式计算相似指数:
[0013]
[0014] 其中,q表示相似指数,m表示所有初级特征的特征个数。
[0015] 因此,本申请实施例通过上述计算公式,能够精确地获得当前对象与目标对象的相似指数。
[0016] 在一个可能的实施例中,根据相似指数,确定当前对象和目标对象的相似度,包括:比较预设值和相似指数的大小;若相似指数大于等于预设值,则将当前对象确定为目标对象的相似对象。
[0017] 因此,本申请实施例通过设置预设值的方式,来提高相似对象的检测精度,使得结果更加精准。
[0018] 在一个可能的实施例中,在目标对象为目标风险对象的情况下,方法还包括:获取相似对象的统计数据,其中,相似对象的统计数据包括与目标风险对象的行为相关的多个强化特征和多个强化特征中每个强化特征的出现次数;利用每个强化特征的出现次数,计算每个强化特征对应的影响值;将多个强化特征中的所有强化特征对应的影响值相加,得到相似对象对应的总影响值;利用多个强化特征的特征个数和相似对象对应的总影响值,计算潜在风险指数;根据潜在风险指数,确定相似对象的潜在风险。
[0019] 因此,在目标对象是目标风险对象的情况下,本申请实施例通过对相似对象的潜在风险进行评估,从而可通过潜在风险,能够精准地对当前对象进行评价。
[0020] 在一个可能的实施例中,利用每个强化特征的出现次数,计算每个强化特征对应的影响值,包括,根据以下公式计算每个强化特征对应的影响值:
[0021]
[0022] 其中,tj表示强化特征j对应的影响值,f表示强化特征j的出现次数,j为正整数。
[0023] 因此,本申请实施例通过上述计算公式,能够精确地获得每个强化特征对应的影响值。
[0024] 在一个可能的实施例中,利用多个强化特征的特征个数和相似对象对应的总影响值,计算潜在风险指数,包括,根据以下公式计算潜在风险指数包括:
[0025]
[0026] 其中,l表示潜在风险指数,w表示所有强化特征的特征个数。
[0027] 因此,本申请实施例通过上述计算公式,能够精确地获得潜在风险指数。
[0028] 第二方面,本申请实施例提供了一种确定对象之间相似度的装置,该装置包括:获取模块,用于获取当前对象的统计数据,其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数;计算模块,用于利用每个初级特征的出现次数,计算每个初级特征对应的特征值;计算模块,还用于将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值;计算模块,还用于利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数;确定模块,用于根据相似指数,确定当前对象和目标对象的相似度。
[0029] 第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
[0030] 第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
[0031] 第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
[0032] 为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

[0033] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0034] 图1示出了本申请实施例提供的一种确定对象之间相似度的方法的流程图;
[0035] 图2示出了本申请实施例提供的一种评价对象的潜在风险的方法的流程图;
[0036] 图3示出了本申请实施例提供的一种确定对象之间相似度的装置的结构框图;
[0037] 图4示出了本申请实施例提供的一种电子设备的结构框图。

具体实施方式

[0038] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0039] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0040] 对象相似度作为一个重要课题,被广泛应用在欺诈检测、确定潜在风险等众多实际问题中。
[0041] 但是,现有的对象之间的相似度的确定方法可能存在着效率较低、时效性差(例如,由于事后处理等原因造成的时效性差的问题)和无法做到预测潜在风险等问题。
[0042] 基于此,本申请实施例提供了一种确定对象之间的相似度的方案,通过获取当前对象的统计数据,其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数,以及利用每个初级特征的出现次数,计算每个初级特征对应的特征值,以及将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值,以及利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数,最后根据相似指数,确定当前对象和目标对象的相似度。
[0043] 从而,本申请实施例可通过上述技术方案,能够减少确定当前对象和目标对象的相似度所消耗的时间,进而能够提高相似度的确定效率。
[0044] 为了便于理解本申请实施例,首先在此对本申请实施例中的一些术语进行解释如下:
[0045] “初级特征”可以是与目标对象的行为相关的特征。
[0046] 其中,目标对象可以是目标号码(例如,手机号、账号等),也可以是目标人物等。也就是说,目标对象的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0047] 应理解,目标对象的行为可以是正常行为。例如,在目标对象是目标人物的情况下,目标人物的正常行为可包括邮寄快递等;在目标对象是目标手机号的情况下,目标手机号的正常行为可包括呼出频率等。
[0048] 以及,目标对象的行为也可以是异常行为。例如,在目标对象是目标人物的情况下,目标人物的异常行为可以包括与特定人物联系等;在目标对象是目标手机号的情况下,目标手机号的异常行为可以包括传播恶意消息等。
[0049] 需要说明的是,目标对象的行为可以包括正常行为和/或异常行为,本申请实施例并不局限于此。
[0050] 对应地,初级特征可以包括目标对象的正常行为对应的特征,也可以包括与目标对象的异常行为对应的特征,本申请实施例并不局限于此。
[0051] 例如,初级特征可以包括向特定地区邮寄快递、与特定人物联系和安装敏感APP(Application,应用程序)和传播恶意消息等。
[0052] “强化特征”可以是与目标风险对象的行为相关的特征。其中,目标风险对象可为已经确定出的风险对象或者危险对象。
[0053] 其中,目标风险对象可以是危险号码(例如,危险手机号、危险账号等),也可以是危险人物等。其中,危险号码是指已经确定出存在风险的号码,危险人物是指已经确定出存在危险的人物。也就是说,目标风险对象的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0054] 应理解,目标风险对象的行为可以是异常行为。例如,在目标风险对象是危险人物的情况下,危险人物的异常行为包括使用敏感APP等;在目标风险对象是危险手机号的情况下,危险手机号的异常行为可以包括传播敏感文件等。
[0055] 以及,目标风险对象的行为可以是正常行为。例如,在目标风险对象是危险人物的情况下,危险人物的正常行为可以包括与特定人物联系等;在目标风险对象是危险手机号的情况下,危险手机号的正常行为可以包括号码归属地域等。
[0056] 需要说明的是,目标风险对象的行为可以包括正常行为和/或异常行为,本申请实施例并不局限于此。
[0057] 对应地,强化特征可以包括与目标风险对象的异常行为相关的特征,也可以包括与目标风险对象的正常行为相关的特征,本申请实施例并不局限于此。
[0058] 例如,强化特征可以包括使用敏感APP、传播敏感文件等。
[0059] 需要说明的是,在实际使用的时候,强化特征一般是与目标风险对象的异常行为相关的特征,从而可通过强化特征来确定与目标风险对象对应的相似对象的潜在风险。
[0060] 请参见图1,图1示出了本申请实施例提供的一种确定对象之间相似度的方法的流程图。应理解,图1所示的方法可以由确定对象之间相似度的装置执行,该装置可以与下文中的图3所示的装置对应,该装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此,具体包括如下步骤:
[0061] 步骤S110,获取当前对象的统计数据。其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数。
[0062] 应理解,当前对象可以是待检测号码(例如,手机号、账号等),也可以是待检测人物等。也就是说,当前对象的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0063] 还应理解,初级特征的出现次数可以表示在预设时间内,初级特征的出现次数或者发生的次数。
[0064] 例如,当预设时间是2019年1月1日至2019年1月31日的情况下,某一初级特征(例如,传播恶意消息等)出现了10次,则在这一个月内,该初级特征的出现次数是10次。
[0065] 需要说明的是,虽然前文中以初级特征的出现次数进行了描述,但本领域的技术人员应当理解,还可将初级特征的出现次数替换为其他单位的统计数据(例如,出现天数或者个数等),且替换后的方案也在本申请的保护范围内,本申请实施例并不局限于此。
[0066] 为了便于理解步骤S110,下面通过具体的实施例来进行描述。
[0067] 具体地,可从当前拥有的全部数据中筛选出当前对象的相关数据。然后,按照与目标对象的行为相关的多个预设初始特征,来对当前对象的相关数据进行分类。或者,将当前对象的相关数据中的每一个数据分别与多个预设初级特征进行匹配,从而对当前对象的相关数据进行分类。
[0068] 例如,当确定第一数据属于第一预设初始特征的范围内的情况下,可将该第一数据划分到与目标对象的行为相关的第一预设初始特征中。
[0069] 再例如,在将所有的数据划分完毕后,与目标对象的行为相关的第二预设初始特征没有被划分数据(或者说,该当前对象的相关数据中没有与第二预设初始特征匹配的数据),则可确定当前对象的统计数据不包括第二预设初始特征以及第二预设初始特征的出现次数。
[0070] 还应理解,预设初始特征的具体形式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0071] 需要说明的是,虽然上面以包含多个对象的相关数据作为原始数据来进行描述的,但本领域的技术人员应当理解,在原始数据为当前对象的相关数据的情况下,则可直接对当前对象的相关数据进行处理或者分类,即无需执行从多个对象的相关数据中挑选出当前对象的相关数据的步骤。
[0072] 步骤S120,利用每个初级特征的出现次数,计算每个初级特征对应的特征值。
[0073] 应理解,利用每个初级特征的出现次数,计算每个初级特征对应的特征值的具体公式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0074] 为了便于理解步骤S120,下面通过具体的实施例来进行描述。
[0075] 可选地,在获取到每个初级特征的出现次数之后,可根据以下公式计算每个初级特征对应的特征值:
[0076]
[0077] 其中,xi表示初级特征i对应的特征值,n表示初级特征i的出现次数,i为正整数。从而,初级特征i对应的特征值可以是通过上述公式计算得到的特征值。
[0078] 步骤S130,将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值。
[0079] 具体地,在多个初级特征的特征值分别为x1至xm的情况下,可通过以下公式计算当前对象对应的总特征值:
[0080]
[0081] 其中,m表示所有初级特征的特征个数(例如,在当前对象的统计数据包括3个初级特征的情况下,m=3)。
[0082] 步骤S140,利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数。其中,相似指数可表示当前对象和目标对象的相似度。
[0083] 应理解,利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数的具体公式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0084] 为了便于理解步骤S140,下面通过具体的实施例来进行描述。
[0085] 可选地,在获取总特征值后,可根据如下公式计算相似指数:
[0086]
[0087] 其中,q表示相似指数,m表示所有初级特征的特征个数。
[0088] 步骤S150,根据相似指数,确定当前对象和目标对象的相似度。
[0089] 应理解,根据相似指数,确定当前对象和目标对象的相似度的具体方式可根据实际需求来进行设置,本申请实施例并不局限于此。
[0090] 为了便于理解步骤S150,下面通过具体的实施例来进行描述。
[0091] 可选地,在获取到相似指数之后,可将相似指数和预设值进行比较。若相似指数大于等于预设值,则将当前对象确定为目标对象的相似对象;若相似指数小于预设值,则将当前对象确定为目标对象的非相似对象。
[0092] 应理解,预设值可根据实际需求来进行设置,本申请实施例并不局限于此。
[0093] 例如,在当前对象为待检测号码且目标对象为危险号码的情况下,则在当前对象对应的相似指数大于预设值的情况下,则将当前号码确定为疑似危险号码。
[0094] 再例如,在当前对象为待检测人物且目标对象为危险人物的情况下,则在当前对象对应的相似指数大于预设值的情况下,则可将当前人物确定为疑似危险人物。
[0095] 可选地,可将当前对象和目标对象的相似度划分为A个相似等级,且A个相似等级中每个相似等级都对应一个第一区间(例如,第一相似等级对应小于第一预设值的区间,第二相似等级对应位于第一预设值和第二预设值之间的区间,第三相似等级是大于第二预设值的区间等)。其中,A为正整数。
[0096] 应理解,每个相似等级可表示当前对象和目标对象的相似程度。
[0097] 例如,在划分有三个相似等级的情况下,第一相似等级表示当前对象和目标对象完全不相似,第二相似等级表示当前对象和目标对象有一点相似,第三相似等级表示当前对象和目标对象的相似度比较高。
[0098] 从而,在获取到相似指数之后,可确定相似指数位于A个第一区间中的那个第一区间,并确定该第一区间对应的相似等级,从而可基于相似等级确定当前对象和目标对象的相似程度。
[0099] 因此,本申请实施例可通过上述技术方案,能够减少确定当前对象和目标对象的相似度所消耗的时间,进而能够提高相似度的确定效率。
[0100] 此外,在目标对象是目标风险对象的情况下,本申请实施例还可在确定当前对象为目标对象的相似对象之后,可通过下文中图2所示的方法,对相似对象的潜在风险进行评估,从而可通过潜在风险,能够精准地对当前对象进行评价。
[0101] 请参见图2,图2示出了本申请实施例提供的一种评价对象的潜在风险的方法的流程图。应理解,图2所示的方法可以由确定对象之间相似度的装置执行,该装置可以与下文中的图3所示的装置对应,该装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请实施例并不限于此,具体包括如下步骤:
[0102] 步骤S210,获取相似对象的统计数据。其中,相似对象的统计数据包括与目标风险对象的行为相关的多个强化特征和多个强化特征中每个强化特征的出现次数。
[0103] 应理解,相似对象为通过图1所示的方法确定出的对象。
[0104] 还应理解,强化特征的出现次数可以表示在预设时间内,强化特征的出现次数或者发生的次数。
[0105] 例如,当预设时间是2018年10月1日至2018年10月31日的情况下,某一强化特征出现了5次,则在这1个月内,该强化特征的出现次数是5次。
[0106] 需要说明的是,虽然前文中以强化特征的出现次数进行了描述,但本领域的技术人员应当理解,还可将强化特征的出现次数替换为其他单位的统计数据(例如,出现天数或者个数等),且替换后的方案也在本申请的保护范围内,本申请实施例并不局限于此。
[0107] 还应理解,强化特征可以是与初级特征不同的特征,也可以是在初级特征的基础上,对初级特征进一步细化之后的特征(例如,在初级特征包含有安装敏感APP的情况下,强化特征可以是安装特定敏感APP(即某一款敏感APP)等),本申请实施例并不局限于此。
[0108] 为了便于理解步骤S210,下面通过具体的实施例来进行描述。
[0109] 具体地,可按照与目标风险对象的行为相关的多个预设强化特征,来对相似对象的相关数据进行分类。
[0110] 应理解,相似对象的相关数据的分类方法与当前对象的相关数据的分类方法类似,在此不再详细描述,具体可参见图1中步骤S110的相关描述。
[0111] 步骤S220,利用每个强化特征的出现次数,计算每个强化特征对应的影响值。
[0112] 应理解,利用每个强化特征的出现次数,计算每个强化特征对应的影响值的具体算法可根据实际需求来进行设置,本申请实施例并不局限于此。
[0113] 为了便于理解步骤S220,下面通过具体的实施例来进行描述。
[0114] 可选地,在获取到每个强化特征的出现次数后,可根据以下公式计算每个强化特征对应的影响值:
[0115]
[0116] 其中,tj表示强化特征j对应的影响值,f表示强化特征j的出现次数,j为正整数。从而,强化特征j对应的影响值可以是通过上述公式计算得到的影响值。
[0117] 步骤S230,将多个强化特征中的所有强化特征对应的影响值相加,得到相似对象对应的总影响值。
[0118] 具体地,在多个强化特征的特征值分别为t1至tw的情况下,可通过以下公式计算相似对象对应的总影响值:
[0119]
[0120] 其中,w表示所有强化特征的特征个数。
[0121] 步骤S240,利用多个强化特征的特征个数和相似对象对应的总影响值,计算潜在风险指数。
[0122] 应理解,利用多个强化特征的特征个数和相似对象对应的总影响值,计算潜在风险指数的具体算法可根据实际需求来进行设置,本申请实施例并不局限于此。
[0123] 为了便于理解步骤S240,下面通过具体的实施例来进行描述。
[0124] 可选地,在获取相似对象对应的总影响值后,可通过如下公式计算潜在风险指数:
[0125]
[0126] 其中,l表示潜在风险指数,w表示多个强化特征的特征个数。
[0127] 步骤S250,根据潜在风险指数,确定相似对象的潜在风险。
[0128] 应理解,根据潜在风险指数,确定相似对象的潜在风险的具体方式也可根据实际需求来进行设置,本申请实施例并不局限于此。
[0129] 为了便于理解步骤S250,下面通过具体的实施例来进行描述。
[0130] 可选地,可将潜在风险划分为B个风险等级,且B个风险等级中每个风险等级都具有一个第二区间(例如,第一风险等级对应小于第三预设值的区间,第二风险等级对应位于第三预设值和第四预设值之间的区间,第三风险等级是大于第四预设值的区间等)。其中,B为正整数。
[0131] 应理解,每个风险等级可表示相似对象的潜在风险程度。
[0132] 例如,在划分有两个风险等级的情况下,第一风险等级可表示潜在风险程度一般,第二风险等级可表示潜在风险程度比较高。
[0133] 从而,在获取到潜在风险指数后,可确定潜在风险指数位于B个第二区间中的那个第二区间,并确定该第二区间对应的风险等级,从而可基于风险等级确定相似对象的潜在风险程度。
[0134] 应理解,上述确定对象之间相似度的方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,变形之后的方案也处在本申请的保护范围内。
[0135] 请参见图3,图3示出了本申请实施例提供的一种确定对象之间相似度的装置300的结构框图,应理解,该装置300与上述方法实施例对应,能够执行上述方法实施例的各个步骤,该装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置300包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置
300的操作系统(operating system,OS)中的软件功能模块。具体地,该装置300包括:
[0136] 获取模块310,用于获取当前对象的统计数据,其中,当前对象的统计数据包括与目标对象的行为相关的多个初级特征和多个初级特征中每个初级特征的出现次数;计算模块320,用于利用每个初级特征的出现次数,计算每个初级特征对应的特征值;计算模块320,还用于将多个初级特征中的所有初级特征对应的特征值相加,得到当前对象对应的总特征值;计算模块320,还用于利用多个初级特征的特征个数和当前对象对应的总特征值,计算当前对象与目标对象的相似指数;确定模块330,用于根据相似指数,确定当前对象和目标对象的相似度。
[0137] 在一个可能的实施例中,计算模块320,还用于根据以下公式计算每个初级特征对应的特征值:
[0138]
[0139] 其中,xi表示初级特征i对应的特征值,n表示初级特征i的出现次数,i为正整数。
[0140] 在一个可能的实施例中,计算模块320,还用于根据以下公式计算相似指数:
[0141]
[0142] 其中,q表示相似指数,m表示所有初级特征的特征个数。
[0143] 在一个可能的实施例中,确定模块330,包括:比较模块(未示出),用于比较预设值和相似指数的大小;确定子模块(未示出),用于若相似指数大于等于预设值,则将当前对象确定为目标对象的相似对象。
[0144] 在一个可能的实施例中,在目标对象为目标风险对象的情况下,获取模块310,还用于获取相似对象的统计数据,其中,相似对象的统计数据包括与目标风险对象的行为相关的多个强化特征和多个强化特征中每个强化特征的出现次数;计算模块320,还用于利用每个强化特征的出现次数,计算每个强化特征对应的影响值;计算模块320,还用于将多个强化特征中的所有强化特征对应的影响值相加,得到相似对象对应的总影响值;计算模块320,还用于利用多个强化特征的特征个数和相似对象对应的总影响值,计算潜在风险指数;确定模块330,还用于根据潜在风险指数,确定相似对象的潜在风险。
[0145] 在一个可能的实施例中,计算模块320,还用于根据以下公式计算每个强化特征对应的影响值:
[0146]
[0147] 其中,tj表示强化特征j对应的影响值,f表示强化特征j的出现次数,j为正整数。
[0148] 在一个可能的实施例中,计算模块320,还用于根据以下公式计算潜在风险指数包括:
[0149]
[0150] 其中,l表示潜在风险指数,w表示所有强化特征的特征个数。
[0151] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0152] 图4示出了本申请实施例提供的一种电子设备400的结构框图。如图4所示,电子设备400可以包括处理器410、通信接口420、存储器430和至少一个通信总线440。其中,通信总线440用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口420用于与其他节点设备进行信令或数据的通信。处理器410可以是一种集成电路芯片,具有信号的处理能力。上述的处理器410可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器410也可以是任何常规的处理器等。
[0153] 存储器430可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read‑Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read‑Only Memory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read‑Only Memory,简称EEPROM)等。存储器430中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器410执行时,电子设备400可以执行如下步骤:获取当前对象的统计数据,其中,所述当前对象的统计数据包括与目标对象的行为相关的多个初级特征和所述多个初级特征中每个初级特征的出现次数;利用所述每个初级特征的出现次数,计算所述每个初级特征对应的特征值;将所述多个初级特征中的所有初级特征对应的特征值相加,得到所述当前对象对应的总特征值;利用所述多个初级特征的特征个数和所述当前对象对应的总特征值,计算所述当前对象与所述目标对象的相似指数;根据所述相似指数,确定所述当前对象和所述目标对象的相似度。
[0154] 电子设备400还可以包括存储控制器、输入输出单元、音频单元、显示单元。
[0155] 所述存储器430、存储控制器、处理器410、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线440实现电性连接。所述处理器410用于执行存储器430中存储的可执行模块,例如电子设备400包括的软件功能模块或计算机程序。
[0156] 输入输出单元用于提供给用户输入数据实现用户与其他设备的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
[0157] 音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
[0158] 显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
[0159] 可以理解,图4所示的结构仅为示意,所述电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
[0160] 本申请提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例所述的方法。
[0161] 本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
[0162] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
[0163] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0164] 本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0165] 另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0166] 所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0167] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0168] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。