会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 特征向量 / 对象的分类方法、业务的推送方法及服务器

对象的分类方法、业务的推送方法及服务器

阅读:995发布:2021-03-03

IPRDB可以提供对象的分类方法、业务的推送方法及服务器专利检索,专利查询,专利分析的服务。并且本申请实施例涉及一种对象的分类方法、业务的推送方法及服务器,包括:获取待分类的对象集合中各个待分类的对象的特征向量的值,构成第一集合;获取目标对象集合中各个目标对象的特征向量的值,构成第二集合;对第一集合进行去重处理,得到第三集合,以及对第二集合进行去重处理,得到第四集合;对第三集合中任一特征向量的值,计算任一特征向量的值与第四集合中各特征向量的值的相似度,得到与任一特征向量的值对应的多个相似度;当多个相似度之和大于预设的阈值时,则识别任一特征向量的值对应的待分类的对象与目标对象集合中的目标对象为同一类对象。由此,可以解决在将目标用户分类的过程中,存在的计算量过大,而严重耗费计算机资源的问题。,下面是对象的分类方法、业务的推送方法及服务器专利的具体信息内容。

1.一种对象的分类方法,其特征在于,该方法包括:

获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合;

获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合;

对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合;

对所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度;

当所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。

2.根据权利要求1所述的方法,其特征在于,

所述对所述第一集合中特征向量的值进行去重处理,得到第三集合包括:步骤1:从所述第一集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第一集合中所述第一特征向量的值删除;

步骤2:从所述第一集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第一集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第一集合中删除;

步骤3:重复执行步骤2,直至将所述第一集合中特征向量的值删除完毕,将所述中间集合作为第三集合。

3.根据权利要求1所述的方法,其特征在于,

所述对所述第二集合中特征向量的值进行去重处理,得到第四集合包括:步骤1:从所述第二集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第二集合中所述第一特征向量的值删除;

步骤2:从所述第二集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第二集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第二集合中删除;

步骤3:重复执行步骤2,直至将所述第二集合中特征向量的值删除完毕,将所述中间集合作为第四集合。

4.根据权利要求1-3任一所述的方法,其特征在于,在所述对所述第二集合中特征向量的值进行去重处理,得到第四集合之后,所述方法还包括:根据笛卡尔积的连接方式,对所述第三集合中特征向量的值与所述第四集合中特征向量的值进行组合。

所述计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度包括:对组合的所述任一特征向量的值与所述第四集合中各特征向量的值计算相似度。

5.根据权利要求1所述的方法,其特征在于,在所述对所述第一集合中特征向量的值进行去重处理,得到第三集合之后,在所述对所述第二集合中特征向量的值进行去重处理,得到第四集合之前,所述方法还包括:统计所述第三集合中各特征向量的值在所述第二集合中重复出现的次数。

6.根据权利要求5所述的方法,其特征在于,在所述计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度之后,所述方法还包括:将所述多个相似度之和与所述任一特征向量的值在所述第二集合中重复出现的次数相乘,得到目标相似度和;

所述当所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象包括:当所述目标相似度和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。

7.一种业务的推送方法,其特征在于,所述方法包括:

识别第一对象与目标对象集合中的对象为同一类对象,包括:

获取所述第一对象的特征向量的值;

获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;

对所述第一集合中特征向量的值进行去重处理,得到第二集合;

计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;

当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;

向所述第一对象,推送与所述目标对象集合中的对象相同的业务。

8.根据权利要求7所述的方法,在所述对所述第一集合中特征向量的值进行去重处理,得到第二集合之后,所述方法还包括:根据笛卡尔积的连接方式,对所述第一对象的特征向量的值与所述第四集合中特征向量的值进行组合;

所述计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度包括:对组合的所述第一对象的特征向量的值与所述第二集合中各特征向量的值计算相似度。

9.一种服务器,其特征在于,该服务器包括:第一获取单元、第二获取单元、处理单元、计算单元和识别单元;

所述第一获取单元,用于获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合;

所述第二获取单元,用于获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合;

所述处理单元,用于对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合;

所述计算单元,用于对所述处理单元得到的所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度;

所述识别单元,用于当所述计算单元得到的所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。

10.根据权利要求9所述的服务器,其特征在于,所述处理单元具体用于:步骤1:从所述第一集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第一集合中所述第一特征向量的值删除;

步骤2:从所述第一集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第一集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第一集合中删除;

步骤3:重复执行步骤2,直至将所述第一集合中特征向量的值删除完毕,将所述中间集合作为第三集合。

11.根据权利要求9所述的服务器,其特征在于,所述处理单元具体用于:步骤1:从所述第二集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第二集合中所述第一特征向量的值删除;

步骤2:从所述第二集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第二集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第二集合中删除;

步骤3:重复执行步骤2,直至将所述第二集合中特征向量的值删除完毕,将所述中间集合作为第四集合。

12.根据权利要求9-11任一所述的服务器,其特征在于,所述服务器还包括:组合单元,用于根据笛卡尔积的连接方式,对所述第三集合中特征向量的值与所述第四集合中特征向量的值进行组合。

所述计算单元具体用于:对组合的所述任一特征向量的值与所述第四集合中各特征向量的值计算相似度。

13.根据权利要求9所述的服务器,其特征在于,所述服务器还包括:统计单元,用于统计所述第三集合中各特征向量的值在所述第二集合中重复出现的次数。

14.根据权利要求13所述的服务器,其特征在于,所述服务器还包括:乘法单元,用于将所述多个相似度之和与所述任一特征向量的值在所述第二集合中重复出现的次数相乘,得到目标相似度和;

所述识别单元具体用于:当所述目标相似度和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。

15.一种服务器,其特征在于,所述服务器包括:识别单元和推送单元;

所述识别单元,用于识别第一对象与目标对象集合中的对象为同一类对象,包括:获取所述第一对象的特征向量的值;

获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;

对所述第一集合中特征向量的值进行去重处理,得到第二集合;

计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;

当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;

所述推送单元,用于向所述第一对象,推送与所述目标对象集合中的对象相同的业务。

16.根据权利要求15所述的服务器,其特征在于,所述服务器还包括:组合单元,用于根据笛卡尔积的连接方式,对所述第一对象的特征向量的值与所述第四集合中特征向量的值进行组合;

所述识别单元具体用于:对组合的所述第一对象的特征向量的值与所述第二集合中各特征向量的值计算相似度。

说明书全文

对象的分类方法、业务的推送方法及服务器

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及一种对象的分类方法、业务的推送方法及服务器。

背景技术

[0002] 随着电子商务的飞速发展,电子商务(例如,支付宝)用户越来越多。对这些与日俱增的电子商务用户,由于其爱好和习惯是不明确的,所以通常不能向这些用户推送其所需业务。
[0003] 现有技术中,以支付宝为例,将支付宝中近一年的活跃用户作为目标用户,共计2亿,将2亿目标用户构成目标用户集合。而将支付宝中使用理财等功能的优质用户作为种子用户,种子用户的爱好和习惯通常是明确的,比如,擅长理财之类的。支付宝中种子用户共计80万,将80万种子用户构成种子用户集合。然后将目标用户集合与种子用户集合做连接(join)操作,即将目标用户集合中目标用户与种子用户集合中种子用户两两组合。之后对组合后的任一目标用户与种子用户集合中的各种子用户计算相似度,如果相似度之和大于预设的阈值,则识别上述任一目标用户与种子用户集合中的种子用户为同一类用户,从而可以根据种子用户的爱好和习惯,向与该种子用户为同一类用户的目标用户推送相同的业务。例如,当某种子用户集合中种子用户的爱好为理财时,则可以向与该种子用户为同一类用户的目标用户推送相应的理财产品等。
[0004] 然而,在上述将目标用户集合与种子用户集合做join操作的过程中,其计算量是2亿*80万,大约有160万亿的数据条数,完成这个计算量的时长是不可接受的。即,现有技术中,在将目标用户分类的过程中,存在计算量过大,而大量耗费计算机资源的问题。

发明内容

[0005] 本申请实施例提供了一种对象的分类方法、业务的推送方法及服务器,可以解决在将目标用户分类的过程中,存在的计算量过大,而严重耗费计算机资源的问题。
[0006] 第一方面,提供了一种对象的分类方法,该方法包括:
[0007] 获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合;
[0008] 获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合;
[0009] 对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合;
[0010] 对所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度;
[0011] 当所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0012] 第二方面,提供了一种业务的推送方法,该方法包括:
[0013] 识别第一对象与目标对象集合中的对象为同一类对象,包括:
[0014] 获取所述第一对象的特征向量的值;
[0015] 获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;
[0016] 对所述第一集合中特征向量的值进行去重处理,得到第二集合;
[0017] 计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;
[0018] 当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;
[0019] 向所述第一对象,推送与所述目标对象集合中的对象相同的业务。
[0020] 第三方面,提供了一种服务器,该服务器包括:第一获取单元、第二获取单元、处理单元、计算单元和识别单元;
[0021] 所述第一获取单元,用于获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合;
[0022] 所述第二获取单元,用于获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合;
[0023] 所述处理单元,用于对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合;
[0024] 所述计算单元,用于对所述处理单元得到的所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度;
[0025] 所述识别单元,用于当所述计算单元得到的所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0026] 第四方面,提供了一种服务器,该服务器包括:识别单元和推送单元;
[0027] 所述识别单元,用于识别第一对象与目标对象集合中的对象为同一类对象,包括:
[0028] 获取所述第一对象的特征向量的值;
[0029] 获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;
[0030] 对所述第一集合中特征向量的值进行去重处理,得到第二集合;
[0031] 计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;
[0032] 当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;
[0033] 所述推送单元,用于向所述第一对象,推送与所述目标对象集合中的对象相同的业务。
[0034] 本申请实施例提供的对象的分类方法、业务的推送方法及服务器,在获取到第一集合和第二集合后,分别对第一集合中特征向量的值和第二集合中特征向量的值进行去重处理,然后将去重处理后得到的第三集合中特征向量的值与第四集合中特征向量的值计算相似度,最后根据计算得到的相似度对待分类的对象进行分类,由此,可以大大减小计算量,从而保证待分类的对象的分类过程能够在可接受的时间范围内完成。

附图说明

[0035] 图1为本申请实施例一提供的对象的分类方法流程图;
[0036] 图2为本申请实施例二提供的业务的推送方法流程图;
[0037] 图3为本申请实施例三提供的服务器示意图;
[0038] 图4为本申请实施例四提供的服务器示意图。

具体实施方式

[0039] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040] 为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
[0041] 本申请实施例提供的对象的分类方法及服务器,适用于对待分类的对象进行分类的场景,尤其适用于对支付宝中目标用户进行分类的场景,其中,目标用户的爱好和习惯是不明确的,例如,目标用户是否爱好理财,消费习惯等都是不明确的。
[0042] 本申请实施例提供的业务的推送方法,适用于在根据本申请实施例提供的对象的分类方法,识别第一对象与目标对象集合中的对象为同一类对象时,向第一对象推送与目标对象集合中的对象相同的业务。尤其适用于在将支付宝中的目标用户识别为与种子用户集合中的种子用户为同一类用户时,向上述目标用户推送与种子用户相同的业务。
[0043] 图1为本申请实施例一提供的对象的分类方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图1所示,所述方法具体包括:
[0044] 步骤110,获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合。
[0045] 在此说明,待分类的对象用于表示跟自然人相关的单独个体,可以为用来表示单独个体的用户、账户和账号等。在此说明书中,以待分类的对象为待分类的用户为例进行说明。在支付宝中,待分类的用户为近一年的活跃用户,这些用户的爱好和习惯是不明确的,可以由服务器直接从支付宝的后台数据库中获取。
[0046] 在对待分类的用户进行分类之前,将待分类的用户通过5个一级特征向量表示,该5个一级特征向量分别为:年龄、职业、所在城市、消费能力和理财能力;上述每个一级特征向量又可以再细分为二级特征向量,其中,年龄划分为7个区间,则得到7个二级特征向量;职业划分为学生、教师和未知等8类,则可以得到8个二级特征向量;所在城市按级别划分为6类,则可以得到6个二级特征向量;消费能力划分为10档,则可以得到10个二级特征向量;理财能力划分为6档,则可以得到6个二级特征向量,综上,根据上述一级特征向量可以得到37个二级特征向量。
[0047] 可以理解的是,对任一待分类的用户,都可以将其通过37个二级特征向量表示,但是对不同的待分类的用户,其对应的37个二级特征向量的值是不相同的。
[0048] 需要说明的,上述二级特征向量的值均为布尔值。举例来说,一级特征向量:年龄划分的7个区间,也即根据一级特征:年龄,得到的二级特征向量为[1,18],(18,25],(25,30],(30,40],(40,60],(60,70],(70,100],则当待分类的用户的年龄为20岁时,则该待分类的用户对应的上述7个特征向量的值为:0,1,0,0,0,0,0。
[0049] 举例来说,从支付宝后台数据库中获取三个目标用户:用户A、用户B和用户C,则待分类的对象的集合为:{用户A,用户B,用户C},待分类的对象为:用户A、用户B和用户C,且获取到待分类的对象:用户A的37个二级特征向量的值为:{a1,a2,…,a37},获取到待分类的对象:用户B的37个二级特征向量的值为:{b1,b2,…,b37},获取到待分类的对象:用户C的37个二级特征向量的值为:{c1,c2,…,c37},其中,ai、bi或者ci(1≤i≤37)为
0或1。最后将用户A的37个二级特征向量的值、用户B的37个二级特征向量的值和用户C的37个二级特征向量的值构成第一集合,即第一集合为:{{a1,a2,…,a37},{b1,b2,…,b37},{c1,c2,…,c37}}。
[0050] 步骤120,获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合。
[0051] 需要说明的是,目标对象的定义与待分类的对象的定义是相同的。在此说明书中,同样以目标对象为目标用户为例进行说明。在支付宝中,目标用户为支付宝中使用理财等功能的优质用户,这些用户的爱好和习惯是明确的,也可以由服务器直接从支付宝的后台数据库中获取。
[0052] 对任一目标用户,同样将其通过37个二维特征向量表示。
[0053] 如前述例子,从支付宝后台数据库中获取两个种子用户:用户X,用户Y,则获取到目标对象的集合为:{用户X,用户Y},目标对象为:用户X,用户Y,且获取到目标对象:用户X的37个二级特征向量的值为:{x1,x2,…,x37},获取到目标对象:用户Y的37个二级特征向量的值为:{y1,y2,…,y37},其中,xi或者yi(1≤i≤37)为0或1。最后将用户X的37个二级特征向量的值和用户Y的37个二级特征向量的值构成第二集合,即第二集合为:
{{x1,x2,…,x37},{y1,y2,…,y37}}。
[0054] 步骤130,对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合。
[0055] 其中,对所述第一集合中特征向量的值进行去重处理,得到第三集合包括:
[0056] 步骤1:从所述第一集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第一集合中所述第一特征向量的值删除;
[0057] 步骤2:从所述第一集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第一集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第一集合中删除;
[0058] 步骤3:重复执行步骤2,直至将所述第一集合中特征向量的值删除完毕,将所述中间集合作为第三集合。
[0059] 如前述例子中,第一集合为:{{a1,a2,…,a37},{b1,b2,…,b37},{c1,c2,…,c37}},假设ai=bi,其中,1≤i≤37,即用户A的37个特征向量的值与用户B的37个特征向量的值是相同的。则得到第三集合的过程具体为:预先设定中间集合M,M为空;然后从第一集合中选取第一特征向量的值,第一特征向量的值可以为第一集合中任一待分类的对象的特征向量的值,例如,{a1,a2,…,a37};将{a1,a2,…,a37}加入M,则M={{a1,a2,…,a37}},并将第一集合中{a1,a2,…,a37}删除,即第一集合更新为:{{b1,b2,…,b37},{c1,c2,…,c37}};之后从第一集合中选取第二特征向量的值,第二特征向量的值为更新后的第一集合中任一待分类的对象的特征向量的值,例如,{c1,c2,…,c37},将{c1,c2,…,c37}与M中的{a1,a2,…,a37}进行比对,若任一ci≠ai(1≤i≤37),则说明上述第二特征向量的值与M中特征向量的值不一致,将{c1,c2,…,c37}加入M中,M更新为:{{a1,a2,…,a37},{c1,c2,…,c37}},并将第一集合中{c1,c2,…,c37}删除,即第一集合更新为:{{b1,b2,…,b37}};因为第一集合中特征向量的值还没有删除完毕,所以再次从第一集合中选取第二特征向量的值,例如,{b1,b2,…,b37},因为ai=bi,所以直接将{b1,b2,…,b37}从第一集合中删除。因为第一集合中特征向量的值已经删除完毕,所以将M={{a1,a2,…,a37},{c1,c2,…,c37}}作为第三集合。
[0060] 在上述将第二特征向量的值与中间集合中特征向量的值进行比对的过程中,如果M中还有其他特征向量的值,则还需要将第二特性向量的值与其他特征向量的值进行比对,当第二特征向量的值与中间集合中所有特征向量的值均不一致时,才将第二特征向量的值加入中间集合中。
[0061] 可选地,在所述对所述第一集合中特征向量的值进行去重处理,得到第三集合之后,在所述对所述第二集合中特征向量的值进行去重处理,得到第四集合之前,所述方法还包括:
[0062] 统计所述第三集合中各特征向量的值在所述第二集合中重复出现的次数。
[0063] 如前述例子中,得到的第二集合为:{{x1,x2,…,x37},{y1,y2,…,y37}},而第三集合为:{{a1,a2,…,a37},{c1,c2,…,c37}},假设ai=xi=yi,其中,1≤i≤37,则{a1,a2,…,a37}在第二集合中重复出现的次数为2,而{c1,c2,…,c37}在第二集合中重复出现的次数为0。
[0064] 其中,对所述第二集合中特征向量的值进行去重处理,得到第四集合包括:
[0065] 步骤1:从所述第二集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第二集合中所述第一特征向量的值删除;
[0066] 步骤2:从所述第二集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第二集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第二集合中删除;
[0067] 步骤3:重复执行步骤2,直至将所述第二集合中特征向量的值删除完毕,将所述中间集合作为第四集合。
[0068] 前述例子中,第二集合为:{{x1,x2,…,x37},{y1,y2,…,y37}},假设xi=yi,其中,1≤i≤37,即用户X的37个特征向量的值与用户Y的37个特征向量的值是相同的。则
根据上述步骤得到的第四集合为:{x1,x2,…,x37}。
[0069] 步骤140,对所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度。
[0070] 可选地,在所述对所述第二集合中特征向量的值进行去重处理,得到第四集合之后,所述方法还包括:
[0071] 根据笛卡尔积的连接方式,对所述第三集合中特征向量的值与所述第四集合中特征向量的值进行组合。
[0072] 所述计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度包括:
[0073] 对组合的所述任一特征向量的值与所述第四集合中各特征向量的值计算相似度。
[0074] 如前述例子中,第三集合为:{{a1,a2,…,a37},{c1,c2,…,c37}},第四集合为:{x1,x2,…,x37},根据笛卡尔积的连接方式,对所述第三集合中特征向量的值与所述第四集合中特征向量的值进行组合后为:{{a1,a2,…,a37},{x1,x2,…,x37}},{{c1,c2,…,c37},{x1,x2,…,x37}}。对第三集合中任一特征向量的值:{a1,a2,…,a37},计算{a1,a2,…,a37}与{x1,x2,…,x37}的相似度S1。
[0075] 其中,{a1,a2,…,a37}与{x1,x2,…,x37}的相似度计算公式如下:
[0076]
[0077] ai为{a1,a2,…,a37}中任一值,xi为{x1,x2,…,x37}中任一值。
[0078] 需要说明的是,当上述组合还包括:{{a1,a2,…,a37}与{z1,z2,…,z37}}时,则对第三集合中任一特征向量的值:{a1,a2,…,a37},还需计算{a1,a2,…,a37}与{z1,z2,…,z37}的相似度S2,从而可以得到与任一特征向量的值:{a1,a2,…,a37}对应的两个相似度S1和S2。
[0079] 步骤150,当所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0080] 优选地,将所述多个相似度之和与所述任一特征向量的值在所述第二集合中重复出现的次数相乘,得到目标相似度和;
[0081] 所述当所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象包括:
[0082] 当所述目标相似度和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0083] 如前述例子中,对第三集合中任一特征向量的值:{a1,a2,…,a37},计算出{a1,a2,…,a37}与{x1,x2,…,x37}的相似度S1,并计算出{a1,a2,…,a37}与{z1,z2,…,z37}的相似度S2之后,将S1与S2相加得到Sadd;而在步骤130中统计出{a1,a2,…,a37}在第二集合中重复出现的次数为2,将Sadd与2相乘得到目标相似度和为2*Sadd;而假设2*Sadd大于预设的阈值,则识别{a1,a2,…,a37}对应的用户A与目标对象集合中的用户X和用户Y为同一类对象。而由于ai=bi,其中,1≤i≤37,因此,也可以识别{b1,b2,…,b37}对应的用户B与目标对象集合中的用户X和用户Y为同一类对象。类似地,可以识别{c1,c2,…,c37}对应的用户C与目标对象集合中的用户X和用户Y为同一类对象或者不为同一类对象。
[0084] 在支付宝中,当待分类的用户为2亿,而目标用户为80万,且需要将2亿待分类的用户进行分群时,通过本申请的方法,可以将计算量从2亿*80万(这个计算量在12小时内未能完成)降为2000*1500,而2000*1500的计算量可以分钟级完成。由此,本申请实施例提供的对象的分类方法可以大大减小计算量,从而保证待分类的对象的分类过程能够在可接受的时间范围内完成。
[0085] 本申请实施例提供的对象的分类方法,在获取到第一集合和第二集合后,分别对第一集合中特征向量的值和第二集合中特征向量的值进行去重处理,然后将去重处理后得到的第三集合中特征向量的值与第四集合中特征向量的值计算相似度,最后根据计算得到的相似度对待分类的对象进行分类,由此,可以大大减小计算量,从而保证待分类的对象的分类过程能够在可接受的时间范围内完成。
[0086] 图2为本申请实施例二提供的业务的推送方法流程图。该实施例二中根据实施例一提供的对象的分类方法,识别第一对象与目标对象集合中的对象为同一类对象时,向第一对象推送与目标对象集合中的对象相同的业务。关于识别第一对象与目标对象集合中的对象为同一类对象的部分,可以参照实施例一。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图2所示,所述方法具体可包括以下步骤:
[0087] 步骤210,识别第一对象与目标对象集合中的对象为同一类对象。
[0088] 需要说明的是,本实施例中的第一对象为实施例一中的待分类的对象集合中任一待分类的对象。第一对象的定义同待分类的对象,在此不作赘述。
[0089] 其中,如图2所示,所述识别第一对象与目标对象集合中的对象为同一类对象,包括:
[0090] 步骤2101,获取所述第一对象的特征向量的值;
[0091] 步骤2102,获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;
[0092] 步骤2103,对所述第一集合中特征向量的值进行去重处理,得到第二集合;
[0093] 步骤2104,计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;
[0094] 步骤2105,当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;
[0095] 步骤220,向所述第一对象,推送与所述目标对象集合中的对象相同的业务。
[0096] 可选地,所述对所述第一集合中特征向量的值进行去重处理,得到第二集合包括:
[0097] 步骤1:从所述第一集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第一集合中所述第一特征向量的值删除;
[0098] 步骤2:从所述第一集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第一集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第一集合中删除;
[0099] 步骤3:重复执行步骤2,直至将所述第一集合中特征向量的值删除完毕,将所述中间集合作为第二集合。
[0100] 可选地,在所述对所述第一集合中特征向量的值进行去重处理,得到第二集合之后,所述方法还包括:
[0101] 根据笛卡尔积的连接方式,对所述第一对象的特征向量的值与所述第四集合中特征向量的值进行组合。
[0102] 所述计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度包括:
[0103] 对组合的所述第一对象的特征向量的值与所述第二集合中各特征向量的值计算相似度。
[0104] 可选地,在所述对所述第一集合中特征向量的值进行去重处理,得到第二集合之后,所述方法还包括:
[0105] 统计所述第一对象的特征向量的值在所述第二集合中重复出现的次数。
[0106] 可选地,在计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度之后,得到与所述第一对象的特征向量的值对应的多个相似度所述方法还包括:
[0107] 将所述多个相似度之和与所述第一对象的特征向量的值在所述第二集合中重复出现的次数相乘,得到目标相似度和;
[0108] 所述当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象包括:
[0109] 当所述目标相似度和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象。
[0110] 本申请实施例提供的业务的推送方法,在获取到第一集合后,对第一集合中特征向量的值进行去重处理,然后将第一对象的特征向量的值与去重处理后得到的第二集合中特征向量的值计算相似度,由此,可以大大减小计算量,节约计算机资源,并且可以保证准确地向第一对象推送业务。
[0111] 与上述对象的分类方法对应地,本申请实施例还提供的一种服务器,如图3所示,该服务器包括:第一获取单元301、第二获取单元302、处理单元303、计算单元304和识别单元305。
[0112] 第一获取单元301,用于获取待分类的对象集合以及所述待分类的对象集合中各个待分类的对象的特征向量的值,并将所述各个待分类的对象的特征向量的值构成第一集合。
[0113] 第二获取单元302,用于获取目标对象集合以及所述目标对象集合中各个目标对象的特征向量的值,并将所述各个目标对象的特征向量的值构成第二集合。
[0114] 处理单元303,用于对所述第一集合中特征向量的值进行去重处理,得到第三集合,以及对所述第二集合中特征向量的值进行去重处理,得到第四集合。
[0115] 计算单元304,用于对处理单元303得到的所述第三集合中任一特征向量的值,计算所述任一特征向量的值与所述第四集合中各特征向量的值的相似度,得到与所述任一特征向量的值对应的多个相似度。
[0116] 识别单元305,用于当计算单元304得到的所述多个相似度之和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0117] 可选地,处理单元303具体用于:
[0118] 步骤1:从所述第一集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第一集合中所述第一特征向量的值删除;
[0119] 步骤2:从所述第一集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第一集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第一集合中删除;
[0120] 步骤3:重复执行步骤2,直至将所述第一集合中特征向量的值删除完毕,将所述中间集合作为第三集合。
[0121] 可选地,处理单元303具体用于:
[0122] 步骤1:从所述第二集合中选取第一特征向量的值,将所述第一特征向量的值加入中间集合,并将所述第二集合中所述第一特征向量的值删除;
[0123] 步骤2:从所述第二集合中选取第二特征向量的值,将所述第二特征向量的值与所述中间集合中的特征向量的值进行比对,将比对不一致的第二特征向量的值加入所述中间集合中,并将所述第二集合中所述第二特征向量的值删除;将比对一致的第二特征向量的值直接从所述第二集合中删除;
[0124] 步骤3:重复执行步骤2,直至将所述第二集合中特征向量的值删除完毕,将所述中间集合作为第四集合。
[0125] 可选地,所述服务器还包括:组合单元306,用于根据笛卡尔积的连接方式,对所述第三集合中特征向量的值与所述第四集合中特征向量的值进行组合。
[0126] 计算单元304具体用于:对组合的所述任一特征向量的值与所述第四集合中各特征向量的值计算相似度。
[0127] 可选地,所述服务器还包括:统计单元307,用于统计所述第三集合中各特征向量的值在所述第二集合中重复出现的次数。
[0128] 可选地,所述服务器还包括:乘法单元308,用于将所述多个相似度之和与所述任一特征向量的值在所述第二集合中重复出现的次数相乘,得到目标相似度和。
[0129] 识别单元305具体用于:当所述目标相似度和大于预设的阈值时,则识别所述任一特征向量的值对应的待分类的对象与所述目标对象集合中的目标对象为同一类对象。
[0130] 本申请实施例提供的服务器,在获取到第一集合和第二集合后,分别对第一集合中特征向量的值和第二集合中特征向量的值进行去重处理,然后将去重处理后得到的第三集合中特征向量的值与第四集合中特征向量的值计算相似度,最后根据计算得到的相似度对待分类的对象进行分类,由此,可以大大减小计算量,从而保证待分类的对象的分类过程能够在可接受的时间范围内完成。
[0131] 与上述业务的推送方法对应地,本申请实施例还提供的一种服务器,如图4所示,该服务器包括:识别单元401和推送单元402。
[0132] 识别单元401,用于识别第一对象与目标对象集合中的对象为同一类对象,包括:
[0133] 获取所述第一对象的特征向量的值;
[0134] 获取所述目标对象集合以及所述目标对象集合中各个对象的特征向量的值,并将所述各个对象的特征向量的值构成第一集合;
[0135] 对所述第一集合中特征向量的值进行去重处理,得到第二集合;
[0136] 计算所述第一对象的特征向量的值与所述第二集合中各特征向量的值的相似度,得到与所述第一对象的特征向量的值对应的多个相似度;
[0137] 当所述多个相似度之和大于预设的阈值时,则识别所述第一对象与所述目标对象集合中的对象为同一类对象;
[0138] 推送单元402,用于向所述第一对象,推送与所述目标对象集合中的对象相同的业务。
[0139] 可选地,所述服务器还包括:组合单元403,用于根据笛卡尔积的连接方式,对所述第一对象的特征向量的值与所述第四集合中特征向量的值进行组合;
[0140] 识别单元401具体用于:对组合的所述第一对象的特征向量的值与所述第二集合中各特征向量的值计算相似度。
[0141] 本申请实施例提供的服务器,在获取到第一集合后,对第一集合中特征向量的值进行去重处理,然后将第一对象的特征向量的值与去重处理后得到的第二集合中特征向量的值计算相似度,由此,可以大大减小计算量,节约计算机资源,并且可以保证准确地向第一对象推送业务。
[0142] 专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的对象及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0143] 结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0144] 以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用