用户画像修正方法、装置、介质和电子设备转让专利

申请号 : CN202011215640.6

文献号 : CN112256973B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈迪郭凯李嘉晨

申请人 : 贝壳找房(北京)科技有限公司

摘要 :

公开了一种用户画像修正方法、装置、介质以及电子设备。其中的方法主要包括:获取多个用户的用户描述信息;将多个用户的用户描述信息分别映射为特征向量;针对特征向量包含的任一特征向量段,从多个用户中选取具有相同的该特征向量段的用户,并将具有相同该特征向量段的用户划分在一个组中;根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定用户的用户画像的置信度;根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。本公开有利于更好的满足用户需求,最终有利于提高目标行为的发生概率。

权利要求 :

1.一种用户画像修正方法,包括:获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画像;

将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特征向量段;

针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;

根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;

针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度;

根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。

2.根据权利要求1所述的方法,其中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;

所述获取多个用户的用户描述信息,包括:根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征;

对所述各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。

3.根据权利要求2所述的方法,其中,所述根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征,包括:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行为次数;

针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户的用户行为特征。

4.根据权利要求1所述的方法,其中,所述根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群,包括:针对组中的任一个用户,根据最小哈希法,从所述用户的特征向量中选取部分维度的特征向量;

计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似度;

将相似度符合预定相似度要求的用户作为该用户的相似用户群中的用户。

5.根据权利要求1至4中任一项所述的方法,其中,所述针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度,包括:

针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值;

针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度。

6.根据权利要求5所述的方法,其中,所述针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度,包括:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。

7.根据权利要求1至4中任一项所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

8.根据权利要求5所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

9.根据权利要求6所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

10.一种用户画像修正装置,其中,所述装置包括:获取描述信息模块,用于获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画像;

映射模块,用于将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特征向量段;

组划分模块,用于针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;

确定用户群模块,用于根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;

确定置信度模块,用于针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度;

修正用户画像模块,用于根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。

11.根据权利要求10所述的装置,其中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;

所述获取描述信息模块包括:

第一子模块,用于根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征;

第二子模块,用于对所述各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。

12.根据权利要求11所述的装置,其中,所述第一子模块进一步用于:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行为次数;

针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户的用户行为特征。

13.根据权利要求10所述的装置,其中,所述确定用户群模块包括:第三子模块,用于针对组中的任一个用户,根据最小哈希法,从所述用户的特征向量中选取部分维度的特征向量;

第四子模块,用于计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似度;

第五子模块,用于将相似度符合预定相似度要求的用户作为该用户的相似用户群中的用户。

14.根据权利要求10至13中任一项所述的装置,其中,所述确定置信度模块,包括:第六子模块,用于针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值;

第七子模块,用于针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度。

15.根据权利要求14所述的装置,其中,所述第七子模块进一步用于:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。

16.根据权利要求10至13中任一项所述的装置,其中,所述修正用户画像模块进一步用于:

确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

17.根据权利要求14所述的装置,其中,所述修正用户画像模块进一步用于:确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

18.根据权利要求15所述的装置,其中,所述修正用户画像模块进一步用于:确定预定场景所对应的置信度阈值;

对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。

19.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑9中任一项所述的方法。

20.一种电子设备,所述电子设备包括:处理器;

用于存储所述处理器可执行指令的存储器;

所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1‑9中任一项所述的方法。

说明书 :

用户画像修正方法、装置、介质和电子设备

技术领域

[0001] 本公开涉及计算机技术,尤其是涉及一种用户画像修正方法、用户画像修正装置、存储介质以及电子设备。

背景技术

[0002] 由于用户画像可以刻画出目标用户,并描述出用户诉求,因此,用户画像可以用于需要为用户提供个性化服务的应用中,以便于促使为用户提供的服务能够更好的满足用户
需求。如何提高用户画像的准确性,是一个值得关注的技术问题。

发明内容

[0003] 为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用户画像修正方法、用户画像修正装置、存储介质以及电子设备。
[0004] 根据本公开实施例的一方面,提供一种用户画像修正方法,该方法包括:获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画
像;将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特
征向量段;针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同
的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;
根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;针对任一用户,
根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户
的用户画像的置信度;根据相似用户群中的用户的用户画像,对置信度不符合预设置信度
要求的用户的用户画像进行修正。
[0005] 在本公开一实施方式中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;所述获取多个用户的用户描述信息,包括:根据用户操作数据,获取各
用户的用户静态属性标签和各用户的用户行为特征;对所述各用户的用户静态属性标签和
各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
[0006] 在本公开又一实施方式中,所述根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征,包括:根据用户操作数据,对各用户分别针对各偏好枚举值
所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行
为次数;针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户
的用户行为特征。
[0007] 在本公开再一实施方式中,所述根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群,包括:针对组中的任一个用户,根据最小哈希法,从所述用户的
特征向量中选取部分维度的特征向量;计算该用户的所述部分维度的特征向量分别与该用
户所在组中的其他各用户的部分维度的特征向量的相似度;将相似度符合预定相似度要求
的用户作为该用户的相似用户群中的用户。
[0008] 在本公开再一实施方式中,所述针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度,包括:针对
任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次
行为交叉熵均值,获得多个单次行为交叉熵均值;针对所述多个单次行为交叉熵均值进行
计算,获得该用户的用户画像的置信度。
[0009] 在本公开再一实施方式中,所述针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度,包括:将该用户的所有单次行为交叉熵均值的和的倒数,作
为该用户的用户画像的置信度。
[0010] 在本公开再一实施方式中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度
阈值;对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有
用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用
户画像均值,确定该用户的用户画像。
[0011] 根据本公开实施例的另一个方面,提供一种用户画像修正装置,该装置包括:获取描述信息模块,用于获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标
签、用户行为特征以及用户画像;映射模块,用于将所述多个用户的用户描述信息分别映射
为特征向量;其中,所述特征向量包含多个特征向量段;组划分模块,用于针对所述特征向
量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并
将选取出的具有相同的该特征向量段的用户划分在一个组中;确定用户群模块,用于根据
组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;确定置信度模块,用
于针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一
致性,确定该用户的用户画像的置信度;修正用户画像模块,用于根据相似用户群中的用户
的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
[0012] 在本公开一实施方式中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;所述获取描述信息模块包括:第一子模块,用于根据用户操作数据,获
取各用户的用户静态属性标签和各用户的用户行为特征;第二子模块,用于对所述各用户
的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值
标签和用户状态标签。
[0013] 在本公开又一实施方式中,所述第一子模块进一步用于:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏
好枚举值执行各类行为的行为次数;针对任一用户,将该用户针对各偏好枚举值执行各类
行为的行为次数作为该用户的用户行为特征。
[0014] 在本公开再一实施方式中,所述确定用户群模块包括:第三子模块,用于针对组中的任一个用户,根据最小哈希法,从所述用户的特征向量中选取部分维度的特征向量;第四
子模块,用于计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户
的部分维度的特征向量的相似度;第五子模块,用于将相似度符合预定相似度要求的用户
作为该用户的相似用户群中的用户。
[0015] 在本公开再一实施方式中,所述确定置信度模块,包括:第六子模块,用于针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行
为交叉熵均值,获得多个单次行为交叉熵均值;第七子模块,用于针对所述多个单次行为交
叉熵均值进行计算,获得该用户的用户画像的置信度。
[0016] 在本公开再一实施方式中,所述第七子模块进一步用于:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。
[0017] 在本公开再一实施方式中,所述修正用户画像模块进一步用于:确定预定场景所对应的置信度阈值;对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用
户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画
像以及所述用户画像均值,确定该用户的用户画像。
[0018] 根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述用户画像修正方法。
[0019] 根据本公开实施例的又一方面,提供一种电子设备,该电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执
行指令,并执行所述指令,以实现上述用户画像修正方法。
[0020] 基于本公开上述实施例提供的一种用户画像修正方法和装置,本公开通过利用用户描述信息映射而成的特征向量,确定用户的相似用户群,由于用户描述信息所包括的用
户标签、用户行为特征以及用户画像等内容可以从多个角度描述用户,因此,本公开有利于
保证相似用户群的准确程度;在用户的特征向量为高维稀疏特征向量的情况下,基于用户
的特征向量从所有用户中获得一用户的相似用户群,其计算量是非常庞大的。本公开通过
将特征向量划分为多个段,将具有一相同特征向量段的用户作为一个组,不仅可以便捷的
实现组划分,而且可以保证组中的用户具有一定的相似性。通过从一组所包含的所有用户
中确定用户的相似用户群,能够在较大程度上降低获得用户的相似用户群的计算量,从而
可以有利于节约计算资源,进而有利于提高用户画像修正方案的可实施性;通过利用相似
用户群中的用户的特征向量的一致性来衡量用户的用户画像的置信度,有利于较为客观的
评价用户画像的置信度,且有利于避免差异较大的用户画像对用户画像的置信度评价造成
影响,而且;通过利用相似用户群中的用户的用户画像,对置信度较低的用户的用户画像进
行修正,有利于使用户画像能够更真实的反映出用户的特点。由此可知,本公开提供的技术
方案有利于更好的满足用户需求,最终有利于提高目标行为的发生概率。
[0021] 下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

附图说明

[0022] 构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。
[0023] 参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
[0024] 图1为本公开的用户画像修正方法一个实施例的流程图;
[0025] 图2为本公开的确定用户的相似用户群一实施例的流程图;
[0026] 图3为本公开的确定各用户的用户画像的置信度一实施例的流程图;
[0027] 图4为本公开的对置信度不符合预设置信度要求的用户的用户画像进行修正一实施例的流程图;
[0028] 图5为本公开的用户画像的置信度与CTR的关系一实施例的示意图;
[0029] 图6为本公开的用户画像修正装置一个实施例的结构示意图;
[0030] 图7为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

[0031] 下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的
示例实施例的限制。
[0032] 应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0033] 本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺
序。
[0034] 还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
[0035] 还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
[0036] 另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,
本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0037] 还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
[0038] 同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0039] 以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
[0040] 对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
[0041] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0042] 本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服
务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但
不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于
微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算
机系统和包括上述任何系统的分布式云计算技术环境等等。
[0043] 终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目
标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计
算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由
通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包
括存储设备的本地或远程计算系统存储介质上。
[0044] 本公开概述
[0045] 在实现本公开的过程中,发明人发现,在建立用户画像的过程中,用户的网络访问行为通常会起到非常重要的作用。例如,通常会根据用户在最近N天(如180天)内执行的网
络访问行为,为用户设置用户画像。然而,在用户的网络访问行为频度较低、两次网络访问
行为的时间跨度较大、用户的核心访问行为的次数较少以及用户的核心访问行为的质量较
低等应用场景中,为用户设置的用户画像的可靠性往往会较差。上述核心访问行为可以是
指特定网络访问行为,如用户对网站中的标的物的详情页的浏览行为、用户产生商机行为
或者用户与会话方对话行为等较为重要的网络访问行为。用户画像的可靠性较差,往往会
使对用户的个性化服务产生偏差,从而可能会造成广告投放资源的浪费、商机浪费以及标
的物的展位浪费等资源浪费现象。
[0046] 示例性概述
[0047] 本公开提供的用户画像修正技术的应用场景的一个例子如下:
[0048] 在房产领域,可以在每天的固定时间(如凌晨1点等),为最近N天(如最近180天)内存在核心访问行为的用户分别设置用户画像,并确定各用户的用户画像的置信度。
[0049] 对于楼盘信息推荐场景,可以预先获得该场景对应的预定置信度要求(如该场景对应的置信度阈值)。对于检测结果中的用户画像的置信度满足该场景对应的预定置信度
要求的用户(如用户画像的置信度达到该场景对应的置信度阈值的用户),直接存储这部分
用户的用户画像。而对于检测结果中的用户画像的置信度不满足该场景对应的预定置信度
要求的用户(如用户画像的置信度达不到该场景对应的置信度阈值的用户),应先对这部分
用户的用户画像进行修正,然后存储这部分用户的修正后的用户画像。
[0050] 假设当前存在多个用户分别使用各自的终端设备(如计算机或者智能移动电话等)访问房产公司提供的网站。网络侧可以先判断多个用户中的每一个用户是否存在用户
画像,对于存在用户画像的用户,或者对于存在用户画像且用户画像的置信度较高的用户,
网络侧可以根据用户的用户画像中的用户偏好,确定与用户偏好相符的楼盘信息,并向相
应的用户的终端设备推送这样的楼盘信息。而对于不存在用户画像的用户,或者对于存在
用户画像且用户画像的置信度较低的用户,网络侧可以向相应的用户的终端设备推送当前
热度较高的楼盘信息等。
[0051] 示例性方法
[0052] 图1为本公开的用户画像修正方法一个实施例的流程图。图1所示的实施例的方法包括步骤:S100、S101、S102、S103、S104以及S105。下面对各步骤分别进行说明。
[0053] S100、获取多个用户的用户描述信息。
[0054] 本公开中的多个用户可以是指最近N天(如最近180天)内存在网络访问行为的用户。例如,最近N天(如最近180天)内存在核心访问行为的用户。本公开中的核心访问行为可
以是指特定网络访问行为,如用户对网站中的标的物的详情页的浏览行为、用户产生商机
行为或者用户与会话方对话行为等较为重要的网络访问行为。
[0055] 本公开中的标的物在不同应用场景可以表现为不同的内容。例如,在房产领域,本公开的标的物可以为房屋。再例如,在商品零售领域,本公开的标的物可以为零售商品等。
[0056] 本公开中的用户描述信息可以是指用于从多种不同的角度,来展现一个用户的信息。本公开的用户描述信息至少可以包括:用户标签、用户行为特征以及用户画像等。
[0057] 本公开中的用户标签通常是通过对所有用户的一项或者多项具备可分类性的特征,进行抽象概况和分类形成的。用户标签的一个具体取值通常表示一个具体的类别。
[0058] 本公开中的用户行为特征可以是指用于描述用户的网络访问行为的特点的信息。例如,本公开中的用户行为特征可以是指用于描述用户的核心访问行为的特点的信息。
[0059] 本公开中的用户画像可以是指用于描述用户的特点的信息。例如,用户画像可以描述出用户基于各偏好枚举值的兴趣爱好。本公开中的偏好枚举值可以包括:基于标的物
的属性的枚举值以及基于业务的枚举值。也就是说,对于一应用领域中的一标的物而言,用
户画像可以反映出用户在该标的物的属性信息的各枚举值上的喜好程度或倾向程度等,对
于一应用领域中的业务而言,用户画像可以反映出用户在业务的各枚举值上的喜好程度或
者倾向程度等。本公开中的标的物的属性信息可以是指用于描述标的物自身所具有的特点
的信息。对于房产领域而言,本公开中的业务的各枚举值可以包括:新房业务枚举值、二手
房业务枚举值以及租赁业务枚举值等。本公开对用户画像所包含的枚举值的数量以及具体
内容不作限定。
[0060] 本公开中的标的物的属性信息的枚举值的一个更为具体的例子,假设本公开中的标的物为房屋,且房屋的属性信息可以包括:房屋性质、房屋位置、房屋面积、厅室结构、房
屋类型以及房屋结构等属性元素。
[0061] 上述房屋性质可以包括:新房以及二手房等枚举值,其中的房屋位置可以包括:二环内、二环至三环之间、三环至四环之间、四环至五环之间、五环到六环之间以及六环之外
等枚举值。
[0062] 上述房屋面积可以包括:40平方米以内、40‑60平方米、60‑80平方米、80‑100平方米、100‑140平方米以及140平方米以上等枚举值。
[0063] 上述厅室结构可以包括:开间、一室一厅、二室一厅、三室一厅、四室一厅以及五室一厅等枚举值。
[0064] 上述房屋类型可以包括:普通住宅以及别墅等枚举值。
[0065] 上述房屋结构可以包括:砖混结构以及非砖混结构等枚举值。
[0066] 在上述假设的情况下,本公开中的标的物的属性信息的枚举值可以包括:新房、二手房、二环内、二环至三环之间、三环至四环之间、四环至五环之间、五环到六环之间、六环
之外、40平方米以内、40‑60平方米、60‑80平方米、80‑100平方米、100‑140平方米、140平方
米以上、一室一厅、开间、二室一厅、三室一厅、四室一厅、五室一厅、砖混结构、非砖混结构、
普通住宅以及别墅等中的部分或者所有。本公开中标的物属性信息的枚举值也可以称为用
户偏好枚举值。
[0067] 在不同的应用领域中,本公开中的标的物的属性信息的枚举值可能会随着网站提供的标的物的不同而不同,本公开不限定标的物的属性信息的枚举值的具体数量以及具体
内容等。
[0068] 本公开可以根据用户操作数据,获取所有用户的用户描述信息。本公开中的用户操作数据可以是指由于用户本人和/或网络侧维护人员等,通过对计算机或者智能移动电
话等设备的操作,而生成的用于描述用户行为的用户操作数据。本公开中的用户操作数据
可以包括:在服务器一侧形成的操作日志或者访问日志等信息。本公开对此不作限定。
[0069] S101、将多个用户的用户描述信息分别映射为特征向量。
[0070] 本公开可以将多个用户的用户描述信息分别映射到特定特征空间中,从而形成各用户的特征向量。本公开中的特征向量的维度通常较高,例如,特征向量的维度可以达到几
千维等。本公开中的特征向量通常为高维稀疏特征向量。本公开可以采用现有的多种映射
方式将用户描述信息映射为特征向量,本公开不限制映射的具体实现方式。
[0071] 本公开中的特征向量包含有多个特征向量段,即本公开可以将用户的特征向量划分为多个特征向量段,每一个特征向量段均包含有至少一维向量,且不同特征向量段所包
含的向量的维数可以相同,也可以不相同。
[0072] S102、针对特征向量所包含的任一特征向量段,从多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中。
[0073] 针对用户的特征向量所包含的任一特征向量段而言,本公开可以从所有用户中选取该特征向量段相同的用户,并将选取出的所有用户划分在同一个组中。其中的一个组可
以认为是一个桶。
[0074] 本公开中的位于同一个组中的所有用户为相似用户群的候选用户。本公开中的同一个组中的所有用户的特征向量至少部分相同。也就是说,同一个组中的所有用户的特征
向量可以不完全相同,而是某一部分完全相同。
[0075] 本公开中的用户的特征向量包括b(b为大于1的整数)个特征向量段。在一个例子中,所有特征向量段所包括的向量维数相同,例如,所有特征向量段均包括r维向量,即本公
开可以将用户的特征向量均分为b个特征向量段。在另一个例子中,不同特征向量段所包括
的向量维数可以不相同,例如,有的特征向量段包括r维向量,有的特征向量段包括r+r1(r1
为大于1的整数,r为大于r1的整数)维向量,有的特征向量段包括r‑r1维向量,即本公开对
用户的特征向量的分段处理采用了不等分方式。
[0076] 一个更为具体的例子,假设有n个用户,假设用户的特征向量被划分为b个特征向量段。在上述假设的情况下,如果n个用户中的m1个用户具有相同的第1个特征向量段,则这
m1个用户被划分在一个组中;如果n个用户中的m2个用户具有相同的第2个特征向量段,则
这m2个用户被划分在一个组中;……,以此类推,如果n个用户中的mb个用户具有相同的第b
个特征向量段,则这mb个用户被划分在一个组中。
[0077] 需要特别说明的是,本公开中的一个用户可以同时属于多个组。例如,如果第1个用户的第1个特征向量段和第2个用户的第1个特征向量段相同,则第1个用户和第2个用户
属于第1个组。如果第1个用户的第2个特征向量段和第3个用户的第2个特征向量段相同,则
第1个用户和第3个用户属于第2个组。
[0078] S103、根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群。
[0079] 本公开中的用户的相似用户群可以是指与用户的特征向量的相似程度符合一定要求的用户所形成的用户集合。本公开可以通过对不同用户的特征向量进行相似程度的计
算,来确定用户的相似用户群。本公开中的一用户的相似用户群也可以称为该用户的种子
用户群等。
[0080] 在一个例子中,假设两个用户的特征向量之间的相似度为t,且每一个特征向量段均包括r维向量,即每一个特征向量段均包括r行,则这两个用户的任一特征向量段中的r行
r
(即r维向量)完全相同的概率为t,这两个用户的任一特征向量段中至少有一行(即一维向
r r b
量)不相同的概率为(1‑t),这两个用户的所有特征向量段均不相同的概率为(1‑t) ,这两
r b
个用户的所有特征向量段中至少一个特征向量段完全相同的概率为1‑(1‑t) ,本公开可以
通过控制b和r的值,来控制确定用户的相似用户群的所耗费的时间,即控制确定用户的相
似用户群的效率。
[0081] S104、针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度。
[0082] 本公开中的用户画像的置信度可以是指用户画像所反映出的用户兴趣爱好(如用户偏好)的准确程度。例如,本公开中的用户画像的置信度可以是用于衡量用户画像是否真
实准确的反映出了用户的兴趣爱好的一个参数。例如,用户画像的置信度可以是用于衡量
用户画像是否真实准确的反映出用户在标的物的属性信息的各枚举值上的偏好程度、以及
用户在业务枚举值上的偏好程度的一个参数。本公开中的用户画像的置信度也可以称为用
户画像的准确度或者可靠度等。
[0083] 对于一用户而言,该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性可以是指用于衡量该用户的特征向量与该用户的相似用户群中的用户的特征向
量之间的差异的指标。
[0084] 本公开可以采用特征向量之间的差值、交叉熵或者平方损失等特征向量计算方式,来表示一致性,从而可以将该一致性作为各用户的用户画像的置信度。
[0085] S105、根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
[0086] 本公开可以通过对当前获得的每一个用户的用户画像的置信度进行判别,筛选出用户画像的置信度不符合预设置信度要求的用户,对于置信度不符合要求的用户的用户画
像,本公开可以利用相应的相似用户群中的用户的用户画像进行修正。例如,通过对相似用
户群中的用户的用户画像进行加权平均等计算方式,获得各偏好枚举值的具体取值,并利
用获得的各偏好枚举值的具体取值,更新相应用户的用户画像中的各偏好枚举值的取值,
从而实现对用户画像的修正。
[0087] 本公开通过利用用户描述信息映射而成的特征向量,确定用户的相似用户群,由于用户描述信息所包括的用户标签、用户行为特征以及用户画像等内容可以从多个角度描
述用户,因此,本公开有利于保证相似用户群的准确程度;在用户的特征向量为高维稀疏特
征向量的情况下,基于用户的特征向量从所有用户中获得一用户的相似用户群,其计算量
是非常庞大的。本公开通过将特征向量划分为多个段,将具有一相同特征向量段的用户作
为一个组,不仅可以便捷的实现组划分,而且可以保证组中的用户具有一定的相似性。通过
从一组所包含的所有用户中确定用户的相似用户群,能够在较大程度上降低获得用户的相
似用户群的计算量,从而可以有利于节约计算资源,进而有利于提高用户画像修正方案的
可实施性;通过利用相似用户群中的用户的特征向量的一致性来衡量用户的用户画像的置
信度,有利于较为客观的评价用户画像的置信度,且有利于避免差异较大的用户画像对用
户画像的置信度评价造成影响,而且;通过利用相似用户群中的用户的用户画像,对置信度
较低的用户的用户画像进行修正,有利于使用户画像能够更真实的反映出用户的特点。由
此可知,本公开提供的技术方案有利于更好的满足用户需求,最终有利于提高目标行为的
发生概率。
[0088] 在一个可选示例中,本公开的用户标签至少包括:用户静态属性标签、用户价值标签以及用户状态标签。
[0089] 上述用户静态属性标签可以是指:用于表示用户的静态属性所属类别的标签。用户的静态属性可以包括:用户自身所具有的属性。用户的静态属性也可以包括:用户的附属
物(如终端设备等)所具有的属性等。在一个例子中,本公开的用户静态属性标签可以包括:
用户社会属性标签以及用户设备环境标签等。其中的用户社会属性标签可以包括:用户的
地理位置(如用户所在城市)、用户年龄、用户性别以及用户从属的职业等。其中的用户设备
环境标签可以包括:用户设备中的应用(如APP等)安装数量、用户注册时间(如用户在本公
开提供的APP中的注册时间)、用户习惯使用的设备类型(如智能移动电话、平板电脑或者台
式机等)、用户设备安装的本公开提供的APP的应用类型(如本公开提供APP1和APP2,该用户
类型可以表示出用户设备安装了APP1,还是APP2,亦或是APP1和APP2)、用户设备安装的竞
争产品APP所涉及的业务(如在房产领域,业务可以包括:新房业务、二手房业务和租赁业务
等)等。本公开中的用户设备环境标签也可以称为用户行为属性信息等。本公开不限制用户
社会属性标签和用户设备环境标签所包括的具体内容。
[0090] 上述用户价值标签可以是指:用于描述用户在执行目标行为方面所体现出的可能性的标签。本公开中的用户价值标签可以使用用户所执行的各类型行为的价值来体现。一
个例子,本公开中的各类型行为可以包括:详情页浏览行为、房源搜索行为、房源分享行为、
推送信息的点击行为、房源关注行为、用户产生商机的行为、用户拨打热线行为、用户的带
看房屋行为以及用户的委托行为等。本公开可以为用户的上述每一种类型的行为分别设置
相应的价值标签。例如,每一种类型的行为都可以对应高价值标签、中等价值标签以及低价
值标签,这三种等级的标签。本公开的目标行为可以根据实际应用场景的具体需求设置。例
如,目标行为可以为标的物成交行为或者成功委托行为或者用户留联系方式行为等,本公
开对此不作限定。本公开不限制行为种类的数量、行为种类的具体表现形式、以及价值标签
的等级数量等。
[0091] 上述用户状态标签可以是指用于表示用户当前所处的状态的标签。本公开通常预先设置有多种状态,每一个状态对应一个标签,用户状态标签可以标识出其中一种状态。本
公开可以根据实际应用场景预先设置多种用户状态,例如,对于房产领域而言,本公开可以
至少设置六种状态,分别为:线上活跃状态、线上成熟状态、线下活跃状态、线下成熟状态、
成交状态以及成交后的沉默状态等。本公开不限制预先设置的用户状态的数量以及各状态
的具体表现形式。
[0092] 可选的,本公开可以根据用户操作数据,获得各用户的静态属性标签。例如,利用用户标识从用户操作数据中获得该用户的用户操作数据,并对该用户的用户操作数据中的
预定字段内容进行识别(如性别识别、年龄识别等),并根据判别结果获得该用户的静态属
性标签。同时,本公开还可以根据用户操作数据,获得各用户的用户行为特征(用户行为特
征也可以称为用户动态行为特征等)。其中的用户行为特征可以是指随着用户执行的操作
而发生变化的信息。例如,利用用户标识和行为标识从用户操作数据中获得该用户的各行
为信息,并通过对该用户的各行为信息进行相应的处理,获得该用户的用户行为特征。之
后,本公开可以通过对各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘
处理,从而获得各用户的用户价值标签以及各用户的用户状态标签。也就是说,本公开中的
用户价值标签以及用户状态标签属于挖掘类标签。本公开对数据挖掘处理的具体实现方式
不作限定。
[0093] 本公开通过利用用户静态属性标签和用户行为特征挖掘出用户价值标签和用户状态标签,可以从用户静态属性、用户价值以及用户状态等多个不同角度对用户进行分类,
从而有利于更为精确的对用户进行刻画,进而有利于更为准确的确定出用户的相似用户
群。
[0094] 在一个可选示例中,对于任一用户而言,本公开获取该用户的用户行为特征的实现方式为:根据用户操作数据,对该用户分别针对用户画像中的所有偏好枚举值所执行的
各类行为进行行为量统计,从而可以获得该用户分别针对所有偏好枚举值执行各类行为的
行为次数;本公开可以将该用户针对所有偏好枚举值执行各类行为的行为次数作为该用户
的用户行为特征。
[0095] 可选的,针对任一用户而言,本公开可以从用户操作数据中获得该用户在一段时间内的所有行为(如最近N天的所有行为),之后,本公开可以以偏好枚举值为单位,对该用
户的所有行为进行行为量的统计,例如,如果该用户的所有行为总共涉及n1个不同的偏好
枚举值,且该用户的所有行为总共涉及n2类行为,则本公开可以通过执行n1×n2次统计,获
得n1×n2个行为次数,且每一个行为次数对应在一个偏好枚举值上的一类行为的行为量统
计结果。
[0096] 一个更为具体的例子,假设一用户的所有行为总共包括m1+m2次行为;其中m1次行为均涉及偏好枚举值a(如新房),且m1次行为涉及房屋详情页浏览类行为和用户产生商机
类行为,这两类行为,假设m11次行为属于房屋详情页浏览类行为,且m12次行为属于用户产
生商机类行为;其中m2次行为均涉及偏好枚举值b(如二手房),且m2次行为涉及屋详情页浏
览类行为和用户产生商机类行为这两类行为,假设m21次行为属于房屋详情页浏览类行为,
且m22次行为属于用户产生商机类行为。在上述假设条件下,本公开可以对该用户的m1+m2
次行为进行4次行为量统计,获得4个行为次数,其中第一个行为次数:用户在偏好枚举值a
上的房屋详情页浏览类行为的行为量统计结果,其中第二个行为次数为:用户在偏好枚举
值a上的用户产生商机类行为的行为量统计结果,其中第三个行为次数为:用户在偏好枚举
值b上的房屋详情页浏览类行为的行为量统计结果,其中第四个行为次数为:用户在偏好枚
举值b上的用户产生商机类行为的行为量统计结果。
[0097] 本公开通过获得各用户的用户行为特征,可以从用户行为这一角度对用户进行分类,从而有利于更为精确的对用户进行刻画,进而有利于更为准确的确定出用户的相似用
户群。
[0098] 在一个可选示例中,本公开确定用户的相似用户群的一个例子如图2所示。
[0099] 图2中,S200、针对组中的任一个用户,从该用户的特征向量中选取部分维度的特征向量。
[0100] 可选的,本公开可以利用最小哈希(MinHashing)法等,从该用户的特征向量中选取部分维度的特征向量。本公开还可以采用其他方法从该用户的特征向量中选取部分维度
的特征向量,本公开对此不作限定。
[0101] S201、计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似度。
[0102] 可选的,本公开可以利用Jaccard系数,来衡量两个用户的选取出的特征向量之间的相似度。具体的,两个用户的选取出的特征向量之间的相似度可以采用下述公式(1)来表
示:
[0103]
[0104] 在上述公式(1)中,J(A,B)表示两个用户的Jaccard系数,A表示两个用户中的其中一个用户的选取出的特征向量;B表示两个用户中的其中另一个用户的选取出的特征向量。
[0105] S202、将相似度符合预定相似度要求的用户作为该用户的相似用户群中的用户。
[0106] 可选的,对于任一用户而言,本公开可以对针对该用户计算出的多个相似度进行排序,并利用排序中的相似度最高的前N个用户形成该用户的相似用户群。
[0107] 可选的,对于任一用户而言,本公开可以利用相似度大于预定相似度的所有用户形成该用户的相似用户群。
[0108] 本公开通过从用户的特征向量中选取部分特征向量,并利用部分特征向量确定用户的相似用户群,能够在较大程度上降低获得用户的相似用户群的计算量;尤其是通过采
用最小哈希法从用户的特征向量中选取部分特征向量,有利于保证选取出的部分特征向量
的合理性。基于上述可知,本公开有利于节约计算资源,从而有利于提高用户画像修正方案
的可实施性。
[0109] 在一个可选示例中,本公开确定各用户的用户画像的置信度的一个例子如图3所示。
[0110] 图3中,S300、针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行为交叉熵均值,获得该用户的多个单次行为交叉熵均值。
[0111] 可选的,本公开中的单次行为交叉熵均值可以认为是在考虑了特征相似性和行为次数的贡献的情况下的交叉熵。本公开中的单次行为交叉熵均值可以称为基于行为次数的
交叉熵。本公开中的一个单次行为交叉熵均值被作为一用户与其相似用户群中的一用户的
用户画像的相似度。本公开可以利用下述公式(2)计算两个用户的特征向量的单次行为交
叉熵均值:
[0112]
[0113] 在上述公式(2)中,H(p,q)表示一用户与其相似用户群中的一用户的特征向量的单次行为交叉熵均值,即一用户与其相似用户群中的一用户的用户画像的相似度;n表示用
户的特征向量的维度;wj表示一维向量对应的行为次数;p(xi)表示两个用户中的其中一个
用户的第i维向量;q(xi)表示两个用户中的其中另一个用户的第i维向量。
[0114] S301、针对该用户的多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度。
[0115] 可选的,本公开可以将该用户的所有单次行为交叉熵均值的和的倒数,做为该用户的用户画像的置信度。例如,针对任一用户而言,本公开获得的该用户的用户画像的置信
度可以采用下述公式(3)表示:
[0116]
[0117] 在上述公式(3)中,Score表示一用户的用户画像的置信度;m表示一用户的相似用户群所包括的用户数量;H(p,qy)表示一用户与其相似用户群中的第y个用户的用户画像的
相似度。
[0118] 由上述公式(2)和公式(3)可知,用户的行为次数越多,且用户与其他用户的用户画像相似度越高,则该用户与其相似用户群中的一用户的特征向量的单次行为交叉熵均值
越小,从而使该用户的用户画像的置信度越高。
[0119] 需要特别说明的是,用户的特征向量中的部分维向量可能并没有实际的行为次数,例如,地理位置、年龄、性别等对应的向量并没有实际的行为次数,本公开可以将没有实
际的行为次数的向量的行为次数设置为1。
[0120] 本公开通过利用单次行为交叉熵均值来确定用户画像的置信度,使特征向量的相似性以及用户行为次数成为衡量用户画像的置信度的参数,从而使用户画像的置信度不仅
考虑了向量对应的频度,还考虑了向量对应的频次,从而有利于提高确定出的用户画像的
置信度的准确性。
[0121] 在一个可选示例中,本公开对置信度不符合预设置信度要求的用户的用户画像进行修正的一个例子如图4所示。
[0122] 图4中,S400、确定预定场景所对应的置信度阈值。
[0123] 可选的,本公开可以为每一个预定场景分别设置一个置信度阈值,不同预定场景各自对应的置信度阈值可以相同,也可以不相同。另外,本公开中的预定场景通常与实际应
用领域相关。例如,在房产领域中,预定场景为房屋信息推荐场景等,进一步的,房屋信息推
荐场景可以包括:新房信息推荐场景、二手房信息推荐场景以及房屋租赁信息推荐场景等。
本公开对预定场景不作限定。
[0124] 可选的,本公开可以采用动态方式为每一个预定场景分别设置一个置信度阈值。例如,对于任一预定场景而言,本公开可以基于该预定场景的兜底策略形成该预定场景的
置信度阈值。
[0125] 一个例子,对于信息推荐场景(如房屋信息推荐场景)而言,对于采用兜底策略向用户推送房屋信息的所有用户,本公开可以根据各用户画像的置信度所属取值区间(如以
0.1为步长,将取值范围0‑1划分为10个取值区间),将所有用户划分为多个用户组,并获得
每一个用户组的CTR(ClickThroughRate,点击通过率),每一个用户组的CTR和每一个用户
组的用户画像的置信度所属的取值区间可以形成图5中的直线500。对于未采用兜底策略向
用户推送房屋信息的所有用户,本公开可以根据各用户画像的置信度所属取值区间(如以
0.1为步长,将取值范围0‑1划分为10个取值区间),将所有用户划分为多个用户组,并获得
每一个用户组的CTR,每一个用户组的CTR和每一个用户组的用户画像的置信度所属的取值
区间可以形成图5中的折线501。本公开可以将直线500和折线501的交点作为信息推荐场景
的置信度阈值。例如,如图5所示,本公开可以将0.3作为信息推荐场景的置信度阈值。
[0126] S401、从所有用户中挑选出用户画像的置信度低于上述置信度阈值的用户。
[0127] S402、对于挑选出的任一用户,获取该用户的相似用户群中的各用户的用户画像均值,并利用该用户的用户画像调整参数、该用户的用户画像以及用户画像均值,确定该用
户的用户画像。
[0128] 可选的,一用户的用户画像调整参数可以根据超参数以及该用户的用户画像的置信度获得,例如,本公开可以将超参数与该用户的用户画像的置信度的乘积作为该用户的
用户画像调整参数。本公开可以利用下述公式(4)获得一用户的用户画像:
[0129]
[0130] 在上述公式(4)中,α表示超参数;s表示用户画像待修正的用户(下述简称为待修正用户)的用户画像的置信度;A1表示待修正用户的用户画像,如用户画像中的每一个枚举
值的具体取值;A2表示待修正用户的相似用户群的用户画像均值,例如,像素用户群中的所
有用户的用户画像中针对每一个枚举值的具体取值的均值。
[0131] 本公开通过为每一个预定场景分别设置置信度阈值,有利于使本公开的方案能够较好的适用于多种预定场景。通过在调整用户画像过程中,对待修正用户的用户画像调整
参数、待修正用户的用户画像以及待修正用户的相似用户群的用户画像均值分别进行考
量,有利于使调整后的用户画像更符合用户的真实情况。
[0132] 示例性装置
[0133] 图6为本公开的用户画像修正装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。
[0134] 如图6所示,本实施例的装置可以包括:获取描述信息模块600、映射模块601、组划分模块602、确定用户群模块603、确定置信度模块604以及修正用户画像模块605。
[0135] 获取描述信息模块600用于获取多个用户的用户描述信息。其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画像。
[0136] 映射模块601用于将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特征向量段。
[0137] 组划分模块602用于针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户
划分在一个组中。
[0138] 确定用户群模块603用于根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群。
[0139] 确定置信度模块604用于针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度。
[0140] 修正用户画像模块605用于根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
[0141] 可选的,本公开的用户标签可以包括:所述用户静态属性标签、用户价值标签和用户状态标签。且获取描述信息模块600可以包括:第一子模块6001和第二子模块6002。其中
的第一子模块6001用于根据用户操作数据,获取各用户的用户静态属性标签和各用户的用
户行为特征。其中的第二子模块6002用于对所述各用户的用户静态属性标签和各用户的用
户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
[0142] 可选的,第一子模块6001进一步用于:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类
行为的行为次数;针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作
为该用户的用户行为特征。
[0143] 可选的,确定用户群模块603包括:第三子模块6031、第四子模块6032以及第五子模块6033。其中的第三子模块6031用于针对组中的任一个用户,根据最小哈希法,从所述用
户的特征向量中选取部分维度的特征向量。其中的第四子模块6033用于计算该用户的所述
部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似
度。其中的第五子模块6033用于将相似度符合预定相似度要求的用户作为该用户的相似用
户群中的用户。
[0144] 可选的,确定置信度模块604包括:第六子模块6041以及第七子模块6042。其中的第六子模块6041用于针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一
个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值。其中的第七子
模块6042用于针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信
度。
[0145] 可选的,第七子模块6042进一步用于:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。
[0146] 可选的,修正用户画像模块605进一步用于:确定预定场景所对应的置信度阈值;对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的
用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像
均值,确定该用户的用户画像。
[0147] 上述各模块及其包括的子模块和单元具体执行的操作可以参见上述方法实施例中针对图1‑图5的描述,在此不再详细说明。
[0148] 示例性电子设备
[0149] 下面参考图7来描述根据本公开实施例的电子设备。图7示出了根据本公开实施例的电子设备的框图。如图7所示,电子设备71包括一个或多个处理器711和存储器712。
[0150] 处理器711可以是中央处理单元(CPU)或者具有用户画像修正能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备71中的其他组件以执行期望的功能。
[0151] 存储器712可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存
储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失
性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介
质上可以存储一个或多个计算机程序指令,处理器711可以运行所述程序指令,以实现上文
所述的本公开的各个实施例的用户画像修正方法以及/或者其他期望的功能。在所述计算
机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0152] 在一个示例中,电子设备71还可以包括:输入装置713以及输出装置714等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备713还可以包
括例如键盘、鼠标等等。该输出装置714可以向外部输出各种信息。该输出设备714可以包括
例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0153] 当然,为了简化,图7中仅示出了该电子设备71中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备71还
可以包括任何其他适当的组件。
[0154] 示例性计算机程序产品和计算机可读存储介质
[0155] 除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述
“示例性方法”部分中描述的根据本公开各种实施例的用户画像修正方法中的步骤。
[0156] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如
Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程
序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软
件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。
[0157] 此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方
法”部分中描述的根据本公开各种实施例的用户画像修正方法中的步骤。
[0158] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电
磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的
例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存
取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式
紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0159] 以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公
开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解
的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0160] 本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例
而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部
分说明即可。
[0161] 本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到
的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、
“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词
汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所
使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0162] 可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序
仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特
别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序
包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据
本公开的方法的程序的记录介质。
[0163] 还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0164] 提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定
义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到
在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0165] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领
域技术人员将认识到其某些变型、修改、改变、添加和子组合。