用户画像修正方法、装置、介质和电子设备转让专利
申请号 : CN202011215640.6
文献号 : CN112256973B
文献日 : 2021-09-10
发明人 : 陈迪 , 郭凯 , 李嘉晨
申请人 : 贝壳找房(北京)科技有限公司
摘要 :
权利要求 :
1.一种用户画像修正方法,包括:获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画像;
将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特征向量段;
针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;
根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;
针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度;
根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
2.根据权利要求1所述的方法,其中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;
所述获取多个用户的用户描述信息,包括:根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征;
对所述各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
3.根据权利要求2所述的方法,其中,所述根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征,包括:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行为次数;
针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户的用户行为特征。
4.根据权利要求1所述的方法,其中,所述根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群,包括:针对组中的任一个用户,根据最小哈希法,从所述用户的特征向量中选取部分维度的特征向量;
计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似度;
将相似度符合预定相似度要求的用户作为该用户的相似用户群中的用户。
5.根据权利要求1至4中任一项所述的方法,其中,所述针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度,包括:
针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值;
针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度。
6.根据权利要求5所述的方法,其中,所述针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度,包括:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。
7.根据权利要求1至4中任一项所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
8.根据权利要求5所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
9.根据权利要求6所述的方法,其中,所述根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正,包括:确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
10.一种用户画像修正装置,其中,所述装置包括:获取描述信息模块,用于获取多个用户的用户描述信息;其中,所述用户描述信息包括:用户标签、用户行为特征以及用户画像;
映射模块,用于将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特征向量段;
组划分模块,用于针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;
确定用户群模块,用于根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;
确定置信度模块,用于针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户的用户画像的置信度;
修正用户画像模块,用于根据相似用户群中的用户的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
11.根据权利要求10所述的装置,其中,所述用户标签包括:所述用户静态属性标签、用户价值标签和用户状态标签;
所述获取描述信息模块包括:
第一子模块,用于根据用户操作数据,获取各用户的用户静态属性标签和各用户的用户行为特征;
第二子模块,用于对所述各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
12.根据权利要求11所述的装置,其中,所述第一子模块进一步用于:根据用户操作数据,对各用户分别针对各偏好枚举值所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行为次数;
针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户的用户行为特征。
13.根据权利要求10所述的装置,其中,所述确定用户群模块包括:第三子模块,用于针对组中的任一个用户,根据最小哈希法,从所述用户的特征向量中选取部分维度的特征向量;
第四子模块,用于计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似度;
第五子模块,用于将相似度符合预定相似度要求的用户作为该用户的相似用户群中的用户。
14.根据权利要求10至13中任一项所述的装置,其中,所述确定置信度模块,包括:第六子模块,用于针对任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值;
第七子模块,用于针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信度。
15.根据权利要求14所述的装置,其中,所述第七子模块进一步用于:将该用户的所有单次行为交叉熵均值的和的倒数,作为该用户的用户画像的置信度。
16.根据权利要求10至13中任一项所述的装置,其中,所述修正用户画像模块进一步用于:
确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
17.根据权利要求14所述的装置,其中,所述修正用户画像模块进一步用于:确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
18.根据权利要求15所述的装置,其中,所述修正用户画像模块进一步用于:确定预定场景所对应的置信度阈值;
对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像均值,确定该用户的用户画像。
19.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑9中任一项所述的方法。
20.一种电子设备,所述电子设备包括:处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1‑9中任一项所述的方法。
说明书 :
用户画像修正方法、装置、介质和电子设备
技术领域
背景技术
需求。如何提高用户画像的准确性,是一个值得关注的技术问题。
发明内容
像;将所述多个用户的用户描述信息分别映射为特征向量;其中,所述特征向量包含多个特
征向量段;针对所述特征向量所包含的任一特征向量段,从所述多个用户中选取具有相同
的该特征向量段的用户,并将选取出的具有相同的该特征向量段的用户划分在一个组中;
根据组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;针对任一用户,
根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一致性,确定该用户
的用户画像的置信度;根据相似用户群中的用户的用户画像,对置信度不符合预设置信度
要求的用户的用户画像进行修正。
用户的用户静态属性标签和各用户的用户行为特征;对所述各用户的用户静态属性标签和
各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
所执行的各类行为进行行为量统计,获得各用户分别针对各偏好枚举值执行各类行为的行
为次数;针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作为该用户
的用户行为特征。
特征向量中选取部分维度的特征向量;计算该用户的所述部分维度的特征向量分别与该用
户所在组中的其他各用户的部分维度的特征向量的相似度;将相似度符合预定相似度要求
的用户作为该用户的相似用户群中的用户。
任一用户,计算该用户的特征向量分别与其相似用户群中的每一个用户的特征向量的单次
行为交叉熵均值,获得多个单次行为交叉熵均值;针对所述多个单次行为交叉熵均值进行
计算,获得该用户的用户画像的置信度。
为该用户的用户画像的置信度。
阈值;对于任一置信度达不到所述置信度阈值的用户,获取该用户的相似用户群中的所有
用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用
户画像均值,确定该用户的用户画像。
签、用户行为特征以及用户画像;映射模块,用于将所述多个用户的用户描述信息分别映射
为特征向量;其中,所述特征向量包含多个特征向量段;组划分模块,用于针对所述特征向
量所包含的任一特征向量段,从所述多个用户中选取具有相同的该特征向量段的用户,并
将选取出的具有相同的该特征向量段的用户划分在一个组中;确定用户群模块,用于根据
组中的不同用户的特征向量之间的相似度,确定各用户的相似用户群;确定置信度模块,用
于针对任一用户,根据该用户的特征向量与该用户的相似用户群中的用户的特征向量的一
致性,确定该用户的用户画像的置信度;修正用户画像模块,用于根据相似用户群中的用户
的用户画像,对置信度不符合预设置信度要求的用户的用户画像进行修正。
取各用户的用户静态属性标签和各用户的用户行为特征;第二子模块,用于对所述各用户
的用户静态属性标签和各用户的用户行为特征进行数据挖掘处理,获得各用户的用户价值
标签和用户状态标签。
好枚举值执行各类行为的行为次数;针对任一用户,将该用户针对各偏好枚举值执行各类
行为的行为次数作为该用户的用户行为特征。
子模块,用于计算该用户的所述部分维度的特征向量分别与该用户所在组中的其他各用户
的部分维度的特征向量的相似度;第五子模块,用于将相似度符合预定相似度要求的用户
作为该用户的相似用户群中的用户。
为交叉熵均值,获得多个单次行为交叉熵均值;第七子模块,用于针对所述多个单次行为交
叉熵均值进行计算,获得该用户的用户画像的置信度。
户群中的所有用户的用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画
像以及所述用户画像均值,确定该用户的用户画像。
行指令,并执行所述指令,以实现上述用户画像修正方法。
户标签、用户行为特征以及用户画像等内容可以从多个角度描述用户,因此,本公开有利于
保证相似用户群的准确程度;在用户的特征向量为高维稀疏特征向量的情况下,基于用户
的特征向量从所有用户中获得一用户的相似用户群,其计算量是非常庞大的。本公开通过
将特征向量划分为多个段,将具有一相同特征向量段的用户作为一个组,不仅可以便捷的
实现组划分,而且可以保证组中的用户具有一定的相似性。通过从一组所包含的所有用户
中确定用户的相似用户群,能够在较大程度上降低获得用户的相似用户群的计算量,从而
可以有利于节约计算资源,进而有利于提高用户画像修正方案的可实施性;通过利用相似
用户群中的用户的特征向量的一致性来衡量用户的用户画像的置信度,有利于较为客观的
评价用户画像的置信度,且有利于避免差异较大的用户画像对用户画像的置信度评价造成
影响,而且;通过利用相似用户群中的用户的用户画像,对置信度较低的用户的用户画像进
行修正,有利于使用户画像能够更真实的反映出用户的特点。由此可知,本公开提供的技术
方案有利于更好的满足用户需求,最终有利于提高目标行为的发生概率。
附图说明
具体实施方式
示例实施例的限制。
序。
本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但
不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于
微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算
机系统和包括上述任何系统的分布式云计算技术环境等等。
标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计
算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由
通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包
括存储设备的本地或远程计算系统存储介质上。
络访问行为,为用户设置用户画像。然而,在用户的网络访问行为频度较低、两次网络访问
行为的时间跨度较大、用户的核心访问行为的次数较少以及用户的核心访问行为的质量较
低等应用场景中,为用户设置的用户画像的可靠性往往会较差。上述核心访问行为可以是
指特定网络访问行为,如用户对网站中的标的物的详情页的浏览行为、用户产生商机行为
或者用户与会话方对话行为等较为重要的网络访问行为。用户画像的可靠性较差,往往会
使对用户的个性化服务产生偏差,从而可能会造成广告投放资源的浪费、商机浪费以及标
的物的展位浪费等资源浪费现象。
要求的用户(如用户画像的置信度达到该场景对应的置信度阈值的用户),直接存储这部分
用户的用户画像。而对于检测结果中的用户画像的置信度不满足该场景对应的预定置信度
要求的用户(如用户画像的置信度达不到该场景对应的置信度阈值的用户),应先对这部分
用户的用户画像进行修正,然后存储这部分用户的修正后的用户画像。
画像,对于存在用户画像的用户,或者对于存在用户画像且用户画像的置信度较高的用户,
网络侧可以根据用户的用户画像中的用户偏好,确定与用户偏好相符的楼盘信息,并向相
应的用户的终端设备推送这样的楼盘信息。而对于不存在用户画像的用户,或者对于存在
用户画像且用户画像的置信度较低的用户,网络侧可以向相应的用户的终端设备推送当前
热度较高的楼盘信息等。
以是指特定网络访问行为,如用户对网站中的标的物的详情页的浏览行为、用户产生商机
行为或者用户与会话方对话行为等较为重要的网络访问行为。
的属性的枚举值以及基于业务的枚举值。也就是说,对于一应用领域中的一标的物而言,用
户画像可以反映出用户在该标的物的属性信息的各枚举值上的喜好程度或倾向程度等,对
于一应用领域中的业务而言,用户画像可以反映出用户在业务的各枚举值上的喜好程度或
者倾向程度等。本公开中的标的物的属性信息可以是指用于描述标的物自身所具有的特点
的信息。对于房产领域而言,本公开中的业务的各枚举值可以包括:新房业务枚举值、二手
房业务枚举值以及租赁业务枚举值等。本公开对用户画像所包含的枚举值的数量以及具体
内容不作限定。
屋类型以及房屋结构等属性元素。
等枚举值。
之外、40平方米以内、40‑60平方米、60‑80平方米、80‑100平方米、100‑140平方米、140平方
米以上、一室一厅、开间、二室一厅、三室一厅、四室一厅、五室一厅、砖混结构、非砖混结构、
普通住宅以及别墅等中的部分或者所有。本公开中标的物属性信息的枚举值也可以称为用
户偏好枚举值。
内容等。
话等设备的操作,而生成的用于描述用户行为的用户操作数据。本公开中的用户操作数据
可以包括:在服务器一侧形成的操作日志或者访问日志等信息。本公开对此不作限定。
千维等。本公开中的特征向量通常为高维稀疏特征向量。本公开可以采用现有的多种映射
方式将用户描述信息映射为特征向量,本公开不限制映射的具体实现方式。
含的向量的维数可以相同,也可以不相同。
以认为是一个桶。
向量可以不完全相同,而是某一部分完全相同。
开可以将用户的特征向量均分为b个特征向量段。在另一个例子中,不同特征向量段所包括
的向量维数可以不相同,例如,有的特征向量段包括r维向量,有的特征向量段包括r+r1(r1
为大于1的整数,r为大于r1的整数)维向量,有的特征向量段包括r‑r1维向量,即本公开对
用户的特征向量的分段处理采用了不等分方式。
m1个用户被划分在一个组中;如果n个用户中的m2个用户具有相同的第2个特征向量段,则
这m2个用户被划分在一个组中;……,以此类推,如果n个用户中的mb个用户具有相同的第b
个特征向量段,则这mb个用户被划分在一个组中。
属于第1个组。如果第1个用户的第2个特征向量段和第3个用户的第2个特征向量段相同,则
第1个用户和第3个用户属于第2个组。
算,来确定用户的相似用户群。本公开中的一用户的相似用户群也可以称为该用户的种子
用户群等。
r
(即r维向量)完全相同的概率为t,这两个用户的任一特征向量段中至少有一行(即一维向
r r b
量)不相同的概率为(1‑t),这两个用户的所有特征向量段均不相同的概率为(1‑t) ,这两
r b
个用户的所有特征向量段中至少一个特征向量段完全相同的概率为1‑(1‑t) ,本公开可以
通过控制b和r的值,来控制确定用户的相似用户群的所耗费的时间,即控制确定用户的相
似用户群的效率。
实准确的反映出了用户的兴趣爱好的一个参数。例如,用户画像的置信度可以是用于衡量
用户画像是否真实准确的反映出用户在标的物的属性信息的各枚举值上的偏好程度、以及
用户在业务枚举值上的偏好程度的一个参数。本公开中的用户画像的置信度也可以称为用
户画像的准确度或者可靠度等。
量之间的差异的指标。
像,本公开可以利用相应的相似用户群中的用户的用户画像进行修正。例如,通过对相似用
户群中的用户的用户画像进行加权平均等计算方式,获得各偏好枚举值的具体取值,并利
用获得的各偏好枚举值的具体取值,更新相应用户的用户画像中的各偏好枚举值的取值,
从而实现对用户画像的修正。
述用户,因此,本公开有利于保证相似用户群的准确程度;在用户的特征向量为高维稀疏特
征向量的情况下,基于用户的特征向量从所有用户中获得一用户的相似用户群,其计算量
是非常庞大的。本公开通过将特征向量划分为多个段,将具有一相同特征向量段的用户作
为一个组,不仅可以便捷的实现组划分,而且可以保证组中的用户具有一定的相似性。通过
从一组所包含的所有用户中确定用户的相似用户群,能够在较大程度上降低获得用户的相
似用户群的计算量,从而可以有利于节约计算资源,进而有利于提高用户画像修正方案的
可实施性;通过利用相似用户群中的用户的特征向量的一致性来衡量用户的用户画像的置
信度,有利于较为客观的评价用户画像的置信度,且有利于避免差异较大的用户画像对用
户画像的置信度评价造成影响,而且;通过利用相似用户群中的用户的用户画像,对置信度
较低的用户的用户画像进行修正,有利于使用户画像能够更真实的反映出用户的特点。由
此可知,本公开提供的技术方案有利于更好的满足用户需求,最终有利于提高目标行为的
发生概率。
物(如终端设备等)所具有的属性等。在一个例子中,本公开的用户静态属性标签可以包括:
用户社会属性标签以及用户设备环境标签等。其中的用户社会属性标签可以包括:用户的
地理位置(如用户所在城市)、用户年龄、用户性别以及用户从属的职业等。其中的用户设备
环境标签可以包括:用户设备中的应用(如APP等)安装数量、用户注册时间(如用户在本公
开提供的APP中的注册时间)、用户习惯使用的设备类型(如智能移动电话、平板电脑或者台
式机等)、用户设备安装的本公开提供的APP的应用类型(如本公开提供APP1和APP2,该用户
类型可以表示出用户设备安装了APP1,还是APP2,亦或是APP1和APP2)、用户设备安装的竞
争产品APP所涉及的业务(如在房产领域,业务可以包括:新房业务、二手房业务和租赁业务
等)等。本公开中的用户设备环境标签也可以称为用户行为属性信息等。本公开不限制用户
社会属性标签和用户设备环境标签所包括的具体内容。
个例子,本公开中的各类型行为可以包括:详情页浏览行为、房源搜索行为、房源分享行为、
推送信息的点击行为、房源关注行为、用户产生商机的行为、用户拨打热线行为、用户的带
看房屋行为以及用户的委托行为等。本公开可以为用户的上述每一种类型的行为分别设置
相应的价值标签。例如,每一种类型的行为都可以对应高价值标签、中等价值标签以及低价
值标签,这三种等级的标签。本公开的目标行为可以根据实际应用场景的具体需求设置。例
如,目标行为可以为标的物成交行为或者成功委托行为或者用户留联系方式行为等,本公
开对此不作限定。本公开不限制行为种类的数量、行为种类的具体表现形式、以及价值标签
的等级数量等。
公开可以根据实际应用场景预先设置多种用户状态,例如,对于房产领域而言,本公开可以
至少设置六种状态,分别为:线上活跃状态、线上成熟状态、线下活跃状态、线下成熟状态、
成交状态以及成交后的沉默状态等。本公开不限制预先设置的用户状态的数量以及各状态
的具体表现形式。
预定字段内容进行识别(如性别识别、年龄识别等),并根据判别结果获得该用户的静态属
性标签。同时,本公开还可以根据用户操作数据,获得各用户的用户行为特征(用户行为特
征也可以称为用户动态行为特征等)。其中的用户行为特征可以是指随着用户执行的操作
而发生变化的信息。例如,利用用户标识和行为标识从用户操作数据中获得该用户的各行
为信息,并通过对该用户的各行为信息进行相应的处理,获得该用户的用户行为特征。之
后,本公开可以通过对各用户的用户静态属性标签和各用户的用户行为特征进行数据挖掘
处理,从而获得各用户的用户价值标签以及各用户的用户状态标签。也就是说,本公开中的
用户价值标签以及用户状态标签属于挖掘类标签。本公开对数据挖掘处理的具体实现方式
不作限定。
从而有利于更为精确的对用户进行刻画,进而有利于更为准确的确定出用户的相似用户
群。
各类行为进行行为量统计,从而可以获得该用户分别针对所有偏好枚举值执行各类行为的
行为次数;本公开可以将该用户针对所有偏好枚举值执行各类行为的行为次数作为该用户
的用户行为特征。
户的所有行为进行行为量的统计,例如,如果该用户的所有行为总共涉及n1个不同的偏好
枚举值,且该用户的所有行为总共涉及n2类行为,则本公开可以通过执行n1×n2次统计,获
得n1×n2个行为次数,且每一个行为次数对应在一个偏好枚举值上的一类行为的行为量统
计结果。
类行为,这两类行为,假设m11次行为属于房屋详情页浏览类行为,且m12次行为属于用户产
生商机类行为;其中m2次行为均涉及偏好枚举值b(如二手房),且m2次行为涉及屋详情页浏
览类行为和用户产生商机类行为这两类行为,假设m21次行为属于房屋详情页浏览类行为,
且m22次行为属于用户产生商机类行为。在上述假设条件下,本公开可以对该用户的m1+m2
次行为进行4次行为量统计,获得4个行为次数,其中第一个行为次数:用户在偏好枚举值a
上的房屋详情页浏览类行为的行为量统计结果,其中第二个行为次数为:用户在偏好枚举
值a上的用户产生商机类行为的行为量统计结果,其中第三个行为次数为:用户在偏好枚举
值b上的房屋详情页浏览类行为的行为量统计结果,其中第四个行为次数为:用户在偏好枚
举值b上的用户产生商机类行为的行为量统计结果。
户群。
的特征向量,本公开对此不作限定。
示:
用最小哈希法从用户的特征向量中选取部分特征向量,有利于保证选取出的部分特征向量
的合理性。基于上述可知,本公开有利于节约计算资源,从而有利于提高用户画像修正方案
的可实施性。
交叉熵。本公开中的一个单次行为交叉熵均值被作为一用户与其相似用户群中的一用户的
用户画像的相似度。本公开可以利用下述公式(2)计算两个用户的特征向量的单次行为交
叉熵均值:
户的特征向量的维度;wj表示一维向量对应的行为次数;p(xi)表示两个用户中的其中一个
用户的第i维向量;q(xi)表示两个用户中的其中另一个用户的第i维向量。
度可以采用下述公式(3)表示:
相似度。
越小,从而使该用户的用户画像的置信度越高。
际的行为次数的向量的行为次数设置为1。
考虑了向量对应的频度,还考虑了向量对应的频次,从而有利于提高确定出的用户画像的
置信度的准确性。
用领域相关。例如,在房产领域中,预定场景为房屋信息推荐场景等,进一步的,房屋信息推
荐场景可以包括:新房信息推荐场景、二手房信息推荐场景以及房屋租赁信息推荐场景等。
本公开对预定场景不作限定。
置信度阈值。
0.1为步长,将取值范围0‑1划分为10个取值区间),将所有用户划分为多个用户组,并获得
每一个用户组的CTR(ClickThroughRate,点击通过率),每一个用户组的CTR和每一个用户
组的用户画像的置信度所属的取值区间可以形成图5中的直线500。对于未采用兜底策略向
用户推送房屋信息的所有用户,本公开可以根据各用户画像的置信度所属取值区间(如以
0.1为步长,将取值范围0‑1划分为10个取值区间),将所有用户划分为多个用户组,并获得
每一个用户组的CTR,每一个用户组的CTR和每一个用户组的用户画像的置信度所属的取值
区间可以形成图5中的折线501。本公开可以将直线500和折线501的交点作为信息推荐场景
的置信度阈值。例如,如图5所示,本公开可以将0.3作为信息推荐场景的置信度阈值。
户的用户画像。
用户画像调整参数。本公开可以利用下述公式(4)获得一用户的用户画像:
值的具体取值;A2表示待修正用户的相似用户群的用户画像均值,例如,像素用户群中的所
有用户的用户画像中针对每一个枚举值的具体取值的均值。
参数、待修正用户的用户画像以及待修正用户的相似用户群的用户画像均值分别进行考
量,有利于使调整后的用户画像更符合用户的真实情况。
划分在一个组中。
的第一子模块6001用于根据用户操作数据,获取各用户的用户静态属性标签和各用户的用
户行为特征。其中的第二子模块6002用于对所述各用户的用户静态属性标签和各用户的用
户行为特征进行数据挖掘处理,获得各用户的用户价值标签和用户状态标签。
行为的行为次数;针对任一用户,将该用户针对各偏好枚举值执行各类行为的行为次数作
为该用户的用户行为特征。
户的特征向量中选取部分维度的特征向量。其中的第四子模块6033用于计算该用户的所述
部分维度的特征向量分别与该用户所在组中的其他各用户的部分维度的特征向量的相似
度。其中的第五子模块6033用于将相似度符合预定相似度要求的用户作为该用户的相似用
户群中的用户。
个用户的特征向量的单次行为交叉熵均值,获得多个单次行为交叉熵均值。其中的第七子
模块6042用于针对所述多个单次行为交叉熵均值进行计算,获得该用户的用户画像的置信
度。
用户画像均值,并根据该用户的用户画像调整参数、该用户的用户画像以及所述用户画像
均值,确定该用户的用户画像。
储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失
性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介
质上可以存储一个或多个计算机程序指令,处理器711可以运行所述程序指令,以实现上文
所述的本公开的各个实施例的用户画像修正方法以及/或者其他期望的功能。在所述计算
机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
括例如键盘、鼠标等等。该输出装置714可以向外部输出各种信息。该输出设备714可以包括
例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
可以包括任何其他适当的组件。
“示例性方法”部分中描述的根据本公开各种实施例的用户画像修正方法中的步骤。
Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程
序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软
件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备
或服务器上执行。
法”部分中描述的根据本公开各种实施例的用户画像修正方法中的步骤。
磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的
例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存
取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式
紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解
的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部
分说明即可。
的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、
“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词
汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所
使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特
别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序
包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据
本公开的方法的程序的记录介质。
义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到
在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
域技术人员将认识到其某些变型、修改、改变、添加和子组合。