基于多个数据源构建精准的用户画像系统的方法转让专利

申请号 : CN201710485239.6

文献号 : CN107341206B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杨帆赵勇

申请人 : 南京甄视智能科技有限公司

摘要 :

本发明提供一种基于多个数据源构建精准的用户画像系统的方法,包括:步骤1、建立一用户画像库,记录用户账号、标签信息;步骤2、接收新数据源,获得该数据源的用户账号、可靠程度、包含的若干个不同类型的数据信息;步骤3、计算新数据源的得分;步骤4、在该新数据源所包含的每个类型的数据信息所涉及的标签上均赋上该数据信息及新数据源的得分,新建和/或更新标签信息至用户画像库从而构成用户画像。本发明提出的一种基于多个数据源构建精准的用户画像系统,该画像系统基于多个数据源,融合多个数据源的数据构建用户画像系统,通过该系统能够构建全息多维度的用户画像。

权利要求 :

1.一种基于多个数据源构建精准的用户画像系统的方法,其特征在于,包括:步骤1、建立一用户画像库,记录用户账号、标签信息;所述标签信息包括标签的类型、标签信息所包含的数据信息及其得分;所述标签信息所包含的数据信息及其得分构成对应的用户账号的用户画像;

步骤2、接收新数据源,获得该数据源的用户账号、可靠程度、包含的若干个不同类型的数据信息;

步骤3、根据新数据源的可靠程度计算新数据源的得分;

步骤4、在该新数据源所包含的每个类型的数据信息所涉及的标签上均赋上该数据信息及新数据源的得分,并且根据用户账号、标签的类型、标签信息所包含的数据信息及得分,新建和/或更新标签信息至用户画像库;

其中,前述步骤3中,根据新数据源的可靠程度计算新数据源的得分的方法包括:预先设定根据用户账号、标签信息至少由两个数据源获得,以其中一个可靠程度最高的数据源A为基准,设定其数据源的可靠程度为K1,数据源A的得分S1为10分;新数据源B的可靠程度为K2,新数据源B的得分S2为:S2=S1*(K2/K1);

并且新数据源B包含的若干个不同类型数据信息的得分均等于S2。

2.根据权利要求1所述的基于多个数据源构建精准的用户画像系统的方法,其特征在于,步骤4中,根据用户账号、标签的类型、标签信息所包含的数据信息及得分,新建和/或更新标签信息至用户画像库还包括:响应于查询新数据源所属的用户账号是否存在在用户画像库中的查询结果,执行下述动作:当查询结果为是时,更新所述标签信息至用户画像库;

当查询结果为否时,新建所述用户账号及所述标签信息至用户画像库。

3.根据权利要求2所述的基于多个数据源构建精准的用户画像系统的方法,其特征在于,当查询结果为是时,

响应于标签的类型为互斥型的标签,按照互斥型标签更新规则更新所述标签信息至用户画像库;

响应于标签的类型为非互斥型的标签,按照非互斥型标签更新规则更新所述标签信息至用户画像库。

4.根据权利要求3所述的基于多个数据源构建精准的用户画像系统的方法,其特征在于,所述互斥型标签更新规则为:当该标签在用户画像库中存在,判断该标签的得分是否高于用户画像库中原标签的得分,如果是,更新该标签的得分至用户画像库中原标签上;如果否,不做任何操作;

当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中。

5.根据权利要求4所述的基于多个数据源构建精准的用户画像系统的方法,其特征在于,所述非互斥型标签更新规则为:当该标签在用户画像库中存在,增加该标签信息所包含的各个数据信息及得分至用户画像库中的原标签上;

当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中。

说明书 :

基于多个数据源构建精准的用户画像系统的方法

技术领域

[0001] 本发明涉及用户信息标签化技术领域,具体而言涉及一种基于多个数据源构建精准的用户画像系统及方法。

背景技术

[0002] 用户画像,即用户信息标签化,就是通过收集与分析用户静态属性、社会属性、行为属性等主要信息的数据之后,抽象出一个用户全貌用于支撑个性化推荐等大数据应用的基本方式。用户画像为公司或企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等价值信息。
[0003] 然而,现有的用户画像构建方法中,通常使用单一的数据源,数据标签化之后即构成了用户画像。这样的用户画像系统不能体现用户全貌,无法满足企业找到精准用户的需求。

发明内容

[0004] 本发明目的在于提供一种基于多个数据源构建精准的用户画像系统及方法,该画像系统基于多个数据源,融合多个数据源的数据构建用户画像系统,通过该系统能够构建全息多维度的用户画像。
[0005] 本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。
[0006] 为达成上述目的,本发明提出一种基于多个数据源构建精准的用户画像系统的方法,包括:
[0007] 步骤1、建立一用户画像库,记录用户账号、标签信息;所述标签信息包括标签的类型、标签信息所包含的数据信息及其得分;所述标签信息所包含的数据信息及其得分构成对应的用户账号的用户画像;
[0008] 步骤2、接收新数据源,获得该数据源的用户账号、可靠程度、包含的若干个不同类型的数据信息;
[0009] 步骤3、根据新数据源的可靠程度计算新数据源的得分;
[0010] 步骤4、在该新数据源所包含的每个类型的数据信息所涉及的标签上均打上该数据信息及新数据源的得分,并且根据用户账号、标签的类型、标签信息所包含的数据信息及得分,新建和/或更新标签信息至用户画像库。
[0011] 进一步的实施例中,还包括:
[0012] 步骤3中,前述步骤3中,根据新数据源的可靠程度计算新数据源的得分的方法包括:
[0013] 预先设定根据用户账号、标签信息至少由两个数据源获得,以其中一个可靠程度最高的数据源A为基准,设定其数据源的可靠程度为K1,数据源A的得分S1为10分;新数据源B的可靠程度为K2,新数据源B的得分S2为:S2=S1*(K2/K1);
[0014] 并且新数据源B包含的若干个不同类型数据信息的得分均等于S2。
[0015] 进一步的实施例中,还包括:
[0016] 步骤4中,根据用户账号、标签的类型、标签信息所包含的数据信息及得分,新建和/或更新标签信息至用户画像库还包括:响应于查询新数据源所属的用户账号是否存在在用户画像库中的查询结果,执行下述动作:
[0017] 当查询结果为是时,更新所述标签信息至用户画像库;
[0018] 当查询结果为否时,新建所述用户账号及所述标签信息至用户画像库。
[0019] 进一步的实施例中,其特征在于,还包括:
[0020] 当查询结果为是时,
[0021] 响应于标签的类型为互斥型的标签,按照互斥型标签更新规则更新所述标签信息至用户画像库;
[0022] 响应于标签的类型为非互斥型的标签,按照非互斥型标签更新规则更新所述标签信息至用户画像库。
[0023] 进一步的实施例中,所述互斥型标签更新规则为:
[0024] 当该标签在用户画像库中存在,判断该标签的得分是否高于用户画像库中原标签的得分,如果是,更新该标签的得分至用户画像库中原标签上;如果否,不做任何操作;
[0025] 当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中。
[0026] 进一步的实施例中,所述非互斥型标签更新规则为:
[0027] 当该标签在用户画像库中存在,增加该标签信息所包含的各个数据信息及得分至用户画像库中的原标签上;
[0028] 当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中。
[0029] 根据本发明的改进,还提出一种基于多个数据源构建精准的用户画像系统,[0030] 包括存储模块、计算模块及处理模块;
[0031] 所述存储模块中存储有及一用户画像库,用户画像库用于记录用户账号、标签信息;所述标签信息包括标签的类型、标签信息所包含的数据信息及其得分;
[0032] 所述处理模块用于:
[0033] 接收新数据源,获得该数据源的用户账号、可靠程度、包含的若干个不同类型的数据信息;
[0034] 所述计算模块用于根据新数据源的可靠程度计算新数据源的得分;
[0035] 所述处理模块还用于:
[0036] 在该新数据源所包含的每个类型的数据信息所涉及的标签上均打上该数据信息及得分,并且根据用户账号、标签信息,新建和/或更新标签信息至将用户画像库画像库;
[0037] 所述存储模块、计算模块均与处理模块电连接。
[0038] 进一步的实施例中,所述标签的类型包括互斥型标签、非互斥型标签。
[0039] 由以上本发明的技术方案,与现有相比,其显著的有益效果在于,该画像系统基于多个数据源,融合多个数据源的数据构建用户画像系统,通过该系统能够构建全息多维度的用户画像,能够帮助企业快速找到精准用户群体以及用户需求等价值信息。
[0040] 应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
[0041] 结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

[0042] 附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
[0043] 图1是本发明的基于多个数据源构建精准的用户画像系统的方法的流程示意图。
[0044] 图2是本发明的基于多个数据源构建精准的用户画像系统的电控部分示意图。

具体实施方式

[0045] 为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
[0046] 在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
[0047] 为达成上述目的,结合图1所示,本发明提供一种基于多个数据源构建精准的用户画像系统的方法,包括:
[0048] 步骤1、建立一用户画像库:
[0049] 建立一用户画像库,记录用户账号、用户账号所对应的标签信息;标签信息包括标签的类型、标签信息所包含的数据信息及其得分;标签信息所包含的数据信息及其得分即构成对应的用户账号的用户画像。
[0050] 在本实施例中,用户账号包括用户名、手机号或者身份证号码;一个手机号或者身份证号码只能拥有一个用户账号。每个用户账号对应有若干个标签,标签的类型分为两种,一种为互斥型标签,互斥型标签只包括一种数据信息,比如性别标签只包括男或者女,男或者女即为数据信息;另一种为非互斥型标签,比如爱好标签可以包括多种数据信息,比如爱好标签可包括爬山和游泳等,爬山、游泳即为数据信息。
[0051] 步骤2、接收新数据源:
[0052] 接收新数据源,获得该数据源的用户账号、可靠程度、该数据源包含的若干个不同类型的数据信息。例如银行系统作为数据源,可以产生姓名、年龄、性别等数据信息;招聘网站作为数据源,可以产生用户工作开始时间、薪资待遇、行业信息等数据信息,购物网站作为数据源,可以产生兴趣爱好、消费水平等数据信息;各数据源的数据可能存在重合甚至冲突,因此本发明提出了一种得分制用于不同数据源的数据融合实现更完善的用户画像建立。
[0053] 步骤3、确定新数据源的得分:
[0054] 根据新数据源的可靠程度计算新数据源的得分,包括:
[0055] 预先设定根据用户账号、标签信息至少由两个数据源获得,以其中一个可靠程度最高的数据源A为基准,设定其数据源的可靠程度为K1,数据源A的得分S1为10分;新数据源B的可靠程度为K2,新数据源B的得分S2为:S2=S1*(K2/K1);
[0056] 并且新数据源B包含的若干个不同类型数据信息的得分均等于S2。
[0057] 当然,每种类型的数据源的可靠程度采用预先设置的方式,可靠程度是多少,可以根据历史数据和客户反馈数据统计获得,技术人员也可以根据实际情况调整每个数据源的可靠程度。
[0058] 由上述可知,每种数据信息如果获得的数据源不一样,则得分不一样;同一个数据源获得的多种数据信息的得分则相同。比如,银行系统作为数据源,可靠程度为最高等级,则银行系统的数据源得分为10分,其所包含的姓名、年龄、性别等数据信息均为10分;如果招聘网站的数据源也包含姓名、年龄、性别等数据信息,但是计算出的得分为8分,则招聘网站包含的姓名、年龄、性别等数据信息均为8分。因此各数据源的数据可能存在重合甚至冲突,因此本发明提出一种多个数据源数据融合构成用户画像时的打标签规则。
[0059] 当然,在某些实施例中,每种类型的数据源的得分采用预先设置的方式,比如预先设置银行系统数据源的分数为10分,招聘网站数据源得分为8分,购物网站数据源得分为7分;则第一个数据源进入时其得分不需要通过计算确定,直接能够按预先设置的得分获得,如果是招聘网站数据源,则得分为8分。
[0060] 步骤4、新建和/或更新标签信息至用户画像库:
[0061] 在该新数据源所包含的每个类型的数据信息所涉及的标签上均打上该数据信息及新数据源的得分后,根据用户账号查询新数据源所属的用户账号是否存在在用户画像库中,执行下述动作:
[0062] 当查询结果为否时,即用户账号不存在在用户画像库中,新建用户账号及标签信息至用户画像库,标签信息包括标签的类型、标签信息所包含的数据信息及得分。如此,得到一个新用户的用户画像,能够提供更多的用户画像。
[0063] 当查询结果为是时,即用户账号已存在在用户画像库中,根据标签的类型更新标签信息至用户画像库,标签信息包括标签的类型、标签信息所包含的数据信息及得分。
[0064] 当标签的类型为互斥型的标签,按照互斥型标签更新规则更新标签信息至用户画像库;当标签的类型为非互斥型的标签,按照非互斥型标签更新规则更新标签信息至用户画像库。
[0065] 前述的互斥型标签更新规则为:
[0066] 当该标签在用户画像库中存在,判断该标签的得分是否高于用户画像库中原标签的得分,如果是,更新该标签的得分至用户画像库中原标签上;如果否,不做任何操作。比如,当原来的数据源为银行系统,所涉及的资产标签的分数为10分;新数据源是购物网站,所涉及的资产标签的分数为7分,则不做任何操作,即只记录可靠程度最高的数据源获得的数据信息得分,这样能够保证分数更精准。
[0067] 当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中。这样,用户的数据信息又增加了一个维度,保证用户画像更全面精确的反映用户全貌。
[0068] 前述的非互斥型标签更新规则为:
[0069] 当该标签在用户画像库中存在,增加该标签信息所包含的各个数据信息及得分至用户画像库中的原标签上。比如,该用户账号中,已有爱好这个非互斥型标签,原爱好标签包括读书,读书这个数据信息的得分为8分,新数据源包括爱好烹饪这个数据信息且得分为7分,则在原爱好标签中增加烹饪这个数据信息和其得分。
[0070] 当该标签在用户画像库中不存在,增加该标签信息至用户画像库的用户账号中;如此,用户的标签和/或数据信息又增加了维度,保证用户画像更全面精确的反映用户全貌。
[0071] 根据本发明的改进,还提出一种基于多个数据源构建精准的用户画像系统,[0072] 包括存储模块2、计算模块3及处理模块1。
[0073] 存储模块2中存储有及一用户画像库,用户画像库用于记录用户账号、标签;标签信息包括标签的类型、标签信息所包含的数据信息及其得分;标签的类型包括互斥型标签、非互斥型标签。
[0074] 处理模块1用于:
[0075] 接收新数据源,获得该数据源的用户账号、可靠程度、包含的若干个不同类型的数据信息。
[0076] 计算模块3用于根据新数据源的可靠程度计算新数据源的得分。
[0077] 处理模块1还用于:
[0078] 在该新数据源所包含的每个类型的数据信息所涉及的标签上均打上该数据信息及得分,并且根据用户账号、标签信息,新建和/或更新标签信息至将用户画像库。
[0079] 存储模块2、计算模块3均与处理模块1电连接。
[0080] 从而,本发明基于多个数据源,融合多个数据源的数据构建用户画像系统,通过该系统能够构建全息多维度的用户画像,能够帮助企业快速找到精准用户群体以及用户需求等价值信息。
[0081] 虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。