基于信息熵的标签权重智能更新方法、系统及计算机设备转让专利

申请号 : CN202210076732.3

文献号 : CN114090854B

文献日 : 2022-04-19

本发明属于大数据标签技术，为基于信息熵的标签权重智能更新方法、系统及计算机设备，其方法包括：获取源数据，包括标签集合、标签覆盖率、标签使用行为次数集合、标签行为权重集合、业务场景系数；考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，改进信息量计算公式并生成标签信息量权重；基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；计算标签权重的衰减系数；根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。本发明使得标签权重更新相关的系数可动态调整，解决了现有技术难以保证标签权重准确有效的问题。

1.基于信息熵的标签权重智能更新方法，其特征在于，包括以下步骤：S1、获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签使用行为次数集合A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)；

S2、对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆盖率为真数；将改进的信息量计算公式作为标签信息量权重生成公式，生成标签信息量权重；

S3、基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；

S4、按照标签使用场景与人工调整系数，计算标签权重的衰减系数；

S5、在步骤S1‑S4的基础上，根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。

2.根据权利要求1所述的标签权重智能更新方法，其特征在于，步骤S1所获取的源数据还包括标签基础权重C(ti)；步骤S5中根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数、标签基础权重及业务场景系数，生成标签权重并动态更新。

3.根据权利要求2所述的标签权重智能更新方法，其特征在于，步骤S2的标签覆盖率基准值包括以下计算方式：通过计算当前标签集合的覆盖率平均值得到，或者按照标签分布规律选择标签覆盖率的中位值或四分位值作为标签覆盖率基准值，或者由用户指定的基准标签的最新覆盖率作为标签覆盖率基准值；并根据标签基础权重的手工调整情况，将标签覆盖率基准值的计算方式在上述计算方式之间切换。

4.根据权利要求3所述的标签权重智能更新方法，其特征在于，步骤S2中标签覆盖率基准值通过计算当前标签集合的覆盖率平均值得到时，改进的信息量计算公式为：I(ti) = logP(基准)(P(ti))=其中，I(ti)是标签信息量权重，P(基准)是标签覆盖率基准值，是标签ti的标签覆盖率，n是当前标签集合中的标签数量。

5.根据权利要求1所述的标签权重智能更新方法，其特征在于，步骤S3中标签使用权重系数的计算公式为：

UW(ti)=

其中，UW（ti）为标签使用权重系数，为标签ti某项行为的次数，bi为相应的行为权重，同时设置每项行为权重的上限值。

6.根据权利要求1所述的标签权重智能更新方法，其特征在于，步骤S4包括以下步骤：S401、在初始启动时，按照业务经验判断存在权重衰减的标签，并配置衰减开始日期、衰减周期、衰减系数和衰减方式；

S402、根据衰减方式，计算标签权重的衰减系数；

衰减方式为固定倍数或指数时，得到的衰减系数为：AW(ti)=((当前日期‑衰减开始日期)/衰减周期天数)*衰减系数，或AW(ti)= ；

衰减方式为固定值时，衰减系数为：A(ti)=((当前日期‑衰减开始日期)/衰减周期)*衰减系数；

其中，AW(ti)是衰减方式为固定倍数或指数时的衰减系数，A(ti)是衰减方式为固定值时的衰减系数。

7.根据权利要求6所述的标签权重智能更新方法，其特征在于，步骤S1所获取的源数据还包括标签基础权重C(ti)；步骤S5中生成标签权重H(ti)并动态更新的情形包括：标签权重不进行衰减时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)；

标签权重的衰减方式为固定倍数或指数时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)* AW(ti) ；

标签权重的衰减方式为固定值时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)+A(ti)；

其中，I(ti)为步骤S2所生成的标签信息量权重，UW(ti)为步骤S3所自动更新的标签使用权重系数，AW(ti)、A(ti)为步骤S4所计算的标签权重的衰减系数。

8.基于信息熵的标签权重智能更新系统，其特征在于，包括：源数据获取模块，用于获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签使用行为次数集合A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)；

标签信息量权重生成模块，用于对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆盖率为真数；将改进的信息量计算公式作为标签信息量权重生成公式，生成标签信息量权重；

标签使用权重系数更新模块，用于基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；

标签权重衰减系数计算模块，按照标签使用场景与人工调整系数，计算标签权重的衰减系数；

标签权重动态更新模块，用于根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。

9.根据权利要求8所述的标签权重智能更新系统，其特征在于，所获取的源数据还包括标签基础权重C(ti)；

标签权重动态更新模块根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数、标签基础权重及业务场景系数，生成标签权重并动态更新；

标签信息量权重生成模块中，引入的标签覆盖率基准值包括以下计算方式：通过计算当前标签集合的覆盖率平均值得到，或者按照标签分布规律选择标签覆盖率的中位值或四分位值作为标签覆盖率基准值，或者由用户指定的基准标签的最新覆盖率作为标签覆盖率基准值；标签信息量权重生成模块还根据标签基础权重的手工调整情况，将标签覆盖率基准值的计算方式在上述计算方式之间切换。

10.计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时，实现权利要求1‑7中任一项所述标签权重智能更新方法的步骤。

基于信息熵的标签权重智能更新方法、系统及计算机设备

技术领域

[0001] 本发明属于大数据标签技术领域，具体为基于信息熵的标签权重智能更新方法、系统及计算机设备。

背景技术

[0002] 大数据标签是对数据高度提炼归纳和分析挖掘得到的特征标识，表达对事物对象的结论和评判，是“数据”与“业务”间的“桥梁”，基于这种特性，标签可支撑应用精准制定策
略、快速做出决策，在数字化时代发挥越来越重要的作用。

[0003] 传统构建客户标签的方法一般是基于企业内外部各类数据，按照特定规则为客户“打”上相应的标签，同时根据固定的标签权重计算公式在标签更新时对标签权重进行计
算，相应的标签权重计算公式缺乏动态更新的方式。随着业务发展和数据快速变化，在运行
一段时间后，不能动态更新的标签权重计算方式，已逐渐无法满足业务精准的要求。同时标
签权重在生成后，只能随着标签更新时对标签权重进行调整，导致标签权重在使用过程中
无法及时反馈业务对象最新的特征。

[0004] 与此同时，由于业务需求、使用环境、反馈数据的变化，标签的价值受到时间变化的影响较大，所述影像显现为标签的价值随着时间逐渐降低。为解决这个问题，通常会采用
提高标签更新频率或在标签权重计算中增加衰减系数来解决。其中，提高标签更新频率的
方式仅适合能快速获取到数据变化与计算能力较为强大的情况。而部分标签创建后由于无
法获取到相应的源数据变化，特别是手工标记的标签，则需要使用衰减系数来保证标签权
重的准确性；传统的实现方式通常会基于牛顿冷却定律，利用指数衰减函数作为时间衰减
因子，并且仅能指定固定的日期作为衰减开始时间，传统的衰减函数对业务人员而言并不
容易理解，同时也无法满足所有标签的衰减特性。

发明内容

[0005] 本发明提出基于信息熵的标签权重智能更新方法、系统及计算机设备，通过设置标签信息量权重、标签使用权重系数、业务场景系数等，改进标签信息量权重与标签权重衰
减的计算方式，构建了智能化的标签权重更新方式，使得与标签权重更新相关的参数或系
数可以灵活地动态调整，解决了现有技术中缺乏智能化的动态调整手段，难以保证标签权
重持续准确有效的技术问题。

[0006] 一方面，根据本发明的基于信息熵的标签权重智能更新方法，包括以下步骤：

[0007] S1、获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签使用行为次数集合
A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)；

[0008] S2、对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆盖率为真数；将改进的信息量
计算公式作为标签信息量权重生成公式，生成标签信息量权重；

[0009] S3、基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；

[0010] S4、按照标签使用场景与人工调整系数，计算标签权重的衰减系数；

[0011] S5、在步骤S1‑S4的基础上，根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。

[0012] 另一方面，根据本发明的基于信息熵的标签权重智能更新系统，包括：

[0013] 源数据获取模块，用于获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签使
用行为次数集合A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)；

[0014] 标签信息量权重生成模块，用于对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆
盖率为真数；将改进的信息量计算公式作为标签信息量权重生成公式，生成标签信息量权
重；

[0015] 标签使用权重系数更新模块，用于基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；

[0016] 标签权重衰减系数计算模块，按照标签使用场景与人工调整系数，计算标签权重的衰减系数；

[0017] 标签权重动态更新模块，用于根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。

[0018] 再一方面，根据本发明的计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，实现权利要求本发明标签
权重智能更新方法的各步骤。

[0019] 与现有技术相比，本发明具有以下的有益效果：

[0020] 1、基于改进的信息量计算公式，通过动态、自动计算标签覆盖率基准值，得到相对于基准值的标签信息量，进而获得标签信息量权重，以优化标签权重的整体分布情况，提升
标签权重的合理性。

[0021] 2、增加标签使用权重系数，以在标签权重中体现标签的使用价值，进一步提升标签权重的全面性；其中，标签使用权重基于行为次数与行为权重自动计算得出，并可按照标
签使用数据自动加权更新，以保证权重系数的准确性。

[0022] 3、增加标签基础权重，以解决标签权重计算在缺乏数据的情况下冷启动问题，保证标签权重在缺乏初始数据时仍然可以使用，同时也可以让用户可以手工调整相应的标签
权重，以满足用户的各种权重应用需求。

[0023] 4、改进标签权重衰减计算方式，通过支持多种衰减方式、衰减日期与增加人为调整因数，让用户能够基于业务理解动态调整相应的衰减系数，以满足不同标签类型的衰减
特征。同时在具备训练样本后，可自动生成相应的衰减权重，提升存在衰减特征的标签权重
合理性。

[0024] 5、提出业务场景系数CSi(ti)，以评价标签在不同场景下的重要性，提升标签权重的灵活性与适应范围。设置业务场景系数后，同一个标签在不同的应用场景下，会具有不同
的业务场景系数，即同一个标签会有多个不同的权重系数。也就是说，本发明通过设置业务
场景系数，能够灵活地根据场景的变化，对业务场景系数作出动态调整，从而可按场景动态
地调整、更新标签权重。

附图说明

[0025] 图1 为本发明实施例中基于信息熵的标签权重智能更新方法的流程图；

[0026] 图2为本发明实施例中基于信息熵的标签权重智能更新系统的架构示意图。

具体实施方式

[0027] 下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

[0028] 实施例1

[0029] 本实施例提出基于信息熵的标签权重智能更新方法，包括如下步骤：

[0030] S1、获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签基础权重C(ti)、标签
使用行为次数集合A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)等数据。

[0031] 标签集合A1={t0,t2,t3,....,tn}指的是某类标签的集合，包括但不限于：1、某个业务对象下所有的标签集合，如客户业务主体下面的所有标签；2、某个业务场景下的所有
标签集合；3、某个具体分类下的所有标签集合，如行为类标签；4、全量标签的集合。其中t1,
t2,t3,....,tn指具体的标签。

[0032] 标签对应的业务对象总数量T指的是当前计算权重的标签对应的业务对象总数量，如“高风险客户”标签对应的业务对象总数量指的是能作为“高风险客户”标签标记对象
的总数量，即系统中拥有相应数据的客户总数量。

[0033] 标签覆盖率P(ti)指的是拥有标签ti的业务对象数量占标签对应的业务对象总数量的比率，P(ti)=T(ti)/T，其中T(ti)是指拥有标签ti的业务对象数量。

[0034] 标签基础权重C(ti)指的是由用户输入的基础权重，通常大于0，初始值为0，可用于人工调整标签权重与解决冷启动问题，一方面保证标签权重在缺乏初始数据时仍然可以
使用，另一方面增加人工调整权重的入口。

[0035] 标签使用行为次数集合A2(ti)={a1,a2,..,an}是指标签ti相应的操作行为记录数量，其中a1,a2,..,an指的是对应行为的次数，包括但不限于标签信息被查询次数、标签结果
被调用次数、标签点赞次数、标签评价记录数量等操作行为的数据。本实施例中，标签使用
行为次数的统计周期可以只统计指定时间周期的行为记录数量，如三个月内的行为记录数
量，也可以按照行为发生时间对行为次数进行加权计算，以体现历史行为记录对于当前的
重要性不断减弱，如：三个月前到一年的行为记录按照0.5的权重进行次数统计，一年前的
行为记录按照0.1的权重进行次数统计。

[0036] 标签行为权重集合A3={b1,b2,..,bn}为相应行为记录对应的权重系数集合，以体现不同行为对于标签权重的重要性，该权重系数集合（即标签行为权重集合）主要由历史经
验值得到，其中b1对应行为a1表示的行为权重。本实施例中，不同场景下，标签行为权重集合
可以根据场景特性进行手工调整，即不同场景下可以有不同的标签行为权重集合。

[0037] 业务场景系数CSi(ti)是指标签在某个场景下的加权权重系数，业务场景系数大于0，初始值为1。业务场景系数的设置方式包括三种：第一种是用户手工输入，即用户可以在
系统界面输入某个标签在某个场景下的场景权重系数；第二种是系统自动计算，即系统根
据标签在某个场景下的使用次数，自动做加权计算，比如标签A在甲场景经常被使用到，系
统自动给标签A在甲场景下的场景权重系数加大；第三种是指定关键标签，与用户手工输入
的设置方式类似，只不过用户不需要一个个输入，只需要指定某个场景下的关键标签，系统
自动对所指定的关键标签及其同类标签在该场景下的场景权重系数加大。

[0038] 本实施例以计算“高价值客户”标签的标签权重为例，对步骤S1详细描述如下：

[0039] S101、获取客户标签集合A1={‘高价值客户’,‘中价值客户’,‘低价值客户’,‘高风险客户’，....,tn}，标签集合A1包含了全量的客户标签，共n个标签。

[0040] S102、获取客户总数量T，即标签对应的业务对象总数量T。

[0041] S103、获取拥有‘高价值客户’标签的客户数量T(t高价值客户)，并得到‘高价值客户’标签的覆盖率P(t高价值客户)=T(t高价值客户)/T。

[0042] S104、获取用户输入的标签基础权重C(ti)，如果没有输入则默认标签基础权重为0。

[0043] S105、获取‘高价值客户’标签使用行为次数集合A2(t高价值客户)={a查询,a调用,a点赞,a评价,a踩}，其中a查询是标签信息被查询次数，a调用是标签结果被调用次数，a点赞是标签点赞次数，a评价
是标签评价记录数量，a踩是标签踩的数量。

[0044] S106、获取标签行为权重集合A3={b查询, b调用,b点赞,b评价,b踩}，其中b查询是标签信息被查询行为权重，b调用是标签结果被调用行为权重，b点赞是标签点赞行为权重，b评价是标签评价
行为权重，b踩是标签踩行为权重。除b踩为负数外，其它均为正数。

[0045] S106、获取业务场景系数CS(t高价值客户)。

[0046] S2、对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆盖率为真数；将改进的信息量
计算公式作为标签信息量权重生成公式，生成标签信息量权重。

[0047] 信息熵是为了量化信息的不确定性而设计的度量，当一个事件发生概率很小并发生了，事件的信息量大，当一个事件发生概率很大并发生了，事件的信息量小。借鉴信息熵
的理念，标签也可以看成是业务对象的一种信息，如果大量业务对象拥有该标签，则可以认
为该标签含有的信息量较低；如果只有少量客户拥有该标签，则可认为该标签含有的信息
量较高。

[0048] 因为标签只存在“被标记”和“未被标记”两种状态，传统情况下仅使用信息量计算公式I(X) = ‑log(P(X))，计算标签的信息熵即可，其中标签覆盖率P(X)可以作为标签出现
的概率，但该计算公式并没有考虑标签覆盖率的整体分布情况，缺少相应的基准，如：标签
覆盖率接近标签覆盖率基准值则权重应该为1，若偏离标签覆盖率基准值越多则相应的权
重变化应越明显。

[0049] 基于此，本实施例对上述传统信息量计算公式进行改进，以标签覆盖率基准值作为log对数的底数，以标签覆盖率作为真数，以保证标签权重的合理性。改进后的标签信息
量权重具体计算公式为：

[0050] I(ti) = logp(基准)(P(ti))=

[0051] 其中，I(ti)是标签信息量权重，P(基准)是标签覆盖率基准值，n是当前标签集合中的标签数量，可以通过计算当前标签集合的覆盖率平均值得到，即
。此外，还可以按照标签分布规律选择标签覆盖率的中位值、四
分位值等数值作为标签覆盖率基准值；也可以由用户指定某个标签作为基准标签，以所指
定的基准标签的最新覆盖率作为标签覆盖率基准值。且系统能够根据用户手工调整标签基
础权重的情况，将标签覆盖率基准值的计算方式在上述三种方式之间切换。

[0052] 标签覆盖率基准值P(基准)与标签基础权重C(ti)这两个参数都会影响最终的标签权重生成或更新结果。如果标签覆盖率基准值设置得非常合理的情况，可以认为基于标
签覆盖率基准值生成的标签权重是比较合适的，这样用户就不需要手工调整标签基础权重
来影响最终的标签权重结果。如果用户经常需要手工调整标签基础权重来影响最终的标签
权重结果，这样有可能是因为标签覆盖率基准值的计算方式，设置得不是很合理；这种情况
下系统会自动调整相应的标签覆盖率基准值的计算方式，如原来是用标签覆盖率的中位值
来作为标签覆盖率基准值的，现在改成用标签覆盖率的四分位值来看下用户还会不会经常
需要手工调整标签基础权重来影响最终的标签权重结果，如果用户手工调整次数少了，就
证明有效，如果用户手工调整次数多了，就证明反而更差了，就继续调整。

[0053] 在实际应用过程中，可根据用户手工调整标签基础权重的频率，来间接评估标签覆盖率基准值的计算方式是否适合用户现状，如果发现用户频繁手工调整标签基础权重以
校正各标签的最终权重结果，系统自动调整相应的标签覆盖率基准值计算方式，以自动调
整至最佳效果。例如：在初始阶段使用标签覆盖率平均值作为标签覆盖率基准值，发现用户
频繁手工调整标签基础权重来校正标签的最终权重，则系统可自动调整使用标签覆盖率中
位值作为标签覆盖率基准值，并在调整后自动对比与调整前的手工调整标签基础权重频
率，判断是否需要进行再次切换、还原或提示让用户手工设置标签覆盖率基准值。

[0054] 本实施例中，采用改进后的信息量计算公式，获得标签信息量权重的过程如下：

[0055] S201、计算标签覆盖率基准值，本实施例通过计算客户标签集合A1所有标签的标签覆盖率平均值得到。

[0056] S202、计算标签信息量权重I(t高价值客户) = logp(基准)(P(ti))=。

[0057] S3、基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数。

[0058] 标签的重要性，除了其本身含有的信息量外，还需要结合标签对用户是否有价值，对用户是否有价值可以通过标签的使用行为来判断。本实施例通过基于标签使用行为次数
与标签行为权重，自动计算标签使用权重系数，以在标签权重中体现标签的使用价值。

[0059] 标签使用权重系数的计算公式为：

[0060] UW(ti)=

[0061] 其中，UW(ti)为标签使用权重系数，为标签ti某项行为的次数，bi为相应的行为权重，同时设置每项行为权重的上限值，以防止极端值的出现，如设置行为i的权重上限为
1，则即使的绝对值大于1，相应行为权重也仅为1。

[0062] 本实施例中，由于标签行为权重可以根据场景特性进行调整，因而所计算的标签使用权重系数能够充分地随业务场景的变化而动态调整，业务场景对标签生成及更新的影
响并不粗浅地反应在标签的分类上，而是使同一标签能够追随业务场景的切换或变化而动
态地得到更新，从而使标签权重系数的准确性得到了很好的改善和提升。具体体现为：标签
权重系数的确定通过业务场景系数进行粗调整，并进一步根据业务场景中不同标签行为的
权重来进行细调整。

[0063] 标签使用权重系数的更新周期可为实时更新，但考虑到需要消耗系统计算资源，通常设置为按照指定周期进行更新，如：按小时、按天进行更新。

[0064] 本实施例中，“高价值客户”的标签使用权重系数的自动更新过程如下

[0065] S301、计算标签使用权重系数：

[0066] UW(t高价值客户)=

[0067] 其中 i为标签ti某项行为的次数，bi为相应的行为权重，即UW(t高价值客户)= 查询*b查询+调用*b调用+ 点赞*b点赞+ 评价*b评价+ 踩*b踩，本实施例假设各行为的权重上限均为k，且查询*b查询、
调用*b调用、点赞*b点赞、评价*b评价、踩*b踩的结果绝对值均小于k。

[0068] S302、设标签使用权重系数每小时更新，则每小时会根据最新的行为数量进行计算。

[0069] S4、按照标签使用场景与人工调整系数，计算标签权重的衰减系数。具体包括如下步骤：

[0070] S401、在初始启动时，用户需要按照业务经验判断存在权重衰减的标签，并配置衰减开始日期、衰减周期、衰减系数、衰减方式。

[0071] 其中，衰减开始日期包括但不限于标签更新日期、固定日期、动态日期，动态日期是指相对于具体的业务对象状态发生变化的日期，如：按照客户生日开始衰减（不同客户的
这个时间并不一样）。衰减周期包括按周、按日、按月等时间周期。衰减系数为小于1且大于0
的小数。衰减方式可以为固定倍数、指数、固定值等多种方式，以满足不同的标签价值衰减
特性。

[0072] S402、根据衰减方式，计算标签权重的衰减系数。

[0073] 不同的衰减方式对于衰减系数的计算并不一样：

[0074] 衰减方式为固定倍数或指数时，得到的衰减系数为：AW(ti)=((当前日期‑衰减开始日期)/衰减周期天数)*衰减系数，或AW(ti)= 。以上衰减系
数计算公式仅为简单的实现示例，在实际应用过程中本领域技术人员可以根据标签的价值
衰减程度训练相应的衰减系数计算公式。

[0075] 衰减方式为固定值时，衰减系数为：A(ti)=((当前日期‑衰减开始日期)/衰减周期)*衰减系数。

[0076] 其中，AW(ti)是衰减方式为固定倍数或指数时的衰减系数，A(ti)是衰减方式为固定值时的衰减系数。

[0077] 本实施例假设衰减开始日期为D、衰减周期为按周衰减、衰减系数为ks、衰减方式可以为固定倍数，则衰减系数的计算如下：A(t高价值客户)=((当前日期‑D)/7)*ks。

[0078] 优选地，在获得一定量的训练样本数据后，可通过将标签的属性信息转变成向量，来计算当前标签与已经配置衰减系数的标签相似度，如果存在相似度较高的标签，则自动
引用相应相似标签的衰减系数。

[0079] S5、在步骤S1‑S4的基础上，根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数、标签基础权重、业务场景系数，生成标签权重并动态更新。

[0080] 本步骤动态生成与更新标签权重H(ti)，存在以下三种情况：

[0081] 1、标签权重不进行衰减时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)；

[0082] 2、标签权重的衰减方式为固定倍数或指数时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)* AW(ti) ；

[0083] 3、标签权重的衰减方式为固定值时，计算如下：H(ti)=( I(ti)*UW(ti)+ C(ti))* CSi(ti)+A(ti)；

[0084] 其中，I(ti)为步骤S2所生成的标签信息量权重，UW(ti)为步骤S3所自动更新的标签使用权重系数，C(ti)为标签基础权重，CSi(ti)为业务场景系数，AW(ti)、A(ti)为步骤S4所
计算的标签权重的衰减系数。

[0085] 根据标签权重的衰减方式，选择相应的标签权重计算公式动态计算和更新标签权重H(ti)值。标签权重可为实时更新，但考虑到需要消耗系统计算资源，通常设置为按照指
定周期进行更新，如按15分钟、按小时、按天进行更新。

[0086] 本实施例中，“高价值客户”的标签权重的生成及自动更新如下：

[0087] S501、生成标签权重H(t高价值客户)=(I(t高价值客户)*UW(t高价值客户)+ C(t高价值客户))* CS(t高价值客户)* AW(t高价值客户) 。

[0088] S502、本实施例中，假设标签权重每小时更新，则每小时会自动更新相应的标签权重。

[0089] 优选地，步骤S1 S4可先不进行预计算，直接形成步骤S5的计算公式后，再一次性~
代入相应的数据进行计算，在标签权重更新时使用最新的数据完成更新。

[0090] 实施例2

[0091] 与实施例1基于相同的发明构思，本实施例提供基于信息熵的标签权重智能更新系统，包括以下模块：

[0092] 源数据获取模块，用于获取标签权重计算使用到的源数据，并对源数据进行预处理；所述源数据包括：标签集合A1、标签对应的业务对象总数量T、标签覆盖率P(ti)、标签使
用行为次数集合A2(ti)、标签行为权重集合A3、业务场景系数CSi(ti)；

[0093] 标签信息量权重生成模块，用于对标签的信息量计算公式进行改进，考虑标签覆盖率的整体分布情况，引入标签覆盖率基准值作为信息量计算公式中对数的底数，标签覆
盖率为真数；将改进的信息量计算公式作为标签信息量权重生成公式，生成标签信息量权
重；

[0094] 标签使用权重系数更新模块，用于基于标签使用行为次数与标签行为权重，自动更新标签使用权重系数；

[0095] 标签权重衰减系数计算模块，按照标签使用场景与人工调整系数，计算标签权重的衰减系数；

[0096] 标签权重动态更新模块，用于根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数及业务场景系数，生成标签权重并动态更新。

[0097] 进一步地，源数据获取模块所获取的源数据还包括标签基础权重C(ti)。标签权重动态更新模块根据标签权重的衰减方式，并综合标签信息量权重、标签使用权重系数、标签
基础权重及业务场景系数，生成标签权重并动态更新。

[0098] 进一步地，标签信息量权重生成模块中，引入的标签覆盖率基准值包括以下计算方式：通过计算当前标签集合的覆盖率平均值得到，或者按照标签分布规律选择标签覆盖
率的中位值或四分位值作为标签覆盖率基准值，或者由用户指定的基准标签的最新覆盖率
作为标签覆盖率基准值；标签信息量权重生成模块还根据标签基础权重的手工调整情况，
将标签覆盖率基准值的计算方式在上述计算方式之间切换。

[0099] 实施例3

[0100] 与实施例1基于相同的发明构思，本实施例提供计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时，
实现实施例1中标签权重智能更新方法的各步骤。

[0101] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，
均应为等效的置换方式，都包含在本发明的保护范围之内。

基于信息熵的标签权重智能更新方法、系统及计算机设备转让专利

申请号 : CN202210076732.3

文献号 : CN114090854B

文献日 : 2022-04-19

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 姜磊 , 朱振航 , 杨钊 , 严海龙

申请人 : 佰聆数据股份有限公司

摘要 :

权利要求 :

说明书 :