有车用户识别方法、装置及存储介质转让专利

申请号 : CN202111322804.X

文献号 : CN114091695B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张晴晴韩玉辉程新洲王天翼成晨张涛高洁王云云夏蕊

申请人 : 中国联合网络通信集团有限公司

摘要 :

本申请提供一种有车用户识别方法、装置及计算机可读存储介质,涉及数据分析领域,能够解决现有技术中无法准确地识别用户是否为有车用户的问题。该方法包括:获取多个用户的历史数据;对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据;其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。本申请实施例能够提高识别用户是否为有车用户的准确性。

权利要求 :

1.一种有车用户识别方法,其特征在于,所述方法包括:

获取多个用户的历史数据;所述历史数据包括用户使用的至少一个车辆服务的数据;

所述至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;

对所述多个用户的历史数据进行特征处理,得到所述多个用户的车辆服务特征数据;

其中,所述车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;所述持续性特征数据用于表征用户在预设时间段内使用所述至少一个车辆服务的时间占比;所述多样性特征数据用于表征针对所述每个车辆服务,用户使用的车辆服务应用的数量占比;所述贡献度特征数据用于表征所述至少一个车辆服务的对应的流量;

根据所述车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;所述有车用户识别模型的输入参数为所述车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;

将待识别用户的车辆服务特征数据输入所述有车用户识别模型,确定所述待识别用户是否为有车用户。

2.根据权利要求1所述的方法,其特征在于,所述根据所述车辆服务特征数据进行模型训练,确定有车用户识别模型,包括:步骤1、确定有标签样本集和无标签样本集;所述有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;所述无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;

步骤2、确定所述有标签样本集的有标签影响因子和所述无标签样本集的无标签影响因子;

步骤3、根据所述有标签样本集进行有监督模型训练,得到第一预测模型;

步骤4、将所述第一预测模型作为预设训练模型;

步骤5、确定第二预测模型的临时无标签影响因子;所述临时无标签影响因子包括所述无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;所述第二预测模型为半监督训练模型;

步骤6、确定所述无标签样本集中的有车用户目标数量;

步骤7、采用所述预设训练模型,预测所述无标签样本集中的所述k个用户的有车用户和无车用户;所述k个用户的有车用户的数量为所述有车用户目标数量;

步骤8、根据预测结果,在所述无标签样本集中添加每个用户是否有车的标签,得到第一样本集;所述第一样本集包括所述有标签样本集和添加标签后的无标签样本集;

步骤9、根据所述第一样本集确定所述第二预测模型的目标函数;

步骤10、调整所述有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次所述步骤7‑所述步骤10,确定L个所述第二预测模型的目标函数;L为正整数;

步骤11、确定L个所述第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;所述第一目标函数是L个所述第二预测模型的目标函数中最小的目标函数;

步骤12、将所述第二样本集作为预设样本集;

步骤13、交换所述预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为所述预设样本集;

步骤14、根据所述预设样本集进行半监督模型训练,得到第三预测模型;

步骤15、重复执行所述步骤13‑所述步骤15,直到所述预设样本集中不存在满足所述预设条件的用户,确定多个所述第三预测模型的目标函数;

步骤16、确定多个所述第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;所述第二目标函数是多个所述第三预测模型的目标函数中最小的目标函数;

步骤17、调整所述临时无标签影响因子,将当前的第四预测模型作为所述预设训练模型集重复执行所述步骤6‑所述步骤16,直至所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子;

步骤18、在所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子的情况下,将得到的所述第四预测模型确定为所述有车用户识别模型。

3.根据权利要求2所述的方法,其特征在于,

所述有监督模型训练通过以下公式实现:

其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;C为所述有标签影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签;

所述半监督模型训练通过以下公式实现:

其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;

为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,为所述无标签样本集中有车用户的临时正样本影响因子, 为所述无标签样本集中无车用户的临时负样本影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签; 为所述无标签样本集包括k个用户中第j个用户是否有车的标签;

当所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;

*

为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,C 为所述无标签影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签; 为所述无标签样本集包括k个用户中第j个用户是否有车的标签。

4.根据权利要求1‑3任一项所述的方法,其特征在于,所述历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。

5.一种有车用户识别装置,其特征在于,包括:通信单元和处理单元;

所述通信单元,用于获取多个用户的历史数据;所述历史数据包括用户使用的至少一个车辆服务的数据;所述至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;

所述处理单元,用于对所述多个用户的历史数据进行特征处理,得到所述多个用户的车辆服务特征数据;其中,所述车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;所述持续性特征数据用于表征用户在预设时间段内使用所述至少一个车辆服务的时间占比;所述多样性特征数据用于表征针对所述每个车辆服务,用户使用的车辆服务应用的数量占比;所述贡献度特征数据用于表征所述至少一个车辆服务的对应的流量;

所述处理单元,还用于根据所述车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;所述有车用户识别模型的输入参数为所述车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;

所述处理单元,还用于将待识别用户的车辆服务特征数据输入所述有车用户识别模型,确定所述待识别用户是否为有车用户。

6.根据权利要求5所述的装置,其特征在于,所述处理单元,具体用于执行以下步骤:步骤1、确定有标签样本集和无标签样本集;所述有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;所述无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;

步骤2、确定所述有标签样本集的有标签影响因子和所述无标签样本集的无标签影响因子;

步骤3、根据所述有标签样本集进行有监督模型训练,得到第一预测模型;

步骤4、将所述第一预测模型作为预设训练模型;

步骤5、确定第二预测模型的临时无标签影响因子;所述临时无标签影响因子包括所述无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;所述第二预测模型为半监督训练模型;

步骤6、确定所述无标签样本集中的有车用户目标数量;

步骤7、采用所述预设训练模型,预测所述无标签样本集中的所述k个用户的有车用户和无车用户;所述k个用户的有车用户的数量为所述有车用户目标数量;

步骤8、根据预测结果,在所述无标签样本集中添加每个用户是否有车的标签,得到第一样本集;所述第一样本集包括所述有标签样本集和添加标签后的无标签样本集;

步骤9、根据所述第一样本集确定所述第二预测模型的目标函数;

步骤10、调整所述有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次所述步骤7‑所述步骤10,确定L个所述第二预测模型的目标函数;L为正整数;

步骤11、确定L个所述第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;所述第一目标函数是L个所述第二预测模型的目标函数中最小的目标函数;

步骤12、将所述第二样本集作为预设样本集;

步骤13、交换所述预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为所述预设样本集;

步骤14、根据所述预设样本集进行半监督模型训练,得到第三预测模型;

步骤15、重复执行所述步骤13‑所述步骤15,直到所述预设样本集中不存在满足所述预设条件的用户,确定多个所述第三预测模型的目标函数;

步骤16、确定多个所述第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;所述第二目标函数是多个所述第三预测模型的目标函数中最小的目标函数;

步骤17、调整所述临时无标签影响因子,将当前的第四预测模型作为所述预设训练模型集重复执行所述步骤6‑所述步骤16,直至所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子;

步骤18、在所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子的情况下,将得到的所述第四预测模型确定为所述有车用户识别模型。

7.根据权利要求6所述的装置,其特征在于,

所述有监督模型训练通过以下公式实现:

其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;C为所述有标签影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签;

所述半监督模型训练通过以下公式实现:

其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;

为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,为所述无标签样本集中有车用户的临时正样本影响因子, 为所述无标签样本集中无车用户的临时负样本影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签; 为所述无标签样本集包括k个用户中第j个用户是否有车的标签;

当所述临时无标签影响因子中的所述临时正样本影响因子和所述临时负样本影响因子均等于所述无标签影响因子时,所述半监督模型训练通过以下公式实现:其中,ω,b为超平面参数,ε1,…,εn为所述有标签样本集包括的n个用户的松弛变量;

*

为所述无标签样本集包括的k个用户的松弛变量;C为所述有标签影响因子,C 为所述无标签影响因子,yi为所述有标签样本集包括的n个用户中第i个用户是否有车的标签; 为所述无标签样本集包括k个用户中第j个用户是否有车的标签。

8.根据权利要求5‑7任一项所述的装置,其特征在于,所述历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。

9.一种有车用户识别装置,其特征在于,包括:处理器和通信接口;所述通信接口和所述处理器耦合,所述处理器用于运行计算机程序或指令,以实现如权利要求1‑4任一项中所述的有车用户识别方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述权利要求1‑4任一项中所述的有车用户识别方法。

说明书 :

有车用户识别方法、装置及存储介质

技术领域

[0001] 本申请涉及数据分析领域,尤其涉及一种有车用户识别方法、装置及计算机可读存储介质。

背景技术

[0002] 随着经济的发展,汽车市场不断发展,识别用户群体中的有车用户,有助于车辆服务商有针对性的为有车用户提供车辆服务。
[0003] 目前,现有技术通常根据车辆厂商的用户数据,以及用户车辆数据进行有监督模型训练,确定有车用户识别模型,从而根据该模型预测用户是否为有车用户。
[0004] 然而,该方法所采用的数据集中于车主用户数据以及车主所拥有的车辆的数据,无法真实反映目标区域内所有用户的特征信息,同时对于用户是否为有车用户的样本数据获取成本较高,因此相对于全部数据集,用于训练的样本数据很少,以此训练生成的预测模型的预测准确性也较差。

发明内容

[0005] 本申请提供一种有车用户识别方法、装置及计算机可读存储介质,能够提高识别用户是否为有车用户的准确性。
[0006] 为达到上述目的,本申请采用如下技术方案:
[0007] 第一方面,本申请提供一种有车用户识别方法,该方法包括:获取多个用户的历史数据;历史数据包括用户使用的至少一个车辆服务的数据;至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据;其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比;多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比;贡献度特征数据用于表征至少一个车辆服务的对应的流量;根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;有车用户识别模型的输入参数为车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。
[0008] 基于上述技术方案,有车用户识别装置通过获取多个用户的历史数据,并对多个用户的历史数据进行特征处理以得到多个用户的车辆服务特征数据。具体的,有车用户识别装置从持续性、多样性以及贡献度三个维度对用户数据进行提取,以更好地表征用户是否为有车用户与该用户的各项历史数据之间的关系,从而提高识别有车用户的准确度和效率。同时,有车用户识别装置还根据车辆服务特征数据进行半监督模型训练,通过得到的有车用户识别模型对待识别用户是否为有车用户进行识别,进一步消除由于训练集样本过少而导致训练精度过低的问题,同样提升了识别有车用户的准确度。
[0009] 结合上述第一方面,在一种可能的实现方式中,该方法还包括:
[0010] 步骤1、确定有标签样本集和无标签样本集;有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;
[0011] 步骤2、确定有标签样本集的有标签影响因子和无标签样本集的无标签影响因子;
[0012] 步骤3、根据有标签样本集进行有监督模型训练,得到第一预测模型;
[0013] 步骤4、将第一预测模型作为预设训练模型;
[0014] 步骤5、确定第二预测模型的临时无标签影响因子;临时无标签影响因子包括无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;第二预测模型为半监督训练模型;
[0015] 步骤6、确定无标签样本集中的有车用户目标数量;
[0016] 步骤7、采用预设训练模型,预测无标签样本集中的k个用户的有车用户和无车用户;k个用户的有车用户的数量为有车用户目标数量;
[0017] 步骤8、根据预测结果,在无标签样本集中添加每个用户是否有车的标签,得到第一样本集;第一样本集包括有标签样本集和添加标签后的无标签样本集;
[0018] 步骤9、根据第一样本集确定第二预测模型的目标函数;
[0019] 步骤10、调整有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次步骤7‑步骤10,确定L个第二预测模型的目标函数;L为正整数;
[0020] 步骤11、确定L个第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;第一目标函数是L个第二预测模型的目标函数中最小的目标函数;
[0021] 步骤12、将第二样本集作为预设样本集;
[0022] 步骤13、交换预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为预设样本集;
[0023] 步骤14、根据预设样本集进行半监督模型训练,得到第三预测模型;
[0024] 步骤15、重复执行步骤13‑步骤15,直到预设样本集中不存在满足预设条件的用户,确定多个第三预测模型的目标函数;
[0025] 步骤16、确定多个第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;第二目标函数是多个第三预测模型的目标函数中最小的目标函数;
[0026] 步骤17、调整临时无标签影响因子,将当前的第四预测模型作为预设训练模型集重复执行步骤6‑步骤16,直至临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子;
[0027] 步骤18、在临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子的情况下,将得到的第四预测模型确定为有车用户识别模型。
[0028] 结合上述第一方面,在一种可能的实现方式中,有监督模型训练通过以下公式实现:
[0029]
[0030]
[0031]
[0032] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;C为有标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签;
[0033] 半监督模型训练通过以下公式实现:
[0034]
[0035]
[0036]
[0037]
[0038]
[0039] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子, 为无标签样本集中有车用户的临时正样本影响因子, 为无标签样本集中无车用户的临时负样本影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签;
[0040] 当临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子时,半监督模型训练通过以下公式实现:
[0041]
[0042]
[0043]
[0044]
[0045]
[0046] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;*
为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子,C为无标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签。
[0047] 结合上述第一方面,在一种可能的实现方式中,历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。
[0048] 第二方面,本申请提供一种有车用户识别装置,该装置包括:通信单元和处理单元;通信单元,用于获取多个用户的历史数据;历史数据包括用户使用的至少一个车辆服务的数据;至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用;处理单元,用于对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据;其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比;多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比;贡献度特征数据用于表征至少一个车辆服务的对应的流量;处理单元,还用于根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型;有车用户识别模型的输入参数为车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户;处理单元,还用于将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。
[0049] 结合上述第二方面,在一种可能的实现方式中,处理单元还用于执行以下步骤:
[0050] 步骤1、确定有标签样本集和无标签样本集;有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;
[0051] 步骤2、确定有标签样本集的有标签影响因子和无标签样本集的无标签影响因子;
[0052] 步骤3、根据有标签样本集进行有监督模型训练,得到第一预测模型;
[0053] 步骤4、将第一预测模型作为预设训练模型;
[0054] 步骤5、确定第二预测模型的临时无标签影响因子;临时无标签影响因子包括无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;第二预测模型为半监督训练模型;
[0055] 步骤6、确定无标签样本集中的有车用户目标数量;
[0056] 步骤7、采用预设训练模型,预测无标签样本集中的k个用户的有车用户和无车用户;k个用户的有车用户的数量为有车用户目标数量;
[0057] 步骤8、根据预测结果,在无标签样本集中添加每个用户是否有车的标签,得到第一样本集;第一样本集包括有标签样本集和添加标签后的无标签样本集;
[0058] 步骤9、根据第一样本集确定第二预测模型的目标函数;
[0059] 步骤10、调整有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次步骤7‑步骤10,确定L个第二预测模型的目标函数;L为正整数;
[0060] 步骤11、确定L个第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;第一目标函数是L个第二预测模型的目标函数中最小的目标函数;
[0061] 步骤12、将第二样本集作为预设样本集;
[0062] 步骤13、交换预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为预设样本集;
[0063] 步骤14、根据预设样本集进行半监督模型训练,得到第三预测模型;
[0064] 步骤15、重复执行步骤13‑步骤15,直到预设样本集中不存在满足预设条件的用户,确定多个第三预测模型的目标函数;
[0065] 步骤16、确定多个第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;第二目标函数是多个第三预测模型的目标函数中最小的目标函数;
[0066] 步骤17、调整临时无标签影响因子,将当前的第四预测模型作为预设训练模型集重复执行步骤6‑步骤16,直至临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子;
[0067] 步骤18、在临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子的情况下,将得到的第四预测模型确定为有车用户识别模型。
[0068] 结合上述第二方面,在一种可能的实现方式中,有监督模型训练通过以下公式实现:
[0069]
[0070]
[0071]
[0072] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;C为有标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签;
[0073] 半监督模型训练通过以下公式实现:
[0074]
[0075]
[0076]
[0077]
[0078]
[0079] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子, 为无标签样本集中有车用户的临时正样本影响因子, 为无标签样本集中无车用户的临时负样本影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签;
[0080] 当临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子时,半监督模型训练通过以下公式实现:
[0081]
[0082]
[0083]
[0084]
[0085]
[0086] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;*
为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子,C为无标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签。
[0087] 结合上述第二方面,在一种可能的实现方式中,历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。
[0088] 第三方面,本申请提供了一种有车用户识别装置,该装置包括:处理器和通信接口;通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的有车用户识别方法。
[0089] 第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在终端上运行时,使得终端执行如第一方面和第一方面的任一种可能的实现方式中描述的有车用户识别方法。
[0090] 第五方面,本申请提供一种包含指令的计算机程序产品,当计算机程序产品在有车用户识别装置上运行时,使得有车用户识别装置执行如第一方面和第一方面的任一种可能的实现方式中所描述的有车用户识别方法。
[0091] 第六方面,本申请提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的有车用户识别方法。
[0092] 具体的,本申请中提供的芯片还包括存储器,用于存储计算机程序或指令。
[0093] 需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与装置的处理器封装在一起的,也可以与装置的处理器单独封装,本申请对此不作限定。
[0094] 本发明中第二方面至第六方面的描述,可以参考第一方面的详细描述;并且,第二方面至第六方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
[0095] 在本申请中,上述有车用户识别装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似,属于本发明权利要求及其等同技术的范围之内。
[0096] 本发明的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

[0097] 图1为本申请实施例提供的一种通信系统的结构示意图;
[0098] 图2为本申请实施例提供的一种有车用户识别方法的流程图;
[0099] 图3为本申请实施例提供的另一种有车用户识别方法的流程图;
[0100] 图4为本申请实施例提供的一种有车用户识别装置的结构示意图;
[0101] 图5为本申请实施例提供的另一种有车用户识别装置的结构示意图;
[0102] 图6为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

[0103] 下面结合附图对本申请实施例提供的有车用户识别方法、装置及计算机可读存储介质进行详细地描述。
[0104] 本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
[0105] 本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象,或者用于区别对同一对象的不同处理,而不是用于描述对象的特定顺序。
[0106] 此外,本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0107] 需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
[0108] 在本申请的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
[0109] 以下,对本申请实施例涉及的名词进行解释,以方便读者理解。
[0110] 外部数据表示法(external data representation,XDR)
[0111] XDR通过对通信网络中开放式系统互联通信(open system interconnection,OSI)参考模型的表示层(presentation layer)中的信息进行分析,并根据分析的信息生成业务话单。业务话单包括通信网络中终端的数据信息、接入网设备的数据信息以及核心网设备的数据信息。
[0112] 下面将结合说明书附图,对本申请实施例的实施方式进行详细描述。
[0113] 如图1所示,为本申请实施例提供的一种通信系统10的结构示意图。该通信系统包括:有车用户识别装置101、一个或多个XDR装置102以及一个或多个终端103。
[0114] 其中,有车用户识别装置101和XDR装置102之间可以通过通信链路进行通信。有车用户识别装置101和终端103之间可以通过通信链路进行通信。XDR装置102和终端103之间可以通过通信链路进行通信。
[0115] 有车用户识别装置101用于从XDR装置102以及终端103中获取多个用户的历史数据,并根据多个用户的历史数据生成有车用户识别模型,从而根据该模型对用户是否为有车用户进行预测。
[0116] XDR装置102用于从终端103、接入网设备(图中未示出)、核心网设备(图中未示出)中获取多个用户的历史数据,并将该数据发送给有车用户识别装置101。相应的,有车用户识别装置101接收XDR装置102发送的多个用户的历史数据。
[0117] 终端103向有车用户识别装置101发送用户的历史数据。相应的,有车用户识别装置101接收终端103发送的用户的历史数据。
[0118] 有车用户识别装置101以及从XDR装置102可以为服务器,包括:
[0119] 处理器,处理器可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application‑specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
[0120] 收发器,收发器可以是使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local area networks,WLAN)等。
[0121] 存储器,存储器可以是只读存储器(read‑only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read‑only memory,EEPROM)、只读光盘(compact disc read‑only memory,CD‑ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路与处理器相连接。存储器也可以和处理器集成在一起。
[0122] 终端103,是一种具有无线通信功能的设备,可以部署在陆地上,包括室内或室外、手持或车载。也可以部署在水面上(如轮船等)。还可以部署在空中(例如飞机、气球和卫星上等)。终端又称之为用户设备(user equipment,UE),移动台(mobile station,MS)、移动终端(mobile terminal,MT)以及终端设备等,是一种向用户提供语音和/或数据连通性的设备。例如,终端包括具有无线连接功能的手持式设备、车载设备等。目前,终端可以是:手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环、计步器等),车载设备(例如,汽车、自行车、电动车、飞机、船舶、火车、高铁等)、虚拟现实(virtual reality,VR)设备、增强现实(augmented reality,AR)设备、工业控制(industrial control)中的无线终端、智能家居设备(例如,冰箱、电视、空调、电表等)、智能机器人、车间设备、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端,或智慧家庭(smart home)中的无线终端、飞行设备(例如,智能机器人、热气球、无人机、飞机)等。本申请一种可能的应用的场景中终端设备为经常工作在地面的终端设备,例如车载设备。在本申请中,为了便于叙述,部署在上述设备中的芯片,例如片上系统(System‑On‑a‑Chip,SOC)、基带芯片等,或者其他具备通信功能的芯片也可以称为终端。
[0123] 终端可以是具有相应通信功能的车辆,或者车载通信装置,或者其它嵌入式通信装置,也可以是用户手持通信设备,包括手机,平板电脑等。
[0124] 作为示例,在本申请实施例中,该终端103还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备,是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,例如:智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
[0125] 本申请实施例描述的系统架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题同样适用。
[0126] 需要指出的是,本申请各实施例之间可以相互借鉴或参考,例如,相同或相似的步骤,方法实施例、通信系统10实施例和装置实施例之间,均可以相互参考,不予限制。
[0127] 现有技术中通常根据车辆厂商的用户数据,以及用户车辆数据进行有监督模型训练,确定有车用户识别模型,从而根据该模型预测用户是否为有车用户。
[0128] 然而,该方法所采用的数据集中于车主用户数据以及车主所拥有的车辆的数据,无法真实反映目标区域内所有用户的特征信息,同时对于用户是否为有车用户的样本数据获取成本较高,因此相对于全部数据集,用于训练的样本数据很少,以此进行有监督模型训练生成的预测模型的预测准确性也较差。
[0129] 为了解决现有技术中,无法准确地识别用户是否为有车用户的问题,本申请提供了一种有车用户识别方法,
[0130] 如图2所示,图2为本申请实施例提供的一种有车用户识别方法的流程图,该方法包括以下步骤:
[0131] S201、有车用户识别装置获取多个用户的历史数据。
[0132] 其中,历史数据包括用户使用的至少一个车辆服务的数据,至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用。
[0133] 一种可能的实现方式中,有车用户识别装置可以接收多个终端发送的用户的历史数据,有车用户识别装置还可以接收XDR装置发送的多个用户的历史数据。
[0134] 需要说明的是,有车用户往往存在各种车辆服务的需求,不同的车辆服务也对应着一个或多个车辆服务应用,因此,车辆服务应用中的用户数据可以表征该用户的车辆服务需求。
[0135] 示例性的,车辆服务包括:车辆保养、违章处理、加油、停车等。其中,车辆保养对应车辆服务应用A1、车辆服务应用A2、车辆服务应用A3、车辆服务应用A4、车辆服务应用A5;违章处理对应车辆服务应用B1、车辆服务应用B2、车辆服务应用B3;违章处理对应车辆服务应用C1、车辆服务应用C2、车辆服务应用C3;加油对应车辆服务应用D1、车辆服务应用D2、车辆服务应用D3、车辆服务应用D4;停车对应车辆服务应用E1、车辆服务应用E2、车辆服务应用E3。
[0136] 用户的其他数据也可能与该用户是否为有车用户有关。
[0137] 一种可能的实现方式中,历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。
[0138] 需要说明的是,用户的其他数据也可能与该用户是否为有车用户有关。因此,还可以获取用户的语音行为数据、终端数据、套餐数据等数据以更加全面的表征用户的行为。
[0139] S202、有车用户识别装置对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据。
[0140] 其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据。持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比;多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比;贡献度特征数据用于表征至少一个车辆服务的对应的流量。
[0141] 当有车用户识别装置获取到多个用户的历史数据之后,由于所获取的历史数据复杂繁多,难以从中解析出用户是否为有车用户与该用户的各项历史数据之间的关系,因此,有车用户识别装置可以对所获取到的历史数据进行特征处理,从而得到与用户是否为有车用户相关的特征数据。
[0142] 有车用户识别装置可以根据多个用户的历史数据得到对应的持续性特征数据。持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比。
[0143] 示例性的,结合上述示例,以车辆服务为违章处理为例,用户甲在2021年6月1日‑2021年6月30日之间,6月3日使用了车辆服务应用C2,6月15日使用了车辆服务应用C3,即,用户甲在预设时间段内使用违章处理的天数为2,其他时间并未使用违章处理的车辆服务。
因此,用户甲在该预设时间段内违章处理的持续性特征数据为0.0667。
[0144] 有车用户识别装置可以根据多个用户的历史数据得到对应的多样性特征数据。多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比。
[0145] 示例性的,结合上述示例,以车辆服务为加油为例,加油服务对应的车辆服务应用总共有4个,用户甲在2021年6月1日‑2021年6月30日之间,6月2日使用了车辆服务应用D1,6月9日使用了车辆服务应用D2,6月20日使用了车辆服务应用D3,其他时间并未使用加油服务。因此,用户甲在该预设时间段内加油的多样性特征数据为0.75。
[0146] 有车用户识别装置还可以根据多个用户的历史数据得到对应的贡献度特征数据。贡献度特征数据用于表征至少一个车辆服务的对应的流量。
[0147] 一种可能的实现方式中,车辆服务的对应的流量为预设时间段内用户使用该车辆服务对应的车辆服务应用的平均流量与用户的使用天数的比值。车辆服务应用的平均流量为预设时间段内用户使用对应的车辆服务应用的总流量与车辆服务应用数量的比值。
[0148] 示例性的,结合上述示例,以车辆服务为车辆保养为例,用户甲在2021年6月1日‑2021年6月30日之间,流量使用情况如下表所示:
[0149] 表1车辆保养服务流量使用情况
[0150]
[0151] 其中,用户甲在6月8日使用车辆保养服务的平均流量为551MB,6月9日的平均流量为726.4MB,6月11日的平均流量为480MB,因此用户甲在该预设时间段内车辆保养的贡献度特征数据为585.8MB。
[0152] 另一种可能的实现方式中,车辆服务的对应的流量还可以为预设时间段内用户使用该车辆服务对应的车辆服务应用的总流量。
[0153] 相关计算方式与上述类似,本申请对此不做过多详述。
[0154] 一种可能的实现方式中,有车用户识别装置对多个用户的车辆服务特征数据进行标准化处理。
[0155] 需要说明的是,由于各项数据的维度不同,因此可以通过对多个用户的车辆服务特征数据进行标准化处理以消除不同维度的量度带来的影响。
[0156] 具体的,标准化处理可以根据以下公式执行:
[0157]
[0158] 其中,ai为第i个用户的车辆服务特征数据,meana为多个用户的车辆服务特征数据的算术平均值,stda为多个用户的车辆服务特征数据的标准差, 表示标准化处理之后第i个用户的车辆服务特征数据。
[0159] S203、有车用户识别装置根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型。
[0160] 其中,有车用户识别模型的输入参数为车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户。
[0161] 需要说明的是,本申请实施例中,有车用户识别装置通过半监分类算法生成有车用户识别模型。半监督分类算法用于将数据集中的训练集与目标集同时训练,从而得到半监督训练模型。而有监督分类算法则是根据训练集进行模型训练,并将得到的有监督训练模型对目标集进行分类。
[0162] 相比于有监督分类算法,半监督分类算法能够同时兼顾到训练集中的数据特征以及目标集中的数据特征,尤其针对于训练集数据较少的场景,通过半监督分类算法得到的半监督训练模型的准确度更高。
[0163] 示例性的,半监督模型训练可以为转导支持向量机(transductive support vector machine,TSVM)算法。TSVM算法是基于支持向量机(support vector machine,SVM)算法的半监督训练算法。
[0164] S204、有车用户识别装置将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。
[0165] 基于上述技术方案,有车用户识别装置通过获取多个用户的历史数据,并对多个用户的历史数据进行特征处理以得到多个用户的车辆服务特征数据。具体的,有车用户识别装置从持续性、多样性以及贡献度三个维度对用户数据进行提取,以更好地表征用户是否为有车用户与该用户的各项历史数据之间的关系,从而提高识别有车用户的准确度和效率。同时,有车用户识别装置还根据车辆服务特征数据进行半监督模型训练,通过得到的有车用户识别模型对待识别用户是否为有车用户进行识别,进一步消除由于训练集样本过少而导致训练精度过低的问题,同样提升了识别有车用户的准确度。
[0166] 然而,目前的半监督分类算法同样也存在一定的问题。由于半监督分类算法需要根据目标集与训练集同时进行训练,这就导致用于训练的数据集中正样本的数量以及负样本的数据是无法确定的。因此在训练的过程中,传统的半监督分类算法需要预先指定目标集中正样本与负样本的数量。通常情况下,传统的半监督分类算法将无标签样本集中正样本数量与负样本数量的比例设定为1:1。然而这种设计方式通常与实际情况相差过大,从而导致训练出的半监督分类模型的准确度也较差。
[0167] 作为本申请的一种可能的实施例,结合图2,如图3所示,本申请实施例对传统半监督分类算法进行了改进,上述步骤S203具体还包括以下步骤:
[0168] 结合上述步骤S203,以下对有车用户识别装置确定有车用户识别模型的方法进行具体介绍。
[0169] S301、有车用户识别装置确定有标签样本集和无标签样本集。
[0170] 其中,有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签,无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数。
[0171] 示例性的,本申请实施例可以通过电话回访,实地调查,填写问卷等方式获取有标签样本集中n个用户是否有车的标签。本申请对此不做限定。
[0172] 一种可能的实现方式中,有车用户识别装置将有车的标签的用户作为正样本,无车的标签的用户作为负样本。
[0173] 示例性的,用户标签可以通过以下公式表示:
[0174]
[0175] 其中,当用户i为有车用户时,其标签yi的值为1;当用户i为无车用户时,其标签yi的值为0。
[0176] S302、有车用户识别装置确定有标签样本集的有标签影响因子和无标签样本集的无标签影响因子。
[0177] 其中,影响因子用于表征对应样本集对训练模型的影响程度,本申请实施例中,有车用户识别装置可以根据实际情况设置有标签样本集的有标签影响因子和无标签样本集的无标签影响因子。
[0178] S303、有车用户识别装置根据有标签样本集进行有监督模型训练,得到第一预测模型。
[0179] 一种可能的实现方式中,有监督模型训练通过以下公式实现:
[0180]
[0181]
[0182]
[0183] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;C为有标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签。
[0184] 有车用户识别装置根据有标签样本集进行有监督模型训练,得到初始的分类器,即初始超平面,将初始的分类器作为第一预测模型。
[0185] 在SVM算法中,初始的分类器即为超平面,超平面用于将待预测数据集进行分类以确定数据集中每个数据的标签。超平面可以通过超平面参数表示。
[0186] 具体实现方式可参考现有技术,本申请对此不作过多详述。
[0187] S304、有车用户识别装置将第一预测模型作为预设训练模型。
[0188] S305、有车用户识别装置确定第二预测模型的临时无标签影响因子。
[0189] 临时无标签影响因子包括无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子,第二预测模型为半监督训练模型。
[0190] 需要说明的是,步骤S202中确定的无标签样本集的无标签影响因子为有车用户识别模型中无标签影响因子的目标值。然而,在半监督训练模型初期,有车用户识别装置通常需要设定临时无标签影响因子。
[0191] 其中,有车用户识别装置将临时无标签影响因子设定为一个比有标签影响因子小的值以降低无标签样本集的影响力。同时,有车用户识别装置还可以针对无标签样本集中的正样本和负样本分别设置临时正样本影响因子和临时负样本影响因子。通过设定临时正样本影响因子和临时负样本影响因子,有车用户识别装置可以分别调节无标签样本集中正样本和负样本的影响力。临时正样本影响因子和临时负样本影响因子的值可以是相同的,也可以是不同的。
[0192] 一种可能的实现方式中,半监督模型训练通过以下公式实现:
[0193]
[0194]
[0195]
[0196]
[0197]
[0198] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子, 为无标签样本集中有车用户的临时正样本影响因子, 为无标签样本集中无车用户的临时负样本影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签。
[0199] S306、有车用户识别装置确定无标签样本集中的有车用户目标数量。
[0200] 一种可能的实现方式中,有车用户识别装置可以根据目标区域的汽车保有量、有车用户与车辆的目标比值以及有标签样本集中的有车用户数量确定无标签样本集中的有车用户数量。
[0201] 示例性的,目标区域的汽车保有量为150万辆,有车用户与车辆的目标比值为1,有标签样本集中的有车用户数量为1万人,则无标签样本集中的有车用户目标数量为149万人。
[0202] 同理,在确定好无标签样本集中的有车用户目标数量之后,有车用户识别装置还可以根据无标签样本集中用户总数量确定无标签样本集中的无车用户目标数量。
[0203] S307、有车用户识别装置采用预设训练模型,预测无标签样本集中的k个用户的有车用户和无车用户。
[0204] 其中,k个用户的有车用户的数量为有车用户目标数量。
[0205] 在确定好预设训练模型以及无标签样本集中的有车用户目标数量之后,有车用户识别装置便可以根据S303中的有监督模型训练公式预测无标签样本集中的k个用户的有车用户和无车用户。
[0206] 需要说明的是,SVM算法中确定的超平面通常无法完全分离无标签样本集中的有车用户和无车用户,即通过临时正样本影响因子和临时负样本影响因子以及样本集中每个用户对应的松弛变量,存在一定数量的用户数据同时满足正样本数据的条件和负样本数据的条件。因此有车用户识别装置需要根据设定的无标签样本集中的无车用户目标数量,确定无标签样本集中的用户对应的是否有车的标签结果。
[0207] S308、有车用户识别装置根据预测结果,在无标签样本集中添加每个用户是否有车的标签,得到第一样本集。
[0208] 其中,第一样本集包括有标签样本集和添加标签后的无标签样本集。
[0209] 在确定无标签样本集中每个用户的标签之后,有车用户识别装置可以将有标签样本集和添加标签后的无标签样本集共同作为第一样本集,用于后续半监督模型训练。
[0210] S309、有车用户识别装置根据第一样本集确定第二预测模型的目标函数。
[0211] 其中,第二预测模型的目标函数可以为步骤S305中半监督模型训练公式中的目标函数。有车用户识别装置通过S303中确定的超平面参数、S308中确定的第一样本集确定第二预测模型的目标函数值。
[0212] S310、有车用户识别装置调整有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次步骤S307‑步骤S310,确定L个第二预测模型的目标函数。
[0213] 其中,L为正整数。
[0214] 通常情况下,传统的半监督分类算法将无标签样本集中正样本数量与负样本数量的比例设定为1:1。然而这种设计方式通常与实际情况相差过大,从而导致训练出的半监督分类模型的准确度也较差。
[0215] 本申请实施例中,有车用户识别装置通过调整有车用户目标数量,并根据调整后的有车用户目标数量对无标签样本集进行预测,进而可以从中选择更符合实际情况的预测结果,以提高半监督分类模型的准确度。
[0216] 一种可能的实现方式中,有车用户识别装置可以确定有车用户与车辆的目标比值区间,根据目标区域的汽车保有量、有车用户与车辆的目标比值区间以及有标签样本集中的有车用户数量确定无标签样本集中的有车用户数量区间。
[0217] 示例性的,目标区域的汽车保有量为150万辆,有车用户与车辆的目标比值区间为[1,5],有标签样本集中的有车用户数量为1万人,则无标签样本集中的有车用户目标数量区间为149‑749万人。
[0218] 一种可能的实现方式中,有车用户识别装置可以根据执行次数L线性调节有车用户目标数量。
[0219] 示例性的,结合上述示例,无标签样本集中的有车用户目标数量区间为149‑749万人,执行次数L为20,则第一次执行时的有车用户目标数量可以为149万人,第二次为179万人,以此类推,每次增加30万人,直至第20次为749万人。
[0220] 另一种可能的实现方式中,有车用户识别装置可以根据执行次数L非线性调节有车用户目标数量。
[0221] 示例性的,结合上述示例,非线性函数可以为:
[0222] f(x)=37.5·(x‑3)3+449
[0223] 其中,x为有车用户与车辆的目标比值,f(x)为对应的无标签样本集中的有车用户目标数量。
[0224] 有车用户识别装置可以根据执行次数L确定第一次执行时的有车用户与车辆的目标比值为1,有车用户目标数量为149万人,第二次执行的目标比值为1.2,有车用户目标数量为230.3万人,以此类推。通过非线性调节有车用户目标数量,有车用户识别装置可以调节目标比值对应有车用户目标数量的精度。
[0225] S311、有车用户识别装置确定L个第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集。
[0226] 其中,第一目标函数是L个第二预测模型的目标函数中最小的目标函数。
[0227] 通过调节有车用户目标数量,有车用户识别装置可以确定L个第二预测模型,并确定L个第二预测模型的目标函数。其中目标函数值越小,则意味着当前所确定的第一样本集被第二预测模型分类的分类程度越高,因此有车用户识别装置将L个第二预测模型的目标函数中,目标函数值最小的目标函数对应的第一样本集作为第二样本集,用于后续半监督模型训练。
[0228] S312、有车用户识别装置将第二样本集作为预设样本集。
[0229] S313、有车用户识别装置交换预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为预设样本集。
[0230] 通过上述步骤确定的预设样本集中,可能存在一些用户数据对应的是否有车的标签与实际情况不同,因此,有车用户识别装置可以将满足预设条件的多个标签不同的用户的标签进行交换,从而调整该预设样本集。
[0231] 一种可能的实现方式中,预设条件可以是预设样本集中满足同时第二预测模型两种标签结果的样本。
[0232] 示例性的,预设样本集中存在一定数量的用户数据同时满足第二预测模型中两种标签结果,有车用户识别装置可以交换满足两种标签结果的用户数据的标签结果并作为新的预设样本集。
[0233] S314、有车用户识别装置根据预设样本集进行半监督模型训练,得到第三预测模型。
[0234] 其中,半监督模型训练可以通过步骤S305中的半监督模型训练公式实现。
[0235] 具体训练过程与有监督模型训练类似,此处不做过多详述。
[0236] S315、有车用户识别装置重复执行步骤S313‑步骤S315,直到预设样本集中不存在满足预设条件的用户,确定多个第三预测模型的目标函数。
[0237] 通过交换预设样本集中用户的标签结果,有车用户识别装置可以确定多个第三预测模型,并根据多个第三预测模型以及对应的预设样本集,可以确定每个第三预测模型对应的目标函数。
[0238] S316、有车用户识别装置确定多个第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型。
[0239] 其中,第二目标函数是多个第三预测模型的目标函数中最小的目标函数。
[0240] 类似于步骤S311,目标函数值越小,则表示对应的第三预测模型的分类效果越好,因此,有车用户识别装置将最小的目标函数值对应的第三预测模型作为第四预测模型。
[0241] S317、有车用户识别装置调整临时无标签影响因子,将当前的第四预测模型作为预设训练模型集重复执行步骤S306‑步骤S316,直至临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子。
[0242] 一种可能的实现方式中,有车用户识别装置可以逐步增大正样本影响因子和临时负样本影响因子。
[0243] 需要说明的是,步骤S305中,有车用户识别装置将临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子设定为比无标签影响因子小的值,以此降低无标签样本集的影响力。当进行第一次半监督模型训练之后,即步骤S301‑S316之后,有车用户识别装置已经根据影响力较高的有标签样本集和影响力较低的无标签样本集生成第四预测模型。
[0244] 因此,有车用户识别装置可以逐步增大临时正样本影响因子和临时负样本影响因子,以增加无标签样本集中正样本和负样本的影响力,并重复执行半监督模型训练,直至临时正样本影响因子和临时负样本影响因子均等于无标签影响因子,即使得无标签样本集的影响力达到预设的目标影响力。
[0245] S318、在临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子的情况下,有车用户识别装置将得到的第四预测模型确定为有车用户识别模型。
[0246] 一种可能的实现方式中,当临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子时,半监督模型训练通过以下公式实现:
[0247]
[0248]
[0249]
[0250]
[0251]
[0252] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;*
为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子,C为无标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签。
[0253] 基于上述技术方案,有车用户识别装置对传统的半监督分类算法进行了改进,通过调整有车用户目标数量,并根据调整后的有车用户目标数量确定多个第二预测模型的目标函数,从中确定最小的目标函数对应的第一样本集作为第二样本集,使得第二样本集更加贴合实际。相比于现有技术中直接设定待预测样本集中正样本与负样本的数量,本申请中有车用户识别装置根据不同有车用户数量对应的多个第二预测模型的目标函数确定无标签样本集中正样本与负样本的数量的技术方案能够提高所确定的有车用户识别模型识别用户是否为有车用户的准确度。
[0254] 本申请实施例可以根据上述方法示例对有车用户识别装置进行功能模块或者功能单元的划分,例如,可以对应各个功能划分各个功能模块或者功能单元,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块或者功能单元的形式实现。其中,本申请实施例中对模块或者单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0255] 如图4所示,为本申请实施例提供的一种有车用户识别装置的结构示意图,该装置包括:
[0256] 通信单元402,用于获取多个用户的历史数据。
[0257] 其中,历史数据包括用户使用的至少一个车辆服务的数据;至少一个车辆服务中的每个车辆服务对应一个或多个车辆服务应用。
[0258] 处理单元401,用于对多个用户的历史数据进行特征处理,得到多个用户的车辆服务特征数据。
[0259] 其中,车辆服务特征数据包括以下至少一项:持续性特征数据、多样性特征数据以及贡献度特征数据;持续性特征数据用于表征用户在预设时间段内使用至少一个车辆服务的时间占比;多样性特征数据用于表征针对每个车辆服务,用户使用的车辆服务应用的数量占比;贡献度特征数据用于表征至少一个车辆服务的对应的流量。
[0260] 处理单元401,还用于根据车辆服务特征数据进行半监督模型训练,确定有车用户识别模型。
[0261] 其中,有车用户识别模型的输入参数为车辆服务特征数据,输出参数为以下任一项:用户为有车用户、或用户为无车用户。
[0262] 处理单元401,还用于将待识别用户的车辆服务特征数据输入有车用户识别模型,确定待识别用户是否为有车用户。
[0263] 在一种可能的实现方式中,处理单元401还用于执行以下步骤:
[0264] 步骤1、确定有标签样本集和无标签样本集;有标签样本集包括n个用户中每个用户的车辆服务特征数据,以及每个用户是否有车的标签;无标签样本集包括k个用户中每个用户的车辆服务特征数据;n和k均为正整数;
[0265] 步骤2、确定有标签样本集的有标签影响因子和无标签样本集的无标签影响因子;
[0266] 步骤3、根据有标签样本集进行有监督模型训练,得到第一预测模型;
[0267] 步骤4、将第一预测模型作为预设训练模型;
[0268] 步骤5、确定第二预测模型的临时无标签影响因子;临时无标签影响因子包括无标签样本集中有车用户的临时正样本影响因子和无车用户的临时负样本影响因子;第二预测模型为半监督训练模型;
[0269] 步骤6、确定无标签样本集中的有车用户目标数量;
[0270] 步骤7、采用预设训练模型,预测无标签样本集中的k个用户的有车用户和无车用户;k个用户的有车用户的数量为有车用户目标数量;
[0271] 步骤8、根据预测结果,在无标签样本集中添加每个用户是否有车的标签,得到第一样本集;第一样本集包括有标签样本集和添加标签后的无标签样本集;
[0272] 步骤9、根据第一样本集确定第二预测模型的目标函数;
[0273] 步骤10、调整有车用户目标数量,并根据调整后的有车用户目标数量,重复执行L次步骤7‑步骤10,确定L个第二预测模型的目标函数;L为正整数;
[0274] 步骤11、确定L个第二预测模型的目标函数中,第一目标函数对应的第一样本集为第二样本集;第一目标函数是L个第二预测模型的目标函数中最小的目标函数;
[0275] 步骤12、将第二样本集作为预设样本集;
[0276] 步骤13、交换预设样本集中满足预设条件的多个标签不同的用户的标签,将交换标签后的预设样本集作为预设样本集;
[0277] 步骤14、根据预设样本集进行半监督模型训练,得到第三预测模型;
[0278] 步骤15、重复执行步骤13‑步骤15,直到预设样本集中不存在满足预设条件的用户,确定多个第三预测模型的目标函数;
[0279] 步骤16、确定多个第三预测模型的目标函数中,第二目标函数对应的第三预测模型为第四预测模型;第二目标函数是多个第三预测模型的目标函数中最小的目标函数;
[0280] 步骤17、调整临时无标签影响因子,将当前的第四预测模型作为预设训练模型集重复执行步骤6‑步骤16,直至临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子;
[0281] 步骤18、在临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子的情况下,将得到的第四预测模型确定为有车用户识别模型。
[0282] 在一种可能的实现方式中,有监督模型训练通过以下公式实现:
[0283]
[0284]
[0285]
[0286] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;C为有标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签;
[0287] 半监督模型训练通过以下公式实现:
[0288]
[0289]
[0290]
[0291]
[0292]
[0293] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子, 为无标签样本集中有车用户的临时正样本影响因子, 为无标签样本集中无车用户的临时负样本影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签;
[0294] 当临时无标签影响因子中的临时正样本影响因子和临时负样本影响因子均等于无标签影响因子时,半监督模型训练通过以下公式实现:
[0295]
[0296]
[0297]
[0298]
[0299]
[0300] 其中,ω,b为超平面参数,ε1,…,εn为有标签样本集包括的n个用户的松弛变量;*
为无标签样本集包括的k个用户的松弛变量;C为有标签影响因子,C为无标签影响因子,yi为有标签样本集包括的n个用户中第i个用户是否有车的标签; 为无标签样本集包括k个用户中第j个用户是否有车的标签。
[0301] 在一种可能的实现方式中,历史数据还包括用户的语音行为数据、终端数据、套餐数据中的至少一项。
[0302] 在通过硬件实现时,本申请实施例中的通信单元402可以集成在通信接口上,处理单元401可以集成在处理器上。具体实现方式如图5所示。
[0303] 图5示出了上述实施例中所涉及的有车用户识别装置的又一种可能的结构示意图。该有车用户识别装置包括:处理器502和通信接口503。处理器502用于对有车用户识别装置的动作进行控制管理,例如,执行上述处理单元401执行的步骤,和/或用于执行本文所描述的技术的其它过程。通信接口503用于支持有车用户识别装置与其他网络实体的通信,例如,执行上述通信单元402执行的步骤。有车用户识别装置还可以包括存储器501和总线504,存储器501用于存储有车用户识别装置的程序代码和数据。
[0304] 其中,存储器501可以是有车用户识别装置中的存储器等,该存储器可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
[0305] 上述处理器502可以是实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。该处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0306] 总线504可以是扩展工业标准结构(Extended Industry  Standard Architecture,EISA)总线等。总线504可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0307] 图6是本申请实施例提供的芯片60的结构示意图。芯片60包括一个或两个以上(包括两个)处理器610和通信接口630。
[0308] 可选的,该芯片60还包括存储器640,存储器640可以包括只读存储器和随机存取存储器,并向处理器610提供操作指令和数据。存储器640的一部分还可以包括非易失性随机存取存储器(non‑volatile random access memory,NVRAM)。
[0309] 在一些实施方式中,存储器640存储了如下的元素,执行模块或者数据结构,或者他们的子集,或者他们的扩展集。
[0310] 在本申请实施例中,通过调用存储器640存储的操作指令(该操作指令可存储在操作系统中),执行相应的操作。
[0311] 其中,上述处理器610可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,单元和电路。该处理器可以是中央处理器,通用处理器,数字信号处理器,专用集成电路,现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,单元和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0312] 存储器640可以包括易失性存储器,例如随机存取存储器;该存储器也可以包括非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;该存储器还可以包括上述种类的存储器的组合。
[0313] 总线620可以是扩展工业标准结构(Extended Industry  Standard Architecture,EISA)总线等。总线620可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
[0314] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0315] 本申请实施例提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例中的有车用户识别方法。
[0316] 本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得该计算机执行上述方法实施例所示的方法流程中的有车用户识别方法。
[0317] 其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read‑Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read‑Only Memory,CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0318] 本发明的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行如图2至图3中所述的有车用户识别方法。
[0319] 由于本发明的实施例中的有车用户识别装置、计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本发明实施例在此不再赘述。
[0320] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0321] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0322] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0323] 以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。