反馈信息预估模型训练方法、装置以及电子设备转让专利

申请号 : CN202210746663.2

文献号 : CN114819000B

文献日 : 2022-10-21

本公开关于一种反馈信息预估模型训练方法、装置以及电子设备，属于深度学习技术领域，方法包括：获取第一特征集合和样本数据集，根据第一特征集合中每个维度的特征对应的校准模型，对反馈信息预估模型输出的预估结果进行校准，得到样本数据集的校准结果，基于此，从第一特征集合中确定至少一个目标特征，将这些目标特征加入到反馈信息预估模型的训练过程中。其中，基于目标特征对应的校准模型得到的校准结果的准确度大于预估结果的准确度，表明通过该校准模型对预估结果进行校准能够得到更加准确的结果，因此，将该校准模型对应的特征加入反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

1.一种反馈信息预估模型训练方法，其特征在于，所述方法包括：

获取第一特征集合和样本数据集，所述第一特征集合包括媒体资源的多个维度的特征，所述样本数据集包括多个样本媒体资源，每个样本媒体资源包括所述样本媒体资源的多个维度的特征的特征值；

基于所述第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的所述样本数据集的预估结果进行校准，得到每个校准模型对应的所述样本数据集的校准结果；

基于所述样本数据集的预估结果和每个校准模型对应的所述样本数据集的校准结果，从所述第一特征集合中确定至少一个目标特征，得到第二特征集合，其中，基于所述目标特征对应的校准模型得到的校准结果的准确度大于所述预估结果的准确度；

基于所述第二特征集合和所述样本数据集，对所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型。

2.根据权利要求1所述的反馈信息预估模型训练方法，其特征在于，所述方法还包括：基于媒体资源的第一特征，从所述样本数据集中获取所述第一特征的特征值，所述第一特征是指所述第一特征集合中媒体资源的任一维度的特征；

基于所述第一特征的特征值，对所述样本数据集进行分桶，得到多个桶；

基于每个桶对应的样本媒体资源，确定所述第一特征对应的校准模型。

3.根据权利要求1所述的反馈信息预估模型训练方法，其特征在于，所述基于所述样本数据集的预估结果和每个校准模型对应的所述样本数据集的校准结果，从所述第一特征集合中确定至少一个目标特征，得到第二特征集合，包括：基于所述样本数据集的预估结果和所述样本数据集的标签信息，获取所述反馈信息预估模型的第一评估值，所述第一评估值指示所述反馈信息预估模型的准确度；

基于第一校准模型对应的所述样本数据集的校准结果和所述样本数据集的标签信息，获取所述第一校准模型的第二评估值，所述第一校准模型为所述第一特征集合中任一维度的特征对应的校准模型，所述第二评估值指示所述第一校准模型的准确度；

在所述第二评估值大于所述第一评估值的情况下，确定所述第一校准模型对应的特征为所述目标特征。

4.根据权利要求1所述的反馈信息预估模型训练方法，其特征在于，所述方法还包括：基于所述样本数据集、所述反馈信息预估模型以及所述每个特征对应的校准模型，获取所述每个特征对应的校准模型的评估值；

将所述每个特征对应的校准模型的评估值中最大评估值对应的校准模型确定为目标校准模型，所述目标校准模型用于校准基于已上线的所述反馈信息预估模型得到的媒体资源的预估结果。

5.根据权利要求4所述的反馈信息预估模型训练方法，其特征在于，所述方法还包括：基于已上线的所述反馈信息预估模型和所述目标校准模型，获取已上线时间段内的样本数据；

基于已上线的所述反馈信息预估模型和所述已上线时间段内的样本数据，获取已上线的所述反馈信息预估模型的第三评估值，所述第三评估值指示已上线的所述反馈信息预估模型的准确度；

基于已上线的所述反馈信息预估模型、所述目标校准模型和所述已上线时间段内的样本数据，获取所述目标校准模型的第四评估值，所述第四评估值指示所述目标校准模型的准确度；

在所述第三评估值大于所述第四评估值的情况下，下线所述目标校准模型。

6.根据权利要求1所述的反馈信息预估模型训练方法，其特征在于，所述基于所述第二特征集合和所述样本数据集，对所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型，包括：基于所述第二特征集合，对所述反馈信息预估模型的网络结构进行调整，得到调整后的所述反馈信息预估模型；

基于所述样本数据集，对调整后的所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型。

7.根据权利要求6所述的反馈信息预估模型训练方法，其特征在于，所述基于所述第二特征集合，对所述反馈信息预估模型的网络结构进行调整，得到调整后的所述反馈信息预估模型，包括下述至少一项：基于所述第二特征集合中的第一目标特征，在所述反馈信息预估模型中添加用于处理所述第一目标特征的网络层，得到调整后的所述反馈信息预估模型，所述第一目标特征是指未存在于所述反馈信息预估模型中的特征；

基于所述第二特征集合中的第二目标特征，对所述反馈信息预估模型中用于处理所述第二目标特征的网络层进行调整，得到调整后的所述反馈信息预估模型，所述第二目标特征是指已存在于所述反馈信息预估模型中的特征。

8.根据权利要求6所述的反馈信息预估模型训练方法，其特征在于，所述基于所述样本数据集，对调整后的所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型，包括：基于所述样本数据集，对调整后的所述反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型；

在基于所述样本数据集、所述反馈信息预估模型以及所述第二特征集合，获取到与所述第二特征集合对应的校准模型的情况下，基于所述样本数据集，对所述中间反馈信息预估模型进行训练，直至满足目标条件，得到训练后的所述反馈信息预估模型，所述目标条件是指，基于所述中间反馈信息预估模型得到的预估结果的准确度大于或等于校准结果的准确度。

9.一种反馈信息预估模型训练装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取第一特征集合和样本数据集，所述第一特征集合包括媒体资源的多个维度的特征，所述样本数据集包括多个样本媒体资源，每个样本媒体资源包括所述样本媒体资源的多个维度的特征的特征值；

校准单元，被配置为执行基于所述第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的所述样本数据集的预估结果进行校准，得到每个校准模型对应的所述样本数据集的校准结果；

确定单元，被配置为执行基于所述样本数据集的预估结果和每个校准模型对应的所述样本数据集的校准结果，从所述第一特征集合中确定至少一个目标特征，得到第二特征集合，其中，基于所述目标特征对应的校准模型得到的校准结果的准确度大于所述预估结果的准确度；

训练单元，被配置为执行基于所述第二特征集合和所述样本数据集，对所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型。

10.根据权利要求9所述的反馈信息预估模型训练装置，其特征在于，所述装置还包括校准模型确定单元，被配置为执行：基于媒体资源的第一特征，从所述样本数据集中获取所述第一特征的特征值，所述第一特征是指所述第一特征集合中媒体资源的任一维度的特征；

基于所述第一特征的特征值，对所述样本数据集进行分桶，得到多个桶；

基于每个桶对应的样本媒体资源，确定所述第一特征对应的校准模型。

11.根据权利要求9所述的反馈信息预估模型训练装置，其特征在于，所述确定单元，被配置为执行：基于所述样本数据集的预估结果和所述样本数据集的标签信息，获取所述反馈信息预估模型的第一评估值，所述第一评估值指示所述反馈信息预估模型的准确度；

在所述第二评估值大于所述第一评估值的情况下，确定所述第一校准模型对应的特征为所述目标特征。

12.根据权利要求9所述的反馈信息预估模型训练装置，其特征在于，所述装置还包括目标校准模型确定单元，被配置为执行：基于所述样本数据集、所述反馈信息预估模型以及所述每个特征对应的校准模型，获取所述每个特征对应的校准模型的评估值；

13.根据权利要求12所述的反馈信息预估模型训练装置，其特征在于，所述装置还包括目标校准模型下线单元，被配置为执行：基于已上线的所述反馈信息预估模型和所述目标校准模型，获取已上线时间段内的样本数据；

在所述第三评估值大于所述第四评估值的情况下，下线所述目标校准模型。

14.根据权利要求9所述的反馈信息预估模型训练装置，其特征在于，所述训练单元被配置为执行：基于所述第二特征集合，对所述反馈信息预估模型的网络结构进行调整，得到调整后的所述反馈信息预估模型；

基于所述样本数据集，对调整后的所述反馈信息预估模型进行训练，得到训练后的所述反馈信息预估模型。

15.根据权利要求14所述的反馈信息预估模型训练装置，其特征在于，所述训练单元，被配置为执行下述至少一项：基于所述第二特征集合中的第一目标特征，在所述反馈信息预估模型中添加用于处理所述第一目标特征的网络层，得到调整后的所述反馈信息预估模型，所述第一目标特征是指未存在于所述反馈信息预估模型中的特征；

16.根据权利要求14所述的反馈信息预估模型训练装置，其特征在于，所述训练单元，被配置为执行：基于所述样本数据集，对调整后的所述反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型；

17.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至8中任一项所述的反馈信息预估模型训练方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的反馈信息预估模型训练方法。

反馈信息预估模型训练方法、装置以及电子设备

技术领域

[0001] 本公开涉及深度学习技术领域，尤其涉及一种反馈信息预估模型训练方法、装置以及电子设备。

背景技术

[0002] 随着深度学习技术的日渐成熟，深度学习已经取代传统机器学习算法，成为机器学习中的技术首选。深度学习的实质，是通过构建具有很多隐层的机器学习模型，并利用海量的训练数据进行模型训练，来学习更有用的特征，从而提升模型输出的准确性。

[0003] 相关技术中，为了提高模型的性能，往往会采用特征选择的方式来优化模型的特征集合。例如，由技术人员根据特征的缺失率、相关性以及信息价值等参数进行人工选择。又例如，通过数据降维的方式，把原始高维度数据映射到低维度数据，同时过滤掉数据中的噪声，得到抽象度更高的特征集合。

[0004] 然而，上述方法往往需要耗费大量的人力、算力以及时间成本，且无法确保所选择的特征能够给模型带来收益，导致训练得到的模型准确率较低。

发明内容

[0005] 本公开提供一种反馈信息预估模型训练方法、装置以及电子设备，能够有效提高模型训练的迭代效率和模型的准确率。本公开的技术方案如下所示。

[0006] 根据本公开实施例的第一方面，提供一种反馈信息预估模型训练方法，该方法包括：

[0007] 获取第一特征集合和样本数据集，该第一特征集合包括媒体资源的多个维度的特征，该样本数据集包括多个样本媒体资源，每个样本媒体资源包括该样本媒体资源的多个维度的特征的特征值；

[0008] 基于该第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的该样本数据集的预估结果进行校准，得到每个校准模型对应的该样本数据集的校准结果；

[0009] 基于该样本数据集的预估结果和每个校准模型对应的该样本数据集的校准结果，从该第一特征集合中确定至少一个目标特征，得到第二特征集合，其中，基于该目标特征对应的校准模型得到的校准结果的准确度大于该预估结果的准确度；

[0010] 基于该第二特征集合和该样本数据集，对该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0011] 本公开实施例提供的技术方案，在获取到第一特征集合和样本数据集之后，根据第一特征集合中每个维度的特征对应的校准模型，对反馈信息预估模型所输出的预估结果进行校准，得到样本数据集的校准结果，基于此，从第一特征集合中确定至少一个目标特征，将这些目标特征加入到反馈信息预估模型的训练过程中。在这一过程中，基于目标特征对应的校准模型得到的校准结果的准确度大于预估结果的准确度，表明通过该校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该校准模型对应的特征加入到反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0012] 在一些实施例中，该方法还包括：

[0013] 基于媒体资源的第一特征，从该样本数据集中获取该第一特征的特征值，该第一特征是指该第一特征集合中媒体资源的任一维度的特征；

[0014] 基于该第一特征的特征值，对该样本数据集进行分桶，得到多个桶；

[0015] 基于每个桶对应的样本媒体资源，确定该第一特征对应的校准模型。

[0016] 通过这种方式，服务器遍历第一特征集合中每个维度的特征，得到每个特征对应的校准模型，便于后续从第一特征集合中筛选出至少一个目标特征。

[0017] 在一些实施例中，该基于该样本数据集的预估结果和每个校准模型对应的该样本数据集的校准结果，从该第一特征集合中确定至少一个目标特征，得到第二特征集合，包括：

[0018] 基于该样本数据集的预估结果和该样本数据集的标签信息，获取该反馈信息预估模型的第一评估值，该第一评估值指示该反馈信息预估模型的准确度；

[0019] 基于第一校准模型对应的该样本数据集的校准结果和该样本数据集的标签信息，获取该第一校准模型的第二评估值，该第一校准模型为该第一特征集合中任一维度的特征对应的校准模型，该第二评估值指示该第一校准模型的准确度；

[0020] 在该第二评估值大于该第一评估值的情况下，确定该第一校准模型对应的特征为该目标特征。

[0021] 其中，评估值越大，该评估值对应的模型所输出的结果更接近真实值，也即是该评估值对应的模型效果更好。在第二评估值大于第一评估值的情况下，表明第一校准模型所输出的校准结果的准确度大于反馈信息预估模型所输出的预估结果，即，通过该第一校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该第一校准模型对应的特征确定为目标特征，加入到后续反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0022] 在一些实施例中，该方法还包括：

[0023] 基于该样本数据集、该反馈信息预估模型以及该每个特征对应的校准模型，获取该每个特征对应的校准模型的评估值；

[0024] 将该每个特征对应的校准模型的评估值中最大评估值对应的校准模型确定为目标校准模型，该目标校准模型用于校准基于已上线的该反馈信息预估模型得到的媒体资源的预估结果。

[0025] 通过这种方式，由于模型的评估值能够作为模型的评价标准，评估值越大，该评估值对应的模型所输出的结果更接近真实值，因此，将多个校准模型中最大评估值对应的校准模型确定为目标校准模型，该目标校准模型所输出的结果最接近真实值，从而将该目标校准模型应用于线上服务时，能够提高校准结果的准确率。

[0026] 在一些实施例中，该方法还包括：

[0027] 基于已上线的该反馈信息预估模型和该目标校准模型，获取已上线时间段内的样本数据；

[0028] 基于已上线的该反馈信息预估模型和该已上线时间段内的样本数据，获取已上线的该反馈信息预估模型的第三评估值，该第三评估值指示已上线的该反馈信息预估模型的准确度；

[0029] 基于已上线的该反馈信息预估模型、该目标校准模型和该已上线时间段内的样本数据，获取该目标校准模型的第四评估值，该第四评估值指示该目标校准模型的准确度；

[0030] 在该第三评估值大于该第四评估值的情况下，下线该目标校准模型。

[0031] 通过这种方式，服务器能够根据最近一段时间的样本数据，及时评估目标校准模型的必要性，在线上服务已不需要该目标校准模型的情况下，及时下线该目标校准模型，以节约计算资源，提高服务器运行效率。同理，服务器也能够根据最近一段时间的样本数据，在线上服务需要该目标校准模型的情况下，及时上线该目标校准模型，提高线上服务的准确率。

[0032] 在一些实施例中，该基于该第二特征集合和该样本数据集，对该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型，包括：

[0033] 基于该第二特征集合，对该反馈信息预估模型的网络结构进行调整，得到调整后的该反馈信息预估模型；

[0034] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0035] 在一些实施例中，该基于该第二特征集合，对该反馈信息预估模型的网络结构进行调整，得到调整后的该反馈信息预估模型，包括下述至少一项：

[0036] 基于该第二特征集合中的第一目标特征，在该反馈信息预估模型中添加用于处理该第一目标特征的网络层，得到调整后的该反馈信息预估模型，该第一目标特征是指未存在于该反馈信息预估模型中的特征；

[0037] 基于该第二特征集合中的第二目标特征，对该反馈信息预估模型中用于处理该第二目标特征的网络层进行调整，得到调整后的该反馈信息预估模型，该第二目标特征是指已存在于该反馈信息预估模型中的特征。

[0038] 其中，通过将第一目标特征添加到反馈信息预估模型中，使得训练后的反馈信息预估模型能够输出更准确的预估结果。对于第二目标特征，若该反馈信息预估模型已存在该第二目标特征，表明反馈信息预估模型对该第二目标特征的学习不够充分，服务器通过调整反馈信息预估模型的网络结构来强化对该第二目标特征的学习，使得训练后的反馈信息预估模型能够输出更准确的预估结果。

[0039] 在一些实施例中，该基于该样本数据集，对调整后的该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型，包括：

[0040] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型；

[0041] 在基于该样本数据集、该反馈信息预估模型以及该第二特征集合，获取到与该第二特征集合对应的校准模型的情况下，基于该样本数据集，对该中间反馈信息预估模型进行训练，直至满足目标条件，得到训练后的该反馈信息预估模型，该目标条件是指，基于该中间反馈信息预估模型得到的预估结果的准确度大于或等于校准结果的准确度。

[0042] 通过上述训练方式得到的反馈信息预估模型充分学习了第二特征集合中的目标特征，能够提高模型的准确率。而且，由于基于这些目标特征的校准模型能够得到更接近真实值的校准结果，因此，利用这些目标特征训练反馈信息预估模型能够减小模型训练的规模，极大提升模型训练的迭代效率。

[0043] 根据本公开实施例的第二方面，提供一种反馈信息预估模型训练装置，该装置包括：

[0044] 获取单元，被配置为执行获取第一特征集合和样本数据集，该第一特征集合包括媒体资源的多个维度的特征，该样本数据集包括多个样本媒体资源，每个样本媒体资源包括该样本媒体资源的多个维度的特征的特征值；

[0045] 校准单元，被配置为执行基于该第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的该样本数据集的预估结果进行校准，得到每个校准模型对应的该样本数据集的校准结果；

[0046] 确定单元，被配置为执行基于该样本数据集的预估结果和每个校准模型对应的该样本数据集的校准结果，从该第一特征集合中确定至少一个目标特征，得到第二特征集合，其中，基于该目标特征对应的校准模型得到的校准结果的准确度大于该预估结果的准确度；

[0047] 训练单元，被配置为执行基于该第二特征集合和该样本数据集，对该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0048] 在一些实施例中，该装置还包括校准模型确定单元，被配置为执行：

[0049] 基于媒体资源的第一特征，从该样本数据集中获取该第一特征的特征值，该第一特征是指该第一特征集合中媒体资源的任一维度的特征；

[0050] 基于该第一特征的特征值，对该样本数据集进行分桶，得到多个桶；

[0051] 基于每个桶对应的样本媒体资源，确定该第一特征对应的校准模型。

[0052] 在一些实施例中，该确定单元，被配置为执行：

[0053] 基于该样本数据集的预估结果和该样本数据集的标签信息，获取该反馈信息预估模型的第一评估值，该第一评估值指示该反馈信息预估模型的准确度；

[0054] 基于第一校准模型对应的该样本数据集的校准结果和该样本数据集的标签信息，获取该第一校准模型的第二评估值，该第一校准模型为该第一特征集合中任一维度的特征对应的校准模型，该第二评估值指示该第一校准模型的准确度；

[0055] 在该第二评估值大于该第一评估值的情况下，确定该第一校准模型对应的特征为该目标特征。

[0056] 在一些实施例中，该装置还包括目标校准模型确定单元，被配置为执行：

[0057] 基于该样本数据集、该反馈信息预估模型以及该每个特征对应的校准模型，获取该每个特征对应的校准模型的评估值；

[0058] 将该每个特征对应的校准模型的评估值中最大评估值对应的校准模型确定为目标校准模型，该目标校准模型用于校准基于已上线的该反馈信息预估模型得到的媒体资源的预估结果。

[0059] 在一些实施例中，该装置还包括目标校准模型下线单元，被配置为执行：

[0060] 基于已上线的该反馈信息预估模型和该目标校准模型，获取已上线时间段内的样本数据；

[0061] 基于已上线的该反馈信息预估模型和该已上线时间段内的样本数据，获取已上线的该反馈信息预估模型的第三评估值，该第三评估值指示已上线的该反馈信息预估模型的准确度；

[0062] 基于已上线的该反馈信息预估模型、该目标校准模型和该已上线时间段内的样本数据，获取该目标校准模型的第四评估值，该第四评估值指示该目标校准模型的准确度；

[0063] 在该第三评估值大于该第四评估值的情况下，下线该目标校准模型。

[0064] 在一些实施例中，该训练单元被配置为执行：

[0065] 基于该第二特征集合，对该反馈信息预估模型的网络结构进行调整，得到调整后的该反馈信息预估模型；

[0066] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0067] 在一些实施例中，该训练单元，被配置为执行下述至少一项：

[0068] 基于该第二特征集合中的第一目标特征，在该反馈信息预估模型中添加用于处理该第一目标特征的网络层，得到调整后的该反馈信息预估模型，该第一目标特征是指未存在于该反馈信息预估模型中的特征；

[0069] 基于该第二特征集合中的第二目标特征，对该反馈信息预估模型中用于处理该第二目标特征的网络层进行调整，得到调整后的该反馈信息预估模型，该第二目标特征是指已存在于该反馈信息预估模型中的特征。

[0070] 在一些实施例中，该训练单元，被配置为执行：

[0071] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型；

[0072] 在基于该样本数据集、该反馈信息预估模型以及该第二特征集合，获取到与该第二特征集合对应的校准模型的情况下，基于该样本数据集，对该中间反馈信息预估模型进行训练，直至满足目标条件，得到训练后的该反馈信息预估模型，该目标条件是指，基于该中间反馈信息预估模型得到的预估结果的准确度大于或等于校准结果的准确度。

[0073] 根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

[0074] 一个或多个处理器；

[0075] 用于存储该处理器可执行程序代码的存储器；

[0076] 其中，该处理器被配置为执行该程序代码，以实现上述反馈信息预估模型训练方法。

[0077] 根据本公开实施例的第四方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述反馈信息预估模型训练方法。

[0078] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0079] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0080] 图1是本公开实施例提供的一种反馈信息预估模型训练方法的实施环境示意图；

[0081] 图2是本公开实施例提供的一种反馈信息预估模型训练系统的示意图；

[0082] 图3是本公开实施例提供的一种反馈信息预估模型训练方法的流程图；

[0083] 图4是本公开实施例提供的另一种反馈信息预估模型训练方法的流程图；

[0084] 图5是本公开实施例提供的一种反馈信息预估模型训练装置的框图；

[0085] 图6是本公开实施例提供的一种服务器的框图。

具体实施方式

[0086] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0087] 需要说明的是，本公开的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

[0088] 本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

[0089] 图1是本公开实施例提供的一种反馈信息预估模型训练方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

[0090] 终端101和服务器102能够通过有线网络或无线网络进行直接或间接地连接，本公开在此不作限制。在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端101能够向服务器102提供反馈信息预估模型训练方法所需的信息，如训练参数、初始深度学习模型以及样本数据集等。终端101泛指多个终端中的一个，本公开实施例仅以终端101来举例说明。

[0091] 服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式文件系统，又或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于执行本公开实施例提供的反馈信息预估模型训练方法，基于终端101提供的信息进行模型训练。在一些实施例中，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

[0092] 在介绍本公开实施例提供的反馈信息预估模型训练方法之前，为便于理解，下面先对本公开实施例提供的一种反馈信息预估模型训练系统进行介绍，该训练系统能够自动化地实现反馈信息预估模型的校准、迭代以及升级流程。其中，本公开实施例提供的反馈信息预估模型是一种基于逻辑回归（Logistic Regression，LR）的深度学习模型，用于预估对象对媒体资源的反馈行为，该反馈行为也可以理解为对象对媒体资源的互动行为。例如，媒体资源为视频、直播间以及图片等，对象对媒体资源的反馈行为包括点击、点赞、收藏以及观看时长超过目标时长等等，本公开实施例对此不作限定。示意性地，以媒体资源为视频，反馈行为为点击为例，该反馈信息预估模型能够预估对象点击某个视频的概率。在一些实施例中，该反馈信息预估模型为基于卷积神经网络（Convolutional Neural Network，CNN）构建的模型，在另一些实施例中，反馈信息预估模型为具有其他结构的模型。例如，该反馈信息预估模型为基于深度神经网络（Deep Neural Network，DNN）或者递归神经网络（Recurrent Neural Network，RNN）等构建的模型，本公开实施例对于反馈信息预估模型的结构不作限定。

[0093] 下面参考图2，对上述训练系统进行简要介绍。图2是本公开实施例提供的一种反馈信息预估模型训练系统的示意图。如图2所示，该训练系统包括下述四个模块：线上服务模块、数据收集模块、线下训练模块以及模型评估模块。通过这四个模块之间的协同作用，来实现反馈信息预估模型的校准、迭代以及升级。下面参考图2，对这四个模块的功能分别进行介绍。

[0094] （1）线上服务模块。

[0095] 线上服务模块用于根据线上资源获取请求，获取多个候选媒体资源，对于每个候选媒体资源，通过反馈信息预估模型来预估对象对候选媒体资源的反馈行为，从而得到每个候选媒体资源的预估结果，进一步地，通过校准模型（Calibration Model）对每个候选媒体资源的预估结果进行校准，得到每个候选媒体资源的校准结果，最终根据每个候选媒体资源的校准结果，确定目标媒体资源，将该目标媒体资源提供给对象。

[0096] 示意性地，对于任一个候选媒体资源，线上服务模块得到该候选媒体资源的校准结果的过程包括下述三个阶段。

[0097] 第一阶段、对该资源获取请求和该候选媒体资源进行特征提取，得到反馈信息预估模型对应的特征集合X={x1，x2，…，xp}和校准模型对应的特征集合Y={y1，y2，…，yq}，其中，p、q为正整数。

[0098] 其中，特征集合X和Y包括多个维度的特征。例如，以媒体资源为视频为例，该多个维度的特征包括发起该资源获取请求的对象的画像信息、发起该资源获取请求时的上下文信息、视频的类型以及视频内容等，对此不作限定。

[0099] 第二阶段、将特征集合X输入该反馈信息预估模型，得到该候选媒体资源的预估结果score=M(X)。

[0100] 其中，该预估结果为数值类信息。例如，以该候选媒体资源为视频为例，该预估结果为对象点击视频的概率（取值范围在0‑1之间，或者以百分数的形式呈现，对此不作限定）。

[0101] 第三阶段、将该候选媒体资源的预估结果和特征集合Y输入校准模型，得到该候选媒体资源的校准结果cali_score=Cal(score，Y)。

[0102] 其中，该校准结果为数值类信息。例如，以该候选媒体资源的预估结果为0.8为例，经过校准模型校准后，该候选媒体资源的校准结果为0.85。

[0103] 需要说明的是，线上服务模块实现上述三个阶段的原理会通过后续训练方法的实施例来体现，在此不再赘述。

[0104] （2）数据收集模块。

[0105] 数据收集模块用于在线上服务过程中收集线上服务模块所产生的数据。这些收集到的数据能够作为样本数据集，用于对反馈信息预估模型和校准模型进行训练。示意性地，下面参考表1，对数据收集模块收集的数据进行介绍。

[0106] 表1

[0107]

[0108] 如表1所示，对于线上服务模块处理的每个资源获取请求，数据收集模块基于该资源获取请求和该资源获取请求对应的每个候选媒体资源，生成样本数据集D={d1，d2，…，dn}，n为正整数，该样本数据集包括多个样本媒体资源。其中，每个样本媒体资源的样本ID用于指示该样本媒体资源以及对应的资源获取请求，例如，样本ID为0001abcd，0001用于唯一标识样本媒体资源，abcd用于唯一标识资源获取请求。示意性地，对于任一个样本媒体资源，该样本媒体资源包括如下几个部分。

[0109] 1.该样本媒体资源对应的资源获取请求。

[0110] 2.反馈信息预估模型对应的特征集合X={x1，x2，…，xp}，p为正整数。

[0111] 3.校准模型对应的特征集合Y={y1，y2，…，yq}，q为正整数。

[0112] 4.反馈信息预估模型输出的预估结果score=M(X)。

[0113] 5.校准模型输出的校准结果cali_score=Cal(score，Y)。

[0114] 6.该样本媒体资源对应的标签信息label。示意性地，以该样本媒体资源为视频，反馈信息预估模型用于预估点击率为例，该标签信息分为1和0，标签信息为1表示该样本媒体资源被对象点击，标签信息为0表示该样本媒体资源未被对象点击。

[0115] （3）线下训练模块。

[0116] 线下训练模块用于根据数据收集模块收集到的样本数据集，对反馈信息预估模型和校准模型进行训练和优化。这一部分会在后续训练方法的实施例中进行详细介绍，在此不再赘述。

[0117] （4）模型评估模块。

[0118] 模型评估模块用于在线上服务和线下训练过程中，对反馈信息预估模型和校准模型进行模型评估，从而指导模型迭代。其中，模型评估模块通过后验数据，对已上线反馈信息预估模型输出的预估结果和已上线校准模型输出的校准结果进行比较，决定是否需要下线校准模型。在线下训练中，模型评估模块分别对反馈信息预估模型和校准模型的训练效果进行评估，指导模型迭代。这一部分会在后续训练方法的实施例中进行详细介绍，在此不再赘述。

[0119] 在介绍了本公开实施例提供的反馈信息预估模型训练系统的基础上，下面通过几个方法实施例，对本公开实施例提供的反馈信息预估模型训练方法进行介绍。

[0120] 图3是本公开实施例提供的一种反馈信息预估模型训练方法的流程图。如图3所示，该方法由服务器执行，包括以下步骤301至步骤304。

[0121] 在步骤301中，服务器获取第一特征集合和样本数据集。

[0122] 在本公开实施例中，第一特征集合包括媒体资源的多个维度的特征。例如，以媒体资源为图片为例，该多个维度的特征包括：对象的画像信息、图片的类型以及图片内容等等。又例如，以媒体资源为视频为例，该多个维度的特征包括：对象的画像信息、视频长度、视频内容以及视频类型等等，本公开实施例对此不作限定。在一些实施例中，该第一特征集合是由开发人员人工选择得到的。在一些实施例中，该第一特征集合是通过过滤法（Filter）、包装法（Wrapper）或者嵌入法（Embedded）等特征工程方法得到的，本公开实施例对此不作限定。

[0123] 该样本数据集包括多个样本媒体资源，每个样本媒体资源包括该样本媒体资源的多个维度的特征的特征值。在一些实施例中，每个样本媒体资源还包括：基于已上线反馈信息预估模型得到的该样本媒体资源的预估结果，基于已上线校准模型得到的该样本媒体资源的校准结果以及该样本媒体资源的标签信息。示意性地，参考上述图2所示的训练系统，该样本数据集通过对线上数据进行收集得到，每个样本媒体资源所包括的内容如上述表1所示，在此不再赘述。

[0124] 在步骤302中，服务器基于该第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的该样本数据集的预估结果进行校准，得到每个校准模型对应的该样本数据集的校准结果。

[0125] 在本公开实施例中，反馈信息预估模型用于预估对象对媒体资源的反馈行为，以得到媒体资源的预估结果。对于第一特征集合中任一维度的特征，该特征对应的校准模型用于校准基于反馈信息预估模型得到的预估结果，以得到校准结果。

[0126] 在步骤303中，服务器基于该样本数据集的预估结果和每个校准模型对应的该样本数据集的校准结果，从该第一特征集合中确定至少一个目标特征，得到第二特征集合。

[0127] 在本公开实施例中，基于该目标特征对应的校准模型得到的校准结果的准确度大于该预估结果的准确度。对于每个校准模型，服务器基于该样本数据集的预估结果和该校准模型对应的样本数据集的校准结果，判断该校准模型所输出的校准结果的准确度是否大于反馈信息预估模型所输出的预估结果，在确定大于的情况下，表明该校准模型对预估结果进行校准后能够得到更加准确的结果，从而将该校准模型对应的特征确定为目标特征。换言之，这一过程也可以理解为，利用校准模型，从第一特征集合中筛选出目标特征，为反馈信息预估模型的特征选择提供指导，从而提高反馈信息预估模型的迭代效率和反馈信息预估模型的准确率。

[0128] 在步骤304中，服务器基于该第二特征集合和该样本数据集，对该反馈信息预估模型进行训练，得到训练后的反馈信息预估模型。

[0129] 在本公开实施例中，该训练后的反馈信息预估模型用于在线上服务时预估对象对媒体资源的反馈行为。例如，以媒体资源为图片为例，将训练后的反馈信息预估模型应用于图片推荐系统，能够提升图片的点击率，为图片推荐系统提供业务指导。又例如，以媒体资源为视频为例，将训练后的反馈信息预估模型应用于视频推荐系统，能够提升视频的点击率、用户观看时长以及日活跃用户数量（Daily Active User，DAU）等，为视频推荐系统提供业务指导。本公开实施例对于该反馈信息预估模型的应用场景不作限定。

[0130] 本公开实施例提供的技术方案，在获取到第一特征集合和样本数据集之后，根据第一特征集合中每个维度的特征对应的校准模型，对反馈信息预估模型所输出的预估结果进行校准，得到样本数据集的校准结果，基于此，从第一特征集合中确定至少一个目标特征，将这些目标特征加入到反馈信息预估模型的训练过程中。在这一过程中，基于目标特征对应的校准模型得到的校准结果的准确度大于预估结果的准确度，表明通过该校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该校准模型对应的特征加入到反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0131] 上述图3所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图4是本公开实施例提供的另一种反馈信息预估模型训练方法的流程图，如图4所示，该方法由服务器执行，包括以下步骤401至步骤407。

[0132] 在步骤401中，服务器获取第一特征集合和样本数据集。

[0133] 在本公开实施例中，该第一特征集合包括媒体资源的多个维度的特征，该样本数据集包括多个样本媒体资源，每个样本媒体资源包括该样本媒体资源的多个维度的特征的特征值。步骤401与上述步骤301同理，故在此不再赘述。

[0134] 在步骤402中，服务器基于第一特征集合和样本数据集，得到每个特征对应的校准模型。

[0135] 在本公开实施例中，样本数据集包括训练样本和测试样本。其中，训练样本用于确定每个特征对应的校准模型，测试样本用于在后续步骤中确定第二特征集合，例如，服务器将样本数据集中80%的样本媒体资源作为训练样本，将样本数据集中20%的样本媒体资源作为测试样本，本公开实施例对此不作限定。在本步骤402中，服务器遍历第一特征集合中每个维度的特征，基于每个特征在样本数据集的训练样本中对应的特征值，得到每个特征对应的校准模型。

[0136] 下面以第一特征集合中任一维度的特征为例，对这一过程进行介绍，示意性地，将该维度的特征称为第一特征，包括下述步骤4021至步骤4023。

[0137] 在步骤4021中，基于媒体资源的第一特征，从该样本数据集中获取该第一特征的特征值。

[0138] 其中，该第一特征是指该第一特征集合中媒体资源的任一维度的特征。服务器基于该第一特征，从样本数据集的训练样本中获取该第一特征的所有特征值。

[0139] 在步骤4022中，基于该第一特征的特征值，对该样本数据集进行分桶，得到多个桶。

[0140] 其中，服务器基于获取到的该第一特征的特征值，构造从特征值到分桶的映射函数，对该样本数据集进行分桶，得到多个桶。例如，第一特征的特征值的取值范围为0‑100，将处于0‑10范围内的特征值对应的样本媒体资源放入第一桶，将处于11‑20范围内的特征值对应的样本媒体资源放入第二桶，以此类推。

[0141] 在步骤4023中，基于每个桶对应的样本媒体资源，确定该第一特征对应的校准模型。

[0142] 其中，对于任一个桶，服务器获取该桶中样本媒体资源的预估结果和标签信息，将该桶对应的标签信息之和除以预估结果之和，得到该桶对应的校准系数，基于每个桶对应的校准系数，确定该第一特征对应的校准模型。

[0143] 示意性地，以第一特征对应的多个桶的集合记为G为例，每个桶记为g，每个桶的校准系数通过下述公式（1）来计算得到。

[0144] （1）

[0145] 式中，为桶g的校准系数，为该桶g内样本媒体资源d的标签信息label之和，为该桶g内样本媒体资源d的预估结果
score之和，表示该桶g对应的映射函数，z表示第一特征。

[0146] 经过上述步骤402，服务器遍历第一特征集合中每个维度的特征，得到每个特征对应的校准模型，便于后续从第一特征集合中筛选出至少一个目标特征。例如，第一特征集合包括10个维度的特征，通过上述步骤402，服务器得到10个校准模型，每个校准模型对应多个校准系数。

[0147] 在步骤403中，服务器基于该第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的该样本数据集的预估结果进行校准，得到每个校准模型对应的该样本数据集的校准结果。

[0148] 在本公开实施例中，服务器将样本数据集中的测试样本输入反馈信息预估模型，得到样本数据集的预估结果。对于第一特征集合中任一特征对应的校准模型，服务器基于该校准模型，对样本数据集的预估结果进行校准，得到该校准模型对应的样本数据集的校准结果。在一些实施例中，该反馈信息预估模型为未上线的初始反馈信息预估模型，在另一些实施例中，该反馈信息预估模型为已上线的反馈信息预估模型，即，服务器在反馈信息预估模型已上线一段时间后，根据获取到的样本数据集，执行当前流程，本公开实施例对此不作限定。

[0149] 在步骤404中，服务器基于样本数据集的预估结果和每个校准模型对应的样本数据集的校准结果，从第一特征集合中确定至少一个目标特征，得到第二特征集合。

[0150] 在本公开实施例中，基于该目标特征对应的校准模型得到的校准结果的准确度大于该预估结果的准确度。服务器基于该样本数据集的标签信息，对样本数据集的预估结果以及校准结果的准确度进行判断，从而确定出至少一个目标特征，得到第二特征集合。在一些实施例中，服务器基于受试者工作特征（Receiver Operating Characteristic，ROC）曲线下面积（Area Under Curve，AUC）来体现样本数据集的预估结果和校准结果的准确度。应理解，在深度学习中，通常使用AUC作为模型的评价标准，AUC越大，该AUC对应的模型所输出的结果更接近真实值，也即是AUC对应的模型效果更好。

[0151] 下面以第一特征集合中任一维度的特征对应的校准模型为例，对服务器确定目标特征的过程进行介绍，示意性地，将该维度的特征对应的校准模型称为第一校准模型，包括下述步骤4041至步骤4043。

[0152] 在步骤4041中，基于该样本数据集的预估结果和该样本数据集的标签信息，获取该反馈信息预估模型的第一评估值。

[0153] 其中，该第一评估值指示该反馈信息预估模型的准确度。示意性地，该第一评估值为该反馈信息预估模型的AUC，服务器基于样本数据集的预估结果和样本数据集的标签信息，获取该反馈信息预估模型的ROC曲线，计算该ROC曲线下的面积，得到该反馈信息预估模型的AUC，也即第一评估值。

[0154] 在步骤4042中，基于第一校准模型对应的样本数据集的校准结果和样本数据集的标签信息，获取第一校准模型的第二评估值。

[0155] 其中，该第二评估值指示该第一校准模型的准确度。示意性地，该第二评估值为该第一校准模型的AUC，服务器基于样本数据集的校准结果和样本数据集的标签信息，获取该第一校准模型的ROC曲线，计算该ROC曲线下的面积，得到该第一校准模型的AUC，也即第二评估值。

[0156] 在步骤4043中，在第二评估值大于第一评估值的情况下，确定该第一校准模型对应的特征为目标特征。

[0157] 其中，在第二评估值大于第一评估值的情况下，表明第一校准模型所输出的校准结果的准确度大于反馈信息预估模型所输出的预估结果，即，通过该第一校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该第一校准模型对应的特征确定为目标特征，加入到后续反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0158] 在步骤405中，服务器基于第一特征集合中每个特征对应的校准模型，确定目标校准模型。

[0159] 在本公开实施例中，该目标校准模型用于校准基于已上线的反馈信息预估模型得到的媒体资源的预估结果。示意性地，参考上述图2所示的训练系统，该目标校准模型能够应用于该训练系统的线上服务模块。

[0160] 在一些实施例中，服务器基于与上述步骤404同理的过程，获取第一特征集合中每个特征对应的校准模型，从获取到的多个校准模型中确定目标校准模型。示意性地，服务器基于样本数据集、反馈信息预估模型以及每个特征对应的校准模型，获取每个特征对应的校准模型的评估值；将该每个特征对应的校准模型的评估值中最大评估值对应的校准模型确定为目标校准模型。由于评估值（即AUC）能够作为模型的评价标准，评估值越大，该评估值对应的模型所输出的结果更接近真实值，因此，将多个校准模型中最大评估值对应的校准模型确定为目标校准模型，该目标校准模型所输出的结果最接近真实值，从而将该目标校准模型应用于线上服务时，能够提高校准结果的准确率。

[0161] 在一些实施例中，在将上述目标校准模型应用于线上服务时，服务器基于已上线时间段内的样本数据，判断是否需要下线该目标校准模型。示意性地，这一过程包括下述步骤1至步骤4。

[0162] 步骤1、基于已上线的反馈信息预估模型和目标校准模型，获取已上线时间段内的样本数据。其中，已上线时间段能够根据实际需求进行设置，例如，已上线时间段为1天，即，服务器在将反馈信息预估模型和目标校准模型上线1天后，获取相应的样本数据。

[0163] 步骤2、基于已上线的反馈信息预估模型和已上线时间段内的样本数据，获取已上线的反馈信息预估模型的第三评估值，该第三评估值指示已上线的反馈信息预估模型的准确度。

[0164] 步骤3、基于已上线的反馈信息预估模型、目标校准模型和已上线时间段内的样本数据，获取目标校准模型的第四评估值，该第四评估值指示该目标校准模型的准确度。

[0165] 步骤4、在第三评估值大于第四评估值的情况下，下线目标校准模型。其中，在第三评估值大于第四评估值的情况下，表明反馈信息预估模型所输出的预估结果的准确度大于目标校准模型所输出的准确度，也即是，线上服务已不需要通过目标校准模型来对预估结果进行校准，因此，在这种情况下，及时下线目标校准模型。

[0166] 需要说明的是，上述几个步骤的具体实现方式与前述步骤401至步骤404同理，故在此不再赘述。通过这种方式，服务器能够根据最近一段时间的样本数据，及时评估目标校准模型的必要性，在线上服务已不需要该目标校准模型的情况下，及时下线该目标校准模型，以节约计算资源，提高服务器运行效率。同理，服务器也能够根据最近一段时间的样本数据，在线上服务需要该目标校准模型的情况下，及时上线该目标校准模型，提高线上服务的准确率。

[0167] 另外，在本公开实施例中，服务器按照上述步骤402至405的顺序依次执行。即，在得到第一特征集合中每个特征对应的校准模型后，确定第二特征集合和目标校准模型。

[0168] 在一些实施例中，服务器对第一特征集合中每个维度的特征依次进行处理，在每次处理过程中，对比当前特征对应的校准模型和已得到的目标校准模型，来更新目标校准模型。例如，以第一特征集合包括2个维度的特征A和特征B为例，服务器基于样本数据集，得到该特征A对应的校准模型，基于该特征A对应的校准模型和反馈信息预估模型，得到该特征A对应的校准模型的AUC1和反馈信息预估模型对应的AUC2，在AUC1大于AUC2的情况下，将该特征A确定为目标特征，并将该特征A对应的校准模型作为目标校准模型。同理，服务器对特征B进行处理，得到特征B对应的校准模型的AUC3，在AUC3大于AUC2的情况下，将特征B确定为目标特征，对比AUC3和AUC1，在AUC3大于AUC1的情况下，将特征B对应的校准模型作为目标校准模型。

[0169] 经过上述步骤401至步骤405，服务器基于第一特征集合、样本数据集以及反馈信息预估模型，从第一特征集合中筛选出至少一个目标特征，并得到了目标校准模型，以便在线上服务时提高校准结果的准确率。换言之，上述步骤401至步骤405的过程也可以理解为是一种对校准模型的训练过程，即，利用第一特征集合、样本数据集以及反馈信息预估模型，既筛选出至少一个目标特征，也训练得到了目标校准模型。

[0170] 下面基于以下伪代码，对校准模型的训练过程进行示意性说明，也即是对上述步骤401至步骤405的示意性说明。

[0171] {Train_Calibration_Model(LR_Model，Z，D)：//训练校准模型(LR_Model，Z，D)：

[0172] output_features = {}//输出特征={}

[0173] cali_model = null//校准模型=空

[0174] max_auc = ‑1//最大AUC=‑1

[0175] 样本数据集D包括训练样本D_train和测试样本D_test

[0176] for z in Z：//对于第一特征集合Z中任一维度的特征z：

[0177] for d in D_train：//对于测试样本中的样本媒体资源：

[0178] 获取特征z的特征值

[0179] bin(z)‑>g =//对特征z的特征值进行分桶，构建映射函数，桶的集合记为G[0180] for g in G：//对于集合中任一个桶

[0181] cali_factor(g) = sum(label(d)) / sum(score(d)) if bin(z(d)) = g（详见公式（1））

[0182] for d in D_test：//对于测试样本中的样本媒体资源

[0183] score(d) = LR_model(d)//预估结果=LR_model(d)

[0184] cali_score(d) = score(d) ×cali_factor(bin(z(d)))//校准结果=预估结果×校准系数

[0185] if auc(Score，Label) < auc(Cali_Score，Label) then：//若反馈信息预估模型的AUC<校准模型的AUC：

[0186] output_feature = output_feature + {z}//输出特征=输出特征+{z}，z为目标特征

[0187] if auc(Cali_Score，Label) > max_auc then：//若校准模型的AUC>最大AUC：

[0188] cali_model = cali_factor//校准模型=校准系数

[0189] max_auc = auc(Cali_Score，Label)//最大AUC=校准模型的AUC

[0190] return output_features，cali_model//返回输出特征，校准模型}。

[0191] 示意性地，在这一训练过程中，服务器获取到的输入信息包括第一特征集合Z={z1，z2，…，zm}，m为正整数，样本数据集D={d1，d2，…，dn}以及反馈信息预估模型LR_Model。其中，样本数据集D包括训练样本D_train和测试样本D_test。

[0192] 对于第一特征集合中的每个特征z，执行下述几个步骤。

[0193] 第一步，遍历训练样本D_train，获得该特征z的特征值。

[0194] 第二步，对获取到的特征值进行分桶，构造从取值到分桶的映射函数bin(z)。

[0195] 第三步，对每一个桶g，计算它的校准系数cali_factor(g)，得到特征z对应的校准模型，详见公式（1）。

[0196] 第四步，基于测试样本、反馈信息预估模型以及特征z对应的校准模型，得到每个样本媒体资源的预估结果score和校准结果cali_score。获取反馈信息预估模型的第一评估值和校准模型的第二评估值，在第二评估值大于第一评估值的情况下，表明特征z对反馈信息预估模型有收益，将特征z加入输出特征output_features中，也即是得到目标特征。进一步地，将多个校准模型中最大评估值对应的校准模型确定为目标校准模型，输出该目标校准模型。需要说明的是，上述训练流程已经在上述步骤401至步骤405中进行了详细说明，故在此不再赘述。

[0197] 在步骤406中，服务器基于该第二特征集合，对反馈信息预估模型的网络结构进行调整，得到调整后的该反馈信息预估模型。

[0198] 在本公开实施例中，服务器通过对比第二特征集合中的目标特征和反馈信息预估模型的特征是否相同，来对该反馈信息预估模型的网络结构进行调整，得到调整后的反馈信息预估模型。在一些实施例中，该反馈信息预估模型为未上线的初始反馈信息预估模型，在另一些实施例中，该反馈信息预估模型为已上线的反馈信息预估模型，即，服务器在反馈信息预估模型已上线一段时间后，根据获取到的第二特征集合，执行当前流程，本公开实施例对此不作限定。

[0199] 示意性地，步骤406包括下述两种情况。

[0200] 情况一、第二特征集合中的目标特征未存在于反馈信息预估模型中。

[0201] 在该情况下，服务器将该目标特征添加到该反馈信息预估模型中。示意性地，以第一目标特征为例，该第一目标特征是指未存在于该反馈信息预估模型中的特征。服务器基于该第一目标特征，在该反馈信息预估模型中添加用于处理该第一目标特征的网络层，得到调整后的该反馈信息预估模型。例如，在反馈信息预估模型的输入层添加用于处理该第一目标特征的网络层。通过将第一目标特征添加到反馈信息预估模型中，使得训练后的反馈信息预估模型能够输出更准确的预估结果。

[0202] 情况二、第二特征集合中的目标特征已存在于反馈信息预估模型中。

[0203] 在该情况下，表明反馈信息预估模型对该目标特征的学习不够充分，服务器通过调整反馈信息预估模型的网络结构来强化对该目标特征的学习，使得训练后的反馈信息预估模型能够输出更准确的预估结果。示意性地，以第二目标特征为例，该第二目标特征是指已存在于该反馈信息预估模型中的特征。服务器基于该第二目标特征，对该反馈信息预估模型中用于处理该第二目标特征的网络层进行调整，得到调整后的该反馈信息预估模型。例如，通过直连（Shortcut）的方式，将用于处理该第二目标特征的网络层连接到反馈信息预估模型的输出层。又例如，将该第二目标特征的网络层调整至靠近反馈信息预估模型的输出层的位置，等等，本公开实施例对此不作限定，其他凡是为了强化特征学习而调整模型网络结构的方法均可以应用在这一过程中。

[0204] 在步骤407中，服务器基于该样本数据集，对调整后的该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0205] 在本公开实施例中，服务器基于该样本数据集中全部的样本媒体资源，对调整后的反馈信息预估模型进行训练。在一些实施例中，服务器基于样本数据集中部分样本媒体资源，对调整后的反馈信息预估模型进行训练，例如，服务器选择样本数据集中样本生成时间在最近10天内的样本媒体资源作为训练样本，通过这种方式，利用最近生成的样本媒体资源来训练模型，能够提高模型的准确率。

[0206] 在一些实施例中，服务器在训练反馈信息预估模型的过程中，基于与上述步骤401至步骤405同理的训练过程，利用反馈信息预估模型尝试训练校准模型，直至该反馈信息预估模型输出的预估结果的准确度大于或等于校准模型输出的校准结果的准确度。下面对这一过程进行介绍，包括如下步骤4071和步骤4072。

[0207] 在步骤4071中，基于该样本数据集，对调整后的反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型。

[0208] 示意性地，这一过程由服务器执行，以训练过程中的第i次迭代为例（i为正整数），服务器训练得到中间反馈信息预估模型的过程包括下述步骤4071‑1至步骤4071‑3。

[0209] 步骤4071‑1、将样本媒体资源输入调整后的反馈信息预估模型，得到该样本媒体资源的预估结果。

[0210] 步骤4071‑2、基于该样本媒体资源的预估结果和标签信息，计算损失值。其中，服务器基于预估结果和标签信息之间的差值来构建损失函数，基于该损失函数，计算得到该样本媒体资源对应的损失值。需要说明的是，服务器构建损失函数的方式不限于上述方式，且，本公开实施例中的损失函数可以是深度学习模型的训练过程中常用的各种损失函数，例如绝对值损失函数、余弦相似度损失函数、平方损失函数、交叉熵损失函数等，本公开实施例对此不作限定。

[0211] 步骤4071‑3、在该损失值或本次迭代满足迭代截止条件的情况下，输出该中间反馈信息预估模型，在不满足的情况下，调整模型的网络参数，基于调整后的反馈信息预估模型，进行第i+1次迭代。其中，迭代截止条件为损失值（也称误差值）小于设定阈值，该设定阈值能够根据实际需求进行设定。在一些实施例中，该迭代截止条件为迭代次数达到目标次数，或训练时长达到目标时长，本公开实施例对此不作限定。

[0212] 在步骤4072中，在基于该样本数据集、该反馈信息预估模型以及该第二特征集合，获取到与该第二特征集合对应的校准模型的情况下，基于该样本数据集，对该中间反馈信息预估模型进行训练，直至满足目标条件，得到训练后的反馈信息预估模型。

[0213] 其中，该目标条件是指，基于中间反馈信息预估模型得到的预估结果的准确度大于或等于校准结果的准确度。服务器按照与上述步骤401至步骤405同理的训练过程，基于中间反馈信息预估模型训练校准模型，直到中间反馈信息预估模型输出的预估结果的准确度大于或等于校准模型输出的校准结果的准确度。在这一过程中，中间反馈信息预估模型输出的预估结果的准确度小于校准模型输出的校准结果，表明该中间反馈信息预估模型对第二特征集合中目标特征的学习仍不够充分，因此，需要通过调整模型的网络结构，重复上述步骤4071所示的训练过程，直至满足目标条件。

[0214] 通过上述训练方式得到的反馈信息预估模型充分学习了第二特征集合中的目标特征，能够提高模型的准确率。而且，由于基于这些目标特征的校准模型能够得到更接近真实值的校准结果，因此，利用这些目标特征训练反馈信息预估模型能够减小模型训练的规模，极大提升模型训练的迭代效率。

[0215] 需要说明的是，在本公开实施例中，服务器按照上述步骤406和步骤407依次执行，即，先基于第二特征集合，调整反馈信息预估模型的网络结构，再进行训练。

[0216] 在一些实施例中，服务器遍历第二特征集合中每个目标特征，基于每个目标特征依次进行处理，在每次处理过程中，基于当前目标特征调整反馈信息预估模型的网络结构，对调整后的反馈信息预估模型进行训练，以此类推，直至得到训练后的反馈信息预估模型，本公开实施例对于服务器具体训练反馈信息预估模型的过程不作限定。

[0217] 经过上述步骤406和步骤407，服务器基于第二特征集合对反馈信息预估模型进行了训练。下面通过以下伪代码，对反馈信息预估模型的训练过程进行示意性说明，也即是对上述步骤406和步骤407的说明。

[0218] {Train_LR_Model(W，D，base_model)：//训练反馈信息预估模型(W，D，base_model)

[0219] output_model = base_model//输出模型= base_model

[0220] do：

[0221] for w in W：//对于第二特征集合W中任一目标特征w：

[0222] if w in output_model then：//若该特征w已存在于模型中：

[0223] output_model = 调整网络结构并训练新模型

[0224] else：

[0225] output_model = 将w加入到模型中并训练

[0226] f，cali_model = Train_Calibration_Model(base_model，W，D_train)//校准模型=训练校准模型(base_model，W，D_train)

[0227] while cali_model = null//校准模型为空

[0228] return output_model//返回输出模型}。

[0229] 示意性地，在这一训练过程中，服务器获取到的输入信息包括第二特征集合W={w1，w2，…，wk}，k为正整数，样本数据集D={d1，d2，…，dn}以及初始反馈信息预估模型，n为正整数。

[0230] 其中，输出模型被初始化为base_model。对第二特征集合中的每个特征w进行判断，在该特征未存在于模型中的情况下，将该特征加入模型中，在该特征已存在于模型中的情况下，对模型的网络结构进行调整来增强对这个特征的学习。将训练得到的中间反馈信息预估模型更新为output_model。基于中间反馈信息预估模型和第二特征集合训练校准模型，直到该中间反馈信息预估模型输出的预估结果的准确度大于或等于校准模型输出的校准结果的准确度，输出训练后的反馈信息预估模型。需要说明的是，上述训练流程已经在上述步骤406至步骤407中进行了详细说明，故在此不再赘述。

[0231] 经过上述步骤401至步骤407，服务器利用校准模型，对第一特征集合进行了筛选，从而得到第二特征集合，并基于第二特征集合来训练反馈信息预估模型。示意性地，反馈信息预估模型为M(x1，x2，x3，x4，…，xh)，将第二特征集合中的目标特征w添加到该反馈信息预估模型后，得到调整后的反馈信息预估模型为M'(x1，x2，x3，x4，…，xh，w)，h为正整数。M和M'的关系如下：M'= M×Cali_Score(w)，即，M'相当于在模型M的基础上增加一层相乘，由于M'为使用特征集合{x1，x2，x3，x4，…，xh，w} 的模型集合中的一个特殊模型，且M'比M的准确度高，说明存在使用特征集合{x1，x2，x3，x4，…，xh，w}训练得到的模型的准确度高于模型M。因此，通过上述方法进行训练，能够有效提升模型的准确率。

[0232] 另外，基于上述图2所示的训练系统可知，线上服务模块、数据收集模块、线下训练模块以及模型评估模块之间通过协同作用来实现反馈信息预估模型的校准、迭代以及升级。在一些实施例中，线下训练模块每间隔预设时长，根据数据收集模块收到的样本数据集，对校准模型进行训练，在得到目标特征后，利用目标特征对反馈信息预估模型进行训练。例如，该预设时长为30分钟，对此不作限定。

[0233] 而且，在一些实施例中，在将上述训练后的反馈信息预估模型和目标校准模型应用于线上服务时，能够有效提升模型的准确率，使得最终确定的目标媒体资源更加符合需求。示意性地，下面对这一过程进行简要介绍，包括如下步骤A至步骤D。

[0234] 步骤A、服务器响应于针对媒体资源的资源获取请求，获取多个候选媒体资源。

[0235] 步骤B、服务器基于该资源获取请求和该多个候选媒体资源，获取每个候选媒体资源对应的特征集合。

[0236] 其中，每个候选媒体资源对应的特征集合包括已上线反馈信息预估模型对应的特征和目标校准模型对应的特征，该目标校准模型用于校准基于已上线反馈信息预估模型得到的媒体资源的预估结果。

[0237] 步骤C、服务器基于每个候选媒体资源对应的特征集合、已上线反馈信息预估模型和该目标校准模型，获取每个候选媒体资源的校准结果。

[0238] 其中，对于任一个候选媒体资源，服务器获取该候选媒体资源的校准结果的过程包括：将该候选媒体资源对应的特征集合中已上线反馈信息预估模型对应的特征输入该已上线反馈信息预估模型，得到该候选媒体资源的预估结果；将该预估结果和该候选媒体资源对应的特征集合中该目标校准模型对应的特征输入该目标校准模型，得到该候选媒体资源的校准结果。

[0239] 步骤D、服务器基于每个候选媒体资源的校准结果，确定目标媒体资源。

[0240] 其中，服务器基于每个候选媒体资源的校准结果的大小，将排在前N位（N为正整数）的媒体资源确定为目标媒体资源，作为该资源获取请求的响应并返回。

[0241] 综上，本公开实施例提供的技术方案，在获取到第一特征集合和样本数据集之后，根据第一特征集合中每个维度的特征对应的校准模型，对反馈信息预估模型所输出的预估结果进行校准，得到样本数据集的校准结果，基于此，从第一特征集合中确定至少一个目标特征，将这些目标特征加入到反馈信息预估模型的训练过程中。在这一过程中，基于目标特征对应的校准模型得到的校准结果的准确度大于预估结果的准确度，表明通过该校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该校准模型对应的特征加入到反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0242] 图5是本公开实施例提供的一种反馈信息预估模型训练装置的框图。参照图5，该装置包括获取单元501、校准单元502、确定单元503以及训练单元504。

[0243] 获取单元501，被配置为执行获取第一特征集合和样本数据集，该第一特征集合包括媒体资源的多个维度的特征，该样本数据集包括多个样本媒体资源，每个样本媒体资源包括该样本媒体资源的多个维度的特征的特征值。

[0244] 校准单元502，被配置为执行基于该第一特征集合中每个特征对应的校准模型，对基于反馈信息预估模型得到的该样本数据集的预估结果进行校准，得到每个校准模型对应的该样本数据集的校准结果。

[0245] 确定单元503，被配置为执行基于该样本数据集的预估结果和每个校准模型对应的该样本数据集的校准结果，从该第一特征集合中确定至少一个目标特征，得到第二特征集合，其中，基于该目标特征对应的校准模型得到的校准结果的准确度大于该预估结果的准确度。

[0246] 训练单元504，被配置为执行基于该第二特征集合和该样本数据集，对该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0247] 在一些实施例中，该装置还包括校准模型确定单元，被配置为执行：

[0248] 基于媒体资源的第一特征，从该样本数据集中获取该第一特征的特征值，该第一特征是指该第一特征集合中媒体资源的任一维度的特征；

[0249] 基于该第一特征的特征值，对该样本数据集进行分桶，得到多个桶；

[0250] 基于每个桶对应的样本媒体资源，确定该第一特征对应的校准模型。

[0251] 在一些实施例中，该确定单元503，被配置为执行：

[0252] 基于该样本数据集的预估结果和该样本数据集的标签信息，获取该反馈信息预估模型的第一评估值，该第一评估值指示该反馈信息预估模型的准确度；

[0253] 基于第一校准模型对应的该样本数据集的校准结果和该样本数据集的标签信息，获取该第一校准模型的第二评估值，该第一校准模型为该第一特征集合中任一维度的特征对应的校准模型，该第二评估值指示该第一校准模型的准确度；

[0254] 在该第二评估值大于该第一评估值的情况下，确定该第一校准模型对应的特征为该目标特征。

[0255] 在一些实施例中，该装置还包括目标校准模型确定单元，被配置为执行：

[0256] 基于该样本数据集、该反馈信息预估模型以及该每个特征对应的校准模型，获取该每个特征对应的校准模型的评估值；

[0257] 将该每个特征对应的校准模型的评估值中最大评估值对应的校准模型确定为目标校准模型，该目标校准模型用于校准基于已上线的该反馈信息预估模型得到的媒体资源的预估结果。

[0258] 在一些实施例中，该装置还包括目标校准模型下线单元，被配置为执行：

[0259] 基于已上线的该反馈信息预估模型和该目标校准模型，获取已上线时间段内的样本数据；

[0260] 基于已上线的该反馈信息预估模型和该已上线时间段内的样本数据，获取已上线的该反馈信息预估模型的第三评估值，该第三评估值指示已上线的该反馈信息预估模型的准确度；

[0261] 基于已上线的该反馈信息预估模型、该目标校准模型和该已上线时间段内的样本数据，获取该目标校准模型的第四评估值，该第四评估值指示该目标校准模型的准确度；

[0262] 在该第三评估值大于该第四评估值的情况下，下线该目标校准模型。

[0263] 在一些实施例中，该训练单元504被配置为执行：

[0264] 基于该第二特征集合，对该反馈信息预估模型的网络结构进行调整，得到调整后的该反馈信息预估模型；

[0265] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，得到训练后的该反馈信息预估模型。

[0266] 在一些实施例中，该训练单元504，被配置为执行下述至少一项：

[0267] 基于该第二特征集合中的第一目标特征，在该反馈信息预估模型中添加用于处理该第一目标特征的网络层，得到调整后的该反馈信息预估模型，该第一目标特征是指未存在于该反馈信息预估模型中的特征；

[0268] 基于该第二特征集合中的第二目标特征，对该反馈信息预估模型中用于处理该第二目标特征的网络层进行调整，得到调整后的该反馈信息预估模型，该第二目标特征是指已存在于该反馈信息预估模型中的特征。

[0269] 在一些实施例中，该训练单元504，被配置为执行：

[0270] 基于该样本数据集，对调整后的该反馈信息预估模型进行训练，直至满足迭代截止条件，得到中间反馈信息预估模型；

[0271] 在基于该样本数据集、该反馈信息预估模型以及该第二特征集合，获取到与该第二特征集合对应的校准模型的情况下，基于该样本数据集，对该中间反馈信息预估模型进行训练，直至满足目标条件，得到训练后的该反馈信息预估模型，该目标条件是指，基于该中间反馈信息预估模型得到的预估结果的准确度大于或等于校准结果的准确度。

[0272] 本公开实施例提供的技术方案，在获取到第一特征集合和样本数据集之后，根据第一特征集合中每个维度的特征对应的校准模型，对反馈信息预估模型所输出的预估结果进行校准，得到样本数据集的校准结果，基于此，从第一特征集合中确定至少一个目标特征，将这些目标特征加入到反馈信息预估模型的训练过程中。在这一过程中，基于目标特征对应的校准模型得到的校准结果的准确度大于预估结果的准确度，表明通过该校准模型对预估结果进行校准后能够得到更加准确的结果，因此，将该校准模型对应的特征加入到反馈信息预估模型的训练过程中，能够有效提高模型训练的迭代效率和模型的准确率。

[0273] 需要说明的是：上述实施例提供的反馈信息预估模型训练装置在训练模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的反馈信息预估模型训练装置与反馈信息预估模型训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

[0274] 图6是本公开实施例提供的一种服务器的框图。如图6所示，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器（Central Processing Units，CPU）601和一个或多个的存储器602，其中，该一个或多个存储器602中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的反馈信息预估模型训练方法中服务器执行的过程。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

[0275] 在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器602，上述程序代码可由服务器600的处理器601执行以完成上述反馈信息预估模型训练方法。可选地，计算机可读存储介质可以是只读内存（Read‑Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、只读光盘（Compact‑Disc Read‑Only Memory，CD‑ROM）、磁带、软盘和光数据存储设备等。

[0276] 需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）、数据（包括但不限于用于分析的数据、存储的数据、展示的数据等）以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的样本媒体资源都是在充分授权的情况下获取的。

[0277] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

[0278] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

反馈信息预估模型训练方法、装置以及电子设备转让专利

申请号 : CN202210746663.2

文献号 : CN114819000B

文献日 : 2022-10-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 应元翔 , 谢淼 , 解浪

申请人 : 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :