样本数据的处理方法、装置、服务器及存储介质转让专利

申请号 : CN202110595347.5

文献号 : CN113411644B

文献日 : 2022-10-04

本公开关于一种样本数据的处理方法、装置、服务器及存储介质。其中，该样本数据的处理方法包括：获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；基于变换时长样本数据生成目标样本数据，目标样本数据用于训练直播播放时长的预测模型。采用本公开提供的样本数据的处理方法、装置、服务器及存储介质，能够解决训练出来的直播播放时长预测模型的预测准确度不高的问题。

1.一种样本数据的处理方法，其特征在于，包括：

获取用于训练直播播放时长预测模型的初始样本数据，所述初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；

对各样本帐户的播放时长样本数据进行第一数据变换，得到与各所述播放时长样本数据对应的变换时长样本数据，其中，所述播放时长样本数据对应的时长区间长度大于所述变换时长样本数据对应的时长区间长度；

基于所述变换时长样本数据生成目标样本数据，所述目标样本数据用于表征各所述样本帐户对所述第一直播数据的正向反馈信息，所述目标样本数据用于训练直播播放时长的预测模型。

2.根据权利要求1所述的方法，其特征在于，所述变换时长样本数据随所述样本帐户变化的数据变化趋势，与所述播放时长样本数据随所述样本帐户变化的数据变化趋势相一致。

3.根据权利要求1或2所述的方法，其特征在于，所述第一数据变换为对数变换。

4.根据权利要求1所述的方法，其特征在于，在所述基于所述变换时长样本数据生成目标样本数据之后，所述方法还包括：根据所述目标样本数据训练直播播放时长预测模型。

5.根据权利要求4所述的方法，其特征在于，在所述根据所述目标样本数据训练直播播放时长预测模型之后，所述方法还包括：响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；

对多个所述第一播放时长数据分别进行所述第一数据变换，得到与每个所述第一播放时长数据对应的第一变换时长数据，所述第一变换时长数据用于表征所述第二帐户对所述第二直播数据的正向反馈信息；

将所述第一变换时长数据输入至所述直播播放时长预测模型，得到第二变换时长数据，所述第二变换时长数据用于预测所述第一帐户对所述第二直播数据的正向反馈信息；

对所述第二变换时长数据进行第二数据变换，得到第二播放时长数据，所述第二播放时长数据用于预测所述第一帐户观看所述第二直播数据的时长；所述第一数据变换与所述第二数据变换互为反函数变换。

6.根据权利要求5所述的方法，其特征在于，在所述获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据之前，所述方法还包括：根据所述第一帐户的帐户数据，从所述第一帐户登录的应用程序中的帐户中筛选出所述第二帐户，所述第一帐户的帐户数据与所述第二帐户的帐户数据的相似度大于预设阈值，所述帐户数据包括操作行为数据和用户数据。

7.一种样本数据的处理装置，其特征在于，包括：

获取模块，被配置为执行获取用于训练直播播放时长预测模型的初始样本数据，所述初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；

第一变换模块，被配置为执行对各样本帐户的播放时长样本数据进行第一数据变换，得到与各所述播放时长样本数据对应的变换时长样本数据，其中，所述播放时长样本数据对应的时长区间长度大于所述变换时长样本数据对应的时长区间长度；

生成模块，被配置为执行基于所述变换时长样本数据生成目标样本数据，所述目标样本数据用于表征各所述样本帐户对所述第一直播数据的正向反馈信息，所述目标样本数据用于训练直播播放时长的预测模型。

8.根据权利要求7所述的装置，其特征在于，所述变换时长样本数据随所述样本帐户变化的数据变化趋势，与所述播放时长数据随所述样本帐户变化的数据变化趋势相一致。

9.根据权利要求7或8所述的装置，其特征在于，所述第一数据变换为对数变换。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练模块，被配置为执行根据所述目标样本数据训练直播播放时长预测模型。

11.根据权利要求10所述的装置，其特征在于，所述获取模块，还被配置为执行响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；

所述第一变换模块，还被配置为执行对多个所述第一播放时长数据分别进行所述第一数据变换，得到与每个所述第一播放时长数据对应的第一变换时长数据，所述第一变换时长数据用于表征所述第二帐户对所述第二直播数据的正向反馈信息；

所述装置还包括：

预测模块，被配置为执行将所述第一变换时长数据输入至所述直播播放时长预测模型，得到第二变换时长数据，所述第二变换时长数据用于预测所述第一帐户对所述第二直播数据的正向反馈信息；

第二变换模块，被配置为执行对所述第二变换时长数据进行第二数据变换，得到第二播放时长数据，所述第二播放时长数据用于预测所述第一帐户观看所述第二直播数据的时长；所述第一数据变换与所述第二数据变换互为反函数变换。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：筛选模块，被配置为执行根据所述第一帐户的帐户数据，从所述第一帐户登录的应用程序中的帐户中筛选出所述第二帐户，所述第一帐户的帐户数据与所述第二帐户的帐户数据的相似度大于预设阈值，所述帐户数据包括操作行为数据和用户数据。

13.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的样本数据的处理方法。

14.一种存储介质，其特征在于，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至6中任一项所述的样本数据的处理方法。

样本数据的处理方法、装置、服务器及存储介质

技术领域

[0001] 本公开涉及通信技术领域，尤其涉及一种样本数据的处理方法、装置、服务器及存储介质。

背景技术

[0002] 随着互联网技术的不断发展，如何向用户推荐用户喜欢的直播受到了越来越多的关注。目前通常使用直播播放时长的预测模型来向用户推荐直播，由于播放时长样本数据可以分析用户是否喜欢某直播，所以可以使用其它帐户观看直播的播放时长样本数据来训练直播播放时长的预测模型。但是播放时长样本数据的数值范围很大，所以训练速度慢，而且训练出来的直播播放时长的预测模型的预测准确度不高。

发明内容

[0003] 本公开提供一种样本数据的处理方法、装置、服务器及存储介质，以至少解决相关技术中根据播放时长样本数据训练出来的直播播放时长的预测模型准确度不高的问题。

[0004] 本公开的技术方案如下：

[0005] 根据本公开实施例的第一方面，提供一种样本数据的处理方法，包括：

[0006] 获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；

[0007] 对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；

[0008] 基于变换时长样本数据生成目标样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0009] 可选的，变换时长样本数据随样本帐户变化的数据变化趋势，与播放时长样本数据随样本帐户变化的数据变化趋势相一致。

[0010] 可选的，第一数据变换为对数变换。

[0011] 可选的，在基于变换时长样本数据生成目标样本数据之后，方法还包括：

[0012] 根据目标样本数据训练直播播放时长预测模型。

[0013] 可选的，在根据目标样本数据训练直播播放时长预测模型之后，方法还包括：

[0014] 响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；

[0015] 对多个第一播放时长数据分别进行第一数据变换，得到与每个第一播放时长数据对应的第一变换时长数据，第一变换时长数据用于表征第二帐户对第二直播数据的正向反馈信息；

[0016] 将第一变换时长数据输入至直播播放时长预测模型，得到第二变换时长数据，第二变换时长数据用于预测第一帐户对第二直播数据的正向反馈信息；

[0017] 对第二变换时长数据进行第二数据变换，得到第二播放时长数据，第二播放时长数据用于预测第一帐户观看第二直播数据的时长；第一数据变换与第二数据变换互为反函数变换。

[0018] 可选的，在获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据之前，方法还包括：

[0019] 根据第一帐户的帐户数据，从第一帐户登录的应用程序中的帐户中筛选出第二帐户，第一帐户的帐户数据与第二帐户的帐户数据的相似度大于预设阈值，帐户数据包括操作行为数据和用户数据。

[0020] 根据本公开实施例的第二方面，提供一种样本数据的处理装置，包括：

[0021] 获取模块，被配置为执行获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；

[0022] 第一变换模块，被配置为执行对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；

[0023] 生成模块，被配置为执行基于变换时长样本数据生成目标样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0024] 可选的，变换时长数据随样本帐户变化的数据变化趋势，与播放时长数据随样本帐户变化的数据变化趋势相一致。

[0025] 可选的，第一数据变换为对数变换。

[0026] 可选的，样本数据的处理装置还包括：

[0027] 训练模块，被配置为执行根据目标样本数据训练直播播放时长预测模型。

[0028] 可选的，获取模块，还被配置为执行响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；

[0029] 第一变换模块，还被配置为执行对多个第一播放时长数据分别进行第一数据变换，得到与每个第一播放时长数据对应的第一变换时长数据，第一变换时长数据用于表征第二帐户对第二直播数据的正向反馈信息；

[0030] 样本数据的处理装置还包括：

[0031] 预测模块，被配置为执行将第一变换时长数据输入至直播播放时长预测模型，得到第二变换时长数据，第二变换时长数据用于预测第一帐户对第二直播数据的正向反馈信息；

[0032] 第二变换模块，被配置为执行对第二变换时长数据进行第二数据变换，得到第二播放时长数据，第二播放时长数据用于预测第一帐户观看第二直播数据的时长；第一数据变换与第二数据变换互为反函数变换。

[0033] 可选的，样本数据的处理装置还包括：

[0034] 筛选模块，被配置为执行根据第一帐户的帐户数据，从第一帐户登录的应用程序中的帐户中筛选出第二帐户，第一帐户的帐户数据与第二帐户的帐户数据的相似度大于预设阈值，帐户数据包括操作行为数据和用户数据。

[0035] 根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所述的样本数据的处理方法。

[0036] 根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面所述的样本数据的处理方法。

[0037] 根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行如第一方面所述的样本数据的处理方法。

[0038] 本公开的实施例提供的技术方案至少带来以下有益效果：

[0039] 在本公开实施例中，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0040] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

[0041] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

[0042] 图1是根据一示例性实施例示出的一种直播播放时长预测模型的应用场景图。

[0043] 图2是根据一示例性实施例示出的样本数据的处理方法、装置、服务器及存储介质应用环境示意图。

[0044] 图3是根据一示例性实施例示出的一种样本数据的处理方法的流程图。

[0045] 图4是根据一示例性实施例示出的一种播放时长样本数据分布示意图。

[0046] 图5是根据一示例性实施例示出的一种变换时长样本数据分布示意图。

[0047] 图6是根据一示例性实施例示出的一种样本数据的处理装置的框图。

[0048] 图7是根据一示例性实施例示出的一种服务器的框图。

[0049] 图8是根据一示例性实施例示出的用于数据处理的设备的框图。

具体实施方式

[0050] 为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

[0051] 需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

[0052] 下面，以图1为例说明相关技术中通过直播播放时长预测模型来向用户推荐视频的具体实现方式。

[0053] 图1是根据一示例性实施例示出的一种直播播放时长预测模型的应用场景图。

[0054] 如图1所示，通过响应于用户帐号登录应用程序的操作，或者响应于用户帐号对应用程序的刷新操作，客户端200自动向服务器100发送视频推荐请求，服务器100接收到并响应于该视频推荐请求，通过离线的直播播放时长预测模型预测一些候选视频的观看时长，并将观看时长大于预设时长的候选视频推荐给用户帐号。

[0055] 其中，直播播放时长预测模型是通过应用程序中的视频的历史观看时长训练得到的，其中，视频包括直播视频和短视频。以直播视频为例，一场直播从开播到结束短则几分钟，长则几个小时。由于不同帐户大于直播间内容的喜好程度不同，所以有些帐号的观看时长只有几秒钟，有些帐号的观看时长长达几个小时，不同帐号之间的观看时长差异非常大，呈现一个很长的长尾分布。而且在大多数的情况下，不同帐户进入直播间的时间不同，这也会导致不同帐号之间的观看时长差异非常大。

[0056] 由于不同帐号之间的观看时长差异非常大，用于训练上述直播播放时长预测模型的时长之间差别也很大，这些时长之间可能满足长尾分布。即训练样本之间差异过大，导致模型不好收敛，所以模型的训练速度慢。

[0057] 其中，长尾分布，通俗来讲就是指尾巴很长的分布。“头”和“尾”是两个统计学名词。正态曲线中间的突起部分叫“头”；两边相对平缓的部分叫“尾”。从需求的角度来看，大多数的需求会集中在头部，而分布在尾部的需求是个性化的，零散的小量的需求。而这部分差异化的、少量的需求会在需求曲线上面形成一条长长的“尾巴”。

[0058] 如果为了快速训练模型，而丢弃部分数据，这样训练出来的模型预测准测率就会大大下降。即将超过预设时长阈值的观看时长认为是异常值，异常值通常被丢弃，不被用于进行模型训练。由于观看时长是一个长尾分布，所以这个截断阈值一般都比较小(比如60秒)，因为98％的样本观看时长都不到60秒。但是这样就会忽略少部分观看时长特别长的样本，比如有些样本里的观看时长甚至达到了2000秒以上，把这些样本简单地截断到60秒会丢掉很多信息，导致直播播放时长预测模型的训练样本不足，进而导致推荐不出来可以让用户能长时间观看的优质视频。

[0059] 为了解决上述相关技术中存在的根据观看时长训练出来的直播播放时长预测模型的预测准确度不高的问题。

[0060] 本公开提供了一种样本数据的处理方法、装置、服务器及存储介质。该样本数据的处理方法、装置、服务器及存储介质，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0061] 如图2所示，是本公开说明书一个或多个实施例提供的样本数据的处理方法、装置、服务器及存储介质的应用环境示意图。如图2所示，服务器100通过网络300与一个或多个客户端200通信连接，以进行数据通信或交互。所述服务器100可以是网络服务器、数据库服务器等。所述客户端200可以是，但不限于个人电脑(personal computer，PC)、智能手机、平板电脑、个人数字助理(personal digital assistant，PDA)等。所述网络300可以是有线或无线网络。

[0062] 下面结合图2，对本申请实施例提供的样本数据的处理方法进行说明。具体过程如下所示：

[0063] 首先，服务器100可以预先训练直播播放时长预测模型。即获取多个样本帐户中的每个样本帐户观看第一直播数据的播放时长样本数据；然后对多个所述播放时长样本数据分别进行第一数据变换，得到与每个所述播放时长样本数据对应的变换时长样本数据；然后根据变换时长样本数据训练预设模型，直至满足训练停止条件，得到直播播放时长预测模型。

[0064] 接着，第一帐户登录客户端200，在客户端200检测到用户的登录操作或者刷新操作的情况下，向服务器100发送推荐请求。

[0065] 然后，服务器100接收并响应于登录应用程序的第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；对多个第一播放时长数据分别进行第一数据变换，得到与每个第一播放时长数据对应的第一变换时长数据；将第一变换时长数据输入直播播放时长预测模型，得到第二变换时长数据；对第二变换时长数据进行与第一数据变互为反函数变换的第二数据变换，得到第二播放时长数据，以预测第一帐户观看第二直播数据的时长。

[0066] 最后，服务器100根据第二播放时长数据对多个第二直播数据进行排序，得到视频推荐序列；按照视频推荐序列向第一帐户的客户端200推荐视频。

[0067] 由此，通过获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0068] 下面将对本公开实施例提供的样本数据的处理方法进行详细说明。

[0069] 本公开实施例提供的样本数据的处理方法可以应用于服务器100，为了便于描述，除特别说明外，本公开实施例均以服务器100为执行主体进行说明。可以理解的是，所述的执行主体并不构成对本公开的限定。

[0070] 下面，首先对本公开提供的样本数据的处理方法进行说明。

[0071] 图3是根据一示例性实施例示出的一种样本数据的处理方法的流程图。

[0072] 如图3所示，该样本数据的处理方法可以包括以下步骤：

[0073] S310，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据播放时长数据。

[0074] S320，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度播放时长数据播放时长数据变换时长数据变换时长数据变换时长数据变换时长数据。

[0075] S330，基于变换时长样本数据生成目标样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0076] 上述各步骤的具体实现方式将在下文中进行详细描述。

[0077] 在本公开实施例中，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0078] 下面介绍上述各个步骤的具体实现方式。

[0079] 首先涉及S310。

[0080] 播放时长数据获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据。

[0081] 直播，常指网络互动直播。主播使用电脑或者手机同步直播自己在做的事情，观众可以通过网站或者APP观看，直播视频的是将通常范围比较大，基于上述训练好的直播播放时长预测模型能够较为准确的预测用户帐号对直播视频的观看时长。

[0082] 然后涉及S320。

[0083] 其中，上述涉及到的变换时长样本数据随样本帐户变化的数据变化趋势，与播放时长样本数据随样本帐户变化的数据变化趋势相一致。

[0084] 如图4所示，是第一帐户观看第一直播数据的时长(即播放时长样本数据)的直方图，可以很明显地看出大部分用户的观看时长都在60秒以内，并且在10秒那个区间是最密集的，同时也有很少一部分用户会观看超过200秒，甚至还有1000秒的。

[0085] 对多个播放时长样本数据进行对数变换，得到的与每个播放时长样本数据对应的变换时长样本数据如图5所示。由图5可以看出，做了对数变换之后得到的变换时长样本数据的分布更为均匀和平缓，满足正态分布，有利于模型的学习。因为它将观看时长特别长的那些样本给压缩了，但同时又保留了原始的序关系，使得直播播放时长预测模型可以学习这种差距。

[0086] 变换后得到的变换时长样本数据的序关系保留了变换前的播放时长样本数据的序关系，也就是说，变换时长样本数据随样本帐户变化的数据变化趋势，与播放时长样本数据随样本帐户变化的数据变化趋势相一致。

[0087] 其中，上述涉及到的第一数据变换为对数变换。

[0088] 其中，对数变换是指，如果a的x次方等于N(a>0，且a≠1)，那么数x叫做以a为底N的对数(logarithm)，记作x＝loga N。其中，a叫做对数的底数，N叫做真数。

[0089] 除了上述涉及到的对数变换，还可以采用平方根函数作为第一数据变换。具体可以根据播放时长数据的范围大小来确定合适的第一数据变换。

[0090] 播放时长数据播放时长数据播放时长数据变换时长数据第一变换时长数据由于对直播观看时长进行对数变换，能够增加训练样本量，模型对于那些观看时长较长的行为捕捉能力更强，并且对于不同样本之间观看时长的差异性变得更敏感，这样不仅模型的整体排序能力更强，同时也能兼顾长播放的样本，从而提升了直播播放时长预测模型的预测准确率。

[0091] 然后涉及S330。

[0092] 基于变换时长样本数据生成目标样本数据，其中，目标样本数据可以包括样本帐户和变换时长样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0093] 在本公开一些实施例中，在上述涉及到的得到与每个播放时长数据对应的变换时长数据的步骤之后，还可以包括以下步骤：

[0094] 根据目标样本数据训练直播播放时长预测模型。

[0095] 具体地，可以根据目标样本数据训练预设模型，直至满足训练停止条件，得到直播播放时长预测模型。其中，训练停止条件可以为直播播放时长预测模型的梯度满足预设条件。

[0096] 在本公开一些实施例中，在上述涉及到的根据目标样本数据训练直播播放时长预测模型的步骤之后，还可以包括以下步骤：

[0097] 响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据；

[0098] 对多个第一播放时长数据分别进行第一数据变换，得到与每个第一播放时长数据对应的第一变换时长数据，第一变换时长数据用于表征第二帐户对第二直播数据的正向反馈信息；

[0099] 将第一变换时长数据输入至直播播放时长预测模型，得到第二变换时长数据，第二变换时长数据用于预测第一帐户对第二直播数据的正向反馈信息；

[0100] 对第二变换时长数据进行第二数据变换，得到第二播放时长数据，第二播放时长数据用于预测第一帐户观看第二直播数据的时长；第一数据变换与第二数据变换互为反函数变换。

[0101] 首先，假设第一播放时长数据是y，那么对多个第一播放时长数据进行第一数据变换(如对数变换)，得到与每个第一播放时长数据对应的第一变换时长数据，第一变换时长数据为log(y)，第一变换时长数据可以用于表征第二帐户对第二直播数据的正向反馈信息。其中底数可以根据实际应用中第一播放时长数据的数量级进行灵活调整。

[0102] 其次，将第一变换时长数据输入到上述训练好的直播播放时长预测模型中，得到第二变换时长数据，第二变换时长数据用于预测第一帐户对第二直播数据的正向反馈信息。

[0103] 最后，对第二变换时长数据进行与第一数据变换互为反函数的第二数据变换(如指数变换)，得到第二播放时长数据，第二播放时长数据用于预测第一帐户观看第二直播数据的时长。假设第二变换时长数据为t，那么用于预测第一帐户观看第二直播数据的第二播放时长数据为exp(t)。

[0104] 其中，设函数y＝f(x)(x∈A)的值域是C，若找得到一个函数g(y)在每一处g(y)都‑1等于x，这样的函数x＝g(y)(y∈C)叫做函数y＝f(x)(x∈A)的反函数，记作x＝f (y)。反函‑1
数x＝f (y)的定义域、值域分别是函数y＝f(x)的值域、定义域。比如，对数函数与指数函数就是反函数。

[0105] 在本公开一些实施例中，第二直播数据为多个，在上述涉及到的对第二变换时长数据进行第二数据变换，得到第二播放时长数据的步骤之后，还可以包括以下步骤：

[0106] 根据第二播放时长数据对多个第二直播数据进行排序，得到视频推荐序列；按照视频推荐序列向第一帐户推荐视频。

[0107] 第二直播数据为多个，即有多个候选的第二直播数据可以向第一帐户推荐，根据上述直播播放时长预测模型，可以得到与每个第二直播数据分别对应的第二播放时长数据，根据第二播放时长数据对多个第二直播数据进行比如从大到小的排序，得到视频推荐序列，然后按照视频推荐序列向第一帐户推荐视频。

[0108] 示例性地，第二直播数据包括A、B、C、D。其中，A对应的第二播放时长数据为20秒，B对应的第二播放时长数据为100秒，C对应的第二播放时长数据为80秒，D对应的第二播放时长数据为2000秒，所以视频推荐序列可以为：D、B、C、A。这样，可以将用户可能观看时长较长的优先推荐给用户，使得用户可以看到自己喜欢的视频，提升用户体验。

[0109] 在本公开一些实施例中，在上述涉及到的获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据的步骤之前，还可以包括以下步骤：

[0110] 根据第一帐户的帐户数据，从第一帐户登录的应用程序中的帐户中筛选出第二帐户，第一帐户的帐户数据与第二帐户的帐户数据的相似度大于预设阈值，帐户数据包括操作行为数据和用户数据。

[0111] 其中，上述涉及到的帐户数据可以包括下述信息中的至少一种：帐户画像信息，地理位置以及用户身份信息。

[0112] 其中，帐户画像信息可以包括帐户的年龄、性别等。地理位置可以包括用户注册第一帐户时实际的地理位置，或者当前登陆该应用程序的地理位置。操作行为数据可以根据帐户曾经观看过的视频以及曾经观看过视频的发布者确定。

[0113] 由于第一帐户的帐户数据与第二帐户的帐户数据的相似度大于预设阈值，这样根据第二帐户观看第二直播数据的第一播放时长数据预测出来的，第三帐户观看第二直播数据的第二播放时长数据，对第一帐户进行视频推荐的参考性更大。由此，方便对具有相同帐户属性的帐户进行视频推荐，提升用户体验。

[0114] 综上，本公开实施例，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0115] 基于上述样本数据的处理方法，本公开还提供了一种样本数据的处理装置。具体结合图6进行说明。

[0116] 图6是根据一示例性实施例示出的一种样本数据的处理装置的框图。参照图6，该样本数据的处理装置600可以包括获取模块610、显示模块620和生成模块630。

[0117] 获取模块610，被配置为执行获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据。

[0118] 第一变换模块620，被配置为执行对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度。

[0119] 生成模块630，被配置为执行基于变换时长样本数据生成目标样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0120] 在本公开一些实施例中，变换时长样本数据随样本帐户变化的数据变化趋势，与播放时长样本数据随样本帐户变化的数据变化趋势相一致。

[0121] 在本公开一些实施例中，第一数据变换为对数变换。

[0122] 在本公开一些实施例中，该样本数据的处理装置600还可以包括：

[0123] 训练模块，被配置为执行根据目标样本数据训练直播播放时长预测模型。

[0124] 在本公开一些实施例中，获取模块610，还被配置为执行响应于第一帐户发送的推荐请求，获取多个第二帐户中的每个第二帐户观看第二直播数据的第一播放时长数据。

[0125] 第一变换模块620，还被配置为执行对多个第一播放时长数据分别进行第一数据变换，得到与每个第一播放时长数据对应的第一变换时长数据，第一变换时长数据用于表征第二帐户对第二直播数据的正向反馈信息。

[0126] 该样本数据的处理装置600还可以包括：

[0127] 预测模块，被配置为执行将第一变换时长数据输入至直播播放时长预测模型，得到第二变换时长数据，第二变换时长数据用于预测第一帐户对第二直播数据的正向反馈信息。

[0128] 第二变换模块，被配置为执行对第二变换时长数据进行第二数据变换，得到第二播放时长数据，第二播放时长数据用于预测第一帐户观看第二直播数据的时长；第一数据变换与第二数据变换互为反函数变换。

[0129] 在本公开一些实施例中，该样本数据的处理装置600还可以包括：

[0130] 筛选模块，被配置为执行根据第一帐户的帐户数据，从第一帐户登录的应用程序中的帐户中筛选出第二帐户，第一帐户的帐户数据与第二帐户的帐户数据的相似度大于预设阈值，帐户数据包括操作行为数据和用户数据。

[0131] 综上，本公开实施例，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0132] 关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

[0133] 图7是根据一示例性实施例示出的一种服务器的框图。参照图7，本公开实施例还提供了一种服务器，包括处理器710、通信接口720、存储器730和通信总线740，其中，处理器710、通信接口720和存储器730通过通信总线740完成相互间的通信。

[0134] 该存储器730，用于存放处理器710可执行的指令。

[0135] 该处理器710，用于执行存储器730上所存放的指令时，实现如下步骤：

[0136] 获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；基于变换时长样本数据生成目标样本数据，目标样本数据用于表征各平台帐户对第一直播数据的正向反馈信息，目标样本数据用于训练直播播放时长的预测模型。

[0137] 可见，应用本公开实施例，首先，获取用于训练直播播放时长预测模型的初始样本数据，初始样本数据包括第一直播数据在多个样本帐户上的播放时长样本数据；然后，对各样本帐户的播放时长样本数据进行第一数据变换，得到与各播放时长样本数据对应的变换时长样本数据，其中，播放时长样本数据对应的时长区间长度大于变换时长样本数据对应的时长区间长度；最后，基于变换时长样本数据生成用于表征各平台帐户对第一直播数据的正向反馈信息的目标样本数据，目标样本数据用于训练直播播放时长的预测模型。由于对于同一直播数据，用户的观看第一直播数据的播放时长数据之间的差异非常大，经过上述第一数据变换，就能够得到满足区间长度更小的变换时长数据，这样的变换时长数据便于模型收敛，所以利用变换时长数据能够快速训练好直播播放时长预测模型；而且模型训练的过程中由于兼顾了播放时长样本数据较大的样本，使得训练样本更为全面，所以训练好的直播播放时长预测模型的预测准确度高。

[0138] 图8是根据一示例性实施例示出的用于数据处理的设备的框图。例如，该设备800可以被提供为一服务器。参照图8，服务器800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述任一实施例所述的样本数据的处理方法。

[0139] 该设备800还可以包括一个电源组件826被配置为执行设备800的电源管理，一个有线或无线网络接口850被配置为将设备800连接到网络，和一个输入输出(I/O)接口858。设备800可以操作基于存储在存储器832的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

[0140] 在本公开一些实施例中，还提供了一种存储介质，当该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行上述任一实施例所述的样本数据的处理方法。

[0141] 可选地，该存储介质可以是非临时性计算机可读存储介质，示例性的，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。

[0142] 在本公开一些实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述任一实施例所述的样本数据的处理方法。

[0143] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

[0144] 应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

样本数据的处理方法、装置、服务器及存储介质转让专利

申请号 : CN202110595347.5

文献号 : CN113411644B

文献日 : 2022-10-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 易明智

申请人 : 北京达佳互联信息技术有限公司

摘要 :

权利要求 :

说明书 :