信息处理方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202210659240.7

文献号 : CN115103213B

文献日 : 2023-10-17

本发明公开了一种信息处理方法、装置、设备及计算机可读存储介质，其中，方法包括：获取第一目标视频对应的当前播放的第一音视频信息；确定第一音视频信息对应的第一场景类型，并获取第一场景类型对应的第一场景应用模型；将第一音视频信息输入第一场景应用模型，将第一场景应用模型的输出作为第一音视频信息对应的第一文字标签；将第一文字标签以及第一音视频信息对应的第一时间戳发送至用户终端，其中，用户终端显示第一文字标签以及第一时间戳。本发明在用户终端显示文字标签以及对应的时间戳，使得用户在查找直播内容的视频片段时，可以根据时间戳以及文字标签准确定位需要查找的视频内容，降低了视频内容内容的耗时，提高了视频的查找效率。

1.一种信息处理方法，其特征在于，应用于服务器，所述信息处理方法包括以下步骤：获取第一目标视频对应的当前播放的第一音视频信息，所述第一音视频信息包括所述第一目标视频对应的弹幕信息；

确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

将所述第一文字标签以及所述第一音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳；

其中，所述将所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳的步骤包括：若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距；

将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距分行显示所述第一文字标签以及所述第一时间戳。

2.如权利要求1所述的信息处理方法，其特征在于，所述若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距的步骤包括：若所述第一时间戳和所述第二时间戳的差值大于设定阈值，则确定所述显示间距为分段间距，其中，所述显示间距包括分段间距以及标准间距，所述分段间距大于所述标准间距。

3.一种信息处理方法，其特征在于，应用于用户终端，所述信息处理方法包括以下步骤：接收第二目标视频对应的第三文字标签、所述第三文字标签对应的第三时间戳以及显示间距，其中，所述第三文字标签由服务器基于第三文字标签对应的第二音视频信息通过对应的第二场景应用模型生成，所述第二场景应用模型由所述服务器基于所述第二音视频信息对应的场景类型获取，所述第二音视频信息由所述服务器基于当前播放的第二目标视频获取，所述显示间距由所述服务器在当前时刻之前存在所述第二目标视频对应的第四文字标签时基于第三时间戳以及第四文字标签对应的第四时间戳确定，所述第二音视频信息包括所述第二目标视频对应的弹幕信息；

基于所述显示间距分行显示所述第三文字标签以及所述第三时间戳。

4.如权利要求3所述的信息处理方法，其特征在于，所述显示所述第三文字标签以及所述第三时间戳的步骤包括：获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数；

若所述第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签以及所述第三时间戳。

5.如权利要求3所述的信息处理方法，其特征在于，所述信息处理方法还包括：在检测到所述用户终端当前显示的文字标签对应的操作指令时，获取所述操作指令对应的文字标签的第三场景类型；

确定所述第三场景类型对应的操作指令的第二触发次数；

若所述第二触发次数达到预设次数，则基于预设显示参数调整当前显示的文字标签。

6.如权利要求3‑5任一项所述的信息处理方法，其特征在于，所述信息处理方法还包括：在检测到所述用户终端当前显示的文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签；

基于所述第四文字标签对应的时间戳，确定回放开始时刻；

基于所述回放开始时刻，执行直播内容的回放操作。

7.一种信息处理装置，其特征在于，所述信息处理装置包括：

获取模块，用于获取第一目标视频对应的当前播放的第一音视频信息，所述第一音视频信息包括所述第一目标视频对应的弹幕信息；

确定模块，用于通过预设算法确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

训练模块，用于将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

发送模块，用于将所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳；

所述发送模块，还用于若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距；将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距分行显示所述第一文字标签以及所述第一时间戳。

8.一种信息处理设备，其特征在于，所述信息处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现如权利要求1至2或3‑6中任一项所述的信息处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如权利要求1至2或3‑6任一项所述的信息处理方法的步骤。

信息处理方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本发明涉及信息处理技术领域，尤其涉及一种信息处理方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 当前用户选择回放的直播内容主要通过时间检索方式或者根据视频内容的相关性来逐步趋近方式来播放需要的特定内容。

[0003] 当用户需要定位想要观看的直播内容时，用户需要了解当前直播内容的相关信息才能快速定位，否则内容检索就只能通过视频内容的观看，经过“选择某一播放时间”或者“观察内容是否符合”或者“往前或往后再重新选择某一播放时间”又或者“再次观察内容是否符合”，用户获取想要观看回放的直播内容时，需要进行繁琐操作，导致用户在查找直播内容的视频片段时，耗时较长。

发明内容

[0004] 本发明的主要目的在于提供一种信息处理方法、装置、设备及计算机可读存储介质，旨在解决用户在查找直播内容的视频片段时，耗时较长的问题。

[0005] 为实现上述目的，本发明提供一种信息处理方法，应用于服务器，所述信息处理方法包括以下步骤：

[0006] 获取第一目标视频对应的当前播放的第一音视频信息；

[0007] 确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

[0008] 将所述第一音视频信息输入所述第一场景应用模型进行模型训练，获得所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

[0009] 将所述第一文字标签以及所述第一音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳。

[0010] 进一步地，所述将所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳的步骤包括：

[0011] 若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距；

[0012] 将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距显示所述第一文字标签以及所述第一时间戳。

[0013] 进一步地，所述若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距的步骤包括：

[0014] 若所述第一时间戳和所述第二时间戳的差值大于设定阈值，则确定所述显示间距为分段间距，其中，所述显示间距包括分段间距以及标准间距，所述分段间距大于所述标准间距。

[0015] 进一步地，所述信息处理方法包括以下步骤：

[0016] 接收第二目标视频对应的第三文字标签以及第三时间戳，其中，所述第三文字标签由服务器基于第三文字标签对应的第二音视频信息通过对应的第二场景应用模型生成，所述第二场景应用模型由所述服务器基于所述第二音视频信息对应的场景类型获取，所述第二音视频信息由所述服务器基于当前播放的第二目标视频获取；

[0017] 显示所述第三文字标签以及所述第三时间戳。

[0018] 进一步地，所述显示所述第三文字标签以及所述第三时间戳的步骤包括：

[0019] 获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数；

[0020] 若所述第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签以及所述第三时间戳。

[0021] 进一步地，所述信息处理方法还包括：

[0022] 在检测到所述用户终端当前显示的文字标签对应的操作指令时，获取所述操作指令对应的文字标签的三场景类型；

[0023] 确定所述第三场景类型对应的操作指令的第二触发次数；

[0024] 若所述第二触发次数达到预设次数，则基于预设显示参数调整当前显示的文字标签。

[0025] 进一步地，所述信息处理方法还包括：

[0026] 在检测到所述用户终端当前显示的文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签；

[0027] 基于所述第四文字标签对应的时间戳，确定回放开始时刻；

[0028] 基于所述回放开始时刻，执行所述直播内容的回放操作。

[0029] 此外，为实现上述目的，本发明还提供一种信息处理装置，所述信息处理装置包括：

[0030] 获取模块，用于获取第一目标视频对应的当前播放的第一音视频信息；

[0031] 确定模块，用于通过预设算法确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

[0032] 训练模块，用于将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

[0033] 发送模块，用于将所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳。

[0034] 此外，为实现上述目的，本发明还提供一种信息处理设备，所述信息处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现前述的信息处理方法的步骤。

[0035] 此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现实现前述的信息处理方法的步骤。

[0036] 本发明通过获取第一目标视频对应的当前播放的第一音视频信息；接着确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；而后将所述第一音视频信息输入所述第一场景应用模型进行模型训练，获得所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；然后将所述第一文字标签以及所述第一音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳，能根据第一音视频信息生成对应的文字标签，并在用户终端显示文字标签以及对应的时间戳，使得用户在查找直播内容的视频片段时，可以根据时间戳以及文字标签准确定位需要查找的视频内容，降低了视频内容内容的耗时，提高了视频的查找效率，进而提升了用户体验。

附图说明

[0037] 图1是本发明实施例方案涉及的硬件运行环境中信息处理设备的结构示意图；

[0038] 图2为本发明信息处理方法第一实施例的流程示意图；

[0039] 图3为本发明信息处理方法第三实施例的流程示意图；

[0040] 图4为本发明信息处理装置一实施例的功能模块示意图。

[0041] 本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

[0042] 应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0043] 图1是本发明实施例方案涉及的硬件运行环境中信息处理设备的结构示意图；本发明实施例信息处理设备可以是PC，也可以是智能手机等终端设备。

[0044] 如图1所示，该信息处理设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI‑FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non‑volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

[0045] 可选地，信息处理设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。当然，信息处理设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

[0046] 本领域技术人员可以理解，图1中示出的终端结构并不构成对信息处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

[0047] 如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及信息处理程序。

[0048] 在图1所示的信息处理设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的信息处理程序。

[0049] 在本实施例中，信息处理设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的信息处理程序，其中，处理器1001调用存储器1005中存储的信息处理程序时，并执行以下各个实施例中信息处理方法的步骤。

[0050] 本发明还提供一种信息处理方法，应用于直播内容的服务器，参照图2，图2为本发明信息处理方法第一实施例的流程示意图。

[0051] 在本实施例中，该信息处理方法应用于服务器，包括以下步骤：

[0052] 步骤S101，获取第一目标视频对应的当前播放的第一音视频信息；

[0053] 本实施例中，服务器获取第一目标视频对应的第一音视频信息，其中，第一音视频信息可以是第一目标视频的图像帧，可以是第一目标视频对应的语音信息，也可以是第一目标视频对应当前时刻观众发送的弹幕信息。第一目标视频可以为直播视频。

[0054] 其中，服务器用以将第一目标视频实时发送至各个用户终端，用户终端播放该第一目标视频，即第一音视频信息可以为用户终端当前播放的第一目标视频在预设时长内的视频片段，在用户终端接收到弹幕信息时，将该弹幕信息发送至服务器，服务器将该弹幕信息发送至各个用户终端，各个用户终端在第一目标视频的播放界面中滚动播放该弹幕信息，该第一音视频信息还包括该当前时刻或者预设时长内的弹幕信息。

[0055] 步骤S102，确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

[0056] 本实施例中，服务器根据第一音视频信息，通过预设算法确定与第一音视频信息相匹配预设的第一场景类型，该预设算法可以为AI算法，采用第一音视频信息的图像帧或者语音通过AI算法可以准确识别第一音视频信息的场景类型，其中，第一场景类型可以包括培训场景、综艺场景、武打场景、古装场景等。具体地，服务器识别第一视频信息的图像帧，若第一音视频信息的图像帧中包括精彩格斗相关的图像帧，则服务器确定该第一场景类型为武打场景；或者，服务器识别第一音视频信息中的语音信息，若该语音信息包括格斗、武术等相关的语音，则服务器确定第一场景类型为武打场景。

[0057] 接着，服务器获取第一场景类型对应的第一场景应用模型，具体地，预先设置各个场景类型与对应的场景应用模型之间的映射关系，在获取到第一场景类型，服务器通过该第一场景类型查询映射关系，确定该第一场景应用模型。

[0058] 需要说明的是，在各个场景类型对应的场景应用模型为预先训练好的模型，通过该场景应用模型可以准确对音视频信息进行模型训练，得到场景类型对应的文字标签。

[0059] 步骤S103，将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

[0060] 本实施例中，服务器在获取到第一场景应用模型时，将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，具体地，第一音视频信息包括第一目标视频的图像帧、语音信息以及弹幕信息，第一场景应用模型对第一音视频信息进行识别，得到第一文字标签对应的文字信息，该文字信息包括当前直播信息中图像帧对应的文字信息、当前直播信息中语音信息对应的文字信息及/或当前直播信息中弹幕信息对应的文字信息，也就是说，文字信息包括图像帧对应的文字信息、语音信息对应的文字信息以及弹幕信息对应的文字信息中的一个或多个，接着第一场景应用模型根据文字信息生成第一文字标签，例如，第一场景应用模型基于文字信息中的关键词生成第一文字标签，以使第一文字标签包括文字信息的人物名称、事件名称等关键词。

[0061] 步骤S104，将所述第一文字标签以及所述第一音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳。

[0062] 本实施例中，服务器关联第一文字标签和第一音视频信息对应的第一时间戳，并将第一文字标签和第一时间戳发送至各个用户终端，该用户终端为当前播放该第一目标视频的所有用户终端，其中，用户终端显示所述第一文字标签以及第一时间戳。具体地，用户终端的第一目标视频的播放界面设有第一文字标签的展示界面，用户终端在该展示界面展示第一文字标签以及第一时间戳，展示界面包括功能按钮，用户只需要点击该功能按钮，触发功能，用户终端就可从服务器中得到第一文字标签，并展示第一文字标签，或者，用户终端在接收到第一文字标签以及第一时间戳时，直接展示该第一文字标签以及第一时间戳。

[0063] 本实施例通过获取第一场景类型所对应的第一场景应用模型，并通过第一场景应用模型得到第一文字标签，以建立文字标签与场景类型之间的关联关系，与通过文字识别、语音识别等方式生成文字标签相比，通过场景应用模型能够直接得到音视频信息对应的文字标签，提高了获取文字标签的便捷性以及效率，同时通过建立文字标签与场景类型之间的关联关系，使得用户终端的用户可以根据场景类型快速查询同类型的文字标签，以提高用户体验。

[0064] 本实施例通过获取第一目标视频对应的当前播放的第一音视频信息；接着确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；而后将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；然后将所述第一文字标签以及所述第一音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳，能根据第一音视频信息生成对应的文字标签，并在用户终端显示文字标签以及对应的时间戳，使得用户在查找直播内容的视频片段时，可以根据时间戳以及文字标签准确定位需要查找的视频内容，降低了视频内容内容的耗时，提高了视频的查找效率，进而提升了用户体验。

[0065] 基于第一实施例，提出本发明信息处理方法的第二实施例，在本实施例中，步骤S104包括：

[0066] 步骤S201，若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定所述第一文字标签与所述第二文字标签之间的显示间距；

[0067] 步骤S202，将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距显示所述第一文字标签以及所述第一时间戳。

[0068] 本实施例中，在获取到第一文字标签以及第一时间戳时，服务器判断当前时刻之前是否存在第二文字标签，该第二文字标签为该第一目标视频当前播放过程中服务器生成的文字标签，若第一目标视频当前播放过程中已生成多个文字标签，则第二文字标签为当前播放过程中已生成文字标签中最后生成的文字标签，即第二文字标签为当前播放过程中已生成文字标签中与当前时刻之间的时间差最小的文字标签，若当前时刻之前存在第二文字标签，则基于所述第一时间戳以及第二文字标签对应的第二时间戳，确定显示间距，其中，显示间距包括分段间距以及标准间距，分段间距为服务器中预设的间距，该分段间距大于标准间距，该显示间距为用户终端的展示见面中后续生成的第一文字标签与第二文字标签之间的间距。

[0069] 服务器在得到显示间距时，将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，各个用户终端接收服务器发送的显示间距、所述第一文字标签以及第一时间戳，并基于该显示间距显示第一文字标签以及第一时间戳，即第一文字标签与前一个文字标签的间距为该显示间距，第一文字标签的内容是第一文字标签对应的第一文字信息，具体地，在显示第一文字标签以及第一时间戳时，可以按行显示，例如第一时间戳位于前面、第一文字标签位于后面，也可以分行显示，例如先显示第一时间戳、第一文字标签位于第一时间戳的下面一行，其中，服务器以第一文字标签对应的时间戳的时间顺序发送第一文字标签，具体地，当存在有两个第一文字标签，时间戳分别是2小时10分36秒、2小时10分37秒，则优先发送时间戳2小时10分36秒对应的第一文字标签，而后再发送时间戳2小时10分37秒对应的第一文字标签。

[0070] 进一步地，一实施例中，步骤202包括，若所述第一时间戳和所述第二时间戳的差值大于设定阈值，则确定所述显示间距为分段间距，其中，所述显示间距包括分段间距以及标准间距，所述分段间距大于所述标准间距。

[0071] 本实施例中，服务器检测当前时刻之前是否存在第二文字标签，若当前时刻之前存在第二文字标签，进而计算第一时间戳和第二文字标签对应的第二时间戳的差值，该差值为第一时间戳‑第二时间戳，若所述差值大于设定阈值，则确定显示间距为分段间距，其中，分段间距大于标准间距，分段间距可以设置为标准间距的倍数，例如分段间距为标准间距的1.5倍、2倍等，设定阈值可以设置为1秒等。具体地，在确定第一文字标签后，第一文字标签的时间戳为2小时10分38秒，第二文字标签的时间戳为2小时10分36秒，第一文字标签的时间戳与第二文字标签的时间戳的差值为2秒，大于设定阈值1秒，则基于分段间距显示显示该第一文字标签，即第一文字标签与第二文字标签之间的间距为该分段间距，进而能够根据文字标签之前的时间间隔准确确定分段间距，通过文字标签之间的显示间距体现文字标签之间的时间间隔，便于用户查找直播内容的视频片段，提升了用户体验。

[0072] 需要说明的是，若当前时刻之前不存在第二文字标签或者差值小于或等于该设定阈值，则该显示间距为标准间距。

[0073] 本实施例中通过若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距；接着将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距显示所述第一文字标签以及所述第一时间戳，能根据第一文字标签和第二文字标签，确定显示间距，使通过用户终端基基于显示间距显示第一文字标签，通过文字标签之间的显示间距体现文字标签之间的时间间隔，便于用户查找直播内容的视频片段，提升了用户体验。

[0074] 本发明还提供一种信息处理方法，应用于用户终端，参照图3，在本发明信息信息处理方法的第三实施例，该信息处理方法包括：

[0075] S301，接收第二目标视频对应的第三文字标签以及第三时间戳，其中，所述第三文字标签由服务器基于第三文字标签对应的第二音视频信息通过对应的第二场景应用模型生成，所述第二场景应用模型由所述服务器基于所述第二音视频信息对应的场景类型获取，所述第二音视频信息由所述服务器基于当前播放的第二目标视频获取；

[0076] S302，显示所述第三文字标签以及所述第三时间戳。

[0077] 本实施例中，服务器获取第二目标视频对应的第二音视频信息，其中，第二音视频信息可以是第二目标视频的图像帧，可以是第二目标视频对应的语音信息，也可以是第二目标视频对应当前时刻观众发送的弹幕信息。第二目标视频可以为直播视频。其中，服务器用以将第二目标视频实时发送至各个用户终端，用户终端播放该第二目标视频，即第二音视频信息可以为用户终端当前播放的第二目标视频在预设时长内的视频片段，在用户终端接收到弹幕信息时，将该弹幕信息发送至服务器，服务器将该弹幕信息发送至各个用户终端，各个用户终端在第二目标视频的播放界面中滚动播放该弹幕信息，该第二音视频信息还包括该当前时刻或者预设时长内的弹幕信息。

[0078] 服务器根据第二音视频信息，通过预设算法确定与第二音视频信息相匹配预设的第二场景类型，其中，第二场景类型可以包括培训场景、综艺场景、武打场景、古装场景等。接着，服务器获取第二场景类型对应的第二场景应用模型，具体地，预先设置各个场景类型与对应的场景应用模型之间的映射关系，在获取到第二场景类型，服务器通过该第二场景类型查询映射关系，确定该第二场景应用模型。将所述第二音视频信息输入所述第二场景应用模型，将所述第二场景应用模型的输出作为所述视频信息对应的第三文字标签，具体地，第二音视频信息包括第二目标视频的图像帧、语音信息以及弹幕信息，第二场景应用模型对第二音视频信息进行识别，得到第三文字标签对应的文字信息，该文字信息包括当前直播信息中图像帧对应的文字信息、当前直播信息中语音信息对应的文字信息及/或当前直播信息中弹幕信息对应的文字信息，也就是说，文字信息包括图像帧对应的文字信息、语音信息对应的文字信息以及弹幕信息对应的文字信息中的一个或多个，接着第二场景应用模型根据文字信息生成第三文字标签，例如，第二场景应用模型基于文字信息中的关键词生成第三文字标签，以使第三文字标签包括文字信息的人物名称、事件名称等关键词最后，将所述第三文字标签以及所述第二音视频信息对应的第三时间戳发送至用户终端。

[0079] 各个用户终端接收所述第二目标视频对应的第三文字标签以及第三时间戳，即当前播放该第二目标视频的用户终端均可接收到第二目标视频对应的第三文字标签以及第三时间戳，并显示所述第三文字标签以及所述第三时间戳。

[0080] 需要说明的是，服务器生成第三文字标签时，服务器判断当前时刻(第三文字标签对应的第二视频信息的获取时刻)之前是否存在第四文字标签，该第四文字标签为该第二目标视频当前播放过程中服务器生成的文字标签，若第二目标视频当前播放过程中已生成多个文字标签，则第四文字标签为当前播放过程中已生成文字标签中最后生成的文字标签，即第四文字标签为当前播放过程中已生成文字标签中与当前时刻之间的时间差最小的文字标签。若存在第四文字标签，则基于第三时间戳以及第四文字标签对应的第四时间戳，确定第三文字标签与第四文字标签之间的显示间距，具体地，服务器计算第三时间戳和第四时间戳的时间戳差值，该时间戳差值为第三时间戳‑第四时间戳，若时间戳差值大于设定阈值，则确定显示间距为分段间距，服务器将该分段间距、第三文字标签以及所述第二音视频信息对应的第三时间戳发送至用户终端，用户终端基于该分段间距在展示界面展示第三文字标签以及第三时间戳，即第三文字标签与第四文字标签之间的间距为该分段间距，若时间戳差值小于或等于设定阈值，服务器将第三文字标签以及所述第二音视频信息对应的第三时间戳发送至用户终端，用户终端采用标准间距在展示界面展示第三文字标签以及第三时间戳，进而能够根据文字标签之前的时间间隔准确确定分段间距，通过文字标签之间的显示间距体现文字标签之间的时间间隔，便于用户查找直播内容的视频片段，提升了用户体验。

[0081] 用户终端具备直播内容对应的第三文字标签的展示界面，通过该展示界面展示该第三文字标签，具体地，展示该第三文字标签的第二文字信息以及第三时间戳。其中，展示界面可包括功能按钮，用户可通过点击该功能按钮触发功能，通过该文字标签对直播内容进行相应的操作。

[0082] 本实施例通过接收所述第二目标视频对应的第三文字标签以及第三时间戳，其中，所述第三文字标签由服务器基于第三文字标签对应的第二音视频信息通过对应的第二场景应用模型生成，所述第二场景应用模型由所述服务器基于所述第二音视频信息对应的场景类型获取，所述第二音视频信息由所述服务器基于当前播放的第二目标视频获取；接着显示所述第三文字标签以及所述第三时间戳，通过在用户终端显示文字标签以及对应的时间戳，使得用户在查找直播内容的视频片段时，可以根据时间戳以及文字标签准确定位需要查找的视频内容，降低了视频内容内容的耗时，提高了视频的查找效率，进而提升了用户体验。

[0083] 基于第三实施例，提出本发明信息处理方法的第四实施例，在本实施例中，所述信息处理方法还包括：

[0084] 步骤S501，获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数；

[0085] 步骤S502，若所述第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签以及所述第三时间戳。

[0086] 本实施例中，服务器获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数，其中，在检测到第三文字标签的点击操作时，显示第三文字标签对应的功能选择按钮，功能选择按钮可以包括回放按钮、复制按钮、取消按钮等功能按钮，回放按钮可以包括回放开始以及回放结束等，用户可以通过点击其中的某一按钮对第三文字标签进行操作，用户终端通过检测到的点击操作对应的功能按钮，确定当前所检测到的操作指令，并累计该第三文字标签对应的场景类型的触发次数，即可得到该第二场景类型对应的操作指令的第一触发次数，即该第一触发次数为用户选择同一第二场景类型的第三文字标签的次数。

[0087] 而后判断第一触发次数是否达到预设次数，若第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签以及所述第三时间戳，其中，预设显示参数可以设置高亮、变色、加粗显示等。具体地，若第三文字标签的字体颜色为黑色，未加粗，未高亮，第一触发次数为3，预设次数为2，服务器获取所述第三文字标签的第二场景类型为武打场景，获取所述武打场景对应的操作指令的第一触发次数，服务器判定第一触发次数3次大于预设次数2次，则将对第三文字标签及/或第三时间戳的字体进行加粗、高亮，变红色处理。

[0088] 本实施例通过获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数，而后若所述第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签以及所述第三时间戳，通过预设显示参数，通过根据各个文字标签的操作次数实现文字标签的区别显示，使得用户在查找直播内容的视频片段时，能够快速定位需要回放的直播内容，进一步降低了查找直播内容的耗时，提高了回放内容的查找效率，进而提升了用户体验。

[0089] 基于第三实施例，提出本发明信息处理方法的第五实施例，在本实施例中，所述信息处理方法还包括：

[0090] S501，在检测到所述用户终端当前显示的文字标签对应的操作指令时，获取所述操作指令对应的文字标签的第三场景类型；

[0091] S502，确定所述第三场景类型对应的操作指令的第二触发次数；

[0092] S503，若所述第二触发次数达到预设次数，则基于预设显示参数调整当前显示的文字标签。

[0093] 本实施例中，用户终端实时检测用户终端当前显示的文字标签对应的操作指令，其中，操作指令可以包括回放开始、回放结束、复制、取消等功能。在检测到所述用户终端当前显示的文字标签对应的操作指令时，用户终端获取操作指令对应的文字标签的第三场景类型，接着获取第三场景类型对应的操作指令的第三触发次数，具体地，用户终端获取该第三场景类型对应的操作指令的历时触发次数，将该历时触发次数+1得到该第二触发次数。

[0094] 而后，服务器判断第二触发次数是否达到预设次数，若第二触发次数达到预设次数，则根据预设显示参数调整当前显示的文字标签，具体地，用户终端确定当前显示的文字标签中第三场景类型对应的待处理文字标签，即待处理文字标签为当前显示的文字标签中场景类型为第三场景类型的文字标签，并根据预设显示参数调整待处理文字标签的显示参数，例如，预设显示参数可以设置高亮、变色、加粗显示等，服务器检测到用户终端当前显示的文字标签对应的操作指令为回放开始，获取回放开始对应的文字标签的第三场景为武打场景，若用户对武打场景的回放开始的触发次数大于预设次数2次，则将对当前显示的文字标签中所有的武打场景的文字标签的字体进行加粗、高亮，变红色处理。

[0095] 本实施例通过在检测到所述用户终端当前显示的文字标签对应的操作指令时，获取所述操作指令对应的文字标签的第三场景类型，接着确定所述第三场景类型对应的操作指令的第二触发次数，而后若所述第二触发次数达到预设次数，则基于预设显示参数调整当前显示的文字标签，能够实现文字标签的区别显示，使得用户在查找直播内容的视频片段时，能够快速定位需要回放的直播内容，进一步降低了查找直播内容的耗时，提高了回放内容的查找效率，进而提升了用户体验。

[0096] 基于第三至第五实施例中的任意一实施例，提出本发明信息处理方法的第六实施例，在本实施例中，所述信息处理方法还包括：

[0097] S701，在检测到所述用户终端当前显示的文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签；

[0098] S702，基于所述第四文字标签对应的时间戳，确定回放开始时刻；

[0099] S703，基于所述回放开始时刻，执行所述直播内容的回放操作。

[0100] 具体地，在检测到当前显示的第四文字标签的点击操作时，显示第四文字标签对应的功能选择按钮，功能选择按钮可以包括回放按钮、复制按钮、取消按钮等功能按钮，回放按钮可以包括回放开始以及回放结束等，用户可以通过点击其中的某一按钮对第四文字标签进行操作，在检测到所述用户终端当前显示的第四文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签。

[0101] 接着，基于所述第四文字标签对应的时间戳，确定回放开始时刻，即将该第四文字标签对应的时间戳作为直播内容的回放操作的回放开始时刻，并基于所述回放开始时刻，执行所述直播内容的回放操作。优选地，还可以通过当前显示的文字标签中的两个文字标签触发回放操作指令，即第四文字标签可以包括两个字标签，第四文字标签对应的时间戳也包括两个时间戳，用户终端可将其中的一个时间戳作为回放开始时刻，另一个时间戳作为回放结束时刻，进而可基于所述第四文字标签对应的时间戳，确定回放开始时刻以及回放结束时刻，基于所述回放开始时刻以及回放结束时刻，执行所述直播内容的回放操作然后。

[0102] 需要说明的是，若操作指令为复制指令，则用户终端确定复制指令对应的文字标签，并将该复制指令对应的文字标签复制并缓存，用于其它功能使用；若操作指令为取消指令，则取消功能选择按钮的显示。

[0103] 本实施例中通过在检测到所述用户终端当前显示的文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签，接着基于所述第四文字标签对应的时间戳，确定回放开始时刻以及回放结束时刻，而后基于所述回放开始时刻以及回放结束时刻，执行所述直播内容的回放操作，能根据第四文字标签对应的时间戳，进行回放直播内容，通过文字标签能够快速定位需要回放的直播内容，进一步降低了查找直播内容的耗时，提高了回放内容的查找效率，进而提升了用户体验。

[0104] 本发明还提供一种信息处理装置，参照图4，所述信息处理装置包括：

[0105] 获取模块10，用于获取第一目标视频对应的当前播放的第一音视频信息；

[0106] 确定模块20，用于通过预设算法确定所述第一音视频信息对应的第一场景类型，并获取所述第一场景类型对应的第一场景应用模型；

[0107] 训练模块30，用于将所述第一音视频信息输入所述第一场景应用模型，将所述第一场景应用模型的输出作为所述第一音视频信息对应的第一文字标签，其中，第一文字标签用于描述所述第一音视频信息对应的音视频内容；

[0108] 发送模块40，用于将所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端显示所述第一文字标签以及所述第一时间戳。

[0109] 进一步地，发送模块40，还用于：

[0110] 若当前时刻之前存在所述目标视频对应的第二文字标签，则基于所述第一时间戳以及所述第二文字标签对应的第二时间戳，确定显示间距；

[0111] 将所述显示间距、所述第一文字标签以及所述音视频信息对应的第一时间戳发送至用户终端，其中，所述用户终端基于所述显示间距显示所述第一文字标签以及所述第一时间戳。

[0112] 进一步地，发送模块40，还用于：

[0113] 若所述第一时间戳和所述第二时间戳的差值大于设定阈值，则确定所述显示间距为分段间距。

[0114] 本发明还提供一种信息处理装置，所述信息处理装置包括：

[0115] 接收模块，用于接收第二目标视频对应的第三文字标签以及第三时间戳，其中，所述第三文字标签由服务器基于第三文字标签对应的第二音视频信息通过对应的第二场景应用模型生成，所述第二场景应用模型由所述服务器基于所述第二音视频信息对应的场景类型获取，所述第二音视频信息由所述服务器基于当前播放的第二目标视频获取；

[0116] 显示模块，用于显示所述第三文字标签以及所述第三时间戳。

[0117] 进一步地，所述信息处理装置还用于：

[0118] 获取所述第三文字标签的第二场景类型，获取所述第二场景类型对应的操作指令的第一触发次数；

[0119] 若所述第一触发次数达到预设次数，则基于预设显示参数显示所述第三文字标签。

[0120] 进一步地，所述信息处理装置还用于：

[0121] 在检测到所述用户终端当前显示的文字标签对应的操作指令时，获取所述操作指令对应的文字标签的第三场景类型；

[0122] 确定所述第三场景类型对应的操作指令的第二触发次数；

[0123] 若所述第二触发次数达到预设次数，则基于预设显示参数调整当前显示的文字标签。

[0124] 进一步地，所述信息处理装置还用于：

[0125] 在检测到所述用户终端当前显示的文字标签对应的回放操作指令时，获取所述回放操作指令对应的第四文字标签；

[0126] 基于所述第四文字标签对应的时间戳，确定回放开始时刻；

[0127] 基于所述回放开始时刻，执行所述直播内容的回放操作。

[0128] 上述各程序单元所执行的方法可参照本发明信息处理方法各个实施例，此处不再赘述。

[0129] 此外，本发明实施例还提出一种信息处理设备，所述信息处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现实现如上所述的信息处理方法的步骤

[0130] 此外，本发明实施例还提出一种计算机可读存储介质计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如上所述的信息处理方法的步骤。

[0131] 需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

[0132] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0133] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

[0134] 以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

信息处理方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202210659240.7

文献号 : CN115103213B

文献日 : 2023-10-17

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 蒋杰 , 殷杰 , 胥本海 , 魏婷 , 陈笑怡 , 黄舒婷 , 陈丽丽 , 马颖颖 , 曹程博 , 田昌勇 , 贺凤香

申请人 : 咪咕视讯科技有限公司 , 咪咕文化科技有限公司 , 中国移动通信集团有限公司

摘要 :

权利要求 :

说明书 :