一种视频数据处理方法、装置、设备及可读存储介质转让专利
申请号 : CN202011240425.1
文献号 : CN112423081B
文献日 : 2021-11-05
发明人 : 郭鹏
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种视频数据处理方法,其特征在于,包括:显示应用客户端中的目标视频对应的视频播放界面;所述视频播放界面中包含声纹识别控件;
响应针对所述声纹识别控件的触发操作,输出独立于所述视频播放界面的声纹设置界面,在所述声纹设置界面中的第二显示区域中输出与所述目标视频相关联的角色声纹列表;所述角色声纹列表中包含所述目标视频中的N个角色的声纹信息;所述N个角色中包含目标角色;所述N为正整数;所述声纹设置界面中的第一显示区域中包含第一业务控件对应的第一播放子页面;所述第一显示区域中的视频展示子页面用于输出至少一个推荐视频片段;所述至少一个推荐视频片段中包含目标推荐视频片段;所述视频展示子页面是针对所述第一显示区域中的第二业务控件执行业务切换操作时,将所述第一显示区域中的子页面由所述第一播放子页面切换后所得到的;
响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作,在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理;
响应针对目标推荐视频片段的选择确定操作,将所述第一显示区域中的子界面由所述视频展示子界面切换为所述第二业务控件对应的第二播放子界面,在所述第一显示区域中的所述第二播放子界面上对所述目标推荐视频片段进行播放;
在所述第二业务控件对应的声纹录制时长内,截取播放的所述目标推荐视频片段中的目标视频帧数据,响应针对采集识别控件的第二确认操作,将截取到的所述目标视频帧数据所对应的目标音频帧数据发送给业务服务器,以使所述业务服务器对所述目标音频帧数据进行声纹分析,以得到所述目标推荐视频片段中的K个可替换声纹信息;所述K为正整数;
接收所述业务服务器返回的包含所述K个可替换声纹信息的第二声纹列表,将接收到的所述第二声纹列表作为与所述角色声纹列表相关联的可替换列表。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标视频的视频帧数据以及所述视频帧数据对应的音频帧数据;所述视频帧数据中包含第一播放进度对应的第一视频帧数据,且所述音频帧数据中包含所述第一视频帧数据对应的第一音频帧数据;
在检测到所述应用客户端的播放器的播放进度为第一播放进度时,在所述视频播放界面上输出所述第一视频帧数据,且通过所述播放器播放所述第一音频帧数据。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标视频的视频帧数据以及所述视频帧数据对应的音频帧数据,包括:获取所述目标视频的业务数据包,基于所述应用客户端中的编解码组件对所述业务数据包进行解析处理,得到所述目标视频的视频数据流以及所述视频数据流对应的音频数据流;
在所述编解码组件中,对所述视频数据流进行视频解码处理,得到所述目标视频的视频帧数据;
在所述编解码组件中,对所述音频数据流进行音频解码处理,得到所述目标视频的音频帧数据。
4.根据权利要求1所述的方法,其特征在于,所述响应针对所述声纹识别控件的触发操作,输出独立于所述视频播放界面的声纹设置界面,在所述声纹设置界面中的第二显示区域中输出与所述目标视频相关联的角色声纹列表,包括:响应针对所述声纹识别控件的触发操作,输出独立于所述视频播放界面的声纹设置界面;所述声纹设置界面中至少包含第一显示区域和第二显示区域;
获取所述第一业务控件对应的声纹采集时长,从所述目标视频的视频帧数据中获取与所述声纹采集时长相关联的待处理视频帧数据;
基于所述第一播放子页面的界面尺寸,对所述待处理视频帧数据的图像尺寸进行调整,得到调整后的待处理视频帧数据;
在将所述调整后的待处理视频帧数据输出至第一播放子页面上时,将所述待处理视频帧数据对应的音频帧数据作为待处理音频帧数据,基于所述待处理音频帧数据,确定与所述目标视频相关联的角色声纹列表,在所述第二显示区域中输出所述角色声纹列表。
5.根据权利要求4所述的方法,其特征在于,所述待处理视频帧数据中包括所述触发操作对应的第二视频帧数据、和第三视频帧数据;所述第二视频帧数据对应的第二播放进度小于所述第三视频帧数据对应的第三播放进度;所述第二播放进度与所述第三播放进度之间的时长为所述声纹采集时长;
所述基于所述第一播放子页面的界面尺寸,对所述待处理视频帧数据的图像尺寸进行调整,得到调整后的待处理视频帧数据,包括:基于所述第一播放子页面的界面尺寸,对所述第二视频帧数据的图像尺寸进行调整,将调整尺寸后的第二视频帧数据作为所述声纹采集时长内的起始采集视频帧;
基于所述第一播放子页面的界面尺寸,对所述第三视频帧数据的图像尺寸进行调整,将调整尺寸后的第三视频帧数据作为所述声纹采集时长内的终止采集视频帧;
基于所述起始采集视频帧和所述终止采集视频帧,确定与所述第一播放子页面相关联的调整后的待处理视频帧数据。
6.根据权利要求4所述的方法,其特征在于,所述第一显示区域中包含采集识别控件;
所述在将所述调整后的待处理视频帧数据输出至第一播放子页面上时,将所述待处理视频帧数据对应的音频帧数据作为待处理音频帧数据,基于所述待处理音频帧数据,确定与所述目标视频相关联的角色声纹列表,在所述第二显示区域中输出所述角色声纹列表,包括:
在将所述调整后的待处理视频帧数据输出至第一播放子页面上时,从所述目标视频的音频帧数据中获取所述待处理视频帧数据对应的音频帧数据,将获取到的所述待处理视频帧数据对应的音频帧数据作为所述声纹采集时长对应的待处理音频帧数据;
响应针对所述采集识别控件的第一确认操作,将所述待处理音频帧数据发送至业务服务器,以使所述业务服务器对所述待处理音频帧数据进行声纹分析,以得到所述目标视频中的N个角色的声纹信息;
接收所述业务服务器返回的包含所述N个角色的声纹信息的第一声纹列表,将接收到的所述第一声纹列表作为与所述目标视频相关联的角色声纹列表,在所述第二显示区域中输出所述角色声纹列表。
7.根据权利要求4所述的方法,其特征在于,所述第一显示区域中包含第二业务控件;
所述方法还包括:
响应目标用户针对所述第二业务控件执行的业务切换操作,生成业务切换指令,且将所述第一显示区域中的子页面由所述第一播放子页面切换为视频展示子页面;所述业务切换指令用于指示业务服务器从用户行为数据库中获取所述目标用户的历史行为信息;
获取业务服务器基于所述目标用户的历史行为信息推送的至少一个推荐视频片段,在所述第一显示区域内的所述视频展示子页面中输出所述至少一个推荐视频片段。
8.根据权利要求1所述的方法,其特征在于,所述K个可替换声纹信息中包括目标可替换声纹信息;
所述方法还包括:
将所述第二显示区域中的列表由所述角色声纹列表替换为所述可替换列表;
响应针对所述可替换列表中的所述目标可替换声纹信息的触发操作,输出独立于所述第二显示区域的声纹替换区域,在所述声纹替换区域中输出与所述目标可替换声纹信息相关联的所述N个角色的声纹信息;
响应针对所述N个角色的声纹信息的触发操作,从所述N个角色的声纹信息中获取M个角色的声纹信息,配置得到所述目标可替换声纹信息与所述M个角色的声纹信息之间的替换关系表;所述替换关系表中包含M个替换提示信息;一个替换提示信息用于表征所述目标可替换声纹信息与一个角色的声纹信息之间的替换关系;所述M为小于或者等于所述N的正整数;
基于所述M个替换提示信息,在播放的所述目标视频中将所述M个角色的声纹信息替换为所述目标可替换声纹信息。
9.根据权利要求8所述的方法,其特征在于,所述M个角色中包含所述目标角色,且所述目标角色的状态为非屏蔽状态;所述替换关系表中包含用于将所述目标可替换声纹信息替换为所述目标角色的声纹信息的目标替换提示信息;
所述方法还包括:
响应目标用户针对所述目标替换提示信息的滑动操作,解除所述目标可替换声纹信息与所述目标角色的声纹信息之间的替换关系,并在所述替换关系表中删除所述目标替换提示信息。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:在检测到所述目标用户未对所述至少一个推荐视频片段中的任意一个推荐视频片段执行触发操作,且检测到所述目标用户对所述采集识别控件执行第三确认操作时,在所述第一显示区域中输出携带录音采集时长的录音控件;
在所述录音采集时长内,响应所述目标用户针对所述录音控件执行的按压操作,获取所述目标用户的用户音频帧数据,将所述用户音频帧数据发送至业务服务器,以使所述业务服务器对所述目标音频帧数据进行声纹分析,得到所述目标用户的声纹信息;
接收所述业务服务器返回的所述目标用户的声纹信息,将所述目标用户的声纹信息添加至所述可替换列表。
11.根据权利要求1所述的方法,其特征在于,所述响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作,在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理,包括:响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作,将所述目标角色的声纹信息作为目标声纹信息;
当通过所述应用客户端对应的播放器播放所述目标视频的音频帧数据时,在所述音频帧数据中识别与所述目标声纹信息相匹配的匹配音频帧数据;
在所述匹配音频帧数据中对属于所述目标角色的声音进行屏蔽处理,或者在所述匹配音频帧数据中对不属于所述目标角色的声音进行屏蔽处理。
12.一种视频数据处理装置,其特征在于,包括:播放界面获取模块,用于显示应用客户端中的目标视频对应的视频播放界面;所述视频播放界面中包含声纹识别控件;
角色声纹列表输出模块,用于响应针对所述声纹识别控件的触发操作,输出独立于所述视频播放界面的声纹设置界面,在所述声纹设置界面中的第二显示区域中输出与所述目标视频相关联的角色声纹列表;所述角色声纹列表中包含所述目标视频中的N个角色的声纹信息;所述N个角色中包含目标角色;所述N为正整数;所述声纹设置界面中的第一显示区域中包含第一业务控件对应的第一播放子页面;所述第一显示区域中的视频展示子页面用于输出至少一个推荐视频片段;所述至少一个推荐视频片段中包含目标推荐视频片段;所述视频展示子页面是针对所述第一显示区域中的第二业务控件执行业务切换操作时,将所述第一显示区域中的子页面由所述第一播放子页面切换后所得到的;
声音优化模块,用于响应针对所述角色声纹列表中的所述目标角色的声纹信息的选择操作,在播放的所述目标视频中对与所述目标角色的声纹信息相匹配的声音进行音频优化处理;
推荐视频播放模块,用于响应针对目标推荐视频片段的选择确定操作,将所述第一显示区域中的子界面由所述视频展示子界面切换为所述第二业务控件对应的第二播放子界面,在所述第一显示区域中的所述第二播放子界面上对所述目标推荐视频片段进行播放;
目标视频截取模块,用于在所述第二业务控件对应的声纹录制时长内,截取播放的所述目标推荐视频片段中的目标视频帧数据,响应针对采集识别控件的第二确认操作,将截取到的所述目标视频帧数据所对应的目标音频帧数据发送给业务服务器,以使所述业务服务器对所述目标音频帧数据进行声纹分析,以得到所述目标推荐视频片段中的K个可替换声纹信息;所述K为正整数;
替换列表确定模块,用于接收所述业务服务器返回的包含所述K个可替换声纹信息的第二声纹列表,将接收到的所述第二声纹列表作为与所述角色声纹列表相关联的可替换列表。
13.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行权利要求1‑11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1‑11任一项所述的方法。
说明书 :
一种视频数据处理方法、装置、设备及可读存储介质
技术领域
背景技术
在移动设备(即用户终端)上观看视频时,会越来越关注于当前播放的这个视频的音频播放
效果。
蔽的过程中,会将扬声器的模式由播放模式切换为静音模式,以至于会无差别的屏蔽视频
中的每个角色的声音,从而达到优化这个视频的音频播放效果。显然,在对这个视频的音频
进行优化的过程中,用户自身是难以根据自己的实际需求单独对某一个角色的声音进行音
频优化的,以至于在视频播放时降低了对音频播放效果的可控性。
发明内容
数;
包含目标角色;N为正整数;
视频数据对应的第一音频帧数据;
数据流;
示区域中包含第一业务控件对应的第一播放子页面;
数据,确定与目标视频相关联的角色声纹列表,在第二显示区域中输出角色声纹列表。
二播放进度与第三播放进度之间的时长为声纹采集时长;
帧;
帧;
处理视频帧数据对应的音频帧数据作为声纹采集时长对应的待处理音频帧数据;
视频中的N个角色的声纹信息;
域中输出角色声纹列表。
业务切换指令用于指示业务服务器从用户行为数据库中获取目标用户的历史行为信息;
段。
显示区域中的第二播放子界面上对目标推荐视频片段进行播放;
的目标视频帧数据所对应的目标音频帧数据发送给业务服务器,以使业务服务器对目标音
频帧数据进行声纹分析,以得到目标推荐视频片段中的K个可替换声纹信息;K为正整数;
信息相关联的N个角色的声纹信息;
之间的替换关系表;替换关系表中包含M个替换提示信息;一个替换提示信息用于表征目标
可替换声纹信息与一个角色的声纹信息之间的替换关系;M为小于或者等于N的正整数;
替换提示信息。
时,在第一显示区域中输出携带录音采集时长的录音控件;
务服务器对目标音频帧数据进行声纹分析,得到目标用户的声纹信息;
中的方法。
备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该
计算机设备执行本申请实施例中一方面提供的方法。
面。可以理解的是,该视频播放界面中可以包含用于帮助该应用客户端的用户(例如,用户
B,该用户B可以被统称为目标用户)对该视频A的音频进行音频优化的声纹识别控件。所以,
当目标用户针对该声纹识别控件执行触发操作时,该计算机设备可以响应该触发操作,输
出与该目标视频相关联的角色声纹列表。可以理解的是,这里的角色声纹列表可以包含目
标视频(例如,视频A)中的N个角色的声纹信息;其中,N可以为正整数;这N个角色中具体可
以包含目标角色(即该目标用户计划从这N个角色中选取的一个或者多个角色);应当理解,
这里的N个角色的声纹信息可以为计算机设备对目标视频中的视频片段进行声纹分析之后
所得到的。可选的,这N个角色的声纹信息还可以为业务服务器(例如,应用客户端的后台)
根据接收到的该目标视频(例如,视频A)中的某个视频片段(例如,从视频A中所截取到的视
频片段A1)进行声纹分析后所返回得到的,这里将不对其进行限定。可以理解的是,进一步
的,目标用户可以在当前显示的角色声纹列表中选取上述目标角色的声纹信息,以便于在
播放目标视频时,能够实时地在播放的目标视频中对与目标角色的声纹信息相匹配的声音
进行音频优化处理,例如,可以在播放该目标视频时,只屏蔽该目标角色的声音,即可以不
听这个角色的声音。可选的,还可以在播放该目标视频时,只播放该目标角色的声音,即可
以只听这个角色的声音。基于此,采用本申请可以有效地提升音频播放效果的可控性。
附图说明
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
的发展方向,其中语音成为未来最被看好的人机交互方式之一。
各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这
一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切
的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱
等技术。
媒体数据系统可以包含网络社交系统、视频播放系统等具备音视频处理功能的系统。
3000b、用户终端3000c...、用户终端3000n。如图1所示,用户终端3000a、...、用户终端
3000b可以分别与业务服务器2000进行网络连接,以便于该用户终端集群中的每个第一用
户终端可以通过该网络连接与业务服务器2000之间进行数据交互。
函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工
智能平台等基础云计算服务的云服务器。
户终端,该目标用户终端中可以集成有具备视频数据处理功能(例如,视频数据加载和播放
功能)的应用客户端。其中,应用客户端具体可以包括社交客户端、多媒体客户端(例如,视
频客户端)、娱乐客户端(例如,点歌客户端)、教育客户端等具有帧序列(例如,帧动画序列)
加载和播放功能的客户端。其中,目标用户终端(例如,用户终端3000a)具体可以包括:智能
手机、平板电脑、笔记本电脑、桌上型电脑、可穿戴设备、智能家居(例如,智能电视)等携带
视频数据处理功能(例如,视频数据播放功能)的智能终端。为便于理解,本申请实施例可以
将某个用户(例如,用户B)在应用客户端(例如,视频客户端A)中所选择的贴合自己兴趣的
视频(比如,视频节目或者影片等)统称为目标视频。
统所适用的业务场景进行一一列举。
以为该用户B在视频节目推荐列表上所选取的自己感兴趣的公众人物参与录制的电视节
目、综艺节目等,例如,这里的公众人物可以为影视明星、娱乐明星等。又比如,在线上影院
观影场景下,这里的目标视频可以为该用户B在视频推荐界面(比如,影片推荐列表)中所选
取的贴合自己兴趣的影片,例如,这里的影片可以为该用户B在影片推荐列表上所选取的自
己感兴趣的公众人物参与录制的影视节目等。又比如,在线上教室听课场景下,这里的目标
视频可以为上述用户B在视频推荐界面(比如,课程推荐列表)中所选取的贴合自己兴趣的
课程,例如,这里的课程可以为该用户B在课程推荐列表上所选取的自己感兴趣的老师所录
制的教学课程等。
声音进行屏蔽。为便于理解,进一步的,请参见图2a和图2b,图2a和图2b是本申请实施例提
供的一种进行人机交互的场景示意图。其中,在图2a所示的视频播放界面100a中所播放的
目标视频,可以为用户A(即图2a所示的目标用户)在应用客户端的视频推荐界面(比如,视
频节目推荐列表)中所选取的贴合自己兴趣的综艺节目(例如,综艺X)。如图2a所示,在该目
标视频(即综艺X)的播放进度为播放进度1(例如,00:0015,即第15s)时,该目标用户(即用
户A)可以通过目标用户终端中所运行的应用客户端(例如,视频客户端)收听到角色B的声
音,并可以在该图2a所示的视频播放界面100a中显示该角色B所发出的声音的文本信息,例
如,位于图2a所示的视频播放界面100a中的文本信息(即文本AAABBB……CCC)可以为该角
色B的台词文本。
所示的视频播放进度1时,该目标用户需要对当前呈现在该视频播放界面100a中的角色B
(即特定角色)的声音进行屏蔽,则如图2a所示,该目标用户可以对该声纹识别控件10a执行
触发操作,以使该目标用户终端可以响应该触发操作,从而可以在图2a所示的声纹设置界
面200a中显示与该目标视频相关联的角色声纹列表10b。如图2a所示,该角色声纹列表10b
中可以具体包含该目标视频中的N个角色的声纹信息,这里的N个角色具体可以为图2a所示
的6个角色。比如,这6个角色的声纹信息可以具体包括:角色A的声纹a,角色B的声纹b,角色
C的声纹c、角色D的声纹d、角色E的声纹e、角色F的声纹f。
所示的声纹设置界面200a。比如,这里的声纹设置界面200a可以为一个显示在该视频播放
界面100a上的弹窗(也可以叫做弹框),即该声纹设置界面200a可以为独立于视频播放界面
100a的一个子界面。这里将不对该视频播放界面100a与该声纹设置界面200a之间的界面显
示关系进行限定。
30a(例如,从上述综艺X截取到的视频片段)进行声纹分析后所得到的。
为目标角色,例如,可以将图2a所示的角色B作为目标角色,进而可以在视频播放界面100a
中继续播放目标视频时,智能地对与该角色B的声纹b相匹配的声音进行屏蔽处理,比如,可
以在当前播放的这个目标视频(例如,上述综艺X中)对这个角色B的声音进行屏蔽处理,进
一步的,可以参见图2b所示的对角色B的声音进行屏蔽的场景示意图。
进行正常播放,即本申请实施例并不影响该目标视频中的其他角色的声音的播放。由此可
见,采用本申请实施例可以自适应地根据目标用户的实际需求,对视频中的特定角色的声
音进行音频优化处理,进而可以在播放某个视频时,提升音频优化效果的可控性和时效性。
发操作2)。此时,该目标用户终端可以响应针对该业务确认控件执行的触发操作2,将该应
用客户端的显示界面由图2b所示的声纹设置界面200a返回至图2b所示的视频播放界面
100a。如图2b所示,该目标用户终端可以继续恢复对目标视频的播放,从而可以在上述播放
进度1的下一播放进度(即图2b所示的视频播放进度2,该视频播放进度2可以为00:00:16,
即第16s)时,自动识别与该角色B的声纹b相匹配的声音,进而可以对实时识别到的角色B的
声音进行音频优化处理(例如,可以自动对角色B的声音进行屏蔽处理),以优化目标视频的
音频播放效果。
放处理。这意味着本申请实施例还可以在播放目标视频时,实时地对未匹配到的该目标视
频中的其他角色的声音进行屏蔽处理。基于此,本申请实施例可以自适应地根据目标用户
的个性需求,在播放该目标视频时,能够确保该目标用户只听到自己喜爱的角色B的声音,
即采用本申请实施例可以灵活地对视频中的特定角色的声音进行播放处理,进而可以提升
音频优化效果的可控性和时效性。
实施例可以将该目标用户从N个角色的声纹信息中所选取的一个或者多个角色的声纹信息
统称为目标角色的声纹信息,这意味着目标用户终端对其他角色的声纹信息进行屏蔽的实
现方式,可以一并参见对上述角色B的声纹信息进行屏蔽的具体过程的描述,这里将不再继
续进行赘述。
述图1所示的用户终端3000a)执行,也可以由业务服务器(如,上述图1所示的业务服务器
2000)执行,还可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器
1000)共同执行。为便于理解,本实施例以该方法由用户终端执行为例进行说明。其中,该视
频数据处理方法至少可以包括以下步骤S101‑步骤S103:
作,输出目标视频对应的视频播放界面;其中,目标视频是由应用客户端对应的用户(即目
标用户)从应用显示界面上所展示的一个或者多个推荐视频数据中所选取的。
向该视频客户端对应的业务服务器(例如,上述图1所对应实施例中的业务服务器2000)发
送业务数据推荐请求,以使该业务服务器在获取到该业务数据推荐请求时,可以从该业务
服务器对应的业务数据库中拉取贴合该目标用户(例如,用户A)兴趣的多个推荐视频数据,
进而可以将这些推荐视频数据返回给运行有该视频客户端的用户终端,以在该用户终端对
应的应用显示界面中输出这些推荐视频数据。可以理解的是,本申请实施例可以将用于展
示这些推荐视频数据的视频推荐界面统称为该应用客户端(即视频客户端)对应的应用显
示界面。
推荐视频数据具体可以包含图4所示的视频数据30a、视频数据30b、视频数据30c和视频数
据30d。可以理解的是,本申请实施例可以将展示在应用显示界面300a中的视频数据30a、视
频数据30b、视频数据30c和视频数据30d统称为推荐视频数据。
标视频。此时,用户终端可以响应针对应用显示界面中的目标视频的播放操作,以输出该目
标视频对应的视频播放界面,例如,如图4所示,可以在用户终端中输出视频数据30b对应的
视频播放界面,该视频数据30b对应的视频播放界面可以为图4所示的视频播放界面300b。
于该应用客户端的编解码组件对该业务数据包进行解析处理,以得到该目标视频的视频数
据流和音频数据流。进一步的,用户终端可以在编解码组件中,对解封得到的视频数据流进
行视频解码处理,以得到目标视频的视频帧数据;同理,用户终端可以在编解码组件中,对
音频数据流进行音频解码处理,以得到目标视频的音频帧数据。
对应的第一视频帧数据,且音频帧数据中可以包含第一帧视频数据对应的第一音频帧数
据。所以,如图4所示,当用户终端输出视频播放界面300b之后,可以在视频加载时长内(例
如,从第0秒到图4所示的第5秒所构成的时长)加载得到目标视频的视频帧数据以及视频帧
数据对应的音频帧数据。其中,可以理解的是,这里的第一播放进度可以包括但不限于该目
标视频中的首个视频帧(即第一视频帧数据)所对应的播放进度,即该第一播放进度可以为
图4所示的播放进度T1。
将不对第一视频帧数据的数量进行限定。
频帧数据以及视频帧数据对应的音频帧数据时,可以在该视频播放界面300b中对获取到的
动态页面内容(例如,该目标视频的首个视频帧的图像数据)进行渲染,以在该视频播放界
面300b中输出该目标视频(即图4所示的视频数据30b)的首个视频帧。此时,使用该用户终
端的目标用户(例如,用户A)则可以收听到该首个视频帧(即第一视频帧数据)中的角色B的
声音,即此时,该应用客户端的播放器可以播放的这个第一视频数据帧对应的第一音频帧
数据。其中,该第一音频帧数据中可以包含由该角色B所发出的声音。
图4所示的用户A)可以在播放目标视频的过程中,灵活地根据自己的需求,来选择是否触发
图4所示的声纹识别控件40a,进而可以继续执行下述步骤S102,以通过该人机交互的方式
灵活地对目标视频中的特定角色的声音进行屏蔽处理。
业务数据包时,需要对目标视频的业务数据包进行解封装处理(简称解析处理),以得到该
目标视频的视频数据流与音频数据流。其中,对于目标视频的解析处理,可以理解为将目标
视频的业务数据包输入至编解码组件中,以通过该编解码组件对该目标视频的业务数据包
进行解析处理,从而可以得到视频数据流以及音频数据流;随后,在该编解码组件中,可以
对编码后的视频数据流和该音频数据流分别进行解码处理,从而可以得到视频数据流对应
的音频帧数据,以及该音频数据流对应的音频帧数据。其中,这里的编解码组件可以为
ffmpeg工具,也可以为其他第三方具有视频解封装能力的软件工具,这里将不再对视频解
封装组件进行一一举例。
第一显示区域中可以包含第一业务控件对应的第一播放子页面;进一步的,用户终端可以
获取第一业务控件对应的声纹采集时长,从目标视频的视频帧数据中获取与声纹采集时长
相关联的待处理视频帧数据;进一步的,用户终端可以基于第一播放子页面的界面尺寸,对
待处理视频帧数据的图像尺寸进行调整,以得到调整后的待处理视频帧数据;进一步的,用
户终端可以在将调整后的待处理视频帧数据输出至第一播放子页面上时,将待处理视频帧
数据对应的音频帧数据作为待处理音频帧数据,基于待处理音频帧数据,确定与目标视频
相关联的角色声纹列表,在第二显示区域中输出角色声纹列表。
施例提供的一种输出角色声纹列表的场景示意图。其中,本身申请实施例可以将目标视频
的每个视频帧统称为视频帧数据,即如图5所示,这里的视频帧数据具体可以包含图5所示
的视频帧4a、视频帧4b、视频帧4c、…、视频帧4n。如图5所示的视频帧4a可以为图5所示的视
频数据30b的首个视频帧,即该首个视频帧可以在静态加载出上述视频播放界面300b,将其
在上述数播放进度为播放进度T1时,渲染输出至该视频播放界面300b上进行显示,以使上
述用户A可以在播放进度T1时,在该视频播放界面300b上看到该目标视频的首个视频帧(即
该目标视频的第一视频帧数据可以为图5所示的视频帧4a)。
帧4b,这意味着该用户A可以在该视频播放界面300c上看到当前播放的视频帧为视频帧4b,
该视频帧4b上可以同步显示图5所示的角色B的文本信息(例如,角色B的台词信息可以为图
5所示的文本AAABBB……CCC)。应当理解,为便于对上述视频帧4a所对应的视频播放界面
(即上述视频播放界面300b)进行区别,本申请实施例可以将用于播放视频帧4b的视频播放
界面300c作为内容刷新后的视频播放界面。即这里的视频播放界面300b和视频播放界面
300c均可以用于表达不同播放进度时的视频播放界面。
300d;其中,如图5所示,声纹设置界面300d中至少可以包含显示区域60a和显示区域60b。可
以理解的是,本申请实施例可以将该声纹设置界面300d中的显示区域60a统称为第一显示
区域,并可以和将该声纹设置界面300d中的显示区域60b统称为第二显示区域;可以理解的
是,这里的第一显示区域中可以包含第一业务控件对应的第一播放子页面,即如图5所示,
该第一播放子页面可以用于播放图5所示的视频片段50a,该视频片段50a是由应用客户端
基于针对上述声纹识别控件所执行的触发操作,从目标视频(即图5所示的视频数据30b)中
所截取到的视频片段所确定的。比如,截取到的视频片段中具体可以包含图5所示的视频帧
4b、视频帧4c和视频帧4m(未在图上示出)。
第三播放进度之间的时长(即间隔时长)可以为统称为声纹采集时长,这里的声纹采集时长
可以为30s,这里将不对其进行限定。
频帧统称为待处理视频帧数据。如图5所示,考虑到第一显示区域(即显示区域60a)中的第
一播放子页面的界面尺寸不同于图5所示的视频播放界面300c的界面尺寸,所以,本申请实
施例在将截取到的这些视频片段中的这些视频帧输出至该第一播放子页面上进行显示之
前,还需要基于第一播放子页面的界面尺寸,对这里的待处理视频帧数据的图像尺寸进行
调整(例如,图像尺寸的缩放处理),进而可以得到调整后的待处理视频帧数据,可以理解的
是,此时,调整后的待处理视频帧数据所构成的视频片段可以为图5所示的视频片段50b。
寸后的第二视频帧数据(即调整后的视频帧4b)作为声纹采集时长内的起始采集视频帧;同
理,用户终端可以基于第一播放子页面的界面尺寸,对第三视频帧数据(例如,上述视频帧
4m)的图像尺寸进行调整(例如,可以自适应的进行缩放处理),将调整尺寸后的第二视频帧
数据(即调整后的视频帧4m)作为声纹采集时长内的终止采集视频帧;同理,用户终端对上
述截取到的视频片段中的其他视频帧的图像尺寸的调整方式,可以一并参见对视频帧4b和
视频帧4m的描述,这里将不再继续进行赘述。最后,用户终端可以基于起始采集视频帧和终
止采集视频帧,确定与第一播放子页面相关联的调整后的待处理视频帧数据,即这里的调
整后的待处理视频帧数据可以为图5的视频片段50a中的视频帧数据。
从而可以基于待处理音频帧数据,确定与目标视频相关联的角色声纹列表,进而可以在第
二显示区域(例如,图5所示的显示区域60b)中输出角色声纹列表。比如,目标用户可以针对
图5所示的采集识别控件50b执行触发操作,从而可以将待处理音频帧数据发送给业务服务
器,以使业务服务器可以对接收到的待处理音频帧数据进行声纹分析,以得到包含目标视
频中的N个角色的声纹信息的角色声纹列表。
“录制识别按钮”(即采集识别控件)执行触发操作,此时,用户终端可以响应针对该采集识
别控件的第一确认操作,以将上述图6所示的视频片段50a的待处理音频帧数据发送给图6
所示的业务服务器,以使该业务服务器可以对待处理音频帧数据进行声纹分析,比如,业务
服务器可以通过已经训练好的声纹识别模型对接收到的这个待处理音频帧数据进行声纹
分析,以分析得到这个声纹片段50a中的每个角色的声纹特征,应当理解,本申请实施例可
以将每个角色的声纹特征所构成的唯一标识这个角色的声纹信息的特征序列统称为声纹
特征序列。可以理解的是,该声纹片段50a中的每个角色的声纹特征序列可以用于表征目标
视频(即上述视频数据30b)中的对应角色的声纹信息。比如,若该视频片段50a中包含一个
(例如,N=1个)角色的声纹特征序列,则可以得到包含一个角色的声纹信息的角色声纹列
表。可选的,若该视频片段50a中包含多个(例如,N=6个)角色的声纹特征序列,则可以得到
包含N个角色的声纹信息的角色声纹列表。为便于理解,这里以N=6为例,以将包含这6个角
色的声纹信息的角色声纹列表40b返回给用户终端,以使用户终端可以在图6所示的声纹设
置界面300e的显示区域60b(即第二显示区域)中渲染输出该角色声纹列表60b。其中,如图6
所示,该角色声纹列表60b中的这6个角色具体可以为图6所示的角色A、角色B、角色C、角色
D、角色E和角色F。其中,角色A的声纹信息可以为声纹a、角色B的声纹信息可以为声b、角色C
的声纹信息可以为声纹c、角色D的声纹信息可以为声纹d、角色E的声纹信息可以为声纹e、
角色F的声纹信息可以为声纹f。
者多个角色统称为目标角色,从而可以进一步执行下述步骤S103。
以响应针对角色声纹列表中的目标角色的声纹信息的选择操作,进而可以将选择的目标角
色的声纹信息作为目标声纹信息;进一步的,用户终端可以在通过应用客户端对应的播放
器播放目标视频的音频帧数据时,在当前播放的音频帧数据中识别与目标声纹信息相匹配
的匹配音频帧数据,从而可以在匹配音频帧数据中进一步对属于目标角色的声音进行屏蔽
处理。
在目标用户在橘色声纹列表中选择特定角色的声纹信息之前,该业务确认控件是被置灰显
示的或者隐藏的,即此时,业务确认控件并不具备可操作性的。
作时,退出上述图6所示的声纹设置界面300e,进而可以将应用客户端的显示界面由声纹设
置界面300e切换为视频播放界面300c,以在视频播放界面300c上对处于暂停状态的原始视
频(即上述视频数据30b)点击,以恢复对视频数据30b的播放。此时,用户终端可以在继续播
放该视频数据的过程中,自动基于目标用户所选取的目标声纹信息在目标视频的音频帧数
据中对属于目标角色的音频帧数据进行识别,进而可以将识别到的属于目标角色的音频帧
数据统称为匹配音频帧数据。可以理解的是,此时,用户终端可以进一步在匹配音频帧数据
中对属于目标角色的声音进行屏蔽处理。
蔽,进而可以在播放目标视频时,对特定角色的声音(即选取的角色B的声音)进行屏蔽处
理,从而可以确保目标用户可以更为清晰的听到角色A的声音。
理。比如,本申请实施例可以在角色声纹列表中的声纹信息的数量达到数量阈值(例如,10
个)时,将从多个角色(例如,角色C1、角色C2、…角色Cn)的声纹信息中所选取的角色的声纹
信息(例如,角色C1的声纹信息)作为用于进行匹配的目标声纹信息,从而可以在执行上述
步骤S103时,对通过声纹识别技术所识别到的这个角色C1的声音进行播放处理,并对识别
到的不属于这个角色的声音(比如,其他角色(例如,角色C1、角色C2、…角色Cn)的声音)进
行屏蔽处理。即此时,用户终端可以播放用户自己所选取的角色的声音,还可以智能屏蔽其
他角色的声音。此时,用户将无需一一选取自己所需要屏蔽的角色,这样可以减少人机交互
时长,以提升音视频优化的效率。
30b)对应的视频播放界面。可以理解的是,该视频播放界面中可以包含用于帮助该应用客
户端的用户(例如,用户A,该用户A可以被统称为目标用户)对该视频数据30b的音频进行音
频优化的声纹识别控件。所以,当目标用户针对该声纹识别控件执行触发操作时,该计算机
设备可以响应该触发操作,输出与该目标视频相关联的角色声纹列表。可以理解的是,这里
的角色声纹列表可以包含目标视频(例如,视频数据30b)中的N个角色的声纹信息;其中,N
可以为正整数;这N个角色中具体可以包含目标角色(即该目标用户计划从这N个角色中选
取的一个或者多个角色);应当理解,这里的N个角色的声纹信息可以为计算机设备对目标
视频中的视频片段进行声纹分析之后所得到的。可选的,这N个角色的声纹信息还可以为业
务服务器(例如,应用客户端的后台)根据接收到的该目标视频(例如,视频数据30b)中的某
个视频片段(例如,从视频A中所截取到的视频片段A1)进行声纹分析后所返回得到的,这里
将不对其进行限定。可以理解的是,进一步的,目标用户可以在当前显示的角色声纹列表中
选取上述目标角色的声纹信息,以便于在播放目标视频时,能够实时地在播放的目标视频
中对与目标角色的声纹信息相匹配的声音进行音频优化处理,从而可以在播放该目标视频
时,实时屏蔽或者播放特定角色的声音,以提升音频播放效果的可控性。
业务服务器(例如,上述图1所示的业务服务器2000)执行,还可以由用户终端和业务服务器
共同执行。为便于理解,本实施例以该方法由用户终端执行为例进行说明,该用户终端可以
为上述图2a以及图2b所对应实施例中的目标用户终端,该方法具体可以包含以下步骤:
进度;第二播放进度与第三播放进度之间的时长(即间隔时长)可以为声纹采集时长;此时,
用户终端获取调整后的待处理视频帧数据的具体过程可以描述为:用户终端可以基于第一
播放子页面的界面尺寸,对第二视频帧数据的图像尺寸进行调整,以将调整尺寸后的第二
视频帧数据作为声纹采集时长内的起始采集视频帧;同理,用户终端可以基于第一播放子
页面的界面尺寸,对第三视频帧数据的图像尺寸进行调整,以将调整尺寸后的第二视频帧
数据作为声纹采集时长内的终止采集视频帧;然后,用户终端可以基于起始采集视频帧和
终止采集视频帧,确定与第一播放子页面相关联的调整后的待处理视频帧数据。其中,可以
理解的是,这里的调整后的待处理视频帧数据具体可以为上述图6所对应实施例中的视频
片段50a,可选的,在第一播放子页面中播放的视频片段还可以为上述视频数据30b中的其
他视频片段,这里将不对其进行限定。
目标视频相关联的角色声纹列表,在第二显示区域中输出角色声纹列表。
态,则可以在上述角色声纹列表中取消对该目标角色的声纹信息的屏蔽设置。其中,步骤
S201‑步骤S206的具体实现方式,可以参见上述图3所对应实施例中对步骤S101‑步骤S103
的描述,这里将不再继续进行赘述。
于录制可替换声纹的业务控件。
处理,以将缩放处理后的这个视频片段(例如,视频片段P1’,该视频片段P1’可以为对视频
片段P1进行缩放处理后所得到视频片段)输出至该第一播放子页面上,以便于用户终端可
以在该第一播放子页面上播放该视频片段P1时,可以启动应用客户端的角色声纹录制任
务,以自动采集应用客户端的播放器所播放的该视频片段P1的音频片段,进而可以将录制
到的该视频片段P1的音频片段统称为上述待处理音频帧数据。这里的待处理音频帧数据可
以用于获取与目标视频相关联的角色声纹列表。此外,可选的,在目标视频的播放过程中,
目标用户可以在不同播放进度时选择触发上述声纹识别控件,从而可以截取到与不同播放
进度相关联的视频片段,即本申请实施例可以在第一播放子页面中播放从上述视频数据
30b中截取到的其他视频片段(例如,视频片段P2)。应当理解,这里的视频片段P1和视频片
段P2之间可以包含部分相同的视频帧,也可以包含互不相同的视频帧,这里将不对执行声
纹识别控件时呈现在视频播放界面中的第二视频帧数据进行限定。
户在历史时长内曾经点播过哪些推荐视频片段以及向业务服务器提交过哪些推荐视频片
段的音频帧数据等。这样,业务服务器可以基于该目标用户的历史行为信息准确地刻画出
用于描述该该目标用户的用户画像,此时,业务服务器可以基于刻画出的用户画像准确为
该目标用户推荐贴合用户兴趣的一个或者多个视频片段,以便于可以继续执行下述步骤
S208。
可以包含图8所示的第一显示区域和第二显示区域。其中,第一显示区域中的子页面可以为
第一业务控件对应的第一播放子页面。可选的,该第一显示区域中的子页面还可以为第二
业务控件对应的视频展示子页面。
应针对第二业务控件执行的业务切换操作,生成业务切换指令,以将该第一显示区域中的
录制任务由角色声纹录制任务切换为替换声纹录制任务。此时,用户终端可以将第一显示
区域中的子页面由图8所示的第一播放子页面切换为图8所示的视频展示子页面。如图8所
示,该视频展示子界面中可以包含多个推荐视频片段。这些推荐视频片段是业务服务器基
于该目标用户的历史行为信息所智能推送的。如图8所示,这些推荐视频片段具体可以包括
图8所示的视频片段1、视频片段2、视频片段3、视频片段4、视频片段5以及视频片段6。可以
理解的是,若目标用户希望将视频片段2中的声纹信息作为可替换声纹信息,则目标用户可
以针对该视频片段2执行触发操作(即选择确定操作),从而可以将执行触发操作的这个视
频片段2作为目标推荐视频片段,以进一步执行下述步骤S209。
第二播放子界面上对目标推荐视频片段进行播放;
数据所对应的目标音频帧数据发送给业务服务器;
数;
个对象,这两个对象可以为视频片段2中的角色A1和角色B1。这样,当该应用客户端的播放
器对视频片段2进行播放时,可以根据上述替换声纹录制任务,在第二业务控件对应的声纹
录制时长(例如,30s)内,采集到包含角色A1的声音和角色B1的声音的目标音频帧数据。如
图9所示,当目标用户针对与视频片段2相关联的采集识别控件执行第二确认操作时,可以
将采集到的目标音频帧数据发送给图9所示的业务服务器,以使业务服务器可以对目标音
频帧数据中进行声纹分析,以得到该视频片段2中的角色A1的声纹信息1和角色A2的声纹信
息2。如图9所示,业务服务器可以将得到的角色A1的声纹信息1和角色A2的声纹信息2所构
成的列表统称为第二声纹列表,进而可以将该第二声纹列表返回给用户终端。如图9所示,
用户终端可以将接收到的第二声纹列表作为可替换列表,并可以在图9所示的第二显示区
域中显示该第二声纹列表。为便于理解,本申请实施例可以将第二声纹列表中的每个角色
的声纹信息统称为可替换声纹信息。
用户可以将图9所示的角色A1的声纹信息作为目标可替换声纹信息,以进一步执行下述步
骤S213。
N个角色的声纹信息。
系表;
作,以将该角色A1的声纹1作为上述目标可替换声纹信息。应当理解,当目标用户点击该目
标可替换声纹信息时,用户终端可以响应针对目标可替换声纹信息的触发操作,输出独立
于第二显示区域的声纹替换区域,从而可以在声纹替换区域中输出图10所示的第一声纹列
表。该第一声纹列表中可以包含与目标可替换声纹信息相关联的N个角色的声纹信息。如图
10所示,目标用户可以从这N个声纹信息中选择自己所需要进行替换的声纹信息,例如,目
标用户可以将图10所示的角色A的声纹a和角色B的声纹b,作为从N(例如,N=6)个角色的声
纹信息中获取到的M(例如,M=2)个角色的声纹信息,进而可以配置得到上述目标可替换声
纹信息(即图10所示的将该角色A1的声纹1)与这两个角色的声纹信息之间的替换关系表。
这里的M可以为小于或者等于N的正整数。
所设置的需要屏蔽的目标角色的声纹信息(例如,角色E的声纹e)。如果是,则确定无法建立
该目标可替换声纹信息与目标角色的声纹信息之间的替换关系,进而可以生成用于提示目
标用户的配置提示信息,以使目标用户可以根据该配置提示信息选择是否取消预先在角色
声纹列表中所勾选的需要屏蔽的这个角色的声纹信息,以将这个角色的状态由屏蔽状态切
换为非屏蔽状态。反之,则可以建立该目标可替换声纹信息与目标角色的声纹信息之间的
替换关系。由此可见,目标用户在观看上述目标视频的时候,可以通过声纹识别技术,在播
放目标视频时智能匹配自己喜欢的角色的声音,从而可以为自己喜欢的角色配上自己喜欢
的声优的声音。
间的替换关系,例如,该角色A1的声纹1与角色A的声纹a之间的替换关系可以表示为图10所
示的由声纹a指向声纹1的箭头,此时,这个由声纹a指向声纹1的箭头,可以用于表示目标视
频中的角色A的声纹信息(即声纹a)能够被图10所示的声纹1所替换。同理,由声纹b指向声
纹1的箭头,可以用于表示目标视频中的角色B的声纹信息(即声纹b)能够被图10所示的声
纹1所替换。换言之,在播放目标视频时,用户终端可以智能识别到角色A发出的声音,并可
以用自己所喜欢的角色A1的声纹1对其进行替换。同理,用户终端可以智能识别到角色B发
出的声音,也可以用自己所喜欢的这个角色A1的声纹1对其进行替换,进而可以灵活地提升
音频播放效果的可控性。
如,如图10所示,用户终端可以响应针对目标替换提示信息(即目标用户可以沿着由声纹b
指向声纹1的箭头的反方向)指向滑动操作,来解除声纹1与声纹b之间的替换关系,以解除
目标可替换声纹信息与目标角色(即图10所示的角色B)的声纹信息之间的替换关系,进而
可以在图10所示的替换关系表中删除目标替换提示信息。
时,在第一显示区域中输出携带录音采集时长的录音控件;进一步的,用户终端可以在录音
采集时长内,响应目标用户针对录音控件执行的按压操作,获取目标用户的用户音频帧数
据,将用户音频帧数据发送至业务服务器,以使业务服务器对目标音频帧数据进行声纹分
析,得到目标用户的声纹信息;进一步的,用户终端可以接收业务服务器返回的目标用户的
声纹信息,以将目标用户的声纹信息添加至可替换列表。
的任意一个推荐视频片段执行触发操作,而是直接对图11所示的位于第一显示区域中的采
集识别控件执行触发操作(即上述第三触发操作),则可以直接启动应用客户端的用户声纹
采集任务,以在图11所示的第一显示区域中弹出携带录音采集时长(例如,20s)的录音控
件。这样,如图11所示,目标用户可以对该显示在第一按时区域中的录音控件执行按压操作
(例如,长按操作),以通过该录音控件采集到该目标用户自己的声音。可以理解的是,显示
在视频展示子界面中的任意一个推荐视频片段均是业务服务器根据目标用户的观影习惯
(即上述历史行为信息)所智能推送的视频片段。
用户的用户音频帧数据直接发送给图11所示的业务服务器,此时,该业务服务器可以对接
收到的用户音频帧数据进行声纹分析,进而可以得到该目标用户的声纹信息。其中,可以理
解的是,目标用户按压该录音控件的时长可以小于或者等于该录音采集时长。这意味着目
标用户可以通过该录音控件灵活的制作相应数量的音频帧数据。
纹列表中的可替换声纹信息进行比较,以判断当前获取到的这个用户A的声音信息是否存
在于第二声纹列表(即可替换列表)中。若存在,则无需重复将该用户A的声纹信息添加到第
二声纹列表(即可替换列表)中,反之,则可以将该用户A的声纹信息添加到第二声纹列表
(即可替换列表)中,以便于后续目标用户可以通过自己的声纹信息,对目标视频中的特定
角色的声音进行替换,进而可以帮助用户实现自己配音的娱乐效果。
视频,该视频可以为上述图3所对应实施例中的目标视频。进一步的,目标用户可以执行步
骤S12,以点击用于设置声纹列表的按钮,这里的声纹列表可以包含但不限于上述可替换列
表和角色声纹列表。可以理解的是,当目标用户执行步骤S12时,用户终端可以输出步骤S15
中的弹窗,进而可以执行步骤S15,比如,可以在弹框中截取这个视频中的某个片段作为短
视频。
使后台(即上述业务服务器)可以判断出这个短视频中的每个角色的声纹特征。这里理解的
是,如果后台(即上述业务服务器)提取得到每个角色的声纹特征,则可以生成识别成功提
示信息,进而可以执行步骤S17,以将该成功提示信息返回给用户终端,从而可以帮助用户
终端从后台获取到相应的列表(例如,上述角色声纹列表)。其中,可以理解的是,这里的每
个角色的声纹特征可以为对应角色的声纹特征序列。此时,目标用户可以进一步执行步骤
S14,以在该该角色声纹列表中勾选要屏蔽的某个角色的声纹信息。
提示信息时,跳转执行步骤S11,以便于用户终端可以从这个目标视频中截取新的视频片
段。
接收到目标用户所提交的短视频,进而可以继续执行步骤S22,以对接收到的段视频进行转
码解析处理,以得到该短视频的音频数据帧。此时,业务服务器可以从在解析得到的音频数
据帧中的声纹特征时,进一步执行步骤S23‑步骤S24,以将解析得到的这个短视频中的声纹
特征与现有用户声纹库中的声纹特征进行比对,以判断这个短视频中的声纹特征是否属于
现有用户声纹库中的声纹特征。如果判断为是,则可以跳转执行步骤S31,即业务服务器可
以确定当前识别到的这个短视频中的声纹特征属于现有用户声纹库中的声纹特征,进而可
以继续执行步骤S29‑步骤S30,以向用户终端返回用于表征特征重复的识别失败提示信息。
表征解析失败的识别失败提示信息。
以跳转执行步骤S25,即业务服务器可以确定当前识别到的这个短视频中的声纹特征不属
于现有用户声纹库中的声纹特征,进而可以继续执行步骤S26‑步骤S27,以向用户终端返回
上述识别成功提示信息。
所示的步骤S41,从而可以在播放某个视频时,进一步执行步骤S42,以判断使用该用户终端
的用户(即上述目标用户)是否通过授权的账号信息登录该应用客户端。如果判断为否,则
可以跳转执行步骤S46,即以游客的身份执行步骤S49,以在用户终端中正常播放这个视频,
即在播放该视频时,可以正常播放该视频中的每个角色的声音。
个角色的声音进行屏蔽设置,则可以继续执行步骤S49,即在播放该视频时,正常播放该视
频中的每个角色的声音。
台词语音进行匹配的过程中,可以在匹配成功的情况下进一步执行步骤S45,以对特定角色
的台词声音进行屏蔽。可选的,用户终端还可以在匹配失败的情况下,跳转执行步骤S49,以
允许不对选取的这个角色的声音进行屏蔽。
原始声纹信息)。为便于理解,本申请实施例可以将业务服务器从推荐视频片段中所提取的
K个声纹信息统称为可替换声纹信息,这里的K可以为正整数,并可以将这K个声纹信息所构
成的第二声纹列表作为与上述角色声纹列表相关联的可替换列表。综上,在本申请实施例
中,运行在计算机设备(例如,上述用户终端)中的应用客户端可以在播放某个视频(即上述
目标视频)时,可以灵活地根据用户需求,启动对携带特定角色的声纹的声音(例如,上述台
词声音)进行匹配和屏蔽的任务,从而可以在设置成功时,对特定角色的声纹进行屏蔽,否
则,则可以正常播放这个角色的声音。
地、便捷的将声音设置具体分化为对某些角色的声音设置,即可以在播放目标视频时,通过
声纹屏蔽任务对该目标视频中的特定角色的声音进行屏蔽,且并不影响该目标视频中其他
角色的声音。可选的,本申请实施例还可以通过上述声纹替换任务,用自己喜爱的角色的声
纹替换特定角色的声音。可选的,本申请实施例还可以通过用户声纹采集任务帮助用户录
制自己的语音,以制作成可替换的声纹,以增加用户的参与性,从而可以在提升音频播放效
果的同时,一并提高用户的操作体验。
块200,声音优化模块300。
中包含目标角色;N为正整数;
述。可以理解的是,本申请实施例中的视频数据处理装置1可执行前文图3或者图7所对应实
施例中对视频数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描
述,也不再进行赘述。
代码),例如该视频数据处理装置为一个应用软件;该视频数据处理装置可以用于执行前文
图3或者图7所示的方法。如图16所示,视频数据处理装置2可以包括:播放界面获取模块11,
声纹列表输出模块12,声音优化模块13,可选的,视频数据处理装置2还可以包括:数据获取
模块14、数据输出模块15、业务切换模块16、推荐数据获取模块17、推荐视频播放模块18、目
标视频截取模块19、替换列表确定模块20、列表替换模块21、替换区域输出模块22、替换关
系配置模块23、声纹替换模块24、替换关系解除模块25、录音控件输出模块26、用户音频获
取模块27、用户声纹添加模块28。
中包含目标角色;N为正整数;
显示区域中包含第一业务控件对应的第一播放子页面;
二播放进度与第三播放进度之间的时长为声纹采集时长;
频帧;
频帧;
不再继续对其进行赘述。
频帧数据,确定与目标视频相关联的角色声纹列表,在第二显示区域中输出角色声纹列表。
的待处理视频帧数据对应的音频帧数据作为声纹采集时长对应的待处理音频帧数据;
目标视频中的N个角色的声纹信息;
示区域中输出角色声纹列表。
进行赘述。
列表的具体过程的描述,这里将不再继续进行赘述。
继续对其进行赘述。
包含第一帧视频数据对应的第一音频帧数据;
频数据流;
进行赘述。
面;业务切换指令用于指示业务服务器从用户行为数据库中获取目标用户的历史行为信
息;
段。
一显示区域中的第二播放子界面上对目标推荐视频片段进行播放;
到的目标视频帧数据所对应的目标音频帧数据发送给业务服务器,以使业务服务器对目标
音频帧数据进行声纹分析,以得到目标推荐视频片段中的K个可替换声纹信息;K为正整数;
纹信息相关联的N个角色的声纹信息;
息之间的替换关系表;替换关系表中包含M个替换提示信息;一个替换提示信息用于表征目
标可替换声纹信息与一个角色的声纹信息之间的替换关系;M为小于或者等于N的正整数;
标替换提示信息。
确认操作时,在第一显示区域中输出携带录音采集时长的录音控件;
业务服务器对目标音频帧数据进行声纹分析,得到目标用户的声纹信息;
选的,数据获取模块14、数据输出模块15、业务切换模块16、推荐数据获取模块17、推荐视频
播放模块18、目标视频截取模块19、替换列表确定模块20、列表替换模块21、替换区域输出
模块22、替换关系配置模块23、声纹替换模块24、替换关系解除模块25、录音控件输出模块
26、用户音频获取模块27、用户声纹添加模块28的具体实现方式,可以参见上述图7所对应
实施例中对步骤S201‑步骤S215的描述,这里将不再继续进行赘述。另外,对采用相同方法
的有益效果描述,也不再进行赘述。
的用户终端3000a,可选的,该计算机设备1000还可以为业务服务器,该业务服务器可以为
上述图1所对应实施例中的业务服务器2000。为便于理解,本申请实施例以该计算机设备为
用户终端为例。此时。该计算机设备1000可以包括:处理器1001,网络接口1004和存储器
1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其
中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏
(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网
络接口1004可选的可以包括标准的有线接口、无线接口(如WI‑FI接口)。存储器1005可以是
高速RAM存储器,也可以是非不稳定的存储器(non‑volatile memory),例如至少一个磁盘
存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图
17所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户
接口模块以及设备控制应用程序。
中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;
而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
数;
据处理装置1的描述,还可执行前文图16所对应实施例中对视频数据处理装置2的描述,在
此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3或图7所
对应实施例中对视频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同
方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未
披露的技术细节,请参照本申请方法实施例的描述。
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机
指令,使得该计算机设备执行前文图3或图7所对应实施例中对视频数据处理方法的描述,
因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于
本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的
描述。
该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、
只读存储记忆体(Read‑Only Memory,ROM)或随机存储记忆体(Random Access Memory,
RAM)等。