基于视频教学的交互方法、装置、设备及存储介质转让专利

申请号 : CN202311228761.8

文献号 : CN116980654B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘孟姣孙健张远

申请人 : 北京小糖科技有限责任公司

摘要 :

本发明公开了一种基于视频教学的交互方法、装置、设备及存储介质,涉及图像通信技术领域,用以解决视频教学过程中的视频画面不能满足用户学习的问题。应用于服务端的方法包括:基于目标视频标识获取与目标视频对应的动作序列数据;基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据;以及将目标动作序列数据发送给发出所述视频请求的客户端;或者基于目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端。本发明公开的实施例能够通过在视频教学过程中与用户的互动对教学视频进行处理,解决了学习用户无法看清教学内容的问题。

权利要求 :

1.一种基于视频教学的交互方法,其特征在于,应用于服务端,在目标视频播放过程接收到来自客户端的视频请求时,包括:从所述视频请求中获取目标视频标识及视频处理参数;

基于目标视频标识获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;

基于所述视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据;以及将所述目标动作序列数据发送给发出所述视频请求的客户端;或者,基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端;

其中,基于所述视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据的步骤包括:识别目标视频中的目标对象的视觉方位;

获取相同视觉方位的目标对象的原始动作序列数据;以及

基于所述视频处理参数对所述原始动作序列数据中每个视频帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每个视频帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。

2.根据权利要求1所述的基于视频教学的交互方法,其特征在于,在生成虚拟数字人动作视频之后进一步包括:将所述虚拟数字人动作视频与所述目标视频合成在一起生成第一合成视频,将所述第一合成视频作为被请求视频发送给发出所述视频请求的客户端。

3.根据权利要求1所述的基于视频教学的交互方法,其特征在于,在所述视频处理参数为多个时,分别基于不同的视频处理参数和所述原始动作序列数据得到多个目标动作序列数据;或者基于所述视频处理参数和与目标视频对应的多个不同视觉方位的原始动作序列数据得到多个目标动作序列数据;

对应地,基于所述多个目标动作序列数据驱动虚拟数字人以生成多个虚拟数字人动作视频。

4.根据权利要求3所述的基于视频教学的交互方法,其特征在于,在生成多个虚拟数字人动作视频后将所述多个虚拟数字人动作视频合成第二合成视频,将所述第二合成视频作为被请求视频发送给发出所述视频请求的客户端;或者将所述多个虚拟数字人动作视频和目标视频合成第三合成视频,将所述第三合成视频作为被请求视频发送给发出所述视频请求的客户端。

5.根据权利要求1所述的基于视频教学的交互方法,其特征在于,所述的视频处理参数至少包括旋转角度、放大倍数、局部放大部位、画面结构和虚拟数字人形象中的一者或多者。

6.根据权利要求5所述的基于视频教学的交互方法,其特征在于,当所述的视频处理参数包括局部放大部位时,在生成虚拟数字人动作视频时,以所述局部放大部位作为视频画面的中心;和/或,在生成虚拟数字人动作视频时,对所述局部放大部位进行圈出显示,并对所述局部放大部位之外的区域进行淡化或模糊处理。

7.根据权利要求1所述的基于视频教学的交互方法,其特征在于,进一步包括:基于目标视频提供用户的授权,按照目标视频中的目标对象生成虚拟数字人形象;或者采用与目标视频中的目标对象同类的虚拟数字人形象;或者采用视频处理参数中用户指定的虚拟数字人形象。

8.一种基于视频教学的交互方法,其特征在于,应用于客户端,所述方法包括:

响应于在目标视频播放过程中接收到用户的视频处理指令,从服务端获取与目标视频对应的动作序列数据,其中所述的视频处理指令中包括视频处理参数,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;

响应于从服务端获取的所述动作序列数据为与目标视频对应的原始动作序列数据,基于所述视频处理参数处理所述原始动作序列数据得到目标动作序列数据;

基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;

响应于从服务端获取的所述动作序列数据为经过服务端基于所述视频处理参数处理过的目标动作序列数据,基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;以及播放所述被请求视频;

其中,基于所述视频处理参数处理与目标视频对应的原始动作序列数据以得到目标动作序列数据的步骤包括:分别识别目标视频中的目标对象的第一视觉方位和原始动作序列数据的第二视觉方位;

响应于所述第二视觉方位和所述第一视觉方位相同,基于所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据;

响应于所述第二视觉方位和所述第一视觉方位不相同,计算第二视觉方位和所述第一视觉方位的方位差;以及基于所述方位差和所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。

9.根据权利要求8所述的基于视频教学的交互方法,其特征在于,在生成虚拟数字人动作视频之后进一步包括:将所述虚拟数字人动作视频与所述目标视频合成在一起生成第一合成视频,将所述第一合成视频作为被请求视频。

10.根据权利要求8所述的基于视频教学的交互方法,其特征在于,当目标动作序列数据为多个时,分别基于所述多个目标动作序列数据驱动虚拟数字人以生成多个虚拟数字人动作视频;其中,每个目标动作序列数据对应于一个或多个视频处理参数,或者每个目标动作序列数据的视觉方位不同。

11.根据权利要求10所述的基于视频教学的交互方法,其特征在于,在生成多个虚拟数字人动作视频后进一步包括:将所述多个虚拟数字人动作视频合成第二合成视频,将所述第二合成视频作为被请求视频;或者将所述多个虚拟数字人动作视频和目标视频合成第三合成视频,将所述第三合成视频作为被请求视频。

12.根据权利要求8所述的基于视频教学的交互方法,其特征在于,所述的视频处理参数至少包括旋转角度、放大倍数、局部放大部位、画面结构和虚拟数字人形象中的一者或多者。

13.根据权利要求12所述的基于视频教学的交互方法,其特征在于,当所述的视频处理参数包括局部放大部位时,在生成虚拟数字人动作视频时,以所述局部放大部位作为视频画面的中心;和/或,在生成虚拟数字人动作视频时,对所述局部放大部位进行圈出显示,并对所述局部放大部位之外的区域进行淡化或模糊处理。

14.根据权利要求8所述的基于视频教学的交互方法,其特征在于,进一步包括:基于目标视频提供用户的授权,按照目标视频中的目标对象生成虚拟数字人形象;或者采用与目标视频中的目标对象同类的虚拟数字人形象;或者采用视频处理参数中用户指定的虚拟数字人形象。

15.根据权利要求8所述的基于视频教学的交互方法,其特征在于,进一步包括:与所述目标视频同步播放所述被请求视频。

16.根据权利要求8所述的基于视频教学的交互方法,其特征在于,在目标视频播放过程中进一步包括:提供视频处理参数选项,对应地,基于用户对视频处理参数选项中的设置获取相应的视频处理参数。

17.根据权利要求8所述的基于视频教学的交互方法,其特征在于,在目标视频播放过程中进一步包括:捕获用户对当前设备屏幕的操作,基于屏幕操作对应的预置参数类型确定对应的视频处理参数。

18.一种基于视频教学的交互装置,其特征在于,应用于服务端,包括:

参数获取模块,经配置以从客户端发送的视频请求中获取目标视频标识及视频处理参数;

动作序列数据处理模块,经配置基于目标视频标识获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;基于所述视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据;以及请求响应模块,经配置以将所述目标动作序列数据发送给发出所述视频请求的客户端,或者基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端;

其中,基于所述视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据的步骤包括:识别目标视频中的目标对象的视觉方位;

获取相同视觉方位的目标对象的原始动作序列数据;以及

基于所述视频处理参数对所述原始动作序列数据中每个视频帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每个视频帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。

19.一种基于视频教学的交互装置,其特征在于,应用于客户端,包括:

用户操作获取模块,经配置以在目标视频播放过程监视用户操作以接收用户的视频处理指令,并从所述视频处理指令中至少获取视频处理参数;

数据请求模块,经配置以响应在目标视频播放过程接收到用户的视频处理指令,从服务端获取与目标视频对应的动作序列数据,其中所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;

数据处理模块,经配置以响应于从服务端获取的所述动作序列数据为与目标视频对应的原始动作序列数据,基于所述视频处理参数处理所述原始动作序列数据得到目标动作序列数据;

视频生成模块,经配置以基于所述数据处理模块得到的目标动作序列数据或者从服务端接收的目标动作序列数据,驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;以及播放模块,经配置以播放所述被请求视频;

其中,基于所述视频处理参数处理所述原始动作序列数据得到目标动作序列数据的步骤包括:分别识别目标视频中的目标对象的第一视觉方位和原始动作序列数据的第二视觉方位;

响应于所述第二视觉方位和所述第一视觉方位相同,基于所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据;

响应于所述第二视觉方位和所述第一视觉方位不相同,计算第二视觉方位和所述第一视觉方位的方位差;以及基于所述方位差和所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。

20.一种电子设备,其特征在于,所述电子设备包括处理器以及存储有计算机程序指令的存储器;所述电子设备执行所述计算机程序指令时实现如权利要求1‑7中任一项所述的应用于服务端的基于视频教学的交互方法,或实现如权利要求8‑17中任一项所述的应用于客户端的基于视频教学的交互方法。

21.一种计算机可读存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1‑7中任一项所述的应用于服务端的基于视频教学的交互方法,或实现如权利要求8‑17中任一项所述的应用于客户端的基于视频教学的交互方法。

说明书 :

基于视频教学的交互方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及图像通信技术领域,尤其涉及一种基于视频教学的交互方法、装置、设备及存储介质。

背景技术

[0002] 随着互联网技术的发展,人们通过网络学习各种各样的知识变得越来越便利,并且,随着基于各类不同平台的应用(APP)的兴起以及视频技术的发展,通过视频传授或学习知识成为越来越普遍的一种教学方式。例如,内容提供用户录制各种教学视频上传到某些平台,利用平台资源推送给学习用户,学习用户可以通过观看教学视频学习相关知识。所述教学视频内容例如为面向学生的各个学科内容,或者面向普通公众的厨艺、园艺、舞蹈、书法、针织、乐器演奏等等。
[0003] 对于向学习者传授特定动作的教学视频,例如编织教学视频、舞蹈教学视频、书法教学视频、乐器的弹奏教学视频等等,内容提供用户通常采用一定的视频录制方法向学习者展示要学习的动作。以舞蹈为例,舞蹈教学视频中通常首先提供舞蹈演示者的正面跳舞教学演示,而后再一边演示动作,一边讲解。有些舞蹈教学视频中,为了方便学习者能够观看到舞蹈演示者正面视角之外的身体部位的动作,通常会辅助镜子,在正面视角演示舞蹈动作的同时也能够从背面视角演示舞蹈动作,从而帮助学习者正确地掌握动作要领。在另外一些舞蹈教学视频中,还会包括舞蹈演示者对舞蹈动作的分组演示和讲解。同理,对于其他内容的教学视频,也有类似的内容,如小提琴演奏时的指法、位置等等。
[0004] 随着终端技术和互联网应用技术的发展,越来越多的平台采用终端,尤其是移动终端,作为应用(APP)的载体,因而前述的教学视频的主要载体也是移动终端,由于移动终端的普及性及便携性,为学习者观看教学视频、学习特定动作提供了便利条件,降低了学习门槛,以舞蹈为例,舞蹈爱好者除了选择进入专业的舞蹈班,在现场跟着舞蹈老师学习,也可以利用手机、平板电脑等跟着舞蹈教学视频学习。
[0005] 然而,学习者通过平台使用这类教学视频学习时时常会遇到一些不便,例如,由于终端屏幕过小,导致学习者看不清楚教学视频中展示的内容。当然,用些平台会提供画面放大功能,然而,所述的画面放大功能仅仅是对视频画面的整体进行放大,而对于学习者而言,这种放大并不能针对学习者想要放大部位进行放大,甚至于在画面整体放大后使学习希望放大的部位超出了当前画面,另外,由于角度问题造成的不清楚问题,即使进行了画面放大也不能解决。从而可见,为了向学习用户提供更好的服务,目前的这类平台及应用还存在着改进之处。

发明内容

[0006] 有鉴于此,本发明实施例提供一种基于视频教学的交互方法、装置、电子设备及存储介质,用以解决视频教学过程中的视频画面不能满足用户学习的技术问题。
[0007] 第一方面,本发明实施例提供了一种基于视频教学的交互方法,应用于服务端,在目标视频播放过程接收到来自客户端的视频请求时,包括:
[0008] 从所述视频请求中获取目标视频标识及视频处理参数;
[0009] 基于目标视频标识获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;
[0010] 基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据;以及
[0011] 将所述目标动作序列数据发送给发出所述视频请求的客户端;或者,基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端。
[0012] 第二方面,本发明实施例还提供了另一种基于视频教学的交互方法,应用于客户端,所述方法包括:
[0013] 响应于在目标视频播放过程接收到用户的视频处理指令,从服务端获取与目标视频对应的动作序列数据,其中所述的视频处理指令中包括视频处理参数,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;
[0014] 响应于从服务端获取的所述动作序列数据为与目标视频对应的原始动作序列数据,基于所述视频处理参数处理所述原始动作序列数据得到目标动作序列数据;
[0015] 基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;
[0016] 响应于从服务端获取的所述动作序列数据为经过服务端基于所述视频处理参数处理过的目标动作序列数据,基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;以及播放所述被请求视频。
[0017] 第三方面,本发明实施例提供了一种基于视频教学的交互装置,应用于服务端,包括参数获取模块、动作序列数据处理模块和请求响应模块,其中,所述参数获取模块经配置以从客户端发送的视频请求中获取目标视频标识及视频处理参数;所述动作序列数据处理模块经基于目标视频标识获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据;所述请求响应模块经配置以将所述目标动作序列数据发送给发出所述视频请求的客户端,或者将所述虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端。
[0018] 第四方面,本发明实施例还提供了一种基于视频教学的交互装置,应用于客户端,包括用户操作获取模块、数据请求模块、数据处理模块、视频生成模块和播放模块,其中,所述用户操作获取模块经配置以在目标视频播放过程监视用户操作以接收到用户的视频处理指令,并从所述视频处理指令中至少获取视频处理参数;所述数据请求模块经配置以响应在目标视频播放过程接收到用户的视频处理指令,从服务端获取与目标视频对应的动作序列数据,其中所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成;所述数据处理模块经配置以响应于从服务端获取的所述动作序列数据为与目标视频对应的原始动作序列数据,基于所述视频处理参数处理所述原始动作序列数据得到目标动作序列数据;所述视频生成模块经配置以基于所述数据处理模块得到的目标动作序列数据或者从服务端接收的目标动作序列数据,驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频;所述播放模块经配置以播放所述被请求视频。
[0019] 第五方面,本发明实施例还提供了一种电子设备,所述电子设备包括处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如上所述的应用于服务端或应用于客户端的基于视频教学的交互方法。
[0020] 第六方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上所述的应用于服务端或应用于客户端的基于视频教学的交互方法。
[0021] 本发明在视频教学过程中通过与用户的互动对教学视频进行处理,解决了学习用户在观看教学视频时由于屏幕小、拍摄角度等问题而无法看清教学内容的问题。

附图说明

[0022] 为了更清楚地说明本发明实施例的技术方案,以下对本发明实施例中的附图作简单介绍。
[0023] 图1是根据本发明一个实施例的视频应用系统原理框架图。
[0024] 图2是根据本发明一个实施例的一种基于视频教学的处理方法流程图。
[0025] 图3是根据本发明一个实施例的舞蹈教学视频中舞者动作序列数据的生成方法流程图。
[0026] 图4是根据本发明一个实施例基于旋转参数对目标舞蹈视频进行旋转处理的方法流程图。
[0027] 图5是根据本发明应用实施例一的基于视频教学的交互方法流程图。
[0028] 图6是根据本发明一个实施例终端设备屏幕的播放画面结构示意图。
[0029] 图7是根据本发明另一个实施例终端设备屏幕的播放画面结构示意图。
[0030] 图8是根据本发明应用实施例二的基于视频教学的交互方法流程图。
[0031] 图9是根据本发明应用实施例二客户端基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据的方法流程图。
[0032] 图10是根据本发明一个实施例的应用于服务端的基于视频教学的第一交互装置100的原理框图。
[0033] 图11是根据本发明一个实施例的应用于客户端的基于视频教学的第二交互装置200的原理框图。
[0034] 图12是根据本发明一个实施例的电子设备的硬件结构示意图。

具体实施方式

[0035] 以下将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,提供这些实施方式的目的是为了使本发明的原理和精神更加清楚和透彻,使本领域技术人员能够更好地理解进而实现本发明的原理和精神。本文中提供的示例性实施方式仅是本发明的一部分实施方式,而不是全部的实施方式。基于本文中的实施方式,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0036] 本领域技术人员知晓,本发明的实施方式可以实现为一种方法、装置、系统、设备、计算机可读存储介质或计算机程序产品。因此,本公开可以具体实现为以下至少一种形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件与软件结合的形式。
[0037] 在本文中,诸如第一、第二之类的用语,仅用来将一个实体(或操作)与另一个实体(或操作)区分开来,而不在于要求或暗示这些实体(或操作)之间存在任何顺序或关联。在本文中,由语句“包括……”所限定的要素(例如部件、组分、过程、步骤),并不排除在所列举要素之外还存在其他要素,也就是,还可包括没有明确列举的其他要素。在本文中,附图中的任何元素及其数量均用于示例而非限制,附图中的任何命名均仅用于区分,而不具有任何限制含义。
[0038] 以下参考本发明的若干示例性或代表性实施方式,详细阐释本发明的原理和精神。
[0039] 本发明为了解决学习用户在观看教学视频时由于屏幕小、拍摄角度等问题而无法看清教学内容的问题,提供了一种基于视频教学的交互方法、装置、电子设备及存储介质,用于在视频教学过程中通过与用户的互动对教学视频进行处理以满足用户对教学视频画面的要求。
[0040] 图1是根据本发明一个实施例的视频应用系统原理框架图。所述视频应用系统包括终端设备102和服务器104。其中,终端设备102可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式电脑、智能电视等等。终端设备102上安装有视频应用客户端,视频应用客户端可以为提供与视频应用的客户端,或者为内嵌有应用小程序(不同功能)的客户端,还可以是通过浏览器登录的客户端。用户可以在终端设备102上进行操作,比如,用户可以打开终端设备102上安装的客户端,通过客户端操作输入指令,或者,用户可以打开终端设备102上安装的浏览器,并通过浏览器操作输入指令。在终端设备102接收到用户输入的指令之后,将包含指令的请求信息发送至作为视频应用服务端的服务器104。服务器104接收到请求信息之后执行相应的处理,然后将处理结果信息返回给终端设备102。通过一系列数据处理和信息交互完成用户指令。本实施例中的所述视频应用系统作为一个平台,能够为用户提供各种各样的教学视频或者某个特定领域的教学视频。例如,提供各种针织针法的教学视频、舞蹈视频、乐器教学视频等等。所述视频应用系统的用户包括两类,一类是视频提供用户,一类是视频应用用户。其中的视频提供用户制作教学视频,并上传给服务器104,服务器104将视频提供用户制作的教学视频存储在数据库106中,并按照预置的业务逻辑发布到客户端。在视频应用用户可以通过安装在其终端设备102上的客户端浏览、播放教学视频。
[0041] 图2是根据本发明一个实施例的一种基于视频教学的处理方法流程图,所述方法包括:
[0042] 步骤S110,从所述视频请求中获取目标视频标识及视频处理参数。
[0043] 步骤S120,基于目标视频标识获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成。在以下的说明中,将动作序列数据中的一帧称为动作帧,所述动作帧与目标视频的视频帧相对应,具有相同的时间信息和帧id。
[0044] 步骤S130,基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据。
[0045] 步骤S140,基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频。
[0046] 步骤S150,将所述虚拟数字人动作视频作为被请求视频进行播放。
[0047] 其中,图2所示的方法流程可基于图1所示的系统实现,例如,数据库106中存储有各种数据,如各类视频提供用户制作的教学视频、用户的个人数据、业务处理过程中的中间数据等等,服务器104与终端设备102相互配合从而实现图2所示的方法。例如,服务器104在接收到来自终端设备102中客户端的视频请求时执行步骤S110至步骤S140得到虚拟数字人动作视频,并发送给客户端,客户端执行步骤S150。或者,服务器104执行步骤S110至步骤S130得到目标动作序列数据,将目标动作序列数据发送给客户端,由客户端执行步骤S140得虚拟数字人动作视频,并执行步骤S150。或者,服务器104执行步骤S110至步骤S120得到与目标视频对应的动作序列数据,将动作序列数据发送给客户端,由客户端执行步骤S130至步骤S150。视频应用用户在观看教学视频学习时,当看不清动作时,通过设置对当前正在观看的目标视频的处理参数,如旋转角度、放大倍数、局部放大部位等等,经过图2所示的处理方法则可以得到符合其设置的视频处理参数的视频,从而满足了视频应用用户对教学视频的要求,提升了用户的应用体验。
[0048] 对于服务器104而言,其管理的教学视频包括已经存储到数据库106中的视频,该类教学视频称为存量视频;其管理的教学视频还包括在预定时间段内新接收到的教学视频,如每天24小时内新接收到的教学视频,这类教学视频称为增量视频。对于存量视频,服务器104对每一存量视频进行处理得到视频的目标对象的动作序列数据,在一个可选的实施例中,还根据视频中目标对象的动作类型,处理得到多个视角或视角方位的动作序列数据。例如,对舞蹈视频,分别处理得到视频中舞者正面、背面或侧面的动作序列数据。对于烹饪教学视频,分别处理得到视频中厨师切菜的正面、侧面及俯视的动作序列数据。对于增量视频,服务器104定时对增量视频进行处理,从而得到每一个增量视频的一个或多个动作序列数据。当然,终端设备102中客户端也可以对视频进行处理得到视频中的目标对象的动作序列数据。
[0049] 图3是根据本发明一个实施例的舞蹈教学视频中舞者动作序列数据的生成方法流程图。所述方法简要包括以下步骤:
[0050] 步骤S111,根据骨骼节点识别算法和视频中舞者的特征数据生成舞者第一动作序列数据,第一动作序列数据中的每一帧数据包括帧id,时间点信息和骨骼相邻关节点坐标向量(包括关节点名称、关节点三维坐标)。其中本实施例使用骨骼的关节点作为骨骼关键点用以表示动作。每个动作帧的动作序列数据的存储格式例如为:[帧id:xx;时间信息:xx;关节1名称:相邻关节点三维坐标;关节2名称:相邻关节点三维坐标……]。
[0051] 步骤S112,识别舞者在目标视频中的视觉方位。在本实施例中,将舞者在目标视频中的视觉方位预置为三种:正面、背面和侧面。为了判断舞者在目标视频中的视觉方位,从目视频中抽取预置数量的视频帧(如100帧)作为识别的工作帧,识别每一工作帧中舞者的面部特征,本实施将面部特征也分为正面、背面和侧面三类,当包括某一类的面部特征的工作帧数量所占全部工作频数量的比例高于阈值(如,70%)时,确定舞者在目标视频中的视觉方位与其面部特征类型相同,或者为正面,或者为背面,或者为侧面。
[0052] 步骤S113,基于舞者在目标视频中的视觉方位和目标方位,对第一动作序列数据进行转换得到对应的第二动作序列数据。例如,当舞者在目标视频中的视觉方位为正面、目标方位为背面时,需要将舞者的形体沿Y轴顺时针旋转180度,因而,可以将正面的第一动作序列数据中的各关节点三维坐标(x,y,z)转换为(‑x,y,‑z),即可以得到背面的第二动作序列数据;当舞者在目标视频中的视觉方位为正面、目标方位为侧面时,需要将舞者的形体沿Y轴顺时针旋转90度或270度,可以将正面的第一动作序列数据中的各关节点三维坐标(x,y,z)转换为(‑z,y,x)或(z,y,‑x),因而获取侧面的第三动作序列数据。
[0053] 对于一个舞蹈视频,经过上述处理可以得到正面的第一动作序列数据、背面的第二动作序列数据和侧面的第三动作序列数据。对于其他动作类的视频,依据需要得到不同视角、或不同视觉方位的动作序列数据。例如,对于编制类视频,可以得到正面的第一动作序列数据和从上向下俯视的第二动作序列数据。
[0054] 在步骤S130中,当视频处理参数不同时,对目标视频对应的动作序列数据的处理不同。例如,当视频处理参数为旋转时,此时包括旋转方向和旋转角度,其中旋转方向例如分为顺时针和逆时针。此时的目标视频对应的动作序列数据包括正面、背面和侧面。参见图4,图4是根据本发明一个实施例基于旋转参数对目标舞蹈视频进行旋转处理的方法流程图。在本实施例中,假设视频处理参数为沿Y轴顺时针旋转β度。所述处理方法包括以下步骤:
[0055] 步骤S131,识别目标舞蹈视频中的目标对象的视觉方位。
[0056] 步骤S132,判断目标对象的视觉方位是正面还是背面,如果是正面,则执行步骤S133,如果是背面,则执行步骤S135。
[0057] 步骤S133,获取正面的原始动作序列数据。
[0058] 步骤S134,基于公式(1‑1)和(1‑2)计算每个动作帧中各个骨骼关节点的三维坐标中的x坐标和z坐标,将各关节点三维坐标(x,y,z)转换为(x_change,y,z_change),完成该动作序列数据的处理。
[0059]            (1‑1)
[0060]            (1‑2)
[0061] 步骤S135,获取背面的原始动作序列数据。
[0062] 步骤S136,基于公式(1‑3)和(1‑4)计算每个动作帧中各个骨骼关节点的三维坐标中的x坐标和z坐标,将各关节点三维坐标(x,y,z)转换为(x_change,y,z_change),完成该动作序列数据的处理。
[0063]          (1‑3)
[0064]      (1‑4)
[0065] 经过逐帧计算每一帧中的坐标得到了目标动作序列数据。
[0066] 当视频处理参数为放大倍数时,参数中通常还对应包括放大位置,所述放大位置例如为用户指定位置,或者为一个预置位置,其中以用户指定位置优先。在基于放大倍数进行处理时,与如图4中的流程相似,首先识别出目标视频中的目标对象的视觉方位,对相同视觉方位的原始动作序列数据进行处理。
[0067] 在一个实施例中,在对正面的原始动作序列数据进行放大处理时,假设原始动作序列数据中每个动作帧中的一个关节点三维坐标为(x,y,z)。首先基于坐标原点将序列中的数据在三维空间中等比例放大,放大倍数为α。然后以所指定位置的坐标作为原点,对等比例放大的数据进行重定向,从而得到转换后的三维坐标(x_big, y_big, z_big),具体地,参考以下公式(2‑1)、(2‑2)、( 2‑3)进行计算:
[0068]              (2‑1)
[0069]               (2‑2)
[0070]                         (2‑3)
[0071] 其中,W为目标视频中目标对象(如舞蹈视频中的舞者)向上高举手臂状态时的高度、H为目标视频中目标对象双臂张开状态宽度,μ和δ分别为水平移动系数和垂直移动系数。放大位置与系数关系如下表1所示:
[0072] 表1
[0073]
[0074] 例如,当放大位置为全身时,则坐标放大α倍后保持不变,对应的三维坐标为 (αx,αy,αz)。
[0075] 当放大位置为上半身时,则需将坐标沿Y轴下移,对应的三维坐标为 (αx,αy ‑αH/2,αz)。
[0076] 当放大位置为下半身时,则需将坐标沿Y轴上移,对应的三维坐标为 (αx,αy+αH/2,αz)。
[0077] 当放大位置为舞者的左胳膊、左手腕等左侧上半身关节,则坐标沿X轴左移并沿Y轴下移,对应的三维坐标为(αx ‑αW/2,αy ‑αH/2,αz),依次类推。
[0078] 视频处理参数既包括旋转参数又包括放大参数时,可以先进行放大处理,而后再进行旋转处理。
[0079] 当原始动作序列数据有多个时,分别以原始动作序列数据进行处理得到多个目标动作序列数据。相应地,在步骤S140中,基于所述多个目标动作序列数据驱动虚拟数字人以生成多个虚拟数字人动作视频。
[0080] 在一个实施例中,本发明提供有多种预置的虚拟数字人形象,例如,民族舞女性形象、民族舞男性形象、街舞少年男性形象、芭蕾舞女性形象、男性形象等等。在有目标视频提供用户授权的情况下,采集目标对象的骨骼数据、皮肤数据、服装数据等以构成目标对象形象的虚拟数字人形象。在步骤S140,在基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频时,如果有目标视频提供用户的授权,则按照目标视频中的目标对象生成虚拟数字人形象;如果没有授权,则采用与目标视频中的目标对象同类的虚拟数字人形象。
[0081] 在一个进一步的实施例中,当视频处理参数中包括有局部放大部位时,在生成虚拟数字人动作视频时,以所述局部放大部分作为视频画面的中心,从而使得生成的虚拟数字人动作视频画面中保留了用户希望放大的部分的动作。在另一个进一步实施例中,在生成虚拟数字人动作视频时,对所述局部放大部位进行圈出显示,并对所述局部放大部位之外的区域进行淡化或模糊处理,从而重点突出放大部分,并弱化其他部分,使得放大后的视频画面重点突出。
[0082] 在客户端执行步骤S150,将所述虚拟数字人动作视频作为被请求视频进行播放时,可以有多种不同的播放模式,例如,当只得到一个虚拟数字人动作视频时,使虚拟数字人动作视频与目标视频同步播放或者只播放虚拟数字人动作视频。其中,在同步播放时,可以在不同的窗口播放,也可以将二者合成在一起,在一个窗口中播放。
[0083] 当得到多个虚拟数字人动作视频时,可以将多个虚拟数字人动作视频合成在一起构成一个第二合成视频,将第二合成视频作为被请求视频与目标视频同步播放,或者只播放作为被请求视频的第二合成视频。
[0084] 也可以将所述多个虚拟数字人动作视频和目标视频合成一个第三合成视频,将第三合成视频作为被请求视频进行播放。
[0085] 在上各个视频的合成过种中按照时间信息进行合成,因而合成视频中的多个同一目标对象的动作同步进行,从而可以使学习者方便地看到其想要看到的放大动作、转过一定角度后的动作等等。
[0086] 应用实施例一
[0087] 图5是根据本发明应用实施例一的基于视频教学的交互方法流程图。在本应用实施例中,终端设备102中安装有视频应用客户端,服务器104中安装有视频应用服务端。所述方法包括以下步骤:
[0088] 步骤S101a,用户通过点击终端设备102屏幕中的视频应用图标启动视频应用。
[0089] 终端设备102中的客户端在接收到用户的启动指令后,在步骤S201a,与服务器104中的服务端交互完成所述视频应用的启动,在视频应用启动后,服务端向客户端推送视频数据,用户可浏览相应的视频列表,并能够通过点击某个视频进行播放。
[0090] 步骤S102a,用户选择一个视频作为目标视频并点击播放按键。
[0091] 步骤S202a,客户端基于用户的播放操作向服务端发送目标视频数据请求。
[0092] 服务端基于目标视频数据请求在步骤S301a从数据库106中读取目标视频数据,并在步骤S302a将目标视频数据发送给所述客户端。
[0093] 步骤S203a,客户端接收目标视频数据并播放所述目标视频,同时提供视频处理参数选项。在一个实施例中,为了方便用户设置视频处理参数,客户端提供参数设置按钮,并以菜单列表的方式提供各种可供设置的参数项。参数项包括但不限于:
[0094] 1)旋转角度(基于正面,顺时针旋转0度、30度、60度、90度等,并可输入所需角度值);
[0095] 2)放大位置(全身、上半身、下半身、左胳膊、左手腕等关节);
[0096] 3)放大倍数(1倍、1.5倍、2倍等);
[0097] 4)舞者形象(虚拟数字人形象A、虚拟数字人形象B、作者形象、已授权等);
[0098] 5)画面结构(正面+旋转/放大、背面+旋转/放大、正面+背面+旋转/放大等)。
[0099] 前述的各种参数项均包括有默认参数值,在用户选择了该参数项又未确定具体的参数值时,采用默认参数值。
[0100] 在另一个实施例中,客户端捕获用户对当前设备屏幕的操作,基于屏幕操作对应的预置参数类型确定对应的视频处理参数。例如,对屏幕的两个接触点同时向外滑动的屏幕操作确定为“放大”,两点连线的中点为放大位置,两个接触点的滑动距离的平均值作为放大倍数。又例如,单个接触点的顺时针或逆时针的弧形滑动的屏幕操作确定为“旋转”,接触点为旋转基点,弧形滑动的方向为旋转方向,弧形滑动的角度作为旋转角度。通过对屏幕操作的捕捉与计算同样可以确定用户设置的视频处理参数,而且简化了参数的设置步骤,方便用户操作。
[0101] 步骤S103a,用户设置视频处理参数,例如放大倍数、旋转角度等等。
[0102] 步骤S204a,客户端向服务端发送视频请求,其中包括视频处理参数。
[0103] 服务端接收到客户端发送的视频请求后,在步骤S303a从所述视频请求中获取目标视频标识及视频处理参数。
[0104] 步骤S304a,服务端基于目标视频标识获取与目标视频对应的动作序列数据。在数据库106中没有与目标视频对应的动作序列数据时,基于图3所示流程对目标视频进行处理得到一个或多个动作序列数据。
[0105] 步骤S305a,服务端基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据,处理过程参见前述说明,在此不再赘述,此时得到一个或多个目标动作序列数据。
[0106] 步骤S306a,服务端将所述目标动作序列数据发送给发出所述视频请求的客户端。
[0107] 步骤S205a,客户端接收到所述目标动作序列数据后,基于目标所述动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频。其中,当有多个目标动作序列数据时,生成多个虚拟数字人动作视频。
[0108] 步骤S206a,播放所述虚拟数字人动作视频。客户端以默认的画面结构播放目标视频和虚拟人动作视频,例如,当目标视频为正面视觉方位时,同步播放正面和旋转或放大的视频,当目标视频为背面视觉方位时,同步播放背面和旋转或放大,参见图6,图6是根据本发明一个实施例终端设备屏幕的播放画面结构示意图。或者是正面、背面和旋转/放大的视频同步播放,参见图7,图7是根据本发明另一个实施例终端设备屏幕的播放画面结构示意图。当然,画面结构也可以作为一种视频播放参数,由用户设置,当用户设置了视频播放参数中的画面结构,优先采用用户设置的画面结构。所述的画面结构可以是多个播放窗口构成,也可以是一个播放窗口播放的合成视频。在合成视频时,根据画面结构的布局进行合成。
[0109] 应用实施例二
[0110] 图8是根据本发明应用实施例二的基于视频教学的交互方法流程图。在本应用实施例中,终端设备102中安装有视频应用客户端,服务器104中安装有视频应用服务端。本实施例中的整体交互步骤应用实施例一相同,不同在于,客户端在步骤S204b发送视频请求时,视频请求中没有包括视频处理参数,服务端在得到与目标视频对应的动作序列数据后,在步骤S305b,将与目标视频对应的动作序列数发送给客户端。在步骤S205b,客户端基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据。图9是根据本发明应用实施例二客户端基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据的方法流程图。所述方法包括以下步骤:
[0111] 步骤S2051b,分别识别目标视频中的目标对象的第一视觉方位和原始动作序列数据的第二视觉方位。
[0112] 步骤S2052b,判断所述第二视觉方位和所述第一视觉方位是否相同,如果相同,则在步骤S2053b,基于所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据;如果所述第二视觉方位和所述第一视觉方位不相同,则在步骤S2054b,计算第二视觉方位和所述第一视觉方位的方位差。
[0113] 步骤S2055b,基于所述方位差和所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。
[0114] 当有多个原始动作序列数据时,先计算与目标视频中的目标对象的第一视觉方位相同的原始动作序列数据,而后再基于其他原始动作序列的视觉方位与目标视频中的目标对象的第一视觉方位的方位差,基于方位差和视频处理参数对其他原始动作序列数据进行计算,从而得到多个目标动作序列数据。
[0115] 而后在步骤S206b,客户端基于所述目标动作序列数据驱动虚拟数字人生成相应的虚拟数字人动作视频。
[0116] 其中,当有多个目标动作序列数据时,生成多个虚拟数字人动作视频。在步骤S207b,播放所述虚拟数字人动作视频。其中,由于基于视频处理参数处理处理目标视频对应的动作序列数据以得到目标动作序列数据的步骤在客户端完成,因而客户端在步骤S204b发送视频请求时,仅在请求中包括目标视频标识,而不包括视频处理参数。其他步骤,如用户实施的步骤S101b至步骤S103b、客户端实施的步骤S201b至步骤S204b和服务端实施的步骤S301b至步骤S304b等与应用实施例一相同,在此不再赘述。
[0117] 另外,在以上两个应用实施例中,当服务端的数据库106中没有与目标视频对应的动作序列数据时,可由服务端或客户端对目标视频进行处理以得到相应的动作序列数据,而后再根据视频处理参数对动作序列数据进行处理。
[0118] 在另一方面,本发明还提供了一种基于视频教学的交互装置,参见图10,图10是根据本发明一个实施例的应用于服务端的基于视频教学的第一交互装置100的原理框图,第一交互装置100包括参数获取模块110、动作序列数据处理模块120、第一视频生成模块130和请求响应模块140。其中,服务端在接收到客户端发送的视频请求时,在本实施例中,所述参数获取模块110从客户端发送的视频请求中获取目标视频标识及视频处理参数,并发送给所述动作序列数据处理模块120。所述的视频处理参数包括但不限于旋转角度、放大倍数、局部放大部位、画面结构和虚拟人形象中的一者或多者。所述动作序列数据处理模块120基于目标视频标识从数据库106中获取与目标视频对应的动作序列数据,其中,所述动作序列数据包括按视频帧顺序组成的动作数据,每个视频帧的动作数据由所述目标视频中的目标对象骨骼关键点的三维坐标构成,并基于视频处理参数处理与目标视频对应的动作序列数据以得到目标动作序列数据。所述第一视频生成模块130为可选模块,其能够基于所述目标动作序列数据驱动虚拟数字人以生成虚拟数字人动作视频。所述请求响应模块140或者将所述目标动作序列数据发送给发出所述视频请求的客户端,或者将所述虚拟数字人动作视频作为被请求视频发送给发出所述视频请求的客户端,也可以将获取的与目标视频对应的动作序列数据发送给发出所述视频请求的客户端。
[0119] 其中,所述动作序列数据处理模块120基于目标视频标识没有从数据库106中获取到与目标视频对应的动作序列数据,能够按照图3所示的流程对目标视频进行处理得到一个或多个与目标视频对应的动作序列数据。当与目标视频对应的原始动作序列数据为多个时,所述动作序列数据处理模块120分别对多个原始动作序列数据进行处理得到多个目标动作序列数据。对应地,所述第一视频生成模块130得到多个虚拟数字人动作视频。
[0120] 例如,对于舞蹈视频,目标视频对应的动作序列数据分别为正面、背面和侧面的动作序列数据,在目标视频的视觉方位为正面时,所述动作序列数据处理模块120按照视频处理参数先计算与当前目标视频的视觉方位相同的动作序列数据得到一个目标动作序列数据,即先根据正面的动作序列数据得到一个正面的目标动作序列数据,而后再根据正面与背面的180度的方位差和视频处理参数计算背面的动作序列数据得到背面的目标动作序列数据,同理,根据正面与侧面的90度的方位差和视频处理参数计算侧面的动作序列数据得到侧面的目标动作序列数据。
[0121] 所述第一视频生成模块130分别基于正面的目标动作序列数据、背面的目标动作序列数据和侧面的目标动作序列数据得到正面虚拟数字人动作视频、背面虚拟数字人动作视频和侧面虚拟数字人动作视频。
[0122] 进一步地,所述第一视频生成模块130在生成虚拟数字人动作视频之后,将所述虚拟数字人动作视频与所述目标视频合成在一起生成第一合成视频,此时,所述请求响应模块140将所述第一合成视频作为被请求视频发送给发出所述视频请求的客户端。
[0123] 可选地,所述第一视频生成模块130在生成多个虚拟数字人动作视频后将所述多个虚拟数字人动作视频合成一个第二合成视频,此时,所述请求响应模块140将第二合成视频作为被请求视频发送给发出所述视频请求的客户端;或者所述第一视频生成模块130将所述多个虚拟数字人动作视频和目标视频合成一个第三合成视频,所述请求响应模块140将第三合成视频作为被请求视频发送给发出所述视频请求的客户端。
[0124] 图11是根据本发明一个实施例的应用于客户端的基于视频教学的第二交互装置200的原理框图,第二交互装置200包括用户操作获取模块210、数据请求模块220、数据处理模块230、第二视频生成模块240和播放模块250,其中,客户端包括交互模块201连接,接收用户播放目标视频的指令,并播放所述目标视频。用户操作获取模块210经配置以在目标视频播放过程监视用户操作,在交互模块201接收到用户的视频处理指令时,从所述视频处理指令中至少获取视频处理参数。在一个实施例中,数据处理模块230提供视频处理参数选项,并通过交互模块201显示给用户,当用户对视频处理参数选项进行设置时,获取相应的视频处理参数。在另一个实施例中,数据处理模块230捕获用户对交互模块201中的设备屏幕的操作,基于屏幕操作对应的预置参数类型确定对应的视频处理参数。所述的视频处理参数至少包括旋转角度、放大倍数、局部放大部位、画面结构和虚拟数字人形象中的一者或多者。用户操作获取模块210将视频处理参数发送给数据请求模块220。
[0125] 前述的交互模块201例如为输入单元和输出单元,所述输入单元例如为各种硬件键盘、软件键盘、触摸单元等,输出单元例如为显示屏幕等。
[0126] 所述数据请求模块220响应在目标视频播放过程接收到用户的视频处理指令,从服务端获取与目标视频对应的动作序列数据。其中,从服务端获取与目标视频对应的原始动作序列数据,或者是经过服务端基于视频处理参数处理得到的一个或多个目标动作序列数据,或者是服务端基于视频处理参数对目标视频对应的原始动作序列数据处理之后生成的一个或多个虚拟数字人动作视频。
[0127] 当所述数据请求模块220从服务端获取的所述动作序列数据为与目标视频对应的原始动作序列数据时,将其发送给数据处理模块230,数据处理模块230基于所述视频处理参数处理所述原始动作序列数据得到一个或多个目标动作序列数据,并发送给所述第二视频生成模块240。所述第二视频生成模块240基于所述数据处理模块得到的目标动作序列数据或者从服务端接收的目标动作序列数据,驱动虚拟数字人以生成虚拟数字人动作视频,将所述虚拟数字人动作视频作为被请求视频,将发送给播放模块250。所述播放模块250通过交互模块201中的显示屏幕播放所述被请求视频。
[0128] 当所述数据请求模块220从服务端获取的是虚拟数字人动作视频时,将其发送给播放模块250。
[0129] 可选地,所述数据处理模块230在基于所述视频处理参数处理与目标视频对应的原始动作序列数据以得到目标动作序列数据时,包括以下步骤:
[0130] 分别识别目标视频中的目标对象的第一视觉方位和原始动作序列数据的第二视觉方位;
[0131] 响应于所述第二视觉方位和所述第一视觉方位相同,基于所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据;
[0132] 响应于所述第二视觉方位和所述第一视觉方位不相同,计算第二视觉方位和所述第一视觉方位的方位差;以及
[0133] 基于所述方位差和所述视频处理参数对所述原始动作序列数据中每帧中的目标对象骨骼关键点的三维坐标进行计算以得到目标三维坐标,其中每帧的目标对象骨骼关键点的目标三维坐标构成了目标动作序列数据。
[0134] 可选地,所述第二视频生成模块240在生成多个虚拟数字人动作视频后,进一步将所述多个虚拟数字人动作视频合成一个第二合成视频,将第二合成视频作为被请求视频发送给播放模块250;或者将所述多个虚拟数字人动作视频和目标视频合成一个第三合成视频,将第三合成视频作为被请求视频发送给播放模块250。
[0135] 可选地,在所述的视频处理参数包括局部放大部位时,所述第二视频生成模块240在生成虚拟数字人动作视频时,以所述局部放大部分作为视频的中心;和/或,在生成虚拟数字人动作视频时,对所述局部放大部位进行圈出显示,并对所述局部放大部位之外的区域进行淡化或模糊处理。
[0136] 所述第二视频生成模块240在生成虚拟数字人动作视频基于目标视频提供用户的授权,按照目标视频中的目标对象生成虚拟数字人形象;或者采用与目标视频中的目标对象同类的虚拟数字人形象;或者采用视频处理参数中用户指定的虚拟数字人形象。
[0137] 本发明还提供一种电子设备,包括处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现上述任意一个实施例的基于视频教学的交互装置方法。
本发明中的电子设备可以为图1中的终端设备102,也可以是图1中的服务器104。图12是根据本发明一个实施例的电子设备的硬件结构示意图。如图12所示,所述电子设备可以包括处理器601以及存储有计算机程序指令的存储器602。
[0138] 具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
[0139] 存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关容灾设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。
[0140] 存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
[0141] 处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种基于视频教学的交互方法。
[0142] 在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图12所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。本发明实施例中的电子设备可以是服务器或其他计算设备,也可以是云端服务器。
[0143] 通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
[0144] 总线610包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI‑Express(PCI‑X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
[0145] 另外,结合上述实施例中的基于教学视频的交互方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于视频教学的交互方法。
[0146] 本发明还提供了一种计算机程序产品,其包括计算机程序指令,所述计算机程序指令被处理器执行时实现上述实施例中的任意一种基于视频教学的交互方法。其中,所述的计算机程序产品例如为软件安装包、插件等。
[0147] 需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
[0148] 以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质可以包括非暂态计算机可读存储介质,比如包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD‑ROM、光盘、硬盘、光纤介质,机器可读介质还可以包括射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0149] 还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0150] 上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
[0151] 以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。