全息多维音视频播放进度条生成、显示和控制播放方法转让专利
申请号 : CN202110800053.1
文献号 : CN113259780B
文献日 : 2021-11-05
发明人 : 柴剑平 , 赵薇 , 柴宇宸
申请人 : 中国传媒大学
摘要 :
权利要求 :
1.一种全息多维音视频播放进度条生成方法,其特征在于,包括:提取音视频中各类信息,所述各类信息至少包括人物信息、动作戏场景信息、情感场景信息、音乐场景信息、物品信息以及交互信息;
将各类信息所对应的关键帧分别整合为对应的时间区间,并将各类信息与对应的时间区间建立关联,所述时间区间是指包含有相同信息的多个关键帧所在的时间位置构成的区间,并且,包含相同信息的多个时间区间之间的间隔大于设定区间间隔;
将所述各类信息以多级可选的形式嵌入到播放进度条中,所述播放进度条包括时间尺度和频次尺度,并且所述播放进度条在音视频整体播放时以标识的形式显示各类信息,或在选择信息后跳转至对应的时间区间进行播放,并在播放过程中以标识的形式显示其他各类信息。
2.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,对于音视频提取所述人物信息,包括:以一定的时间间隔从音视频中提取多个关键帧图像,通过提取关键帧图像中的面部、服饰、姿态特征,并结合从音视频中提取的声纹特征确定所述人物信息。
3.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,对于音视频提取情感场景信息,包括:以一定的时间间隔从音视频中提取多个关键帧图像,通过提取关键帧图像中人物微表情、物品、环境以及人物语音语调中至少一项的分析,对场景情感类别进行分类。
4.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,对于音视频提取音乐场景信息,包括:通过神经网络模型获得音乐片段及各音乐片段的情感类别信息。
5.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,交互信息包括对实时弹幕数量或点赞数量的统计。
6.根据权利要求2所述的全息多维音视频播放进度条生成方法,其特征在于,对于音视频中关键帧的获取方式包括基于镜头边界、基于运动分析、基于视频聚类、基于帧差欧氏距离的方法中任一种。
7.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,以时间尺度为横轴,频次尺度为纵轴形成播放进度条。
8.根据权利要求1所述的全息多维音视频播放进度条生成方法,其特征在于,音乐场景信息还包括用符号在音乐场景所对应的时间区间进行音乐相关参数的标注。
9.一种全息多维音视频播放进度条显示方法,其特征在于,采用权利要求1至8中任一项所述的方法生成播放进度条,所述显示方法包括:以时间尺度为横轴,频次尺度为纵轴形成播放进度条,在时间尺度上用区别于播放进度条主体颜色的不同颜色来标识各类信息的时间区间,在频次尺度上以点、线、面及颜色标识各类信息中的相关数量。
10.一种全息多维音视频播放进度条控制播放方法,其特征在于,采用权利要求1至8中任一项所述的方法生成播放进度条,所述控制播放方法包括:对音视频进行第一播放方式,所述第一播放方式是在音视频整体播放的情况下,在播放进度条上以标识的形式显示各类信息;
或,对音视频进行第二种播放方式,所述第二种播放方式是在用户选择信息后跳转至对应的时间区间进行播放对应的音视频,并在播放过程中以标识的形式显示其他各类信息。
说明书 :
全息多维音视频播放进度条生成、显示和控制播放方法
技术领域
背景技术
看TA”功能,可以通过选择,只观看某个主演的播出片段。这种功能和样式都很简单的进度
条,极大地限制了用户对节目的播出选择,影响了收视体验。
带有明显个人偏好的音视频片段;通过交互信息的数据分析,可以得到弹幕最多片段、重复
率最高弹幕文字片段、点赞弹幕最多片段等,通过特定物品或者场景的检索,可以得到类似
嵌入式广告的分析。并且,还有社区推荐观看模式,用户可以对进度条进行简单标注,推荐
其他人选择观看。但是目前,用户还无法自行通过播放器进行检索和查找,而只能通过在网
站上输入检索信息,获得网络上一些媒体制作的与检索信息有关的裁剪的音视频。
发明内容
的区间,并且,包含相同信息的多个时间区间之间的间隔大于设定区间间隔;
息,或在选择信息后跳转至对应的时间区间进行播放,并在播放过程中以标识的形式显示
其他各类信息。
的声纹特征确定所述人物信息。
一项的分析,对场景情感类别进行分类。
式是在音视频整体播放的情况下,在播放进度条上以标识的形式显示各类信息;
信息。
性化进度条,方便用户进行非线性欣赏,带来更好的用户体验。
附图说明
具体实施方式
实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护
范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
各类信息至少包括人物信息、动作戏场景信息、情感信息、场景信息、音乐场景信息以及交
互信息。音视频是指包含有视频和声音的混合场景。所述主观信息是指根据用户输入的内
容提取的各类信息,例如用户输入动作戏,则提取动作戏场景信息。客观信息是指不考虑用
户的主观因素从音视频中提取的各类信息。特别的,也可以根据用户通常的音视频观看记
录,以及其对于音视频的评分、评论记录等信息构建用户画像,根据用户画像来提取与用户
主观相关联的各类信息。
进行细分类。如果没有设定人物分类规则,则对各人物依次保存成人物列表即可。例如,一
个音视频中包含有3个人物,则将这3个人物保存在人物列表中。例如人物分类规则是动作
明星、喜剧明星等,则可以将人物按照此分类进行细分类,并在该细分类中再逐个列出相关
人物。
物的信息,而仅有极少关键帧图像(例如一个关键帧)包含的人物,则认定为出场时间很短
的人物,可以不进行提取其信息。具体的时间间隔以及多少关键帧图像包含人物来判定是
否是主要人物,可以自行设定,在此不做限制。当然,也可以对音视频的每一帧都提取图像,
并对图像中的所有人物都进行识别输出,也是可以的。
运动目标特征的关键帧提取算法,田丽华,张咪,李晨,西安交通大学软件学院,西安
710049》。
提取音视频中的声纹特征来进行识别,从而获知音视频中的人物。可以将图像识别与声纹
识别结合来进行人物识别,可以加快人物识别速度。对关键帧图像的识别可以是采用神经
网络模型,神经网络模型是经过训练的机器学习模型,其至少包括输入层、隐藏层、输出层,
将各关键帧图像输入到神经网络模型中,提取关键帧图像的特征,例如面部特征、姿态特
征、服饰特征,输出层通过将提取的特征与已知的演员的特征进行比对,符合达到一定的程
度,则将其判定为对应的演员。通过大量的带有标记的训练数据,所述训练数据是带有标记
人物图像,具体说,是已知的多个演员的人像图像,并带有该演员的姓名的标记。采用优化
器在训练过程中求损失函数的梯度,从而通过梯度更新网络参数值使得损失函数不断向最
小值搜索迭代,直至收敛,获得训练后的神经网络模型。
饰的不同来分辨大人和小孩等。只要把对应的训练数据输入到神经网络中进行训练即可。
姿态特征识别可以采用openPose(Github开源人体姿态识别模型)或者AlphaPose(上海交
通大学实时姿态估计模型)或者DeepPose(基于深层神经网络的人体姿态估计模型)。通过
将演员的一些特有的姿态特征输入到模型中,对模型进行训练,即可利用模型来辅助识别,
最终,将提取到的面部特征、服饰特征、姿态特征通过加权的方式获得总的人物特征,将该
人物特征进行分类,从而获得人物信息。进一步地,还可以结合声纹特征来提取其人物信
息。例如,将演员“陈五”的声纹特征与音视频中的声纹特征进行比对,从而识别出音视频中
的人物信息。例如可以是通过提取音视频中的MFCC(梅尔倒谱系数)特征来与通常的演员的
音视频信息进行对比,从而识别声音。
型来识别行为,只是其提取的特征与人物识别不同而已,例如,对于动作戏的识别,特征可
以是人体上的血迹、头发的凌乱、衣服的散乱、人体上的淤青、人体所持的器械等等。并且,
也可以结合图像背景来识别行为,背景可能是例如刀具、酒瓶、弓箭、枪械等物体,这有助于
对于是否打架的判断。例如刀具,两人之间的刀具有可能是切割物体用,也有可能是打架
用。还有酒瓶,可能是喝酒用,也可能是作为凶器打架用。可以针对这些背景来设定训练数
据,例如,刀具同时接触到两个人,则认定为打斗,刀具扬起的高度超过肩部,则认定为打
斗。刀具上有血迹,则认定为打斗。同样地,酒瓶被一人握住,且扬起的高度超过肩部,则认
定为打斗的可能性大。酒瓶被一人握住,瓶口朝下,但瓶口下方并没有酒杯,也认为打斗的
可能性大。酒瓶上有血迹,则认定为打斗。各种打斗常用的武器都可以作为特征,通过结合
不同的物体的特点设定物体的状态和位置来认定打斗的机率。
辉,中山大学,硕士学位论文》中的方法进行音乐片段的识别,从而确定音乐片段所属的情
感种类。
的情感场景等。提取其中人物微表情可以是采用ELRCN(增强型长期递归卷积网络)进行人
物微表情识别,人物语音语调的提取可以利用openSMILE工具包提取音视频特征,并用ACNN
神经网络实现语音情感分类。并且,还可以利用背景中的物品、环境等特殊信息来判断情感
场景,有些物品可以触发人物情感,比如有年代感的物品,通常是比较容易感动流泪的场
景。有些环境也同样可以辅助判断情感场景,例如婚礼现场通常是比较欢愉的场景,同样是
可以采用神经网络方法识别出来。
弹幕内容进行分类。例如Kmeans聚类,是将各个弹幕内容转换为文本向量,并计算个文本向
量之间的距离,从而将文本向量划分为多个类别,其中初始聚类中心点K≈ ,N表示
弹幕的条数。
词按照权重组合成关键词组合向量,通过余弦相似度来计算各个关键词组合向量之间的距
离,从而判断各弹幕内容的相似度,将余弦相似度高于设定阈值的归为一类,从而将弹幕内
容划分为多个类别。
据,并对各文本数据进行提取主题词,从而获得各主题词所属的分类。
多个关键帧所在的时间位置构成的区间。并且,包含相同信息的多个时间区间之间的间隔
大于设定区间间隔。
信息可以得到动作戏出现的时间区间;背景音乐信息可以得到不同情感的背景音乐的时间
区间;弹幕、点赞高频时间点区间估计可以分别得到弹幕数和点赞数最多的时间区间;最感
兴趣话题时间区间可以得到弹幕中相同内容出现频率最高的时间区间。
00,则从00:08:00到00:25:00是人物“张三”对应的时间区间。例如包含动作戏场景的关键
帧图像有00:15:00,00:16:00,00:17:00,00:18:00…,00:25:00,则从00:15:00到00:25:00
是一个动作戏场景的时间区间。
场景是01:12:40到01:30:12,区间间隔是00:01:00,只要超过区间间隔时间,则会根据区间
间隔区分出三段动作戏场景,而不会把三段动作戏场景作为一个动作戏场景。
间,区间间隔为00:01:00,则前两个时间区间之间的间隔由于小于区间间隔,则00:15:00到
00:32:00是包含人物“李四”的时间区间,00:51:00到00:60:00是包含人物“李四”的时间区
间。
音视频进行常规播放,并在播放进度条上显示各类信息标识。第二种播放方式是对于音视
频,在用户选择信息后跳转至对应的时间区间进行播放,并在播放过程中以标识的形式显
示其他各类信息。所述多级可选是指将人物信息、动作戏场景信息、情感场景信息、音乐场
景信息以及交互信息作为一级菜单,将其中的具体场景作为二级菜单。还可以设置三级菜
单,例如表一中,张三具有多个时间区间,则可以在三级菜单分别显示,用户可以根据需要
选择对应的时间区间。例如,人物信息为一级菜单,二级菜单为音视频中的关键人物名称,
三级菜单为对应的时间区间。
以时间尺度为横轴,频次尺度为纵轴形成播放进度条。
张三、李四、陈五。各二级菜单项与对应的时间区间相关联,从而在用户选择了不同的菜单
项后,进度条会跳转至对应的时间区间进行播放,例如在选择了张三的某一个时间区间后,
则在时间尺度上,对应跳转至该“张三”的时间区间来播放,并在时间尺度上显示该时间区
间的时长。并且,在该时间区间播放时,在播放进度条上还可以以不同的标识来显示其他各
类信息,例如以不同颜色来显示。比如,有“张三”的时间区间是00:05:00到00:30:00,在这
段时间内,还有动作戏场景00:10:00至00:15:00,喜悦情感场景00:18:00至00:25:00,悲恸
情感场景00:13:00至00:17:00,各场景之间都以时间来衡量关联,在“张三”的这段时间区
间内,动作戏场景、喜悦情感场景、悲恸情感场都有出现,则在“张三”的这段时间区间内,分
别以红、黄、蓝色在对应的时间段标识显示对应的场景,其中,各场景可能会有重叠,例如动
作戏场景可能也是悲恸情感场景,则叠加显示即可。而用户通过查看该播放进度条,则可以
在不需要拖动进度条的情况下,预先对剧情的场景进展有一定的了解。例如,看到红色,则
表示在该时间段有动作戏,看到黄色,则表示是喜悦情感场景。具体的颜色标识,是可以根
据需求设定的。另外,还可以同时通过频次坐标轴上的点、线、面及颜色标识,表示一些信息
出现的次数。比如,在纵轴通过线段的形式显示各时刻对应的弹幕数量。如图6所示,该短横
线就表示在该时刻对应的弹幕总数量,可以看出,在悲恸情感场景中,弹幕数量出现了增
多,而过了该悲恸情感场景,则弹幕数量有所回落。
音乐的节选,但是当前的播放进度条中没有显示音乐律动的特殊符号,则用户可以根据该
段音乐的音乐节奏特性,添加一些随音乐播放跳动的音符。具体可以直接在播放进度条上
对应的时刻添加特殊字符即可,纵轴上的尺寸即代表音乐律动的不同。
time, ‘text’:context},则在音视频播放的时候,到达该标记的时刻,则会相应的调用该
json文件,显示该标记。
时间区间中有悲悯场景,为显示其关联性,可以通过虚拟连线将人物信息的时间区间与对
应的情感场景的时间区间连接。通过获取用户点击的最末级菜单的位置坐标,并遍历其他
各类信息的时间区间,获取与用户选择的时间区间具有重叠的菜单的位置坐标,并将用户
所选的菜单与相关联的菜单之间用虚拟连线连接。这仅是示例性的,如图5所示,也可以将
用户所选末级菜单以及其关联菜单用同一颜色显示。
色标识各类信息中的相关数量。
表各项数据中的统计数量,例如弹幕数量、点赞数量等。
式是在音视频整体播放的情况下,在播放进度条上显示各类信息标识,所述整体播放是指
以音视频原有的完整音视频进行播放;
信息。
等同替换、改进等,均应包含在本发明的保护范围之内。