一种基于AI算法的学生活动精彩瞬间拍摄与分析方法转让专利

申请号 : CN202311310703.X

文献号 : CN117278801B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴小强卢增辉张林芳

申请人 : 广州智威智能科技有限公司

摘要 :

本申请提供一种基于AI算法的学生活动精彩瞬间拍摄与分析方法,包括:通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题;对图像帧进行精彩程度评估,得到精彩程度分数;通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像;根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换;分析事件情节和画面之间的关系,将不同画面片段进行排序;基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现。

权利要求 :

1.一种基于AI算法的学生活动精彩瞬间拍摄与分析方法,其特征在于,所述方法包括:

通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题;对图像帧进行精彩程度评估,得到精彩程度分数;通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像;根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换;分析事件情节和画面之间的关系,将不同画面片段进行排序;获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序;基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现;

所述根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换,包括:从素材库中获取与需要替换的图像主题一致的图像素材;提取图像主题一致的图像素材中精彩程度分数高于预设阈值的图像;根据清晰度、对比度和色彩的评估,筛选出图像质量大于预设阈值的图像作为替换素材;将图像帧中不合主题或不够精彩的瞬间替换为筛选出的替换素材;

所述基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现,包括:根据画面片段的排序结果,分析相邻图片帧之间的颜色差异,判断场景切换的位置;对场景转换的画面加入转场效果。

2.根据权利要求1所述的方法,其中,所述通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题,包括:获取摄像头捕获的学生活动视频,提取学生活动视频的图像帧与语音信号;使用标注好的图像帧数据集,训练卷积神经网络进行物体、行为和场景识别;将摄像头捕获的图像帧输入到训练好的模型中,获取识别结果;使用GoogeCloud的Speech‑to‑TextAPI将语音转化为文本;基于图像识别结果与语音文本,通过LDA算法对图像帧进行主题建模,将图像帧划分为不同主题并保存;还包括:基于图像中的物体、行为、场景与语音文本,通过LDA算法对每一帧图像进行主题建模,划分为不同的主题,保存在预设的数据库中;所述基于图像中的物体、行为、场景与语音文本,通过LDA算法对每一帧图像进行主题建模,划分为不同的主题,保存在预设的数据库中,具体包括:根据物体识别、行为识别、场景识别结果和语音文本,得到每一帧图像中物体类别、位置信息,学生行为与场景类别;使用GoogleCloudSpeech‑to‑TextAPI将视频中的语音转化为文本;将提取的图像特征与语音文本信息进行整合,构建一个特征向量表示每一帧图像的内容;根据物体识别、行为识别、场景识别结果和语音文本,使用LDA算法构建主题模型;将每一帧图像的特征输入到主题模型中,得到每一帧图像的主题分布;将每一帧图像的主题信息保存到预设的数据库中。

3.根据权利要求1所述的方法,其中,所述对图像帧进行精彩程度评估,得到精彩程度分数,包括:使用OpenCV检测图像帧中的人脸,通过卷积神经网络对人脸进行表情识别并提取面部关键点,确定眼睛的位置、大小以及表情数量;计算眼睛的EAR值与图像帧中的表情强度平均值;使用光流算法估计连续图像帧的动作幅度并确定动作的速度与流畅性;对图像帧进行动态与静态分类,计算动态图像的精彩程度分数基于表情强度、动作幅度、速度和流畅性,而静态图像基于表情强度和EAR值。

4.根据权利要求1所述的方法,其中,所述通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像,包括:从数据集中获取图像帧中提取到的物体、行为和场景;将图像帧的主题与预定的主题进行对比,确定为与主题不符的图像;通过图像的构图质量,包括平衡、对称和比例,判断其为不够精彩的图像;通过图像中的色彩使用和对比度,判断为不够精彩的图像;通过图像中的动态元素,包括运动,判断其为不够精彩的图像;通过图像中传递的情感,判断为不够精彩的图像;确定需要替换的与主题不符或不够精彩的图像。

5.根据权利要求1所述的方法,其中,所述分析事件情节和画面之间的关系,将不同画面片段进行排序,包括:从数据库中获取目标检测和动作检测的结果;获取有文字描述和标注的画面片段,提取文字描述中的关键词,得到事件的主要内容;获取所有画面片段的时间信息,根据时间信息进行排序;获取画面片段之间的逻辑关系信息进行排序;根据画面片段所属的主题或情节信息进行排序;根据画面片段的角色信息进行排序;获取画面片段的空间信息,根据地点和位置进行排序;根据角色情感和心理状态信息进行排序;还包括:根据画面片段之间的逻辑关系将画面片段进行排序;所述根据画面片段之间的逻辑关系将画面片段进行排序,具体包括:根据视频或场景中的画面片段,将每个画面片段进行标记和编号;根据画面片段的内容和上下文,识别画面片段之间的原因和结果关系;根据画面片段之间的因果关系,确定哪些画面片段是其他画面片段发生的原因,哪些画面片段是其他画面片段的结果,将这些关系进行标记;根据画面片段的内容和上下文,识别画面片段之间的动作和反应关系;通过分析画面片段中的动作和反应关系,确定哪些画面片段是其他画面片段的动作,哪些画面片段是其他画面片段的反应,将这些关系进行标记;根据原因和结果、动作和反应关系,将画面片段连接起来形成一个连贯的场景;根据画面片段之间的逻辑关系,将画面片段进行排序;所述获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序,具体包括:使用卷积神经网络针对人脸进行图像识别,结合预训练的表情识别模型,来识别和分类角色的具体表情,包括微笑、皱眉、惊讶;

同样应用卷积神经网络,使用针对人体姿态和动作的预训练模型,来识别角色的肢体语言和动作,包括摆手、双手抱胸、奔跑;同时,应用Transformer结构的模型,对角色的语言和对话内容进行解析,获取其语义和语气;根据角色的语气、表情、肢体语言和动作,使用基于BERT的情感分类模型,确定角色的情感状态;如果片段中存在角色的内心独白或旁白,再次应用NLP技术解析其内容,直接提取角色的情感和心理状态信息;结合分析得到的数据,得出角色的情感状态和心理状态,包括愤怒、快乐、悲伤、焦虑等情感状态,以及紧张、害怕、自信、疑惑等心理状态;根据获得的情感和心理状态信息,对画面片段进行排序,根据角色情感和心理状态的变化来组织片段的顺序。

6.根据权利要求1所述的方法,其中,对场景转换的画面加入转场效果,包括淡入淡出和擦除;使用图像处理工具进行边缘检测、模糊效果;调整画面的色彩、对比度、饱和度,改变氛围;根据动作识别的结果调整视频的播放速度,突出关键动作或场景;进行剪辑和时长控制;将特效的图片帧进行衔接;还包括:通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置;所述通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置,具体包括:获取原始图像,进行图像预处理,将原始图像转换为灰度图像;划分图像区域,将灰度图像划分为若干个区域,每个区域包含一个或多个图像帧;对于每个区域中的图像帧,使用OpenCV提供的calcHist函数计算其颜色直方图;比较相邻图像帧的颜色直方图,使用OpenCV提供的compareHist函数计算它们之间的差异度量指标;根据设定的阈值,判断差异度量指标是否超过阈值,确定是否存在场景切换;根据判断结果,得到场景切换的位置。

说明书 :

一种基于AI算法的学生活动精彩瞬间拍摄与分析方法

技术领域

[0001] 本发明涉及信息技术领域,尤其涉及一种基于AI算法的学生活动精彩瞬间拍摄与分析方法。

背景技术

[0002] 随着教育技术的日益进步,学校和教育机构越来越重视学生活动的视频记录和分享。无论是课堂表现、校园活动、运动会还是艺术节目,每一个学生活动的瞬间都充满了故事性、教育价值和情感意义。这些视频不仅记录了学生的成长和学习经验,也为家长、老师和同学们提供了深入了解和回忆的窗口。然而,在实际的学生活动视频制作过程中,由于摄影人员经验的差异、设备限制和现场环境的不可预测性,经常会出现大量的冗余、重复或与主题不符的片段。尤其是在大型活动中,如何从海量的视频素材中筛选出最具代表性和情感价值的瞬间,成为了制作团队面临的巨大挑战。此外,学生活动的视频往往要求展现出清晰的故事线和情感流动。一个完整的学生活动,从筹备、开始到结束,都充满了各种微小而有意义的故事瞬间。如何恰当地捕捉和顺序排列这些瞬间,以展现整个活动的情感弧线和主题,对于视频的观赏性和教育价值至关重要。研究表明,一个有序、连贯的视频故事能够更好地吸引观众的注意力,提高信息的传递效率。尤其是对于学生和家长,他们往往希望能够快速、直观地看到活动的精华和重点,而不是漫无目的地浏览大量冗长的视频片段。基于上述问题,教育机构和学校迫切需要一种方法,能够高效、智能地筛选和排序学生活动的视频内容,确保视频的故事性、连贯性和观赏性。

发明内容

[0003] 本发明提供了一种基于AI算法的学生活动精彩瞬间拍摄与分析方法,主要包括:
[0004] 通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题;对图像帧进行精彩程度评估,得到精彩程度分数;通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像;根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换;分析事件情节和画面之间的关系,将不同画面片段进行排序;基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现。
[0005] 进一步可选的,所述通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题,包括:
[0006] 获取摄像头捕获的学生活动视频,提取学生活动视频的图像帧与语音信号;使用标注好物体、行为和场景的图像帧数据集,分别训练卷积神经网络来进行物体识别、行为识别和场景识别;将摄像头捕获的图像帧输入到训练好的物体、行为和场景识别模型中,获取物体、行为和场景的识别结果;使用GoogeCloud提供的Speech‑to‑TextAPI将视频中的语音转化为文本;根据物体识别、行为识别、场景识别结果和语音文本,通过LDA算法对每一帧图像进行主题建模,将图像帧划分为不同的主题,保存在预设的数据库中;还包括:基于图像中的物体、行为、场景与语音文本,通过LDA算法对每一帧图像进行主题建模,划分为不同的主题,保存在预设的数据库中。
[0007] 所述基于图像中的物体、行为、场景与语音文本,通过LDA算法对每一帧图像进行主题建模,划分为不同的主题,保存在预设的数据库中,具体包括:
[0008] 根据物体识别、行为识别、场景识别结果和语音文本,得到每一帧图像中物体类别、位置信息,学生行为与场景类别。使用GoogleCloudSpeech‑to‑TextAPI将视频中的语音转化为文本。将提取的图像特征与语音文本信息进行整合,构建一个特征向量表示每一帧图像的内容。根据物体识别、行为识别、场景识别结果和语音文本,使用LDA算法构建主题模型。将每一帧图像的特征输入到主题模型中,得到每一帧图像的主题分布。将每一帧图像的主题信息保存到预设的数据库中。
[0009] 进一步可选的,所述对图像帧进行精彩程度评估,得到精彩程度分数,包括:
[0010] 采用OpenCV中的人脸检测器,从图像帧中检测出人脸;使用卷积神经网络对图像帧中的人脸进行表情识别,提取出面部关键点,确定眼睛的位置和大小,对检测到的人脸进行表情识别,统计出笑容、惊讶、平静表情的数量,根据预设的表情强度值,计算每一个图像帧的表情强度的平均值;根据眼睛的位置和大小,计算眼睛的垂直距离与水平距离的比值EAR值,确定每一个图像帧的EAR平均值;采用光流算法,对连续的图像帧进行动作幅度的估计,确定每一个图像帧的动作幅度值;通过动作目标的位移变化率或关节点的速度计算动作的速度;通过动作目标的轨迹曲线的光滑度或关节点的变化平滑性来评估动作的流畅性;当图像帧中动作的幅度大于预设阈值,则将图像帧标记为动态图像,否则为静态图像;对于动态图像,将人物表情强度的平均值与动作的幅度、速度、流畅性进行加权平均,得到图像的精彩程度分数;对于静态图像,将人物表情强度的平均值、EAR平均值进行加权平均,计算图像帧的精彩强度分数。
[0011] 进一步可选的,所述通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像,包括:
[0012] 从数据集中获取图像帧中提取到的物体、行为和场景,表情识别的结果,精彩程度分数,以及图像的主题;将图像帧的主题与预定的主题进行对比,如果图像中的主题与预定的主题无关,则确定为与主题不符的图像;通过图像的构图质量,判断其是否符合艺术审美规则,其中图像的构图质量包括平衡、对称、比例;如果图像的构图质量不达标,则判断为不够精彩的图像;通过图像中的色彩使用和对比度,判断图像是否精彩;如果色彩使用不当或对比度低于预设的阈值,导致图像显得暗淡或无趣,则确定为不够精彩的图像;通过图像中的动态元素,包括运动、快慢节奏,判断图像是否精彩;如果图像中的动态元素缺乏吸引力或与主题不协调,则确定为不够精彩的图像;通过图像中传递出的情感或故事性,判断图像是否精彩;如果图像中的情感表达弱或与主题不相关,则确定为不够精彩的图像;根据图像帧的评估结果,确定需要替换的与主题不符或不够精彩的图像。
[0013] 进一步可选的,所述根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换,包括:
[0014] 根据需要替换的图像的主题,从素材库中获取与需要替换的图像主题一致的图像素材;提取图像主题一致的图像素材中精彩程度分数高于预设阈值的图像;根据清晰度、对比度、色彩的评估指标,筛选出图像质量大于预设阈值的图像作为替换素材;将图像帧中不合主题或不够精彩的瞬间替换为筛选出的替换素材。
[0015] 进一步可选的,所述分析事件情节和画面之间的关系,将不同画面片段进行排序,包括:
[0016] 从数据库中获取目标检测和动作检测的结果;获取有文字描述和标注的画面片段,采用TF‑IDF算法提取文字描述中的关键词,得到事件的主要内容和关键词;获取所有画面片段的时间信息,确定画面片段发生的顺序,根据时间信息将画面片段进行排序;获取所有画面片段之间的逻辑关系信息,包括原因和结果,动作和反应,根据画面片段之间的逻辑关系将画面片段进行排序;获取画面片段所属的主题或情节信息,根据片段所属的主题或情节将画面片段进行排序;获取画面片段的角色信息,并根据角色的行动将画面片段进行排序;获取画面片段的空间信息,包括地点和位置,根据画面片段的地点和位置将画面片段进行排序;获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序;根据事件情节和画面之间的关系,将不同画面片段进行排序,直到整个场景被完整地连接起来;还包括:根据画面片段之间的逻辑关系将画面片段进行排序;获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序。
[0017] 所述根据画面片段之间的逻辑关系将画面片段进行排序,具体包括:
[0018] 根据视频或场景中的画面片段,将每个画面片段进行标记和编号。根据画面片段的内容和上下文,识别画面片段之间的原因和结果关系。根据画面片段之间的因果关系,确定哪些画面片段是其他画面片段发生的原因,哪些画面片段是其他画面片段的结果,将这些关系进行标记。根据画面片段的内容和上下文,识别画面片段之间的动作和反应关系。通过分析画面片段中的动作和反应关系,确定哪些画面片段是其他画面片段的动作,哪些画面片段是其他画面片段的反应,将这些关系进行标记。根据原因和结果、动作和反应关系,将画面片段连接起来形成一个连贯的场景。根据画面片段之间的逻辑关系,将画面片段进行排序。
[0019] 所述获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序,具体包括:
[0020] 使用卷积神经网络针对人脸进行图像识别,结合预训练的表情识别模型,来识别和分类角色的具体表情,包括微笑、皱眉、惊讶;同样应用卷积神经网络,使用针对人体姿态和动作的预训练模型,来识别角色的肢体语言和动作,包括摆手、双手抱胸、奔跑。同时,应用Transformer结构的模型,对角色的语言和对话内容进行解析,获取其语义和语气。根据角色的语气、表情、肢体语言和动作,使用基于BERT的情感分类模型,确定角色的情感状态;如果片段中存在角色的内心独白或旁白,再次应用NLP技术解析其内容,直接提取角色的情感和心理状态信息。结合分析得到的数据,得出角色的情感状态和心理状态,包括愤怒、快乐、悲伤、焦虑等情感状态,以及紧张、害怕、自信、疑惑等心理状态。根据获得的情感和心理状态信息,对画面片段进行排序,根据角色情感和心理状态的变化来组织片段的顺序。
[0021] 进一步可选的,所述基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现,包括:
[0022] 根据画面片段的排序结果,通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置;对场景转换的画面加入转场效果,包括淡入淡出、擦除、百叶窗、旋转、闪烁;使用OpenCV库进行图像处理,包括边缘检测、模糊效果、光影调整,对图片帧进行处理;使用AdobePremierePro视频编辑软件,通过对画面的色彩、对比度、饱和度进行调整,改变画面的氛围和情绪;根据动作识别的结果调整视频的播放速度,加快或减慢画面的节奏,突出关键动作或场景;判断是否有冗长或无聊的部分,进行剪辑和时长控制;将加入特效的图片帧进行衔接,进行具体内容的视频呈现;还包括:通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置。
[0023] 所述通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置,具体包括:
[0024] 获取原始图像,进行图像预处理,将原始图像转换为灰度图像。划分图像区域,将灰度图像划分为若干个区域,每个区域包含一个或多个图像帧。对于每个区域中的图像帧,使用OpenCV提供的calcHist函数计算其颜色直方图。比较相邻图像帧的颜色直方图,使用OpenCV提供的compareHist函数计算它们之间的差异度量指标。根据设定的阈值,判断差异度量指标是否超过阈值,确定是否存在场景切换。根据判断结果,得到场景切换的位置。
[0025] 本发明实施例提供的技术方案可以包括以下有益效果:
[0026] 本发明公开了一种利用人工智能技术对视频进行内容识别和精彩瞬间替换的方法。该方法首先采用深度学习模型对视频的每一帧进行内容和主题的识别。然后通过预训练模型对每一帧的内容进行精彩程度评估,生成每一帧的精彩程度分数。根据精彩程度的评分结果,确定需要替换的画面,即判断出哪些画面与主题不符或不够精彩。接下来,根据用户上传的替换素材和需要替换的画面列表,将不合主题或不够精彩的画面替换为更符合主题、更精彩的内容。通过视频处理技术将替换后的画面进行合成,生成新的视频内容。根据用户标注的精彩瞬间进一步明确视频的主题和表现手法,并确定精彩瞬间的呈现顺序。最后,将所有的精彩瞬间按照确定的顺序进行整理,并根据这个顺序进行内容的呈现和播放,以确保整个视频的故事性和观赏性。通过这种方法,可以有效地提升视频的质量和观赏性。

附图说明

[0027] 图1为本发明的一种基于AI算法的学生活动精彩瞬间拍摄与分析方法的流程图。
[0028] 图2为本发明的一种基于AI算法的学生活动精彩瞬间拍摄与分析方法的示意图。
[0029] 图3为本发明的一种基于AI算法的学生活动精彩瞬间拍摄与分析方法的又一示意图。

具体实施方式

[0030] 为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0031] 本实施例一种基于AI算法的学生活动精彩瞬间拍摄与分析方法具体可以包括:
[0032] 步骤S101,通过摄像头获取学生活动,采用卷积神经网络模型,识别并确定视频内容和主题。
[0033] 获取摄像头捕获的学生活动视频,提取学生活动视频的图像帧与语音信号。使用标注好物体、行为和场景的图像帧数据集,分别训练卷积神经网络来进行物体识别、行为识别和场景识别。将摄像头捕获的图像帧输入到训练好的物体、行为和场景识别模型中,获取物体、行为和场景的识别结果。使用GoogeCloud提供的Speech‑to‑TextAPI将视频中的语音转化为文本。根据物体识别、行为识别、场景识别结果和语音文本,通过LDA算法对每一帧图像进行主题建模,将图像帧划分为不同的主题,保存在预设的数据库中。例如,收集了一段摄像头捕获的学生活动视频,提取图像帧和语音信号,包含了学生在跳远的场景。使用标注好的的数据集来训练卷积神经网络,分别进行物体识别、行为识别和场景识别。首先,将每一帧的图像数据输入到经过训练的物体识别模型中,识别出图像中存在的各种物体,如起跳线、人体。接下来,将图像数据输入到行为识别模型中,识别出了起跳的行为。然后,将图像数据输入到场景识别模型中,识别出了操场的场景。接着,使用GoogleCloudSpeech‑to‑TextAPI将视频中的语音转化为文本。视频中的语音是“小明跳的好远啊”。此时,将物体、行为和场景识别结果与语音识别结果进行结合。通过分析物体识别结果中的起跳线、人体与语音识别结果之间的关联性,进一步确定视频的主题。使用LDA算法进行主题建模,输入物体、行为、场景识别结果和语音文本。建立的模型将视频内容的主题确定跳远。将视频的内容以及主题保存在预设的数据库中。
[0034] 基于图像中的物体、行为、场景与语音文本,通过LDA算法对每一帧图像进行主题建模,划分为不同的主题,保存在预设的数据库中。
[0035] 根据物体识别、行为识别、场景识别结果和语音文本,得到每一帧图像中物体类别、位置信息,学生行为与场景类别。使用GoogleCloudSpeech‑to‑TextAPI将视频中的语音转化为文本。将提取的图像特征与语音文本信息进行整合,构建一个特征向量表示每一帧图像的内容。根据物体识别、行为识别、场景识别结果和语音文本,使用LDA算法构建主题模型。将每一帧图像的特征输入到主题模型中,得到每一帧图像的主题分布。将每一帧图像的主题信息保存到预设的数据库中。例如,在一个视频中,物体识别模型识别出了三个物体,猫、汽车和椅子。行为识别模型识别出了学生在看书,场景识别模型识别出了室内场景。同时,使用GoogleCloudSpeech‑to‑TextAPI将视频中的语音转化为了文本,“学生正在看一本关于机器学习的书”。因此,构建一个特征向量来表示每一帧图像的内容。每个物体和行为都可以用一个one‑hot向量表示,其中猫对应向量[1,0,0],汽车对应向量[0,1,0],椅子对应向量[0,0,1],学生看书对应向量[1,0,0]。可以将物体和行为的向量按照一定的规则进行组合,得到每一帧图像的特征向量。每一帧图像只能识别出一个物体和一个行为,那么对于图像中的一帧,猫和学生看书的特征向量为[1,0,0,1,0,0],表示这一帧图像中有猫和学生看书。同样地,对于整个视频,可以得到一系列特征向量表示每一帧图像的内容。接下来,使用LDA算法构建主题模型。设置主题数量为2,即希望将图像的内容分为两个主题。将每一帧图像的特征向量作为输入,使用LDA算法拟合主题模型,得到每一帧图像的主题分布。对于一帧图像,LDA算法输出的主题分布为[7,3],表示该图像中主题1的权重为7,主题2的权重为3。同样地,可以得到整个视频中每一帧图像的主题分布。最后,将每一帧图像的主题信息保存到预设的数据库中。
[0036] 步骤S102,对图像帧进行精彩程度评估,得到精彩程度分数。
[0037] 采用OpenCV中的人脸检测器,从图像帧中检测出人脸。使用卷积神经网络对图像帧中的人脸进行表情识别,提取出面部关键点,确定眼睛的位置和大小,对检测到的人脸进行表情识别,统计出笑容、惊讶、平静表情的数量,根据预设的表情强度值,计算每一个图像帧的表情强度的平均值。根据眼睛的位置和大小,计算眼睛的垂直距离与水平距离的比值EAR值,确定每一个图像帧的EAR平均值。采用光流算法,对连续的图像帧进行动作幅度的估计,确定每一个图像帧的动作幅度值;通过动作目标的位移变化率或关节点的速度计算动作的速度。通过动作目标的轨迹曲线的光滑度或关节点的变化平滑性来评估动作的流畅性。当图像帧中动作的幅度大于预设阈值,则将图像帧标记为动态图像,否则为静态图像。对于动态图像,将人物表情强度的平均值与动作的幅度、速度、流畅性进行加权平均,得到图像的精彩程度分数。对于静态图像,将人物表情强度的平均值、EAR平均值进行加权平均,计算图像帧的精彩强度分数。例如,通过采用OpenCV中的人脸检测器,从图像帧中检测出人脸。使用基于卷积神经网络的表情识别算法,对检测到的人脸进行表情识别,有1个人脸被识别为笑容,1个人脸被识别为惊讶,1个人脸被识别为平静。笑容的强度为0.7,惊讶的强度为0.5,平静的强度为0.3,计算得到表情强度的平均值为0.5。根据眼睛的垂直距离与水平距离的比值EAR值,第一个人脸的EAR为0.25,第二个人脸的EAR为0.30,第三个人脸的EAR为
0.28,得出EAR平均值为0.276。采用光流算法,对连续的图像帧进行动作幅度的估计,得到动作目标的位移范围为10像素,关节点的变化幅度为2。归一化计算出动作的幅度为0.6,速度为0.2,流畅性为0.1,其中流畅度为关节点变化幅度的标准差。设定了动态图像的幅度阈值为5像素,如果动作的幅度大于该阈值,则图像帧被标记为动态图像。对于动态图像,将人物表情强度的平均值与动作的幅度、速度、流畅性进行加权平均,权重分别为0.4、0.3、0.2和0.1。因此,该图像帧的精彩程度分数为(0.8*0.4)+(0.6*0.3)+(0.2*0.2)+(0.1*0.1)=
0.32+0.18+0.04+0.01=0.55。如果动作幅度小于预设阈值,则将图像帧标记为静态图像。
对于静态图像,将表情强度的平均值、EAR进行加权平均,以计算图像帧的精彩程度分数。对于表情强度的平均值赋予0.5的权重,对于EAR赋予0.5的权重,则精彩程度分数=(0.5*0.5+0.5*0.276)计算得到的精彩程度分数为0.388。
[0038] 步骤S103,通过对图像帧的内容进行深度分析,结合精彩程度的评估结果,判断出与主题不符或不够精彩的图像,确定需要替换的图像。
[0039] 从数据集中获取图像帧中提取到的物体、行为和场景,表情识别的结果,精彩程度分数,以及图像的主题。将图像帧的主题与预定的主题进行对比,如果图像中的主题与预定的主题无关,则确定为与主题不符的图像。通过图像的构图质量,判断其是否符合艺术审美规则,其中图像的构图质量包括平衡、对称、比例。如果图像的构图质量不达标,则判断为不够精彩的图像。通过图像中的色彩使用和对比度,判断图像是否精彩。如果色彩使用不当或对比度低于预设的阈值,导致图像显得暗淡或无趣,则确定为不够精彩的图像。通过图像中的动态元素,包括运动、快慢节奏,判断图像是否精彩。如果图像中的动态元素缺乏吸引力或与主题不协调,则确定为不够精彩的图像。通过图像中传递出的情感或故事性,判断图像是否精彩。如果图像中的情感表达弱或与主题不相关,则确定为不够精彩的图像。根据图像帧的评估结果,确定需要替换的与主题不符或不够精彩的图像。例如,从视频数据集中选择一帧图像,并获取图像帧中提取到学生、操场、可能的其他物体,如树、篮球架,学生正在跑步,确定图像是在学校操场上拍摄的,学生的表情是兴奋,图像的精彩程度分数为0.3888,图像的主题主题是"学生在学校操场上的跑步行为",将从图像中提取的主题与预设主题进行比较。评估构图质量我们分析图像的构图质量,包括平衡、对称和比例。如果图像构图合理,学生处于图像中央、没有明显的倾斜或变形,那么它符合艺术审美规则。评估色彩使用和对比度我们检查图像中的色彩使用和对比度是否与主题相符。如果图像使用明亮的色彩和适当的对比度,以突出学生在操场上跑步的场景,那么图像足够精彩。评估动态元素我们观察图像中的动态元素,包括学生的运动和节奏。如果学生的跑步动作生动并充满活力,与主题相符,那么图像足够精彩。评估情感和故事性我们分析图像中传达的情感和故事性。如果学生的表情显示出兴奋或专注,并且整个场景让人感到活力四溢,那么图像足够精彩。根据评估结果确定替换根据上述评估的结果,如果图像帧满足主题、构图良好、色彩使用适当、动态元素有吸引力且情感表达强烈,那么它是一个精彩的图像,不需要替换。但如果某个图像帧未能满足这些要求,如构图不佳、色彩单调、动态元素乏味或情感表达不足,那么需要考虑替换它以确保最终选择的图像都与主题相关且足够精彩。
[0040] 步骤S104,根据视频内容和主题,获取可替换的图像列表,对图像帧中的不合主题或不够精彩的瞬间进行替换。
[0041] 根据需要替换的图像的主题,从素材库中获取与需要替换的图像主题一致的图像素材。提取图像主题一致的图像素材中精彩程度分数高于预设阈值的图像。根据清晰度、对比度、色彩的评估指标,筛选出图像质量大于预设阈值的图像作为替换素材。将图像帧中不合主题或不够精彩的瞬间替换为筛选出的替换素材。例如,需要替换的图像主题是学生篮球赛,从素材库中获取与学生篮球赛主题一致的图像素材。首先,从素材库中提取图像主题一致的图像素材。素材库中共有1000张图像,其中有200张与学生篮球赛主题一致。使用SIFT算法对所有图像进行特征提取和匹配,得到每张图像与目标图像之间的相似度分数。某一张图像的相似度分数为8,表示与目标图像的相似度为80%。接下来,筛选出相似度分数高于预设阈值的图像。将预设阈值设置为7,表示只选取相似度大于70%的图像。在200张与学生篮球赛主题一致的图像中,有150张图像的相似度分数高于7。然后,根据清晰度、对比度和色彩的评估指标来筛选出图像质量大于预设阈值的图像作为替换素材。因此,可以使用图像的锐化度来评估清晰度,如某一张图像的锐化度为80%,表示图像清晰度较高。最后,将图像帧中不合主题或不够精彩的瞬间替换为筛选出的替换素材。图像帧中有5个不合主题或不够精彩的瞬间,选择了3张图像作为替换素材,其中2张是清晰度高于预设阈值的图像,1张是清晰度低于预设阈值但对比度和色彩高于预设阈值的图像。因此,成功从素材库中获取了与学生篮球赛主题一致且质量较高的图像素材,用于替换图像帧中不合主题或不够精彩的瞬间。
[0042] 步骤S105,分析事件情节和画面之间的关系,将不同画面片段进行排序。
[0043] 从数据库中获取目标检测和动作检测的结果。获取有文字描述和标注的画面片段,采用TF‑IDF算法提取文字描述中的关键词,得到事件的主要内容和关键词。获取所有画面片段的时间信息,确定画面片段发生的顺序,根据时间信息将画面片段进行排序。获取所有画面片段之间的逻辑关系信息,包括原因和结果,动作和反应,根据画面片段之间的逻辑关系将画面片段进行排序。获取画面片段所属的主题或情节信息,根据片段所属的主题或情节将画面片段进行排序。获取画面片段的角色信息,并根据角色的行动将画面片段进行排序。获取画面片段的空间信息,包括地点和位置,根据画面片段的地点和位置将画面片段进行排序。获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序。根据事件情节和画面之间的关系,将不同画面片段进行排序,直到整个场景被完整地连接起来。例如,从数据库中获取视频帧,并使用目标检测模型识别比赛中的运动员。使用动作检测模型检测运动员是否在短跑中起跑、奔跑、冲刺动作。从数据库中获取与比赛相关的文字描述和标注的视频片段,如评论员的解说。使用TF‑IDF算法提取文字描述中的关键词,如“短跑比赛”、“运动员”、“冠军”。从视频中提取时间戳,记录每个画面片段的开始和结束时间。通过解析文字描述和标注,识别比赛中的原因和结果,如“选手A因为速度快赢得了冠军”。识别比赛中的动作和反应,如“选手B起跑后立即加速”。识别画面片段中涉及的主题,如“冠军争夺战”、“激烈竞争”。通过目标检测结果识别每位运动员,并记录其角色信息。根据角色的行动,如起跑、冲刺,对画面片段进行排序。识别比赛的地点和位置,如“运动场”,“短跑起点”。根据地点和位置信息,对画面片段进行排序。通过文字描述和角色动作识别角色的情感状态,如“紧张”、“兴奋”。根据角色情感状态,对画面片段进行排序。根据事件情节和画面之间的关系,将不同画面片段进行排序,直到整个场景被完整地连接起来。
[0044] 根据画面片段之间的逻辑关系将画面片段进行排序。
[0045] 根据视频或场景中的画面片段,将每个画面片段进行标记和编号。根据画面片段的内容和上下文,识别画面片段之间的原因和结果关系。根据画面片段之间的因果关系,确定哪些画面片段是其他画面片段发生的原因,哪些画面片段是其他画面片段的结果,将这些关系进行标记。根据画面片段的内容和上下文,识别画面片段之间的动作和反应关系。通过分析画面片段中的动作和反应关系,确定哪些画面片段是其他画面片段的动作,哪些画面片段是其他画面片段的反应,将这些关系进行标记。根据原因和结果、动作和反应关系,将画面片段连接起来形成一个连贯的场景。根据画面片段之间的逻辑关系,将画面片段进行排序。例如,有一个视频,描述了一个同学在室内操场锻炼的场景。将视频中的不同画面片段进行标记和编号,则画面片段1‑10为有一个人走进室内操场、他穿上运动鞋并系好鞋带、他走向哑铃区域,拿起一对哑铃、他开始做哑铃推举、他持续做哑铃推举,脸上露出努力的表情、他完成一组哑铃推举,放下哑铃,喘着气、他喝了一口水,向镜子里看自己的肌肉、他走向跑步机,调节好速度和倾斜度、他开始跑步,呼吸变得急促、他坚持跑步,汗水滴落在地上;画面片段11‑17为他完成跑步,停下来喘口气,擦汗、他走向拉力器,调整重量和位置、他开始做拉力器训练,肌肉收缩、他完成一组拉力器训练,放松肌肉、他走向瑜伽区域,铺开瑜伽垫、他开始做瑜伽伸展,身体放松、他完成瑜伽伸展,闭眼冥想片刻;接下来,可以根据画面片段之间的原因和结果关系进行标记。则画面片段3是画面片段2的结果,因为他穿上运动鞋后走向哑铃区域。同样地,画面片段4是画面片段3的结果,因为他拿起哑铃后开始做哑铃推举。此外,还可以根据画面片段之间的动作和反应关系进行标记。如画面片段10是画面片段9的动作,因为他开始跑步。而画面片段11是画面片段10的反应,因为他停下来喘口气。最后,通过分析画面片段中的因果关系和动作反应关系,可以将这些画面片段连接起来形成一个连贯的场景。根据逻辑关系,可以将画面片段进行排序,确保每个画面片段都能与前后的画面片段产生逻辑关联。因此,可以将画面片段2和画面片段3连接在一起,因为他穿上运动鞋后走向哑铃区域。以此类推,直到整个场景被完整地连接起来。
[0046] 获取画面片段的角色情感和心理状态信息,根据片段中的角色情感和心理状态将画面片段进行排序。
[0047] 使用卷积神经网络针对人脸进行图像识别,结合预训练的表情识别模型,来识别和分类角色的具体表情,包括微笑、皱眉、惊讶;同样应用卷积神经网络,使用针对人体姿态和动作的预训练模型,来识别角色的肢体语言和动作,包括摆手、双手抱胸、奔跑。同时,应用Transformer结构的模型,对角色的语言和对话内容进行解析,获取其语义和语气。根据角色的语气、表情、肢体语言和动作,使用基于BERT的情感分类模型,确定角色的情感状态;如果片段中存在角色的内心独白或旁白,再次应用NLP技术解析其内容,直接提取角色的情感和心理状态信息。结合分析得到的数据,得出角色的情感状态和心理状态,包括愤怒、快乐、悲伤、焦虑等情感状态,以及紧张、害怕、自信、疑惑等心理状态。根据获得的情感和心理状态信息,对画面片段进行排序,根据角色情感和心理状态的变化来组织片段的顺序。例如,使用卷积神经网络对电影中的画面进行内容分析,对于某个角色A,在一段戏剧性的场景中,分析了一段时间内角色A的表情、肢体语言、动作和语气的变化。使用一个情感分类模型,基于BERT模型训练得到,来确定角色A的情感状态。若在这个场景中,角色A的情感状态变化如为,时间t1时角色A的表情、肢体语言和动作表现出快乐的情感状态,情感得分为8。
时间t2时角色A的表情、肢体语言和动作变得愤怒,情感得分为6。时间t3时角色A的表情、肢体语言和动作表现出悲伤的情感状态,情感得分为4。根据这些情感状态数据,可以得出角色A在这段时间内的情感状态变化,从快乐到愤怒再到悲伤。同时,还使用NLP技术分析角色A的语言和对话内容。角色A说"我很高兴今天能见到你们",表达了快乐的情感状态。"你们这样对待我真的很让我生气",表达了愤怒的情感状态。"我感到非常伤心,不知道该怎么办了",表达了悲伤的情感状态。根据角色A的语言和对话内容,可以得出与之前情感状态相一致的情感变化,从快乐到愤怒再到悲伤。综合分析以上数据,可以确定角色A在这段时间内的情感状态和心理状态。因此,角色A在时间t1和对话中表达了快乐的情感状态和心理状态,随后在时间t2和对话中表达了愤怒的情感状态和心理状态,最后在时间t3和对话中表达了悲伤的情感状态和心理状态。根据这些情感和心理状态信息,可以对这段画面片段进行排序,根据角色A情感和心理状态的变化来组织片段的顺序。因此,可以将快乐的场景放在开头,接着是愤怒的场景,最后是悲伤的场景,以便更好地表达角色A的情感和心理变化。
[0048] 步骤S106,基于获取的精彩瞬间与画面的排序,对图像帧之间加入特效衔接,进行具体内容的视频呈现。
[0049] 根据画面片段的排序结果,通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置。对场景转换的画面加入转场效果,包括淡入淡出、擦除、百叶窗、旋转、闪烁。使用OpenCV库进行图像处理,包括边缘检测、模糊效果、光影调整,对图片帧进行处理。使用AdobePremierePro视频编辑软件,通过对画面的色彩、对比度、饱和度进行调整,改变画面的氛围和情绪。根据动作识别的结果调整视频的播放速度,加快或减慢画面的节奏,突出关键动作或场景。判断是否有冗长或无聊的部分,进行剪辑和时长控制。将加入特效的图片帧进行衔接,进行具体内容的视频呈现;例如,有一段由10个画面片段组成的视频,想要通过分析相邻图片帧之间的颜色直方图差异来确定场景切换的位置。首先,使用OpenCV库对每个图片帧进行颜色直方图的计算。使用256个颜色bin来表示直方图,每个颜色bin的值表示该颜色在图片帧中的像素数量。计算第1和第2个图片帧之间的颜色直方图差异,并得到一个数值作为衡量两个直方图之间差异的指标,第1和第2个图片帧之间的直方图差异为100。然后,计算第2和第3个图片帧之间的直方图差异,得到一个数值作为衡量两个直方图之间差异的指标,第2和第3个图片帧之间的直方图差异为80。接着,继续计算第3和第4个图片帧之间的直方图差异,直方图差异为120。可以继续计算其他相邻图片帧之间的直方图差异。可以观察到第2和第3个图片帧之间的直方图差异较小,而第3和第4个图片帧之间的直方图差异较大。因此,可以判断在第3和第4个图片帧之间存在场景切换。一旦确定了场景切换的位置,可以在场景切换的画面帧上加入转场效果,如淡入淡出、擦除、百叶窗、旋转或闪烁等。如希望在第3和第4个图片帧之间加入淡入淡出效果,可以使用AdobePremierePro视频编辑软件对这两个画面帧进行处理,通过调整画面的色彩、对比度和饱和度来改变画面的氛围和情绪。另外,根据动作识别的结果,可以调整视频的播放速度,加快或减慢画面的节奏,突出关键动作或场景,如果动作识别结果显示第5和第6个图片帧中有关键动作,可以加快这段视频的播放速度,以突出这个关键动作。最后,还可以通过剪辑和时长控制来判断是否有冗长或无聊的部分,如果在第7和第8个图片帧之间存在冗长的片段,可以进行剪辑,删除这部分冗长的内容,以保持视频的流畅性。通过以上方法,可以对视频进行处理和编辑,创造出更具吸引力和有趣的效果。
[0050] 通过分析相邻图片帧之间的颜色直方图差异,判断是否存在场景切换,确定场景切换的位置。
[0051] 获取原始图像,进行图像预处理,将原始图像转换为灰度图像。划分图像区域,将灰度图像划分为若干个区域,每个区域包含一个或多个图像帧。对于每个区域中的图像帧,使用OpenCV提供的calcHist函数计算其颜色直方图。比较相邻图像帧的颜色直方图,使用OpenCV提供的compareHist函数计算它们之间的差异度量指标。根据设定的阈值,判断差异度量指标是否超过阈值,确定是否存在场景切换。根据判断结果,得到场景切换的位置。例如,有一个视频文件,其中包含两个场景,一个是篮球场,另一个是球场看台。首先,需要从视频中提取一些帧作为原始图像。选择每隔10帧提取一个图像,总共提取100个图像帧作为原始图像。接下来,将这些原始图像转换为灰度图像。灰度图像只包含亮度信息,对于场景切换的检测来说足够了。然后,将灰度图像划分为若干个区域,每个区域包含10个图像帧。这样就有10个区域,每个区域包含10个图像帧。接下来,使用OpenCV的calcHist函数计算每个区域中图像帧的颜色直方图。使用颜色直方图反映图像中各个亮度级别的像素数量。然后,使用OpenCV的compareHist函数比较相邻图像帧的颜色直方图,计算它们之间的差异度量指标。选择使用巴氏距离作为差异度量指标。如选择的阈值为5,表示差异度量指标超过5则认为存在场景切换。第一个区域中的图像帧之间的差异度量指标为2,小于阈值5,所以认为第一个区域中的图像帧属于同一个场景。第二个区域中的图像帧之间的差异度量指标为
8,大于阈值5,所以认为第二个区域中的图像帧之间存在场景切换。根据判断结果,得到场景切换的输出,即在第二个区域的开始处发生了场景切换。
[0052] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。