一种基于视频和音频的交互式数字多媒体制作方法转让专利

申请号 : CN200610081465.X

文献号 : CN100596186C

文献日 : 2010-03-24

本发明公开了一种基于视频和音频的交互式数字多媒体制作方法，通过人机交互制作多媒体文件。包括：开始；步骤一、实时获取现场视频图像并进行预处理，获得初步视频信息；步骤二、将初步视频信息处理转化为视频控制信息；步骤三、实时获取现场音频数据，并进行预处理，获得初步音频信息；步骤四、将初步音频信息处理转化为音频控制信息；步骤一、步骤二组成步骤组一，步骤三、步骤四组成步骤组二，步骤组一、步骤组二彼此独立，且执行完后都进入步骤五；步骤五、融合视频控制信息和音频控制信息，并输出本体控制命令，改变本体内容并输出；结束。本发明采用视频与音频的互动式控制，实现对了多媒体文件中虚拟元素的直接控制。

1、一种基于视频和音频的交互式数字多媒体制作方法，其特征在于，包括如下步骤：开始；步骤一、通过数字光学设备实时获取现场视频图像并进行预处理，获得初步视频信息；步骤二、将步骤一所获初步视频信息，通过对视频图象按其在时间和空间上的变化及特征分割，再对分割后的图象提取和分割特征，提取全局运动信息和局部人体姿态信息，转化为视频控制信息；步骤三、通过数字音频设备实时获取现场音频数据，并进行预处理，获得初步音频信息；步骤四、将步骤三所获初步音频信息，通过提取声音的频率值、幅度值，进行有限词汇语音识别，转化为音频控制信息；其中步骤一和步骤二组成按顺序执行的步骤组一，步骤三和步骤四组成按顺序执行的步骤组二，所述步骤组一、步骤组二彼此独立，可同时执行，也可不同时执行，且无论步骤组一、步骤组二是否同时执行，执行完后都进入步骤五；步骤五、处理融合所述视频控制信息和音频控制信息，并输出对本体的控制命令，通过控制接口按所述控制命令驱动本体，改变本体内容并输出，其中所述本体指多媒体文件；结束。

2、根据权利要求1所述的基于视频和音频的交互式数字多媒体制作方法，其特征在于，所述多媒体文件是用于形象展示或广告的多媒体文件；所述数字光学设备为数码摄像机；所述数字音频设备为麦克风和声卡。

3、根据权利要求2所述的基于视频和音频的交互式数字多媒体制作方法，其特征在于，步骤一中所述预处理包括对所述现场视频图像进行光线校正、除噪；步骤二中所述局部人体姿态信息包括人体位置、方向、幅度及人体组成的基本形状参数；步骤三中所述预处理包括采用音调分析和语音识别技术处理现场音频数据；所述步骤五中处理融合所述视频控制信息和音频控制信息涉及：命令集预处理模块、视频控制转换模块及音频控制转换模块，其中命令集预处理模块对视频音频命令集进行分类，并按接受的所述视频音频控制信息和音频控制信息分别将对应命令映射给视频控制转换模块和音频控制转换模块，视频控制转换模块接受所述视频控制信息及前述命令集预处理模块映射的命令并输出对本体的视频控制命令到控制接口，音频控制转换模块接受所述音频控制信息及前述命令集预处理模块映射的命令并输出对本体的音频控制命令到控制接口。

4、根据权利要求3所述的基于视频和音频的交互式数字多媒体制作方法，其特征在于，所述现场视频图像进行除噪，包括：首先将现场视频图像分辨率缩小为原来的1/4，并转换为256等级的灰度图像；然后求帧内和帧间上对应象素平均值，对每帧图像进行平滑处理，除去采集过程所造成的随机噪声；所述现场视频图像进行光线校正指：将每个象素点的象素值减去整幅图像象素值的均值，除以整幅图像象素值的方差，然后再乘以一个系数；所述提取全局运动信息包括：首先对当前帧与前一帧图像的每个对应象素做相减运算，并求相减结果的绝对值，得到描述帧间差异信息的帧间差图像；然后对帧间差图像进行阈值处理，判断每个象素是大于等于还是小于某个固定的阈值，得到描述运动区域的二值图像，用0表示小于、1表示大于或等于；最后对前述获得的二值图像进行边缘提取，获得运动区域的边缘；所述提取局部人体姿态信息指：根据前述提取全局运动信息结果，进一步分割运动前景，对不同区域单独进行特征分析，分析前述二值图像中特定区域内的边缘轮廓的形状以及形状的变化过程，提取出具有旋转缩放不变性的特征，得出对应的姿态信息，并通过上一时刻的结果进行跟踪校验及预测。

技术领域

本发明涉及一种计算机人机交互技术方法，特别是一种基于视频和音频的交互式数字多媒体制作方法。

背景技术

近年来，随着信息技术的革新，多媒体技术的广泛运用，通讯传媒产业飞速发展，各类媒体发布(如广告)的创意及形式也是层出不穷，丰富多彩。但是传统的媒体发布创意及形式一旦固定，都具有不变性、单向性、重复性的弊端。虽然随着计算机视觉和语音识别技术的发展，应用视觉和语音技术进行自然的人机简单交互已经成为可能，但如何使受众与各类媒体发布进行非接触式互动，使媒体发布尽量融入受众自身和场地周围景物的运动和声音信息，并且通过这种不同的互动会使媒体发布内容产生不同的变化，提高媒体发布时受众与发布的交互性和趣味性，成为制作相关的多媒体文件时面临的一个复杂问题。

发明内容

本发明要解决的技术问题是提供一种基于视频和音频的交互式数字多媒体制作方法，通过人机交互制作多媒体文件。
为解决上述技术问题，本发明包括如下步骤：开始；步骤一、通过数字光学设备实时获取现场视频图像并进行预处理，获得初步视频信息；步骤二、将步骤一所获初步视频信息处理转化为视频控制信息；步骤三、通过数字音频设备实时获取现场音频数据，并进行预处理，获得初步音频信息；步骤四、将步骤三所获初步音频信息处理转化为音频控制信息；其中步骤一和步骤二组成按顺序执行的步骤组一，步骤三和步骤四组成按顺序执行的步骤组二，步骤组一、步骤组二彼此独立，可同时执行，也可不同时执行，且无论步骤组一、步骤组二是否同时执行，执行完后都进入步骤五；步骤五、处理融合视频控制信息和音频控制信息，并输出对本体的控制命令，通过控制接口按所述控制命令驱动本体，改变本体内容并输出，其中本体指多媒体文件；结束。
本发明由于采用视频与音频的互动式控制，并将结果转化为多媒体文件的控制指令，实现对多媒体文件中虚拟元素的直接控制。

附图说明

图1是本发明方法应用到广告制作中的流程图；
图2是对图1中控制信息融合输出，即把视频和音频的分析和识别结果映射到相应的广告控制中的流程图；

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。
本发明方法从原理上可分为基于音频的交互式数字多媒体制作方法和基于视频的交互式数字多媒体制作方法。
其中基于视频的交互式数字多媒体制作方法包括如下步骤：
①通过摄像头设备，实时捕获视频图像并进行光线校正、除噪等预处理；
②利用视频图像在时间和空间上的变化及特征对其进行分割，将分割后的图像进行特征提取、分析，求得图像中的全局运动信息和局部人体姿态信息(位置、方向、幅度及他们组成的基本形状参数)；通过规则化处理，将这些信息，转化为广告的控制命令；
③控制接口根据控制命令驱动广告。
基于音频的交互式数字多媒体制作方法包括如下步骤：
①将从麦克风和声卡设备，实时采集音频数据并进行除噪等预处理；
②采用音调分析和语音识别技术对采集的音频进行处理，得到声音的频率值、幅度值以及相对应语意词汇识别结果，转化为广告的控制命令；
③控制接口根据控制命令驱动广告。
必须强调上述两种方法可独立运用，也可以组合使用。
下面以本方法运用于广告制作的实施例来进一步阐述本发明。图1 是该实施例的流程图，其中步骤(1-5)和步骤(6-10)可单独应用，也可并行应用。
如图1所示，该实施例具体步骤如下：
(1)获取视频图像：通过高速图像捕获模块从连接至计算机的摄像头获取实时图像。由于要对每一帧图像进行处理，所以要从视频流中，将图像逐帧提取出来。根据应用目的的不同，摄像头的角度可以是正对场地中的人和景物，也可以从场地顶部拍摄人和景物；
(2)除噪等预处理：为提高后续运动信息提取和姿态信息提取的精度和速度，需要对步骤(1)获得的帧图像进行除噪等预处理。首先，为了降低运算量提高计算速度，将所采集的彩色图像分辨率缩小为原来的1/4，并转换为256等级的灰度图像。其次，求空间(帧内)和时间(帧间)上对应象素平均值，对每帧图像进行平滑处理，除去采集过程所造成的随机噪声。另外，对亮度进行补偿以消除光照变化的影响。即将每个象素点的象素值减去整幅图像象素值的均值，除以整幅图像象素值的方差，再然后乘以一个系数。经过上述处理，从而一定程度上消除光线变化的影响；
(3)运动信息提取：为了后续提取姿态信息，需要从步骤(2)处理后的图像中提取全局的运动信息。首先，对当前帧与前一帧图像的每个对应象素做相减运算，并求相减结果的绝对值，得到描述帧间差异信息的帧间差图像；然后，对帧间差图像进行阈值处理，判断每个象素是大于等于还是小于某个固定的阈值，得到描述运动区域的二值图像(0表示小于、1 表示大于或等于)；最后，对前述获得的二值图像进行边缘提取，获得运动区域的边缘。另外，对于某个固定区域，可以根据该区域内1所占的比例、重心位置和历史信息，求得该区域运动的幅度、方向和速度参数；
(4)姿态信息提取：根据步骤(3)运动信息提取结果，进一步将运动前景分割出来，分别对不同区域单独进行特征，分析前述二值图像中特定区域内的边缘轮廓的形状以及形状的变化过程，提取出具有旋转缩放不变性的特征，得出对应的姿态信息，并通过上一时刻的结果进行跟踪校验及预测；
(5)视频控制参数提取与转化：把步骤(3)和(4)所提取的全局运动信息以及局部人体姿态信息转化成相应的控制信息；
(6)获取音频数据：通过麦克风、声卡采集实时音频数据；
(7)除噪等预处理：对于实时采集的音频，通过平滑处理进行除噪；
(8)音调信息提取：对于除噪后的音频，进行音调分析，提取声音的频率值、幅度值；
(8)有限词汇语音识别：采用非特定人、连续语音识别方法，识别某些离散且实时性要求不高的有限词汇命令，如开始，停止等；
(9)音频控制参数提取与转化：将所提取的音调信息以及有限词汇识别结果转化成相应的控制信息；
(10)命令实现：最后将识别的结果，通过预先定义好的命令集进行映射转换，得到广告的控制信息；
(11)多通道融合：将视频和音频的控制信息结合，形成高效全面的广告控制指令。
下面详细说明上述步骤11，即将视频和音频的分析和识别结果映射到相应的广告控制中的过程，如图2所示，基本步骤如下：
(1)首先对广告内容控制命令进行分类：根据视频具有快速、直观、连续输出但易受干扰的特点，以及声音具有自然快捷但识别过程即时性不高的特点，对所需的命令集进行有效的分类。
(2)基于视频的控制：首先需要设定各种运动信息和各种人体姿态与广告控制量的对应关系，然后通过摄像头采集场地周围景物和受众群体，对于图像中的运动和人体的姿态，进行实时分析和识别，根据当前的状态，采用一定的预测跟踪算法，输出相应的控制量；
(3)基于音频的控制，首先需要建立关键词库，以及关键词与相关命令的映射表，然后通过麦克风采集受众群体及场地周围景物的声音信号，根据音调分析和语音识别结果，产生相应的控制命令；
(4)通过广告控制接口，将视频和音频的命令，实时整合到广告的虚拟元素和内容控制中，或者直接调整模型达到控制的目的。
综上所述，本发明方法采用视频与音频的互动式控制，就是将受众及场地周围景物的运动和声音在计算机中进行分析和识别，并将结果转化为对多媒体文件的控制指令，实现对多媒体中虚拟元素的直接控制。

一种基于视频和音频的交互式数字多媒体制作方法转让专利

申请号 : CN200610081465.X

文献号 : CN100596186C

文献日 : 2010-03-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 侯启槟 , 王阳生 , 曾祥永 , 鲁鹏

申请人 : 北京盛开交互娱乐科技有限公司

摘要 :

权利要求 :

说明书 :

技术领域

背景技术

发明内容

附图说明

具体实施方式