一种可动态调整的讲解方法、装置及电子设备转让专利
申请号 : CN202011582434.9
文献号 : CN112289239B
文献日 : 2021-03-30
发明人 : 於其之 , 侯暮寒 , 金天磊 , 朱世强
申请人 : 之江实验室
摘要 :
权利要求 :
1.一种可动态调整的讲解方法,其特征在于,包括:将讲解词转换成讲解文本图,其中所述讲解词具有一个或多个版本,不同版本所需讲解时间不同,所述讲解文本图为有向图,所述有向图的节点包含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版本;
获取观众的视频和音频,识别观众的行为和参与度;
依据所述观众的行为动态控制所述讲解文本图的执行过程,执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点,所述访问节点指讲解所述节点包含的讲解词片段;
依据所述观众的参与度动态调整所述讲解文本图的执行路径,所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列;
其中依据观众的行为动态控制所述讲解文本图的执行过程,包括:若识别到观众与讲解者说话的行为,且说话内容的意图为启动讲解时,启动讲解流程;
或者,识别到所有观众都处于聆听行为时,自动启动讲解;
启动讲解后,从讲解文本图中的起始节点出发,沿着顺序边依次访问讲解文本图中的节点,直到结束节点;
在讲解过程中,部分观众行为能触发暂停讲解,即暂停访问讲解文本图中的节点,并记录当前所处的节点为暂停节点,其中触发暂停的观众行为至少包括观众间说话、与讲解者说话或者离开;
暂停讲解后,根据触发暂停的观众行为调整讲解流程;如果所述观众行为为观众间说话,则等待所述观众间说话结束后恢复讲解;如果所述观众行为为与讲解者说话,则根据说话的内容执行相应的任务,包括与观众对话或者执行语音指令,完成所述任务后恢复讲解;
如果所述观众行为为离开,则终止执行所述讲解文本图;
恢复讲解时,重新访问所述暂停节点,并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。
2.根据权利要求1所述的可动态调整的讲解方法,其特征在于,将讲解词转换成讲解文本图,具体包括:
对于只具有一个版本的讲解词,在讲解词中找到分隔点序列;分隔点的位置根据讲解被打断后恢复讲解时的合理起始位置定义,即两个前后连续的分隔点之间的文本若在讲解中被打断,则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点之间的文本;每两个连续的所述分隔点之间的文本为一个讲解词片段;
以所述讲解词片段为节点构建有向图,称为讲解文本图,所述讲解文本图中每个节点包含一个所述讲解词片段;
若两个所述讲解词片段在所述讲解词中为前后顺序关系,则将所述讲解文本图中相应的两个节点用有向边连接,所述有向边称为顺序边,所述有向边的方向表示讲解的先后顺序;
将包含所述讲解词中第一个片段的节点作为所述讲解文本图的起始节点,将包含所述讲解词中最后一个片段的节点作为所述讲解文本图的结束节点。
3.根据权利要求1所述的可动态调整的讲解方法,其特征在于,将讲解词转换成讲解文本图,具体包括:
对于具有多个版本的讲解词,选定一个版本作为默认版本,对每一个版本都独立构建所述讲解文本图,得到对应不同版本的多个所述讲解文本图;
对于任何位于不同版本的所述讲解文本图的两个节点,若所述两个节点所包含的两个所述讲解词片段在讲解时能通顺衔接,则将所述两个节点用一条有向边连接,所述有向边称为过渡边,所述有向边的方向表示讲解的先后顺序;
所述过渡边将对应不同版本的多个所述讲解文本图连接成单一的所述讲解文本图;
将包含所述默认版本讲解词中第一个片段的节点作为所述单一的所述讲解文本图的起始节点,将包含所述默认版本讲解词中最后一个片段的节点作为所述单一的所述讲解文本图的结束节点。
4.根据权利要求1所述的可动态调整的讲解方法,其特征在于,获取观众的视频和音频,识别观众的行为和参与度,具体包括:使用摄像头获取观众的视频;
使用麦克风获取观众的音频;
使用基于深度学习多模态融合的方法识别观众行为,将所述观众的视频和音频输入行为识别网络模型,得到观众的行为;
使用基于深度学习端到端的方法识别观众的参与度,将所述观众的视频输入参与度识别网络模型,得到观众的参与度。
5.根据权利要求1所述的可动态调整的讲解方法,其特征在于,获取观众的视频和音频,识别观众的行为和参与度之前,还包括:采集真实讲解场景中观众的视频和音频;
根据所述观众的视频和音频标注观众的行为,得到行为标注数据;
建立行为识别网络模型,使用所述观众的视频和音频及所述行为标注数据作为数据集,训练所述行为识别网络模型。
6.根据权利要求1所述的可动态调整的讲解方法,其特征在于,获取观众的视频和音频,识别观众的行为和参与度之前,还包括:采集真实讲解场景中观众的视频;
根据所述观众的视频标注参与度,得到参与度标注数据;
建立参与度识别网络模型,使用所述观众的视频及参与度标注数据作为数据集,训练所述参与度识别网络模型。
7.根据权利要求1所述的可动态调整的讲解方法,其特征在于,依据观众的参与度动态调整所述讲解文本图的执行路径,具体包括:如果所述观众的参与度在一段时间低于一定的阈值,在距离当前访问节点最近的下一个包含连接到更简短版本的过渡边的节点过渡到更简短版本;如果所述观众的参与度在一段时间高于一定的阈值,在距离当前访问节点最近的下一个包含连接到更详细版本的过渡边的节点过渡到更详细版本。
8.一种可动态调整的讲解装置,其特征在于,包括:讲解词处理模块,用于将讲解词转换成讲解文本图,其中所述讲解词具有一个或多个版本,不同版本所需讲解时间不同,所述讲解文本图为有向图,所述有向图的节点包含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版本;
观众感知模块,用于获取观众的视频和音频,识别观众的行为和参与度;
第一讲解执行模块,用于依据所述观众的行为动态控制所述讲解文本图的执行过程,执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点,所述访问节点指讲解所述节点包含的讲解词片段;
第二讲解执行模块,用于依据所述观众的参与度动态调整所述讲解文本图的执行路径,所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列;
其中依据观众的行为动态控制所述讲解文本图的执行过程,包括:若识别到观众与讲解者说话的行为,且说话内容的意图为启动讲解时,启动讲解流程;
或者,识别到所有观众都处于聆听行为时,自动启动讲解;
启动讲解后,从讲解文本图中的起始节点出发,沿着顺序边依次访问讲解文本图中的节点,直到结束节点;
在讲解过程中,部分观众行为能触发暂停讲解,即暂停访问讲解文本图中的节点,并记录当前所处的节点为暂停节点,其中触发暂停的观众行为至少包括观众间说话、与讲解者说话或者离开;
暂停讲解后,根据触发暂停的观众行为调整讲解流程;如果所述观众行为为观众间说话,则等待所述观众间说话结束后恢复讲解;如果所述观众行为为与讲解者说话,则根据说话的内容执行相应的任务,包括与观众对话或者执行语音指令,完成所述任务后恢复讲解;
如果所述观众行为为离开,则终止执行所述讲解文本图;
恢复讲解时,重新访问所述暂停节点,并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。
9.一种电子设备,其特征在于,包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑7任一项所述的可动态调整的讲解方法。
说明书 :
一种可动态调整的讲解方法、装置及电子设备
技术领域
背景技术
可以节省大量人力成本,而且自动讲解设备不会因为疲倦或者疏忽而出现讲解内容的差
错。但是与人类讲解员相比,现有的自动讲解设备灵活性不足。譬如,人类讲解员在讲解过
程中能根据观众的参与度适当延长或者压缩讲解内容,而现在的自动讲解设备一般只能播
放固定长度的讲解词。再如,人类讲解员能暂停讲解以回答观众提问,而且处理完问题后能
够通顺的恢复讲解,虽然现在有一部分自动讲解设备能支持讲解被打断,但在恢复讲解时
没有考虑前后讲解词内容是否能通顺衔接。上述问题导致观众的参观体验较差,影响自动
讲解设备的应用普及。
发明内容
片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中
能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版
本;
所述节点包含的讲解词片段;
讲解中被打断,则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解
所述两个前后连续的分隔点之间的文本;每两个连续的所述分隔点之间的文本为一个讲解
词片段;
后顺序;
向边称为过渡边,所述有向边的方向表示讲解的先后顺序;
解文本图的结束节点。
解者说话或者离开;
则根据说话的内容执行相应的任务,包括与观众对话或者执行语音指令,完成所述任务后
恢复讲解;如果所述观众行为为观众离开,则终止执行所述讲解文本图;
在一段时间高于一定的阈值,在距离当前访问节点最近的下一个包含连接到更详细版本的
过渡边的节点过渡到更详细版本。
某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解
词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个
版本或分属于不同版本;
点,所述访问节点指讲解所述节点包含的讲解词片段;
图的执行过程,根据用户的参与度动态调整讲解文本图的执行路径。而一般讲解方法仅能
根据固定讲解词进行讲解,无法根据现场观众的行为和参与度进行动态调整。本发明的创
新点在于将讲解词转化为讲解文本图,在此基础上实现了根据观众的行为与参与度动态调
整讲解流程和内容,提升了自动讲解的灵活性,使自动讲解的行为模式更加接近人类讲解
员,从而改善观众的参观体验。本发明适用于使用自动讲解设备代替讲解员进行讲解的场
景,如使用服务机器人讲解或使用屏幕显示的虚拟人讲解。
附图说明
具体实施方式
用于限定本发明。
节描述中,详尽描述了一些特定的细节部分。
其中所述版本A为所述讲解点的默认版本。
行走,并使用石器,才标志着人类的诞生。人类的演化可分为早期猿人、晚期猿人、早期智人
和晚期智人四个阶段。DNA研究表明人类可能诞生于距今700~600万年前。但最早的人类化
石,是约250万年前东非的能人化石,他们由南方古猿演化而来,属于早期猿人,骨骼还和猿
很像,但已经能制造简单的石器。大约200万年前,部分能人觉得世界那么大,我想去看看,
于是踏上了旅途,足迹遍布北非、欧洲和亚洲,并依据当地环境演化出了多个品种。大约200
~40万年前是晚期猿人阶段。晚期猿人也叫直立人,从骨架可知,他们已经能完全用二足行
走,脑容量继续增大,能制造较为进步的工具,还学会了用火。例如我国的北京周口店的北
京猿人、陕西的蓝田猿人、云南的元谋猿人等。大约30~4万年前的第四纪早期,是早期智人
阶段,以广泛分布于欧洲、西亚和北非的尼安德特人为代表。他们与现代人更接近了,学会
了制造简单的兽皮衣物。现代人最直接的祖先, 则是距今约4~1万年的晚期智人,他们的
行走姿态与现代人完全相同,会制作复杂的石器和骨器,用骨针缝制兽皮衣物。例如法国的
克罗玛依人,北京的山顶洞人。”
演化而来,属于早期猿人,骨骼还和猿很像。大约200~40万年前是晚期猿人阶段,晚期猿人
也叫直立人。他们已经能完全用二足行走,能制造较为进步的工具。大约30~4万年前的第
四纪早期,是早期智人阶段。他们与现代人更接近了。现代人最直接的祖先, 则是距今约4
~1万年的晚期智人,他们的行走姿态与现代人完全相同。”
的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲
解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属
于不同版本;包括以下子步骤:
理起始位置定义,即两个前后连续的分隔点之间的文本若在讲解中被打断,则在恢复讲解
时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点
之间的文本;每两个连续的所述分隔点之间的文本为一个讲解词片段。
志着人类的诞生。人类的演化可分为早期猿人、晚期猿人、早期智人和晚期智人四个阶段。”
但已经能制造简单的石器。大约200万年前,部分能人觉得世界那么大,我想去看看,于是踏
上了旅途,足迹遍布北非、欧洲和亚洲,并依据当地环境演化出了多个品种。”
我国的北京周口店的北京猿人、陕西的蓝田猿人、云南的元谋猿人等。”
人,北京的山顶洞人。”
另一方面也为不同版本间讲解词过渡衔接提供了参考位置。以所述讲解词片段B3为例,若
讲解“他们已经能完全用二足行走”的过程中或者结束时被打断,等处理完打断事件后,按
照现有讲解方法一般简单重新讲解被打断的句子“他们已经能完全用二足行走”或者从打
断处继续讲解“能制造较为进步的工具”,都会造成讲解内容不连贯,缺失足够的上下文信
息,不利于观众理解讲解内容。根据本发明提供的方法,所述B3包含的文本被定义为讲解词
片段,当恢复讲解时,必须从“大约200~40万年前是晚期猿人阶段”开始讲解。类似的,当从
版本A的某个位置过渡到所述版本B的B3部分时,也必须从B3的开头部分“大约200~40万年
前是晚期猿人阶段”开始讲解,而不能从中间其他位置插入。
片段在所述讲解词中为前后顺序关系,则将所述有向图中相应的两个节点用有向边依次连
接;所述有向边称为顺序边;包含讲解词中第一个片段的节点为所述讲解文本图的起始节
点。如图2所示,节点A1至A5五个节点及节点间的顺序边构成版本A的讲解文本图,其中所述
节点A1为所述版本A的讲解文本图的起始节点;节点B1至B5五个节点及节点间的顺序边构
成版本B的讲解文本图,其中所述节点B1为所述版本B的讲解文本图的起始节点。
节点用有向边连接。所述版本A和版本B的讲解文本图由八条过渡边连接而合并为单一的讲
解文本图,所述过渡边包括从版本A到版本B过渡的(A1,B2)、(A2,B3)、(A3,B4)和(A4,B5),
以及从版本B到版本A过渡的(B1,A2)、(B2,A3)、(B3,A4)和(B4,A5)。由于所述版本A是所述
讲解点的默认版本,因此所述版本A的讲解文本图的起始节点A1为所述合并后的讲解文本
图的起始节点。
使用环境中布置的摄像头对准所述观众区域拍摄获取观众视频;使用讲解设备附带的六麦
克风阵列获取所述观众区域方向的音频。
特征。将所述特征连接后输入预测网络,得到行为分类。所述人体和人脸图像由YOLO目标检
测方法得到。所述行为包括聆听、观众与讲解者说话、观众间说话、和观众离开等。所述行为
识别网络模型包括处理音频信息的MobileNet卷积神经网络,输入以0.48秒为时间窗口从
音频中提取的尺寸为64×48×1的梅尔频谱序列,输出128维的音频特征。所述行为识别网
络模型还包括处理图像特征的MobileNet卷积神经网络,用于逐帧提取128维的图像特征。
在本实施例中,所述预测网络使用Seq2Seq循环神经网络模型,包括编码器和解码器两部
分;所述编码器和解码器使用包含512个单元的LSTM网络;所述解码器输出预测的概率序
列。在深度学习应用阶段,将观众视频和音频输入所述行为识别网络模型,输出观众的行为
类别。
不会被误判为说话行为。另一方面,如果只利用音频信息识别观众行为也容易发生误判,譬
如无法区分观众与讲解者说话还是和其他观众说话。因此,本实施例结合视频和音频信息
的多模态融合方法更加可靠。
络模块组;所述卷积神经网络模块使用在ImageNet数据集上预训练的ReNetXt‑50卷积神经
网络,逐帧提取尺寸为2048的图像特征;所述循环神经网络模块使用单层LSTM网络,累积10
帧所述图像特征输出时域特征向量;所述时域特征向量经过尺寸为2048×1的全连接层和
Sigmoid激活函数输出0‑1范围的参与度值。深度学习应用阶段,将视频输入所述参与度网
络模型,输出观众的参与度。当多于一位观众时取所有观众参与度的平均值。
识别方法,本实施例的端到端方法更加鲁棒和可靠。
解所述节点包含的讲解词片段;包括以下子步骤:
开始讲解,讲解设备得到肯定的答复后启动讲解。
讲解者说话、观众间说话和观众离开。
任务,包括与所述观众对话或者执行语音指令,完成任务后再恢复讲解;如果暂停原因为观
众离开,则提前结束当前讲解。
明提供的讲解文本图,讲解暂停后如何找到合理的恢复位置是一个困难的问题。
本B的节点;相反地,当版本B的讲解文本图时,如果所述观众的参与度在一段时间高于一定
的阈值,在距离当前讲解节点最近的下一个存在过渡边的节点,过渡到版本A的节点。具体
地,在本实施例中,所述观众的参与度值范围为0‑1间,所述固定时间设置为30秒,所述阈值
为0.5。
本图的执行路径。使用多个版本的讲解词,使得自动讲解可以根据观众的参与度动态调整
讲解内容的长度。但如果不使用本发明提供的讲解文本图,如何在不同版本的解说词之间
合理过渡是一个困难的问题。
的讲解方法装置,该装置为实施例1提供的一种可动态调整的讲解方法的虚拟装置,具备执
行该方法相应的功能模块和有益效果,该装置包括:
含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲
解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一
个版本或分属于不同版本;
节点,所述访问节点指讲解所述节点包含的讲解词片段;
一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或
者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连
接,可以是电性或其它的形式。
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存
储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。
视为本发明的保护范围。