一种可动态调整的讲解方法、装置及电子设备转让专利

申请号 : CN202011582434.9

文献号 : CN112289239B

文献日 : 2021-03-30

相似专利: 请登录后查看

本发明公开了一种可动态调整的讲解方法、装置及电子设备，包括：将讲解词转换成讲解文本图；获取观众的视频和音频，识别观众的行为和参与度；依据观众的行为动态控制讲解文本图的执行过程；依据观众的参与度动态调整讲解文本图的执行路径。本发明提升了使用电子设备进行自动讲解时的灵活性，实现依据讲解过程中观众的行为和参与度对讲解过程和内容进行动态的调整。

1.一种可动态调整的讲解方法，其特征在于，包括：将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包含某一个版本的讲解词片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一个版本或分属于不同版本；

获取观众的视频和音频，识别观众的行为和参与度；

依据所述观众的行为动态控制所述讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点，所述访问节点指讲解所述节点包含的讲解词片段；

依据所述观众的参与度动态调整所述讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列；

其中依据观众的行为动态控制所述讲解文本图的执行过程，包括：若识别到观众与讲解者说话的行为，且说话内容的意图为启动讲解时，启动讲解流程；

或者，识别到所有观众都处于聆听行为时，自动启动讲解；

启动讲解后，从讲解文本图中的起始节点出发，沿着顺序边依次访问讲解文本图中的节点，直到结束节点；

在讲解过程中，部分观众行为能触发暂停讲解，即暂停访问讲解文本图中的节点，并记录当前所处的节点为暂停节点，其中触发暂停的观众行为至少包括观众间说话、与讲解者说话或者离开；

暂停讲解后，根据触发暂停的观众行为调整讲解流程；如果所述观众行为为观众间说话，则等待所述观众间说话结束后恢复讲解；如果所述观众行为为与讲解者说话，则根据说话的内容执行相应的任务，包括与观众对话或者执行语音指令，完成所述任务后恢复讲解；

如果所述观众行为为离开，则终止执行所述讲解文本图；

恢复讲解时，重新访问所述暂停节点，并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。

2.根据权利要求1所述的可动态调整的讲解方法，其特征在于，将讲解词转换成讲解文本图，具体包括：

对于只具有一个版本的讲解词，在讲解词中找到分隔点序列；分隔点的位置根据讲解被打断后恢复讲解时的合理起始位置定义，即两个前后连续的分隔点之间的文本若在讲解中被打断，则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点之间的文本；每两个连续的所述分隔点之间的文本为一个讲解词片段；

以所述讲解词片段为节点构建有向图，称为讲解文本图，所述讲解文本图中每个节点包含一个所述讲解词片段；

若两个所述讲解词片段在所述讲解词中为前后顺序关系，则将所述讲解文本图中相应的两个节点用有向边连接，所述有向边称为顺序边，所述有向边的方向表示讲解的先后顺序；

将包含所述讲解词中第一个片段的节点作为所述讲解文本图的起始节点，将包含所述讲解词中最后一个片段的节点作为所述讲解文本图的结束节点。

3.根据权利要求1所述的可动态调整的讲解方法，其特征在于，将讲解词转换成讲解文本图，具体包括：

对于具有多个版本的讲解词，选定一个版本作为默认版本，对每一个版本都独立构建所述讲解文本图，得到对应不同版本的多个所述讲解文本图；

对于任何位于不同版本的所述讲解文本图的两个节点，若所述两个节点所包含的两个所述讲解词片段在讲解时能通顺衔接，则将所述两个节点用一条有向边连接，所述有向边称为过渡边，所述有向边的方向表示讲解的先后顺序；

所述过渡边将对应不同版本的多个所述讲解文本图连接成单一的所述讲解文本图；

将包含所述默认版本讲解词中第一个片段的节点作为所述单一的所述讲解文本图的起始节点，将包含所述默认版本讲解词中最后一个片段的节点作为所述单一的所述讲解文本图的结束节点。

4.根据权利要求1所述的可动态调整的讲解方法，其特征在于，获取观众的视频和音频，识别观众的行为和参与度，具体包括：使用摄像头获取观众的视频；

使用麦克风获取观众的音频；

使用基于深度学习多模态融合的方法识别观众行为，将所述观众的视频和音频输入行为识别网络模型，得到观众的行为；

使用基于深度学习端到端的方法识别观众的参与度，将所述观众的视频输入参与度识别网络模型，得到观众的参与度。

5.根据权利要求1所述的可动态调整的讲解方法，其特征在于，获取观众的视频和音频，识别观众的行为和参与度之前，还包括：采集真实讲解场景中观众的视频和音频；

根据所述观众的视频和音频标注观众的行为，得到行为标注数据；

建立行为识别网络模型，使用所述观众的视频和音频及所述行为标注数据作为数据集，训练所述行为识别网络模型。

6.根据权利要求1所述的可动态调整的讲解方法，其特征在于，获取观众的视频和音频，识别观众的行为和参与度之前，还包括：采集真实讲解场景中观众的视频；

根据所述观众的视频标注参与度，得到参与度标注数据；

建立参与度识别网络模型，使用所述观众的视频及参与度标注数据作为数据集，训练所述参与度识别网络模型。

7.根据权利要求1所述的可动态调整的讲解方法，其特征在于，依据观众的参与度动态调整所述讲解文本图的执行路径，具体包括：如果所述观众的参与度在一段时间低于一定的阈值，在距离当前访问节点最近的下一个包含连接到更简短版本的过渡边的节点过渡到更简短版本；如果所述观众的参与度在一段时间高于一定的阈值，在距离当前访问节点最近的下一个包含连接到更详细版本的过渡边的节点过渡到更详细版本。

8.一种可动态调整的讲解装置，其特征在于，包括：讲解词处理模块，用于将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包含某一个版本的讲解词片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一个版本或分属于不同版本；

观众感知模块，用于获取观众的视频和音频，识别观众的行为和参与度；

第一讲解执行模块，用于依据所述观众的行为动态控制所述讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点，所述访问节点指讲解所述节点包含的讲解词片段；

第二讲解执行模块，用于依据所述观众的参与度动态调整所述讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列；

或者，识别到所有观众都处于聆听行为时，自动启动讲解；

启动讲解后，从讲解文本图中的起始节点出发，沿着顺序边依次访问讲解文本图中的节点，直到结束节点；

如果所述观众行为为离开，则终止执行所述讲解文本图；

恢复讲解时，重新访问所述暂停节点，并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。

9.一种电子设备，其特征在于，包括：一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑7任一项所述的可动态调整的讲解方法。

一种可动态调整的讲解方法、装置及电子设备

技术领域

[0001] 本发明涉及计算机领域，尤其涉及一种可动态调整的讲解方法、装置及电子设备。

背景技术

[0002] 展厅、博物馆、纪念馆等场所往往有讲解员为观众提讲解服务，帮助观众更好的了解展出内容。使用服务机器人或者屏幕显示的虚拟人等自动讲解设备代替讲解员的工作，
可以节省大量人力成本，而且自动讲解设备不会因为疲倦或者疏忽而出现讲解内容的差
错。但是与人类讲解员相比，现有的自动讲解设备灵活性不足。譬如，人类讲解员在讲解过
程中能根据观众的参与度适当延长或者压缩讲解内容，而现在的自动讲解设备一般只能播
放固定长度的讲解词。再如，人类讲解员能暂停讲解以回答观众提问，而且处理完问题后能
够通顺的恢复讲解，虽然现在有一部分自动讲解设备能支持讲解被打断，但在恢复讲解时
没有考虑前后讲解词内容是否能通顺衔接。上述问题导致观众的参观体验较差，影响自动
讲解设备的应用普及。

发明内容

[0003] 本发明的目的在于针对现有技术的不足，提出一种可动态调整的讲解方法、装置及电子设备，以解决现有自动讲解设备灵活性不足的问题。

[0004] 为了达到上述目的，本发明实施例所采用的技术方案来如下：

[0005] 第一方面，本发明实施例提供一种可动态调整的讲解方法，包括：

[0006] 将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包含某一个版本的讲解词
片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中
能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一个版本或分属于不同版
本；

[0007] 获取观众的视频和音频，识别观众的行为和参与度；

[0008] 依据所述观众的行为动态控制所述讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点，所述访问节点指讲解
所述节点包含的讲解词片段；

[0009] 依据所述观众的参与度动态调整所述讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列。

[0010] 进一步地，所述将讲解词转换成讲解文本图，包括：

[0011] 对于只具有一个版本的讲解词，在讲解词中找到分隔点序列；分隔点的位置根据讲解被打断后恢复讲解时的合理起始位置定义，即两个前后连续的分隔点之间的文本若在
讲解中被打断，则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解
所述两个前后连续的分隔点之间的文本；每两个连续的所述分隔点之间的文本为一个讲解
词片段；

[0012] 以所述讲解词片段为节点构建有向图，称为讲解文本图，所述讲解文本图中每个节点包含一个所述讲解词片段；

[0013] 若两个所述讲解词片段在所述讲解词中为前后顺序关系，则将所述讲解文本图中相应的两个节点用有向边连接，所述有向边称为顺序边，所述有向边的方向表示讲解的先
后顺序；

[0014] 将包含所述讲解词中第一个片段的节点作为所述讲解文本图的起始节点，将包含所述讲解词中最后一个片段的节点作为所述讲解文本图的结束节点。

[0015] 进一步地，所述将讲解词转换成讲解文本图，包括：

[0016] 对于具有多个版本的讲解词，选定一个版本作为默认版本，对每一个版本都独立构建所述讲解文本图，得到对应不同版本的多个所述讲解文本图；

[0017] 对于任何位于不同版本的所述讲解文本图的两个节点，若所述两个节点所包含的两个所述讲解词片段在讲解时能通顺衔接，则将所述两个节点用一条有向边连接，所述有
向边称为过渡边，所述有向边的方向表示讲解的先后顺序；

[0018] 所述过渡边将对应不同版本的多个所述讲解文本图连接成单一的所述讲解文本图；

[0019] 将包含所述默认版本讲解词中第一个片段的节点作为所述单一的所述讲解文本图的起始节点，将包含所述默认版本讲解词中最后一个片段的节点作为所述单一的所述讲
解文本图的结束节点。

[0020] 进一步地，所述获取观众的视频和音频，识别观众行为和参与度，包括：

[0021] 使用摄像头获取观众的视频；

[0022] 使用麦克风获取观众的音频；

[0023] 使用基于深度学习多模态融合的方法识别观众行为，将所述观众的视频和音频输入行为识别网络模型，得到观众的行为；

[0024] 使用基于深度学习端到端的方法识别观众的参与度，将所述观众的视频输入参与度识别网络模型，得到观众的参与度。

[0025] 进一步地，所述获取观众的视频和音频，识别观众行为和参与度前，还包括：

[0026] 采集真实讲解场景中观众的视频和音频；

[0027] 对所述观众的视频和音频注行为；所述行为包括聆听、观众与讲解者说话、观众间说话、和观众离开等；

[0028] 建立行为识别网络模型，使用所述观众的视频和音频及行为标注作为数据集，训练所述行为识别网络模型；

[0029] 进一步地，所述获取观众的视频和音频，识别观众行为和参与度前，还包括：

[0030] 采集真实讲解场景中观众的视频；

[0031] 对所述观众的视频标注参与度；

[0032] 建立参与度识别网络模型，使用所述观众的视频及参与度标注作为数据集，训练所述参与度识别网络模型。

[0033] 进一步地，所述依据观众的行为动态控制所述讲解文本图的执行过程，包括：

[0034] 若识别到观众与讲解者说话的行为，且说话内容的意图为启动讲解时，启动讲解流程；或者，识别到所有观众都处于聆听行为时，自动启动讲解；

[0035] 启动讲解后，从讲解文本图中的起始节点出发，沿着顺序边依次访问讲解文本图中的节点，直到结束节点；

[0036] 在讲解过程中，部分观众行为能触发暂停讲解，即暂停访问讲解文本图中的节点，并记录当前所处的节点为暂停节点，其中触发暂停的观众行为至少包括观众间说话、与讲
解者说话或者离开；

[0037] 暂停讲解后，根据触发暂停的观众行为调整讲解流程；如果所述观众行为为观众间说话，则等待所述观众间说话结束后恢复讲解；如果所述观众行为为观众与讲解者说话，
则根据说话的内容执行相应的任务，包括与观众对话或者执行语音指令，完成所述任务后
恢复讲解；如果所述观众行为为观众离开，则终止执行所述讲解文本图；

[0038] 恢复讲解时，重新访问所述暂停节点，并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。

[0039] 进一步地，所述依据观众的参与度动态调整所述讲解文本图的执行路径，具体包括：

[0040] 如果所述观众的参与度在一段时间低于一定的阈值，在距离当前访问节点最近的下一个包含连接到更简短版本的过渡边的节点过渡到更简短版本；如果所述观众的参与度
在一段时间高于一定的阈值，在距离当前访问节点最近的下一个包含连接到更详细版本的
过渡边的节点过渡到更详细版本。

[0041] 第二方面，本发明实施例还提供一种可动态调成的讲解装置，包括：

[0042] 讲解词处理模块，用于将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包含
某一个版本的讲解词片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲解
词片段在讲解过程中能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一个
版本或分属于不同版本；

[0043] 观众感知模块，用于获取观众的视频和音频，识别观众的行为和参与度；

[0044] 第一讲解执行模块，用于依据所述观众的行为动态控制所述讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节
点，所述访问节点指讲解所述节点包含的讲解词片段；

[0045] 第二讲解执行模块，用于依据所述观众的参与度动态调整所述讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列。

[0046] 第三方面，本发明实施例还提供一种电子设备，其特征在于，包括：

[0047] 一个或多个处理器；

[0048] 存储器，用于存储一个或多个程序；

[0049] 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的一种可动态调整的讲解方法。

[0050] 本发明的有益效果是，本发明将讲解词转化为讲解文本图，并在讲解过程中持续获取观众的视频和音频以及识别观众的行为和参与度，根据观众的行为动态调整讲解文本
图的执行过程，根据用户的参与度动态调整讲解文本图的执行路径。而一般讲解方法仅能
根据固定讲解词进行讲解，无法根据现场观众的行为和参与度进行动态调整。本发明的创
新点在于将讲解词转化为讲解文本图，在此基础上实现了根据观众的行为与参与度动态调
整讲解流程和内容，提升了自动讲解的灵活性，使自动讲解的行为模式更加接近人类讲解
员，从而改善观众的参观体验。本发明适用于使用自动讲解设备代替讲解员进行讲解的场
景，如使用服务机器人讲解或使用屏幕显示的虚拟人讲解。

附图说明

[0051] 此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0052] 图1是本发明实施例提供的一种可动态调整的讲解方法的流程图；

[0053] 图2是本发明实施例提供的讲解文本图；

[0054] 图3是本发明实施例提供的一种可动态调整的讲解方法装置的框图。

具体实施方式

[0055] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不
用于限定本发明。

[0056] 相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细
节描述中，详尽描述了一些特定的细节部分。

[0057] 实施例1：

[0058] 本发明实施例以使用服务机器人为自动讲解设备，讲解博物馆内人类演化史讲解点为例。所述讲解点的讲解词有两个不同长度的版本，分别是较长的版本A和较短的版本B，
其中所述版本A为所述讲解点的默认版本。

[0059] 具体地，所述版本A的内容为：“漫长的生命演化史中，人类出现得最晚。新生代早期，灵长目中的部分猿科动物演化成了类人猿。类人猿进一步演化，像场景中这样开始直立
行走，并使用石器，才标志着人类的诞生。人类的演化可分为早期猿人、晚期猿人、早期智人
和晚期智人四个阶段。DNA研究表明人类可能诞生于距今700～600万年前。但最早的人类化
石，是约250万年前东非的能人化石，他们由南方古猿演化而来，属于早期猿人，骨骼还和猿
很像，但已经能制造简单的石器。大约200万年前，部分能人觉得世界那么大，我想去看看，
于是踏上了旅途，足迹遍布北非、欧洲和亚洲，并依据当地环境演化出了多个品种。大约200
～40万年前是晚期猿人阶段。晚期猿人也叫直立人，从骨架可知，他们已经能完全用二足行
走，脑容量继续增大，能制造较为进步的工具，还学会了用火。例如我国的北京周口店的北
京猿人、陕西的蓝田猿人、云南的元谋猿人等。大约30～4万年前的第四纪早期，是早期智人
阶段，以广泛分布于欧洲、西亚和北非的尼安德特人为代表。他们与现代人更接近了，学会
了制造简单的兽皮衣物。现代人最直接的祖先，则是距今约4～1万年的晚期智人，他们的
行走姿态与现代人完全相同，会制作复杂的石器和骨器，用骨针缝制兽皮衣物。例如法国的
克罗玛依人，北京的山顶洞人。”

[0060] 具体地，所述版本B的内容为：“人类的演化可分为早期猿人、晚期猿人、早期智人和晚期智人四个阶段。最早的人类化石，是约250万年前东非的能人化石，他们由南方古猿
演化而来，属于早期猿人，骨骼还和猿很像。大约200～40万年前是晚期猿人阶段，晚期猿人
也叫直立人。他们已经能完全用二足行走，能制造较为进步的工具。大约30～4万年前的第
四纪早期，是早期智人阶段。他们与现代人更接近了。现代人最直接的祖先，则是距今约4
～1万年的晚期智人，他们的行走姿态与现代人完全相同。”

[0061] 图1是本发明实施例提供的一种可动态调整的讲解方法的流程图；图2是本发明实施例提供的讲解文本图；本发明实施例提供的一种可动态调整的讲解方法包括以下步骤：

[0062] 步骤S101，将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包含某一个版本
的讲解词片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲
解过程中能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一个版本或分属
于不同版本；包括以下子步骤：

[0063] C1，将讲解词划分为讲解词片段；

[0064] 具体地，在本实例中，将所述版本A和版本B讲解词分别划分为多个讲解词片段。在每一个版本的讲解词中找到分隔点序列；分隔点的位置根据讲解被打断后恢复讲解时的合
理起始位置定义，即两个前后连续的分隔点之间的文本若在讲解中被打断，则在恢复讲解
时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点
之间的文本；每两个连续的所述分隔点之间的文本为一个讲解词片段。

[0065] 本实施例中讲解词片段的划分由人工完成。讲解词片段的划分，也可以通过自然语言处理的方法自动完成。

[0066] 具体地，在本实施例中，所述版本A讲解词划分为五个不可细分的讲解词片段：

[0067] （A1）“漫长的生命演化史中，人类出现得最晚。新生代早期，灵长目中的部分猿科动物演化成了类人猿。类人猿进一步演化，像场景中这样开始直立行走，并使用石器，才标
志着人类的诞生。人类的演化可分为早期猿人、晚期猿人、早期智人和晚期智人四个阶段。”

[0068] （A2）“DNA研究表明人类可能诞生于距今700～600万年前。但最早的人类化石，是约250万年前东非的能人化石，他们由南方古猿演化而来，属于早期猿人，骨骼还和猿很像，
但已经能制造简单的石器。大约200万年前，部分能人觉得世界那么大，我想去看看，于是踏
上了旅途，足迹遍布北非、欧洲和亚洲，并依据当地环境演化出了多个品种。”

[0069] （A3）“大约200～40万年前是晚期猿人阶段。晚期猿人也叫直立人，从骨架可知，他们已经能完全用二足行走，脑容量继续增大，能制造较为进步的工具，还学会了用火。例如
我国的北京周口店的北京猿人、陕西的蓝田猿人、云南的元谋猿人等。”

[0070] （A4）“大约30～4万年前的第四纪早期，是早期智人阶段，以广泛分布于欧洲、西亚和北非的尼安德特人为代表。他们与现代人更接近了，学会了制造简单的兽皮衣物。”

[0071] （A5）“现代人最直接的祖先，则是距今约4～1万年的晚期智人，他们的行走姿态与现代人完全相同，会制作复杂的石器和骨器，用骨针缝制兽皮衣物。例如法国的克罗玛依
人，北京的山顶洞人。”

[0072] 具体地，本实施例中，所述版本B讲解词划分为五个不可细分的讲解词片段：

[0073] （B1）“人类的演化可分为早期猿人、晚期猿人、早期智人和晚期智人四个阶段。”

[0074] （B2）“最早的人类化石，是约250万年前东非的能人化石，他们由南方古猿演化而来，属于早期猿人，骨骼还和猿很像。”

[0075] （B3）“大约200～40万年前是晚期猿人阶段，晚期猿人也叫直立人。他们已经能完全用二足行走，能制造较为进步的工具。”

[0076] （B4）“大约30～4万年前的第四纪早期，是早期智人阶段。他们与现代人更接近了。”

[0077] （B5）“现代人最直接的祖先，则是距今约4～1万年的晚期智人，他们的行走姿态与现代人完全相同。”

[0078] 一个讲解词片段可能包含一个或者多个句子，也可能是一个句子的一部分。讲解词划分成讲解词片段的意义在于，一方面为讲解打断后自然连贯的恢复提供了参考位置，
另一方面也为不同版本间讲解词过渡衔接提供了参考位置。以所述讲解词片段B3为例，若
讲解“他们已经能完全用二足行走”的过程中或者结束时被打断，等处理完打断事件后，按
照现有讲解方法一般简单重新讲解被打断的句子“他们已经能完全用二足行走”或者从打
断处继续讲解“能制造较为进步的工具”，都会造成讲解内容不连贯，缺失足够的上下文信
息，不利于观众理解讲解内容。根据本发明提供的方法，所述B3包含的文本被定义为讲解词
片段，当恢复讲解时，必须从“大约200～40万年前是晚期猿人阶段”开始讲解。类似的，当从
版本A的某个位置过渡到所述版本B的B3部分时，也必须从B3的开头部分“大约200～40万年
前是晚期猿人阶段”开始讲解，而不能从中间其他位置插入。

[0079] C2，以讲解词片段为节点构建有向图；

[0080] 具体地，在本实施例中，对所述版本A讲解词和所述版本B讲解词，分别以其讲解词片段为节点构建有向图；所述有向图中每个节点包含一个讲解词片段；若两个所述讲解词
片段在所述讲解词中为前后顺序关系，则将所述有向图中相应的两个节点用有向边依次连
接；所述有向边称为顺序边；包含讲解词中第一个片段的节点为所述讲解文本图的起始节
点。如图2所示，节点A1至A5五个节点及节点间的顺序边构成版本A的讲解文本图，其中所述
节点A1为所述版本A的讲解文本图的起始节点；节点B1至B5五个节点及节点间的顺序边构
成版本B的讲解文本图，其中所述节点B1为所述版本B的讲解文本图的起始节点。

[0081] C3，将多个版本的讲解词文本图连接成单一的讲解文本图；

[0082] 具体地，在本实施例中，对于任意一对分别位于版本A讲解文本图和版本B讲解文本图的节点，若两个节点所包含的两个讲解词片段在语义上可以合理前后过渡，则将两个
节点用有向边连接。所述版本A和版本B的讲解文本图由八条过渡边连接而合并为单一的讲
解文本图，所述过渡边包括从版本A到版本B过渡的（A1，B2）、（A2，B3）、（A3，B4）和（A4，B5），
以及从版本B到版本A过渡的（B1，A2）、（B2，A3）、（B3，A4）和（B4，A5）。由于所述版本A是所述
讲解点的默认版本，因此所述版本A的讲解文本图的起始节点A1为所述合并后的讲解文本
图的起始节点。

[0083] 步骤S102，获取观众的视频和音频，识别观众的行为和参与度，包括以下子步骤：

[0084] D1，使用摄像头和麦克风分别获取观众的视频和音频；

[0085] 具体地，在本实例中，观众区域定义为管理员在场景中预先指定的适合观看所述人类演化史讲解点的区域；讲解设备将自身的摄像头对准所述观众区域获取观众视频，或
使用环境中布置的摄像头对准所述观众区域拍摄获取观众视频；使用讲解设备附带的六麦
克风阵列获取所述观众区域方向的音频。

[0086] D2，使用基于深度学习多模态融合的方法识别观众行为，将观众的视频和音频输入行为识别网络模型，得到观众的行为；

[0087] 具体地，在本实施例中，使用基于深度学习多模态融合的方法识别观众行为；所述行为识别网络模型使用卷积神经网络分别从人体图像序列、人脸图像序列和音频信息提取
特征。将所述特征连接后输入预测网络，得到行为分类。所述人体和人脸图像由YOLO目标检
测方法得到。所述行为包括聆听、观众与讲解者说话、观众间说话、和观众离开等。所述行为
识别网络模型包括处理音频信息的MobileNet卷积神经网络，输入以0.48秒为时间窗口从
音频中提取的尺寸为64×48×1的梅尔频谱序列，输出128维的音频特征。所述行为识别网
络模型还包括处理图像特征的MobileNet卷积神经网络，用于逐帧提取128维的图像特征。
在本实施例中，所述预测网络使用Seq2Seq循环神经网络模型，包括编码器和解码器两部
分；所述编码器和解码器使用包含512个单元的LSTM网络；所述解码器输出预测的概率序
列。在深度学习应用阶段，将观众视频和音频输入所述行为识别网络模型，输出观众的行为
类别。

[0088] 如果只利用图像信息识别观众行为容易误判，譬如打哈欠张嘴的行为也可能因为嘴型的变化被识别为说话行为；如果结合音频信息，打哈欠张嘴的行为因为没有说话声音
不会被误判为说话行为。另一方面，如果只利用音频信息识别观众行为也容易发生误判，譬
如无法区分观众与讲解者说话还是和其他观众说话。因此，本实施例结合视频和音频信息
的多模态融合方法更加可靠。

[0089] D3，使用基于深度学习端到端的方法识别观众的参与度，将所述观众的视频输入参与度识别网络模型，得到观众的参与度；

[0090] 具体地，在本实施例中，使用基于深度学习的端到端方法，用参与度识别网络模型从视频中识别观众参与度。所述参与度识别网络模型包含卷积神经网络模块和循环神经网
络模块组；所述卷积神经网络模块使用在ImageNet数据集上预训练的ReNetXt‑50卷积神经
网络，逐帧提取尺寸为2048的图像特征；所述循环神经网络模块使用单层LSTM网络，累积10
帧所述图像特征输出时域特征向量；所述时域特征向量经过尺寸为2048×1的全连接层和
Sigmoid激活函数输出0‑1范围的参与度值。深度学习应用阶段，将视频输入所述参与度网
络模型，输出观众的参与度。当多于一位观众时取所有观众参与度的平均值。

[0091] 现有的参与度识别方法一般独立识别人体姿态、视线方向、表情等，再分别计算参与度，最后进行融合。但基于单一特征的参与度计算往往存在较大误差。相比现有的参与度
识别方法，本实施例的端到端方法更加鲁棒和可靠。

[0092] 具体地，在本实施例中，在获取观众的视频和音频，识别观众的行为和参与度之前，还包括：

[0093] 采集真实讲解场景中观众的视频和音频；

[0094] 对所述观众的视频和音频标注行为；

[0095] 建立行为识别网络模型，使用所述观众的视频和音频及行为标注作为数据集，训练所述行为识别网络模型。

[0096] 具体地，所述训练过程使用多任务学习的方法提高多个子网络的学习效率。

[0097] 具体地，在本实施例中，在获取观众的视频和音频，识别观众的行为和参与度之前，还包括：

[0098] 采集真实讲解场景中观众的视频；

[0099] 对所述观众的视频标注参与度；

[0100] 建立参与度识别网络模型，使用所述观众的视频及参与度标注作为数据集，训练所述参与度识别网络模型。

[0101] 步骤S103，依据观众的行为动态控制讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点，所述访问节点指讲
解所述节点包含的讲解词片段；包括以下子步骤：

[0102] E1，根据用户行为启动讲解；

[0103] 具体地，在本实施例中，识别到观众与讲解者说话的行为，且说话内容的意图为启动讲解时，启动讲解；或者，识别到所有观众都处于聆听行为，讲解设备通过语音征询是否
开始讲解，讲解设备得到肯定的答复后启动讲解。

[0104] E2，执行讲解文本图；

[0105] 具体地，在本实施例中，启动讲解后，从讲解文本图中的起始节点，沿着顺序边讲解文本图，依次讲解节点所包含的讲解词片段。

[0106] E3，根据用户行为暂停讲解；

[0107] 具体地，在本实施例中，在讲解过程中，部分观众行为能触发暂停讲解，即暂停访问讲解文本图，并记录当前所处的讲解节点为暂停节点。触发暂停的观众行为包括观众与
讲解者说话、观众间说话和观众离开。

[0108] E4，暂停讲解后，根据暂停原因调整讲解流程；

[0109] 具体地，在本实施例中，如果暂停原因为观众间说话，则等待所述观众间说话结束再恢复讲解；如果暂停原因为观众与讲解者说话，则根据所述观众的说话内容执行相应的
任务，包括与所述观众对话或者执行语音指令，完成任务后再恢复讲解；如果暂停原因为观
众离开，则提前结束当前讲解。

[0110] E5，根据讲解文本图恢复讲解；

[0111] 具体地，在本实施例中，恢复讲解的方法为重新访问所述暂停节点，并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。

[0112] 根据本发明的提供的讲解文本图，所述暂停节点所包含必须完整且连续陈述的讲解词片段，因此恢复讲解时重新访问所述暂停节点即为合理的恢复方式。如果不使用本发
明提供的讲解文本图，讲解暂停后如何找到合理的恢复位置是一个困难的问题。

[0113] 步骤S104，依据观众参与度动态调整讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列；

[0114] 具体地，在本实施例中，当版本A的讲解文本图时，如果观众的参与度在一个固定时间内低于一定的阈值，在距离当前讲解节点最近的下一个存在过渡边的节点，过渡到版
本B的节点；相反地，当版本B的讲解文本图时，如果所述观众的参与度在一段时间高于一定
的阈值，在距离当前讲解节点最近的下一个存在过渡边的节点，过渡到版本A的节点。具体
地，在本实施例中，所述观众的参与度值范围为0‑1间，所述固定时间设置为30秒，所述阈值
为0.5。

[0115] 根据讲解文本图的定义，讲解文本图不仅包含了多个版本的讲解词，而且过渡边提供了不同版本间的合理通顺的过渡位置，因此实现了根据观众的参与度动态调整讲解文
本图的执行路径。使用多个版本的讲解词，使得自动讲解可以根据观众的参与度动态调整
讲解内容的长度。但如果不使用本发明提供的讲解文本图，如何在不同版本的解说词之间
合理过渡是一个困难的问题。

[0116] 实施例2：

[0117] 与前述可动态调整的讲解方法相对应，本申请实施例还提供一种可动态调整的讲解装置，所述装置可以是安装于任何智能终端。参考图3，本实施例还提供一种可动态调整
的讲解方法装置，该装置为实施例1提供的一种可动态调整的讲解方法的虚拟装置，具备执
行该方法相应的功能模块和有益效果，该装置包括：

[0118] 讲解词处理模块91，用于将讲解词转换成讲解文本图，其中所述讲解词具有一个或多个版本，不同版本所需讲解时间不同，所述讲解文本图为有向图，所述有向图的节点包
含某一个版本的讲解词片段，所述有向图的有向边表示所连接的两个节点所包含的两个讲
解词片段在讲解过程中能按照所述有向边的方向通顺衔接，所述两个讲解词片段属于同一
个版本或分属于不同版本；

[0119] 观众感知模块92，用于获取观众的视频和音频，识别观众的行为和参与度；

[0120] 第一讲解执行模块93，用于依据所述观众的行为动态控制所述讲解文本图的执行过程，执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问
节点，所述访问节点指讲解所述节点包含的讲解词片段；

[0121] 第二讲解执行模块94，用于依据所述观众的参与度动态调整所述讲解文本图的执行路径，所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列。

[0122] 实施例3：

[0123] 本发明实施例还提供一种电子设备，包括：

[0124] 一个或多个处理器；

[0125] 存储器，用于存储一个或多个程序；

[0126] 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如实施例1所述的一种可动态调整的讲解方法。

[0127] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0128] 在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0129] 在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为
一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或
者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连
接，可以是电性或其它的形式。

[0130] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0131] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0132] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机
设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read‑Only Memory)、随机存取存
储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。

[0133] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应
视为本发明的保护范围。

一种可动态调整的讲解方法、装置及电子设备转让专利

申请号 : CN202011582434.9

文献号 : CN112289239B

文献日 : 2021-03-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 於其之 , 侯暮寒 , 金天磊 , 朱世强

申请人 : 之江实验室

摘要 :

权利要求 :

说明书 :