会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 朗读事件识别方法、装置、教学设备和存储介质

朗读事件识别方法、装置、教学设备和存储介质

申请号 CN202211108927.8 申请日 2022-09-13 公开(公告)号 CN117746894A 公开(公告)日 2024-03-22
申请人 广州视源电子科技股份有限公司; 广州视睿电子科技有限公司; 发明人 李波;
摘要 本 发明 涉及一种朗读事件识别方法、装置、教学设备和存储介质,通过将采集的课堂音频划分为若干音频 片段 ,利用预训练的齐声朗读模型获取各音频片段中的每一个音频 帧 的齐声朗读事件检测结果,根据各音频帧的齐声朗读事件检测结果来获取课堂音频中发生齐声朗读事件的齐声朗读音频片段,本 申请 可以自动从课堂音频中获取齐声朗读音频片段,获取的齐声朗读音频片段可供教师或教学评价人员来了解学生的学习情况,便于教师复盘和回顾课堂互动情况。
权利要求

1.一种朗读事件识别方法,其特征在于,包括以下步骤:
采集课堂音频;
将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
2.根据权利要求1所述的朗读事件识别方法,其特征在于,齐声朗读事件检测结果包括齐声朗读事件发生概率,若音频帧的齐声事件发生概率大于或等于预设阈值,确定该音频帧存在齐声朗读事件;
若音频帧的齐声事件发生概率小于预设阈值,确定该音频帧不存在齐声朗读事件;
获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段的步骤具体包括:
根据所述课堂音频中各个音频帧是否存在齐声朗读事件,确定课堂音频中发生齐声朗读事件的时间段,根据所述时间段获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
3.根据权利要求2所述的朗读事件识别方法,其特征在于,确定课堂音频中发生齐声朗读事件的时间段的步骤具体包括:
若所述齐声朗读音频片段至少包括第一齐声朗读音频片段和第二齐声朗读音频片段,根据第一齐声朗读音频片段的结束时间和第二齐声朗读音频片段的起始时间获取第一齐声朗读音频片段和第二齐声朗读音频片段之间的时间差;
若第一齐声朗读音频片段和第二齐声朗读音频片段之间的时间差小于预设时间差阈值,根据第一齐声朗读音频片段的起始时间和第二齐声朗读音频片段的结束时间确定课堂音频中发生齐声朗读事件的时间段。
4.根据权利要求3所述的朗读事件识别方法,其特征在于,还包括以下步骤:
若齐声朗读音频片段的时长小于预设的时长阈值,丢弃所述齐声朗读音频片段。
5.根据权利要求1所述的朗读事件识别方法,其特征在于,在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
将所述齐声朗读音频片段发送至用户终端,使所述用户终端在接收到对所述齐声朗读音频片段的播放操作时,播放所述齐声朗读音频片段。
6.根据权利要求1所述的朗读事件识别方法,其特征在于,在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
根据所述课堂音频中发生齐声朗读事件的时间段,生成齐声朗读音频片段的时间戳信息;
将所述课堂音频和所述时间戳信息发送至用户终端,使所述用户终端在播放所述课堂音频过程中,在接收到对所述齐声朗读音频片段的定位操作时,根据所述齐声朗读音频片段的时间戳信息定位所述课堂音频中的齐声朗读音频片段,并响应于用户对所述齐声朗读音频片段的播放指令,播放所述齐声朗读音频片段。
7.根据权利要求1所述的朗读事件识别方法,其特征在于,所述采集课堂音频的步骤具体包括:
获取课堂视频,从所述课堂视频中提取课堂音频;
在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
根据所述课堂音频中发生齐声朗读事件的时间段,生成齐声朗读视频片段的时间戳信息;
将所述课堂视频和所述时间戳信息发送至用户终端,使所述用户终端在播放所述课堂视频过程中,在接收到对所述齐声朗读视频片段的定位操作时,根据所述时间戳信息定位所述课堂视频中的齐声朗读视频片段,并响应于用户对所述齐声朗读视频片段的播放指令,播放所述齐声朗读视频片段。
8.根据权利要求1所述的朗读事件识别方法,其特征在于,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果之前,还包括以下步骤:
获取标注有发生齐声朗读事件标签的第一音频样本和标注有未发生齐声朗读事件标签的第二音频样本;
提取所述第一音频样本和所述第二音频样本的Fbank特征;
基于卷积神经网络模型,构建用于获取每一个音频帧存在齐声朗读事件的概率和用于获取每一个音频样本存在齐声朗读事件的概率的齐声朗读事件检测模型;
将所述第一音频样本和所述第二音频样本的Fbank特征以及标签输入所述齐声朗读事件检测模型,基于每一个音频样本存在齐声朗读事件的概率获取齐声朗读事件检测模型的损失值,调整所述齐声朗读事件检测模型的模型参数,直至所述齐声朗读事件检测模型的损失值小于预设损失阈值。
9.一种朗读事件识别装置,其特征在于,包括:
音频采集模,用于采集课堂音频;
齐声朗读事件检测模块,用于将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
朗读片段获取模块,用于根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
10.一种教学设备,其特征在于,包括音频采集设备和朗读事件识别设备;
所述音频采集设备用于采集课堂音频;
所述朗读事件识别设备包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1‑8中任意一项所述的朗读事件识别方法的步骤。
11.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1‑8任意一项所述的朗读事件识别方法的步骤。

说明书全文

朗读事件识别方法、装置、教学设备和存储介质

技术领域

[0001] 本发明涉及教学领域,尤其是涉及一种朗读事件识别方法、装置、教学设备和存储介质。

背景技术

[0002] 课堂行为监测通过从录制的课堂视频或课堂音频观察老师的教学行为或者学生的学习行为,例如,通过观察学生齐声朗读课文的情况来判断学生对课文的理解能,从而为教师提供教学参考和教学评价,可以有效提高教师的教学质量
[0003] 然而,录制的课堂视频或课堂音频往往非常冗长,若通过人为观看课堂视频或课堂音频来观察学生的齐声朗读情况,耗费时间较长。

发明内容

[0004] 本申请实施例提供了一种朗读事件识别方法、装置、教学设备和存储介质,能够快速获取齐声朗读音频片段,便于教师对课堂情况进行及时回顾。所述技术方案如下:
[0005] 第一方面,本申请实施例提供了一种朗读事件识别方法及装置,包括以下步骤:
[0006] 采集课堂音频;
[0007] 将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
[0008] 根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
[0009] 第二方面,本申请实施例提供了一种朗读事件识别装置,包括:
[0010] 音频采集模,用于采集课堂音频;
[0011] 齐声朗读事件检测模块,用于将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
[0012] 朗读片段获取模块,用于根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
[0013] 第三方面,本申请实施例提供了一种教学设备,包括音频采集设备和朗读事件识别设备;
[0014] 所述音频采集设备用于采集课堂音频;
[0015] 所述朗读事件识别设备包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的朗读事件识别方法的步骤。
[0016] 第四方面,本申请实施例提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的朗读事件识别方法的步骤。
[0017] 在本申请实施例中,将采集的课堂音频划分为若干音频片段,利用预训练的齐声朗读模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果,根据各音频帧的齐声朗读事件检测结果来获取课堂音频中发生齐声朗读事件的齐声朗读音频片段,本申请可以自动从课堂音频中获取齐声朗读音频片段,获取的齐声朗读音频片段可供教师或教学评价人员来了解学生的学习情况,便于教师复盘和回顾课堂互动情况,提高教师的教学质量。
[0018] 为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

[0019] 图1为本发明一个实施例的朗读事件识别方法的应用场景示意图;
[0020] 图2为本发明一个实施例中的朗读事件识别方法的流程图
[0021] 图3为本发明另一个实施例中的朗读事件识别方法的流程图;
[0022] 图4为本发明一个实施例中的步骤S103的流程图;
[0023] 图5为本发明一个实施例中用户终端的课堂观察显示界面示意图;
[0024] 图6为本发明另一个实施例中用户终端的课堂观察显示界面示意图;
[0025] 图7为本发明一个实施例中一种朗读事件识别装置的结构示意图;
[0026] 图8为本发明一个实施例中一种教学设备的结构示意图。

具体实施方式

[0027] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0028] 应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
[0029] 在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0030] 下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
[0031] 此外,在本申请的描述中,除非另有说明,“若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0032] 请参阅图1,其为本申请一个实施例中的朗读事件识别方法的应用场景示意图,该应用场景包括音频采集设备101、朗读事件识别设备102和用户终端103,音频采集设备101和用户终端103可以通过公知的网络接入方式接入互联网,与服务器102建立数据通信链路。
[0033] 音频采集设备101可以设置在课堂,用于采集学生上课期间的音频并发送至朗读事件识别设备102。音频采集设备101可以为麦克等音频采集设备。
[0034] 朗读事件识别设备102用于对音频采集设备101采集的课堂音频进行分析处理,从而确定课堂音频中是否发生齐声朗读事件以及获取课堂音频中发生齐声朗读事件的齐声朗读音频片段。朗读事件识别设备102可以是智能手机、智能交互平板和个人计算机等类型的计算机设备,或者,朗读事件识别设备102也可以是端服务器。
[0035] 用户终端103用于接收和播放齐声朗读音频片段,用户终端103可以是教师或教学评价人员所采用的终端。用户终端103可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。
[0036] 请参阅图2,本申请实施例提供了一种朗读事件识别方法,包括以下步骤:
[0037] S101:采集课堂音频;
[0038] 课堂音频可以是每节课的音频,课堂音频可以通过设置在课堂上的音频采集设备获取。
[0039] S102:将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
[0040] 具体地,可以根据用户设置的音频片段时长来将课堂音频划分为若干个音频片段,例如,可以以10秒为单位,将课堂音频划分为若干个10秒的音频片段。
[0041] 齐声朗读事件检测模型用于检测每一个音频帧是否发生齐声朗读事件,齐声朗读事件检测模型可以基于神经网络模型构建,具体地,在本申请实施例中,齐声朗读事件检测模型基于多层卷积神经网络模型构建,齐声朗读事件检测模型可以事先采用多个标注有是否存在齐声朗读事件的音频片段进行预训练,通过调整齐声朗读事件检测模型的模型参数,直至齐声朗读事件检测模型的损失值满足预设的要求。
[0042] 在利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果时,可以先通过获取各音频片段的64维Fbank特征,将各音频片段的64维Fbank特征输入预训练的齐声朗读事件检测模型中,获取获取各音频片段中的每一个音频帧的齐声朗读事件检测结果。
[0043] S103:根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
[0044] 齐声朗读事件检测结果可以包括每一个音频帧齐声朗读事件的发生概率,根据齐声朗读事件的发生概率来确定音频帧是否存在齐声朗读事件。
[0045] 具体地,若音频帧的齐声事件发生概率大于或等于预设阈值,确定该音频帧存在齐声朗读事件;
[0046] 若音频帧的齐声事件发生概率小于预设阈值,确定该音频帧不存在齐声朗读事件;
[0047] 在确定音频帧是否存在齐声朗读事件之后,可以根据存在齐声朗读事件的音频帧来确定齐声朗读事件发生的时间段,从而根据齐声朗读事件发生的时间段来获取课堂音频中的齐声朗读音频片段。
[0048] 在本申请实施例中,将采集的课堂音频划分为若干音频片段,利用预训练的齐声朗读模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果,根据各音频帧的齐声朗读事件检测结果来获取课堂音频中发生齐声朗读事件的齐声朗读音频片段,本申请可以自动从课堂音频中获取齐声朗读音频片段,获取的齐声朗读音频片段可供教师或教学评价人员来了解学生的学习情况,便于教师复盘和回顾课堂互动情况,提高教师的教学质量。
[0049] 在一个实施例中,如图3所示,在利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果之前,还包括以下步骤:
[0050] S201:获取标注有发生齐声朗读事件标签的第一音频样本和标注有未发生齐声朗读事件标签的第二音频样本;
[0051] S202:提取所述第一音频样本和所述第二音频样本的Fbank特征;
[0052] S203:基于卷积神经网络模型,构建用于获取每一个音频帧存在齐声朗读事件的概率和用于获取每一个音频样本存在齐声朗读事件的概率的齐声朗读事件检测模型;
[0053] S204:将所述第一音频样本和所述第二音频样本的Fbank特征以及标签输入所述齐声朗读事件检测模型,基于每一个音频样本存在齐声朗读事件的概率获取齐声朗读事件检测模型的损失值,调整所述齐声朗读事件检测模型的模型参数,直至所述齐声朗读事件检测模型的损失值小于预设损失阈值。
[0054] 优选地,第一音频样本和第二音频样本可以为真实课堂场景的音频,真实课堂场景的音频包含了现有的各种背景噪音,利用真实课堂场景的音频对模型进行训练,可以使得经过训练后的模型在真实课堂场景下的音频识别得更加准确;第一音频样本和第二音频样本可以与待识别的课堂音频的音频片段的时长相同,例如,当音频片段的时长为10秒,音频样本的时长同样为10秒,以提高齐声朗读事件检测模型识别的准确性。
[0055] 第一音频样本和第二音频样本可以采用人工判别的方式添加标注或者采用其它现有的齐声朗读事件识别算法来判断并添加标签。
[0056] 本申请实施例中,以发生齐声朗读事件的第一音频样本作为正样本,以未发生齐声朗读事件的第二音频样本作为负样本,以正负样本来训练齐声朗读事件检测模型,提高齐声朗读事件检测模型的识别精度
[0057] 步骤S202中,第一音频样本和第二音频样本的Fbank特征(Filter bank)可以通过对音频样本进行预加重、分帧、加窗、傅里叶变换、Mel滤波、对数运算等处理得到,或者也可以采用其它现有的音频特征处理方式得到。
[0058] 具体地,本申请中两个音频样本的Fbank特征可以是64维Fbank特征。
[0059] 本申请中通过获取第一音频样本和第二音频样本的Fbank特征,Fbank特征相比较传统的梅尔倒谱系数特征,其保留了更多原始语音数据,更加符合声音的本质,可以提高齐声朗读事件检测模型的识别精度。
[0060] 步骤S204中,齐声朗读事件检测模型分别可以输出每一个音频帧存在齐声朗读事件的概率和每一个音频样本存在齐声朗读事件的概率,在预训练时,为了提高训练效率,可以根据每一个音频样本存在齐声朗读事件的概率来计算齐声朗读事件检测模型的损失值,以对齐声朗读事件检测模型的模型参数进行调整,使其达到预设的损失值要求。
[0061] 而在实际应用时,为了提高齐声朗读事件识别的准确性,则以每一个音频帧存在齐声朗读事件的概率来确定各个音频片段中的齐声朗读事件以及齐声朗读事件发生的时间段。
[0062] 具体地,在步骤S103中,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段的步骤具体包括:
[0063] 根据所述课堂音频中各个音频帧是否存在齐声朗读事件,确定课堂音频中发生齐声朗读事件的时间段,根据所述时间段获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
[0064] 在利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果时,由于模型的性能原因,可能会对某一音频帧或某几个音频帧识别异常,例如将实际上存在齐声朗读的音频帧识别为不存在齐声朗读,从而导致最终获取到多个不连续的琐碎的齐声朗读音频片段,影响齐声朗读音频片段的识别精度。
[0065] 因此,针对上述问题,如图4所示,在一个优选的实施例中,确定课堂音频中发生齐声朗读事件的时间段的步骤具体包括:
[0066] S301:若所述齐声朗读音频片段至少包括第一齐声朗读音频片段和第二齐声朗读音频片段,根据第一齐声朗读音频片段的结束时间和第二齐声朗读音频片段的起始时间获取第一齐声朗读音频片段和第二齐声朗读音频片段之间的时间差;
[0067] S302:若第一齐声朗读音频片段和第二齐声朗读音频片段之间的时间差小于预设时间差阈值,根据第一齐声朗读音频片段的起始时间和第二齐声朗读音频片段的结束时间确定课堂音频中发生齐声朗读事件的时间段。
[0068] 具体地,若根据步骤S103获取到第一齐声朗读音频片段(ti‑1,s,ti‑1,e)和第二齐声朗读音频片段(ti,,ti,e),且第一齐声朗读音频片段(ti‑1,s,ti‑1,e)和第二齐声朗读音频片段(ti,,ti,)满足ti,‑ti‑1,e≤t1,将第一齐声朗读音频片段(ti‑1,s,ti‑1,e)和第二齐声朗读音频片段(ti,,ti,e)进行连接,也即:根据第一齐声朗读音频片段的起始时间ti‑1,s和第二齐声朗读音频片段的结束时间ti,来确定课堂音频中发生齐声朗读事件的时间段,例如,可以将课堂音频中发生齐声朗读事件的时间段确定为(ti‑1,s,ti,)。
[0069] 其中,ti‑1,s表示第一齐声朗读音频片段的起始时间,ti‑1,e表示第一齐声朗读音频片段的结束时间,ti,表示第二齐声朗读音频片段的起始时间,ti,表示第二齐声朗读音频片段的结束时间。
[0070] 重复上述步骤S301‑S302,将各个时间差小于预设时间差阈值的齐声朗读音频片段进行连接,重新获取课堂音频中发生齐声朗读事件的时间段。
[0071] 本申请实施例中,通过将时间差值小于预设时间的多个琐碎的齐声朗读音频片段建立连接,根据建立连接后的齐声朗读音频片段重新确定课堂音频中发生齐声朗读事件的时间段,避免由于齐声朗读事件检测模型的误识别导致获取的齐声朗读音频片段较为琐碎,提高获取齐声朗读音频片段的准确性。
[0072] 若经过上述步骤S301‑S302后仍存在至少两个齐声朗读音频片段,则可以根据该齐声朗读音频片段的时长来确定该片段是否可能为误识别片段,例如,当该齐声朗读音频片段实际为学生上课时短暂的齐声说话,并非长时间的朗读课文,例如学生上课时的齐声说的“老师好”、下课时齐声说的“老师再见”等音频片段,由于齐声说话音频片段与齐声朗读音频片段存在一定的相似性,齐声说话音频片段容易被齐声朗读事件检测模型误识别为齐声朗读音频片段,因此,针对上述问题,本申请实施例中,还包括以下步骤:
[0073] 若齐声朗读音频片段的时长小于预设的时长阈值,丢弃所述齐声朗读音频片段。
[0074] 当齐声朗读片段的时长小于预设的时长阈值,则确定该齐声朗读片段实际为学生上课时的短暂齐声说话音频片段,通过丢弃该齐声朗读音频片段实现对误识别音频片段的过滤,提高获取的齐声朗读音频片段的准确性。
[0075] 本申请获取的齐声朗读音频片段可供教师或教学评价人员了解教学情况以及复盘教学信息。
[0076] 在一个实施例中,在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
[0077] 将所述齐声朗读音频片段发送至用户终端,使所述用户终端在接收到对所述齐声朗读音频片段的播放操作时,播放所述齐声朗读音频片段。
[0078] 用户终端可以为预先建立与朗读时间识别设备建立有关联关系的终端,其可以为教师或教学评价人员使用的终端。教师或教学评价人员可通过其使用的用户终端接收齐声朗读音频片段,并在用户终端执行对齐声朗读音频片段的播放操作,在用户终端播放齐声朗读音频片段。其中,对齐声朗读音频片段的播放操作可以是通过触发齐声朗读音频片段的播放控件产生。
[0079] 或者,在另一个实施例中,在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
[0080] 根据所述课堂音频中发生齐声朗读事件的时间段,生成齐声朗读音频片段的时间戳信息;
[0081] 将所述课堂音频和所述时间戳信息发送至用户终端,使所述用户终端在播放所述课堂音频过程中,在接收到对所述齐声朗读音频片段的定位操作时,根据所述齐声朗读音频片段的时间戳信息定位所述课堂音频中的齐声朗读音频片段,并响应于用户对所述齐声朗读音频片段的播放指令,播放所述齐声朗读音频片段;
[0082] 时间戳信息用于确定齐声朗读音频片段在课堂音频中的起始位置
[0083] 如图5所示,其为一个实施例中用户终端的课堂观察显示界面示意图;该课堂观察显示界面中包括齐声朗读片段的时间戳信息201和播放进度条202;
[0084] 播放进度条202用于指示当前课堂音频的播放进度;
[0085] 齐声朗读片段的时间戳信息201用于指示当前课堂音频中的齐声朗读音频片段的数量及各个齐声朗读音频片段的起始时间。
[0086] 当接收到用户对其中一个齐声朗读音频片段的定位操作,用户终端根据齐声朗读音频片段的时间戳信息201定位到课堂音频中的齐声朗读音频片段,例如当接收到用户对00:09时刻的齐声朗读音频片段的定位操作,用户终端控制播放进度条202由当前播放的
00:02时刻跳转至齐声朗读的00:09时刻,并响应于用户对该齐声朗读音频片段的播放指令,播放用户指定的齐声朗读音频片段。
[0087] 本申请实施例中,用户终端在播放课堂音频过程中,可以根据齐声朗读音频片段的时间戳信息快速定位到对应齐声朗读音频片段的位置,从而方便用户快速回顾课堂中的齐声朗读音频片段,便于用户了解和复盘教学情况。
[0088] 或者,在另一个实施例中,步骤S101中的课堂音频可以为从课堂视频中提取到的音频,具体地,采集课堂音频的步骤具体包括:
[0089] 获取课堂视频,从所述课堂视频中提取课堂音频;
[0090] 则在获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段之后,还包括以下步骤:
[0091] 根据所述课堂音频中发生齐声朗读事件的时间段,生成齐声朗读视频片段的时间戳信息;
[0092] 将所述课堂视频和所述时间戳信息发送至用户终端,使所述用户终端在播放所述课堂视频过程中,在接收到对所述齐声朗读视频片段的定位操作时,根据所述时间戳信息定位所述课堂视频中的齐声朗读视频片段,并响应于用户对所述齐声朗读视频片段的播放指令,播放所述齐声朗读视频片段。
[0093] 如图6所示,其为一个实施例中用户终端的课堂观察显示界面示意图;该课堂观察显示界面中包括课堂画面、齐声朗读片段的时间戳信息301和播放进度条302;
[0094] 播放进度条302用于指示当前课堂视频画面的播放进度;
[0095] 齐声朗读片段的时间戳信息301用于指示当前课堂视频中齐声朗读视频片段的数量及各个齐声朗读视频片段的起始时间。
[0096] 当接收到用户对其中一个齐声朗读视频片段的定位操作,用户终端根据齐声朗读视频片段的时间戳信息301定位到课堂视频中的齐声朗读视频片段,例如当接收到用户对00:09时刻的齐声朗读视频片段的定位操作,用户终端控制播放进度条302由当前播放的
00:02时刻跳转至齐声朗读的00:09时刻,并响应于用户对该齐声朗读视频片段的播放指令,播放用户指定的齐声朗读视频片段。
[0097] 本申请实施例中,用户终端在播放课堂视频过程中,可以根据齐声朗读视频片段的时间戳信息快速定位到对应齐声朗读视频片段的位置,从而方便用户快速回顾课堂中的齐声朗读视频片段,便于用户了解和复盘教学情况。
[0098] 请参阅图7,本申请还提供了一种朗读事件识别装置,包括:
[0099] 音频采集模块401,用于采集课堂音频;
[0100] 齐声朗读事件检测模块402,用于将课堂音频划分为若干音频片段,利用预训练的齐声朗读事件检测模型获取各音频片段中的每一个音频帧的齐声朗读事件检测结果;其中,所述齐声朗读事件检测结果用于确定每一个音频帧是否发生齐声朗读事件;
[0101] 朗读片段获取模块403,用于根据各音频片段中的每一个音频帧的齐声朗读事件检测结果,获取所述课堂音频中发生齐声朗读事件的齐声朗读音频片段。
[0102] 需要说明的是,上述实施例提供的朗读事件识别装置在执行朗读事件识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的朗读事件识别装置与朗读事件识别方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
[0103] 请参阅图8,本申请还提供了一种教学设备500,包括音频采集设备501和朗读事件识别设备502;
[0104] 所述音频采集设备501用于采集课堂音频;
[0105] 所述朗读事件识别设备502包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的朗读事件识别方法的步骤。
[0106] 音频采集设备501可以设置在课堂,用于采集学生上课期间的音频并发送至朗读事件识别设备102。音频采集设备501可以为麦克风等音频采集设备。
[0107] 朗读事件识别设备502用于对音频采集设备501采集的课堂音频进行分析处理,从而确定课堂音频中是否发生齐声朗读事件以及获取课堂音频中发生齐声朗读事件的齐声朗读音频片段。朗读事件识别设备502可以是智能手机、智能交互平板和个人计算机等类型的计算机设备,或者,朗读事件识别设备502也可以是云端服务器。
[0108] 在一个实施例中,教学设备还包括用户终端503。
[0109] 用户终端503用于接收和播放齐声朗读音频片段,用户终端503可以是教师或教学评价人员所采用的终端。用户终端503可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。
[0110] 本申请还提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的朗读事件识别方法的步骤。
[0111] 本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0112] 本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。