基于课堂语音识别的辅助教学方法及相关设备转让专利

申请号 : CN202311748488.1

文献号 : CN117423260B

文献日 : 2024-03-12

本发明涉及语音识别技术领域，公开了一种基于课堂语音识别的辅助教学方法及相关设备。该方法包括：获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对授课语音片段的进行语言转换，得到目标教学信息；基于目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。本申请提高了对相关开发课类型的课堂语音识别和转化的准确度。

1.一种基于课堂语音识别的辅助教学方法，其特征在于，所述基于课堂语音识别的辅助教学方法包括：获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中的音频标记信息，其中，所述音频标记信息包括经纬标记信息、时间标记信息和语系标记信息；

提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；

基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述语系标记信息，对所述授课语音片段进行语言转换，得到目标教学信息；

确定所述目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；对所述经纬标记信息和所述时间标记信息进行操作参数计算，生成所述教学设备的控制指令信息；基于所述目标教学信息和所述控制指令信息，按序生成所述目标课堂的辅助教学信息，得到辅助教学结果。

2.根据权利要求1所述的基于课堂语音识别的辅助教学方法，其特征在于，所述基于预设的音频存储策略，提取所述教学音频数据中的音频标记信息，包括：基于预设的音频存储策略，提取所述教学音频数据对应的课堂位置信息和时间标记信息；

基于所述课堂位置信息，计算出所述目标课堂的赤经时刻和赤纬度数，并基于所述赤经时刻和赤纬度数，生成所述授课语音片段的经纬标记信息；

基于所述课堂位置信息，确定所述目标课堂的语系分布区域，并基于所述语系分布区域，生成所述教学音频数据的语系标记信息。

3.根据权利要求1所述的基于课堂语音识别的辅助教学方法，其特征在于，所述提取所述教学音频数据的多个音频口音特征，包括：对所述教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；

对所述加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；

对所述教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征。

4.根据权利要求3所述的基于课堂语音识别的辅助教学方法，其特征在于，所述基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员，包括：采用预设话音识别模型分别计算出各所述音频口音特征之间的特征相似度；

选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定所述目标课堂中授课时对应数量的目标授课人员。

5.根据权利要求1所述的基于课堂语音识别的辅助教学方法，其特征在于，所述目标授课人员包括第一目标授课人员和第二目标授课人员，所述授课语音片段包括第一授课语音片段和第二授课语音片段，所述基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，包括：基于所述目标授课人员，对所述教学音频数据进行音频切割，得到多个音频切割片段，并识别各所述音频切割片段的音频端点；

基于所述音频端点，将所述音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段。

6.根据权利要求2所述的基于课堂语音识别的辅助教学方法，其特征在于，所述基于所述音频标记信息，对所述授课语音片段进行语言转换，得到目标教学信息，包括：基于所述语系标记信息，确定所述授课语音片段中至少一个授课标记指令，并判断所述授课标记指令对应的授课信息是否属于预设课程命名体系；

若所述授课标记指令对应的授课信息属于预设课程命名体系，则按照所述课程命名体系，将所述授课标记指令作为目标教学信息；

若所述授课标记指令对应的授课信息不属于预设课程命名体系，则按照所述课程命名体系，对所述授课标记指令进行命名语言转换，得到目标教学信息。

7.一种基于课堂语音识别的辅助教学装置，其特征在于，所述基于课堂语音识别的辅助教学装置包括：标记提取模块，用于获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中的音频标记信息，其中，所述音频标记信息包括经纬标记信息、时间标记信息和语系标记信息；

人员确定模块，用于提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；

语言转换模块，用于基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述语系标记信息，对所述授课语音片段进行语言转换，得到目标教学信息；

指令生成模块，用于确定所述目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；对所述经纬标记信息和所述时间标记信息进行操作参数计算，生成所述教学设备的控制指令信息；基于所述目标教学信息和所述控制指令信息，按序生成所述目标课堂的辅助教学信息，得到辅助教学结果。

8.一种基于课堂语音识别的辅助教学设备，其特征在于，所述基于课堂语音识别的辅助教学设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于课堂语音识别的辅助教学设备执行如权利要求1‑6中任一项所述的基于课堂语音识别的辅助教学方法的各个步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1‑6中任一项所述基于课堂语音识别的辅助教学方法的各个步骤。

基于课堂语音识别的辅助教学方法及相关设备

技术领域

[0001] 本发明涉及语音识别技术领域，尤其涉及一种基于课堂语音识别的辅助教学方法及相关设备。

背景技术

[0002] 随着科学技术的进步和教学现代化的发展，学生所需学习的知识量和知识面也越来越多，通过采取线上线下课堂的方式，来满足满足课堂教学的需要。为了满足部分课堂的教学需要，会采用外语老师或者其他国家连线课堂等方式实现有效教学，满足部分学校没有相关任课教师的困境。但是，由于不同地区学生的基础不同，加上不同地区的教学设备的控制方式也有所区别，需要对相关老师的授课语音以及对课堂设备的远程操作指令进行语音识别和转换，以完成相关课程的课堂教学。

[0003] 当前，相关线上线下的课堂教学，通过配置相应的课堂翻译教师或者实施在线翻译字幕，提供学生理解授课教师的授课内容。但是，这种授课语音识别和转化的方式有时翻译不够及时和不同课程之间专业名词的翻译不够准确，并且由于翻译的准确度不够，导致授课教师对专业课堂设备的控制出错。即现有的相关开发课类型的课堂语音识别和转化的准确度较低。

发明内容

[0004] 本发明的主要目的在于解决现有的相关开发课类型的课堂语音识别和转化的准确度较低的问题。

[0005] 本发明第一方面提供了一种基于课堂语音识别的辅助教学方法，所述基于课堂语音识别的辅助教学方法包括：获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0006] 可选的，在本发明第一方面的第一种实现方式中，所述音频标记信息包括为经纬标记信息、时间标记信息和语系标记信息，所述基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息，包括：基于预设的音频存储策略，提取所述教学音频数据对应的课堂位置信息和时间标记信息；基于所述课堂位置信息，计算出所述目标课堂的赤经时刻和赤纬度数，并基于所述赤经时刻和赤纬度数，生成所述授课音频片段的经纬标记信息；基于所述音频位置信息，确定所述目标课堂的语系分布区域，并基于所述语系分布区域，生成所述教学音频数据的语系标记信息。

[0007] 可选的，在本发明第一方面的第二种实现方式中，所述提取所述教学音频数据的多个音频口音特征，包括：对所述教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；对所述加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；对所述教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征。

[0008] 可选的，在本发明第一方面的第三种实现方式中，所述基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员，包括：采用预设话音识别模型分别计算出各所述音频口音特征之间的特征相似度；选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定所述目标课堂中授课时对应数量的目标授课人员。

[0009] 可选的，在本发明第一方面的第四种实现方式中，所述目标授课人员包括第一目标授课人员和第二目标授课人员，所述授课语音片段包括第一授课语音片段和第二授课语音片段，所述基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，包括：基于所述目标授课人员，对所述教学音频数据进行音频切割，得到多个音频切割片段，并识别各所述音频切割片段的音频端点；基于所述音频端点，将所述音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段。

[0010] 可选的，在本发明第一方面的第五种实现方式中，所述基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息，包括：基于所述语系标记信息，确定所述授课语音片段中至少一个授课标记指令，并判断所述授课标记指令对应的授课信息是否属于预设课程命名体系；若所述授课标记指令对应的授课信息属于预设课程命名体系，则按照所述课程命名体系，将所述授课标记指令作为目标教学信息；若所述授课标记指令对应的授课信息不属于预设课程命名体系，则按照所述课程命名体系，对所述授课标记指令进行命名语言转换，得到目标教学信息。

[0011] 可选的，在本发明第一方面的第六种实现方式中，所述基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果，包括：确定所述目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；对所述经纬标记信息和所述时间标记信息进行操作参数计算，生成所述教学设备的控制指令信息；基于所述目标教学信息和所述控制指令信息，按序生成所述目标课堂的辅助教学信息，得到辅助教学结果。

[0012] 本发明第二方面提供了一种基于课堂语音识别的辅助教学装置，所述基于课堂语音识别的辅助教学装置包括：标记提取模块，用于获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；人员确定模块，用于提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；语言转换模块，用于基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；指令生成模块，用于基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0013] 可选的，在本发明第二方面的第一种实现方式中，所述标记提取模块包括：第一标记单元，用于基于预设的音频存储策略，提取所述教学音频数据对应的课堂位置信息和时间标记信息；第二标记单元，用于基于所述课堂位置信息，计算出所述目标课堂的赤经时刻和赤纬度数，并基于所述赤经时刻和赤纬度数，生成所述授课音频片段的经纬标记信息；第三标记单元，用于基于所述音频位置信息，确定所述目标课堂的语系分布区域，并基于所述语系分布区域，生成所述教学音频数据的语系标记信息。

[0014] 可选的，在本发明第二方面的第二种实现方式中，所述人员确定模块包括：加窗计算单元，用于对所述教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；时频变换单元，用于对所述加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；倒谱变换单元，用于对所述教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征。

[0015] 可选的，在本发明第二方面的第三种实现方式中，所述人员确定模块还包括：相似度计算单元，用于采用预设话音识别模型分别计算出各所述音频口音特征之间的特征相似度；相似度选取单元，用于选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定所述目标课堂中授课时对应数量的目标授课人员。

[0016] 可选的，在本发明第二方面的第四种实现方式中，所述语言转换模块包括：音频切割单元，用于基于所述目标授课人员，对所述教学音频数据进行音频切割，得到多个音频切割片段，并识别各所述音频切割片段的音频端点；人员标记单元，用于基于所述音频端点，将所述音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段。

[0017] 可选的，在本发明第二方面的第五种实现方式中，所述语言转换模块还包括：命名判断单元，用于基于所述语系标记信息，确定所述授课语音片段中至少一个授课标记指令，并判断所述授课标记指令对应的授课信息是否属于预设课程命名体系；第一转换单元，用于若所述授课标记指令对应的授课信息属于预设课程命名体系，则按照所述课程命名体系，将所述授课标记指令作为目标教学信息；第二转换单元，用于若所述授课标记指令对应的授课信息不属于预设课程命名体系，则按照所述课程命名体系，对所述授课标记指令进行命名语言转换，得到目标教学信息。

[0018] 可选的，在本发明第二方面的第六种实现方式中，所述指令生成模块包括：状态确定单元，用于确定所述目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；参数计算单元，用于对所述经纬标记信息和所述时间标记信息进行操作参数计算，生成所述教学设备的控制指令信息；指令生成单元，用于基于所述目标教学信息和所述控制指令信息，按序生成所述目标课堂的辅助教学信息，得到辅助教学结果。

[0019] 本发明第三方面提供了一种基于课堂语音识别的辅助教学设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于课堂语音识别的辅助教学设备执行上述的基于课堂语音识别的辅助教学方法的各个步骤。

[0020] 本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于课堂语音识别的辅助教学方法的各个步骤。

[0021] 本发明提供的技术方案中，通过获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。相比于现有技术，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

附图说明

[0022] 图1为本发明实施例中基于课堂语音识别的辅助教学方法的第一个实施例示意图；

[0023] 图2为本发明实施例中基于课堂语音识别的辅助教学方法的第二个实施例示意图；

[0024] 图3为本发明实施例中基于课堂语音识别的辅助教学方法的第三个实施例示意图；

[0025] 图4为本发明实施例中基于课堂语音识别的辅助教学装置的一个实施例示意图；

[0026] 图5为本发明实施例中基于课堂语音识别的辅助教学装置的另一个实施例示意图；

[0027] 图6为本发明实施例中基于课堂语音识别的辅助教学设备的一个实施例示意图。

具体实施方式

[0028] 本发明实施例提供了一种基于课堂语音识别的辅助教学方法及相关设备，该方法包括：获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对授课语音片段的进行语言转换，得到目标教学信息；基于目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。本申请提高了对相关开发课类型的课堂语音识别和转化的准确度。

[0029] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0030] 为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于课堂语音识别的辅助教学方法的第一个实施例包括：

[0031] 101、获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取教学音频数据中至少一种音频标记信息；

[0032] 本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

[0033] 人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

[0034] 本实施例中，这里的教学音频数据，指的是线上或者线下公开课程所实时或者历史记录的与该课程所有相关的数据；这里的音频存储策略，指的是对教学音频数据存储至相关服务器中添加相关标识进行数据存储的策略。

[0035] 在实际应用中，通过连接在线或者相关历史课程的服务器中，从对应的数据库中获取目标课堂当前授课课程的教学音频数据，并基于预设的音频存储策略，提取教学音频数据对应的课堂位置信息和时间标记信息；进而基于课堂位置信息，计算出目标课堂的赤经时刻和赤纬度数，并基于赤经时刻和赤纬度数，生成授课音频片段的经纬标记信息；从而基于音频位置信息，确定目标课堂的语系分布区域，并基于语系分布区域，生成教学音频数据的语系标记信息。

[0036] 102、提取教学音频数据的多个音频口音特征，并基于音频口音特征，确定目标课堂中对应授课的目标授课人员；

[0037] 本实施例中，这里的音频口音特征，指的是由于每个人的嘴唇、舌头和声带等口腔器官的形状和大小都不同，这导致了在说话时产生独特的声音特征，通过分析口腔声音的频谱、共振峰等特征，可得到用来识别人声的口音特征；这里的目标授课人员，指的是该课程中授课的教师、相关维护课程秩序的教师以及课程教学交流的学生等。

[0038] 在实际应用中，通过对教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；进而对加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；进而对教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征；进而采用预设话音识别模型分别计算出各音频口音特征之间的特征相似度；从而选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定目标课堂中授课时对应数量的目标授课人员。

[0039] 103、基于目标授课人员，提取教学音频数据对应的授课语音片段，并基于音频标记信息，对授课语音片段的进行语言转换，得到目标教学信息；

[0040] 本实施例中，所述授课语音片段，指的是不同目标授课人员在当前目标课程上所发表的有效发言对应的至少一个语音片段；这里的语言转换，指的是将不同课程授课语音转换为当前课程所在区域对应语言，以及将部分课程语音中的专业词汇语音片段转换为对应语系的专业词汇，如西方的天琴座α星语言转换为织女星、天鹰座α星语言转换为河鼓二（或者牛郎星）等。

[0041] 在实际应用中，基于目标授课人员，对教学音频数据进行音频切割，得到多个音频切割片段，并识别各音频切割片段的音频端点；进而基于音频端点，将音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段；进而基于语系标记信息，确定授课语音片段中至少一个授课标记指令，并判断授课标记指令对应的授课信息是否属于预设课程命名体系；若授课标记指令对应的授课信息属于预设课程命名体系，则按照课程命名体系，将授课标记指令作为目标教学信息；若授课标记指令对应的授课信息不属于预设课程命名体系，则按照课程命名体系，对授课标记指令进行命名语言转换，得到目标教学信息。

[0042] 104、基于目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0043] 本实施例中，这里的控制指令信息，指的是对该课堂所需教学设备的控制指令，如天文课堂对天文望眼镜的方位调整以及利用时经和纬度对观测天体的定位调整；这里的辅助教学信息，指的是课堂教师的实时翻译语音和与相关课件翻译组成的辅助教学信息。

[0044] 在实际应用中，通过确定目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；进而对经纬标记信息和时间标记信息进行操作参数计算，生成教学设备的控制指令信息；从而基于目标教学信息和控制指令信息，按序生成目标课堂的辅助教学信息，得到辅助教学结果。

[0045] 本发明实施例中，通过获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取教学音频数据中至少一种音频标记信息；提取教学音频数据的多个音频口音特征，并基于音频口音特征，确定目标课堂中对应授课的目标授课人员；基于目标授课人员，提取教学音频数据对应的授课语音片段，并基于音频标记信息，对授课语音片段的进行语言转换，得到目标教学信息；基于目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。相比于现有技术，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

[0046] 请参阅图2，本发明实施例中基于课堂语音识别的辅助教学方法的第二个实施例包括：

[0047] 201、基于预设的音频存储策略，提取教学音频数据对应的课堂位置信息和时间标记信息；

[0048] 本实施例中，这里的课堂位置信息，指的是课堂所在经纬度、海拔高度等位置信息；这里的时间标记信息，指的是当前课堂授课时对应的时间信息。

[0049] 在实际应用中，在获取目标课堂对应授课的教学音频数据后，基于预设的音频存储策略，从播放数据流中提取教学音频数据对应的课堂位置信息和时间标记信息。

[0050] 202、基于课堂位置信息，计算出目标课堂的赤经时刻和赤纬度数，并基于赤经时刻和赤纬度数，生成授课音频片段的经纬标记信息；

[0051] 本实施例中，这里的赤经时刻，指的是当前课堂位置经度对应精准区域时间；这里的赤纬度数，指的是当前课堂位置的纬度信息，其中这里的赤经时刻和赤纬度数可以依据教学设备的需要进行适当参数的修改，这里以天文教学课堂中天文望眼镜所需的参数为例进行说明。

[0052] 在实际应用中，基于课堂位置信息，计算出目标课堂的当前经度的对应时刻（精准到秒的时间，从而保证后面天文望远镜对目标星体定位的精准度，以及保证目标星体始终在目标视野中央），以及转换为对应的赤纬度数，劲儿基于赤经时刻和赤纬度数，组合生成天文望远镜调整所需的经纬标记信息。

[0053] 203、基于音频位置信息，确定目标课堂的语系分布区域，并基于语系分布区域，生成教学音频数据的语系标记信息；

[0054] 本实施例中，这里的语系分布区域，指的是依据所在区域中主要使用的语言划分的区域（如中文、英语、阿拉伯语等），此外依据教学的需要，不同专业课堂也有不同的专业语言划分区域。

[0055] 在实际应用中，基于音频位置信息，确定目标课堂所在位置主要教学语言，得到对应的语系分布区域，并基于语系分布区域，生成教学音频数据所在区域的语系标记信息。

[0056] 204、对教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；

[0057] 本实施例中，通过对教学音频数据进行预处理步骤，如降噪、去除静音段等；进而基于预设音频帧数，将预处理后的教学音频数据分割成对应帧数，如每帧持续时间为20‑40毫秒，其中分帧可以通过使用滑动窗口对信号进行分段来实现；进而对每一帧的语音信号应用加窗函数，常用的窗函数有汉明窗（Hamming Window）、海宁窗（Hanning Window）等。加窗可以减少频谱泄漏现象，使得频谱分析更准确，从而得到加窗后的教学音频数据。

[0058] 205、对加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；

[0059] 本实施例中，这里的人声感知频率，指的是人类能够听到的声音频率（即人耳对声音高低的感知密切相关）。

[0060] 在实际应用中，对加窗后的每帧教学音频数据进行快速傅里叶变换（FFT），得到每帧语音信号的频谱表示；进而基于人声感知频率设置对应的梅尔刻度，以及将梅尔刻度设置为对应梅尔滤波器的中心频率来对时频变换后的教学音频数据进行频谱滤波，并对滤波后的结果进行取对数运算，得到教学音频系数。

[0061] 206、对教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征；

[0062] 本实施例中，对教学音频系数进行离散余弦变换（DCT），得到倒谱系数。一般只保留部分低阶倒谱系数，忽略高阶倒谱系数，进而从倒谱变换的结果中选取满足预设频谱阶数（如低阶倒谱系数）的多个音频口音特征。

[0063] 207、采用预设话音识别模型分别计算出各音频口音特征之间的特征相似度；

[0064] 本实施例中，这里的话音识别模型，指的是GMM模型，其通过收集训练者每个说话人对应一个GMM模型，通过使用其语音样本训练得到，可以使用多个GMM模型来表示不同的说话人。

[0065] 在实际应用中，通过利用话音识别模型中高斯分布的数量K以及每个高斯分布的均值向量μ、协方差矩阵Σ和混合系数π，来计算出各音频口音特征之间的特征相似度。

[0066] 208、选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定目标课堂中授课时对应数量的目标授课人员；

[0067] 本实施例中，基于计算得到的特征相似度，通过最大似然判决（例如，选择最高似然概率对应的说话人）来确定目标课堂中授课时对应数量的目标授课人员。

[0068] 209、基于目标授课人员，提取教学音频数据对应的授课语音片段，并基于音频标记信息，对授课语音片段的进行语言转换，得到目标教学信息；

[0069] 210、基于目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0070] 本发明实施例中，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

[0071] 请参阅图3，本发明实施例中基于课堂语音识别的辅助教学方法的第三个实施例包括：

[0072] 301、获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取教学音频数据中至少一种音频标记信息；

[0073] 302、提取教学音频数据的多个音频口音特征，并基于音频口音特征，确定目标课堂中对应授课的目标授课人员；

[0074] 303、基于目标授课人员，对教学音频数据进行音频切割，得到多个音频切割片段，并识别各音频切割片段的音频端点；

[0075] 本实施例中，基于目标授课人员，按照对应的音频口音特征和声纹特征，对教学音频数据进行对应目标授课人员的音频切割，得到多个音频切割片段，进而利用能量门限法、短时过零率法等确定每个音频片段的开始和结束位置，得到各音频切割片段的音频端点。

[0076] 304、基于音频端点，将音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段；

[0077] 本实施例中，这里的第一目标授课人员，指的是授课教师；这里的第二目标授课人员，指的是课堂交互的学生。

[0078] 在实际应用中，基于端点检测的结果，将每个目标授课人员的语音分段为不同的音频片段，确保每个片段只包含一个人员的语音，进而对每个音频片段应用特征提取算法，例如MFCC（梅尔倒谱系数）等。特征提取将产生用于训练或识别的向量表示，并对对每个音频片段附加相应的标签，表示该片段属于哪个人员，从而得到第一目标授课人员对应的第一授课语音片段，以及基于设备操作权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段。

[0079] 305、基于语系标记信息，确定授课语音片段中至少一个授课标记指令，并判断授课标记指令对应的授课信息是否属于预设课程命名体系；

[0080] 本实施例中，这里的授课标记指令，指的授课教师对应的授课语音以及授课语音词汇等。

[0081] 在实际应用中，基于语系标记信息，确定授课语音片段中至少一个授课标记指令（即提取授课老师的授课话音文字），进而判断授课标记指令对应的授课信息是否属于预设课程命名体系（即判断当前授课话音文字是否符合当前区域的教学使用语言和使用词汇）。

[0082] 306、若授课标记指令对应的授课信息属于预设课程命名体系，则按照课程命名体系，将授课标记指令作为目标教学信息；

[0083] 本实施例中，若授课标记指令对应的授课信息属于预设课程命名体系（即该授课教师为本地语系的老师），则按照课程命名体系，将授课标记指令对应的语言文字进行翻译文字调整和美化，并作为目标教学信息。

[0084] 307、若授课标记指令对应的授课信息不属于预设课程命名体系，则按照课程命名体系，对授课标记指令进行命名语言转换，得到目标教学信息；

[0085] 本实施例中，若授课标记指令对应的授课信息不属于预设课程命名体系，则按照课程命名体系，对授课标记指令进行命名语言转换（即将授课标记指令对应的语言文字以及对应的专业词汇转换为当地语言体系的表达文字），从而得到目标教学信息。

[0086] 308、确定目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；

[0087] 本实施例中，通过对语言转换后的目标教学信息进行教学内容分析，确定当前目标课堂的对应设备类型的目标操作对象和预设教学设备的初始状态信息（如天文望眼镜的初始发那个是位置、是否校准等）；

[0088] 309、对经纬标记信息和时间标记信息进行操作参数计算，生成教学设备的控制指令信息；

[0089] 本实施例中，基于经纬标记信息和时间标记信息，按照教学设备（如天文望眼镜）的初始状态信息进行观测设备的参数调整计算（如依据所要观测的天体进行相关望远镜目镜、时经和纬度的调整量等的计算），从而基于计算的结果，生成控制该教学设备完成相应教学操作任务的控制指令信息。

[0090] 310、基于目标教学信息和控制指令信息，按序生成目标课堂的辅助教学信息，得到辅助教学结果。

[0091] 本实施例中，基于目标教学信息和控制指令信息，按照课堂教学的时间安排和教学发展，生成目标课堂总的语言转化后的辅助教学信息（该辅助教学信息包括实时翻译的语言信息和设备操作信息等），得到辅助教学结果。

[0092] 本发明实施例中，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

[0093] 上面对本发明实施例中基于课堂语音识别的辅助教学方法进行了描述，下面对本发明实施例中基于课堂语音识别的辅助教学装置进行描述，请参阅图4，本发明实施例中基于课堂语音识别的辅助教学装置一个实施例包括：

[0094] 标记提取模块401，用于获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；

[0095] 人员确定模块402，用于提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；

[0096] 语言转换模块403，用于基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；

[0097] 指令生成模块404，用于基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0098] 本发明实施例中，通过获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。相比于现有技术，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

[0099] 请参阅图5，本发明实施例中基于课堂语音识别的辅助教学装置的另一个实施例包括：

[0100] 标记提取模块401，用于获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；

[0101] 人员确定模块402，用于提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；

[0102] 语言转换模块403，用于基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；

[0103] 指令生成模块404，用于基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。

[0104] 进一步的，所述标记提取模块401包括：

[0105] 第一标记单元4011，用于基于预设的音频存储策略，提取所述教学音频数据对应的课堂位置信息和时间标记信息；

[0106] 第二标记单元4012，用于基于所述课堂位置信息，计算出所述目标课堂的赤经时刻和赤纬度数，并基于所述赤经时刻和赤纬度数，生成所述授课音频片段的经纬标记信息；

[0107] 第三标记单元4013，用于基于所述音频位置信息，确定所述目标课堂的语系分布区域，并基于所述语系分布区域，生成所述教学音频数据的语系标记信息。

[0108] 进一步的，所述人员确定模块402包括：

[0109] 加窗计算单元4021，用于对所述教学音频数据进行预处理，并基于预设音频帧数，对预处理后的教学音频数据进行多帧的加窗计算，得到加窗后的教学音频数据；

[0110] 时频变换单元4022，用于对所述加窗后的教学音频数据进行时频变换，并基于人声感知频率，对时频变换后的教学音频数据进行频谱滤波和系数运算，得到教学音频系数；

[0111] 倒谱变换单元4023，用于对所述教学音频系数进行倒谱变换，并从倒谱变换的结果中选取满足预设频谱阶数的多个音频口音特征。

[0112] 进一步的，所述人员确定模块402还包括：

[0113] 相似度计算单元4024，用于采用预设话音识别模型分别计算出各所述音频口音特征之间的特征相似度；

[0114] 相似度选取单元4025，用于选取大于预设相似度阈值的特征相似度，并基于选取的结果，确定所述目标课堂中授课时对应数量的目标授课人员。

[0115] 进一步的，所述语言转换模块403包括：

[0116] 音频切割单元4031，用于基于所述目标授课人员，对所述教学音频数据进行音频切割，得到多个音频切割片段，并识别各所述音频切割片段的音频端点；

[0117] 人员标记单元4032，用于基于所述音频端点，将所述音频切割片段进行人员二次分段，并对二次分段的结果进行第一授课人员标记，得到第一目标授课人员对应的第一授课语音片段，以及基于设备权限，对二次分段的结果进行第二授课人员标记，得到第二目标授课人员对应的第二授课语音片段。

[0118] 进一步的，所述语言转换模块403还包括：命名判断单元4033，用于基于所述语系标记信息，确定所述授课语音片段中至少一个授课标记指令，并判断所述授课标记指令对应的授课信息是否属于预设课程命名体系；

[0119] 第一转换单元4034，用于若所述授课标记指令对应的授课信息属于预设课程命名体系，则按照所述课程命名体系，将所述授课标记指令作为目标教学信息；

[0120] 第二转换单元4035，用于若所述授课标记指令对应的授课信息不属于预设课程命名体系，则按照所述课程命名体系，对所述授课标记指令进行命名语言转换，得到目标教学信息。

[0121] 进一步的，所述指令生成模块404包括：

[0122] 状态确定单元4041，用于确定所述目标教学信息中对应设备类型的目标操作对象和预设教学设备的初始状态信息；

[0123] 参数计算单元4042，用于对所述经纬标记信息和所述时间标记信息进行操作参数计算，生成所述教学设备的控制指令信息；

[0124] 指令生成单元4043，用于基于所述目标教学信息和所述控制指令信息，按序生成所述目标课堂的辅助教学信息，得到辅助教学结果。

[0125] 本发明实施例中，通过获取目标课堂对应授课的教学音频数据，并基于预设的音频存储策略，提取所述教学音频数据中至少一种音频标记信息；提取所述教学音频数据的多个音频口音特征，并基于所述音频口音特征，确定所述目标课堂中对应授课的目标授课人员；基于所述目标授课人员，提取所述教学音频数据对应的授课语音片段，并基于所述音频标记信息，对所述授课语音片段的进行语言转换，得到目标教学信息；基于所述目标教学信息，生成预设教学设备的控制指令信息和辅助教学信息，得到辅助教学结果。相比于现有技术，本申请通过先对教学音频数据提取对应的音频标记信息，以及确定教学音频数据对应的目标授课人员，进而基于目标授课人员和音频标记信息，对对应的授课语音片段进行教学语言的转换，得到目标教学信息，进而生成目标教学信息对应的控制指令信息和辅助教学信息，得到辅助教学结果，从而提高了对相关开发课类型的课堂语音识别和转化的准确度，并实现了对课堂相关设备的有效教学控制。

[0126] 上面图4和图5从模块化功能实体的角度对本发明实施例中的基于课堂语音识别的辅助教学装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于课堂语音识别的辅助教学设备进行详细描述。

[0127] 图6是本发明实施例提供的一种基于课堂语音识别的辅助教学设备的结构示意图，该基于课堂语音识别的辅助教学设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于课堂语音识别的辅助教学设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于课堂语音识别的辅助教学设备600上执行存储介质630中的一系列指令操作。

[0128] 基于课堂语音识别的辅助教学设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于课堂语音识别的辅助教学设备结构并不构成对基于课堂语音识别的辅助教学设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

[0129] 本发明还提供一种基于课堂语音识别的辅助教学设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于课堂语音识别的辅助教学方法的各个步骤。

[0130] 本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于课堂语音识别的辅助教学方法的各个步骤。

[0131] 所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0132] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read‑only memory， ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

[0133] 本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

[0134] 以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

基于课堂语音识别的辅助教学方法及相关设备转让专利

申请号 : CN202311748488.1

文献号 : CN117423260B

文献日 : 2024-03-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郝磊

申请人 : 杭州智慧耳朵科技有限公司

摘要 :

权利要求 :

说明书 :