说话者角色确定方法、装置、设备及存储介质转让专利

申请号 : CN202010074823.4

文献号 : CN111341318B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李航康昱丁文彪刘子韬

申请人 : 北京世纪好未来教育科技有限公司

摘要 :

本发明实施例提供了一种说话者角色确定方法、装置、设备及存储介质,方法包括:获取待角色确定音频的各人声语句片段;获取各所述人声语句片段的音色特征和文本特征;根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。本发明实施例所提供的说话者角色确定方法、装置、设备及存储介质,可以确定音频中说话者角色并提高说话者角色确定的准确性。

权利要求 :

1.一种说话者角色确定方法,其特征在于,包括:获取待角色确定音频的各人声语句片段;

获取各所述人声语句片段的音色特征和文本特征;

根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;

利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色,其中,所述根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征的步骤包括:确定当前人声语句片段以及与所述当前人声语句片段相对应的各非当前人声语句片段,其中,各所述非当前人声语句片段为所述待角色确定音频的各所述人声语句片段中,除所述当前人声语句片段以外的各个所述人声语句片段;

获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度,得到相似度特征向量;

将所述相似度特征向量与各所述非当前人声语句片段的文本特征进行融合,得到所述当前人声语句片段的音色相似文本融合特征;

将所述当前人声语句片段的文本特征与所述音色相似文本融合特征进行融合,得到所述当前人声语句片段的音色文本融合特征,并更换当前人声语句片段并确定与更换后的当前人声语句片段对应的非当前人声语句片段,直至完成各所述人声语句片段的音色文本融合特征的获取,得到各音色文本融合特征。

2.如权利要求1所述的说话者角色确定方法,其特征在于,所述获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的相似度的步骤包括:获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度值;

将各所述相似度值进行归一化,得到各所述相似度。

3.如权利要求1所述的说话者角色确定方法,其特征在于,所述角色确定模型通过以下损失函数确定训练损失:其中,L-角色确定模型损失;

Lc—交叉熵函数模型损失;

Rα—音色相似度模型损失;

β--音色相似度模型损失权重。

4.如权利要求3所述的说话者角色确定方法,其特征在于,所述音色相似度模型损失通过以下损失函数获取:其中,Rα—音色相似度模型损失;

i—第i个人声语句片段;

j—第j个人声语句片段;

yi--第i个人声语句片段的真实说话者角色;

yj--第j个人声语句片段的真实说话者角色;

αij--第i个人声语句片段的音色特征与第i个人声语句片段的音色特征的相似度。

5.如权利要求1所述的说话者角色确定方法,其特征在于,所述获取待角色确定音频的各人声语句片段的步骤包括:获取待角色确定音频的各人声帧片段;

根据各所述人声帧片段的时刻和相邻时刻的所述人声帧片段间的时间间隔,获取满足预定的时间间隔阈值的相邻所述人声帧片段,并将满足预定的时间间隔阈值的相邻所述人声帧片段进行拼接,得到各所述人声语句片段。

6.如权利要求5所述的说话者角色确定方法,其特征在于,所述时间间隔阈值范围为

100ms-500ms。

7.如权利要求1所述的说话者角色确定方法,其特征在于,所述获取各所述人声语句片段的音色特征的步骤包括:利用声纹特征提取器获取各所述人声语句片段的音色特征。

8.如权利要求1所述的说话者角色确定方法,其特征在于,所述获取各所述人声语句片段的文本特征的步骤包括:利用语音识别模型获取各所述人声语句片段的文本;

对各所述文本进行文本特征编码,获取各所述文本特征。

9.如权利要求1-8任一项所述的说话者角色确定方法,其特征在于,所述根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征之后还包括:获取各所述音色文本融合特征的序列信息特征;

将各所述序列信息特征与各所述音色文本融合特征进行融合,得到各序列融合特征;

所述利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的角色的步骤包括:利用角色确定模型根据各所述序列融合特征确定各所述人声语句片段的说话者角色。

10.如权利要求9所述的说话者角色确定方法,其特征在于,所述获取各所述音色文本融合特征的序列信息特征的步骤包括:按照各所述人声语句片段的时刻顺序对各所述音色文本融合特征进行排序;

确定当前音色文本融合特征和各前序音色文本融合特征,其中所述前序音色文本融合特征为时刻顺序位于所述当前音色文本融合特征之前的各音色文本融合特征;

根据所述当前音色文本融合特征和各前序音色文本融合特征,获取所述当前音色文本融合特征的序列信息特征,并更换所述当前音色文本融合特征,确定与更换后的所述当前音色文本融合特征对应的各前序音色文本融合特征,直至完成各所述音色文本融合特征的序列信息特征的获取,得到各所述序列信息特征。

11.如权利要求1-8任一项所述的说话者角色确定方法,其特征在于,还包括:根据各所述人声语句片段的时刻信息和说话者角色,确定所述待角色确定音频的各说话者角色的音频时长。

12.一种说话者角色确定装置,其特征在于,包括:人声语句片段获取单元,适于获取待角色确定音频的各人声语句片段;

音色特征和文本特征获取单元,适于获取各所述人声语句片段的音色特征和文本特征;

音色文本融合特征获取单元,适于根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征,包括:确定当前人声语句片段以及与所述当前人声语句片段相对应的各非当前人声语句片段,其中,各所述非当前人声语句片段为所述待角色确定音频的各所述人声语句片段中,除所述当前人声语句片段以外的各个所述人声语句片段;

获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度,得到相似度特征向量;

将所述相似度特征向量与各所述非当前人声语句片段的文本特征进行融合,得到所述当前人声语句片段的音色相似文本融合特征;

将所述当前人声语句片段的文本特征与所述音色相似文本融合特征进行融合,得到所述当前人声语句片段的音色文本融合特征,并更换当前人声语句片段并确定与更换后的当前人声语句片段对应的非当前人声语句片段,直至完成各所述人声语句片段的音色文本融合特征的获取,得到各音色文本融合特征;

说话者角色确定单元,适于利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。

13.一种存储介质,其特征在于,所述存储介质存储有适于说话者角色确定的程序,以实现如权利要求1-11任一项所述的说话者角色确定方法。

14.一种设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-11任一项所述的说话者角色确定方法。

说明书 :

说话者角色确定方法、装置、设备及存储介质

技术领域

[0001] 本发明实施例涉及计算机领域,尤其涉及一种说话者角色确定方法、装置、设备及存储介质。

背景技术

[0002] 随着人们对教育的重视,课堂的质量越来越受到老师和家长的重视,需要对课堂的质量进行评估。
[0003] 在课堂质量评价体系中,师生的说话次数和交互时长已经被公认为评价课堂质量好坏的重要指标,为此需要将课堂的音频在时间轴上进行拆分,并将拆分后的声音进一步分类为老师角色或者学生角色,进而得到在课堂内老师和学生各自说话的时间,实现课堂内师生说话时间标记。
[0004] 然而,现有的音频处理,不能实现说话者角色的确定。
[0005] 因此,如何确定音频中说话者角色,即成为亟需解决的技术问题。

发明内容

[0006] 本发明实施例解决的技术问题是提供一种说话者角色确定方法、装置、设备及存储介质,以确定音频中说话者角色。
[0007] 为解决上述问题,本发明实施例提供一种说话者角色确定方法,包括:
[0008] 获取待角色确定音频的各人声语句片段;
[0009] 获取各所述人声语句片段的音色特征和文本特征;
[0010] 根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;
[0011] 利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0012] 为解决上述问题,本发明实施例还提供一种说话者角色确定装置,包括:
[0013] 人声语句片段获取单元,适于获取待角色确定音频的各人声语句片段;
[0014] 音色特征和文本特征获取单元,适于获取各所述人声语句片段的音色特征和文本特征;
[0015] 音色文本融合特征获取单元,适于根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;
[0016] 说话者角色确定单元,适于利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0017] 为解决上述问题,本发明实施例还提供一种设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述的说话者角色确定方法。
[0018] 为解决上述问题,本发明实施例还提供一种存储介质,所述存储介质存储有适于说话者角色确定的程序,以实现如前述的说话者角色确定方法。
[0019] 与现有技术相比,本发明的技术方案具有以下优点:
[0020] 本发明实施例所提供的说话者角色确定方法,在确定说话者角色时,首先获取待角色确定音频的各人声语句片段,并针对各个人声语句片段获取与其对应的音色特征和文本特征,再基于各音色特征和文本特征获取音色文本融合特征,最后利用已经训练好的角色确定模型根据各音色文本融合特征确定各所述人声语句片段的说话者角色。可以看出,本发明实施例所提供的说话者角色确定方法在进行说话者角色的确定时,由于同时利用了根据各人声语句片段获取的音色特征和文本特征,当各个人声语句片段中的至少一个的文本特征具有明确的说话者角色指示时,可以利用音色特征与文本特征的融合,将音色特征相似度高的不同人声语句片段的说话者确定为同一角色,进而可以利用具有明确的说话者角色指示的人声语句片段的文本特征,提高说话者角色指示不明显的人声语句片段的角色确定的准确性,从而可以通过两种信息共同确定说话者角色,不仅可以将待角色确定音频中的不同人声语句片段的说话者进行区分,实现话者分离,而且可以确定不同的说话者角色,提高角色确定的准确性,并且由于可以直接确定说话者角色,可以为进一步进行不同角色的说话者说话次数和说话时长的统计提供基础,进而满足对待角色确定音频的评价。
[0021] 可选方案中,本发明实施例所提供的说话者角色确定方法,在获取音色文本融合特征时,通过首先获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度,得到相似度特征向量,再将所述相似度特征向量与各所述非当前人声语句片段的文本特征进行融合,得到所述当前人声语句片段的音色相似文本融合特征,最后将所述当前人声语句片段的文本特征与所述音色相似文本融合特征进行融合,得到所述当前人声语句片段的音色文本融合特征,并进而得到各所述人声语句片段的音色文本融合特征。这样,由于音色相似文本融合特征是利用当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度所构成的相似度特征向量,与各所述非当前人声语句片段的文本特征进行融合得到的,而相似度向量是基于当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征获取的,可以反映非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,从而确定非当前人声语句片段中的哪些与当前人声语句片段的说话者为同一角色,当将其与各个非当前人声语句片段的文本特征进行融合时,所得到的音色相似文本融合特征可以提高音色相似程度高的非当前人声语句片段的文本特征的影响程度,并降低音色相似程度低的非当前人声语句片段的文本特征的影响程度,提高当前人声语句片段的说话者角色确定的准确性。

附图说明

[0022] 图1是本发明实施例所提供的说话者角色确定方法的一流程示意图;
[0023] 图2为本发明实施例所提供的说话者角色确定方法的获取人声语句片段步骤的一流程示意图;
[0024] 图3为本发明实施例所提供的说话者角色确定方法的音频切割频谱示意图;
[0025] 图4为本发明实施例所提供的说话者角色确定方法的声纹特征提取器的结构示意图;
[0026] 图5为本发明实施例所提供的说话者角色确定方法的获取文本特征的模型结构示意图;
[0027] 图6为本发明实施例所提供的说话者角色确定方法的获取音色文本融合特征步骤的一流程示意图;
[0028] 图7是本发明实施例所提供的说话者角色确定方法的另一流程示意图;
[0029] 图8为本发明实施例所提供的说话者角色确定方法的获取序列信息特征步骤的一流程示意图;
[0030] 图9是本发明实施例所提供的说话者角色确定装置的一框图;
[0031] 图10是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

[0032] 现有技术中,在对音频进行处理时,无法确定音频中的说话者角色。
[0033] 为了确定音频中说话者角色,本发明实施例提供了一种说话者角色确定方法、装置、设备及存储介质,本发明实施例所提供的一种说话者角色确定方法,包括:
[0034] 获取待角色确定音频的各人声语句片段;
[0035] 获取各所述人声语句片段的音色特征和文本特征;
[0036] 根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;
[0037] 利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0038] 可以看出,本发明实施例所提供的说话者角色确定方法,在确定说话者角色时,首先获取待角色确定音频的各人声语句片段,并针对各个人声语句片段获取与其对应的音色特征和文本特征,再基于各音色特征和文本特征获取音色文本融合特征,最后利用已经训练好的角色确定模型根据各音色文本融合特征确定各所述人声语句片段的说话者角色。
[0039] 这样,本发明实施例所提供的说话者角色确定方法在进行说话者角色的确定时,由于同时利用了根据各人声语句片段获取的音色特征和文本特征,当各个人声语句片段中的至少一个的文本特征具有明确的说话者角色指示时,可以利用音色特征与文本特征的融合,将音色特征相似度高的不同人声语句片段的说话者确定为同一角色,进而可以利用具有明确的说话者角色指示的人声语句片段的文本特征,提高说话者角色指示不明显的人声语句片段的角色确定的准确性,从而可以通过两种信息共同确定说话者角色,不仅可以将待角色确定音频中的不同人声语句片段的说话者进行区分,实现话者分离,而且可以确定不同的说话者角色,提高角色确定的准确性,并且由于可以直接确定说话者角色,可以为进一步进行不同角色的说话者说话次数和说话时长的统计提供基础,进而满足对待角色确定音频的评价。
[0040] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041] 请参考图1,图1是本发明实施例所提供的说话者角色确定方法的一流程示意图。
[0042] 如图中所示,本发明实施例所提供的说话者角色确定方法包括以下步骤:
[0043] 步骤S10:获取待角色确定音频的各人声语句片段。
[0044] 可以理解的是,为了确定说话者角色,首先需要获取音频,即待角色确定音频,当然,待角色确定音频既可以来自于原始的音频数据,也可以来自于原始的视频数据;并且待角色确定音频的时间长短可以基于需要有所不同,比如:当待角色确定音频来自于课堂教学,则可能为一节课的时长或者几节课的时长;当待角色确定音频来自于其他场景,待角色确定音频的时长则可能为其他时间。
[0045] 获取待角色确定音频后,再基于待角色确定音频获取人声语句片段。
[0046] 需要说明的是,本文所述的人声语句片段是指包含了人声语句的片段,不仅包括仅包含一个说话者语句的人声片段,也可以包含多个说话者语句的人声片段,当然,为了使确定的人声语句片段的说话者角色具有较高的准确性,优选一个人声语句片段中仅包含一个说话者语句的人声片段。
[0047] 为了获取人声语句片段,请参考图2和图3,图2为本发明实施例所提供的说话者角色确定方法的获取人声语句片段步骤的一流程示意图;图3为本发明实施例所提供的说话者角色确定方法的音频切割频谱示意图。
[0048] 如图2所示,为了获取人声语句片段,本发明实施例所提供的说话者角色确定方法可以包括:
[0049] 步骤S100:获取待角色确定音频的各人声帧片段。
[0050] 获取到待角色确定音频后,基于待角色确定音频获取人声帧片段。需要说明的是,本文所述的人声帧片段即为以帧(一般为25ms)为单位切分得到的人声片段。
[0051] 当然,可以通过人声活动检测技术(VAD),将整个待角色确定音频中的时刻标记出来,以便进行人声帧片段的切割。
[0052] 具体地,待角色确定音频以频谱图的方式表示,利用滑窗进行切割,得到如图3所示的帧片段,然后根据各个帧片段的频谱图,获取语言信号特征,包括:帧片段频谱图的最大值、平均值、方差等等,基于语言信号特征,进一步判断各个帧片段是否为人声片段。
[0053] 在一种具体实施方式中,可以利用时延全链接神经网络,判断各个帧片段是否为人声帧片段,比如:当利用时延全链接神经网络对帧片段进行预测后,输出为1时,可以确定被判断的帧片段为人声帧片段,从而将非人声片段(比如:空白片段、噪声片段等)去除。
[0054] 步骤S101:根据各所述人声帧片段的时刻和相邻时刻的所述人声帧片段间的时间间隔,获取满足预定的时间间隔阈值的相邻所述人声帧片段,并将满足预定的时间间隔阈值的相邻所述人声帧片段进行拼接,得到各所述人声语句片段。
[0055] 得到人声帧片段,根据人声帧片段的时刻,以及相邻时刻的两人声帧片段之间的时间间隔,对满足预定的时间间隔阈值的相邻的人声帧片段进行拼接,即将满足预定的时间间隔阈值的相邻的人声帧片段作为一个片段,组成一段人声语句片段。
[0056] 可以理解的是,相邻时刻指与人声帧片段对应的时刻相邻的时刻。
[0057] 在一种具体实施方式中,满足预定的时间间隔阈值可以为小于或等于预定的时间间隔阈值,在另一种具体实施方式中,满足预定的时间间隔阈值可以为小于预定的时间间隔阈值。
[0058] 比如,当预定的时间间隔阈值为100ms,则将相邻时刻的两所述人声帧片段间的时间间隔小于或等于100ms的两段人声帧片段拼接为一段人声语句片段。
[0059] 可以理解的是,在进行判断和拼接时,可以按照时刻的前后顺序,依次判断第一人声帧片段与第二人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将第一人声帧片段与第二人声帧片段进行拼接,然后再判断第二人声帧片段与第三人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将已经拼接的人声片段再与第三人声帧片段进行拼接,…,依次执行判断和拼接,直至相邻的人声帧片段间的时间间隔不满足预定的时间间隔阈值,然后再进行后续的判断和拼接。
[0060] 当然,在其他实施方式中,也可以首先将各个相邻的两个人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将满足的多个人声帧片段进行拼接,比如:经判断,若第一人声帧片段与第二人声帧片段之间的时间间隔满足预定的时间间隔阈值,第二人声帧片段与第三人声帧片段之间的时间间隔满足预定的时间间隔阈值,且第三人声帧片段和第四人声帧片段之间的时间间隔也满足预定的时间间隔阈值,而第四人声帧片段和第五人声帧片段之间的时间间隔不满足预定的时间间隔阈值时,则将第一人声帧片段、第二人声帧片段、第三人声帧片段和第四人声帧片段进行拼接,得到一个人声语句片段。
[0061] 当完成全部的人声帧片段中,相邻的人声帧片段之间的时间间隔的片段,和相邻的人声帧片段的拼接后,得到各个人声语句片段。
[0062] 通过上述方式获取人声语句片段,不仅可以将非人声片段出除,而且可以将通过设置时间间隔阈值,确定各个人声语句片段的质量,使得各个人声语句片段尽可能地只包含一个说话者的音频,或者只包含同时说话的多个说话者的音频,为后续说话者角色的确定做好准备,提高说话者角色确定的准确性。
[0063] 时间间隔阈值过小,会造成同一个说话的同一语句被分成多个人声语句片段,从而造成一个语句人声片段中的文本信息不完整,影响说话者角色确定的准确性;时间间隔阈值过大,又会造成不同的说话者的语句被分到一个人声语句片段中,也会影响说话者角色确定的准确性,而经大量研究发现,不同说话者之间进行对话时,变换说话者时的时间间隔的范围通常在100ms-500ms,为此,在一种具体实施方式中,可以将所述时间间隔阈值的范围定为100ms-500ms,比如:200ms、300ms、350ms、420ms等等。
[0064] 请继续参考图1,步骤S11:获取各所述人声语句片段的音色特征和文本特征。
[0065] 得到各所述人声语句片段后,进一步获取各个人声语句片段的音色特征和文本特征。
[0066] 在一种具体实施方式中,可以利用声纹特征提取器获取各所述人声语句片段的音色特征。
[0067] 请参考图4,图4为本发明实施例所提供的说话者角色确定方法的声纹特征提取器的结构示意图。
[0068] 如图中所示,声纹特征提取器包首先从获取的人声语句片段的音频信号中提取特征,进而通过包括3层LSTM(Long Short-Term Memory)神经网络进行音色特征的提取,得到能够代表说话者音色特征的音色特征。
[0069] 当然为了提高音色特征提取的准确性,在一种具体实施方式中,LSTM神经网络可以通过general end to end loss(GE2E)损失函数进行训练。
[0070] 除了获取音色特征,还需获取各个人声语句片段的文本特征。
[0071] 请参考图5,图5为本发明实施例所提供的说话者角色确定方法的获取文本特征的模型结构示意图。
[0072] 如图中所示,在一种具体实施方式中,为了获取文本特征,可以首先利用语音识别模型获取各所述人声语句片段的文本,即将各个人声语句片段的音频送入语音识别模型,从而可以得到每个人声语句片段的文本。
[0073] 然后,对各所述文本进行文本特征编码,获取各所述文本特征。
[0074] 在对各文本进行文本特征编码时,首先对文本进行分词,然后将分词后的文本输入已训练的文本特征编码(word 2vec)模型,经过池化后,得到的文本特征。
[0075] 比如:将一个人声语句片段输入语音识别模型,得到“同学,上课了,今天我们把上次讲的内容复习一遍吧”,然后经过分词,得到“同学/上课/了/今天/我们/把/上次/讲/的/内容/复习/一遍/吧”,再讲分词后的文本输入文本特征编码(word 2vec)模型,再经过池化,即可得到人声语句片段的文本特征。
[0076] 步骤S12:根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征。
[0077] 得到待角色确定音频的各个人声语句片段的音色特征和文本特征后,进一步对音色特征和文本特征进行融合,得到音色文本融合特征。
[0078] 在一种具体实施方式中,为了充分利用待角色确定音频的各个人声语句片段的音色特征和文本特征,以保证角色确定的准确性,请参考图6,图6为本发明实施例所提供的说话者角色确定方法的获取音色文本融合特征步骤的一流程示意图。
[0079] 如图中所示,本发明实施例所提供的说话者角色确定方法的获取音色文本融合特征步骤可以包括:
[0080] 步骤S120:确定当前人声语句片段以及与所述当前人声语句片段相对应的各非当前人声语句片段。
[0081] 针对一段待角色确定音频可以拆分成多个人声语句片段,因此,在进行说话者角色确定时,需确定各个人声语句片段的说话者角色,为此首先确定当前需要确认说话者角色的人声语句片段,即当前人声语句片段。
[0082] 确定了当前当人声语句片段,那么也就确定了与当前人声语句片段相对应的各个非当前人声语句片段,即所述待角色确定音频的各所述人声语句片段中,除所述当前人声语句片段以外的各个所述人声语句片段。
[0083] 比如:如果基于一段待角色确定音频得到10段人声语句片段,那么当确定其中一个(比如第2个)为当前人声语句片段时,另外的9个(第1个,第3个-第10个)则为非当前人声语句片段。
[0084] 步骤S121:获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度,得到相似度特征向量。
[0085] 确定当前人声语句片段和与所述当前人声语句片段相对应的各非当前人声语句片段后,进一步获取各个非当前人声语句片段的音色特征与当前人声语句片段的音色特征的相似度。
[0086] 在一种具体实施方式中,为了获取相似度,并且提高获取相似度后的运算效率,可以首先获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度值;然后将各所述相似度值进行归一化,得到各所述相似度。
[0087] 结合前述案例,比如:当10段人声语句片段中确定其中一个,比如第2个为当前人声语句片段,另外的第1个以及第3个-第10个为非当前人声语句片段时,获取第2个人声语句片段分别与第1个以及第3个-第10个人声语句片段的相似度,即9个相似度,从而将9个相似度组成向量,得到相似度特征向量,可知,所得到的相似度特征向量为1×9的向量。
[0088] 容易理解的是,相似度是基于当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征获取的,以反应非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,从而确定非当前人声语句片段中的哪些与当前人声语句片段的说话者为同一角色,如果相似程度高,那么该非当前人声语句片段会在后续为当前人声语句片段的说话者角色的确定提供更多的文本信息;如果相似程度低,那么该非当前人声语句片段会在后续为当前人声语句片段的说话者角色的确定提供较少的文本信息,而不仅仅只参考当前人声语句片段的文本信息。
[0089] 步骤S122:将所述相似度特征向量与各所述非当前人声语句片段的文本特征进行融合,得到所述当前人声语句片段的音色相似文本融合特征。
[0090] 得到相似度特征向量,进一步利用相似度特征向量与各非当前人声语句片段的文本特征进行融合,进而得到所述当前人声语句片段的音色相似文本融合特征。
[0091] 在一种具体实施方式中,可以将相似度特征向量与各非当前人声语句片段的文本特征组成的矩阵做矩阵乘法,具体地:
[0092] 结合前述案例,比如:相似度特征向量为1×9的向量,而各个非当前人声语句片段的文本特征分别为1×200的向量,将各个非当前人声语句片段的文本特征进行排列得到9×200的矩阵,当然,各个非当前人声语句片段的文本特征的排列顺序,应与相似度特征向量中的各个相似度所对应的非当前人声语句片段的排列顺序相同,然后将相似度特征向量与矩阵相乘,得到1×200的音色相似文本融合特征。
[0093] 可以理解的是,由于相似度特征向量中的各个相似度是反映了非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,当将其与各个非当前人声语句片段的文本特征进行融合时,所得到的音色相似文本融合特征可以提高音色相似程度高的非当前人声语句片段的文本特征的影响程度,并降低音色相似程度低的非当前人声语句片段的文本特征的影响程度,为提高当前人声语句片段的说话者角色确定的准确性做好准备。
[0094] 步骤S123:将所述当前人声语句片段的文本特征与所述音色相似文本融合特征进行融合,得到所述当前人声语句片段的音色文本融合特征。
[0095] 得到当前人声语句片段的音色相似文本融合特征后,再将当前人声语句片段的音色相似文本融合特征与其文本特征进行融合,进而得到所述当前人声语句片段的音色文本融合特征。
[0096] 在一种具体实施方式中,可以将音色相似文本融合特征与文本特征进行左右拼接,得到音色文本融合特征。
[0097] 步骤S124、判断是否完成各所述人声语句片段的音色文本融合特征的获取,若是,执行步骤S125,若否,执行步骤S126。
[0098] 由于一段待角色确定音频可以拆分成多个人声语句片段,因此在获取完一个人声语句片段的音色文本融合特征后,进一步判断是否全部的人声语句片段的音色文本融合特征均已获取,如果是,则得到各个音色文本融合特征,即步骤S125,否则,执行步骤S126。
[0099] 步骤S125:得到各音色文本融合特征。
[0100] 步骤S126:更换当前人声语句片段并确定与更换后的当前人声语句片段对应的非当前人声语句片段,并执行步骤S121。
[0101] 若未完成全部的人声语句片段的音色文本融合特征的获取,则更换当前人声语句片段,并确定与更换后的当前人声语句片段对应的非当前人声语句片段,进而以更换后的当前人声语句片段再次执行步骤S121。
[0102] 在另一种具体实施方式中,为了保证较快的处理速度,也可以同时获取与各个人声语句片段对应的相似度向量,进而获取音色相似文本融合特征和音色文本融合特征,具体相似度向量、音色相似文本融合特征和音色文本融合特征的获取方法,请参考前述论述,在此不再赘述。
[0103] 可以看出,本发明实施例所提供的说话者角色确定方法,在进行音色文本融合特征的获取时,利用了音色相似文本融合特征,而音色相似文本融合特征是利用当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度所构成的相似度特征向量,与各所述非当前人声语句片段的文本特征进行融合得到的,而相似度向量是基于当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征获取的,可以反映非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,从而确定非当前人声语句片段中的哪些与当前人声语句片段的说话者为同一角色,当将其与各个非当前人声语句片段的文本特征进行融合时,所得到的音色相似文本融合特征可以提高音色相似程度高的非当前人声语句片段的文本特征的影响程度,并降低音色相似程度低的非当前人声语句片段的文本特征的影响程度,提高当前人声语句片段的说话者角色确定的准确性。
[0104] 请继续参考图1,步骤S13:利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0105] 得到各个音色文本融合特征后,再利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0106] 当然,角色确定模型所确定的说话者角色与角色确定模型在训练时所输出的角色相一致。
[0107] 比如:当待角色确定音频为教师上课音频,则所确定的说话者角色可以为老师或学生;当待角色确定音频为电话客服音频,用则所确定的说话者角色可以为客户或者客服。当然,所确定的角色也可以不止两个。
[0108] 并且在进行角色确定模型的训练时,为了提高训练后的模型的准确性,在一种具体实施方式中,所述角色确定模型通过以下损失函数确定训练损失:
[0109]
[0110] 其中,L-角色确定模型损失;
[0111] Lc—交叉熵函数模型损失;
[0112] Rα—音色相似度模型损失;
[0113] β--音色相似度模型损失权重。
[0114] 这样,角色确定模型损失L按照权重结合了交叉熵函数模型损失Lc和音色相似度模型损失Rα,这是由于,经过大量研究发现如果只对具有相似音色(即具有很高的音色特征的相似度)的人声语句片段的文本特征进行融合,角色确定模型的性能能够达到最优,即当音色相似度模型损失Rα的数值为0时,交叉熵函数模型损失Lc也应当最小,进而角色确定模型损失L也最小,角色确定模型的训练结果达到最优。
[0115] 具体地,所述音色相似度模型损失通过以下损失函数获取:
[0116]
[0117] 其中,Rα—音色相似度模型损失;
[0118] i—第i个人声语句片段;
[0119] j—第j个人声语句片段;
[0120] yi--第i个人声语句片段的真实说话者角色;
[0121] yj--第j个人声语句片段的真实说话者角色;
[0122] αij--第i个人声语句片段的音色特征与第i个人声语句片段的音色特征的相似度。
[0123] 所述交叉熵函数模型损失通过以下损失函数获取:
[0124]
[0125] 其中:Lc—交叉熵函数模型损失;
[0126] i—第i个人声语句片段;
[0127] yi--第i个人声语句片段的真实说话者角色;
[0128] --第i个人声语句片段的预测说话者角色。
[0129] 可以看出,本发明实施例所提供的说话者角色确定方法在进行说话者角色的确定时,由于同时利用了根据各人声语句片段获取的音色特征和文本特征,当各个人声语句片段中的至少一个的文本特征具有明确的说话者角色指示时,可以利用音色特征与文本特征的融合,将音色特征相似度高的不同人声语句片段的说话者确定为同一角色,进而可以利用具有明确的说话者角色指示的人声语句片段的文本特征,提高说话者角色指示不明显的人声语句片段的角色确定的准确性,从而可以通过两种信息共同确定说话者角色,不仅可以将待角色确定音频中的不同人声语句片段的说话者进行区分,实现话者分离,而且可以确定不同的说话者角色,提高角色确定的准确性,并且由于可以直接确定说话者角色,可以为进一步进行不同角色的说话者说话次数和说话时长的统计提供基础,进而满足对待角色确定音频的评价。
[0130] 在另一种具体实施方式中,为了实现统计在待角色确定音频中不同说话者的说话时长,请继续参考图1,本发明实施例所提供的说话者角色确定方法,在当确定各所述人声语句片段的说话者角色后,还可以包括:
[0131] 步骤S14:根据各所述人声语句片段的时刻信息和说话者角色,确定所述待角色确定音频的各说话者角色的音频时长。
[0132] 基于确定了说话者角色的人声语句片段的时刻信息,将同一说话者角色的人声语句片段的时长进行相加,即可得到不同说话者角色的音频时长。
[0133] 当然,除了确定各说话者角色的音频时长,基于确定了说话者角色的人声语句片段的时刻信息,还可以确定不同说话者的说话次数。
[0134] 为了进一步提高对于人声语句片段的说话者角色确定的准确性,本发明实施例还提供一种说话者角色确定方法,请参考图7,图7是本发明实施例所提供的说话者角色确定方法的另一流程示意图。
[0135] 如图中所示,本发明实施例所提供的说话者角色确定方法包括:
[0136] 步骤S20:获取待角色确定音频的各人声语句片段。
[0137] 步骤S20的具体内容请参考图1所示的步骤S10,在此不再赘述。
[0138] 步骤S21:获取各所述人声语句片段的音色特征和文本特征。
[0139] 步骤S21的具体内容请参考图1所示的步骤S11,在此不再赘述。
[0140] 步骤S22:根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征。
[0141] 步骤S22的具体内容请参考图1所示的步骤S12,在此不再赘述。
[0142] 步骤S23:获取各所述音色文本融合特征的序列信息特征。
[0143] 由于待角色确定音频的各人声语句片段的顺序对于说话者角色的确定也有较大帮助,为此,在得到各个人声语句片段的音色文本融合特征后,还可以进一步获取音色文本融合特征的序列信息特征,从而进一步提高说话者角色确定的准确性。
[0144] 在一种具体实施方式中,为了获取各所述音色文本融合特征的序列信息特征,请参考图8,图8为本发明实施例所提供的说话者角色确定方法的获取序列信息特征步骤的一流程示意图。
[0145] 如图中所示,本发明实施例所提供的说话者角色确定方法的获取序列信息特征步骤可以包括:
[0146] 步骤S230:按照各所述人声语句片段的时刻顺序对各所述音色文本融合特征进行排序。
[0147] 由于序列信息即音色文本融合特征的前后顺序,并且音色文本融合特征的前后顺序即为人声语句片段的前后顺序,因此,为了获取音色文本融合特征的序列信息特征,首先需按照人声语句片段的时刻顺序对各所述音色文本融合特征进行排序。
[0148] 步骤S231:确定当前音色文本融合特征和各前序音色文本融合特征,其中所述前序音色文本融合特征为时刻顺序位于所述当前音色文本融合特征之前的各音色文本融合特征。
[0149] 完成各个音色文本融合特征的排序后,确定各个音色文本融合特征中的一个为当前音色文本融合特征,那么位于当前音色文本融合特征前面的音色文本融合特征即为前序音色文本融合特征,基于当前音色文本融合特征的位置不同,对应的前序音色文本融合特征的数量也会有不同。比如:当当前音色文本融合特征为第三个音色文本融合特征时,前序文本融合特征即为排序为第一的音色文本融合特征和排序为第二的音色文本融合特征。
[0150] 步骤S232:根据所述当前音色文本融合特征和各前序音色文本融合特征,获取所述当前音色文本融合特征的序列信息特征。
[0151] 确定要获取序列信息特征的当前音色文本融合特征,以及与当前音色文本融合特征相对应的各个前序音色文本融合特征后,基于所述当前音色文本融合特征和各前序音色文本融合特征,进一步获取所述当前音色文本融合特征的序列信息特征。
[0152] 具体的,序列信息特征可以包括各个前序音色文本融合特征的信息以及当前音色文本融合特征的信息。
[0153] 在一种具体实施方式中,为了获取序列信息特征,本发明实施例所提供的说话者角色确定方法,可以利用BILSTM(Bi-directional Long Short-Term Memory,双向长短时记忆循环神经)提取前后语序,得到序列信息特征。
[0154] 步骤S233:判断是否完成各所述音色文本融合特征的序列信息特征的获取,若是,执行步骤S234;若否,执行步骤S235。
[0155] 由于一段待角色确定音频的人声语句片段有多个,相应地,音色文本融合特征也有多个,当完成一个音色文本融合特征的序列信息特征的获取,则需判断是否已经完成了全部的音色文本融合特征的序列信息特征的获取,若是,则执行步骤S234,即得到各所述序列信息特征;若否,则执行步骤S235。
[0156] 步骤S234:得到各所述序列信息特征。
[0157] 步骤S235:更换所述当前音色文本融合特征,确定与更换后的所述当前音色文本融合特征对应的各前序音色文本融合特征,并执行步骤S232。
[0158] 如果未完成全部音色文本融合特征的序列信息特征的获取,那么更换当前的音色文本融合,进而确定与更换后的所述当前音色文本融合特征对应的各前序音色文本融合特征,执行步骤S232,获取更换后的当前音色文本融合特征的序列信息特征。
[0159] 当然,在一种具体实施方式中,为了简化当前音色文本融合特征的更换,可以按照时刻顺序依次获取当前音色文本融合特征。
[0160] 当然,为了获取各个音色文本融合特征的序列信息特征,除了通过循环的方式获取,也可以通过并行的方式,同时根据各所述音色文本融合特征和与各个音色文本融合特征对应的各个前序音色文本融合特征,进而获取各个所述音色文本融合特征的序列信息特征。
[0161] 步骤S24:将所述序列信息特征与所述音色文本融合特征进行融合,得到序列融合特征。
[0162] 得到全部的序列信息特征后,再将各序列信息特征与各音色文本融合特征进行融合,进而得到各序列融合特征。
[0163] 步骤S25:利用角色确定模型根据各所述序列融合特征确定各所述人声语句片段的说话者角色。
[0164] 角色确定模型则基于融合了序列信息特征和音色文本融合特征的序列融合特征,确定各所述人声语句片段的说话者角色。
[0165] 这样,本发明实施例所提供的说话者角色确定方法,在进行各个人声语句片段的说话者角色确定时,不仅融合了各个人声语句片段的音色特征和文本特征,而且融合了人声语句片段的序列信息特征,利用人声语句片段的前后语句信息,辅助各个人声语句片段的说话的确定,进一步提高了对各个人声语句片段的说话者角色确定的准确性。
[0166] 当然,在得到各个人声语句片段的说话者角色后,也可以进一步确定待角色确定音频的不同说话者的说话时长和次数,在此不再赘述。
[0167] 下面对本发明实施例提供的说话者角色确定装置进行介绍,下文描述的说话者角色确定装置可以认为是,电子设备(如:PC)为分别实现本发明实施例提供的说话者角色确定方法所需设置的功能模块架构。下文描述的说话者角色确定装置的内容,可分别与上文描述的说话者角色确定方法的内容相互对应参照。
[0168] 图9是本发明实施例所提供的说话者角色确定装置的一框图,该说话者角色确定装置即可应用于客户端,也可应用于服务器端,参考图9,该说话者角色确定装置可以包括:
[0169] 人声语句片段获取单元100,适于获取待角色确定音频的各人声语句片段;
[0170] 音色特征和文本特征获取单元110,适于获取各所述人声语句片段的音色特征和文本特征;
[0171] 音色文本融合特征获取单元120,适于根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征;
[0172] 说话者角色确定单元130,适于利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0173] 为了确定说话者角色,人声语句片段获取单元100首先需要获取音频,即待角色确定音频,当然,待角色确定音频既可以来自于原始的音频数据,也可以来自于原始的视频数据;并且待角色确定音频的时间长短可以基于需要有所不同,比如:当待角色确定音频来自于课堂教学,则可能为一节课的时长或者几节课的时长;当待角色确定音频来自于其他场景,待角色确定音频的时长则可能为其他时间。
[0174] 获取待角色确定音频后,人声语句片段获取单元100再基于待角色确定音频获取人声语句片段。
[0175] 需要说明的是,本文所述的人声语句片段是指包含了人声语句的片段,不仅包括仅包含一个说话者语句的人声片段,也可以包含多个说话者语句的人声片段,当然,为了使确定的人声语句片段的说话者角色具有较高的准确性,优选一个人声语句片段中仅包含一个说话者语句的人声片段。
[0176] 为了获取人声语句片段,人声语句片段获取单元100,适于获取待角色确定音频的各人声语句片段可以包括:
[0177] 获取待角色确定音频的各人声帧片段;
[0178] 根据各所述人声帧片段的时刻和相邻时刻的所述人声帧片段间的时间间隔,获取满足预定的时间间隔阈值的相邻所述人声帧片段,并将满足预定的时间间隔阈值的相邻所述人声帧片段进行拼接,得到各所述人声语句片段。
[0179] 人声语句片段获取单元100获取到待角色确定音频后,基于待角色确定音频获取人声帧片段。需要说明的是,本文所述的人声帧片段即为以帧(一般为25ms)为单位切分得到的人声片段。
[0180] 当然,可以通过人声活动检测技术(VAD),将整个待角色确定音频中的时刻标记出来,以便进行人声帧片段的切割。
[0181] 具体地,待角色确定音频以频谱图的方式表示,利用滑窗进行切割,得到帧片段,然后根据各个帧片段的频谱图,获取语言信号特征,包括:帧片段频谱图的最大值、平均值、方差等等,基于语言信号特征,进一步判断各个帧片段是否为人声片段。
[0182] 在一种具体实施方式中,可以利用时延全链接神经网络,判断各个帧片段是否为人声帧片段,比如:当利用时延全链接神经网络对帧片段进行预测后,输出为1时,可以确定被判断的帧片段为人声帧片段,从而将非人声片段(比如:空白片段、噪声片段等)去除。
[0183] 得到人声帧片段,人声语句片段获取单元100根据人声帧片段的时刻,以及相邻时刻的两人声帧片段之间的时间间隔,对满足预定的时间间隔阈值的相邻的人声帧片段进行拼接,即将满足预定的时间间隔阈值的相邻的人声帧片段作为一个片段,组成一段人声语句片段。
[0184] 在一种具体实施方式中,满足预定的时间间隔阈值可以为小于或等于预定的时间间隔阈值,在另一种具体实施方式中,满足预定的时间间隔阈值可以为小于预定的时间间隔阈值。
[0185] 比如,当预定的时间间隔阈值为100ms,则将相邻时刻的两所述人声帧片段间的时间间隔小于或等于100ms的两段人声帧片段拼接为一段人声语句片段。
[0186] 可以理解的是,在进行判断和拼接时,可以按照时刻的前后顺序,依次判断第一人声帧片段与第二人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将第一人声帧片段与第二人声帧片段进行拼接,然后再判断第二人声帧片段与第三人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将已经拼接的人声片段再与第三人声帧片段进行拼接,…,依次执行判断和拼接,直至相邻的人声帧片段间的时间间隔不满足预定的时间间隔阈值,然后再进行后续的判断和拼接。
[0187] 当然,在其他实施方式中,也可以首先将各个相邻的两个人声帧片段之间的时间间隔是否满足预定的时间间隔阈值,若满足,则将满足的多个人声帧片段进行拼接,比如:经判断,若第一人声帧片段与第二人声帧片段之间的时间间隔满足预定的时间间隔阈值,第二人声帧片段与第三人声帧片段之间的时间间隔满足预定的时间间隔阈值,且第三人声帧片段和第四人声帧片段之间的时间间隔也满足预定的时间间隔阈值,而第四人声帧片段和第五人声帧片段之间的时间间隔不满足预定的时间间隔阈值时,则将第一人声帧片段、第二人声帧片段、第三人声帧片段和第四人声帧片段进行拼接,得到一个人声语句片段。
[0188] 当完成全部的人声帧片段中,相邻的人声帧片段之间的时间间隔的片段,和相邻的人声帧片段的拼接后,得到各个人声语句片段。
[0189] 通过上述方式获取人声语句片段,不仅可以将非人声片段出除,而且可以将通过设置时间间隔阈值,确定各个人声语句片段的质量,使得各个人声语句片段尽可能地只包含一个说话者的音频,或者只包含同时说话的多个说话者的音频,为后续说话者角色的确定做好准备,提高说话者角色确定的准确性。
[0190] 时间间隔阈值过小,会造成同一个说话的同一语句被分成多个人声语句片段,从而造成一个语句人声片段中的文本信息不完整,影响说话者角色确定的准确性;时间间隔阈值过大,又会造成不同的说话者的语句被分到一个人声语句片段中,也会影响说话者角色确定的准确性,而经大量研究发现,不同说话者之间进行对话时,变换说话者时的时间间隔的范围通常在100ms-500ms,为此,在一种具体实施方式中,可以将所述时间间隔阈值的范围定为100ms-500ms,比如:200ms、300ms、350ms、420ms等等。
[0191] 得到各所述人声语句片段后,音色特征和文本特征获取单元110进一步获取各个人声语句片段的音色特征和文本特征。
[0192] 在一种具体实施方式中,可以利用声纹特征提取器获取各所述人声语句片段的音色特征。
[0193] 声纹特征提取器首先从获取的人声语句片段的音频信号中提取特征,进而通过包括3层LSTM(Long Short-Term Memory)神经网络进行音色特征的提取,得到能够代表说话者音色特征的音色特征。
[0194] 当然为了提高音色特征提取的准确性,在一种具体实施方式中,LSTM神经网络可以通过general end to end loss(GE2E)损失函数进行训练。
[0195] 除了获取音色特征,音色特征和文本特征获取单元110还需获取各个人声语句片段的文本特征。
[0196] 在一种具体实施方式中,为了获取文本特征,可以首先利用语音识别模型获取各所述人声语句片段的文本,即将各个人声语句片段的音频送入语音识别模型,从而可以得到每个人声语句片段的文本。
[0197] 然后,对各所述文本进行文本特征编码,获取各所述文本特征。
[0198] 在对各文本进行文本特征编码时,首先对文本进行分词,然后将分词后的文本输入已训练的文本特征编码(word 2vec)模型,经过池化后,得到的文本特征。
[0199] 比如:将一个人声语句片段输入语音识别模型,得到“同学,上课了,今天我们把上次讲的内容复习一遍吧”,然后经过分词,得到“同学/上课/了/今天/我们/把/上次/讲/的/内容/复习/一遍/吧”,再讲分词后的文本输入文本特征编码(word 2vec)模型,再经过池化,即可得到人声语句片段的文本特征。
[0200] 得到待角色确定音频的各个人声语句片段的音色特征和文本特征后,音色文本融合特征获取单元120进一步对音色特征和文本特征进行融合,得到音色文本融合特征。
[0201] 在一种具体实施方式中,为了充分利用待角色确定音频的各个人声语句片段的音色特征和文本特征,以保证角色确定的准确性,音色文本融合特征获取单元120,适于根据所述音色特征和所述文本特征获取各所述人声语句片段的音色文本融合特征可以包括:
[0202] 确定当前人声语句片段以及与所述当前人声语句片段相对应的各非当前人声语句片段,其中,各所述非当前人声语句片段为所述待角色确定音频的各所述人声语句片段中,除所述当前人声语句片段以外的各个所述人声语句片段;
[0203] 获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度,得到相似度特征向量;
[0204] 将所述相似度特征向量与各所述非当前人声语句片段的文本特征进行融合,得到所述当前人声语句片段的音色相似文本融合特征;
[0205] 将所述当前人声语句片段的文本特征与所述音色相似文本融合特征进行融合,得到所述当前人声语句片段的音色文本融合特征,并更换当前人声语句片段并确定与更换后的当前人声语句片段对应的非当前人声语句片段,直至完成各所述人声语句片段的音色文本融合特征的获取,得到各音色文本融合特征。针对一段待角色确定音频可以拆分成多个人声语句片段,因此,在进行说话者角色确定时,需确定各个人声语句片段的说话者角色,为此首先确定当前需要确认说话者角色的人声语句片段,即当前人声语句片段。
[0206] 确定了当前当人声语句片段,那么也就确定了与当前人声语句片段相对应的各个非当前人声语句片段,即所述待角色确定音频的各所述人声语句片段中,除所述当前人声语句片段以外的各个所述人声语句片段。
[0207] 比如:如果基于一段待角色确定音频得到10段人声语句片段,那么当确定其中一个(比如第2个)为当前人声语句片段时,另外的9个(第1个,第3个-第10个)则为非当前人声语句片段。
[0208] 确定当前人声语句片段和与所述当前人声语句片段相对应的各非当前人声语句片段后,进一步获取各个非当前人声语句片段的音色特征与当前人声语句片段的音色特征的相似度。
[0209] 在一种具体实施方式中,为了获取相似度,并且提高获取相似度后的运算效率,可以首先获取所述当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度值;然后将各所述相似度值进行归一化,得到各所述相似度。
[0210] 结合前述案例,比如:当10段人声语句片段中确定其中一个,比如第2个为当前人声语句片段,另外的第1个以及第3个-第10个为非当前人声语句片段时,获取第2个人声语句片段分别与第1个以及第3个-第10个人声语句片段的相似度,即9个相似度,从而将9个相似度组成向量,得到相似度特征向量,可知,所得到的相似度特征向量为1×9的向量。
[0211] 容易理解的是,相似度是基于当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征获取的,以反应非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,从而确定非当前人声语句片段中的哪些与当前人声语句片段的说话者为同一角色,如果相似程度高,那么该非当前人声语句片段会在后续为当前人声语句片段的说话者角色的确定提供更多的文本信息;如果相似程度低,那么该非当前人声语句片段会在后续为当前人声语句片段的说话者角色的确定提供较少的文本信息,而不仅仅只参考当前人声语句片段的文本信息。
[0212] 得到相似度特征向量,进一步利用相似度特征向量与各非当前人声语句片段的文本特征进行融合,进而得到所述当前人声语句片段的音色相似文本融合特征。
[0213] 在一种具体实施方式中,可以将相似度特征向量与各非当前人声语句片段的文本特征组成的矩阵做矩阵乘法,具体地:
[0214] 结合前述案例,比如:相似度特征向量为1×9的向量,而各个非当前人声语句片段的文本特征分别为1×200的向量,将各个非当前人声语句片段的文本特征进行排列得到9×200的矩阵,当然,各个非当前人声语句片段的文本特征的排列顺序,应与相似度特征向量中的各个相似度所对应的非当前人声语句片段的排列顺序相同,然后将相似度特征向量与矩阵相乘,得到1×200的音色相似文本融合特征。
[0215] 可以理解的是,由于相似度特征向量中的各个相似度是反映了非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,当将其与各个非当前人声语句片段的文本特征进行融合时,所得到的音色相似文本融合特征可以提高音色相似程度高的非当前人声语句片段的文本特征的影响程度,并降低音色相似程度低的非当前人声语句片段的文本特征的影响程度,为提高当前人声语句片段的说话者角色确定的准确性做好准备。
[0216] 得到当前人声语句片段的音色相似文本融合特征后,再将当前人声语句片段的音色相似文本融合特征与其文本特征进行融合,进而得到所述当前人声语句片段的音色文本融合特征。
[0217] 在一种具体实施方式中,可以将音色相似文本融合特征与文本特征进行左右拼接,得到音色文本融合特征。
[0218] 由于一段待角色确定音频可以拆分成多个人声语句片段,因此在获取完一个人声语句片段的音色文本融合特征后,进一步判断是否全部的人声语句片段的音色文本融合特征均已获取,如果是,则得到各个音色文本融合特征,否则,更换当前人声语句片段并确定与更换后的当前人声语句片段对应的非当前人声语句片段,进而以更换后的当前人声语句片段再次获取音色文本融合特征。
[0219] 在另一种具体实施方式中,为了保证较快的处理速度,也可以同时获取与各个人声语句片段对应的相似度向量,进而获取音色相似文本融合特征和音色文本融合特征,具体相似度向量、音色相似文本融合特征和音色文本融合特征的获取方法,请参考前述论述,在此不再赘述。
[0220] 可以看出,本发明实施例所提供的说话者角色确定装置,在进行音色文本融合特征的获取时,利用了音色相似文本融合特征,而音色相似文本融合特征是利用当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征的各相似度所构成的相似度特征向量,与各所述非当前人声语句片段的文本特征进行融合得到的,而相似度向量是基于当前人声语句片段的音色特征与各所述非当前人声语句片段的音色特征获取的,可以反映非当前人声语句片段的音色与当前人声语句片段的音色的相似程度,从而确定非当前人声语句片段中的哪些与当前人声语句片段的说话者为同一角色,当将其与各个非当前人声语句片段的文本特征进行融合时,所得到的音色相似文本融合特征可以提高音色相似程度高的非当前人声语句片段的文本特征的影响程度,并降低音色相似程度低的非当前人声语句片段的文本特征的影响程度,提高当前人声语句片段的说话者角色确定的准确性。
[0221] 得到各个音色文本融合特征后,说话者角色确定单元130再利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色。
[0222] 当然,角色确定模型所确定的说话者角色与角色确定模型在训练时所输出的角色相一致。
[0223] 比如:当待角色确定音频为教师上课音频,则所确定的说话者角色可以为老师或学生;当待角色确定音频为电话客服音频,用则所确定的说话者角色可以为客户或者客服。当然,所确定的角色也可以不止两个。
[0224] 并且在进行角色确定模型的训练时,为了提高训练后的模型的准确性,在一种具体实施方式中,所述角色确定模型通过以下损失函数确定训练损失:
[0225]
[0226] 其中,L-角色确定模型损失;
[0227] Lc—交叉熵函数模型损失;
[0228] Rα—音色相似度模型损失;
[0229] β--音色相似度模型损失权重。
[0230] 这样,角色确定模型损失L按照权重结合了交叉熵函数模型损失Lc和音色相似度模型损失Rα,这是由于,经过大量研究发现如果只对具有相似音色(即具有很高的音色特征的相似度)的人声语句片段的文本特征进行融合,角色确定模型的性能能够达到最优,即当音色相似度模型损失Rα的数值为0时,交叉熵函数模型损失Lc也应当最小,进而角色确定模型损失L也最小,角色确定模型的训练结果达到最优。
[0231] 具体地,所述音色相似度模型损失通过以下损失函数获取:
[0232]
[0233] 其中,Rα—音色相似度模型损失;
[0234] i—第i个人声语句片段;
[0235] j—第j个人声语句片段;
[0236] yi--第i个人声语句片段的真实说话者角色;
[0237] yj--第j个人声语句片段的真实说话者角色;
[0238] αij--第i个人声语句片段的音色特征与第i个人声语句片段的音色特征的相似度。
[0239] 所述交叉熵函数模型损失通过以下损失函数获取:
[0240]
[0241] 其中:Lc—交叉熵函数模型损失;
[0242] i—第i个人声语句片段;
[0243] yi--第i个人声语句片段的真实说话者角色;
[0244] pi--第i个人声语句片段的预测说话者角色。
[0245] 可以看出,本发明实施例所提供的说话者角色确定方法在进行说话者角色的确定时,由于同时利用了根据各人声语句片段获取的音色特征和文本特征,当各个人声语句片段中的至少一个的文本特征具有明确的说话者角色指示时,可以利用音色特征与文本特征的融合,将音色特征相似度高的不同人声语句片段的说话者确定为同一角色,进而可以利用具有明确的说话者角色指示的人声语句片段的文本特征,提高说话者角色指示不明显的人声语句片段的角色确定的准确性,从而可以通过两种信息共同确定说话者角色,不仅可以将待角色确定音频中的不同人声语句片段的说话者进行区分,实现话者分离,而且可以确定不同的说话者角色,提高角色确定的准确性,并且由于可以直接确定说话者角色,可以为进一步进行不同角色的说话者说话次数和说话时长的统计提供基础,进而满足对待角色确定音频的评价。
[0246] 在另一种具体实施方式中,为了实现统计在待角色确定音频中不同说话者的说话时长,本发明实施例所提供的说话者角色确定装置,在当确定各所述人声语句片段的说话者角色后,还可以包括:
[0247] 说话者角色的音频时长确定单元140,适于根据各所述人声语句片段的时刻信息和说话者角色,确定所述待角色确定音频的各说话者角色的音频时长。
[0248] 基于确定了说话者角色的人声语句片段的时刻信息,将同一说话者角色的人声语句片段的时长进行相加,即可得到不同说话者角色的音频时长。
[0249] 当然,除了确定各说话者角色的音频时长,基于确定了说话者角色的人声语句片段的时刻信息,还可以确定不同说话者的说话次数。
[0250] 为了进一步提高对于人声语句片段的说话者角色确定的准确性,本发明实施例还提供一种说话者角色确定装置,还包括:
[0251] 序列信息特征获取单元150,适于获取各所述音色文本融合特征的序列信息特征;
[0252] 序列融合特征获取单元160,适于将所述序列信息特征与所述音色文本融合特征进行融合,得到序列融合特征;
[0253] 而说话者角色确定单元130,适于利用角色确定模型根据各所述音色文本融合特征确定各所述人声语句片段的说话者角色包括:
[0254] 利用角色确定模型根据各所述序列融合特征确定各所述人声语句片段的说话者角色。
[0255] 由于待角色确定音频的各人声语句片段的顺序对于说话者角色的确定也有较大帮助,为此,在得到各个人声语句片段的音色文本融合特征后,还可以通过序列信息特征获取单元150进一步获取音色文本融合特征的序列信息特征,从而进一步提高说话者角色确定的准确性。
[0256] 具体地,可以包括:
[0257] 按照各所述人声语句片段的时刻顺序对各所述音色文本融合特征进行排序;
[0258] 确定当前音色文本融合特征和各前序音色文本融合特征,其中所述前序音色文本融合特征为时刻顺序位于所述当前音色文本融合特征之前的各音色文本融合特征;
[0259] 根据所述当前音色文本融合特征和各前序音色文本融合特征,获取所述当前音色文本融合特征的序列信息特征,并更换所述当前音色文本融合特征,确定与更换后的所述当前音色文本融合特征对应的各前序音色文本融合特征,直至完成各所述音色文本融合特征的序列信息特征的获取,得到各所述序列信息特征。
[0260] 由于序列信息即音色文本融合特征的前后顺序,并且音色文本融合特征的前后顺序即为人声语句片段的前后顺序,因此,为了获取音色文本融合特征的序列信息特征,首先需按照人声语句片段的时刻顺序对各所述音色文本融合特征进行排序。
[0261] 完成各个音色文本融合特征的排序后,确定各个音色文本融合特征中的一个为当前音色文本融合特征,那么位于当前音色文本融合特征前面的音色文本融合特征即为前序音色文本融合特征,基于当前音色文本融合特征的位置不同,对应的前序音色文本融合特征的数量也会有不同。比如:当当前音色文本融合特征为第三个音色文本融合特征时,前序文本融合特征即为排序为第一的音色文本融合特征和排序为第二的音色文本融合特征。
[0262] 确定要获取序列信息特征的当前音色文本融合特征,以及与当前音色文本融合特征相对应的各个前序音色文本融合特征后,基于所述当前音色文本融合特征和各前序音色文本融合特征,进一步获取所述当前音色文本融合特征的序列信息特征。
[0263] 具体的,序列信息特征可以包括各个前序音色文本融合特征的信息以及当前音色文本融合特征的信息。
[0264] 在一种具体实施方式中,为了获取序列信息特征,本发明实施例所提供的说话者角色确定方法,可以利用BILSTM(Bi-directional Long Short-Term Memory,双向长短时记忆循环神经)提取前后语序,得到序列信息特征。
[0265] 由于一段待角色确定音频的人声语句片段有多个,相应地,音色文本融合特征也有多个,当完成一个音色文本融合特征的序列信息特征的获取,则需判断是否已经完成了全部的音色文本融合特征的序列信息特征的获取,若是,则得到各所述序列信息特征;若否,则更换所述当前音色文本融合特征,确定与更换后的所述当前音色文本融合特征对应的各前序音色文本融合特征,并获取更换后的当前音色文本融合特征的序列信息特征。
[0266] 当然,在一种具体实施方式中,为了简化当前音色文本融合特征的更换,可以按照时刻顺序依次获取当前音色文本融合特征。
[0267] 当然,为了获取各个音色文本融合特征的序列信息特征,除了通过循环的方式获取,也可以通过并行的方式,同时根据各所述音色文本融合特征和与各个音色文本融合特征对应的各个前序音色文本融合特征,进而获取各个所述音色文本融合特征的序列信息特征。
[0268] 得到全部的序列信息特征后,序列融合特征获取单元160再将各序列信息特征与各音色文本融合特征进行融合,进而得到各序列融合特征。
[0269] 说话者角色确定单元130则利用角色确定模型根据各所述序列融合特征确定各所述人声语句片段的说话者角色。
[0270] 这样,本发明实施例所提供的说话者角色确定装置,在进行各个人声语句片段的说话者角色确定时,不仅融合了各个人声语句片段的音色特征和文本特征,而且融合了人声语句片段的序列信息特征,利用人声语句片段的前后语句信息,辅助各个人声语句片段的说话的确定,进一步提高了对各个人声语句片段的说话者角色确定的准确性。
[0271] 当然,在得到各个人声语句片段的说话者角色后,也可以进一步确定待角色确定音频的不同说话者的说话时长和次数,在此不再赘述。
[0272] 当然,本发明实施例还提供一种设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的说话者角色确定方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。
[0273] 可选的,图9示出了本发明实施例提供的设备一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的说话者角色确定方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。
[0274] 作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的说话者角色确定方法。
[0275] 本发明实施例中,电子设备可以是能够进行情感识别的平板电脑、笔记本电脑等设备。
[0276] 在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图9所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
[0277] 可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
[0278] 处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
[0279] 存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0280] 需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
[0281] 本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述说话者角色确定方法。
[0282] 本发明实施例所提供的存储介质所存储的计算机可执行指令,可以看出,本发明实施例所提供的说话者角色确定方法在进行说话者角色的确定时,由于同时利用了根据各人声语句片段获取的音色特征和文本特征,当各个人声语句片段中的至少一个的文本特征具有明确的说话者角色指示时,可以利用音色特征与文本特征的融合,将音色特征相似度高的不同人声语句片段的说话者确定为同一角色,进而可以利用具有明确的说话者角色指示的人声语句片段的文本特征,提高说话者角色指示不明显的人声语句片段的角色确定的准确性,从而可以通过两种信息共同确定说话者角色,不仅可以将待角色确定音频中的不同人声语句片段的说话者进行区分,实现话者分离,而且可以确定不同的说话者角色,提高角色确定的准确性,并且由于可以直接确定说话者角色,可以为进一步进行不同角色的说话者说话次数和说话时长的统计提供基础,进而满足对待角色确定音频的评价。
[0283] 上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
[0284] 本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
[0285] 在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
[0286] 对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0287] 虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。