声纹模型训练方法、语音识别方法、装置、设备及介质转让专利

申请号 : CN201710811983.0

文献号 : CN107680600B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王健宗郭卉肖京

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明公开一种声纹模型训练方法、语音识别方法、装置、设备及介质。该声学模型训练方法包括:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。该声纹模型训练方法克服了某些业务场景无法获得单人多通语音数据的问题,并保证目标概率线性判别分析模型的识别效果。

权利要求 :

1.一种声纹模型训练方法,其特征在于,包括:

采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;

采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;

基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;

基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。

2.根据权利要求1所述的声纹模型训练方法,其特征在于,所述采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,包括:获取至少两个业务场景下的训练语音数据;

将所述至少两个业务场景下的训练语音数据等比例混合,获取混合语音数据;

基于所述混合语音数据进行通用背景模型训练,获取通用背景模型。

3.根据权利要求1所述的声纹模型训练方法,其特征在于,所述采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征,包括:基于通用背景模型对域内语音数据进行分解,获取所述通用背景模型的域内均值和域内协方差矩阵,将所述通用背景模型的域内均值和域内协方差矩阵转换成所述域内声纹特征;

基于通用背景模型对域外语音数据进行分解,获取所述通用背景模型的域外均值和域外协方差矩阵,将所述通用背景模型的域外均值和域外协方差矩阵转换成所述域外声纹特征。

4.根据权利要求3所述的声纹模型训练方法,其特征在于,所述基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型,包括:初始化所述概率线性判别分析模型的参数空间;所述概率线性判别分析模型的参数空间表示为H={μ,F,G,ε},其中,μ表示均值,F表示类间方差、G表示类内方差,ε表示噪声协方差矩阵;

对所述域外概率线性判别分析模型的类内方差进行归一化处理,获取中间概率线性判别分析模型,并获取所述中间概率线性判别分析模型的参数空间;

基于所述中间概率线性判别分析模型的参数空间,采用最大期望算法对携带同一用户标识的至少两个所述域外声纹特征在所述中间概率线性判别分析模型中进行迭代运算,生成最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差;

基于所述特征转换矩阵和所述类间方差,根据似然概率更新所述中间概率线性判别分析模型的参数空间,获取所述域外概率线性判别分析模型;

所述似然概率的表达式为 其中,utest表示测试录音的声纹特征,表示说话人n条训练录音的声纹特征; 表示训练录音声纹特征均值;

P(utest)=N(utest|0,I+Ψ);n表示说话人的第n条训练录音,I表示类内方差归一化后的单位矩阵,Ψ表示类间方差;所述的表达式表示服从均值为 方差为 的正态分布;所述P(utest)的表达式表示服从均值为0,方差为I+Ψ的正态分布。

5.根据权利要求3所述的声纹模型训练方法,其特征在于,所述基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型,包括:在有限步迭代下,将所述域内声纹特征的域内均值和域内协方差矩阵加权到所述域外概率线性判别分析模型的参数空间的均值和协方差矩阵上,获取目标概率线性判别分析模型。

6.一种语音识别方法,其特征在于,包括:

采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;

基于所述用户标注获取对应的注册声纹特征;

采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率;所述目标概率线性判别分析模型是采用权利要求1-5任一项所述声纹模型训练方法获取到的;

判断所述似然概率是否大于预设概率;

若所述似然概率大于所述预设概率,则确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。

7.一种声纹模型训练装置,其特征在于,包括:

通用背景模型获取模块,用于采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;

声纹特征获取模块,用于采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;

域外模型获取模块,用于基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;

目标模型获取模块,用于基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。

8.一种语音识别装置,其特征在于,包括:

待测声纹特征获取模块,用于采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;

注册声纹获取模块,用于基于所述用户标注获取对应的注册声纹特征;

似然概率获取模块,用于采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率,所述目标概率线性判别分析模型是采用权利要求

1-5任一项所述声纹模型训练方法获取到的;

概率大小判断模块,用于判断所述似然概率是否大于预设概率;

识别结果获取模块,用于在所述似然概率大于所述预设概率时,确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。

9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现如权利要求6所述语音识别方法的步骤。

说明书 :

声纹模型训练方法、语音识别方法、装置、设备及介质

技术领域

[0001] 本发明涉及生物识别领域,尤其涉及一种声纹模型训练方法、语音识别方法、装置、设备及介质。

背景技术

[0002] 声纹识别,也称为说话人识别,是生物识别技术的一种。声纹识别包括说话人辨认和说话人确认两种类型的声纹识别技术,可根据应用场景的不同采用不同类型的声纹识别技术,如在缩小刑侦范围这一应用场景中需采用说话人辨认技术,而在银行交易确定这一应用场景中则需采用说明人确认技术。所谓声纹是用电声学仪器显示的携带言语信息的声波频谱。讲话时,每个人的发声器官的尺寸和形态与其他人存在较大差异,使得每个人说话时的声纹图谱与其他人的声纹图谱有较大差异,以便基于声纹图谱识别说话人。
[0003] 当前银行、证券、投资和保险等金融机构在办理业务时,需对用户的身份进行识别,以保证业务安全。在自助服务或其他业务办理过程中,可采用声纹识别这一种生物识别技术对用户的身份进行识别,以提高用户身份识别的效率。采用声纹识别技术对用户身份进行识别时,需采用预先训练好的声纹识别模型对用户的说话录音进行识别,以确定识别用户身份的目的。当前采用概率线性判别分析模型对单人多通录音进行分析,以获取训练好的声纹识别模型,这种声纹识别模型训练方式受限于应用领域数据量不足,无法对声纹信息进行较好的数据处理,使得利用该声纹识别模型进行语音识别时,存在识别效果差的不足。

发明内容

[0004] 本发明实施例提供一种声纹模型训练方法、装置、设备及介质,以解决声纹识别模型训练时数据量不足的问题。
[0005] 本发明实施例还提供一种语音识别方法、装置、设备及介质,以解决当前语音识别效果差的问题。
[0006] 第一方面,本发明实施例提供一种声纹模型训练方法,包括:
[0007] 采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;
[0008] 采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;
[0009] 基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;
[0010] 基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。
[0011] 第二方面,本发明实施例提供一种声纹模型训练装置,包括:
[0012] 通用背景模型获取模块,用于采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;
[0013] 声纹特征获取模块,用于采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;
[0014] 域外模型获取模块,用于基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;
[0015] 目标模型获取模块,用于基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。
[0016] 第三方面,本发明实施例提供一种语音识别方法,包括:
[0017] 采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;
[0018] 基于所述用户标注获取对应的注册声纹特征;
[0019] 采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率;所述目标概率线性判别分析模型是采用所述声纹模型训练方法获取到的;
[0020] 判断所述似然概率是否大于预设概率;
[0021] 若所述似然概率大于所述预设概率,则确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。
[0022] 第四方面,本发明实施例提供一种语音识别装置,包括:
[0023] 待测声纹特征获取模块,用于采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;
[0024] 注册声纹获取模块,用于基于所述用户标注获取对应的注册声纹特征;
[0025] 似然概率获取模块,用于采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率,所述目标概率线性判别分析模型是采用所述声纹模型训练方法获取到的;
[0026] 概率大小判断模块,用于判断所述似然概率是否大于预设概率;
[0027] 识别结果获取模块,用于在所述似然概率大于所述预设概率时,确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。
[0028] 第五方面,本发明实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。
[0029] 第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。
[0030] 本发明实施例所提供的声纹模型训练方法、装置、设备及介质中,通过采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,通用背景模型可应用在多个业务场景下,有利于声纹模型在多业务中的拓展。再采用通用背景模型对域外语音数据进行特征提取,利用获取的域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型。该域外概率线性判别分析模型可基于足够数量的域外语音数据进行处理,以保证训练获取的域外概率线性判别分析模型的识别效果。最后,再采用通用背景模型对域内语音数据进行特征提取,利用获取的域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型,以使目标概率线性判别分析模型可应用在域内语音数据对应的至少两个业务场景,并保证了目标概率线性判别分析模型的识别效果。
[0031] 本发明实施例所提供的语音识别方法、装置、设备及介质中,通过采用携带用户标注的待测声纹特征与用户注册声纹特征在目标概率线性判别分析模型中进行处理,获取似然概率,通过似然概率与预设概率的大小判断是否对应同一说话人,使得语音识别过程具有效率快和准确率高的优点。

附图说明

[0032] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0033] 图1是本发明实施例1中声纹模型训练方法的一流程图。
[0034] 图2是图1中步骤S11的一具体流程图。
[0035] 图3是图1中步骤S12的一具体流程图。
[0036] 图4是图1中步骤S13的一具体流程图。
[0037] 图5是本发明实施例2中声纹模型训练装置的一原理框图。
[0038] 图6是本发明实施例3中语音识别方法的一流程图。
[0039] 图7是图6中步骤S23的一具体流程图。
[0040] 图8是本发明实施例4中语音识别装置的一原理框图。
[0041] 图9是本发明实施例6中终端设备的一示意图。

具体实施方式

[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043] 实施例1
[0044] 图1示出本实施例中的声纹模型训练方法的一流程图。该声纹模型训练方法可应用在银行、证券、投资和保险等金融机构或者需进行声纹识别的其他机构的终端设备上,以便利用训练好的目标声纹模型进行声纹识别,达到人工智能目的。如图1所示,该声纹模型训练方法包括如下步骤:
[0045] S11:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型。
[0046] 其中,业务场景是指银行、证券、投资和保险等金融机构或其他机构在办理相应业务的场景。业务场景下的训练语音数据是指在相应的业务场景下采集到的用于训练声纹模型的语音数据。该训练语音数据可以是终端设备上集成的录音模块或与终端设备相连的录音设备在业务办理过程中对客户进行录音所采集的录音数据。通用背景模型(Universal Background Model,以下简称UBM)是一个表示大量非特定说话人语音特征分布的高斯混合模型(Gaussian Mixture Model,以下简称GMM),由于UBM的训练通常采用大量的与特定说话人无关、信道无关的语音数据,因此通常可以认为UBM是与特定说话人无关的模型,它只是拟合人的语音特征分布,而并不代表某个具体的说话人。高斯混合模型就是用高斯概率密度函数(即正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(即正态分布曲线)形成的模型。
[0047] 本实施例中,UBM训练过程具体包括对至少两个业务场景下的训练语音数据进行GMM建模,提取每条训练语音数据的GMM均值和方差,基于提取的每条训练语音数据的GMM均值和方差建立高斯分布模型,再将每个高斯分布模型线性加成组成GMM的概率密度函数,然后基于最大似然法确定GMM的概率密度函数的参数。具体地,该最大似然法确定GMM的概率密度函数的参数通过最大期望算法来实现。该GMM的概率密度函数的参数包括加权系数、第k个高斯分布模型的均值,第k个高斯分布模型的方差。通过上述GMM建模方法进行UBM训练,使得获取的UBM涵盖至少两个业务场景对应的训练语音数据,并能够均衡语音数据间的差异进行训练。其中,最大似然法(Maximum Likelihood,以下简称ML法)也称为最大概似估计,是一种具有理论性的点估计法。ML法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。最大期望算法(Expectation Maximization Algorithm,以下简称EM算法)是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。
[0048] 可以理解地,利用至少两个业务场景下的训练语音数据训练通用背景模型,使得通用背景模型可应用在多个业务场景下,有利于声纹模型在多业务中的拓展。
[0049] 如图2所示,步骤S11中,采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,具体包括如下步骤:
[0050] S111:获取至少两个业务场景下的训练语音数据。
[0051] 本实施例中,终端设备上集成的录音模块或与终端设备相连的录音设备在业务办理过程中分别采集相应业务场景下的语音数据,并将该语音数据发送给终端设备,以使终端设备将接收到的语音数据存储在MySQL、Oracle或者其他数据库中。可以理解地,在将语音数据存储在数据库上时,需使语音数据与对应的业务场景关联存储。具体可使至少两个业务场景对应的场景ID,使场景ID与语音数据关联存储。该场景ID是用于唯一识别业务场景的标识,如可用场景ID为0001表示保险机构中的投保业务场景,用场景ID为0002表示保险机构中的理赔业务场景等。因此,终端设备根据业务需求调用至少两个场景ID对应的语音数据作为训练语音数据,即可获取至少两个业务场景下的训练语音数据。
[0052] S112:将至少两个业务场景下的训练语音数据等比例混合,获取混合语音数据。
[0053] 本实施例中,将至少两个业务场景下的训练语音数据等比例混合是指使每一业务场景下的训练语音数据与其他任一业务场景下的训练语音数据按1:1的比例混合,以使获取的混合语音数据中所有业务场景下的训练语音数据的数量相同,以使利用混合语音数据进行UBM训练,避免因不同业务场景下的训练语音数据数量不相同而出现过拟合现象。其中,为了得到一致假设而使假设变得过度严格称为过拟合,避免过拟合是分类器设计中的一个核心任务。
[0054] S113:基于混合语音数据进行通用背景模型训练,获取通用背景模型。
[0055] 本实施例中,混合语音数据将每个业务场景下的训练语音数据与其他业务场景下的训练语音数据按1:1比例进行数据混合所得到的混合语音数据。在利用混合语音数据进行UBM训练时,由于混合语音数据中所有业务场景下的训练语音数据的数量相同,使得UBM训练所获取的通用背景模型避免出现过拟合现象,使得利用获取的通用背景模型进行特征提取时,提取结果更准确。
[0056] 具体地,在对混合语音数据进行通用背景模型训练的过程具体包括:提取每条训练语音数据的GMM均值和方差,基于提取的每条训练语音数据的GMM均值和方差建立高斯分布模型,将每个高斯分布模型线性加成组成GMM的概率密度函数,基于ML法确定GMM的概率密度函数的参数,其中,该ML法确定GMM的概率密度函数的参数通过EM算法来实现,该GMM的概率密度函数的参数包括加权系数、第k个高斯分布模型的均值,第k个高斯分布模型的方差,通过上述GMM建模方法进行UBM训练,使得获取的UBM涵盖至少两个业务场景对应的训练语音数据,并能够均衡语音数据间的差异进行训练。
[0057] S12:采用通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征。
[0058] 其中,域内语音数据是指无标注的目标语音数据,即在目标业务场景中不能大量获得单人多通可训练的目标域内录音。域外语音数据是指有标注的非目标语音数据,即在非目标业务场景中能获得大量单人多通录音的非目标域外录音,单人多通录音意味着每通录音都需要带用户标注,称为带标志录音。
[0059] 用UBM模型对域内语音数据和域外语音数据分别进行均值和方差的分解,基于分解的均值和方差建立高斯分布模型,将每个高斯分布模型线性加成组成GMM的概率密度函数,以使获取相应的域内声纹特征和域外声纹特征。
[0060] 图3所示,步骤S12中,采用通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征,具体包括如下步骤:
[0061] S121:基于通用背景模型对域内语音数据进行分解,获取通用背景模型的域内均值和域内协方差矩阵,将通用背景模型的域内均值和域内协方差矩阵转换成域内声纹特征。
[0062] 本实施例中,采用通用背景模型对域内语音数据进行特征提取,其中,在通用背景模型的表达式: 可知,其中Ck是第k个混合高斯的系数,N(y;mk,Rk)表示均值mk是D维矢量,D×D维对角协方差矩阵Rk的高斯分布,则域内语音数据可通过通用背景模型获取的域内均值和域内协方差矩阵。本实施例中,将基于通用背景模型的域内均值、域内协方差矩阵转换成域内声纹特征。其中,转换过程包括上述参数外,还有给定的域内语音片段Yi,用(D·K)维低维随机超矢量M(i)描述文本无关的描述说话人差异,则可根据下式M(i)=M0+Tw(i)得到声纹特征向量,其中w(i)是一个F低维随机矢量符合标准的正太分布N(·;0,I),M0表示将mk连接起来的(D·K)维的超矢量,T是(D·K)×F维的描述总体变化的矩阵,根据上述提取声纹特征向量的过程,获取相应的域内声纹特征。
[0063] S122:基于通用背景模型对域外语音数据进行分解,获取通用背景模型的域外均值和域外协方差矩阵,将通用背景模型的域外均值和域外协方差矩阵转换成域外声纹特征。
[0064] 本实施例中,将基于通用背景模型的域外均值、域外协方差矩阵转换成域外声纹特征。其中,转换过程包括上述参数外,还有给定的域外语音片段Yi,用(D·K)维低维随机超矢量M(i)描述文本无关的描述说话人差异,则可根据下式M(i)=M0+Tw(i)得到声纹特征向量,其中w(i)是一个F低维随机矢量符合标准的正太分布N(·;0,I),M0表示将mk连接起来的(D·K)维的超矢量,T是(D·K)×F维的描述总体变化的矩阵,根据上述提取声纹特征向量的过程,获取相应的域外声纹特征。
[0065] S13:基于域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型。
[0066] 其中,概率线性判别分析模型训练需要带标注的单人多通录音进行分析,概率线性判别分析模型训练是针对业务场景下录音的声纹特征向量,采用GMM模型录音的单人多通语料进行均值和方差的分解,把每个人的声纹特征当作一类,采用EM算法生成类间最大化、类内最小化的特征转换矩阵及类间方差。具体来说,假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音;则定义第i个说话人的第j条语音为Xij。然后,根据因子分析,定义Xij的生成模型为:Xij=μ+Fhi+Gwij+εij。等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关,称为信号部分,该信号部分描述了说话人类间的差异。等号右边后两项描述了同一说话人的不同语音之间的差异,此类差异为用户信道模型,也可以称为噪音部分。采用上述两个假想变量来描述一条语音的数据结构,则概率线性判别分析模型的参数空间可初始化表示为:Η={μ,F,G,ε}。采用EM算法先初始化H参数,然后以类间方差和类内方差为限制获得最优参数,该最优参数是指使类间最大化、类内最小化对应的参数。本实施例中,基于域外声纹特征进行概率线性判别分析模型训练指的是,将带标注的非目标语音数据(即域外语音数据)进行特征提取后获取的域外声纹特征进行概率线性判别分析模型训练,获取到的概率线性判别分析模型即是域外概率线性判别分析模型。
[0067] 如图4所示,步骤S13中,基于域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型,具体包括如下步骤:
[0068] S131:初始化概率线性判别分析模型的参数空间;参数空间包括均值、类间方差、类内方差和协方差矩阵。
[0069] 本实施例中,初始化概率线性判别分析模型的参数空间H={μ,F,G,ε},其中,μ表示均值,F表示类间方差、G表示类内方差,ε表示噪声协方差矩阵。具体地,EM算法通过对每个域外语音数据进行有限步迭代进行运算,估计H参数中未知参数的期望值,给出当前的参数估计,再根据陆续输入的域外语音数据重新估计分布参数,以使数据的似然性最大,给出未知参数的期望估计,并重复以上步骤直至收敛,可得到初始化H参数。
[0070] S132:对域外概率线性判别分析模型的类内方差进行归一化处理,获取中间概率线性判别分析模型,并获取中间概率线性判别分析模型的参数空间。
[0071] 本实施例中,根据给定单人多通带标志训练录音,假设每个人的声纹特征为一类,则可以直接计算所有录音的类间方差和类内方差;为了方便计算,将类内方差预先归一化到单位矩阵I,则类间方差可以用Ψ表示,从而获取中间概率线性判别分析模型,并获取中间概率线性判别分析模型的参数空间。域外概率线性判别模型的参数空间就可以简化表示为:Η={μ,Ψ},即获取到中间概率线性判别分析模型的参数空间,以使训练中间概率线性判别模型的过程中消除了同一说话人不同语音间的差距,减少了噪音部分的影响,使得简化后的H参数空间Η={μ,Ψ}训练得到的中间概率线性判别模型更为准确,识别效果更佳。
[0072] S133:基于中间概率线性判别分析模型的参数空间,采用最大期望算法对携带同一用户标识的至少两个域外声纹特征在中间概率线性判别分析模型中进行迭代运算,生成最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差。
[0073] 本实施例中,基于中间概率线性判别分析模型的参数空间,有Η={μ,Ψ},类内方差为单位矩阵I,类间方差用Ψ表示,采用EM算法对携带同一用户标识的至少两个域外声纹特征在中间概率线性判别分析模型中进行迭代运算,生成最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差。其中,EM算法通过对携带同一用户标识的至少两个域外声纹特征在中间概率线性判别分析模型中进行有限步迭代进行运算,估计H参数中未知参数的期望值,给出当前的参数估计,再根据陆续输入的携带同一用户标识的至少两个域外声纹特征重新估计分布参数,以使得数据的类间方差最大化、类内方差最小化,给出未知参数的期望估计,并重复以上步骤直到收敛,可得到最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差。
[0074] S134:基于特征转换矩阵和类间方差,根据似然概率更新中间概率线性判别分析模型的参数空间,获取域外概率线性判别分析模型。
[0075] 本实施例中,任一条域外语音数据属于指定说话人的概率服从以下正态分布:其中,utest是待判别的录音的声纹特征向
量, 是指定说话人的n条训练录音的声纹特征向量, 为训练录音声纹特征均值,n表示说话人的第n条训练录音,I表示类内方差归一化后的单位矩阵,Ψ表示类间方差;
表示服从均值为 方差为 的正态分布。当对测试录音不
做类别判断时,即以上概率中n=0,录音的概率为:P(utest)=N(utest|0,I+Ψ),即P(utest)的表达式表示服从均值为0,方差为I+Ψ的正态分布。则判断某通录音属于指定说话人的似然概率的表达式为 概率线性判别分析模型中采用此似然概率作为测
试录音与指定说话人的相似度,似然概率越高,相似度越高,越有可能给出是本人的判决。
本实施例中,基于特征转换矩阵和类间方差,根据上述判断某通录音属于指定说话人的似然概率公式,采用域外录音计算所有录音属于某说话人的似然概率,根据似然概率更新中间概率线性判别分析模型的参数空间,即采用EM算法的迭代可以在基于域外录音的有限次计算中获得似然概率与说话人高度相关的结果,再继续下一轮似然概率计算,重复上述步骤直至收敛,以使获取域外概率线性判别分析模型。
[0076] S14:基于域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。
[0077] 其中,域内声纹特征为非标注目标语音数据在通用背景模型中所提取的声纹特征。域外概率线性判别分析模型进行自适应训练首先采用无标注目标语音数据,根据通用背景模型模型提取域内声纹特征,然后把域外数据的概率线性判别分析模型根据目标数据进行调整。采用EM算法在有限步迭代下把把概率线性判别分析模型的GMM参数的训练到成目标数据域,获得拟合后的概率线性判别分析模型。本实施例中,首先采用无标注目标数据(指并不能获得标注录音的目标业务录音)在UBM模型中提取声纹特征,然后把域外数据的概率线性判别分析模型根据目标业务的录音进行参数自适应调整,并获得训练后的概率线性判别分析模型。
[0078] 在一具体实施方式中,步骤S14具体包括:在有限步迭代下,将域内声纹特征的域内均值和域内协方差矩阵加权到域外概率线性判别分析模型的参数空间的均值和协方差矩阵上,获取目标概率线性判别分析模型。
[0079] 具体地,采用EM算法,在有限步迭代下,对有标注非目标的域内语音数据进行GMM分析,利用获得的域内语音数据GMM参数加权到域外概率线性判别分析模型的GMM上,从而使之更新到目标数据域的参数空间,即将域内声纹特征的域内均值和域内协方差矩阵加权到域外概率线性判别分析模型的参数空间的均值和协方差矩阵上。每次域内语音数据GMM参数加权都更新到目标数据域的参数空间,根据ML法,重复以上参数加权的步骤,重复直至收敛,并最终获取目标概率线性判别分析模型。
[0080] 本实施例中,用域内声纹特征,带入域外概率线性判别分析模型中,即非标注目标域内语音数据的均值协方差加权到H参数空间的均值和协方差矩阵。采用EM算法在有限步迭代下,获得目标概率线性判别分析模型,以使目标概率线性判别分析模型可应用在域内语音数据对应的至少两个业务场景,保证了目标概率线性判别分析模型的识别效果。
[0081] 本实施例所提供的一种声纹模型训练方法中,先采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,使得通用背景模型涵盖各场景领域数据并能够均衡数据间差异进行训练。然后采用通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征,对域内语音数据和域外语音数据进行特征提取处理,有效并准确地提取声纹特征信息。再基于域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型,即采用单人多通有标注非目标语音数据的声纹特征进行概率线性判别分析模型训练来获取域外概率线性判别分析模型。该域外概率线性判别分析模型可基于足够数量的域外语音数据进行处理,以保证训练获取的域外概率线性判别分析模型的识别效果。最后,基于域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型,即采用无标注目标语音数据的声纹特征对域外概率线性判别分析模型进行参数的自适应训练,把非标注目标域内语音数据的均值协方差加权到H参数空间的均值和协方差矩阵,采用EM算法在有限步迭代下,获得目标概率线性判别分析模型,以使目标概率线性判别分析模型可应用在域内语音数据对应的业务场景,保证了目标概率线性判别分析模型的识别效果。
[0082] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0083] 实施例2
[0084] 图5示出与实施例1中一种声纹模型训练方法一一对应的声纹模型训练装置的原理框图。如图5所示,该声纹模型训练装置包括通用背景模型获取模块11、声纹特征获取模块12、域外模型获取模块13和目标模型获取模块14。其中,通用背景模型获取模块11、声纹特征获取模块12、域外模型获取模块13和目标模型获取模块14的实现功能与实施例1中声纹模型训练方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
[0085] 通用背景模型获取模块11,用于采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型。
[0086] 声纹特征获取模块12,用于采用通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征。
[0087] 域外模型获取模块13,用于基于域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型。
[0088] 目标模型获取模块14,用于基于域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。
[0089] 优选地,通用背景模型获取模块11包括训练语音数据获取单元111和混合语音获取数据单元112。
[0090] 训练语音数据获取单元111,用于获取至少两个业务场景下的训练语音数据。
[0091] 混合语音获取数据单元112,用于基于混合语音数据进行通用背景模型训练,获取通用背景模型。
[0092] 优选地,声纹特征获取模块12包括域内声纹特征获取单元121,域外声纹特征获取单元122。
[0093] 域内声纹特征获取单元121,用于基于通用背景模型对域内语音数据进行分解,获取通用背景模型的域内均值和域内协方差矩阵,将通用背景模型的域内均值和域内协方差矩阵转换成域内声纹特征。
[0094] 域外声纹特征获取单元122,用于基于通用背景模型对域外语音数据进行分解,获取通用背景模型的域外均值和域外协方差矩阵,将通用背景模型的域外均值和域外协方差矩阵转换成域外声纹特征。
[0095] 优选地,域外模型获取模块13包括初始化参数空间单元131,类内方差归一化处理单元132,特征转换矩阵和类间方差获取单元133,特征转换矩阵和类间方差处理单元134。
[0096] 初始化参数空间单元131,用于初始化概率线性判别分析模型的参数空间;参数空间包括均值、类间方差、类内方差和协方差矩阵。
[0097] 类内方差归一化处理单元132,用于对域外概率线性判别分析模型的类内方差进行归一化处理,获取中间概率线性判别分析模型,并获取中间概率线性判别分析模型的参数空间。
[0098] 特征转换矩阵和类间方差获取单元133,用于基于中间概率线性判别分析模型的参数空间,采用EM算法对携带同一用户标识的至少两个域外声纹特征在中间概率线性判别分析模型中进行迭代运算,生成最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差。
[0099] 特征转换矩阵和类间方差处理单元134,用于基于特征转换矩阵和类间方差,获取域外概率线性判别分析模型。
[0100] 优选地,目标模型获取模块14,用于在有限步迭代下,将域内声纹特征的域内均值和域内协方差矩阵加权到域外概率线性判别分析模型的参数空间的均值和协方差矩阵上,获取目标概率线性判别分析模型。
[0101] 本实施例所提供的一种声纹模型训练装置中,通用背景模型获取模块11,用于采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,使得通用背景模型涵盖各场景领域数据并能够均衡数据间差异进行训练。声纹特征获取模块12,用于采用通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征,对域内语音数据和域外语音数据进行特征提取处理,有效并准确地提取声纹特征信息。域外模型获取模块13,用于基于域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型,即采用单人多通有标注非目标语音数据的声纹特征进行概率线性判别分析模型训练来获取域外概率线性判别分析模型。该域外概率线性判别分析模型可基于足够数量的域外语音数据进行处理,以保证训练获取的域外概率线性判别分析模型的识别效果。目标模型获取模块14,用于基于域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型,即采用无标注目标语音数据的声纹特征对域外概率线性判别分析模型进行参数的自适应训练,把非标注目标域内语音数据的均值协方差加权到H参数空间的均值和协方差矩阵,采用EM算法在有限步迭代下,获得目标概率线性判别分析模型,以使目标概率线性判别分析模型可应用在域内语音数据对应的业务场景,并保证了目标概率线性判别分析模型的识别效果。
[0102] 实施例3
[0103] 图6示出本实施例中一种语音识别方法的流程图。该一种语音识别方法应用在在银行、证券、保险等金融机构或者需进行声纹识别的其他机构中,以便利用训练好的目标声纹模型进行声纹识别,达到人工智能目的。如图6所示,该语音识别方法包括如下步骤:
[0104] S21:采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,待测声纹特征携带用户标注。
[0105] 其中,待测语音数据是指待识别的录音,采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,并且待测声纹特征携带用户标注,用于获取S22步骤中的注册声纹特征。
[0106] S22:基于用户标注获取对应的注册声纹特征。
[0107] 其中,基于用户标注获取对应的注册语音信息,注册声纹特征带有用户标注,以使待测声纹特征通过携带的用户标注获取到对应的注册声纹特征。再采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征。
[0108] S23:采用目标概率线性判别分析模型对待测声纹特征和注册声纹特征进行处理,获取似然概率;目标概率线性判别分析模型是采用实施例1中的声纹模型训练方法获取到的。
[0109] 其中,似然概率指的是,任一待测语音数据和注册语音数据的概率服从以下正态分布: utest是待判别的录音的声纹特征向量, 是指定说话人的n条训练录音的声纹特征向量, 为训练录音声纹特征均值,上式表示服从均值为 方差为 的正态分布。当对录音不做类别判断时,
即以上概率中n=0,录音的概率为:P(utest)=N(utest|0,I+Ψ),则判断某通录音属于指定说话人的似然概率为
[0110] 如图7所示,步骤S23中,采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,待测声纹特征携带用户标注,具体包括如下步骤:
[0111] S231:对待测声纹特征和注册声纹特征进行归一化处理,获取归一化声纹特征。
[0112] 本实施例中,对待测声纹特征和注册声纹特征进行归一化处理,获取归一化声纹特征,通过对待测声纹特征和注册声纹特征进行的归一化处理可以有效减少噪音数据的干扰,有效区分不同信道间的差异,在进行概率线性判别分析分解与打分时,能够达到识别效果更准确的效果。
[0113] S232:采用目标概率线性判别分析模型对归一化声纹特征进行处理,获取似然概率。
[0114] 本实施例中,采用目标概率线性判别分析模型对归一化声纹特征进行处理,对归一化声纹特征在目标概率线性判别分析模型中进行均值,类间方差的分解,根据获取似然概率。
[0115] S24:判断似然概率是否大于预设概率。
[0116] 其中,判断过程包括似然概率和预设概率,预设概率是指一开始设定好的阈值,用来与获得的似然概率进行大小的判断比较。在S23步骤得到似然概率后,与预设概率进行比较,判断似然概率是否大于预设概率。
[0117] S25:若似然概率大于预设概率,则确定待测声纹特征和注册声纹特征对应同一说话人,并输出识别结果。
[0118] 其中,若似然概率大于预设概率,则确定待测声纹特征和注册声纹特征对应同一说话人,并输出识别结果是同一说话人的识别结果;若似然概率小于预设概率,则确定待测声纹特征和注册声纹特征不是对应同一说话人,并输出识别结果不是同一说话人的识别结果,该识别结果步骤能够将识别结果有效、准确地反映出来。
[0119] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0120] 实施例4
[0121] 图8示出与实施例3中一种语音识别方法一一对应的语音识别装置的原理框图。该语音识别方法装置包括待测声纹特征获取模块21、注册声纹获取模块22、似然概率获取模块23、概率大小判断模块24和识别结果获取模块25。其中,待测声纹特征获取模块21、注册声纹获取模块22、似然概率获取模块23、概率大小判断模块24和识别结果获取模块25的实现功能与实施例中语音识别方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
[0122] 待测声纹特征获取模块21,用于采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,待测声纹特征携带用户标注。
[0123] 注册声纹获取模块22,用于基于用户标注获取对应的注册声纹特征。
[0124] 似然概率获取模块23,用于采用目标概率线性判别分析模型对待测声纹特征和注册声纹特征进行处理,获取似然概率,目标概率线性判别分析模型是采用实施例1中的声纹模型训练方法获取到的。
[0125] 概率大小判断模块24,用于判断似然概率是否大于预设概率。
[0126] 识别结果获取模块25,用于在似然概率大于预设概率时,确定待测声纹特征和注册声纹特征对应同一说话人,并输出识别结果。
[0127] 其中,似然概率获取模块23包括声纹特征归一化处理单元231和归一化声纹特征处理单元232。
[0128] 声纹特征归一化处理单元231,用于对待测声纹特征和注册声纹特征进行归一化处理,获取归一化声纹特征。
[0129] 归一化声纹特征处理单元232,用于采用目标概率线性判别分析模型对归一化声纹特征进行处理,获取似然概率。
[0130] 本实施例所提供的一种语音识别方法装置中,待测声纹特征获取模块21,用于采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,待测声纹特征携带用户标注。通过对待测语音数据进行特征提取,有效地将抽象的语音数据变为可进行运算处理的声纹特征,提高了对抽象语音数据的可操作性。注册声纹获取模块22,用于基于用户标注获取对应的注册声纹特征,注册声纹特征带有用户标注,以使待测声纹特征通过携带的用户标注快速获取到对应的注册声纹特征,达到了准确、高效地获取对应注册声纹特征的效果。似然概率获取模块23,用于采用目标概率线性判别分析模型对待测声纹特征和注册声纹特征进行处理,获取似然概率。似然概率越高,相似度越高,越有可能给出是本人的判决。基于目标概率线性判别分析模型对待测声纹特征和注册声纹特征进行处理,使得声纹特征能够准确有效地转换为似然概率计算的所需参数,有效进行了声纹特征的处理并且提高了似然概率计算的准确度。概率大小判断模块24,用于判断似然概率是否大于预设概率,通过似然概率与预设概率大小的比较,可为判决结果提供准确、有效的参考。识别结果获取模块25,用于在似然概率大于预设概率时,确定待测声纹特征和注册声纹特征对应同一说话人,并输出识别结果。其中,若似然概率大于预设概率,则确定待测声纹特征和注册声纹特征对应同一说话人,并输出识别结果是同一说话人的识别结果;若似然概率小于预设概率,则确定待测声纹特征和注册声纹特征不是对应同一说话人,并输出识别结果不是同一说话人的识别结果,该识别结果模块能够将识别结果有效、准确地反映出来。
[0131] 实施例5
[0132] 本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例1中声纹模型训练方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例2中声学模型训练装置的各模块/单元的功能,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现实施例3中语音识别方法中各步骤的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器执行时实现实施例4中语音识别装置中各模块/单元的功能,为避免重复,此处不一一赘述。
[0133] 实施例6
[0134] 图9是本发明一实施例提供的终端设备的示意图。如图9所示,该实施例的终端设备90包括:处理器91、存储器92以及存储在存储器92中并可在处理器91上运行的计算机程序93,该计算机程序被处理器91执行时实现实施例1中的声纹模型训练方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器91执行时实现实施例2中声纹模型训练装置中各模型/单元的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器91执行时实现实施例3中语音识别方法中各步骤的功能,为避免重复,此处不一一赘述。或者,该计算机程序被处理器91执行时实现实施例4中语音识别装置中各模块/单元的功能。为避免重复,此处不一一赘述。
[0135] 示例性的,计算机程序93可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器92中,并由处理器91执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序93在终端设备90中的执行过程。例如,计算机程序93可以被分割成实施例2中的通用背景模型获取模块11、声纹特征获取模块12、域外模型获取模块13和目标模型获取模块14,或者实施例4中的待测声纹特征获取模块21、注册声纹获取模块22、似然概率获取模块23、概率大小判断模块24和识别结果获取模块25,各模块的具体功能如实施例2或实施例4所述,在此不一一赘述。
[0136] 终端设备90可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括,但不仅限于,处理器91、存储器92。本领域技术人员可以理解,图6仅仅是终端设备90的示例,并不构成对终端设备90的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0137] 所称处理器91可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0138] 存储器92可以是终端设备90的内部存储单元,例如终端设备90的硬盘或内存。存储器92也可以是终端设备90的外部存储设备,例如终端设备90上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器92还可以既包括设备90的内部存储单元也包括外部存储设备。存储器92用于存储计算机程序以及设备所需的其他程序和数据。存储器92还可以用于暂时地存储已经输出或者将要输出的数据。
[0139] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0140] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0141] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0142] 在本发明所提供的实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0143] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0144] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0145] 所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
[0146] 以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。