语音密码的认证方法及系统转让专利

申请号 : CN201710053209.8

文献号 : CN106782572B

文献日 : 2020-04-07

本申请提供了语音密码的认证方法及系统，涉及生物识别技术领域，其中，该语音密码的认证方法包括：首先，接收用户端发送的密码注册请求，向用户端随机发送多个提示符号，接收用户端发送的声音信号，提取用户发音字典，从用户自定义的声音信号中提取用户声纹信息；之后，当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，接收用户端发送的认证声音信号，基于用户发音字典和提示信息，对认证声音信号进行音素匹配，从认证声音信号中提取认证声纹信息，比较用户声纹信息与认证声纹信息是否匹配，当认证声音信号的音素匹配成功，并且，用户声纹信息与认证声纹信息匹配时，通过用户端的认证请求，从而提高了用户端登录的安全性。

1.语音密码的认证方法，其特征在于，包括：

接收用户端发送的密码注册请求；

向用户端随机发送多个提示符号，其中，所述提示符号为文字、图片、语音和/或视频；

接收用户端发送的声音信号，其中，所述声音信号是用户端对选出的一个或多个所述提示符号所发出的一一对应的自定义的语音；

提取用户发音字典，其中，所述用户发音字典是每个所述提示符号和与每个所述提示符号相对应的用户自定义的声音信号组成的语音密码的集合；

从所述用户自定义的声音信号中提取用户声纹信息；

当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，其中，所述提示信息是从所述用户发音字典中随机提取出来的一个或多个提示符号；

接收用户端发送的认证声音信号，其中，所述认证声音信号是用户端对所述提示信息发出的自定义语音；

基于所述用户发音字典和所述提示信息，对所述认证声音信号以音素为单位进行音素匹配；

从所述认证声音信号中提取认证声纹信息；

比较所述用户声纹信息与所述认证声纹信息是否匹配；

当所述认证声音信号的音素匹配成功，且，所述用户声纹信息与所述认证声纹信息匹配时，通过用户端的认证请求。

2.根据权利要求1所述的语音密码的认证方法，其特征在于，所述从所述用户自定义的声音信号中提取用户声纹信息，包括：从用户自定义的声音信号中提取相应的声纹特征；

可选的，根据所述提取的声纹特征建立用户的声纹模型。

3.根据权利要求2所述的语音密码的认证方法，其特征在于，所述向用户端随机发送多个所述提示信息，包括：当接收到用户端发出的认证请求时，从用户发音词典中提取所述提示符号；

将所述提示符号打乱顺序或者进行复制后发送给用户端。

4.根据权利要求3所述的语音密码的认证方法，其特征在于，所述基于所述用户发音字典和所述提示信息，对所述认证声音信号进行音素匹配包括：从所述用户发音字典中提取多个声音信号，其中，所述声音信号是与所述提示信息相对应的用户自定义的声音信号；

将所述多个声音信号包含的多个音素组成音素序列；

利用语音识别算法，在语音模型上识别出认证声音信号的音素序列，并与音素序列比对；或者利用语音确认算法，在语音模型上对认证声音信号是否为音素序列进行确认；

若所述认证声音信号的音素序列与音素序列比对一致，或者在语音模型上对认证声音信号是否为音素序列进行确认的得分大于预先设定的第一阈值时，判定所述认证声音信号的音素匹配成功。

5.根据权利要求4所述的语音密码的认证方法，其特征在于，所述语音模型包括：通用的语音模型，或者，所述用户发音字典中用户自定义的声音信号建立的语音模型。

6.根据权利要求5所述的语音密码的认证方法，其特征在于，所述从所述认证声音信号中提取认证声纹信息包括：从认证声音信号中提取相应的声纹特征；

可选的，根据所述提取的声纹特征建立认证的声纹模型。

7.根据权利要求6所述的语音密码的认证方法，其特征在于，所述比较所述用户声纹信息与所述认证声纹信息是否匹配包括：比较用户声纹信息中的声纹特征与认证声纹信息中的声纹特征的相似度；

比较用户声纹信息中的声纹模型与认证声纹信息中的声纹模型的相似度；

计算认证声纹信息中的声纹特征在用户声纹信息中的声纹模型上的似然分；

计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分；

将上述相似度、似然分中的一个值或几个值的融合，作为比较所述用户声纹信息与所述认证声纹信息是否匹配的得分；

若匹配得分高于预先设定的第二阈值时，判定所述用户声纹信息与所述认证声纹信息匹配。

8.语音密码的认证系统，其特征在于，包括：

密码注册模块，用于接收用户端发送的密码注册请求；

提示符号发送模块，用于向用户端随机发送多个提示符号，其中，所述提示符号为文字、图片、语音和/或视频；

接收模块，用于接收用户端发送的声音信号，其中，所述声音信号是用户端对选出的一个或多个所述提示符号所发出的一一对应的自定义的语音；

提取模块，用于提取用户发音字典，其中，所述用户发音字典是每个所述提示符号和与每个所述提示符号相对应的用户自定义的声音信号组成的语音密码的集合；

声纹提取模块，用于从所述用户自定义的声音信号中提取用户声纹信息；

提示信息发送模块，用于当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，其中，所述提示信息是从所述用户发音字典中随机提取出来的一个或多个提示符号；

认证接收模块，用于接收用户端发送的认证声音信号，其中，所述认证声音信号是用户端对所述提示信息发出的自定义语音；

音素匹配模块，用于基于所述用户发音字典和所述提示信息，对所述认证声音信号以音素为单位进行音素匹配；

认证声纹模块，用于从所述认证声音信号中提取认证声纹信息；

声纹匹配模块，用于比较所述用户声纹信息与所述认证声纹信息是否匹配；

通过模块，用于当所述认证声音信号的音素匹配成功，且，所述用户声纹信息与所述认证声纹信息匹配时，通过用户端的认证请求。

9.根据权利要求8所述的语音密码的认证系统，其特征在于，所述提示信息发送模块包括：提取单元，用于当接收到用户端发出的认证请求时，从用户发音词典中提取所述提示符号；

发送单元，用于将所述提示符号打乱顺序或者进行复制后发送给用户端。

10.根据权利要求9所述的语音密码的认证系统，其特征在于，所述声纹匹配模块包括：声纹特征比对单元，用于比较用户声纹信息中的声纹特征与认证声纹信息中的声纹特征的相似度；

声纹模型比对单元，用于比较用户声纹信息中的声纹模型与认证声纹信息中的声纹模型的相似度；

似然分计算单元，用于计算认证声纹信息中的声纹特征在用户声纹信息中的声纹模型上的似然分；

认证似然分计算单元，用于计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分；

融合单元，用于将上述相似度、似然分中的一个值或几个值的融合，作为比较所述用户声纹信息与所述认证声纹信息是否匹配的得分；

判定单元，用于若匹配得分高于预先设定的第二阈值时，判定所述用户声纹信息与所述认证声纹信息匹配。

语音密码的认证方法及系统

技术领域

[0001] 本发明涉及生物识别领域，尤其涉及语音密码的认证方法及系统。

背景技术

[0002] 随着移动互联网的快速发展，人们常常通过手机、智能平板以及其他智能终端登录各种网站，这样，在反复登录的过程中，已经注册的账号和密码等会面临泄露的问题。因
此，移动互联网在给用户端生活带来便捷的同时，也使得用户端的安全问题日益凸显。

[0003] 针对上述问题，很多网站已经设计了密保问题、语音密码等不同的措施来保障密码的安全性。特别是，语音识别和声纹识别技术在语音密码中的运用使得安全隐患在一定
程度上得到了解决，但仍不能根据用户端的说话方式和说话习惯来设计出恰当的语音密
码。

[0004] 例如，目前，常见的语音密码可通过以下三种方式形成：文本相关、文本无关和文本提示，其中，文本相关要求用户端必须按照指定的文本内容进行发音，文本无关对用户端
的发音内容没有要求，用户端可以随意发音，文本提示需要用户端从预先存储的训练文本
库里提取若干词汇组合成文本内容，而后用户端根据该文本内容进行发音，上述三种方式
形成的语音密码都存在一定的弊端，通过文本相关方式形成的语音密码安全性较低，获得
指定文本的人可按照文本内容进行发音，以拟合用户端的语音密码；而采用文本无关方式
形成语音密码的系统性能较差，原因在于，系统需要对用户端输入的庞大的语音进行统计
和筛检，因而需要构建庞大的语音数据库；采用文本提示形成语音密码的方式虽然在一定
程度上缓解了安全性的问题，但仍无法从根本上解决问题。

发明内容

[0005] 有鉴于此，本发明实施例的目的在于提供了语音密码的认证方法及系统，通过为用户端设置自定义语音密码，提高了用户端在身份认证过程中的安全性。

[0006] 第一方面，本发明实施例提供了语音密码的认证方法，包括：

[0007] 接收用户端发送的密码注册请求；

[0008] 向用户端随机发送多个提示符号，其中，提示符号为文字、图片、语音和/或视频；

[0009] 接收用户端发送的声音信号，其中，声音信号是用户端对选出的一个或多个提示符号所发出的一一对应的自定义的语音；

[0010] 提取用户发音字典，其中，用户发音字典是每个提示符号和与每个提示符号相对应的用户自定义的声音信号组成的语音密码的集合；

[0011] 从用户自定义的声音信号中提取用户声纹信息；

[0012] 当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，其中，提示信息是从用户发音字典中随机提取出来的一个或多个提示符号；

[0013] 接收用户端发送的认证声音信号，其中，认证声音信号是用户端对提示信息发出的自定义语音；

[0014] 基于用户发音字典和提示信息，对认证声音信号进行音素匹配；

[0015] 从认证声音信号中提取认证声纹信息；

[0016] 比较用户声纹信息与认证声纹信息是否匹配；

[0017] 当认证声音信号的音素匹配成功，且，用户声纹信息与认证声纹信息匹配时，通过用户端的认证请求。

[0018] 结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，从用户自定义的声音信号中提取用户声纹信息，包括：

[0019] 从用户自定义的声音信号中提取相应的声纹特征；

[0020] 可选的，根据提取的声纹特征建立用户的声纹模型。

[0021] 结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，向用户端随机发送多个提示信息，包括：

[0022] 当接收到用户端发出的认证请求时，从用户发音词典中提取提示符号；

[0023] 将提示符号打乱顺序或者进行复制后发送给用户端。

[0024] 结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，基于用户发音字典和提示信息，对认证声音信号进行音素匹配包
括：

[0025] 从用户发音字典中提取多个声音信号，其中，声音信号是与提示信息相对应的用户自定义的声音信号；

[0026] 将多个声音信号包含的多个音素组成音素序列；

[0027] 利用语音识别算法，在语音模型上识别出认证声音信号的音素序列，并与音素序列比对；或者利用语音确认算法，在语音模型上对认证声音信号是否为音素序列进行确认；

[0028] 若认证声音信号的音素序列与音素序列比对一致，或者在语音模型上对认证声音信号是否为音素序列进行确认的得分大于预先设定的第一阈值时，判定认证声音信号的音
素匹配成功。

[0029] 结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，对认证声音信号进行音素匹配，语音模型包括：

[0030] 通用的语音模型，或者根据用户发音字典中用户自定义的声音信号建立的语音模型。

[0031] 结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，从认证声音信号中提取认证声纹信息包括：

[0032] 从认证声音信号中提取相应的声纹特征；

[0033] 可选的，根据提取的声纹特征建立认证的声纹模型。

[0034] 结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，比较用户声纹信息与认证声纹信息是否匹配包括：

[0035] 比较用户声纹信息中的声纹特征与认证声纹信息中的声纹特征的相似度；

[0036] 比较用户声纹信息中的声纹模型与认证声纹信息中的声纹模型的相似度；

[0037] 计算认证声纹信息中的声纹特征在用户声纹信息中的声纹模型上的似然分；

[0038] 计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分；

[0039] 将上述相似度、似然分中的一个值或几个值的融合，作为比较用户声纹信息与认证声纹信息是否匹配的得分；

[0040] 若匹配得分高于预先设定的第二阈值时，判定用户声纹信息与认证声纹信息匹配。

[0041] 第二方面，本发明实施例提供了语音密码的认证系统，包括：

[0042] 密码注册模块，用于接收用户端发送的密码注册请求；

[0043] 提示符号发送模块，用于向用户端随机发送多个提示符号，其中，提示符号为文字、图片、语音和/或视频；

[0044] 接收模块，用于接收用户端发送的声音信号，其中，声音信号是用户端对选出的一个或多个提示符号所发出的一一对应的自定义的语音；

[0045] 提取模块，用于提取用户发音字典，其中，用户发音字典是每个提示符号和与每个提示符号相对应的用户自定义的声音信号组成的语音密码的集合；

[0046] 声纹提取模块，用于从用户自定义的声音信号中提取用户声纹信息；

[0047] 提示信息发送模块，用于当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，其中，提示信息是从用户发音字典中随机提取出来的一个或多个提示符号；

[0048] 认证接收模块，用于接收用户端发送的认证声音信号，其中，认证声音信号是用户端对提示信息发出的自定义语音；

[0049] 音素匹配模块，用于基于用户发音字典和提示信息，对认证声音信号进行音素匹配；

[0050] 认证声纹模块，用于从认证声音信号中提取认证声纹信息；

[0051] 声纹匹配模块，用于比较用户声纹信息与认证声纹信息是否匹配；

[0052] 通过模块，用于当认证声音信号的音素匹配成功，且，用户声纹信息与认证声纹信息匹配时，通过用户端的认证请求。

[0053] 结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，提示信息发送模块包括：提取单元，用于当接收到用户端发出的认证请求时，从用户发音词典
中提取提示符号；

[0054] 发送单元，用于将提示符号打乱顺序或者进行复制后发送给用户端。

[0055] 结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，声纹匹配模块包括：

[0056] 声纹特征比对单元，用于比较用户声纹信息中的声纹特征与认证声纹信息中的声纹特征的相似度；

[0057] 声纹模型比对单元，用于比较用户声纹信息中的声纹模型与认证声纹信息中的声纹模型的相似度；

[0058] 似然分计算单元，用于计算认证声纹信息中的声纹特征在用户声纹信息中的声纹模型上的似然分；

[0059] 认证似然分计算单元，用于计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分；

[0060] 融合单元，用于将上述相似度、似然分中的一个值或几个值的融合，作为比较用户声纹信息与认证声纹信息是否匹配的得分；

[0061] 判定单元，用于若匹配得分高于预先设定的第二阈值时，判定用户声纹信息与认证声纹信息匹配。

[0062] 本发明实施例提供的语音密码的认证方法及系统，其中，该语音密码的认证方法包括：接收用户端发送的密码注册请求，向用户端随机发送多个提示符号，其中，提示符号
为文字、图片、语音和/或视频，接收用户端发送的声音信号，其中，声音信号是用户端对选
出的一个或多个提示符号所发出的一一对应的自定义的语音，提取用户发音字典，其中，用
户发音字典是每个提示符号和与每个提示符号相对应的用户自定义的声音信号组成的语
音密码的集合，从用户自定义的声音信号中提取用户声纹信息，当接收到用户端发出的认
证请求时，向用户端随机发送多个提示信息，其中，提示信息是从用户发音字典中随机提取
出来的一个或多个提示符号，接收用户端发送的认证声音信号，其中，认证声音信号是用户
端对提示信息发出的自定义语音，基于用户发音字典和提示信息，对认证声音信号进行音
素匹配，从认证声音信号中提取认证声纹信息，比较用户声纹信息与认证声纹信息是否匹
配，当认证声音信号的音素匹配成功，并且，用户声纹信息与认证声纹信息也匹配时，通过
用户端的认证请求，允许用户端进行登录，通过上述方法，有效提高了用户端在登录过程中
的语音密码的安全性。

[0063] 为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

[0064] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的
附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前
提下，还可以根据这些附图获得其他的附图。

[0065] 图1示出了本发明实施例所提供的语音密码的认证方法的流程图；

[0066] 图2示出了本发明实施例所提供的语音密码的认证系统的结构连接图；

[0067] 图3示出了本发明实施例所提供的语音密码的认证系统的框架图；

[0068] 图4示出了本发明实施例所提供的语音密码的认证系统的连接图。

[0069] 图标：1-密码注册模块；2-提示符号发送模块；3-接收模块；4-提取模块；5-声纹提取模块；6-提示信息发送模块；7-认证接收模块；8-音素匹配模块；9-认证声纹模块；10-声
纹匹配模块；11-通过模块；111-提取单元；112-发送单元；211-声纹特征比对单元；212-声
纹模型比对单元；213-似然分计算单元；214-认证似然分计算单元；215-融合单元；216-判
定单元。

具体实施方式

[0070] 下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在
此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因
此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的
范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做
出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0071] 目前，用户端在登录各种网站时，已经在服务器上注册的账号和密码等会面临被盗的危险。虽然，很多网站已经设计了语音密码等来加强密码的安全性，但仍不能设计出恰
当的语音密码来彻底解决账号和密码的安全性问题。

[0072] 基于此，本发明实施例提供了语音密码的认证方法及系统，下面通过实施例进行描述。

[0073] 实施例1

[0074] 参见图1，本实施例提出的语音密码的认证方法具体包括以下步骤：

[0075] 步骤S101：接收用户端发送的密码注册请求。当用户端想要登录某个系统或者网站时，前提是需要在服务器上进行账号和密码的注册，尤其是，涉及用户端自身安全的密
码，需要用户端为自己在服务器上注册专属于自己的登录密码。首先，需要服务器接收用户
端发送的密码注册请求。

[0076] 步骤S102：向用户端随机发送多个提示符号，其中，提示符号为文字、图片、语音和/或视频。在本方法中提示符号为多个，且，形式多样，例如，基于数字集合{0、1、2…8、9}的随机数字串提示符号、基于字母集合{a，b，c，…x，y，z}的随机字母序列提示符号、基于图片库{图片1，图片2…图片N}的随机图片提示等密码提示方式。当然，也可根据用户自身喜
好，设定用户自定义的提示符号，如用户喜欢的电影名字、亲人和朋友的生日、喜欢的歌手
明星等等。密码提示符号和提示方式多样，也可以是各种方式的任意组合。

[0077] 举个具体的例子，假设服务器向用户端发送多个提示符号“a，b，c，d，e”。

[0078] 步骤S103：接收用户端发送的声音信号，其中，声音信号是用户端对选出的一个或多个提示符号所发出的一一对应的自定义的语音。

[0079] 以上述具体例子来说，用户端对“a，b，c，d，e”发出的声音信号分别对应为“金，木，水，火，土”。“金，木，水，火，土”即为用户端对选出的多个提示符号所发出的一一对应的自定义的语音。当然，用户端也可以对“a，b，c，d，e”发出的声音信号分别对应为“1，2，3，4，5”，那么这时，“1，2，3，4，5”即为用户端对选出的多个提示符号所发出的一一对应的自定义的语音。当然，为了保证用户发音字典和声纹信息的准确性，系统还可以让用户输入一次或者多次声音信号。

[0080] 在用户端发出声音信号后，还可以加入确认提示框，让用户端再次输入语音，以保证用户端先后输入的语音密码的一致，从而确保了语音密码的准确性。

[0081] 步骤S104：提取用户发音字典，其中，用户发音字典是每个提示符号和与每个提示符号相对应的用户自定义的声音信号组成的语音密码的集合。

[0082] 常见的，用户发音字典为服务器预先建立的样本集合，该样本集合的大小可依据使用场景和使用环境进行灵活设定，在该用户发音字典的集合中，包括多个配对使用的提
示符号和语音密码，在这里，提示符号和语音密码一一对应，可以成对使用来作为用户端发
音模型的建立标准，也可以拆开各自单独使用，例如，服务器将提示符号发给用户端，并判
断用户端返回来的语音是否与预先建立的语音密码匹配，以此来判断语音密码是否正确。

[0083] 例如，由多个提示符号组成的提示符号集S＝{S1、S2、S3…SN}。其中，与S1对应的用户自定义的声音信号为M1，与S2对应的用户自定义的声音信号为M2，与S3对应的用户自定义
的声音信号为M3，与SN对应的用户自定义的声音信号为MN，至此得到了提示符号集S＝{S1、
S2、S3…SN}所对应的语音模型集合M＝{M1、M2、M3…MN}，二者构成了关于语音模型的用户发
音字典。

[0084] 以上述具体例子中，用户端发出“金，木，水，火，土”来说明，与“a”对应的声音信号为“金”，与“b”对应的声音信号为“木”，与“c”对应的声音信号为“水”，与“d”对应的声音信号为“火”，与“e”对应的声音信号为“土”，这时，语音模型的用户发音字典即包括两部分，一部分为提示符号集{“a”，“b”，“c”，“d”，“e”}，另一部分为语音模型集合{“金”，“木”，“水”，“火”，“土”}。

[0085] 上述语音模型可视为一种基于孤立词识别的语音识别方法，利用现有公知的语音识别方法即可实现，如基于高斯混合模型-隐马尔可夫模型(GMM-HMM)，或者基于深度神经
网络-隐马尔可夫模型(DNN-HMM)等。此外，也可采用基于符号串序列的连续语音模型训练
方法。

[0086] 步骤S105：从用户自定义的声音信号中提取用户声纹信息，在本方法中具体包括：

[0087] 从用户自定义的声音信号中提取相应的声纹特征，并将声纹特征进行存储，以在用户端登录时进行特征比对。

[0088] 声纹模型其实与上述语音模型类似，当然也略有不同。例如，多个提示符号为系统提示符号集S＝{S1、S2、S3…SN}，与S1对应的用户自定义的声纹特征为Q1，与S2对应的用户自定义的声纹特征为Q2，与S3对应的用户自定义的声纹特征为Q3，与SN对应的用户自定义的声
纹特征为QN，得到了提示符号集S＝{S1、S2、S3…SN}所对应的声纹信息模型集合Q＝{Q1、Q2、Q3…QN}，二者构成了关于声纹模型的用户发音字典。

[0089] 继续以上述具体例子来说，用户与“a”对应的声纹特征为发音“金”的声纹特征1，与“b”对应的声纹特征为发音“木”的声纹特征2，与“c”对应的声纹特征为发音“水”的声纹特征3，与“d”对应的声纹特征为发音“火”的声纹特征4，与“e”对应的声纹特征为发音“土”的声纹特征5，这时，声纹模型的用户发音字典即包括两部分，一部分为提示符号集{“a”，
“b”，“c”，“d”，“e”}，另一部分为声纹信息模型集合{声纹特征1，声纹特征2，声纹特征3，声纹特征4，声纹特征5}。

[0090] 当然，也可直接建立用户统一的声纹模型Q，即将用户全部发音统一训练成一个声纹模型。声纹模型训练方法也可采用公知的技术即可实现，如高斯混合模型-通用背景模型
(GMM-UBM)、基于因子分析的i-vector模型等等。

[0091] 步骤S106：当接收到用户端发出的认证请求时，向用户端随机发送多个提示信息，其中，提示信息是从用户发音字典中随机提取出来的一个或多个提示符号。

[0092] 当服务器接收到用户端发出的认证请求时，会从用户发音词典中提取提示符号，为了提高安全性，避免直接复制或盗取用户端的声音，可以将提示符号各自打乱顺序或者
进行复制后作为提示信息发送给用户端。

[0093] 以步骤S102中的注册时发送的举例来说，即服务器从用户发音字典的提示符号集{“a”，“b”，“c”，“d”，“e”}中随机挑选出“a”，“c”，“b”，当然，还可以多次重复选择“a”、“b”、“c”、“d”或者“e”，通过将提示符号重复选择或者打乱顺序，有效降低了提示信息与用户端注册时回答的提示符号的重复率。

[0094] 步骤S107：接收用户端发送的认证声音信号，其中，认证声音信号是用户端对提示信息发出的自定义语音。

[0095] 例如，当服务器随机挑选出“a”，“c”，“b”作为用户认证提示信息后，其对应用户端的声音信号分别为“金”，“水”，“木”，“金”，“水”，

[0096] “木”即为认证声音信号。

[0097] 步骤S108：基于用户发音字典和提示信息，对认证声音信号进行音素匹配，具体包括：

[0098] 从用户发音字典中提取多个声音信号，其中，声音信号是与提示信息相对应的用户自定义的声音信号，这里，自定义可理解为用户自身的习惯和发音风格等等。

[0099] 语音确认过程：用户端在发出认证请求时，服务器首先生成一条符号序列，如X＝(“a”，“c”，“b”)，其是从用户发音字典的提示符号集{“a”，“b”，“c”，“d”，“e”}中随机挑选多个符号组合得到的认证符号序列。

[0100] 对应的，从用户发音字典中找到对应符号序列X中每个元素所对应的语音模型Mx；即X对应的语音模型序列Mx＝(“金”，“水”，“木”)。

[0101] 用户端根据系统提供的符号序列X进行自定义发音，并将该认证声音信号U反馈给服务器。

[0102] 根据用户端提供的自定义认证声音信号U，服务器将其与语音模型序列Mx进行对应匹配，其匹配过程可采用语音识别算法或语音确认算法。

[0103] 所谓语音识别算法，是利用用户端认证声音信号U与语音模型序列Mx，识别出U所对应的发音符号序列Y，而后再将Y与系统提示符号序列X进行比对。若X与Y相似度达到系统
预先设定的阈值，则判定U与X匹配成功，音素匹配成功。

[0104] 所谓语音确认算法，是利用语音模型序列Mx，判断用户端认证声音信号U是否为系统的符号序列X，并给出置信度的分数；若该分数大于预先设定的阈值，则判定U与X匹配成
功，音素匹配成功。

[0105] 若认证声音信号的音素序列与音素序列比对一致，或者在语音模型上对认证声音信号是否为音素序列进行确认的得分大于预先设定的第一阈值时，判定认证声音信号的音
素匹配成功。

[0106] 将多个声音信号包含的多个音素组成音素序列，并将声音信号以音素为单位进行排列。例如，将用户端的声音信号用汉语拼音(对于其他语言或方言，也可以用其他表示法)
表示为“jin shui mu”，利用语音识别算法，在语音模型上识别出认证声音信号的音素序
列，并与音素序列比对；或者利用语音确认算法，在语音模型上对认证声音信号是否为音素
序列进行确认，这里语音模型包括：通用的语音模型，或者根据用户发音字典中用户自定义
的声音信号建立的语音模型。音素匹配过程包括：即以上述用户端输入的“jin shui mu”与
预先存储的音素序列“jin mu shui”进行比对，显然，这两个音素序列是相同的，能够匹配
成功。

[0107] 步骤S109：从认证声音信号中提取认证声纹信息，具体包括：

[0108] 从认证声音信号中提取相应的声纹特征，可选的，根据提取的声纹特征建立认证的声纹模型。

[0109] 认证语音的声纹建模过程：对认证符号序列X＝(“a”，“c”，“b”)是从用户发音字典的提示符号集{“a”，“b”，“c”，“d”，“e”}中随机挑选多个符号组合得到的认证符号序列。

[0110] 用户端根据系统提供的符号序列X进行自定义发音，并将该认证声音信号U反馈给服务器。

[0111] 从用户发音字典中找到对应符号序列X中每个元素所对应的用户声纹信息中的声纹特征与声纹模型Qx；即X对应的用户声纹信息模型Qx＝(声纹特征1，声纹特征3，声纹特征
2)。

[0112] 服务器对用户提供的认证声音信号，提取认证声音信号中的声纹特征，建立认证声纹信息的声纹模型Qx’＝(a的认证声纹特征，c的认证声纹特征，b的认证声纹特征)。

[0113] 步骤S110：比较用户声纹信息与认证声纹信息是否匹配，具体包括：

[0114] 比较用户声纹信息中的声纹特征与认证声纹信息中的声纹特征的相似度；

[0115] 比较用户声纹信息中的声纹模型Qx与认证声纹信息中的声纹模型Qx’的相似度；

[0116] 计算认证声纹信息中的声纹特征在用户声纹信息中的声纹模型Qx上的似然分；

[0117] 计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分；

[0118] 将上述相似度、似然分中的一个值或几个值的融合，作为比较用户声纹信息与认证声纹信息是否匹配的得分；用户在进行身份认证时，系统首先给出包含符号串的提示信
息，并在系统后台准备好对应的用户符号串的声纹模型；该模型与用户反馈符号串语音进
行匹配打分，例如，计算最大后验概率等。

[0119] 若匹配得分高于预先设定的第二阈值时，判定用户声纹信息与认证声纹信息匹配。

[0120] 步骤S111：当认证声音信号的音素匹配成功，且，用户声纹信息与认证声纹信息匹配时，通过用户端的认证请求。

[0121] 根据用户端提供的自定义认证声音信号U，判断其与声纹模型Q的相似度，并给出判决识别的分数；若该分数大于预先设定的阈值，则判定U与Q匹配成功。声纹确认模块通
过。即对应上述“金木水火土”的例子，对“宣称用户端甲”进行身份确认时：假定系统随机产生的符号串为“a c b”(符号串长度由系统确定)，那么身份确认分为两个过程：(1)系统生
成对应“金-水-木”的语音模型串，与用户端语音进行语音确认；(2)将用户端甲的声纹模型
与用户端语音进行声纹确认；该两个确认有一个失败则身份确认失败，两个确认都成功则
身份确认成功。

[0122] 综上所述，本实施例提供的语音密码的认证方法包括：在注册时，服务器接收用户端发送的密码注册请求，之后，向用户端随机发送多个提示符号，并由服务器接收用户端发
送的声音信号，其中，声音信号是用户端对选出的一个或多个提示符号所发出的一一对应
的自定义的语音，根据上述声音信号提取用户发音字典，其中，用户发音字典是每个提示符
号和与每个提示符号相对应的用户自定义的声音信号组成的语音密码的集合，并从用户自
定义的声音信号中提取用户声纹信息；这样，用户端登录时，当接收到用户端发出的认证请
求时，向用户端随机发送多个提示信息，并且，提示信息是从用户发音字典中随机提取出来
的一个或多个提示符号，服务器端进行以下认证操作，即接收用户端发送的认证声音信号，
其中，认证声音信号是用户端对提示信息发出的自定义语音，基于用户发音字典和提示信
息，对认证声音信号进行音素匹配，从认证声音信号中提取认证声纹信息，比较用户声纹信
息与认证声纹信息是否匹配，当认证声音信号的音素匹配成功，而且，用户声纹信息与认证
声纹信息匹配时，通过用户端的认证请求。

[0123] 实施例2

[0124] 参见图2、图3和图4，本实施例提供了语音密码的认证系统包括：依次相连的密码注册模块1、提示符号发送模块2、接收模块3、提取模块4、声纹提取模块5、提示信息发送模
块6、认证接收模块7、音素匹配模块8、认证声纹模块9、声纹匹配模块10和通过模块11。

[0125] 各个模块的具体工作过程如下：密码注册模块1用于接收用户端发送的密码注册请求，提示符号发送模块2用于向用户端随机发送多个提示符号，其中，提示符号为文字、图
片、语音和/或视频，接收模块3用于接收用户端发送的声音信号，其中，声音信号是用户端
对选出的一个或多个提示符号所发出的一一对应的自定义的语音，提取模块4用于提取用
户发音字典，其中，用户发音字典是每个提示符号和与每个提示符号相对应的用户自定义
的声音信号组成的语音密码的集合，声纹提取模块5用于从用户自定义的声音信号中提取
用户声纹信息，提示信息发送模块6用于当接收到用户端发出的认证请求时，向用户端随机
发送多个提示信息，其中，提示信息是从用户发音字典中随机提取出来的一个或多个提示
符号，其中，提示信息发送模块6包括：提取单元111和发送单元112，当接收到用户端发出的
认证请求时，通过提取单元111从用户发音词典中提取提示符号，之后，通过发送单元112将
提示符号打乱顺序或者进行复制后发送给用户端。

[0126] 当用户端进行登录时，由认证接收模块7接收用户端发送的认证声音信号，其中，认证声音信号是用户端对提示信息发出的自定义语音，音素匹配模块8用于基于用户发音
字典和提示信息，对认证声音信号进行音素匹配，认证声纹模块9用于从认证声音信号中提
取认证声纹信息，声纹匹配模块10，用于比较用户声纹信息与认证声纹信息是否匹配，其
中，声纹匹配模块10具体包括：声纹特征比对单元211用于比较用户声纹信息中的声纹特征
与认证声纹信息中的声纹特征的相似度，声纹模型比对单元212用于比较用户声纹信息中
的声纹模型与认证声纹信息中的声纹模型的相似度，似然分计算单元213用于计算认证声
纹信息中的声纹特征在用户声纹信息中的声纹模型上的似然分，认证似然分计算单元214
用于计算用户声纹信息中的声纹特征在认证声纹信息中的声纹模型上的似然分，融合单元
215用于将上述相似度、似然分中的一个值或几个值的融合，作为比较用户声纹信息与认证
声纹信息是否匹配的得分，判定单元216用于若匹配得分高于预先设定的第二阈值时，判定
用户声纹信息与认证声纹信息匹配。通过模块11用于当认证声音信号的音素匹配成功，并
且，用户声纹信息与认证声纹信息匹配时，通过用户端的认证请求。

[0127] 综上所述，本实施例提供的语音密码的认证系统包括：依次相连的密码注册模块1、提示符号发送模块2、接收模块3、提取模块4、声纹提取模块5、提示信息发送模块6、认证
接收模块7、音素匹配模块8、认证声纹模块9、声纹匹配模块10和通过模块11，通过上述各个
模块的设置，是用户端在进行登录的过程中通过语音模型和声纹模型的双重认证，有效提
高了用户端在登录过程中的语音密码的安全性。

[0128] 最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发
明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员
在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使
相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护
范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

语音密码的认证方法及系统转让专利

申请号 : CN201710053209.8

文献号 : CN106782572B

文献日 : 2020-04-07

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郑方 , 李蓝天 , 邬晓钧 , 徐明星 , 黄小妮

申请人 : 清华大学 , 北京得意音通技术有限责任公司

摘要 :

权利要求 :

说明书 :