一种语音指令的推荐方法、装置、设备和计算机存储介质转让专利

申请号 : CN201910420530.4

文献号 : CN110275692A

文献日 : 2019-09-24

相似专利: 请登录后查看

本发明提供了一种语音指令的推荐方法、装置、设备和计算机存储介质，其中方法包括：获取当前用户的场景信息和用户画像；利用所述当前用户的场景信息和用户画像，对从语音指令库中获取的语音指令进行排序；依据排序结果，确定向所述当前用户推荐的语音指令。本发明能够在地图类应用中对用户使用语音指令输入功能进行个性化和场景化的有效引导，提高用户的输入效率。

1.一种语音指令的推荐方法，其特征在于，该方法包括：获取当前用户的场景信息和用户画像；

利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序；

依据排序结果，确定向所述当前用户推荐的语音指令。

2.根据权利要求1所述的方法，其特征在于，该方法还包括：利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于所述语音指令库。

3.根据权利要求2所述的方法，其特征在于，利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令包括：从地图类应用的用户行为日志中获取用户的常用行为数据；

对所述常用行为数据进行过滤；

利用预先配置的模板和所述常用行为数据，构建针对各用户的语音指令和/或针对各区域内用户的语音指令。

4.根据权利要求3所述的方法，其特征在于，所述常用行为数据包括常用地点、道路、出行方式和地图类应用的功能中的至少一种。

5.根据权利要求3所述的方法，其特征在于，对所述常用行为数据进行过滤包括以下至少一种：利用地点和道路词典，对所述常用行为数据中失效的地点或道路进行过滤；

对所述常用行为数据中名称的长度超过预设长度值的地点或道路进行过滤；

对所述常用行为数据中名称包含特殊字符的地点或道路进行过滤；

对所述常用行为数据中涉及敏感类型或敏感词的地点或道路进行过滤。

6.根据权利要求3所述的方法，其特征在于，所述从语音指令库中获取的语音指令包括：语音指令库中针对所述当前用户的语音指令；和/或，

语音指令库中针对所述当前用户所属区域的语音指令。

7.根据权利要求1所述的方法，其特征在于，所述场景信息包括以下至少一种：时间信息、所在地图类应用的页面信息以及位置信息。

8.根据权利要求1所述的方法，其特征在于，利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序包括：将所述当前用户的场景信息和/或用户画像输入预先训练得到的语音指令排序模型，利用所述语音指令排序模型对所述从语音指令库中获取的语音指令进行排序。

9.根据权利要求8所述的方法，其特征在于，所述语音指令排序模型从所述当前用户的场景信息和/或用户画像中分别提取画像特征和/或场景特征构成第一特征向量；从所述从语音指令库中获取的语音指令中提取语义特征和统计特征构成第二特征向量；利用所述第一特征向量和第二特征向量之间的相似度，对所述从语音指令库中获取的语音指令进行排序。

10.根据权利要求8所述的方法，其特征在于，该方法还包括采用以下方式训练得到语音指令排序模型：利用地图类应用的用户行为日志构建训练数据，所述训练数据包括用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令中的任意两个组合构成的文本对；

将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练，得到语音指令排序模型。

11.根据权利要求10所述的方法，其特征在于，将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练包括：所述神经网络模型针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量；从该文本对对应的用户画像和/或场景信息中分别提取画像特征和/或场景特征构成第一特征向量；训练目标为：最大化同一文本对中各文本的所述第二特征向量与对应的所述第一特征向量的相似度差值。

12.根据权利要求1所述的方法，其特征在于，该方法还包括：将向所述当前用户推荐的语音指令发送给客户端，以便所述客户端采用以下方式进行展现：在地图类应用界面上语音指令的功能入口附近，以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令；或者，当地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令。

13.一种语音指令的推荐装置，其特征在于，该装置包括：获取单元，用于获取当前用户的场景信息和用户画像；

排序单元，用于利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序；

推荐单元，用于依据所述排序单元的排序结果，确定向所述当前用户推荐的语音指令。

14.根据权利要求13所述的装置，其特征在于，该装置还包括：挖掘单元，用于利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于所述语音指令库。

15.根据权利要求13所述的装置，其特征在于，所述排序单元，具体用于将所述当前用户的场景信息和/或用户画像输入预先训练得到的语音指令排序模型，利用所述语音指令排序模型对所述从语音指令库中获取的语音指令进行排序。

16.根据权利要求15所述的装置，其特征在于，所述排序单元，具体用于利用语音指令排序模型从所述当前用户的场景信息和/或用户画像中分别提取画像特征和场景特征构成第一特征向量；从所述从语音指令库中获取的语音指令中提取语义特征和统计特征构成第二特征向量；利用所述第一特征向量和第二特征向量之间的相似度，对所述从语音指令库中获取的语音指令进行排序。

17.根据权利要求15所述的装置，其特征在于，该装置还包括：训练单元，用于采用以下方式训练得到语音指令排序模型：利用地图类应用的用户行为日志构建训练数据，所述训练数据包括用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令中的任意两个组合构成的文本对；

将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练，得到语音指令排序模型；

其中，所述神经网络模型针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量；从该文本对对应的用户画像和/或场景信息中分别提取画像特征和场景特征构成第一特征向量；训练目标为：最大化同一文本对中各文本的所述第二特征向量与对应的所述第一特征向量的相似度差值。

18.根据权利要求13所述的装置，其特征在于，该装置还包括：展现单元，用于将向所述当前用户推荐的语音指令发送给客户端，以便所述客户端采用以下方式进行展现：在地图类应用界面上语音指令的功能入口附近，以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令；或者，当地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令。

19.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。

20.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-12中任一所述的方法。

一种语音指令的推荐方法、装置、设备和计算机存储介质

【技术领域】

[0001] 本发明涉及计算机应用技术领域，特别涉及一种语音指令的推荐方法、装置、设备和计算机存储介质。【背景技术】

[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。

[0003] 地图类应用一直是日常使用较为频繁的工具类应用，随着技术的不断发展，地图类应用融入了地点查询、路线查询、路况查询、导航、叫车等众多功能。为了给用户出行提供更为便利的服务，一些地图类应用融入了通过语音方式输入指令的功能，在一定程度上解放用户双手。

[0004] 由于地图类应用中功能众多，虽然融入了通过语音方式输入指令的新的功能入口，但用户出于使用习惯或者知识缺乏往往不会主动使用该语音指令的功能，因此需要对用户进行有效的引导。如图1中所示，用户可能不会注意到地图类应用界面上新出现的语音指令的功能入口，仍按照以往的手工输入习惯来输入相关指令。或者，用户注意到了新出现的语音指令的功能入口，但不知道输入怎样的语音指令合适。这样就会造成用户输入效率低下。【发明内容】

[0005] 有鉴于此，本发明提供了一种语音指令的推荐方法、装置、设备和计算机存储介质，以便于在地图类应用中对用户使用语音指令输入功能进行有效地引导，提高用户的输入效率。

[0006] 具体技术方案如下：

[0007] 一方面，本发明提供了一种语音指令的推荐方法，该方法包括：

[0008] 获取当前用户的场景信息和用户画像；

[0009] 利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序；

[0010] 依据排序结果，确定向所述当前用户推荐的语音指令。

[0011] 根据本发明一优选实施方式，该方法还包括：利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于所述语音指令库。

[0012] 根据本发明一优选实施方式，利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令包括：

[0013] 从地图类应用的用户行为日志中获取用户的常用行为数据；

[0014] 对所述常用行为数据进行过滤；

[0015] 利用预先配置的模板和所述常用行为数据，构建针对各用户的语音指令和/ 或针对各区域内用户的语音指令。

[0016] 根据本发明一优选实施方式，所述常用行为数据包括常用地点、道路、出行方式和地图类应用的功能中的至少一种。

[0017] 根据本发明一优选实施方式，对所述常用行为数据进行过滤包括以下至少一种：

[0018] 利用地点和道路词典，对所述常用行为数据中失效的地点或道路进行过滤；

[0019] 对所述常用行为数据中名称的长度超过预设长度值的地点或道路进行过滤；

[0020] 对所述常用行为数据中名称包含特殊字符的地点或道路进行过滤；

[0021] 对所述常用行为数据中涉及敏感类型或敏感词的地点或道路进行过滤。

[0022] 根据本发明一优选实施方式，所述从语音指令库中获取的语音指令包括：

[0023] 语音指令库中针对所述当前用户的语音指令；和/或，

[0024] 语音指令库中针对所述当前用户所属区域的语音指令。

[0025] 根据本发明一优选实施方式，所述场景信息包括以下至少一种：

[0026] 时间信息、所在地图类应用的页面信息以及位置信息。

[0027] 根据本发明一优选实施方式，利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序包括：

[0028] 将所述当前用户的场景信息和/或用户画像输入预先训练得到的语音指令排序模型，利用所述语音指令排序模型对所述从语音指令库中获取的语音指令进行排序。

[0029] 根据本发明一优选实施方式，所述语音指令排序模型从所述当前用户的场景信息和/或用户画像中分别提取画像特征和/或场景特征构成第一特征向量；从所述从语音指令库中获取的语音指令中提取语义特征和统计特征构成第二特征向量；利用所述第一特征向量和第二特征向量之间的相似度，对所述从语音指令库中获取的语音指令进行排序。

[0030] 根据本发明一优选实施方式，该方法还包括采用以下方式训练得到语音指令排序模型：

[0031] 利用地图类应用的用户行为日志构建训练数据，所述训练数据包括用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令中的任意两个组合构成的文本对；

[0032] 将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练，得到语音指令排序模型。

[0033] 根据本发明一优选实施方式，将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练包括：

[0034] 所述神经网络模型针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量；从该文本对对应的用户画像和/或场景信息中分别提取画像特征和/或场景特征构成第一特征向量；训练目标为：最大化同一文本对中各文本的所述第二特征向量与对应的所述第一特征向量的相似度差值。

[0035] 根据本发明一优选实施方式，该方法还包括：

[0036] 将向所述当前用户推荐的语音指令发送给客户端，以便所述客户端采用以下方式进行展现：

[0037] 在地图类应用界面上语音指令的功能入口附近，以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令；或者，

[0038] 当地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令。

[0039] 另一方面，本发明提供了一种语音指令的推荐装置，该装置包括：

[0040] 获取单元，用于获取当前用户的场景信息和用户画像；

[0041] 排序单元，用于利用所述当前用户的场景信息和/或用户画像，对从语音指令库中获取的语音指令进行排序；

[0042] 推荐单元，用于依据所述排序单元的排序结果，确定向所述当前用户推荐的语音指令。

[0043] 根据本发明一优选实施方式，该装置还包括：

[0044] 挖掘单元，用于利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于所述语音指令库。

[0045] 根据本发明一优选实施方式，所述排序单元，具体用于将所述当前用户的场景信息和/或用户画像输入预先训练得到的语音指令排序模型，利用所述语音指令排序模型对所述从语音指令库中获取的语音指令进行排序。

[0046] 根据本发明一优选实施方式，所述排序单元，具体用于利用语音指令排序模型从所述当前用户的场景信息和/或用户画像中分别提取画像特征和场景特征构成第一特征向量；从所述从语音指令库中获取的语音指令中提取语义特征和统计特征构成第二特征向量；利用所述第一特征向量和第二特征向量之间的相似度，对所述从语音指令库中获取的语音指令进行排序。

[0047] 根据本发明一优选实施方式，该装置还包括：

[0048] 训练单元，用于采用以下方式训练得到语音指令排序模型：

[0049] 利用地图类应用的用户行为日志构建训练数据，所述训练数据包括用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令中的任意两个组合构成的文本对；

[0050] 将各文本对以及文本对对应的用户画像和/或场景信息输入神经网络模型进行训练，得到语音指令排序模型；

[0051] 其中，所述神经网络模型针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量；从该文本对对应的用户画像和/或场景信息中分别提取画像特征和场景特征构成第一特征向量；训练目标为：最大化同一文本对中各文本的所述第二特征向量与对应的所述第一特征向量的相似度差值。

[0052] 根据本发明一优选实施方式，该装置还包括：

[0053] 展现单元，用于将向所述当前用户推荐的语音指令发送给客户端，以便所述客户端采用以下方式进行展现：

[0054] 在地图类应用界面上语音指令的功能入口附近，以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令；或者，

[0055] 当地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案或文案与图形相结合的形式展现向所述当前用户推荐的语音指令。

[0056] 第三方面，本发明还提供了一种设备，所述设备包括：

[0057] 一个或多个处理器；

[0058] 存储装置，用于存储一个或多个程序，

[0059] 当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

[0060] 第四方面，本发明还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。

[0061] 由以上技术方案可以看出，本发明提供的语音指令的推荐方式，一方面能够提醒用户可以能够使用语音指令，另一方面通过推荐的语音指令使得用户能够获知可以使用怎样的语音指令，从而在地图类应用中对用户使用语音指令输入功能进行有效的引导，提高用户的输入效率。

[0062] 另外，本申请提供的语音指令的推荐方式依据当前用户的场景信息和/ 或用户画像实现语音指令的排序推荐，使得推荐的语音指令更加符合用户的个性化和/或场景化的需求，从而更好地激发和引导用户使用语音指令。【附图说明】

[0063] 图1为现有技术中地图类应用界面上语音指令的功能入口示意图；

[0064] 图2为本发明实施例提供的推荐语音指令的方法流程图；

[0065] 图3为本发明实施例提供的语音指令的挖掘方法流程图；

[0066] 图4为本发明实施例提供的训练语音指令排序模型的流程图；

[0067] 图5a为本发明实施例提供的提取第一特征向量的模型示意图；

[0068] 图5b为本发明实施例提供的提取第二特征向量的模型示意图；

[0069] 图5c为本发明实施例提供的神经网络模型的训练示意图；

[0070] 图5d为本发明实施例提供的语音指令排序模型的示意图；

[0071] 图6a和图6b为本发明实施例提供的展现推荐的语音指令的界面示意图；

[0072] 图7为本发明实施例提供的语音指令的推荐装置结构示意图；

[0073] 图8示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。【具体实施方式】

[0074] 为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

[0075] 为了在地图类应用中对用户使用语音指令输入功能进行有效的引导，可以在地图类应用界面上向用户推荐语音指令，以吸引用户使用语音指令的输入功能，且帮助用户了解语音指令的话术，使得用户输入更有效的语音指令。但若采用人工编辑的方式，面向所有用户都推荐相同的语音指令，则往往并不能够有效地达成引导用户的目的。例如，若面向所有用户都推荐“去国家会议中心”，而不在北京的用户一方面不太了解国家会议中心，对该语音指令不明所以；另一方面，不在北京的用户对去国家会议中心并不感兴趣，往往不会刺激用户使用语音指令的功能。

[0076] 基于上述问题的考虑，本发明实施例中提供了一种更适合各用户的语音指令推荐方法，该方法可以由语音指令的推荐装置执行，优选地，该装置可以位于地图类应用的服务器端，可以是位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元。如图2中所示，可以包括以下步骤：

[0077] 在201中，获取当前用户的场景信息和用户画像。

[0078] 本发明基于C/S(客户端/服务器)架构，将当前使用地图类应用客户端的用户称为当前用户，服务器端从客户端获取当前用户的标识信息，并基于当前用户的标识信息进一步获取当前用户的场景信息和/或用户画像。需要说明的是，上述场景信息和用户画像可以仅利用其中一种或组合。在本发明实施例中，以同时利用场景信息和用户画像为例进行描述。

[0079] 其中场景信息可以包括但不限于时间信息、地图类应用的页面信息、位置信息等中的至少一种。其中，地图类应用的页面信息可以包括当前用户当前使用地图类应用的页面服务类型、标识等信息，例如主页面、导航类页面、地图页面、辅助功能页面，等等。该页面信息可以从客户端获取，也可以从服务端与客户端之间的会话信息中获取。位置信息可以是当前用户所在的地理位置，可以通过当前用户所使用终端设备的定位功能确定并通过客户端上报给服务器端。

[0080] 用户画像可以包括诸如性别、年龄、职业、注册地点等用户自身属性，还可以包括诸如用户的检索习惯、用户经常输入的语音指令的意图等。用户画像可以从服务器端存储的用户数据或行为日志中进行获取，也可以从客户端上报的用户数据或行为日志中获取。

[0081] 在202中，利用当前用户的场景信息和用户画像，对从语音指令库中获取的语音指令进行排序。

[0082] 在本发明实施例中，语音指令库中存储有多个语音指令，这些语音指令可以是预先由人工进行配置得到的各种常用语音指令，这些常用语音指令包含了语音指令功能所支持的各种话术(这里的话术主要包括语法，即支持的语音指令的表达方式)。

[0083] 这种人工配置语音指令的方式比较死板，用户体验也比较生硬。除了人工在语音指令库中配置语音指令之外，在此还提供一种优选的实施方式，即利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于语音指令库。其中语音指令的挖掘方法可以如图3中所示，主要包括以下步骤：

[0084] 在301中，从地图类应用的用户行为日志中获取用户的常用行为数据。

[0085] 在服务器端可以对地图类应用的用户行为日志进行收集和存储，用户行为日志中可以包括但不限于：用户通过地图类应用使用的地点、出行方式、道路、功能等。

[0086] 其中，用户通过地图类应用使用的地点可以包括搜索的地点、定位的地点、导航的地点、查看的地点等。

[0087] 用户通过地图类应用使用的出行方式可以包括用户查询的出行方式、导航时选择的出行方式、使用某些功能时对应的出行方式等。其中使用某些功能时对应的出行方式可以诸如，用户通过地图类应用使用共享单车功能时，对应的出行方式为骑行。再诸如，用户通过地图类应用使用打车功能时，对应的出行方式为打车。

[0088] 用户通过地图类应用使用的道路可以包括查询的道路、定位的道路、出行经过的道路等。

[0089] 用户通过地图类应用使用的功能可以包括诸如地点查询功能、路况查询功能、导航功能、共享单车功能、打车功能等等，但本发明中可以重点关注地图类应用的辅助功能，例如切换语音包、打开收藏夹、音量调节、放大图区等。

[0090] 从用户行为日志中基于使用频率或次数，统计出用户的常用行为数据，例如常用地点、常用道路、常用出行方式、常用功能等。

[0091] 在302中，对获取的常用行为数据进行过滤。

[0092] 在本步骤中对常用行为数据进行的过滤主要是对常用地点、道路的过滤。主要基于预设的规则执行，可以采用但不限于以下过滤方式：

[0093] 方式一、利用地点和道路词典，对常用行为数据中失效的地点或道路进行过滤。在本发明中可以对地点词典和道路词典进行及时的更新，使其保留最新的地点名和道路名，对于已经失效的地点或道路进行过滤。

[0094] 方式二、对常用行为数据中名称的长度超过预设长度值的地点或道路进行过滤。推荐给用户的语音指令是为了对用户进行引导，使用户对语音指令的使用方式一目了然，对于一些超长的地点名或道路名，往往会给用户的理解带来困扰，并不适宜作为语音指令推荐给用户，因此可以将此类地点或道路进行过滤。

[0095] 方式三、对常用行为数据中名称包含特殊字符的地点或道路进行过滤。同样，推荐给用户的语音指令是为了对用户进行引导，使用户对语音指令的使用方式一目了然，对于一些包含特殊字符的地点名或道路名，往往会给用户的理解带来困扰，并不适宜作为语音指令推荐给用户，因此可以将此类地点或道路进行过滤。

[0096] 方式四、对常用行为数据中涉及敏感类型或敏感词的地点或道路进行过滤。其中的敏感类型或敏感词可以是违反国家或地方法律法规、道德、善良风俗、宗教习惯等的词语。

[0097] 在303中，利用预先配置的模板和常用行为数据，构建针对各用户的语音指令和/或针对各区域内用户的语音指令。

[0098] 其中模板可以采用人工的方式预先配置，即人工根据常用的用户需求进行模板的配置。除了人工配置的方式之外，还可以基于预先收集的地图类应用的用户输入的语音指令，抽取和挖掘出常用的模板。

[0099] 下面列举出几种模板形式：

[0100] 出行类模板：导航到{地点}，{出行方式}到{地点}，去{地点}，等等。

[0101] 路况类模板：{道路}路况，{道路}堵不堵，等等。

[0102] 功能类模板：我要{功能}，使用{功能}，切换{功能}，等等。

[0103] 其中{}表示模板中可以填入内容的槽位，模板{}中的内容表示该槽位可以填入的类型。

[0104] 然后，针对各用户，利用该用户常用的地点、道路、出行方式、功能等结合模板，得到针对该用户的语音指令，即个性化的语音指令。

[0105] 或者，针对某个区域内用户常用的地点、道路、出行方式、功能等进行聚合，筛选出该区域常用的地点、道路、出行方式、功能等，结合模板，得到针对该区域内的语音指令，即区域化的语音指令。其中，区域可以是城市、商圈、经纬度等。

[0106] 例如，某用户常用的出行方式是打车，常用的地点是国贸，则可以针对该用户生成语音指令“打车到国贸”。

[0107] 再例如，某用户常用的道路是上地九街，则可以针对该用户生成语音指令“上地九街堵不堵”。

[0108] 再例如，某用户常用的功能是新的辅助功能，若有新的辅助功能“流浪地球语音包”上线，则可以针对该用户生成语音指令“使用流量地球语音包”。

[0109] 例如，北京的用户常用的出行方式是驾车，常用的地点是中关村，则可以针对北京的用户生成语音指令“驾车到中关村”。

[0110] 再例如，北京用户常用的道路是长安街，则可以针对北京用户生成语音指令“长安街路况”。

[0111] 再例如，北京用户常用的功能是共享单车，则可以针对北京用户生成语音指令“使用共享单车”。

[0112] 将采用上述方式挖掘出的语音指令存储于语音指令库，语音指令库中的语音指令可以采用用户ID或区域ID进行索引。这样，在从语音指令库中获取语音指令时，可以获取针对当前用户的语音指令，和/或，针对当前用户所属区域的语音指令。

[0113] 继续参见图2。

[0114] 在202中利用当前用户的场景信息和用户画像，对从语音指令库中获取的语音指令进行排序时，可以利用预先训练得到的语音指令排序模型。具体地，可以将当前用户的场景信息和用户画像输入预先训练得到的语音指令排序模型，利用语音指令排序模型对所述从语音指令库中获取的语音指令进行排序。

[0115] 为了方便对语音指令排序模型进行理解，在此首先对语音指令排序模型的训练过程进行详细介绍。图4为本发明实施例提供的训练语音指令排序模型的流程图，该语音指令排序模型可以离线的方式预先训练。如图4中所示，该流程可以包括以下步骤：

[0116] 在401中，利用地图类应用的用户行为日志构建训练数据。

[0117] 本步骤中，可以从地图类应用的用户行为日志中获取用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令，将其中的任意两个组合构成的文本对(pairwise)。

[0118] 其中，用户实际使用的语音指令指的是用户通过地图类应用的语音指令输入功能实际输入的语音指令。

[0119] 另外，在地图类应用的界面上会采用已有方式(即现有技术中的方式) 向用户推荐语音指令，或者一旦本发明提供的语音指令推荐方式上线后，也会向用户推荐语音指令。无论采用哪种推荐方式，若用户从推荐的语音指令中选择了其中一个语音指令进行输入，例如向用户推荐“驾车到中关村”的语音指令，用户看到该语音指令后，实际也输入了“驾车到中关村”的语音指令，则认为该语音指令为用户从推荐的语音指令中选择的语音指令。但也存在向用户推荐了但用户未选择的语音指令，本发明也将这部分语音指令作为训练数据。

[0120] 上述三种语音指令在排序上的从优到劣的顺序为：用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令、向用户推荐但用户并未选择的语音指令。

[0121] 两两构成的文本对可以表示成，例如可以是以下至少一种：

[0122] <用户实际使用的语音指令，用户从推荐的语音指令中选择的语音指令>[0123] <用户实际使用的语音指令，向用户推荐但用户并未选择的语音指令>[0124] <用户从推荐的语音指令中选择的语音指令，向用户推荐但用户并未选择的语音指令>

[0125] 其中，T1在排序上优于T2，即认为T1应该排在T2之前。

[0126] 另外，对于每一个文本对而言，是存在对应的用户画像和场景信息的。用户画像和场景信息的内容上面实施例已经描述过，在此不做赘述。本发明中，获取文本对以及文本对对应的用户画像和场景信息，这些均作为训练数据。

[0127] 在402中，将各文本对以及文本对对应的用户画像和场景信息输入神经网络模型进行训练，得到语音指令排序模型。

[0128] 在进行训练时，文本对以及文本对对应的用户画像和场景信息作为神经网络模型的输入。

[0129] 其中，从用户画像和场景信息中提取画像特征和场景特征构成第一特征向量。画像特征可以是从用户画像中提取的词向量，场景特征可以是从场景信息中提取的词向量，将提取的词向量输入嵌入层(Embedding)，得到第一特征向量，如图5a所示。

[0130] 针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量。其中语义特征可以包括指令内容、指令意图等。指令内容可以以词向量的形式表示，指令意图可以是指令对应的意图词的词向量。其中意图通常是与地图类应用的功能相关的，例如地点查询意图、路况查询意图、测距意图等等。统计特征可以包括但不限于指令点击量、点击率、使用量等，将其输入标准化层(Normalization)进行标准化，映射至统一的向量空间。然后将语义特征和统计特征输入级联层(Concatenation)，得到第二特征向量，如图5b所示。

[0131] 神经网络模型的训练目标为：最大化同一文本对中各文本的所述第二特征向量与对应的所述第一特征向量的相似度差值。以其中一个文本对及其对应的用户画像P和场景S为例，如图5c所示。从P和S中提取第一特征向量，分别从T1和T2中提取第二特征向量；计算第一特征向量与T1的第二特征向量之间的相似度V1，第一特征向量与T2的第二特征向量之间的相似度V2，训练目标为最大化V1与V2的差值，即最大化(V1-V2)的值。在图5c中，相似度的计算以余弦相似度(Cosine)为例，损失函数以折页损失函数(Hinge Loss) 为例。但也可以采用其他相似度计算方式以及损失函数，只要能够达到相似的效果即可。

[0132] 至此，语音指令排序模型的训练完成。

[0133] 利用语音指令排序模型对语音指令进行排序时，将各语音指令以及当前用户的场景信息和用户画像输入语音指令排序模型。假设语音指令表示为T，当前用户的场景信息和用户画像表示为P+S，如图5d中所示。从场景信息和用户画像P+S中提取画像特征和场景特征构成第一特征向量，从语音指令T中提取语义特征和统计特征构成第二特征向量，计算第一特征向量和第二特征向量之间的相似度V。分别针对各语音指令计算相似度后，依据各语音指令的相似度值进行排序，相似度值越高的语音指令排序越靠前。

[0134] 其中，从场景信息和用户画像中提取画像特征和场景特征构成第一特征向量，以及从语音指令T中提取语义特征和统计特征构成第二特征向量的过程与训练语音指令排序模型时，提取第一特征向量和第二特征向量的过程一致，在此不做赘述。

[0135] 在203中，依据排序结果，确定向当前用户推荐的语音指令。

[0136] 本步骤中，依据排序结果可以将排在前N位的语音指令确定为向当前用户推荐的语音指令，其中N为预设的正整数。例如可以将排在第1位的语音指令确定为向用户推荐的语音指令。

[0137] 由于排序结果是语音指令排序模型依据当前用户的用户画像和场景信息得出的，充分体现了针对用户的个性化和场景化的指令排序。从而可以向用户推荐更加亲切自然、具有吸引力的语音指令，为用户使用语音指令输入能够进行有效的引导，提高用户的输入效率。

[0138] 在204中，在地图类应用界面上向用户展现推荐的语音指令。

[0139] 服务器端可以将向用户推荐的语音指令发送给地图类应用的客户端，由客户端按照预先配置的展现位置和展现形式，在地图类应用界面上向用户展现推荐的语音指令。或者，服务器端可以将语音指令的展现位置信息以及展现形式信息等连同向用户推荐的语音指令一起发送给地图类应用的客户端，由客户端依据展现位置信息和展现形式信息，在地图类应用界面上向用户展现推荐的语音指令。

[0140] 具体地，可以在地图类应用界面上语音指令的功能入口附近，以文案的形式展现向当前用户推荐的语音指令，如图6a中所示。在语音指令的功能入口附近展现向当前用户推荐的语音指令“去国家会议中心”。用户就能够知晓，通过该功能入口就能够输入诸如“去国家会议中心”之类的语音指令。当然，除了文案形式之外，还可以采用诸如文案加图形、文案加动画等其他形式。

[0141] 或者，也可以在地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案的形式展现向当前用户推荐的语音指令。如图6b 中所示，当用户点击语音指令功能入口后，弹出一个新的图层，在该新的图层中展现向当前用户推荐的语音指令“导航到北京站”。用户就能够知晓，现在可以通过语音方式输入诸如“导航到北京站”之类的语音指令。当然，除了文案形式之外，还可以采用诸如文案加图形、文案加动画等其他形式。

[0142] 以上是对本发明所提供方法进行的详述。下面对上述方法的执行主体，即语音指令的推荐装置进行详述。图7为本发明实施例提供的语音指令的推荐装置结构示意图，该装置可以位于地图类应用的服务器端，如图7中所示，该装置可以包括：获取单元01、排序单元02和推荐单元03，还可以进一步包括挖掘单元04、训练单元05以及展现单元06。其中，各组成单元的主要功能如下：

[0143] 获取单元01负责获取当前用户的场景信息和用户画像。其中场景信息可以包括但不限于时间信息、地图类应用的页面信息、位置信息等中的至少一种。用户画像可以包括诸如性别、年龄、职业、注册地点等用户自身属性，还可以包括诸如用户的检索习惯、用户经常输入的语音指令的意图等。

[0144] 排序单元02，用于利用当前用户的场景信息和用户画像，对从语音指令库中获取的语音指令进行排序。

[0145] 语音指令库中存储有多个语音指令，这些语音指令可以是预先由人工进行配置得到的各种常用语音指令，这些常用语音指令包含了语音指令功能所支持的各种话术(这里的话术主要包括语法，即支持的语音指令的表达方式)。

[0146] 除了人工在语音指令库中配置语音指令之外，在此还提供一种优选的实施方式，即由挖掘单元04利用地图类应用的用户行为日志，挖掘个性化和/或地域化的语音指令并存储于语音指令库。

[0147] 具体地，挖掘单元04可以从地图类应用的用户行为日志中获取用户的常用行为数据；对获取的常用行为数据进行过滤；利用预先配置的模板和常用行为数据，构建针对各用户的语音指令和/或针对各区域内用户的语音指令。

[0148] 用户行为日志中可以包括但不限于：用户通过地图类应用使用的地点、出行方式、道路、功能等。从用户行为日志中基于使用频率或次数，统计出用户的常用行为数据，例如常用地点、常用道路、常用出行方式、常用功能等。

[0149] 对获取的常用行为数据进行过滤可以包括但不限于以下至少之一：

[0150] 利用地点和道路词典，对常用行为数据中失效的地点或道路进行过滤。

[0151] 对常用行为数据中名称的长度超过预设长度值的地点或道路进行过滤。

[0152] 对常用行为数据中名称包含特殊字符的地点或道路进行过滤。

[0153] 对常用行为数据中涉及敏感类型或敏感词的地点或道路进行过滤。

[0154] 另外，模板可以采用人工的方式预先配置，即人工根据常用的用户需求进行模板的配置。除了人工配置的方式之外，还可以基于预先收集的地图类应用的用户输入的语音指令，抽取和挖掘出常用的模板。

[0155] 针对各用户，利用该用户常用的地点、道路、出行方式、功能等结合模板，得到针对该用户的语音指令，即个性化的语音指令。

[0156] 或者，针对某个区域内用户常用的地点、道路、出行方式、功能等进行聚合，筛选出该区域常用的地点、道路、出行方式、功能等，结合模板，得到针对该区域内的语音指令，即区域化的语音指令。其中，区域可以是城市、商圈、经纬度等。

[0157] 另外，上述排序单元02，可以具体用于将当前用户的场景信息和用户画像输入预先训练得到的语音指令排序模型，利用语音指令排序模型对从语音指令库中获取的语音指令进行排序。

[0158] 具体地，排序单元02可以利用语音指令排序模型从当前用户的场景信息和用户画像中分别提取画像特征和场景特征构成第一特征向量；从从语音指令库中获取的语音指令中提取语义特征和统计特征构成第二特征向量；利用第一特征向量和第二特征向量之间的相似度，对从语音指令库中获取的语音指令进行排序。

[0159] 训练单元05负责采用以下方式训练得到语音指令排序模型：

[0160] 利用地图类应用的用户行为日志构建训练数据，训练数据包括用户实际使用的语音指令、用户从推荐的语音指令中选择的语音指令以及向用户推荐但用户并未选择的语音指令中的任意两个组合构成的文本对；

[0161] 将各文本对以及文本对对应的用户画像和场景信息输入神经网络模型进行训练，得到语音指令排序模型。

[0162] 其中，神经网络模型针对文本对中的各文本分别提取语义特征和统计特征构成各文本的第二特征向量；从该文本对对应的用户画像和场景信息中分别提取画像特征和场景特征构成第一特征向量；训练目标为：最大化同一文本对中各文本的第二特征向量与对应的第一特征向量的相似度差值。

[0163] 推荐单元03负责依据排序单元02的排序结果，确定向当前用户推荐的语音指令。具体地，依据排序结果可以将排在前N位的语音指令确定为向当前用户推荐的语音指令，其中N为预设的正整数。例如可以将排在第1位的语音指令确定为向用户推荐的语音指令。

[0164] 展现单元06可以将向用户推荐的语音指令发送给地图类应用的客户端，由客户端按照预先配置的展现位置和展现形式，在地图类应用界面上向用户展现推荐的语音指令。或者，服务器端可以将语音指令的展现位置信息以及展现形式信息等连同向用户推荐的语音指令一起发送给地图类应用的客户端，由客户端依据展现位置信息和展现形式信息，在地图类应用界面上向用户展现推荐的语音指令。

[0165] 其中，可以在地图类应用界面上语音指令的功能入口附近，以文案或文案与图形相结合的形式展现向当前用户推荐的语音指令；或者，

[0166] 当地图类应用界面上语音指令的功能入口被触发后，在新展现的视图或图层中以文案或文案与图形相结合的形式展现向当前用户推荐的语音指令。

[0167] 图8示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图8显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

[0168] 如图8所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

[0169] 总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

[0170] 计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

[0171] 系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质) 读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

[0172] 具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

[0173] 计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

[0174] 处理单元016通过运行存储在系统存储器028中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的方法流程。

[0175] 上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如，被上述一个或多个处理器执行本发明实施例所提供的方法流程。

[0176] 随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0177] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

[0178] 计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

[0179] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网 (LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

[0180] 由以上描述可以看出，本发明提供的方法、装置、设备和计算机存储介质可以具备以下优点：

[0181] 1)本发明提供的语音指令的推荐方式，一方面能够提醒用户可以能够使用语音指令，另一方面通过推荐的语音指令使得用户能够获知可以使用怎样的语音指令，从而在地图类应用中对用户使用语音指令输入功能进行有效的引导，提高用户的输入效率。

[0182] 举个例子，语音输入作为一个新的功能入口，相比较传统的手工输入，对用户来说是个黑箱，缺乏一套教育框架，不知道该输入怎样的语音指令。若用户由于知识的匮乏只会说“北京站”、“奥体中心”之类的地点，显然还需要通过后续繁冗的点击行为发起进一步的诸如导航等需求。若向用户推荐诸如“导航到清华大学”、“打车到北京站”等之类的语音指令，则用户看到之后就能够获知原来可以输入这类的话术，这样仅需要一步就可以满足用户需求，这种有效的引导方式显然提高了用户的输入效率。

[0183] 2)本申请提供的语音指令的推荐方式依据当前用户的场景信息和用户画像实现语音指令的排序推荐，使得推荐的语音指令更加符合用户的个性化和场景化的需求，从而更好地激发和引导用户使用语音指令。

[0184] 举个例子，某个用户到了一个新城市武汉，通过本申请的方式能够依据用户画像(学生身份)和场景信息，向该用户推荐语音指令“打车到东湖绿道”，其中东湖绿道为武汉大学旁边的一个景点。这种语音指令显然更加符合用户的个性化和场景化需求。

[0185] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

一种语音指令的推荐方法、装置、设备和计算机存储介质转让专利

申请号 : CN201910420530.4

文献号 : CN110275692A

文献日 : 2019-09-24

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 丁世强 , 马文韬 , 黄际洲

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :

一种语音指令的推荐方法、装置、设备和计算机存储介质