智能语音服务开发云平台及方法转让专利

申请号 : CN201410779258.6

文献号 : CN104538031B

文献日 : 2017-09-01

本发明公开了一种智能语音服务开发云平台及方法。该开发云平台包括：应用优化数据库；内容服务优化模块，用于接收用户针对已创建的应用定制的输入句式和与该输入句式对应的输出数据，并将输入句式和输出数据存储到应用优化数据库；语音识别模块，用于从应用优化数据库获取输入句式，并根据所获取到的输入句式来更新语音识别模型；以及语义理解模块，用于从应用优化数据库获取输入句式和输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。由此，可实现对应用的优化定制，并且所有优化操作均由用户在线完成，无需平台的后台技术支持人员参与，可以降低优化定制的开发周期，便于开发者快速实施优化，定制专属的智能语音交互应用。

1.一种智能语音服务开发云平台，其特征在于，该开发云平台包括：应用优化数据库，所述应用优化数据库存储有用于创建应用的多种语音服务方案模板以及每种语音服务方案模块支持的服务；

内容服务优化模块，用于接收用户针对已创建的应用定制的输入句式和与该输入句式对应的输出数据，并将所述输入句式和所述输出数据存储到所述应用优化数据库；

语音识别模块，用于从所述应用优化数据库获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型；以及语义理解模块，用于从所述应用优化数据库获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。

2.根据权利要求1所述的开发云平台，其特征在于，该开发云平台还包括：同义词优化模块，用于接收用户针对所述已创建的应用定制的同义词，并将所述同义词存储到所述应用优化数据库。

3.根据权利要求2所述的开发云平台，其特征在于，所述内容服务优化模块还用于在接收到所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语，并在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展，之后，再将扩展后的输入句式存储到所述应用优化数据库。

4.根据权利要求1所述的开发云平台，其特征在于，所述输出数据包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素；以及所述开发云平台还包括：应答数据源优化模块，用于接收用户针对所述已创建的应用定制的应答数据源，并将该应答数据源存储到所述应用优化数据库；以及所述语义理解模块还用于在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果从所述应用优化数据库中确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

5.根据权利要求1所述的开发云平台，其特征在于，所述开发云平台还包括：语音识别优化模块，用于接收用户针对所述已创建的应用定制的词典数据，其中，该词典数据包括词典名称和词条，并将该词典数据存储到所述应用优化数据库；以及所述语音识别模块还用于从所述应用优化数据库获取所述词典数据，并根据该词典数据更新所述语音识别模型。

6.根据权利要求5所述的开发云平台，其特征在于，所述词典数据还包括与所述词条对应的发音。

7.根据权利要求6所述的开发云平台，其特征在于，该开发云平台还包括：语音合成模块，用于从所述应用优化数据库中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。

8.根据权利要求1所述的开发云平台，其特征在于，该开发云平台还包括：语音合成优化模块，用于接收用户针对所述已创建的应用定制的语音合成数据，并将所述语音合成数据存储到所述应用优化数据库；以及语音合成模块，用于从所述应用优化数据库获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。

9.根据权利要求8所述的开发云平台，其特征在于，所述语音合成数据包括标注有发音和/或韵律停顿规则的文本信息。

10.根据权利要求1所述的开发云平台，其特征在于，该开发云平台还包括：语音唤醒优化模块，用于接收用户针对所述已创建的应用定制的语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库。

11.根据权利要求1所述的开发云平台，其特征在于，该开发云平台还包括：同步模块，用于接收用户针对所述已创建的应用的发布指令，并在接收到所述发布指令之后，将所述应用优化数据库同步到线上运行环境的应用优化数据库，以发布所述已创建的应用。

12.根据权利要求1所述的开发云平台，其特征在于，该开发云平台还包括：测试模块，用于接收用户针对所述已创建的应用输入的包括测试类型和测试数据的测试信号，并根据所述测试类型和所述测试数据的类型，确定所述测试信号的目的地，并向所述目的地发送所述测试信号以进行测试；以及所述测试模块还用于接收针对所述测试信号的测试结果，并输出所述测试结果；

其中，所述测试类型包括语音识别测试、语义理解测试和语音合成测试中的至少一者，以及所述目的地为语音识别模块、语义理解模块或语音合成模块。

13.根据权利要求1-12中任一权利要求所述的开发云平台，其特征在于，所述应用优化数据库还存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务；以及所述开发云平台还包括：应用创建模块，用于从用户接收用于指示要使用的语音服务方案模板和服务的应用创建指示，根据该应用创建指示从所述应用优化数据库中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

14.一种用于智能语音服务开发的方法，其特征在于，该方法包括：针对已创建的应用定制输入句式和与该输入句式对应的输出数据；

将所述输入句式和所述输出数据存储到应用优化数据库，所述应用优化数据库存储有用于创建应用的多种语音服务方案模板以及每种语音服务方案模块支持的服务；

从所述应用优化数据库获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型；以及从所述应用优化数据库获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。

15.根据权利要求14所述的方法，其特征在于，该方法还包括：针对所述已创建的应用定制同义词，并将所述同义词存储到所述应用优化数据库。

16.根据权利要求15所述的方法，其特征在于，该方法还包括：在定制所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语；

在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展；

之后，再将扩展后的输入句式存储到所述应用优化数据库。

17.根据权利要求14所述的方法，其特征在于，所述输出数据包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素；以及所述方法还包括：针对所述已创建的应用定制应答数据源，并将该应答数据源存储到所述应用优化数据库；

在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果来从所述应用优化数据库中确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

18.根据权利要求14所述的方法，其特征在于，该方法还包括：针对所述已创建的应用定制词典数据，其中，该词典数据包括词典名称和词条，并将该词典数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述词典数据，并根据该词典数据更新所述语音识别模型。

19.根据权利要求18所述的方法，其特征在于，所述词典数据还包括与所述词条对应的发音。

20.根据权利要求19所述的方法，其特征在于，该方法还包括：从所述应用优化数据库中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。

21.根据权利要求14所述的方法，其特征在于，该方法还包括：针对所述已创建的应用定制语音合成数据，并将所述语音合成数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。

22.根据权利要求21所述的方法，其特征在于，所述语音合成数据包括标注有发音和/或韵律停顿规则的文本信息。

23.根据权利要求14所述的方法，其特征在于，该方法还包括：针对所述已创建的应用定制语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库。

24.根据权利要求14所述的方法，其特征在于，该方法还包括：将所述应用优化数据库同步到线上运行环境的应用优化数据库，以发布所述已创建的应用。

25.根据权利要求24所述的方法，其特征在于，该方法还包括：在将所述应用优化数据库同步到所述线上运行环境的应用优化数据库之前，先对所述已创建的应用进行测试，并在测试通过之后，再将所述应用优化数据库同步到所述线上运行环境的应用优化数据库。

26.根据权利要求14-25中任一权利要求所述的方法，其特征在于，所述应用优化数据库还存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务；以及所述方法还包括：根据用于指示要使用的语音服务方案模板和服务的应用创建指示，从所述应用优化数据库中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

智能语音服务开发云平台及方法

技术领域

[0001] 本发明涉及语音服务开发领域，具体地，涉及一种智能语音服务开发云平台及方法。

背景技术

[0002] 让智能家电、汽车、智能玩具、互联网等智能产品获得理解自然语音及语言的能力，能够与用户进行自然对话，是智能产品发展的一大重要趋势。与此同时，语音识别、语义理解、语音合成等专业性技术也逐渐产业化、实用化。在这样的产业需求下，多家语音技术公司都推出了各自的智能语音开发云平台，将基于云端的智能语音交互技术开放给开发者，从而使普通应用开发者能够便捷高效地开发具有语音交互能力的产品。

[0003] 在现有的智能语音开发云平台中，应用开发者可以创建一个支持智能语音交互的应用，通过下载SDK(软件开发工具包)，能够调用平台的语音识别、语义理解和语音合成等服务。然而现有平台存在的问题是开发者难以实现对特定应用的优化。

[0004] 开发者的应用往往是面向特定领域的，如医疗领域的病例语音转写，餐饮领域的语音点菜，金融领域的基金语音查询等等，而智能语音开发云平台又是通用的，面向所有开发者的。这导致特定应用的智能语音交互效果会受到很大影响，特别是对一些领域特定词汇，如金融领域的基金名称，医疗领域的药品名称，语音识别效果都不够理想。因此，开发者有很大的针对其应用的优化需求。

[0005] 对开发者的优化需求，现有的智能语音开发平台很难及时满足。通过现有的智能语音开发平台，当发现有语音识别、语义理解或语音合成错误时，开发者无法自行优化，因现有的智能语音开发平台没有提供优化功能，开发者只能联系平台的技术支持人员，反馈问题，然后由平台技术支持人员再反馈给公司的平台开发人员，对公有云服务进行后续优化。这种解决方法耗时长、无法及时解决应用的优化需求。此外，在后台实施优化时，需要开发者对语音识别、语义理解、语音合成等这些服务的技术原理有比较清晰的了解，并且需要开发者逐一对各个服务引擎做优化。这样大大增加了优化实施的门槛，增加了开发者的优化开发难度。

发明内容

[0006] 本发明的目的是提供一种能够实现对应用进行优化定制的智能语音服务开发云平台及方法。

[0007] 为了实现上述目的，本发明提供一种智能语音服务开发云平台。该开发云平台包括：应用优化数据库；内容服务优化模块，用于接收用户针对已创建的应用定制的输入句式和与该输入句式对应的输出数据，并将所述输入句式和所述输出数据存储到所述应用优化数据库；语音识别模块，用于从所述应用优化数据库获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型；以及语义理解模块，用于从所述应用优化数据库获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。

[0008] 优选地，该开发云平台还包括：同义词优化模块，用于接收用户针对所述已创建的应用定制的同义词，并将所述同义词存储到所述应用优化数据库。

[0009] 优选地，所述内容服务优化模块还用于在接收到所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语，并在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展，之后，再将扩展后的输入句式存储到所述应用优化数据库。

[0010] 优选地，所述输出数据包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素。

[0011] 优选地，所述语义理解模块还用于在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果来确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

[0012] 优选地，该开发云平台还包括：应答数据源优化模块，用于接收用户针对所述已创建的应用定制的应答数据源，并将该应答数据源存储到所述应用优化数据库；以及所述语义理解模块根据所述第一信息元素所表示的语义解析结果来从所述应用优化数据库中确定要返回的应答数据所来自的应答数据源。

[0013] 优选地，所述开发云平台还包括：语音识别优化模块，用于接收用户针对所述已创建的应用定制的词典数据，其中，该词典数据包括词典名称和词条，并将该词典数据存储到所述应用优化数据库；以及所述语音识别模块还用于从所述应用优化数据库获取所述词典数据，并根据该词典数据更新所述语音识别模型。

[0014] 优选地，所述词典数据还包括与所述词条对应的发音。

[0015] 优选地，该开发云平台还包括：语音合成模块，用于从所述应用优化数据库中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。

[0016] 优选地，该开发云平台还包括：语音合成优化模块，用于接收用户针对所述已创建的应用定制的语音合成数据，并将所述语音合成数据存储到所述应用优化数据库；以及语音合成模块，用于从所述应用优化数据库获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。

[0017] 优选地，所述语音合成数据包括标注有发音和/或韵律停顿规则的文本信息。

[0018] 优选地，该开发云平台还包括：语音唤醒优化模块，用于接收用户针对所述已创建的应用定制的语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库。

[0019] 优选地，该开发云平台还包括：同步模块，用于接收用户针对所述已创建的应用的发布指令，并在接收到所述发布指令之后，将所述应用优化数据库同步到线上运行环境的应用优化数据库，以发布所述已创建的应用。

[0020] 优选地，该开发云平台还包括：测试模块，用于接收用户针对所述已创建的应用输入的包括测试类型和测试数据的测试信号，并根据所述测试类型和所述测试数据的类型，确定所述测试信号的目的地，并向所述目的地发送所述测试信号以进行测试；以及所述测试模块还用于接收针对所述测试信号的测试结果，并输出所述测试结果；其中，所述测试类型包括语音识别测试、语义理解测试和语音合成测试中的至少一者，以及所述目的地为语音识别模块、语义理解模块或语音合成模块。

[0021] 优选地，所述应用优化数据库还存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务；以及所述开发云平台还包括：应用创建模块，用于从用户接收用于指示要使用的语音服务方案模板和服务的应用创建指示，根据该应用创建指示从所述应用优化数据库中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

[0022] 本发明还提供一种用于智能语音服务开发的方法。该方法包括：针对已创建的应用定制输入句式和与该输入句式对应的输出数据；将所述输入句式和所述输出数据存储到应用优化数据库；从所述应用优化数据库获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型；以及从所述应用优化数据库获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。

[0023] 优选地，该方法还包括：针对所述已创建的应用定制同义词，并将所述同义词存储到所述应用优化数据库。

[0024] 优选地，该方法还包括：在定制所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语；在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展；之后，再将扩展后的输入句式存储到所述应用优化数据库。

[0025] 优选地，所述输出数据包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素。

[0026] 优选地，该方法还包括：在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果来确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

[0027] 优选地，该方法还包括：针对所述已创建的应用定制应答数据源，并将该应答数据源存储到所述应用优化数据库；以及根据所述第一信息元素所表示的语义解析结果来从所述应用优化数据库中确定要返回的应答数据所来自的应答数据源。

[0028] 优选地，该方法还包括：针对所述已创建的应用定制词典数据，其中，该词典数据包括词典名称和词条，并将该词典数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述词典数据，并根据该词典数据更新所述语音识别模型。

[0029] 优选地，所述词典数据还包括与所述词条对应的发音。

[0030] 优选地，该方法还包括：从所述应用优化数据库中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。

[0031] 优选地，该方法还包括：针对所述已创建的应用定制语音合成数据，并将所述语音合成数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。

[0032] 优选地，所述语音合成数据包括标注有发音和/或韵律停顿规则的文本信息。

[0033] 优选地，该方法还包括：针对所述已创建的应用定制语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库。

[0034] 优选地，该方法还包括：将所述应用优化数据库同步到线上运行环境的应用优化数据库，以发布所述已创建的应用。

[0035] 优选地，该方法还包括：在将所述应用优化数据库同步到所述线上运行环境的应用优化数据库之前，先对所述已创建的应用进行测试，并在测试通过之后，再将所述应用优化数据库同步到所述线上运行环境的应用优化数据库。

[0036] 优选地，所述应用优化数据库还存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务；以及所述方法还包括：根据用于指示要使用的语音服务方案模板和服务的应用创建指示，从所述应用优化数据库中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

[0037] 通过上述技术方案，可以实现对应用的优化定制。用户可以定制应用所需的输入句式和与该输入句式对应的输出数据，并且语音识别模型可以根据用户定制的输入句式来更新语音识别模型，以及语义理解模块可以根据用户定制的输入句式和输出数据来更新语义理解模型。这样，可以提高语音识别模块对应用特定的输入句式的识别准确度，以及提高语义理解模块对应用特定的输入句式的语义理解的正确率，从而满足用户对应用的优化定制需求。此外，用户定制的输入句式可以同时被语音识别模块和语义理解模块调用，以分别更新各自的模型，从而可以动态调整输出结果。由此，用户不需要针对语音识别和语义理解逐一进行句式优化，仅通过一次句式定制操作就可以实现对新输入句式的语音识别更新和语义理解更新，从而可以降低开发者的工作量和开发难度。并且，所有优化操作均由用户在线完成，无需平台的后台技术支持人员参与，从而可以大大降低优化定制的开发周期，便于开发者快速实施优化，定制专属的智能语音交互应用。

[0038] 本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

[0039] 附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

[0040] 图1是根据本发明的实施方式的智能语音服务开发云平台的图示；

[0041] 图2是根据本发明的另一实施方式的智能语音服务开发云平台的图示；

[0042] 图3是根据本发明的另一实施方式的智能语音服务开发云平台的图示；

[0043] 图4是根据本发明的另一实施方式的智能语音服务开发云平台的图示；

[0044] 图5是根据本发明的另一实施方式的智能语音服务开发云平台的图示；

[0045] 图6是根据本发明的另一实施方式的智能语音服务开发云平台的图示；

[0046] 图7是根据本发明的另一实施方式的智能语音服务开发云平台的图示；以及[0047] 图8是根据本发明的实施方式的用于智能语音服务开发的方法的流程图。

[0048] 附图标记说明

[0049] 10应用优化数据库 20内容服务优化模块

[0050] 30语音识别模块 40语义理解模块

[0051] 50同义词优化模块 60应答数据源优化模块

[0052] 70语音识别优化模块 80语音合成模块

[0053] 90语音合成优化模块 100语音唤醒优化模块

[0054] 110测试模块 120同步模块

[0055] 130线上运行环境的应用优化数据库

具体实施方式

[0056] 以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

[0057] 本发明提供一种智能语音服务开发云平台。用户可以通过本发明提供的所述开发云平台，创建所需要的语音交互应用，例如，智能电视语音交互应用、智能家居语音交互应用、智能车载语音交互应用等等。应用可以支持多种服务。在本发明中，所述服务可以分为两类，一是内容服务，二是技术服务。技术服务主要包括语音识别、语音唤醒、语义理解和语音合成等，而内容服务主要包括应用覆盖的具体内容，例如，电视操作、影视节目、天气查询等等。用户可以通过本发明提供的智能语音服务开发云平台，对应用所支持的技术服务和/或内容服务进行优化定制，从而满足应用的特定需求。下面将分别对各种优化定制操作进行详细描述。

[0058] 首先，用户可以通过本发明提供的智能语音服务开发云平台，对创建的应用进行内容服务优化。内容服务优化主要包括动作定制，其表示用户期望针对应用的某个内容服务定义新的动作。动作可以由定义的输入句式和与该输入句式对应的输出数据组成。因此，对动作的定制即为对输入句式和与该输入句式对应的输出数据的定制。

[0059] 图1示出了根据本发明的实施方式的智能语音服务开发云平台的示意图。如图1所示，该智能语音服务开发云平台可以包括：应用优化数据库10；内容服务优化模块20，用于接收用户针对已创建的应用定制的输入句式和与该输入句式对应的输出数据，并将所述输入句式和所述输出数据存储到所述应用优化数据库10；语音识别模块30，用于从所述应用优化数据库10获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型，从而可以动态调整输出结果；以及语义理解模块40，用于从所述应用优化数据库10获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型，从而可以动态调整输出结果。

[0060] 具体地，用户可以通过内容服务优化模块20输入期望定制的输入句式和与该输入句式对应的输出数据，其中，输出数据可以表示该输入句式的语义解析结果。例如，在电视操作服务中，假设期望定制的输入句式为：“我不想看了”，那么，其对应的输出数据的结构可以为：“operator”＝“ACT_STOP”，“operands”＝“CURRENT_OBJECT”。

[0061] 在用户输入了输入句式和对应的输出数据之后，该输入句式和输出数据可以被存储到应用优化数据库10中。之后，语音识别模块30可以从该应用优化数据库10中获取所述输入句式，并根据该输入句式来更新语音识别模型，以提高语音识别模块30对该输入句式的识别准确率。同时，语义理解模块40可以从该应用优化数据库10中获取所述输入句式和所述输出数据，并根据该输入句式和输出数据来更新语义理解模型，以提高语义理解模块40对该输入句式的语义理解的准确率，从而满足用户对应用的优化定制需求。

[0062] 由于用户定制的输入句式可以同时被语音识别模块和语义理解模块调用，以分别更新各自的模型，由此，用户不需要针对语音识别和语义理解逐一进行句式优化，仅通过一次句式定制操作就可以实现对新输入句式的语音识别更新和语义理解更新，从而可以降低开发者的工作量和开发难度。

[0063] 用户定制的输入句式可以为纯文本信息，例如“我不想看了”，也可以为标注有同义词符号的文本信息，例如“我不想[看]了”。其中，“[]”为所述同义词符号，该符号表示该输入句式应当包括与被该符号标注的词语相关的所有同义词，从而实现对输入句式的扩展。为了实现利用同义词对输入句式的扩展，用户可以首先通过本发明提供的所述开发云平台来进行同义词定制。之后，平台再利用用户定制的同义词对输入句式进行扩展。

[0064] 对此，如图2所示，本发明提供的所述开发云平台还可以包括：同义词优化模块50，用于接收用户针对所述已创建的应用定制的同义词，并将所述同义词存储到所述应用优化数据库10。在这种情况下，所述内容服务优化模块20还可以用于在接收到所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语，并在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库10中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展，之后，再将扩展后的输入句式存储到所述应用优化数据库10。

[0065] 例如，用户首先通过同义词优化模块50定制了一组同义词：看|看见|观看，该组同义词可以被存储在应用优化数据库10中。之后，用户通过内容服务优化模块20定制了“我不想[看]了”的输入句式，和与该输入句式对应的输出数据。之后，内容服务优化模块20可以对该输入句式进行解析，并确定该输入句式中包括了标注有同义词符号的词语，并且确定出该词语为“看”。之后，内容服务优化模块20可以从应用优化数据库10查询与该词语相关的同义词。例如，查询到的同义词为“看见”和“观看”。之后，内容服务优化模块20可以利用查询到的同义词来对原来的输入句式进行扩展。可选地，在扩展的同时，去除掉所述同义词符号。例如，扩展后的输入句式为“我不想看了”、“我不想看见了”以及“我不想观看了”。这些扩展后的输入句式均对应用户定制的针对“我不想[看]了”的输入句式的输出数据。之后，内容服务优化模块20再将扩展后的输入句式存储到所述应用优化数据库10。这样，语音识别模块30和语义识别模块40就可以调用所述扩展后的输入句式来对各自的模型进行更新。

[0066] 通过同义词可以对输入句式起到泛化作用，从而使得与该输入句式同义的输入句式同样能够被准确识别。同时，还省去了用户一一输入这些输入句式的需要，便于用户操作。

[0067] 此外，用户在定制与输入句式对应的输出数据时，不仅可以在该输出数据中定义与所述输入句式对应的语义解析结果，还可以在该输出数据中定义是否需要返回与所述输入句式对应的应答数据。所谓应答数据，是指针对所述输入句式的答案。通常在输入句式表示搜索、查询的含义时，需要该应答数据。用户可以在输出数据中定义是否需要返回对该搜索、查询的结果(即，所述应答数据)。

[0068] 也就是说，用户定制的输出数据可以包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素。在这种情况下，所述语义理解模块40还可以用于在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果来确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

[0069] 例如，假设用户定制的输入句式为：“北京天气如何”，那么用户可以在输出数据中首先定义表示与“北京天气如何”对应的语义解析结果的第一信息元素。此外，用户还可以在输出数据中定义第二信息元素，以表示用户期望返回与该输入句式对应的应答数据。在该示例中，所述应答数据应为气象数据。语义理解模块40在获取到这一输出数据之后，其可以根据第一信息元素指示的语义解析结果，确定要返回的应答数据所来自的应答数据源。针对该示例，语义理解模块40可以确定出应答数据源应当是气象数据源。之后，语义理解模块40可以将该气象数据源与所述输出数据相关联。这样，再次对“北京天气如何”这一句式进行语义理解时，语义理解模块40就可以从相关联的应答数据源获取相应的应答数据，并且返回包括语义解析结果和关于北京天气的具体数据信息(即，所述应答数据)的语义理解结果。

[0070] 所述应答数据源可以是所述开发云平台自身所带的应答数据源，也可以是用户定制的应答数据源。在第二种情况下，如图3所示，所述开发云平台还可以包括：应答数据源优化模块60，用于接收用户针对所述已创建的应用定制的应答数据源，并将该应答数据源存储到所述应用优化数据库10；以及所述语义理解模块40根据所述第一信息元素所表示的语义解析结果来从所述应用优化数据库10中确定要返回的应答数据所来自的应答数据源。

[0071] 参考上面结合内容服务优化模块20描述的内容可以看出，内容服务优化模块20可以将用户定制的输入句式经由应用优化数据库10提供给语音识别模块30。此时语音识别模块30利用该输入句式进行语音识别模型更新，主要是为了提高对新句式的识别准确率。而对于已有句式，往往不需要再对该句式进行定制，因为现有的语音识别模型能够识别出该句式。但有时候需要对该句式中包含的新词条进行识别，此时就需要对该新词条进行定制，并利用定制的新词条来更新语音识别模型，如下面进一步描述的。

[0072] 图4示出了根据本发明的这一实施方式的智能语音服务开发云平台的示意图。如图4所示，所述开发云平台还可以包括：语音识别优化模块70，用于接收用户针对所述已创建的应用定制的词典数据，其中，该词典数据包括词典名称和词条，并将该词典数据存储到所述应用优化数据库10；以及所述语音识别模块30还用于从所述应用优化数据库10获取所述词典数据，并根据该词典数据更新所述语音识别模型。

[0073] 具体地，例如，针对视频类应用，用户期望在输入“我想看xiǎo shuō”这一语音信号后，能够得到“我想看晓说”(注：《晓说》为某栏目名称)这一语音识别结果。然而，如果不对语音识别进行优化定制(换言之，对“晓说”这个词条进行定制)，那么当用户输入“我想看xiǎo shuō”时，语音识别模块30的识别结果会是“我想看小说”，这是因为在用于语音识别模型训练的基础文本语料中，“看小说”这个词汇组合远远多于“看晓说”。

[0074] 对于这种情况，由于句式“我想看

[0075] 此外，所述词典数据还可以包括与所述词条对应的发音。例如，假设用户要在video词典中定制的词条为“芈月传”。由于其中的“芈”字为生僻字，在通用的语音识别模型中没有包含，因此，为了提高对该字的语音识别的准确率，用户还可以在定制的词典数据中添加该词条的发音。这样，语音识别模块30在根据该词典数据进行语音识别模型更新之后，可以获得对“芈月传”的准确识别结果。

[0076] 此外，如图4所示，该开发云平台还可以包括：语音合成模块80。并且，在所述词典数据还包括与所述词条对应的发音的情况下，该语音合成模块80可以从所述应用优化数据库10中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。在更新了语音合成模型之后再对定制的词条进行语音播报时，语音合成模块80就可以按照定制的词条发音来进行播报，从而提高语音播报的准确率。

[0077] 与定制的输入句式可以同时被语音识别模块30和语义理解模块40调用相类似，对于定制的包含词条发音的词典数据，其可以同时被语音识别模块30和语音合成模块80来调用，以分别更新各自的模型，从而可以动态调整输出结果。由此，用户不需要针对语音识别和语音合成逐一进行优化，仅通过一次包含词条发音的词典数据的定制操作就可以实现对新词条的语音识别更新和语音合成更新，从而可以降低开发者的工作量和开发难度。

[0078] 除了利用词典数据中的词条和词条发音来对语音合成模型进行更新之外，还可以利用用户针对语音合成专门定制的语音合成数据来更新语音合成模型。在这种情况下，如图5所示，所述开发云平台还可以包括：语音合成优化模块90，用于接收用户针对所述已创建的应用定制的语音合成数据，并将所述语音合成数据存储到所述应用优化数据库10。语音合成模块80可以从所述应用优化数据库10获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。其中，所述语音合成数据可以包括标注有发音和/或韵律停顿规则的文本信息。也就是说，语音合成的定制优化可以包括对发音的定制优化和/或播报时的韵律停顿规则的定制优化。

[0079] 首先，语音合成的定制优化可以包括对发音的优化。在语音播报时，可能会面临以下问题：同一文本信息在不同的场景下，需要播报出不同的发音。例如，在体育赛事播报场景下，比分“3：20”需要播报成“3比20”，而在时间播报场景下，“3：20”需要播报成“3点20”，冒号的发音在这两种场景下是不同的。又或者，有些字是多音字，具有多种发音，在不同的应用中可能要发出不同的音。对于这种情形，用户可以根据应用对发音的需求，定制专属的语音合成数据，以满足该应用特定的要求。

[0080] 此外，语音合成的定制优化还可以包括对播报时的韵律停顿规则的定制优化。语音合成播报节奏的改善能够提升播报的体验，用户可根据自己希望的朗读方式，通过韵律停顿标注规则，对待合成的文本加入必要的韵律停顿，灵活控制语音合成的朗读方式，实现用户个性化定制朗读方式的需求。例如，一个韵律停顿规则可以被标注为：“固定资产投资额|虽然|仅增长百分之一，但却是|连年|大幅度下滑后的|首次回升”。如此，在语音合成模型更新之后再播报该文本信息时，语音合成模块80将会按照定制的韵律停顿规则来进行播报，从而改善用户体验。

[0081] 图6示出了根据本发明的另一实施方式的智能语音服务开发云平台的示意图。如图6所示，该开发云平台还可以包括：语音唤醒优化模块100，用于接收用户针对所述已创建的应用定制的语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库10。由此，可以实现用户对语音唤醒词的定制需求。

[0082] 应当理解的是，本发明的发明构思主要在于通过在智能语音服务开发云平台上提供各种优化模块来在线实现对应用的优化定制，从而大大降低优化定制的开发周期，便于开发者快速实施优化，定制专属的智能语音交互应用。至于语音识别模块30、语义理解模块40以及语音合成模块80如何根据定制的信息来进行模型更新，均是本领域的技术人员公知的，并非本发明的发明构思所在。对此，本发明在此不进行详细描述。

[0083] 为了检验优化的效果，如图7所示，本发明提供的所述开发云平台还可以包括：测试模块110，可以用于接收用户针对所述已创建的应用输入的包括测试类型和测试数据的测试信号，并根据所述测试类型和所述测试数据的类型，确定所述测试信号的目的地，并向所述目的地发送所述测试信号以进行测试；以及所述测试模块110还可以用于接收针对所述测试信号的测试结果，并输出所述测试结果；其中，所述测试类型可以包括语音识别测试、语义理解测试和语音合成测试中的至少一者，以及所述目的地为语音识别模块30、语义理解模块40或语音合成模块80。

[0084] 例如，假设所述测试信号中的所述测试数据为一语音数据，所述测试类型包括语音识别测试，那么所述测试模块110可以根据该测试类型确定出所述测试信号的目的地为语音识别模块30，并将该测试信号发送至该语音识别模块30以进行语音识别。在识别之后，语音识别模块30可以得出识别结果，并将该识别结果作为测试结果返回给所述测试模块110。之后，所述测试模块110再将该测试结果反馈给用户，以由用户判断测试结果是否正确。

[0085] 此外，对于上述相同的测试数据，所述测试类型还可以包括语义理解测试。在这种情况下，所述测试模块110仍可以将该测试信号首先发送至语音识别模块30。在语音识别模块30得到识别结果之后，该语音识别模块30可以将该识别结果发送至语义理解模块40，以进行语义理解。在语义理解模块40完成对该识别结果的语义理解之后，可以得出语义理解结果，并将所述识别结果和所述语义理解结果作为测试结果返回给测试模块110。之后，所述测试模块110再将该测试结果反馈给用户，以由用户判断测试结果是否正确。

[0086] 而假设所述测试信号中的所述测试数据为一文本数据，那么所述测试类型可以包括语义理解测试和/或语音合成测试。语义理解模块40在对所述测试数据进行语义理解之后，将语义理解结果作为测试结果返回给测试模块110，和/或语音合成模块80在对所述测试数据进行语音合成之后，将语音合成结果作为测试结果返回给测试模块110。之后，由该测试模块110将测试结果反馈给用户，以由用户判断测试结果是否正确。

[0087] 在用户认为测试结果不正确的情况下，其可以按照上面描述的优化方式再对应用重新进行优化，并进行测试，直到测试结果正确为止。而在测试结果正确的情况下，表明对应用定制的优化通过测试，此时就可以将优化后的应用发布，正式上线。对此，如图7所示，本发明提供的所述开发云平台还可以包括：同步模块120，用于接收用户针对所述已创建的应用的发布指令，并在接收到所述发布指令之后，将所述应用优化数据库10同步到线上运行环境的应用优化数据库130，以发布所述已创建的应用。

[0088] 如图7所示，本发明提供的智能语音服务开发云平台可以分为两部分，一是开发者平台，二是线上运行环境。用户可以首先在开发者平台上对应用进行优化定制，并且所有优化数据均可以存储到应用优化数据库10中。在优化测试通过后，再通过同步模块120将开发者平台上的应用优化数据库10同步到线上运行环境的应用优化数据库130，以将优化数据正式部署到线上运行环境中。这样，开发者调用在线服务时，就能获取到优化后的结果。

[0089] 在本发明中，同步模块120可以采用多种方式来实现两个应用优化数据库之间的数据同步。例如，可以采用基于数据库同步的方法，也可以利用基于消息队列的发布-订阅(Pub-Sub)机制等等。这些数据同步方式均是本领域技术人员公知的，对此，本发明在此不进行赘述。

[0090] 在应用发布之后，用户就可以通过下载SDK来在本地进行进一步开发。由于对应用很多的优化定制都已经在本发明提供的所述开发云平台上实现，因此，可以大大减小开发者在下载SDK之后的本地开发的工作量，并降低本地开发的难度，节省开发时间。

[0091] 如上所述，本发明所提出的各种优化机制均是针对创建的应用的。因此，在优化之前，首先要通过本发明提供的所述开发云平台来创建一个应用，之后，再根据需求，利用各优化模块对应用进行优化定制。

[0092] 为此，本发明提供的所述开发云平台还可以包括应用创建模块(未示出)。用户可以首先通过该应用创建模块来创建一个应用，之后，再利用平台上的各优化模块对所创建的应用实施优化。

[0093] 为了便于快速开发，在所述应用优化数据库10中还可以预先存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务(即，上面所述的内容服务和技术服务)。所述应用创建模块可以从用户接收用于指示要使用的语音服务方案模板和服务的应用创建指示，根据该应用创建指示从所述应用优化数据库10中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

[0094] 例如，所述语音服务方案模板可以包括智能电视语音交互方案模板、智能家居语音交互方案模板、智能车载语音交互方案模板等等。每种方案模板下支持各自的服务。用户可以首先选择应用所适用的方案模板。在选择了应用适用的方案模版之后，用户就可以获得该方案模版下所支持的服务的列表，并可以对服务列表进行配置。例如，从该服务列表中删除应用不需要的服务。之后，应用创建模块就可以根据用户选择的语音服务方案模板和服务来创建应用，其中，所创建的应用支持经用户配置后的服务。如果服务列表中所包括的服务不能全部满足用户需求，那么用户还可以通过本发明提供的所述开发云平台来创建一个新服务，并通过上面所述的内容服务优化模块20来对该新服务的输入句式和对应的输出数据进行优化定制。

[0095] 通过这一方式，可以将多种现有的语音交互方案集成在平台中，用户可以选择应用所适用的方案，以及应用需要支持的服务。这样，就完成了应用的初步开发。之后，用户可以按照需要对应用进行优化定制，从而完善应用。由此，可以降低开发难度和成本，大大提高应用开发效率。

[0096] 图8示出了根据本发明的实施方式的用于智能语音服务开发的方法。如图8所示，该方法可以包括：步骤S1，针对已创建的应用定制输入句式和与该输入句式对应的输出数据；步骤S2，将所述输入句式和所述输出数据存储到应用优化数据库；步骤S3，从所述应用优化数据库获取所述输入句式，并根据所获取到的输入句式来更新语音识别模型；以及步骤S4，从所述应用优化数据库获取所述输入句式和所述输出数据，并根据所获取到的输入句式和输出数据来更新语义理解模型。

[0097] 虽然未示出，但所述方法还可以包括：针对所述已创建的应用定制同义词，并将所述同义词存储到所述应用优化数据库。

[0098] 此外，该方法还可以包括：在定制所述输入句式之后，先对所述输入句式进行解析以确定该输入句式是否包括标注有同义词符号的词语；在所述输入句式包括标注有同义词符号的词语的情况下，从所述应用优化数据库中查询与该词语相关的同义词，并根据所查询到的同义词对所述输入句式进行扩展；之后，再将扩展后的输入句式存储到所述应用优化数据库。

[0099] 所述输出数据可以包括用于表示与所述输入句式对应的语义解析结果的第一信息元素，以及用于表示是否需要返回与所述输入句式对应的应答数据的第二信息元素。在这种情况下，该方法还可以包括：在所述输出数据中的所述第二信息元素表示需要返回所述应答数据的情况下，根据所述第一信息元素所表示的语义解析结果来确定要返回的应答数据所来自的应答数据源，并将该应答数据源与所述输出数据相关联。

[0100] 此外，该方法还可以包括：针对所述已创建的应用定制应答数据源，并将该应答数据源存储到所述应用优化数据库；以及根据所述第一信息元素所表示的语义解析结果来从所述应用优化数据库中确定要返回的应答数据所来自的应答数据源。

[0101] 在另一优选的实施方式中，该方法还可以包括：针对所述已创建的应用定制词典数据，其中，该词典数据可以包括词典名称和词条，并将该词典数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述词典数据，并根据该词典数据更新所述语音识别模型。

[0102] 所述词典数据还可以包括与所述词条对应的发音。在这种情况下，该方法还可以包括：从所述应用优化数据库中获取所述词典数据包括的所述词条和所述发音，并根据所述词条和所述发音来更新语音合成模型。

[0103] 可替换地或附加地，该方法还可以包括：针对所述已创建的应用定制语音合成数据，并将所述语音合成数据存储到所述应用优化数据库；以及从所述应用优化数据库获取所述语音合成数据，并根据所获取到的语音合成数据来更新语音合成模型。其中，所述语音合成数据可以包括标注有发音和/或韵律停顿规则的文本信息。

[0104] 在另一优选的实施方式中，该方法还可以包括：针对所述已创建的应用定制语音唤醒词，并将该语音唤醒词存储到所述应用优化数据库。

[0105] 另外，该方法还可以包括：将所述应用优化数据库同步到线上运行环境的应用优化数据库，以发布所述已创建的应用。优选地，该方法还可以包括：在将所述应用优化数据库同步到所述线上运行环境的应用优化数据库之前，先对所述已创建的应用进行测试，并在测试通过之后，再将所述应用优化数据库同步到所述线上运行环境的应用优化数据库。

[0106] 此外，所述应用优化数据库还可以存储有多种语音服务方案模板以及每种语音服务方案模板支持的服务；以及所述方法还可以包括：根据用于指示要使用的语音服务方案模板和服务的应用创建指示，从所述应用优化数据库中获取所述要使用的语音服务方案模板和服务，并根据所获取到的语音服务方案模板和服务来创建应用。

[0107] 应当理解的是，上述方法中的每一步骤的具体原理和实现均与上面结合图1-图7描述的关于智能语音服务开发云平台的各个功能的原理和实现相一致，对此，本发明不再对其进行详细描述。

[0108] 综上所述，通过本发明提供的智能语音服务开发云平台及方法，可以实现对应用的优化定制。用户可以定制应用所需的输入句式和与该输入句式对应的输出数据，并且语音识别模型可以根据用户定制的输入句式来更新语音识别模型，以及语义理解模块可以根据用户定制的输入句式和输出数据来更新语义理解模型。这样，可以提高语音识别模块对应用特定的输入句式的识别准确度，以及提高语义理解模块对应用特定的输入句式的语义理解的正确率，从而满足用户对应用的优化定制需求。此外，用户定制的输入句式可以同时被语音识别模块和语义理解模块调用，以分别更新各自的模型，从而可以动态调整输出结果。由此，用户不需要针对语音识别和语义理解逐一进行句式优化，仅通过一次句式定制操作就可以实现对新输入句式的语音识别更新和语义理解更新，从而可以降低开发者的工作量和开发难度。并且，所有优化操作均由用户在线完成，无需平台的后台技术支持人员参与，从而可以大大降低优化定制的开发周期，便于开发者快速实施优化，定制专属的智能语音交互应用。

[0109] 以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

[0110] 另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

[0111] 此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

智能语音服务开发云平台及方法转让专利

申请号 : CN201410779258.6

文献号 : CN104538031B

文献日 : 2017-09-01

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张华 , 刘升平 , 李鹏 , 刘青松 , 梁家恩

申请人 : 北京云知声信息技术有限公司

摘要 :

权利要求 :

说明书 :