基于历史数据及机器学习自适应获取词库领域的方法及系统转让专利

申请号 : CN201711391038.6

文献号 : CN108255956B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 蔡劲松苏少炜陈孝良冯大航常乐

申请人 : 北京声智科技有限公司

摘要 :

本公开提供了一种基于历史数据及机器学习自适应获取语音词库领域的方法,包括:步骤S1,对语音识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元;步骤S2,摘取出语音指令中的动元,结合机器学习及用户历史数据,选择出数个词库;步骤S3,在选择的词库中用自然语言处理中的方法进行句法平面的分词,综合多个词库领域的结果进行评估,求取评估分值最高的领域作为最优结果,输出所述最优结果,同时更新用户历史数据;步骤S4,将最优结果结合语用平面的句类分析,确定最终的词库领域。通过用户历史词库的使用情况结合机器学习,自适应地从用户的历史数据中获取对应的领域,从而大大增加了灵活性以及准确性。

权利要求 :

1.一种基于历史数据及机器学习自适应获取语音词库领域的方法,包括:步骤S0,ASR识别引擎接收用户发出语音指令,进行语音识别,得到语音识别结果;

步骤S1,对语音识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元;

步骤S2,摘取出所述语音指令中的动元,根据所述动元结合机器学习所选择出的数个词库;并根据用户历史数据,选取用户使用最频繁的数个词库领域;

步骤S3,在选择的词库中用自然语言处理方法进行句法平面的分词,综合多个词库领域的结果进行评估,求取评估分值最高的领域作为最优结果,输出所述最优结果,更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化,所述权值为所述名词的出现的概率,其中,综合多个词库领域的结果进行评估包括对语音识别结果中词与词之间的关联程度进行评估;

步骤S4,将最优结果结合语用平面的句类分析,确定最终的词库领域。

2.根据权利要求1所述的方法,其中,所述步骤S1中进行语义平面的句模分类采用模式匹配算法,获取语音指令中的动核以及与其相关的动元。

3.根据权利要求1所述的方法,其中,所述步骤S2中所述机器学习为深度学习。

4.根据权利要求1所述的方法,其中,

所述步骤S3中,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词;在选择最短路径是采用贪心算法或Dijkstra最短路径算法。

5.根据权利要求1所述的方法,其中,所述步骤S3中,

综合多个词库领域的结果进行评估包括:对最短路算法结果进行评估。

6.根据权利要求1所述的方法,所述步骤S0中,所述ASR识别引擎采用自动语音识别技术。

7.一种基于历史数据及机器学习自适应获取语音词库领域的系统,包括:ASR识别引擎,用于接收用户发出语音指令,进行语音识别,得到语音识别结果;

语义平面分析模块,对语音识别结果进行句模分类,找到语音指令中的动核以及与其相关的动元;摘取出所述语音指令中的动元,根据所述动元结合机器学习所选择出的数个词库;并根据用户历史数据,选取用户使用最频繁的数个词库领域;

句法平面分析模块,在选择的词库中对进行句法分词,并综合多个词库领域的结果进行评估,求取评估分值最高的词库领域作为最优结果,输出所述最优结果,更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化,所述权值为所述名词的出现的概率,其中,综合多个词库领域的结果进行评估包括对语音识别结果中词与词之间的关联程度进行评估;

语用平面分析模块,将所述最优结果结合语用平面的句类分析,确定最终的词库领域。

8.根据权利要求7所述的系统,其中,所述语义平面分析模块包括:句模分类子模块,对所述识别结果进行语义平面的句模分类,采用模式匹配算法,找到语音指令中的动核以及与其相关的动元;

机器选择子模块,在摘取出动元之后,送往结合机器深度学习所选择出的数个词库;

历史选择子模块,根据用户历史数据,送往该用户使用最频繁的数个词库领域。

9.根据权利要求7所述的系统,其中,所述句法平面分析模块包括:分词子模块,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词;

评估及更新子模块,通过对词与词之间的关联程度进行评估,对最短路算法结果进行评估,求取评估分值最高的领域作为最优结果;并且更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化。

10.根据权利要求7所述的系统,所述ASR识别引擎采用自动语音识别技术。

说明书 :

基于历史数据及机器学习自适应获取词库领域的方法及系统

技术领域

[0001] 本公开涉及人工智能语音交互领域,尤其涉及一种基于历史数据及机器学习自适应获取词库领域的方法及系统。

背景技术

[0002] 智能音箱作为人机交互方式的探索方向之一,在近几年不断的发展下,各家厂商都在开发ASR并且利用中文分词来进行词义理解。由于中文的特点,复句的分析十分复杂且消耗时间。所以ASR厂商一般会让用户选择对应的词库来匹配对应的领域,如音乐领域、聊天领域等,以减少算法的复杂度。
[0003] 但是智能音箱收到的语音指令多为简单句,即只有一个动核结构,并且多为祈使句和疑问句,模式也是比较有限的,这使得我们可以根据智能音箱的收到的语音指令特点,进行识别结果和对应领域的优化。
[0004] 现有的智能音箱语音词库领域的选择缺乏灵活性,一般是需要手动指定,或通过调用参数,或者在申请ASR服务的时候手动填入。并且当指定了词库领域的之后,并没有办法根据用户的使用场景和历史数据进行相应的调整。
[0005] 公开内容
[0006] (一)要解决的技术问题
[0007] 本公开提供了一种基于历史数据及机器学习自适应获取语音词库领域的方法及系统,以至少部分解决以上所提出的技术问题。
[0008] (二)技术方案
[0009] 根据本公开的一个方面,提供了一种基于历史数据及机器学习自适应获取语音词库的方法,包括:步骤S1,对语音识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元;步骤S2,摘取出所述语音指令中的动元,结合机器学习及用户历史数据,选择出数个词库;步骤S3,在选择的词库中用自然语言处理方法进行句法平面的分词,综合多个词库领域的结果进行评估,求取评估分值最高的领域作为最优结果,输出所述最优结果,同时更新用户历史数据;步骤S4,将最优结果结合语用平面的句类分析,确定最终的词库领域。
[0010] 在本公开一些实施例中,所述步骤S1中进行语义平面的句模分类采用模式匹配算法,获取语音指令中的动核以及与其相关的动元。
[0011] 在本公开一些实施例中,所述步骤S2包括:将语音指令中的动核以及与其相关的动元分离,并摘取出动元,根据动元结合机器深度学习所选择出的数个词库;并根据用户历史数据,选取用户使用最频繁的数个词库领域。
[0012] 在本公开一些实施例中,所述步骤S3中,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词;在选择最短路径是采用贪心算法或Dijkstra最短路径算法。
[0013] 在本公开一些实施例中,所述步骤S3中,综合多个词库领域的结果进行评估包括:对词与词之间的关联程度进行评估,以及对最短路算法结果进行评估;更新用户历史数据包括:更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化。
[0014] 在本公开一些实施例中,所述步骤S1之前还包括:步骤S0,ASR识别引擎接收用户发出语音指令,进行语音识别,得到语音识别结果。
[0015] 根据本公开的另一个方面,提供了一种基于历史数据及机器学习自适应获取语音词库领域的系统,包括:语义平面分析模块,对语音识别结果进行句模分类,并将分类结果送往选择的多种词库;句法平面分析模块,在选择的词库中对进行句法分词,并综合多个词库领域的结果进行评估,输出所述最优结果;语用平面分析模块,将所述最优结果结合语用平面的句类分析,确定最终的词库领域。
[0016] 在本公开一些实施例中,所述语义平面分析模块包括:句模分类子模块,对所述识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元;机器选择子模块,在摘取出动元之后,送往结合机器深度学习所选择出的数个词库;历史选择子模块,根据用户历史数据,送往该用户使用最频繁的数个词库领域。
[0017] 在本公开一些实施例中,所述句法平面分析模块包括:分词子模块,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词;评估及更新子模块,通过对词与词之间的关联程度进行评估,对最短路算法结果进行评估,求取评估分值最高的领域作为最优结果;并且更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化。
[0018] 在本公开一些实施例中,ASR识别引擎,用于接收用户发出语音指令,进行语音识别,得到语音识别结果。
[0019] (三)有益效果
[0020] 从上述技术方案可以看出,本公开基于历史数据及机器学习自适应获取语音词库的方法及系统至少具有以下有益效果其中之一:
[0021] (1)通过用户历史词库的使用情况,优先找出使用频率高的词库,同时结合机器学习作为补充,自适应地从用户的历史数据中获取对应的领域,避免了通过参数或者其他方式强制指定用户使用特定的领域,从而大大增加了灵活性以及准确性;
[0022] (2)通过将句子分析划分为三个不同的方面,综合三个方面句法、句模以及语用方面的分析结果,减少分析的复杂度,提高识别准确性。

附图说明

[0023] 图1为本公开实施例基于历史数据及机器学习自适应获取语音词库领域的方法流程图。
[0024] 图2为本公开实施例基于历史数据及机器学习自适应获取语音词库领域的系统结构示意图。

具体实施方式

[0025] 本公开提供了一种基于历史数据及机器学习自适应获取语音词库领域的方法及系统。本公开采用将句子的类型划分成三个平面的分析方法:句法的、语义的和语用的。其中,根据句子的句法平面分出来的句子类型,可称为句型,比如把句子分为主谓句和非主谓句。根据句子语义平面分出来的句子类型,可称为句模,比如把句子分为“动核+主事”、“动核+主事+客事”。根据句子语用平面上分出来的句子类型,可称为句类,比如把句子分为陈述句、疑问句、祈使句等。
[0026] 因为从三个平面分析出来的句子类型是不一样的,而不同层面的组合可以使得句子分析结果和领域的选择更加合理。本公开用户语音指令词库领域的自适应选择,使得用户或者开发者无须指定对应的领域,并且能根据用户指令的历史数据,以及结合机器学习得到的领域为补充,快速地选择对应的领域。利用句子分析的三个方面,进行句子的分析,减少分析的复杂度。
[0027] 在描述问题的解决方案之前,先定义一些特定词汇的定义是有帮助的。
[0028] ASR Automatic Speech Recognition自动语音识别技术;
[0029] 动核一般由句子的谓语或谓语中心词的动词和形容词性成分;
[0030] 动元动核所联系着的强制性的语义成分。
[0031] 为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
[0032] 本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以许多不同形式实现,而不应被解释为限于此数所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
[0033] 在本公开的第一个示例性实施例中,提供了一种基于历史数据及机器学习自适应获取语音词库领域的方法。图1为本公开第一实施例自适应选择词库领域流程图的流程图。如图1所示,本公开基于历史数据及机器学习自适应获取语音词库的方法包括:
[0034] 步骤S0,ASR识别引擎接收用户发出语音指令,进行语音识别,得到识别结果;
[0035] 步骤S1,对所述识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元,动元即为主事客事等,大多数由名词成分表示;
[0036] 步骤S2,摘取出语音指令中的动元,结合机器深度学习选择出数个词库,同时根据用户历史数据,选择该用户使用最频繁的数个词库领域;
[0037] 步骤S3,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词,综合多个词库领域的结果进行评估,求取评估分值最高的领域作为最优结果,输出所述最优结果,同时更新用户历史数据;
[0038] 步骤S4,进行语用平面的句类分析,确定最终的词库领域。
[0039] 以下分别对本实施例自适应获取语音词库的方法的各个步骤进行详细描述。
[0040] 所述步骤S1中进行语义平面的句模分类,采用模式匹配算法,从而获取语音指令中的动核以及与其相关的动元。
[0041] 所述步骤S2中将语音指令中的动核以及与其相关的动元分离,并摘取出动元,根据动元结合机器深度学习所选择出的数个词库,例如:音乐、导航等;根据历史数据,选取用户使用最频繁的数个词库领域,例如:聊天、明星等。
[0042] 所述步骤S3中,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词;所述N-最短路径方法的原理为:每个句子将会生成一个有向无环图,每个字作为图的一个顶点,边代表可能的分词。每个边都具有一个权值(初始值为1),表示该词出现的概率;优选地,所述权值采用词典中获取的TF-IDF的值;在上述有向无环图中,寻找N条权值和最大的路径。通常,最短路径不止一条,在选择最短路径是采用贪心算法求解次优解或Dijkstra最短路径算法。由于最短路径的最优解和次优解在分词效果上相差不大,因此优选采用贪心算法求解最优路径;
[0043] 综合多个词库领域的结果进行评估包括:对词与词之间的关联程度(比如语音指令为“我想听姜育桓的再回首”,这里的“姜育桓”和“再回首”的关联程度就比“教育好呢”和“再回首”的关联程度高)进行评估,对最短路算法结果(比如“姜育桓”这个词就比“教育好呢”在最短路算法中评价更高)进行评估;
[0044] 更新用户历史数据包括:更新用户历史词库领域使用情况,以及通过历史数据,以及机器学习对词库内名词的权值进行优化。
[0045] 所述步骤S4,进行语用平面的句类分析包括:句子是发出疑问还是下达命令等进行分析,根据分析结果结合所述最优结果最终确定词库领域。
[0046] 本公开根据用户的历史数据综合机器学习,自适应地找到匹配的用户词库领域,并且动态地更新用户词库领域的使用情况。在句子分析方面,在句模方面找出句子的动核和动元,对动元在词库中进行句法方面的分析。最后综合句模方面和句法方面的分析,进行语用方面的分析,通过本公开的方法,能提高词库领域选择准确性,并提高语音指令的识别准确性。
[0047] 至此,本公开第一实施例基于历史数据及机器学习自适应获取语音词库领域的方法介绍完毕。
[0048] 在本公开的第二个示例性实施例中,提供了一种基于历史数据及机器学习自适应获取语音词库领域的系统。图2为本公开实施例基于历史数据及机器学习自适应获取语音词库领域的系统结构示意图。如图2所示,系统包括:ASR识别引擎、语义平面分析模块、句法平面分析模块及语用平面分析模块。
[0049] 以下分别对本实施例基于历史数据及机器学习自适应获取语音词库领域的系统的各个部分进行详细描述。
[0050] ASR识别引擎用于接收用户发出语音指令,进行语音识别,得到识别结果;
[0051] 语义平面分析模块,所述语义平面分析模块包括:
[0052] 句模分类子模块,对所述识别结果进行语义平面的句模分类,找到语音指令中的动核以及与其相关的动元(大多数由名词成分表示,即主事客事等);
[0053] 机器选择子模块,在摘取出动元之后,送往结合机器深度学习所选择出的数个词库;
[0054] 历史选择子模块,在摘取出动元之后,根据用户历史数据,同时送往该用户使用最频繁的数个词库领域。
[0055] 句法平面分析模块,所述句法平面分析模块包括:
[0056] 分词子模块,在选择的词库中用自然语言处理中的N-最短路径方法进行句法平面的分词,所述N-最短路径方法的原理为:每个句子将会生成一个有向无环图,每个字作为图的一个顶点,边代表可能的分词。每个边都具有一个权值(初始值为1),表示该词出现的概率;优选地,所述权值采用词典中获取的TF-IDF的值;在上述有向无环图中,寻找N条权值和最大的路径。通常,最短路径不止一条,在选择最短路径是采用贪心算法求解次优解或Dijkstra最短路径算法。由于最短路径的最优解和次优解在分词效果上相差不大,因此优选采用贪心算法求解最优路径;
[0057] 评估及更新子模块,综合多个词库领域的结果进行评估,求取评估分值最高的领域作为最优结果,输出所述最优结果,同时更新用户历史数据;
[0058] 所述取评估分值最高的领域包括:对词与词之间的关联程度(比如语音指令为“我想听姜育桓的再回首”,这里的“姜育桓”和“再回首”的关联程度就比“教育好呢”和“再回首”的关联程度高)进行评估,对最短路算法结果(比如“姜育桓”这个词就比“教育好呢”在最短路算法中评价更高)进行评估,
[0059] 更新用户历史数据包括:更新用户历史词库领域使用情况,以及通过历史数据和机器学习对词库内名词的权值进行优化。
[0060] 语用平面分析模块进行语用平面的句类分析,确定最终的词库领域。
[0061] 为了达到简要说明的目的,上述实施例1中任何可作相同应用的技术特征叙述皆并于此,无需再重复相同叙述。
[0062] 至此,本公开第二实施例基于历史数据及机器学习自适应获取语音词库领域的系统的各个部分介绍完毕。
[0063] 至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
[0064] 再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
[0065] 此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
[0066] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
[0067] 本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0068] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
[0069] 类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
[0070] 以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。