会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 人工智能 / 语音技术 / 语音识别 / 语音识别方法

语音识别方法

阅读:1033发布:2020-05-29

IPRDB可以提供语音识别方法专利检索,专利查询,专利分析的服务。并且本发明是指一种语音识别方法,其是利用一个人对机器下语音指令时,如果第一次无法被接受,通常会以同样的语音指令再说一次或数次这种重复输入语音指令的使用习惯,使得连续两次或数次被拒绝的结果能通过本发明的语音识别方法作适当的补救,以提高语音识别系统的正确率。,下面是语音识别方法专利的具体信息内容。

1.一种语音识别方法,包括下列步骤:

(a)于一第一时间提供一第一语音信号,并相应该第一语音信号产生一第 一候选词及一第一识别分数;

(b)判断该第一识别分数是否大于一第一门槛值,若否,则进行步骤(c);

(c)判断该第一识别分数是否大于一第二门槛值,若是,则储存该第一语 音信号,并进行步骤(d);

(d)于一第二时间提供一第二语音信号,并相应该第二语音信号产生一第 二候选词及一第二识别分数;

(e)判断该第二识别分数是否大于该第一门槛值,若否,则进行步骤(f);

(f)判断该第二识别分数是否大于该第二门槛值,若是,则进行步骤(g);

(g)判断下列二种情况是否同时成立,

(g1)该第二时间减去该第一时间所得结果小于一时间额定值;以及(g2)该第二候选词与该第一候选词相同;

若是,则进行步骤(h);

(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对,以产 生一比对分数;以及(i)判断该比对分数是否大于一第三门槛值,若是,则输出该第一候选词。

2.如权利要求1所述的语音识别方法,其特征在于:该第一门槛值大于该第二门槛值;及/或

该第一语音信号与该第二语音信号的内容完全相同。

3.如权利要求1所述的语音识别方法,其特征在于步骤(b)还包括另一步 骤:若该第一识别分数大于该第一门槛值,则输出该第一候选词。

4.如权利要求1所述的语音识别方法,其特征在于步骤(c)还包括另一步骤: 若该第一识别分数并非大于该第二门槛值,则结束该语音识别方法。

5.如权利要求1所述的语音识别方法,其特征在于步骤(e)还包括另一步骤: 若该第二识别分数大于该第一门槛值,则清除已储存的该第一语音信号并输 出该第二候选词。

6.如权利要求1所述的语音识别方法,其特征在于步骤(f)还包括另一步骤: 若该第二识别分数并非大于该第二门槛值,则结束该语音识别方法。

7.如权利要求1所述的语音识别方法,其特征在于步骤(g)还包括另一步 骤:若(g1)与(g2)二种情况并非同时成立,则清除已储存的该第一语音信号, 并储存该第二语音信号,且于一第三时间提供一第三语音信号,再利用该第 二语音信号及该第三语音信号重复步骤(d)~(g),其中该第一语音信号、该第二 语音信号及该第三语音信号的内容完全相同。

8.如权利要求1所述的语音识别方法,其特征在于步骤(h)将该第一语音 信号及该第二语音信号作比对所采用的方式是包括但不限于隐藏式马可夫模 型、动态时域比对法以及类神经网络。

9.如权利要求1所述的语音识别方法,其特征在于步骤(i)还包括下列步骤 其中之一:(i1)若该比对分数并非大于该第三门槛值,则结束该语音识别方法;以及(i2)若该比对分数并非大于该第三门槛值,则清除已储存的该第一语音信 号,并储存该第二语音信号,且于一第四时间提供一第四语音信号,再利用 该第二语音信号及该第四语音信号重复步骤(d)~(i),其中步骤(i2)中的该第一 语音信号、该第二语音信号及该第四语音信号的内容完全相同。

10.一种语音识别方法,包括下列步骤:

(a)于一第一时间提供一第一语音信号,并相应该第一语音信号产生一第 一候选词及一第一识别分数;

(b)判断该第一识别分数是否大于一第一门槛值,若否,则进行步骤(c);

(c)判断该第一识别分数是否大于一第二门槛值,若是,则储存该第一语 音信号,并进行步骤(d);

(d)于一第二时间提供一第二语音信号,并相应该第二语音信号产生一第 二候选词及一第二识别分数;

(e)判断该第二识别分数是否大于该第一门槛值,若否,则进行步骤(f);

(f)判断该第二识别分数是否大于该第二门槛值,若是,则进行步骤(g);

(g)判断下列二种情况是否同时成立,

(g1)该第二时间减去该第一时间所得结果小于一时间额定值;以及(g2)该第二候选词与该第一候选词相同;

若是,则进行步骤(h);

(h)取出已储存的该第一语音信号并将其与该第二语音信号作比对,以产 生一第一比对分数;以及(i)判断该第一比对分数是否大于一第三门槛值,若否,则储存该第二语 音信号,并进行步骤(j);

(j)于一第三时间提供一第三语音信号,再利用该第二语音信号及该第三 语音信号重复步骤(d)~(g);

(k)取出已储存的该第一语音信号及该第二语音信号,并将其与该第三语 音信号作交叉比对,以产生一第二比对分数;

(l)判断该第二比对分数是否大于该第三门槛值,若是,则输出该第一候 选词。

11.如权利要求10所述的语音识别方法,其特征在于步骤(i)还包括另一步 骤:若该第一比对分数大于该第三门槛值,则输出该第一候选词。

12.如权利要求10所述的语音识别方法,其特征在于步骤(k)将该第一语 音信号、该第二语音信号及该第三语音信号作交叉比对所采用的方式是包括 但不限于隐藏式马可夫模型、动态时域比对法以及类神经网络。

13.如权利要求10所述的语音识别方法,其特征在于步骤(1)还包括另一步 骤:若该第二比对分数并非大于该第三门槛值,则结束该语音识别方法。

说明书全文

(1)技术领域

本发明有关一种语音识别方法,尤指一种用于人机界面的语音识别方法。

(2)背景技术

语音是人与人之间最自然便利的沟通工具,利用语音识别的技术来作人与机 器沟通的界面也持续的在发展中,但是受限于以传统方式进行语音识别在目前尚 无法达到百分的百的正确率,使得以语音识别系统来作人机界面上的应用一直无 法普及。

请参阅图1,其为一种传统的语音识别系统示意图。其中,语音识别系统101 包括一个语音识别引擎102与一个结果判断机制103,使用者的声音可视为一个 语音信号,在其经过语音识别引擎102后,找出最佳的识别结果进入结果判断机 制103,当这个识别结果的分数大于一个预设的门槛值(Threshold)时,系统即接 受并输出这个识别结果,反之若识别结果的分数小于预设的门槛值,则这个结果 便会被认为不可靠而被拒绝。结果判断机制103的好处在于过滤不可靠的结果, 加强识别结果的可信度,但是对于某些情况,例如口音比较重或是咬字比较不清 楚的情形,则常会发生在语音识别引擎所选出的的最佳结果,其在结果判断机制 103中被拒绝而没有任何结果输出;此时使用者的习惯常常为再说一次或数次, 但是在相同的语音识别系统101下往往还是被拒绝。这样的语音识别系统101虽 然提高了识别结果的可靠度,却降低了系统的可用性。

(3)发明内容

本发明的主要目的是设计一种语音识别方法,其是利用一个人对机器下 语音指令时,如果第一次无法被接受,通常会以同样的语音指令再说一次或 数次这种重复输入语音指令的使用习惯,使得连续两次或数次被拒绝的结果 能通过本发明的语音识别方法作适当的补救,以提高语音识别系统的正确率。

根据本发明的构想,提出一种语音识别方法,包括下列步骤:(a)于一第一 时间提供一第一语音信号,并相应该第一语音信号产生一第一候选词及一第 一识别分数;(b)判断该第一识别分数是否大于一第一门槛值,若否,则进行步 骤(c);(c)判断该第一识别分数是否大于一第二门槛值,若是,则储存该第一语 音信号,并进行步骤(d);(d)于一第二时间提供一第二语音信号,并相应该第二 语音信号产生一第二候选词及一第二识别分数;(e)判断该第二识别分数是否大 于该第一门槛值,若否,则进行步骤(f);(f)判断该第二识别分数是否大于该第 二门槛值,若是,则进行步骤(g);(g)判断下列二种情况是否同时成立,(g1)该 第二时间减去该第一时间所得结果小于一时间额定值;以及(g2)该第二候选词 与该第一候选词相同;若是,则进行步骤(h);(h)取出已储存的该第一语音信号 并将其与该第二语音信号作比对,以产生一比对分数;以及(i)判断该比对分数 是否大于一第三门槛值,若是,则输出该第一候选词。

根据上述构想,其中该第一门槛值大于该第二门槛值。

根据上述构想,其中该第一语音信号与该第二语音信号的内容完全相同。

根据上述构想,其中步骤(b)还包括另一步骤:若该第一识别分数大于该 第一门槛值,则输出该第一候选词。

根据上述构想,其中步骤(c)还包括另一步骤:若该第一识别分数并非大 于该第二门槛值,则结束该语音识别方法。

根据上述构想,其中步骤(e)还包括另一步骤:若该第二识别分数大于该 第一门槛值,则清除已储存的该第一语音信号并输出该第二候选词。

根据上述构想,其中步骤(f)还包括另一步骤:若该第二识别分数并非大于 该第二门槛值,则结束该语音识别方法。

根据上述构想,其中步骤(g)还包括另一步骤:若(g1)与(g2)二种情况并非 同时成立,则清除已储存的该第一语音信号,并储存该第二语音信号,且于 一第三时间提供一第三语音信号,再利用该第二语音信号及该第三语音信号 重复步骤(d)~(g)。

根据上述构想,其中该第一语音信号、该第二语音信号及该第三语音信 号的内容完全相同。

根据上述构想,其中步骤(h)将该第一语音信号及该第二语音信号作比对 所采用的方式是包括但不限于隐藏式马可夫模型(Hidden Markov Model)、动态 时域比对法(Dynamic Time Warping)、以及类神经网络(Neutral Network)。

根据上述构想,其中步骤(i)还包括下列步骤其中之一:(i1)若该比对分数 并非大于该第三门槛值,则结束该语音识别方法;以及(i2)若该比对分数并非 大于该第三门槛值,则清除已储存的该第一语音信号,并储存该第二语音信 号,且于一第四时间提供一第四语音信号,再利用该第二语音信号及该第四 语音信号重复步骤(d)~(i)。

根据上述构想,其中步骤(i2)中的该第一语音信号、该第二语音信号及该 第四语音信号的内容完全相同。

根据本发明的另一构想,提出一种语音识别方法,包括下列步骤:(a)于一 第一时间提供一第一语音信号,并相应该第一语音信号产生一第一候选词及 一第一识别分数;(b)判断该第一识别分数是否大于一第一门槛值,若否,则进 行步骤(c);(c)判断该第一识别分数是否大于一第二门槛值,若是,则储存该第 一语音信号,并进行步骤(d);(d)于一第二时间提供一第二语音信号,并相应该 第二语音信号产生一第二候选词及一第二识别分数;(e)判断该第二识别分数是 否大于该第一门槛值,若否,则进行步骤(f);(f)判断该第二识别分数是否大于 该第二门槛值,若是,则进行步骤(g);(g)判断下列二种情况是否同时成立,(g1) 该第二时间减去该第一时间所得结果小于一时间额定值;以及(g2)该第二候选 词与该第一候选词相同;若是,则进行步骤(h);(h)取出已储存的该第一语音信 号并将其与该第二语音信号作比对,以产生一第一比对分数;以及(i)判断该第 一比对分数是否大于一第三门槛值,若否,则储存该第二语音信号,并进行 步骤(j);(j)于一第三时间提供一第三语音信号,再利用该第二语音信号及该第 三语音信号重复步骤(d)~(g);(k)取出已储存的该第一语音信号及该第二语音信 号,并将其与该第三语音信号作交叉比对,以产生一第二比对分数;(l)判断该 第二比对分数是否大于该第三门槛值,若是,则输出该第一候选词。

根据上述构想,其中该第一门槛值大于该第二门槛值。

根据上述构想,其中该第一语音信号、该第二语音信号与该第三语音信 号的内容完全相同。

根据上述构想,其中步骤(b)还包括另一步骤:若该第一识别分数大于该 第一门槛值,则输出该第一候选词。

根据上述构想,其中步骤(c)还包括另一步骤:若该第一识别分数并非大 于该第二门槛值,则结束该语音识别方法。

根据上述构想,其中步骤(e)还包括另一步骤:若该第二识别分数大于该 第一门槛值,则清除已储存的该第一语音信号并输出该第二候选词。

根据上述构想,其中步骤(f)还包括另一步骤:若该第二识别分数并非大于 该第二门槛值,则结束该语音识别方法。

根据上述构想,其中步骤(g)还包括另一步骤:若(g1)与(g2)二种情况并非 同时成立,则清除已储存的该第一语音信号,并储存该第二语音信号,且于 一第四时间提供一第四语音信号,再利用该第二语音信号及该第四语音信号 重复步骤(d)~(g)。

根据上述构想,其中该第一语音信号、该第二语音信号及该第四语音信 号的内容完全相同。

根据上述构想,其中步骤(h)将该第一语音信号及该第二语音信号作比对 是所采用的方式是包括但不限于隐藏式马可夫模型(Hidden Markov Model)、动 态时域比对法(Dynamic Time Warping)、以及类神经网络(Neutral Network)。

根据上述构想,其中步骤(i)还包括另一步骤:若该第一比对分数大于该第 三门槛值,则输出该第一候选词。

根据上述构想,其中步骤(k)将该第一语音信号、该第二语音信号及该第 三语音信号作交叉比对所采用的方式是包括但不限于隐藏式马可夫模型 (Hidden Markov Model)、动态时域比对法(Dynamic Time Warping)以及类神经 网络(Neutral Network)。

根据上述构想,其中步骤(l)还包括另一步骤:若该第二比对分数并非大于 该第三门槛值,则结束该语音识别方法。

为进一步说明本发明的上述目的、结构特点和效果,以下将结合附图对本发 明进行详细的描述。

(4)附图说明

图1是一种传统的语音识别系统示意图;

图2是本发明语音识别系统一较佳实施例的方块图;以及

图3是图2的再确认机制的流程图。

(5)具体实施方式

请参阅图2,其为本发明语音识别系统一较佳实施例的方块图。前半段和 传统技术相同,当使用者于一第一时间t1发出一第一语音信号时,语音识别 系统201则相应该第一语音信号产生一第一候选词及一第一识别分数,此时 语音识别系统201即判断该第一识别分数是否大于语音识别系统201内预设 的一第一门槛值,若是,则语音识别系统201及输出该第一候选词,而本发 明的重点在于,若否,则语音识别系统201会将该第一语音信号储存于一记 忆体(图3的302)中,等待使用者会因第一语音信号不为语音识别系统201所 接受、而再将该第一语音信号再重复一次的机会进行再确认。本发明所提出 的语音识别系统即在于利用使用者会在所发出的该第一语音信号不为系统所 接受、而再下一次语音指令的习惯,于传统的语音识别功能上再加上一个再 确认机制203,在不降低语音识别系统可靠度的条件的下,提高语音识别系统 的可用性与正确率。

当使用者于一第二时间t2再次发出与该第一语音信号的内容完全相同的 一第二语音信号时,语音识别系统201则相应该第二语音信号产生一第二候 选词及一第二识别分数,此时语音识别系统201即判断该第二识别分数是否 该第一门槛值,若是,则语音识别系统201会清除已经储存于存储器(图3的 302)当中的该第一语音信号、并毫无疑问地输出该第二候选词,若否,则进 入再确认机制203,如图2所示。

请参阅图3,其为图2的再确认机制203的运作流程示意图,除了在原来 语音识别系统201的该第一门槛值外,还增加了二个新的门槛值:一第二门 槛值及一第三门槛值。其中,该第二门槛值为一个比该第一门槛值还小的门 槛值,目的是维持识别结果仍有一定的可靠度。

在图3中,当该第二识别分数小于该第一门槛值时,再确认机制203会 将该第二识别分数与该第二门槛值再作一比较,如果这个分数并非大于该第 二门槛值,则语音识别系统201不会输出任何信息;相反地,倘若该第二识 别分数小于该第一门槛值且大于该第二门槛值,此时语音识别系统201便认 为是使用者重复下了同一个指令,此时语音识别系统201会判断该第一语音 信号及该第二语音信号是否符合下列二种情况:

(1)该第一时间及该第二时间之间的时间差(t2-t1)是否小于一预设的时 间额定值T;以及

(2)该第一候选词及该第二候选词是否相同。

倘若(1)与(2)两种情况并未同时成立,则语音识别系统201不会输出任 何信息;相反地,倘若(1)与(2)两种情况同时成立,则语音识别系统201即 认为二次的语音信号输入皆为同一个指令,此时语音识别系统201会将二个 语音信号输入一样本比对模块(Template matching)303作一比对,其中样本 比对模块303所采用的比对的方法包括隐藏式马可夫模型(Hidden Markov Model)、动态时域比对法(Dynamic Time Warping)或是类神经网络(Neural Network)等其他业界常用的比对方法。

在样本比对模块303之后,又设了一第三门槛值来作辨认结果可靠度的 确认,该第一语音信号及该第二语音信号比对的结果会产生一比对分数,该 比对分数若是大于该第三门槛值,表示使用者两次都输入了相同的语音指令, 可能因为口音等因素导致语音识别系统201的可靠度不够高而没有被接受, 但是经由本发明再确认机制203认为是个可被接受的辨认结果,因此系统输 出原来最佳候选的结果,就是该第一候选词;反之则语音识别系统201就拒 绝输出。

另外,我们也可以扩大这个再确认机制203成多重输入的再确认,例如:

(a)在前述(1)与(2)两种情况并未同时成立时,语音识别系统201并不是 直接拒绝输出,而是清除已储存的该第一语音信号,并储存该第二语音信号, 再等待使用者于一第三时间所发出的一第三语音信号(与该第一语音信号及该 第二语音信号的内容完全相同),再利用该第二语音信号及该第三语音信号重 复再确认机制203;

(b)当经由样本比对模块303所产生的该比对分数并非大于该第三门槛值 时,语音识别系统201也不是直接拒绝输出,而是同时储存该第一语音信号 及该第二语音信号,等待使用者于一第四时间所发出的一第四语音信号(与该 第一语音信号及该第二语音信号的内容完全相同)输入时,在样本比对模块303 作交叉比对,并决定所产生的一第二对比分数是否大于该第三门槛值,以决 定输出值。

综上所述,本发明是变更传统的语音识别的流程,利用当没有语音识别 结果输出时,使用者常会再说一次或者数次的使用习惯,在「结果判断机制」 之后加入一个「再确认机制」,使得连续两次或甚至是数次被拒绝的结果能 通过本发明的语音识别系统的运作方式得到补救,以提高人机界面在语音识 别系统方面的正确率及可用性。

虽然本发明已参照当前的具体实施例来描述,但是本技术领域中的普通 技术人员应当认识到,以上的实施例仅是用来说明本发明,在没有脱离本发 明精神的情况下还可作出各种等效的变化和修改,因此,只要在本发明的实 质精神范围内对上述实施例的变化、变型都将落在本发明权利要求书的范围 内。

高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用