一种语音客服自动生成部署语音合成模型的方法转让专利
申请号 : CN202111585851.3
文献号 : CN113990288B
文献日 : 2022-05-10
发明人 : 朱宇光
申请人 : 江苏微皓智能科技有限公司
摘要 :
权利要求 :
1.一种语音客服自动生成部署语音合成模型的方法,其特征在于,包括以下步骤:S1、由业务系统模块收集坐席工作中的录音文件,所述的坐席工作中的语音包括客服人员在工作状态下的各种语音,而不仅限于与客户的通话;
S2、对S1中收集到的录音文件转换成文字后进行筛选,按照坐席归属进行业务分类构建标准应答文字库,以文字库语音出现频次区分高频、中频及低频语句,根据同类业务的所有文字进行近似匹配及同类项合并,判断其中高频、中频录音文件的质量,将与坐席匹配的质量合格的语句生成目标语句转入S3,将与坐席未匹配的待补充语句转入S5;
S3、将目标语句合成为试验语句,从多人语音合成模型中的多人语音内选取同类业务的坐席录音文件,根据所述坐席的训练数据和所选取的同类业务的坐席录音文件,对多人语音合成模型进行训练,合成所述坐席的试验坐席语音模型,进入S4;
S4、判断试验坐席语音模型是否符合要求,若符合,则进入S6,否则进入S5;
S5、将待补充语句进行补充,补充后进入S2;
S6、调用坐席语音模型;
其中, S2还具体包括以下步骤:S2‑1、将业务系统模块收集到的坐席中的录音文件按照不同的坐席业务归属进行分类;
S2‑2、对录音文件进行去噪处理;
S2‑3、采用深度神经网络建立声学模型,从录音文件中提取得到声学特征,然后经过模型训练统计得到一个声学模型,作为识别的模板,结合语言模型经过解码处理以转换为文本信息;
S2‑4、处理所有文本信息,将所有文本信息的近义词匹配和同类项语句合并,建立用于应答该类业务常见情景的标准应答文字库,并将该文字库内不同语音模板应答出现的频次区分为高频、中频以及低频语句;
S2‑5、对每个坐席的语音录音文件转换成文本信息,从文本信息中提取各语句与标准应答文字库进行匹配筛选,判断录音语句是否符合预设的标准应答数据库中的语音模板语句,若是,执行S2‑6;若否,执行S2‑7;
S2‑6、提取坐席中频、高频语句对应的录音文件,将样品语句特征进行提取处理后判断语句质量是否达标,收集坐席全部质量达标文件;
S2‑7:忽略对应的样品语句;
S2‑8:统计所有的坐席未匹配到的标准应答文字库中的高中频语句,并推送至中间服务模块;
S2‑9:重复以上步骤,使得所有业务及所有的坐席都适配质量达标的高中频样品语句。
2.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S2‑6中判断语句质量是否达标的具体方法为:利用深度网络评估语音质量,将样品语句特征进行提取处理后得到MOS分,若MOS分高于设定值,则判断该样品语句质量达标,收集坐席全部质量达标的文件。
3.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S2‑6中判断语句质量是否达标的具体方法还包括:利用QualityNet评估语音质量,判断该样品语句质量达标,收集坐席全部质量达标的文件。
4.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S3中具体包括以下步骤:S3‑1、即按照不同的坐席录音文件,将S2中收集到的高频、中频语句使用进行转换切割,并对坐席语句数据进行处理,提取出对应的语言学特征和声学特征作为坐席的训练数据;
S3‑2、将同类业务坐席录音数据在所述多人语音合成模型中的SpeakID和对应坐席表征输入到多人语音合成模型,并使用坐席的训练数据,对多人语音合成模型进行训练,从而得到对应的坐席的个性化语音合成模型,以输出目标的坐席声学特征;
S3‑3:利用声码器,将目标的坐席声学特征转换成对应目标的坐席的语音;
S3‑4:根据标准应答文字库中的标准语句,输出当前模型输出合同的语句小样,步骤S4。
5.根据权利要求4所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S3‑1中还包括:合成语音时只要传入对应音色speakId就能合成对应的人声。
6.根据权利要求4所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S3‑2中还包括:通过WaveRNN训练声码器,实现更自然的人声。
7.根据权利要求1所述的一种语音客服自动生成部署语音合成模型的方法,其特征在于,所述S4中试验坐席语音模型是否符合要求的具体判断方法为:坐席人员对试验坐席语音模型进行试听,确认是否可用,可用的话进入S6,否则进入S5,同时业务系统模块中不间断的继续推送坐席中生成的语音流。
说明书 :
一种语音客服自动生成部署语音合成模型的方法
技术领域
背景技术
人员成本,还能提高沟通效率,减轻工作人员的工作压力。智能语音客服不仅大大缩短了人
工客服实际通话过程的时间,还通过相应的人机智能融合,极速处理客户需求。但是统一化
的智能语音客服语音包容易给客户厌烦感,导致客户选择直接拒绝智能语音客服,要求转
为人工语音客服。因此,亟需一种自动生成部署语音合成模型的系统,做到千人千声,适应
客户需求。
在以下不足:该技术中多说话人语音合成模型进行训练,得到所述用户的个性化语音合成
模型过程中对音源的要求高,需要真实坐席停下工作单独去录音,影响了真实坐席的工作
时间。且该发明技术并不能直接用于人工智能语音客服领域;不能依照真实客服需求进行
特定匹配高频语句,这将会直接影响到智能语音客服沟通的流畅程度。
音机器人按照预先编好的话术,再调用声音克隆模块使用对应话务员的声音与客户沟通。
通过话务员手动输入文本后由声音克隆模块生成语音回复客户,使得人工坐席不仅要进行
语音回答、识别、反应甚至还要手动输入文本,话务员工作强度过高,这将会直接影响智能
语音客服和人工客服的工作效率,缺少了预先设置的中高频话术,不能达到提高坐席沟通
效率的效果。
发明内容
通过标定服务模块,使智能语音客服在人工坐席正常工作中不断积累学习用于语音合成模
型训练的数据,通过语音合成服务模块,解决合成多个声音时需要加载多个模型的问题,使
每个人工坐席都具有专属音色的语音机器人,提高用户服务满意度,提供操作更简单、更高
效,占用坐席总耗时更短的模式。
的所有文字进行近似匹配及同类项合并,判断其中高频、中频录音文件的质量,将与坐席匹
配的质量合格的语句生成目标语句转入S3,将与坐席未匹配的待补充语句转入S5;
多人语音合成模型进行训练,合成所述坐席的试验坐席语音模型,进入S4;
为文本信息;
频次区分为高频、中频以及低频语句;
板语句,若是,执行S2‑6;若否,执行S2‑7;
练数据;
从而得到对应的坐席的个性化语音合成模型,以输出目标的坐席声学特征;
系统模块中不间断的继续推送坐席中生成的语音流。
合成模型训练的数据,通过语音合成服务模块,解决合成多个声音时需要加载多个模型的
问题,使每个人工坐席都具有专属音色的语音机器人,提高用户服务满意度,提供操作更简
单、更高效,占用坐席总耗时更短的模式。
附图说明
具体实施方式
因本实施例将将重点置于方法,重复之处不再赘述。
面的收集,这样能够有助于构建客服人员沟通学习模块,获得更多场景下客服人员的语音
文件,使得坐席模型的训练更加的精确。
人员负责售前对接,有的坐席人员负责售后处理。按照各坐席人员所属的不同业务分类进
行分类,将售前客服的录音文件归属同一分类,将售后处理的录音文件归属另一分类;
的语言样本文件,具体的去噪方式可以是对采集到的录音文件进行信噪比和混响检测,按
照一定的阈值,将信噪比过低、混响过大的不合格录音文件丢弃,然后采用深度神经网络建
立声学模型,从录音文件中提取得到声学特征,然后经过模型训练统计得到一个声学模型,
作为识别的模板,结合语言模型经过解码处理以转换为文本信息。在实际使用中,可以适用
第三方开发的文字转换系统(STT),利用STT系统构建语音训练模型,训练算法以转换文本
信息。
件了。”,按照词条进行检索,找到所有匹配的词条(我,买的,U盘,快递,丢件,l,我买的,U
盘,快递丢件了……)按照不同的扫描方式,逐个查找词库进行分词,按照词网格形式表示,
接着做路径搜索,基于统计语言模型找到最优路径,最终获得最优切分词条。获得最优切分
后,按照其语义进行分析,将近似的文本信息或者同类文本信息进行合并,用于建立该类业
务常见情景的标准应答文字库,并将该文字库内不同语音模板应答出现的频次区分为高
频、中频以及低频语句。值得注意的是,作为实施例,上述的切分方式可以是深度学习、HMM
等算法,也可以基于词典分词算法,上述切分方式仅作为示例,并不以此为限;
音文件是否符合预设的标准应答数据库中的语音模板语句,若是,则进入到语音质量评估
模块,若否则忽略该样品语句。
达标,收集该坐席全部质量达标的文件;进一步地,也可以利用QualityNet评估语音质量,
判断该样品语句质量达标,收集该坐席全部质量达标的文件;然后并统计所有该坐席未匹
配到的标准应答文字库中的高中频语句,并推送至中间服务模块;重复以上步骤,最后,使
得所有业务及所有坐席都适配质量达标的高中频样品语句。
学特征和声学特征作为该坐席的训练数据。以电商售后服务女性人工坐席人员为例,确定
待合成的语音SpeakID。将所有收集到的电商售后服务女性人工客服的录音数据与该
SpeakID对应人工坐席的录音数据共同输入到多人语音合成模型,并使用该人工坐席坐席
的训练数据,对多人语音合成模型进行训练,从而得到对应坐席的个性化语音合成模型,以
输出目标坐席声学特征。即可以做到输入该坐席的SpeakID后,即输出与其声音对应的人工
合成语音;
席以标准应答文字库中的高中频语句作为需求,将目标坐席的ID和多人语音的表征特征输
入到多人语音TTS模型中进行训练,就可以获得目标坐席的个性化语音合成模型,输出目标
坐席对应的声学特征,利用声码器,将目标坐席声学特征转换成对应目标坐席的语音;
则推送至中间服务模块进行补充录制语音,同时业务系统模块中不间断的继续推送坐席中
生成的语音流。通过人工进行核验,可用逐渐增加试验坐席语音模型的准确性,并且可以根
据这些错误对模型进行及时的调整,不影响后续试验坐席语音模型的生成;
测文本语音发音停顿的位置并注拼音,按照文本信息的汉字、词性、发音停顿位置等,生成
语言学特征。
模型,得到样本数据中音素起止时间数据。
训练后输出同类业务坐席的共同声学特征。对该训练数据进行重复学习,能够将该语言学
特征和声学特征导出。此时,输入对应的SpaakID,即输出该SpaakID说话人的工作语音。
于语音合成模型训练的数据,通过语音合成服务模块,解决合成多个声音时需要加载多个
模型的问题,使每个人工坐席都具有专属音色的语音机器人,提高用户服务满意度,提供操
作更简单、更高效,占用坐席总耗时更短的模式。
术领域,均同理包括在本发明的专利保护范围内。