基于语义泛化的知识要素抽取方法转让专利

申请号 : CN202311092677.8

文献号 : CN116822529B

文献日 : 2023-12-29

本发明公开了基于语义泛化的知识要素抽取方法，涉及数据处理技术领域；所述方法包括以下步骤：通过采集语音数据的多项数据信息，将设备运行信息以及通信转换信息进行处理生成泛化评估系数，根据生成的泛化评估系数与设置的泛化评估阈值进行对比，对接收语音的质量进行评估，从而确定了需要进行泛化处理的语音数据，再根据数据精度信息与处理时长信息进行分析，生成抽取影响因子，对知识要素的抽取情况进行分析，根据抽取影响因子与抽取评估阈值的对比结果评估两次知识要素的抽取情况，根据抽取情况的不同进行相应操作，从而增加了智能家居调控的准确性，保障了智能家居运行的高效性。

1.基于语义泛化的知识要素抽取方法，其特征在于，包括以下步骤；

采集语音数据的多项数据信息，多项数据信息包括设备运行信息以及通信转换信息；

将多项数据信息中的设备运行信息以及通信转换信息生成泛化评估系数；

将生成的泛化评估系数与泛化评估阈值进行比对，根据比对结果对接收到的语音数据进行泛化处理；

采集要素抽取信息，要素抽取信息包括数据精度信息与处理时长信息，将数据精度信息与处理时长信息进行分析，生成抽取影响因子；

根据抽取影响因子分析泛化处理的语音转化文本的知识要素抽取情况；

设备运行信息包括唤醒影响时长并标定为、分配资源波动幅度并标定为，通信转换信息包括延迟信噪干扰度并标定为，数据精度信息包括召准调和系数并标定为，处理时长信息包括抽取时长浮动系数并标定为；

设置多个时间段，获取在时间段内的智能家居设备历史唤醒次数HXi，获取在时间段内各次历史唤醒时间到对应进入休眠的时间差值作为历史工作运行时长GZi，获取t时间内所包含的时间段集合M={M1，M2，……，Mi}，i为正整数，将时间段集合中智能家居的历史工作时间与历史唤醒次数计算得到唤醒影响时长，计算表达式为：，式中，x表示时间段集合数据总数；

获取智能家居在语音识别、联动控制期间CPU与内存占用率，语音识别CPU与内存占用率分别为、，联动控制CPU与内存占用率分别为、，获取在一个时间段T内每个任务的CPU占用率和内存占用率，并计算每个任务的占用率与平均值之差的平方，并进行求和处理得到CPU资源占用值、内存资源占用值，计算时间段T内CPU资源占用值标准差与内存资源占用值标准差，并将CPU资源占用值标准差与内存资源占用值标准差进行求和计算得到分配资源波动幅度；

获取语音信号和背景噪声的波形数据，语音信号和背景噪声分别标记为s(ts) 、n(ts)，其中ts表示时间，获取语音信号和背景噪声的功率分别为Es、En，计算信噪比，获取延迟信号的时间差异并标记为Et，计算延迟信噪干扰度，计算表达式为：；

获取正确抽取的知识要素数据量PZ，获取全部抽取的知识要素数据量PA，计算得到抽取准确率：ZQL= PZ/PA，获取全部真实的知识要素数据量PX，计算得到抽取召回率：ZHL=PX/PA，将抽取准确率与抽取召回率计算得到召准调和系数，计算表达式为：；

获取接收到语音的时间并进行记录，获取根据语音转化文本第一次抽取知识要素花费的时长集合Sc={t1，t2，t3，……，tn}，获取进行泛化处理后，第二次抽取知识要素花费的时间集合Sf={f1，f2，f3，……，fn}，n为正整数，求取时长集合Sc与Sf汇总后的平均值，分别标定为Savg，计算平均值与两个时长集合之间的差值的绝对值作为均值集合，并标记为Sj={S1，S2，S3，……，Sy}，y为正整数，计算的表达式为：，式中，为均值集合数据总数量，j为正整数。

2.根据权利要求1所述的基于语义泛化的知识要素抽取方法，其特征在于，将多项数据信息中的设备运行信息以及通信转换信息生成泛化评估系数，是指唤醒影响时长、分配资源波动幅度以及延迟信噪干扰度进行联立生成泛化评估系数，唤醒影响时长、分配资源波动幅度与泛化评估系数成正比，延迟信噪干扰度与泛化评估系数成反比。

3.根据权利要求2所述的基于语义泛化的知识要素抽取方法，其特征在于，将生成的泛化评估系数与泛化评估阈值进行比对，具体过程如下：若泛化评估系数大于泛化评估阈值，判断语音质量差，并发出语义泛化信号；

若泛化评估系数小于等于泛化评估阈值，判断语音质量优，并发出文本直译信号。

4.根据权利要求3所述的基于语义泛化的知识要素抽取方法，其特征在于，根据抽取影响因子分析泛化处理的语音转化文本的知识要素抽取情况，具体步骤如下：将召准调和系数与抽取时长浮动系数生成抽取影响因子；

将抽取影响因子与抽取评估阈值进行对比；

若抽取影响因子大于等于抽取评估阈值，则判断抽取知识要素异常，智能家居向用户发出询问请求；

若抽取影响因子小于抽取评估阈值，则判断抽取知识要素正常，直接对智能家居进行调控。

基于语义泛化的知识要素抽取方法

技术领域

[0001] 本发明涉及数据抽取技术领域，具体涉及基于语义泛化的知识要素抽取方法。

背景技术

[0002] 语义泛化是指在自然语言处理中，将具体的、特定的语言表达转化为更一般、抽象的语义表示的过程，通过捕捉文本的潜在语义信息，使得计算机等处理设备可以更好地理解和处理多样化的表达方式和文本变体，在语义泛化中，将不同的词或短语归纳到更宽泛的概念下，从而建立起词与词之间、句子与句子之间的联系。

[0003] 知识要素是指在特定领域中具有重要意义的基本元素，它们对于理解和处理相关领域的问题具有关键性的作用，在信息抽取、自然语言处理和知识图谱构建等任务中，识别和抽取这些知识要素是非常重要的一步。

[0004] 现有技术存在以下不足：随着科技的发展，越来越多的智能家居设备应用在日常，通过用户的语音进行操作，但是智能家居设备在接收到语音时，语音质量过差，常常造成语义分析不清晰，不能正确进行智能家居设备的调控，错误的分析结果或者过长的分析时间造成用户对智能家居设备的不信任，甚至对制造厂商的不认同，在接收到用户语音后，不能快速的判断语音是否需要进行语义泛化处理，与语义泛化处理后知识要素抽取的情况不清晰，不能明确调控操作，使得反馈时间过长、询问决断不清晰，造成时间、资源的浪费。

[0005] 在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

[0006] 本发明的目的是提供基于语义泛化的知识要素抽取方法，以解决背景技术中的不足。

[0007] 为了实现上述目的，本发明提供如下技术方案：基于语义泛化的知识要素抽取方法，包括以下步骤；

[0008] 采集语音数据的多项数据信息，多项数据信息包括设备运行信息以及通信转换信息；

[0009] 将多项数据信息中的设备运行信息以及通信转换信息生成泛化评估系数；

[0010] 将生成的泛化评估系数与泛化评估阈值进行比对，根据比对结果对接收到的语音数据进行泛化处理；

[0011] 采集要素抽取信息，要素抽取信息包括数据精度信息与处理时长信息，将数据精度信息与处理时长信息进行分析，生成抽取影响因子；

[0012] 根据抽取影响因子分析泛化处理的语音转化文本的知识要素抽取情况。

[0013] 优选的，设备运行信息包括唤醒影响时长并标定为、分配资源波动幅度并标定为，通信转换信息包括延迟信噪干扰度并标定为，数据精度信息包括召准调和系数并标定为，处理时长信息包括抽取时长浮动系数并标定为。

[0014] 优选的，唤醒影响时长的获取逻辑如下：

[0015] 设置多个时间段，获取在时间段内的智能家居设备历史唤醒次数HXi，获取在时间段内各次历史唤醒时间到对应进入休眠的时间差值作为历史工作运行时长GZi，获取t时间内所包含的时间段集合M={M1，M2，……，Mi}，i为正整数，将时间段集合中智能家居的历史工作时间与历史唤醒次数计算得到唤醒影响时长，计算表达式为：，式中，x表示时间段集合数据总数。

[0016] 优选的，分配资源波动幅度获取的逻辑如下：

[0017] 获取智能家居在语音识别、联动控制期间CPU与内存占用率，语音识别CPU与内存占用率分别为、，联动控制CPU与内存占用率分别为、，获取在一个时间段T内每个任务的CPU占用率和内存占用率，并计算每个任务的占用率与平均值之差的平方，并进行求和处理得到CPU资源占用值、内存资源占用值，计算时间段T内CPU资源占用值标准差与内存资源占用值标准差，并将CPU资源占用值标准差与内存资源占用值标准差进行求和计算得到分配资源波动幅度。

[0018] 优选的，延迟信噪干扰度获取的逻辑如下：

[0019] 获取语音信号和背景噪声的波形数据，语音信号和背景噪声分别标记为s(ts) 、n(ts)，其中ts表示时间，获取语音信号和背景噪声的功率分别为Es、En，计算信噪比，获取延迟信号的时间差异并标记为Et，计算延迟信噪干扰度，计算表达式为：。

[0020] 优选的，将多项数据信息中的设备运行信息以及通信转换信息生成泛化评估系数，是指唤醒影响时长、分配资源波动幅度以及延迟信噪干扰度进行联立生成泛化评估系数，唤醒影响时长、分配资源波动幅度与泛化评估系数成正比，延迟信噪干扰度与泛化评估系数成反比。

[0021] 优选的，将生成的泛化评估系数与泛化评估阈值进行比对，具体过程如下：

[0022] 若泛化评估系数大于泛化评估阈值，判断语音质量差，并发出语义泛化信号；

[0023] 若泛化评估系数小于等于泛化评估阈值，判断语音质量优，并发出文本直译信号。

[0024] 优选的，召准调和系数的获取逻辑如下：

[0025] 获取正确抽取的知识要素数据量PZ，获取全部抽取的知识要素数据量PA，计算得到抽取准确率：ZQL= PZ/PA，获取全部真实的知识要素数据量PX，计算得到抽取召回率：ZHL=PX/PA，将抽取准确率与抽取召回率计算得到召准调和系数，计算表达式为：；

[0026] 抽取时长浮动系数的获取逻辑如下：

[0027] 获取接收到语音的时间并进行记录，获取根据语音转化文本第一次抽取知识要素花费的时长集合Sc={t1，t2，t3，……，tn}，获取进行泛化处理后，第二次抽取知识要素花费的时间集合Sf={f1，f2，f3，……，fn}，n为正整数，求取时长集合Sc与Sf汇总后的平均值，分别标定为Savg，计算平均值与两个时长集合之间的差值的绝对值作为均值集合，并标记为Sj={S1，S2，S3，……，Sy}，y为正整数，计算的表达式为：，式中，为均值集合数据总数量，j为正整数。

[0028] 优选的，根据抽取影响因子分析泛化处理的语音转化文本的知识要素抽取情况，具体步骤如下：

[0029] 将召准调和系数与抽取时长浮动系数生成抽取影响因子；

[0030] 将抽取影响因子与抽取评估阈值进行对比；

[0031] 若抽取影响因子大于等于抽取评估阈值，则判断抽取知识要素异常，智能家居向用户发出询问请求；

[0032] 若抽取影响因子小于抽取评估阈值，则判断抽取知识要素正常，直接对智能家居进行调控。

[0033] 在上述技术方案中，本发明提供的技术效果和优点：

[0034] 本申请通过将唤醒影响时长、分配资源波动幅度、延迟信噪干扰度进行无量纲处理，去除单位后综合分析生成泛化评估系数，根据生成的泛化评估系数与设置的泛化评估阈值进行对比，对接收语音的质量进行评估，从而确定了需要进行泛化处理的语音数据，准确分配算力资源，再依据语义泛化信号对语音转化文本进行知识要素的抽取，将语音泛化前进行一次知识要素抽取，语义泛化后进行第二次知识要素抽取，再根据数据精度信息与处理时长信息进行分析，生成抽取影响因子，将抽取影响因子与抽取评估阈值进行对比，根据对比结果评估两次知识要素的抽取情况，根据评估的抽取情况进行相应操作，从而增加了智能家居调控的准确性，保障了智能家居运行的高效性。

附图说明

[0035] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

[0036] 图1为本发明基于语义泛化的知识要素抽取方法的流程图。

具体实施方式

[0037] 现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本公开的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

[0038] 实施例1：本发明提供了如图1所示的基于语义泛化的知识要素抽取方法，所述方法包括以下步骤：

[0039] 将用户语音作为原始文本数据，对用户语音包含的文本进行拆解，首先，需要将用户的语音输入转换为文本形式，这一步骤称为语音识别，语音识别技术将用户的语音信号转换为文本表示，以便后续进行处理，但不同用户之间口音存在较为明显差异，本申请将用户原声作为原始语音样本数据，通过声纹识别技术来分析人的声音特征来进行身份验证或识别的技术，可以用于确认某个人的身份，即发出此声音的唯一用户，以下为具体采集步骤；

[0040] 采集用户的语音样本，用户需要提供一段用于训练的语音样本，通常是读出特定的短文本或短语，将此样本用于训练声纹识别模型；

[0041] 从采集到的语音样本中，声纹识别系统会提取出一系列特征，这些特征描述了用户的声音特点，常用的声纹特征包括梅尔频率倒谱系数等；

[0042] 在声纹识别阶段，声纹识别系统会将用户提供的语音样本与建立的声纹模型进行比较，声纹识别系统会分析用户的声音特征并与模型进行匹配，以判断该语音是否与模型中的声纹相匹配，根据声纹识别的结果，声纹识别系统会输出判断结果，即判断该语音是否为已知用户的声纹，如果匹配成功，则确认该语音来源为授权用户，如果匹配失败，则判断该语音来源为陌生用户，智能家居普遍存在唤醒词，授权用户通过唤醒词进行家居的唤醒；

[0043] 在语音样本收集过程中，由于距离、噪音、说话速度等多方面的因素影响，常常造成语音识别质量低，语音样本转化文本时，不能获得准确的信息，使得智能家居不能明确调节方式；

[0044] 智能家居设备的接收端接收语音数据中的多项数据后建立质量预测模型，基于质量预测模型分析语音后，对接收质量差的语音进行管理；

[0045] 采集语音数据的多项数据信息，多项数据信息包括设备运行信息以及通信转换信息；

[0046] 设备运行信息包括唤醒影响时长、分配资源波动幅度，通信转换信息包括延迟信噪干扰度，采集后，将唤醒影响时长、分配资源波动幅度、延迟信噪干扰度分别标定为、、；

[0047] 多项数据信息中的唤醒影响时长对分析接收语音的质量有重要影响，唤醒影响时长为智能家居设备收到唤醒后到与接收到相关语音指令之间持续的时间长度，唤醒影响时长对智能家居设备具有以下影响：

[0048] 不必要的干扰：长时间的唤醒状态可能会在不需要的情况下不断触发智能家居设备，导致不必要的干扰和误操作，降低了用户体验，影响语音的接收；

[0049] 系统资源占用：持续的唤醒状态会占用系统资源，包括处理器、内存等，导致系统性能下降或导致系统崩溃，影响语音的接收，而频繁唤醒和休眠会使设备的电路和处理器频繁工作，产生一定的热量，长时间的高温可能会影响设备的性能和寿命，甚至可能导致设备故障；

[0050] 稳定性下降：频繁的唤醒和休眠操作可能会增加设备的复杂性和工作负担，导致系统稳定性下降，出现系统崩溃或异常情况；

[0051] 因此，获多项数据信息中的唤醒影响时长，可对智能家居接收的语音质量进行分析；

[0052] 唤醒影响时长的获取逻辑如下：

[0053] 设置多个时间段，获取在时间段内的智能家居设备历史唤醒次数HXi，获取在时间段内各次历史唤醒时间到对应进入休眠的时间差值作为历史工作运行时长GZi，获取t时间内所包含的时间段集合M={M1，M2，……，Mi}，i为正整数，将时间段集合中智能家居的历史工作时间与历史唤醒次数计算得到唤醒影响时长，计算表达式为：，式中，x表示时间段集合数据总数；

[0054] 需要说明的是，智能家居设备通常设置有休眠反应时长，当智能家居被用户进行语音唤醒后，智能家居进入应答状态，时刻接收用户的语音，当用户唤醒后，在设定的应答时间内没有进行下一步操作，智能家居设备会从应答状态进入休眠状态，以节省能源消耗，而在应答状态期间，用户进行下一步操作后，智能家居会重置应答状态时长；

[0055] 多项数据信息中的分配资源波动幅度对分析接收语音的质量有重要影响，分配资源波动幅度表示智能家居设备在进行语音解析的过程中，解析过程中分配到的算力资源波动情况，分配资源波动幅度过大会导致出现以下问题：

[0056] 延迟增加：算力资源波动大导致处理语音数据的速度不稳定，当分配到的算力资源较少时，语音解析的处理时间可能变长，从而导致解析的延迟增加，影响智能家居设备对语音指令的实时响应能力；

[0057] 解析错误率增加：算力资源波动大可能导致解析算法无法充分利用资源进行准确的语音识别，当分配到的算力较少时，出现解析错误率增加的情况，导致指令解析不准确；

[0058] 系统负载不稳定：算力资源波动大会导致系统负载不稳定，当分配到的算力资源较少时，导致系统负载过重，影响设备的稳定性和性能表现；

[0059] 因此，对分配资源波动幅度进行分析，可进一步分析智能家居接收数据过程中的状态；

[0060] 分配资源波动幅度获取的逻辑如下：

[0061] 获取智能家居在语音识别、联动控制期间CPU与内存占用率，语音识别CPU与内存占用率分别为、，联动控制CPU与内存占用率分别为、，获取在一个时间段T内每个任务的CPU占用率和内存占用率，并计算每个任务的占用率与平均值之差的平方，并进行求和处理得到CPU资源占用值、内存资源占用值，计算时间段T内CPU资源占用值标准差与内存资源占用值标准差，并将CPU资源占用值标准差与内存资源占用值标准差进行求和计算得到分配资源波动幅度；

[0062] 需要说明的是，在设定时间按照设定频率采集CPU占用率与内存占用率，具体设定时间根据实际情况进行变化。

[0063] 多项数据信息中的延迟信噪干扰度对分析接收语音的质量有重要影响，延迟信噪干扰度表示有效语音信号和背景噪声之间的时间比值，即背景噪声可能在语音信号到达设备前或后出现，延迟信噪干扰度越大，越容易出现以下问题：

[0064] 识别延迟增加：延迟信噪干扰度导致设备在接收到语音信号后不立即进行识别，而是等待一段时间，以确保可以捕捉到完整的语音信号，导致识别的延迟增加，从用户说话到设备实际响应的时间会相应延长；

[0065] 误识别率增加：延迟信噪干扰度导致设备在识别过程中混淆语音信号和背景噪声，增加了误识别的可能性，从而导致执行错误的操作；

[0066] 系统资源利用率下降：为了处理延迟信噪干扰度，设备需要在识别之前缓冲一段时间的语音信号，从而增加系统资源的使用，导致资源利用率下降；

[0067] 延迟信噪干扰度的主要表现形式有两种，一种为信号前延迟，当背景噪声在语音信号到达设备之前出现时，称为信号前延迟，这意味着设备在接收到语音信号之前就已经开始接收背景噪声，语音信号可能会受到背景噪声的干扰；一种是信号后延迟，当背景噪声在语音信号已经到达设备之后出现时，称为信号后延迟，这意味着设备在接收到语音信号后仍然持续接收背景噪声，可能会影响后续语音识别和处理过程；

[0068] 延迟信噪干扰度获取的逻辑如下：

[0069] 获取语音信号和背景噪声的波形数据，语音信号和背景噪声分别标记为s(ts) 、n(ts)，其中ts表示时间，获取语音信号和背景噪声的功率分别为Es、En，计算信噪比，获取延迟信号的时间差异并标记为Et，计算延迟信噪干扰度，计算公式为；

[0070] 需要说明的是，波形数据可以通过麦克风采集语音信号和背景噪声，或者从音频文件中读取相应的数据，在实际应用中，通常会对信号和噪声进行预处理，比如进行加窗处理、消除直流分量等，获取延迟信号的方式取决于具体的应用情况，可以通过硬件同步、时间戳或其他方法来获取。

[0071] 根据设备运行信息以及通信转换信息对智能家居接收的语音进行综合分析，根据分析结果得到接收语音的质量；

[0072] 将获取到的唤醒影响时长、分配资源波动幅度，延迟信噪干扰度做无量纲处理，去除单位后生成泛化评估系数，并标定为，依据的公式为：

[0073]

[0074] 式中，、、分别为唤醒影响时长、分配资源波动幅度以及延迟信噪干扰度的预设比例系数，且、、均大于0；

[0075] 由公式可知，唤醒影响时长越大、分配资源波动幅度越大、延迟信噪干扰度越小，即泛化评估系数的表现值越大，表明获取用户的语音质量越差，进行语音解析过程越容易出现语义错误，唤醒影响时长越小、分配资源波动幅度越小、延迟信噪干扰度越大，即泛化评估系数的表现值越小，表明获取用户的语音质量越好；

[0076] 在对用户的语音进行获取后，由于多方面的因素导致语音可能接收的质量较差，在对语音进行分类判断时，通过设置相应的阈值标准对语音质量进行划分，以阈值为分界线，可以将符合阈值标准的语音进行文本直译，得到正确的文本包含指令信息，而对于不符合阈值标准的进行文本的语义泛化处理，可以节省了分析时间，提高了语义质量；

[0077] 将生成的泛化评估系数与泛化评估阈值进行比对，根据比对结果判断是否将接收到的语音进行泛化；

[0078] 获取到生成的泛化评估系数后，将生成的泛化评估系数与泛化评估阈值进行对比，若泛化评估系数大于泛化评估阈值，则对语音发出语义泛化信号，进行泛化处理，表明接收语音的质量较差，难以识别出明确的指令，对此语音进行文本转换后进行语义泛化处理；

[0079] 若泛化评估系数小于等于泛化评估阈值，则对语音发出文本直译信号，表明接收语音的质量较好，符合语音识别指令的要求，可对此语音进行文本直译；

[0080] 泛化处理是为了使语音处理过程中更具容错性和灵活性，能够识别不完整或含有模糊信息的语音指令，例如，将特定设备名称进行泛化，允许使用更广泛的名称或别名来表示设备，或将特定操作指令进行泛化，允许使用近义词或相关词汇来表示操作。

[0081] 本申请通过将唤醒影响时长、分配资源波动幅度、延迟信噪干扰度进行无量纲处理，去除单位后综合分析生成泛化评估系数，根据生成的泛化评估系数与设置的泛化评估阈值进行对比，对接收语音的质量进行评估，从而确定了需要进行泛化处理的语音数据，准确分配算力资源。

[0082] 实施例2：对发出语义泛化信号的语音转化文本进行知识要素的第一次抽取，识别出语音转化文本中的知识要素，作为初始知识要素；

[0083] 对文本（语音转化文本）进行分词，将文本语句切分成一系列有意义的词或短语，形成语义单元，对于识别出的模糊文本，引入一定的错误容忍机制，允许一定程度的错误或模糊匹配，例如，使用基于编辑距离的方法，对识别出的文本与预定义词典中的词进行近似匹配，找到最相似的词作为分词结果；

[0084] 对分词后的词或短语进行词性标注，即判断每个词的词性（名词、动词、形容词等），以帮助理解句子的语法结构和语义含义；

[0085] 利用命名实体识别（NER）等技术，识别文本中的具体实体，如人名、地名、日期、时间等信息，在智能家居中，这可以用于识别设备名称、地点和时间等实体；

[0086] 运用自然语言处理（NLP）技术，对文本或语音进行语义理解，将其转换成计算机可以理解的语义表示，这一步骤涉及到语法分析、句法结构解析和语义角色标注等任务；

[0087] 在语义理解的基础上，根据智能家居本身的功能，进行具体的知识要素抽取，例如，从语义表示中抽取出设备名称、操作指令、时间等信息；

[0088] 在第一次知识要素抽取后，对抽取出的知识要素进行泛化处理，泛化处理是为了使系统更具容错性和灵活性，能够识别不完整或含有模糊信息的语音指令，例如，将特定设备名称进行泛化，允许使用更广泛的名称或别名来表示设备，或将特定操作指令进行泛化，允许使用近义词或相关词汇来表示操作；

[0089] 在对文本进行泛化处理后，再次对泛化处理后的文本进行知识要素的第二次抽取，识别出泛化处理后的知识要素，作为二次知识要素，第二次抽取知识要素可以视为对泛化后的文本再次进行语义理解的过程，以获取更具体和准确的知识要素；

[0090] 第一次知识要素抽取和第二次知识要素抽取之间存在紧密关系，第一次抽取获取了最初的语音指令中的关键信息，然后进行泛化处理后，得到的泛化文本可能包含一些模糊或未完整的信息，第二次抽取针对泛化后的文本进行更深入的语义理解，获取更具体的知识要素，通过两次抽取和泛化的过程，智能家居系统可以更好地理解用户的意图并进行响应；

[0091] 采集要素抽取信息，要素抽取信息包括数据精度信息与处理时长信息，数据精度信息包括召准调和系数，处理时长信息包括抽取时长浮动系数，采集后，将召准调和系数、抽取时长浮动系数分别标定为、；

[0092] 召准调和系数对分析知识要素的抽取情况具有重要作用，召准调和系数表示抽取知识要素过程中抽取准确率和召回率之间的状况，可以用来综合评估模型的性能，高召准调和系数意味着模型在准确性和召回率上都表现良好，能够准确地抽取出知识要素，并覆盖较多的真实知识要素；

[0093] 召准调和系数的获取逻辑如下：

[0094] 获取正确抽取的知识要素数据量PZ，获取全部抽取的知识要素数据量PA，计算得到抽取准确率：ZQL= PZ/PA，获取全部真实的知识要素数据量PX，计算得到抽取召回率：ZHL=PX/PA，将抽取准确率与抽取召回率计算得到召准调和系数，计算的表达式为：；

[0095] 抽取时长浮动系数对分析知识要素的抽取情况具有重要作用，抽取时长浮动系数具有以下影响：

[0096] 响应速度变慢：知识要素的抽取时长直接影响智能家居对语音指令的响应速度，如果抽取时长较长，用户可能需要等待较长时间才能得到系统的响应，降低了用户体验和交互的即时性；

[0097] 实时性变差：智能家居需要实时地处理语音指令，并迅速做出相应的操作，如果知识要素的抽取时长过长，导致系统无法实时地响应用户的指令，影响了智能家居的实时性能；

[0098] 系统负载失衡：知识要素的抽取可能需要消耗较多的计算资源和算力，如果抽取时长较长，会增加系统的负载，影响其他任务的执行效率；

[0099] 抽取时长浮动系数的获取逻辑如下：

[0100] 获取接收到语音的时间并进行记录，获取根据文本第一次抽取知识要素花费的时长集合Sc={t1，t2，t3，……，tn}，n为正整数，获取进行泛化处理后，第二次抽取知识要素花费的时间集合Sf={f1，f2，f3，……，fn}，n为正整数，求取时长集合Sc与Sf汇总后的平均值，分别标定为Savg，计算平均值与两个时长集合之间的差值的绝对值作为均值集合，并标记为Sj={S1，S2，S3，……，Sy}，y为正整数，计算的表达式为：，式中，为均值集合数据总数量，j为正整数；

[0101] 将获取到的召准调和系数、抽取时长浮动系数做无量纲处理，去除单位后生成抽取影响因子，并标定为，依据的公式为：

[0102]

[0103] 式中，、分别为召准调和系数、抽取时长浮动系数的预设比例系数，且、均大于0；

[0104] 由公式可知，召准调和系数越小、抽取时长浮动系数越大，即抽取影响因子的表现值越大，表明获取在语音中知识要素提取效率越差，不满足操作实时性的要求，召准调和系数越大、抽取时长浮动系数越小，即抽取影响因子的表现值越小，表明获取在语音中知识要素提取效率越好，进行语音指令执行时的准确性越高；

[0105] 需要说明的是，在智能家居中带有集成性能监测工具，可以实时监测系统的性能表现，包括抽取时长、响应速度等指标，通过性能监测工具，可以获取抽取时长的实时数据，在智能家居系统中记录日志中，同样也包括语音指令的接收时间和抽取完成时间，通过分析日志数据，可以得到每条语音指令的抽取时长，抽取时长是根据智能家居接收到语音开始，到抽取出各个知识要素的时间进行逐个时间统计的，例如，两个知识要素的抽取时间为3.2s，3.3s，表明接收到语音时间作为起始时间，花费3.2s抽取到第一个知识要素，花费
3.3s抽取到第二个知识要素；

[0106] 将抽取影响因子与抽取评估阈值进行对比；

[0107] 若抽取影响因子大于等于抽取评估阈值，表明抽取知识要素的情况较差，不能根据已有分析进行相应调控，智能家居向用户发出询问请求；

[0108] 若抽取影响因子小于抽取评估阈值，表明抽取知识要素的情况较好，符合调控条件，进行智能家居的调控；

[0109] 智能家居设备向用户发出询问请求，表示用户需进行清晰的第二次语音指令传输，用户进行第二次语音指令传输后，智能家居设备根据第二次语音进行相应调控，若能根据第二次语音指令进行成功调控，则将第一次语音数据与第二次语音数据放入相关模型中进行分析，遇到相似情况后，可进行更加智能的分析调控，若仍不能获取相应调控信息，对智能家居设备进行预警，可能是智能家居设备出现了问题；

[0110] 需要说明的是，此实施例中有关的阈值信息是专业人员预先进行设置的，如抽取评估阈值，是根据知识要素的识别速度、响应时间以及识别正确率作为标准进行设置的，其他阈值设置方式不在此进行过多解释。

[0111] 本申请依据语义泛化信号对语音转化文本进行知识要素的抽取，将语音泛化前进行一次知识要素抽取，语义泛化后进行第二次知识要素抽取，再根据数据精度信息与处理时长信息进行分析，生成抽取影响因子，将抽取影响因子与抽取评估阈值进行对比，根据对比结果评估两次知识要素的抽取情况，根据评估的抽取情况进行相应操作，从而增加了智能家居调控的准确性，保障了智能家居运行的高效性。

[0112] 上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

[0113] 以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

[0114] 需要说明的是，在本文中，如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

[0115] 应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

[0116] 以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

基于语义泛化的知识要素抽取方法转让专利

申请号 : CN202311092677.8

文献号 : CN116822529B

文献日 : 2023-12-29

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李强 , 庄莉 , 赵峰 , 王秋琳 , 张晓东 , 陈江海 , 伍臣周 , 王燕蓉

申请人 : 国网信息通信产业集团有限公司 , 福建亿榕信息技术有限公司

摘要 :

权利要求 :

说明书 :