一种基于多义词的命名实体识别方法、系统和存储介质转让专利

申请号 : CN202310323101.1

文献号 : CN116029299B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张广志成立立于笑博刘增礼

申请人 : 北京融信数联科技有限公司

摘要 :

本发明提供一种基于多义词的命名实体识别方法、系统和存储介质,所述方法包括:准备训练用的样本数据集;通过样本数据集对实体标签预测模型进行训练;获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签。本发明能够实现对含有多义词的文本进行精确的命名实体识别。

权利要求 :

1.一种基于多义词的命名实体识别方法,其特征在于,所述方法包括:准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;

构建基于多义词的实体标签预测模型;

分析出基于多义词的实体标签预测模型的损失函数;

通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;

在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;

基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;

基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;

在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签;

通过优化后的实体标签预测模型输出对应的实体标签,具体包括:设定实体标签预测模型包括多个子模型,将样本数据集均分为多组样本数据;

在训练过程中,基于各组样本数据分别对实体标签预测模型的每个子模型进行训练,得到优化后的多个子模型;

在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过多个子模型分别输出对应的实体标签预测值;

基于每个实体标签预测值,将其逐一与其他实体标签预测值进行作差计算,得到多个第二差值;

判断第二差值是否大于第二预设阈值,如果是,则将前者实体标签预测值标记为异常一次;

待所有实体标签预测值均完成比对后,统计每个实体标签预测值被标记为异常的总次数;

判断每个实体标签预测值被标记为异常的总次数是否大于第三预设阈值,如果是,则将对应的实体标签预测值剔除,并将对应的子模型标记为异常子模型;

对保留下来的所有实体标签预测值通过密度聚类算法进行聚类分析,得到聚类中心;

将距离所述聚类中心最近的实体标签预测值作为最终预测出的实体标签。

2.根据权利要求1所述的一种基于多义词的命名实体识别方法,其特征在于,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述方法还包括:通过准确度评价模型对输出的实体标签进行评价,得到评价结果;

根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。

3.根据权利要求2所述的一种基于多义词的命名实体识别方法,其特征在于,通过准确度评价模型对输出的实体标签进行评价,得到评价结果,具体包括:获取来源领域、产生时间、语境信息对多义词的影响权重;

预设某多义词有n个语义,基于同一基准点作出n个语义单位向量,且n个语义单位向量的延长线将以基准点为圆心的任意圆均分为n等份;

获取待处理数据的来源领域的指向语义A,产生时间的指向语义B,语境信息的指向语义C;

根据n个语义单位向量对指向语义A、指向语义B、指向语义C进行向量化处理,分别得到指向语义单位向量 、指向语义单位向量 、指向语义单位向量 ;

将指向语义单位向量 、指向语义单位向量 、指向语义单位向量 分别乘以对应的影响权重,并对各个乘积向量进行向量和计算,得到综合指向向量 ;

基于预测的实体标签确定出对应的语义,以及语义单位向量 ;

将综合指向向量 乘以语义单位向量 ,并判断乘积是否为正,如果为正,则评价结果为准确,如果为负,则评价结果为不准确。

4.根据权利要求3所述的一种基于多义词的命名实体识别方法,其特征在于,获取来源领域、产生时间、语境信息对多义词的影响权重,具体包括:获取当前的大数据环境信息;

构建权重预测模型,并通过不同大数据环境信息的样本对权重预测模型进行训练;

基于当前的大数据环境信息,并通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重。

5.根据权利要求4所述的一种基于多义词的命名实体识别方法,其特征在于,在通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重之后,所述方法还包括:获取历史时间的多个历史数据,其中所述历史数据至少包括历史时间的大数据环境信息,以及历史时间关于来源领域、产生时间、语境信息对多义词的历史实际影响权重;

基于当前的大数据环境信息进行特征计算,得到第一特征值;

基于每个历史数据的大数据环境信息进行特征计算,得到第二特征值;

分别对比计算每个历史数据的第二特征值与当前的第一特征值之间的差异度;

将差异度小于第一预设阈值的历史数据加入选定数据库;

基于选定数据库中的每个历史数据的大数据环境信息,并通过权重预测模型预测得到对应历史时间的来源领域、产生时间、语境信息对多义词的历史预测影响权重;

基于选定数据库中的每个历史数据,将历史实际影响权重与历史预测影响权重进行作差计算,得到第一差值;

将多个第一差值基于选定数据库中的历史数据的总数量进行平均化计算,得到平均差值;

在预测的影响权重基础上,加上所述平均差值,得到修正后的影响权重。

6.一种基于多义词的命名实体识别系统,其特征在于,包括存储器和处理器,所述存储器中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被所述处理器执行时实现如下步骤:准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;

构建基于多义词的实体标签预测模型;

分析出基于多义词的实体标签预测模型的损失函数;

通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;

在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;

基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;

基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;

在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签;

通过优化后的实体标签预测模型输出对应的实体标签,具体包括:设定实体标签预测模型包括多个子模型,将样本数据集均分为多组样本数据;

在训练过程中,基于各组样本数据分别对实体标签预测模型的每个子模型进行训练,得到优化后的多个子模型;

在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过多个子模型分别输出对应的实体标签预测值;

基于每个实体标签预测值,将其逐一与其他实体标签预测值进行作差计算,得到多个第二差值;

判断第二差值是否大于第二预设阈值,如果是,则将前者实体标签预测值标记为异常一次;

待所有实体标签预测值均完成比对后,统计每个实体标签预测值被标记为异常的总次数;

判断每个实体标签预测值被标记为异常的总次数是否大于第三预设阈值,如果是,则将对应的实体标签预测值剔除,并将对应的子模型标记为异常子模型;

对保留下来的所有实体标签预测值通过密度聚类算法进行聚类分析,得到聚类中心;

将距离所述聚类中心最近的实体标签预测值作为最终预测出的实体标签。

7.根据权利要求6所述的一种基于多义词的命名实体识别系统,其特征在于,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述基于多义词的命名实体识别方法程序被所述处理器执行时还实现如下步骤:通过准确度评价模型对输出的实体标签进行评价,得到评价结果;

根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于多义词的命名实体识别方法的步骤。

说明书 :

一种基于多义词的命名实体识别方法、系统和存储介质

技术领域

[0001] 本发明涉及命名实体识别技术领域,尤其涉及一种基于多义词的命名实体识别方法、系统和存储介质。

背景技术

[0002] 命名实体识别(Named Entity Recognition,NER)是属于自然语言处理(Natural Language Processing,NLP)领域下的一个任务,该任务旨在从文本中识别出实体并将其分类到预定义好的实体类型,如人名、地名、机构名等。命名实体识别不仅可以单独作为用于信息提取的工具,还可以在自然语言处理领域的其他任务和应用中发挥重要的作用,如信息检索,自动文本摘要,问答,机器翻译和知识库构建等。
[0003] 现有的命名实体识别比较主流的方法是Bi‑LSTM+CRF,其中所用到的 Bi‑LSTM(双向长短期记忆网络)是深度学习中非常流行的一种深度神经网络,在命名实体识别中能够学习到长序列中的特征上下文关系;所用的 CRF(条件随机场)是一种传统的机器学习方法,在命名实体识别中能够学习到标签的上下文关系。
[0004] 然而目前一些词语在不同的领域中可能会有多种语义,传统的命名实体识别方法难以实现对多义词进行精确的识别。

发明内容

[0005] 为了解决上述至少一个技术问题,本发明提出了一种基于多义词的命名实体识别方法、系统和存储介质,能够实现对多义词进行精确的命名实体识别。
[0006] 本发明第一方面提出了一种基于多义词的命名实体识别方法,所述方法包括:
[0007] 准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;
[0008] 构建基于多义词的实体标签预测模型;
[0009] 分析出基于多义词的实体标签预测模型的损失函数;
[0010] 通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;
[0011] 在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;
[0012] 基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;
[0013] 基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;
[0014] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签。
[0015] 本方案中,通过优化后的实体标签预测模型输出对应的实体标签,具体包括:
[0016] 设定实体标签预测模型包括多个子模型,将样本数据集均分为多组样本数据;
[0017] 在训练过程中,基于各组样本数据分别对实体标签预测模型的每个子模型进行训练,得到优化后的多个子模型;
[0018] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过多个子模型分别输出对应的实体标签预测值;
[0019] 基于每个实体标签预测值,将其逐一与其他实体标签预测值进行作差计算,得到多个第二差值;
[0020] 判断第二差值是否大于第二预设阈值,如果是,则将前者实体标签预测值标记为异常一次;
[0021] 待所有实体标签预测值均完成比对后,统计每个实体标签预测值被标记为异常的总次数;
[0022] 判断每个实体标签预测值被标记为异常的总次数是否大于第三预设阈值,如果是,则将对应的实体标签预测值剔除,并将对应的子模型标记为异常子模型;
[0023] 对保留下来的所有实体标签预测值通过密度聚类算法进行聚类分析,得到聚类中心;
[0024] 将距离所述聚类中心最近的实体标签预测值作为最终预测出的实体标签。
[0025] 本方案中,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述方法还包括:
[0026] 通过准确度评价模型对输出的实体标签进行评价,得到评价结果;
[0027] 根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。
[0028] 本方案中,通过准确度评价模型对输出的实体标签进行评价,得到评价结果,具体包括:
[0029] 获取来源领域、产生时间、语境信息对多义词的影响权重;
[0030] 预设某多义词有n个语义,基于同一基准点作出n个语义单位向量,且n个语义单位向量的延长线将以基准点为圆心的任意圆均分为n等份;
[0031] 获取待处理数据的来源领域的指向语义A,产生时间的指向语义B,语境信息的指向语义C;
[0032] 根据n个语义单位向量对指向语义A、指向语义B、指向语义C进行向量化处理,分别得到指向语义单位向量  、指向语义单位向量  、指向语义单位向量 ;
[0033] 将指向语义单位向量  、指向语义单位向量  、指向语义单位向量  分别乘以对应的影响权重,并对各个乘积向量进行向量和计算,得到综合指向向量 ;
[0034] 基于预测的实体标签确定出对应的语义,以及语义单位向量  ;
[0035] 将综合指向向量 乘以语义单位向量  ,并判断乘积是否为正,如果为正,则评价结果为准确,如果为负,则评价结果为不准确。
[0036] 本方案中,获取来源领域、产生时间、语境信息对多义词的影响权重,具体包括:
[0037] 获取当前的大数据环境信息;
[0038] 构建权重预测模型,并通过不同大数据环境信息的样本对权重预测模型进行训练;
[0039] 基于当前的大数据环境信息,并通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重。
[0040] 本方案中,在通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重之后,所述方法还包括:
[0041] 获取历史时间的多个历史数据,其中所述历史数据至少包括历史时间的大数据环境信息,以及历史时间关于来源领域、产生时间、语境信息对多义词的历史实际影响权重;
[0042] 基于当前的大数据环境信息进行特征计算,得到第一特征值;
[0043] 基于每个历史数据的大数据环境信息进行特征计算,得到第二特征值;
[0044] 分别对比计算每个历史数据的第二特征值与当前的第一特征值之间的差异度;
[0045] 将差异度小于第一预设阈值的历史数据加入选定数据库;
[0046] 基于选定数据库中的每个历史数据的大数据环境信息,并通过权重预测模型预测得到对应历史时间的来源领域、产生时间、语境信息对多义词的历史预测影响权重;
[0047] 基于选定数据库中的每个历史数据,将历史实际影响权重与历史预测影响权重进行作差计算,得到第一差值;
[0048] 将多个第一差值基于选定数据库中的历史数据的总数量进行平均化计算,得到平均差值;
[0049] 在预测的影响权重基础上,加上所述平均差值,得到修正后的影响权重。
[0050] 本发明第二方面还提出一种基于多义词的命名实体识别系统,包括存储器和处理器,所述存储器中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被所述处理器执行时实现如下步骤:
[0051] 准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;
[0052] 构建基于多义词的实体标签预测模型;
[0053] 分析出基于多义词的实体标签预测模型的损失函数;
[0054] 通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;
[0055] 在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;
[0056] 基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;
[0057] 基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;
[0058] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签。
[0059] 本方案中,通过优化后的实体标签预测模型输出对应的实体标签,具体包括:
[0060] 设定实体标签预测模型包括多个子模型,将样本数据集均分为多组样本数据;
[0061] 在训练过程中,基于各组样本数据分别对实体标签预测模型的每个子模型进行训练,得到优化后的多个子模型;
[0062] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过多个子模型分别输出对应的实体标签预测值;
[0063] 基于每个实体标签预测值,将其逐一与其他实体标签预测值进行作差计算,得到多个第二差值;
[0064] 判断第二差值是否大于第二预设阈值,如果是,则将前者实体标签预测值标记为异常一次;
[0065] 待所有实体标签预测值均完成比对后,统计每个实体标签预测值被标记为异常的总次数;
[0066] 判断每个实体标签预测值被标记为异常的总次数是否大于第三预设阈值,如果是,则将对应的实体标签预测值剔除,并将对应的子模型标记为异常子模型;
[0067] 对保留下来的所有实体标签预测值通过密度聚类算法进行聚类分析,得到聚类中心;
[0068] 将距离所述聚类中心最近的实体标签预测值作为最终预测出的实体标签。
[0069] 本方案中,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述基于多义词的命名实体识别方法程序被所述处理器执行时还实现如下步骤:
[0070] 通过准确度评价模型对输出的实体标签进行评价,得到评价结果;
[0071] 根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。
[0072] 本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被处理器执行时,实现如上述的一种基于多义词的命名实体识别方法的步骤。
[0073] 本发明提出的一种基于多义词的命名实体识别方法、系统和存储介质,能够实现对含有多义词的文本进行精确的命名实体识别。
[0074] 本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0075] 图1示出了本发明一种基于多义词的命名实体识别方法的流程图;
[0076] 图2示出了本发明一种基于多义词的命名实体识别系统的框图。

具体实施方式

[0077] 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0078] 在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0079] 图1示出了本发明一种基于多义词的命名实体识别方法的流程图。
[0080] 如图1所示,本发明第一方面提出一种基于多义词的命名实体识别方法,所述方法包括:
[0081] S102,准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;
[0082] S104,构建基于多义词的实体标签预测模型;
[0083] S106,分析出基于多义词的实体标签预测模型的损失函数;
[0084] S108,通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;
[0085] S110,在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;
[0086] S112,基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;
[0087] S114,基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;
[0088] S116,在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签。
[0089] 本发明通过样本数据对实体标签预测模型进行训练,以优化模型参数,从而提升模型预测的准确度,能够实现对多义词进行精确的命名实体识别。
[0090] 需要说明的是,来源领域、产生时间和语境信息分别对多义词的实体标签具有一定的影响性,本发明通过多个样本数据分析出这些影响因素与实体标签之间的对应关系,进而对实体标签预测模型进行参数优化,从而便于预测得到更加准确的实体标签。
[0091] 根据本发明的具体实施例,修改样本数据集,具体包括:
[0092] 在每个样本数据中的每一个词后增加标记,是否为多义词,用1和2标记,1表示否定,2表示肯定。
[0093] 根据本发明的具体实施例,损失函数L的计算公式为:
[0094]
[0095] 其中,G表示标签类别的总数,i指的是标签类别的序号,j指的是标签类别下对应样本数据的序号,q是标签类别下对应样本数据的总数,  表示真实的实体标签,表示实体标签预测为真的概率。
[0096] 根据本发明的具体实施例,通过优化后的实体标签预测模型输出对应的实体标签,具体包括:
[0097] 设定实体标签预测模型包括多个子模型,将样本数据集均分为多组样本数据;
[0098] 在训练过程中,基于各组样本数据分别对实体标签预测模型的每个子模型进行训练,得到优化后的多个子模型;
[0099] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过多个子模型分别输出对应的实体标签预测值;
[0100] 基于每个实体标签预测值,将其逐一与其他实体标签预测值进行作差计算,得到多个第二差值;
[0101] 判断第二差值是否大于第二预设阈值,如果是,则将前者实体标签预测值标记为异常一次;
[0102] 待所有实体标签预测值均完成比对后,统计每个实体标签预测值被标记为异常的总次数;
[0103] 判断每个实体标签预测值被标记为异常的总次数是否大于第三预设阈值,如果是,则将对应的实体标签预测值剔除,并将对应的子模型标记为异常子模型;
[0104] 对保留下来的所有实体标签预测值通过密度聚类算法进行聚类分析,得到聚类中心;
[0105] 将距离所述聚类中心最近的实体标签预测值作为最终预测出的实体标签。
[0106] 需要说明的是,本发明通过引入多个子模型进行作差对比,并对多个子模型预测的实体标签预测值进行平均化计算,从而输出更加贴合实际的实体标签。另外,本发明进一步为了减少个别子模型较大预测误差对整体预测值的影响,对误差较大的实体标签预测值进行剔除,并对相应的子模型进行异常标记,以避免后续引入异常子模型进行预测,造成预测准确度下降。
[0107] 根据本发明的实施例,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述方法还包括:
[0108] 通过准确度评价模型对输出的实体标签进行评价,得到评价结果;
[0109] 根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。
[0110] 根据本发明的实施例,通过准确度评价模型对输出的实体标签进行评价,得到评价结果,具体包括:
[0111] 获取来源领域、产生时间、语境信息对多义词的影响权重;
[0112] 预设某多义词有n个语义,基于同一基准点作出n个语义单位向量,且n个语义单位向量的延长线将以基准点为圆心的任意圆均分为n等份;
[0113] 获取待处理数据的来源领域的指向语义A,产生时间的指向语义B,语境信息的指向语义C;
[0114] 根据n个语义单位向量对指向语义A、指向语义B、指向语义C进行向量化处理,分别得到指向语义单位向量 、指向语义单位向量  、指向语义单位向量 ;
[0115] 将指向语义单位向量 、指向语义单位向量 、指向语义单位向量  分别乘以对应的影响权重,并对各个乘积向量进行向量和计算,得到综合指向向量  ;
[0116] 基于预测的实体标签确定出对应的语义,以及语义单位向量  ;
[0117] 将综合指向向量 乘以语义单位向量  ,并判断乘积是否为正,如果为正,则评价结果为准确,如果为负,则评价结果为不准确。
[0118] 需要说明的是,如果向量乘积为正,说明预测实体标签的语义与根据来源领域、产生时间、语境信息指向的语义在同一方位上,进而可以验证预测值是相对准确的。
[0119] 可以理解,在排布n个语义单位向量时,则基于语义的相似度呈梯度顺次排布。
[0120] 可以理解,当前待处理数据的来源领域、产生时间、语境信息可能分别具有对应的指向语义,如来源领域可能对多义词的指向语义为A,则产生时间可能对多义词的指向语义为B,语境信息可能对多义词的指向语义为C。
[0121] 根据本发明的实施例,获取来源领域、产生时间、语境信息对多义词的影响权重,具体包括:
[0122] 获取当前的大数据环境信息;
[0123] 构建权重预测模型,并通过不同大数据环境信息的样本对权重预测模型进行训练;
[0124] 基于当前的大数据环境信息,并通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重。
[0125] 需要说明的是,在不同的大数据环境下,来源领域、产生时间、语境信息对多义词的影响权重将会有变化,本发明基于当前的大数据环境数据,并通过权重预测模型预测得到当前来源领域、产生时间、语境信息对多义词的影响权重。
[0126] 根据本发明的实施例,在通过权重预测模型预测得到来源领域、产生时间、语境信息对多义词的影响权重之后,所述方法还包括:
[0127] 获取历史时间的多个历史数据,其中所述历史数据至少包括历史时间的大数据环境信息,以及历史时间关于来源领域、产生时间、语境信息对多义词的历史实际影响权重;
[0128] 基于当前的大数据环境信息进行特征计算,得到第一特征值;
[0129] 基于每个历史数据的大数据环境信息进行特征计算,得到第二特征值;
[0130] 分别对比计算每个历史数据的第二特征值与当前的第一特征值之间的差异度;
[0131] 将差异度小于第一预设阈值的历史数据加入选定数据库;
[0132] 基于选定数据库中的每个历史数据的大数据环境信息,并通过权重预测模型预测得到对应历史时间的来源领域、产生时间、语境信息对多义词的历史预测影响权重;
[0133] 基于选定数据库中的每个历史数据,将历史实际影响权重与历史预测影响权重进行作差计算,得到第一差值;
[0134] 将多个第一差值基于选定数据库中的历史数据的总数量进行平均化计算,得到平均差值;
[0135] 在预测的影响权重基础上,加上所述平均差值,得到修正后的影响权重。
[0136] 可以理解,第一差值和平均差值分别为来源领域、产生时间、语境信息三个维度的差值,由于来源领域、产生时间、语境信息三个维度的影响权重之和等于1,则三个维度的差值的正负性不同,且三个维度的差值之和等于0。
[0137] 需要说明的是,历史实际影响权重是在历史时间的大数据环境信息以及对应的预测结果匹配度由人工评价分析出的。
[0138] 本发明通过历史数据计算出实际权重与模型预测权重之间的差值,并基于差值对当前预测的影响权重进行修正,从而得到更加准确的影响权重。
[0139] 根据本发明的具体实施例,所述方法还包括:
[0140] 将样本数据集中的样本数据输入特征提取网络,计算得到每个样本数据的同类近邻距离、相似类近邻距离以及特征向量;
[0141] 计算每个样本数据的同类近邻距离、相似类近邻距离之和,并对每个样本数据距离之和进行归一化处理,计算出每个样本数据的权重;
[0142] 根据每个样本数据的权重和特征向量计算得到加权原型;加权原型的算法具体为:
[0143]   ;
[0144] 其中,  为加权原型,  表示样本数据集,  表示输入样本数据的标识号,为输入的样本数据,  为对应的实体标签,  为样本数据的特征向量, 为样本数据集  中各个样本数据的权重,  的计算式为:
[0145]  ;
[0146] 其中, 和  为欧式距离函数, 为参数因子,  为归一化处理函数,样本数据集 中样本数据  的特征向量表示与样本数据集  中其他样本数据 的特征向量表示的距离之和为  ,该样本数据与c个相似类的样本数据集  中所有样本  的距离之和为  ;
[0147] 获取待处理数据并将待处理数据基于加权原型  进行处理,得到加权处理后的待处理数据,将其输入优化后的实体标签预测模型,预测得到实体标签。
[0148] 图2示出了本发明一种基于多义词的命名实体识别系统的框图。
[0149] 如图2所示,本发明第二方面还提出一种基于多义词的命名实体识别系统2,包括存储器21和处理器22,所述存储器中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被所述处理器执行时实现如下步骤:
[0150] 准备训练用的样本数据集,统计所有多义词,并进行修改样本数据集;
[0151] 构建基于多义词的实体标签预测模型;
[0152] 分析出基于多义词的实体标签预测模型的损失函数;
[0153] 通过样本数据集中的样本数据对实体标签预测模型进行训练,待训练结束后,得到优化后的实体标签预测模型;
[0154] 获取待处理数据并将其输入优化后的实体标签预测模型,预测得到实体标签。
[0155] 根据本发明的实施例,获取待处理数据并将其输入优化后的实体标签预测模型,预测得到实体标签,具体包括:
[0156] 在训练过程中,预设某多义词有多种语义,获取该多义词对应的所有样本数据的来源领域以及产生时间和语境信息,并基于各个样本数据分别打包成各个语义的判定影响因素;
[0157] 基于各个语义的判定影响因素和该多义词在对应样本数据的样本实体标签分析出二者之间的对应关系;
[0158] 基于所述对应关系对实体标签预测模型进行深度学习,并对实体标签预测模型的参数进行优化;
[0159] 在对待处理数据进行预测实体标签时,获取待处理数据的来源领域、产生时间和语境信息,并通过优化后的实体标签预测模型输出对应的实体标签。
[0160] 根据本发明的实施例,在通过优化后的实体标签预测模型输出对应的实体标签之后,所述基于多义词的命名实体识别方法程序被所述处理器执行时还实现如下步骤:
[0161] 通过准确度评价模型对输出的实体标签进行评价,得到评价结果;
[0162] 根据评价结果,确定是否触发对实体标签预测模型进行继续训练优化,如果评价结果为准确,则无需触发对实体标签预测模型继续训练,如果评价结果为不准确,则触发对实体标签预测模型继续训练。
[0163] 本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于多义词的命名实体识别方法程序,所述基于多义词的命名实体识别方法程序被处理器执行时,实现如上述的一种基于多义词的命名实体识别方法的步骤。
[0164] 本发明提出的一种基于多义词的命名实体识别方法、系统和存储介质,能够实现对多义词进行精确的命名实体识别。
[0165] 在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0166] 上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0167] 另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0168] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0169] 或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0170] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。