数据处理方法、装置及存储介质转让专利
申请号 : CN202110397661.2
文献号 : CN113254635B
文献日 : 2021-11-05
发明人 : 李晨曦 , 荆宁
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第二类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型;
其中,所述第一类别信息的具体获取方式包括:调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;
对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;
调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息,所述第一类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二类别信息确定所述目标实体的分类结果,包括:
获取类型嵌入数据,所述类型嵌入数据用于描述预定义的多个实体类型之间的依赖关系;
基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息;
基于所述第三类别信息确定所述目标实体的分类结果。
3.根据权利要求2所述的方法,其特征在于,所述类型嵌入数据包括所述多个实体类型之间的依赖关系矩阵,所述第二类别信息包括所述目标实体在所述多个实体类型上的预测概率矩阵,所述基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息,包括:
利用所述依赖关系矩阵对所述预测概率矩阵进行调整,以得到调整后的预测概率矩阵;
根据所述调整后的预测概率矩阵确定所述目标实体的第三类别信息。
4.根据权利要求2或3所述的方法,其特征在于,所述获取类型嵌入数据之前,所述方法还包括:
获取预定义的多个实体类型的层级结构,所述层级结构包括所述多个实体类型的层级划分;
根据所述层级结构确定所述多个实体类型之间的依赖关系矩阵;
将所述依赖关系矩阵作为类型嵌入数据。
5.根据权利要求1 3中任一项所述的方法,其特征在于,所述调用第一分类网络对所述~
目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息之前,所述方法还包括:
获取包括目标实体的多个文本;
对所述多个文本中每个文本的目标实体的实体类型进行标注,以得到标注结果;
根据所述标注结果确定所述目标实体属于预定义的多个实体类型中每个实体类型的概率,并根据所述概率确定所述目标实体的实体类型先验数据。
6.根据权利要求1所述的方法,其特征在于,所述调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,包括:获取所述待处理文本中每个字的词编码表示和相对位置编码表示;
调用第二分类网络对所述词编码表示和所述相对位置编码表示进行处理,以得到所述每个字的上下文编码表示;
基于注意力机制确定所述每个字的注意力权重系数;
基于所述每个字的上下文编码表示和注意力权重系数确定所述待处理文本的关系编码表示。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理文本中的目标实体之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个文本、各个文本中每个实体对应的类别标签以及实体类型先验数据;
利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;
基于所述任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
8.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
处理模块,用于调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第二类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
所述处理模块,还用于基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型;
其中,所述处理模块,还用于调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;
调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息,所述第一类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1 7任一项所述的数据处理方法。
~
10.一种计算机设备,其特征在于,所述计算机设备包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行权利要求1 7任一项所述的数据处理方法。
~
说明书 :
数据处理方法、装置及存储介质
技术领域
背景技术
的类型,比如“苹果”作为一个实体可以是“水果”、“手机”、“公司”。实体类型识别是自然语
言处理(Natural Language Processing,NLP)领域中一些复杂任务的基础,例如语义分析、
问答系统、机器翻译、知识图谱构建等,因此一直以来都是NLP领域中的研究热点。
发明内容
所述待处理文本和所述目标实体进行处理得到的;
二分类网络对所述待处理文本和所述目标实体进行处理得到的;
程序代码,所述处理器用于调用所述可执行程序代码,执行上述任一可能实现方式所述的
数据处理方法。
设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得
该计算机设备执行上述任一可能实现方式所述的数据处理方法。
入,得到目标实体的第二类别信息,最后基于第二类别信息确定目标实体的分类结果,可以
利用实体类型先验数据,有效地提升对实体进行细粒度分类的准确度。
附图说明
通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他
实施例,都属于本申请保护的范围。
此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
工智能芯片云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智
能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深
度学习等几大方向。
理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领
域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联
系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技
术。
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式
教学习等技术。
自然语言处理和机器学习等技术,具体通过如下实施例进行说明。
是非常必要的,细粒度分类是指更加细致的分类,比如将“刘德华”细分为“人物/歌手”、“人
物/影视明星”等。
接,比如,通过无线网络连接等。终端设备101也称为终端(Terminal)、用户设备(user
equipment, UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用
户装置。终端设备可以是智能电视、具有无线通信功能的手持设备(例如智能手机、平板电
脑)、计算设备(例如个人电脑(personal computer, PC)、车载设备、可穿戴设备或者其他
智能装置等,但并不局限于此。
通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,
CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,最后基
于第二类别信息确定目标实体的分类结果,相比于仅仅利用实体和实体的上下文文本来确
定实体在细粒度层面上的分类结果,导致分类准确度较低的方案,本申请可以利用实体类
型先验数据来辅助细粒度分类,解决由于文本(特别是短文本)的文本信息不足、文本信息
有噪音等问题导致的识别效果不佳的问题,有效地提升对实体进行细粒度分类的准确度。
历史记录中的实体进行识别,可以确定用户的兴趣标签,使得可以针对用户的兴趣标签进
行个性化推荐。
技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案
对于类似的技术问题,同样适用。
个个具体的实体。待处理文本中可以包括一个或多个实体,目标实体为待处理文本中的任
一实体。
络对所述待处理文本和所述目标实体进行处理得到的。
文本信息不足、文本信息有噪音的问题,融入目标实体的实体类型先验数据,将实体类型先
验数据与第一类别信息一起作为第一分类网络的输入,从概率的角度来进一步辅助实体分
类,以得到目标实体的第二类别信息。
的多个实体类型中每个实体类型上的概率,例如预定义三个实体类型:“人物”、“演员”、“歌
手”,第二类别信息可以是[0.1,0.4,0.5],表示目标实体属于“人物”、“演员”、“歌手”的预
测概率分别为0.1、0.4、0.5。
一致,其中,在层级结构中的级别越高,则说明实体类型对应的内容的范围越大,例如,第一
层级可以包括三大类,包括实体类、数字类和时间类,针对实体类的第二层级可以包括人
物、地名、机构名,针对人物的第三层级可以包括歌手、演员、律师等。
类别信息 ,如下述公式(1)所示:
类型作为目标实体的分类结果。
输入,得到目标实体的第二类别信息,最后基于第二类别信息确定目标实体的分类结果,可
以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪
音等问题导致的识别效果不佳的问题,有效地提升对实体进行细粒度分类的准确度。
明。
体编码表示进行拼接处理得到文本编码表示,调用第二分类网络对文本编码表示进行处
理,以得到目标实体的第一类别信息。
到待处理文本与目标实体的联系,同时增加更多的上下文语义,本申请引入相对位置编码
表示,并将各个字的词编码表示和相对位置编码表示输入第二分类网络,得到待处理文本
的关系编码表示 。
限定,为了有效捕获目标实体本身的特征,用目标实体中各个字的词编码表示的平均值来
作为目标实体的实体编码表示。将目标实体形式化的表示为 ,其中 表
示第i个字的词编码表示,N表示目标实体长度。实体编码表示 如下述公式(2)所示:
别信息 ,如下述公式(3)所示:
列对应的相对位置信息表示为: ,其中 表示第i个字相对于目标实体的位置,
如目标实体的位置为5,则 的相对位置信息 为‑4,相对位置信息可以体现待处理文本中
的每个字与目标实体的距离。通过将字序列和相对位置信息映射为一个随机初始化的向
量,从而获取待处理文本中各个字的相对位置编码表示和词编码表示,词编码表示形式化
的表示为 , ,其中, 表示词编码表示的向量维度。相对位置编码
表示形式化的表示为 , ,其中, 表示相对位置编码表示的向量维
度。
示。
(Bidirectional Encoder Representation from Transformers, BERT)模型、长短期记忆
(Long Short‑Term Memory, LSTM)网络等学习拼接处理后的词编码表示和相对位置编码
表示涉及的信息,以得到每个字的上下文编码表示。
文本中的各个字进行拼接处理后的词编码表示和相对位置编码表示按待处理文本中各个
字的先后顺序正向输入BiLSTM网络,得到前向编码表示,前向编码表示即从待处理文本的
左边第一个字向后遍历;同时将待处理文本中的各个字进行拼接处理后的词编码表示和相
对位置编码表示按待处理文本中各个字的先后顺序反向输入BiLSTM网络,得到后向编码表
示,后向编码表示即从待处理文本的右边第一个字向前遍历。将前向编码表示和后向编码
表示拼接起来,则得到各个字的上下文编码表示。通过正、反双向的特征学习,使得每个时
刻都能学习到合理的上下文特征。
目标实体的实体类型先验数据是通过统计包括目标实体的多个文本的实体类型确定的,如
针对10000份包括“刘德华”的文本,对文本中刘德华的实体类型进行标注,标注结果指示:
10000份确定的实体类型为人物,8000份确定的实体类型为演员,2000份确定的实体类型为
歌手,则“刘德华”这个目标实体属于预定义的多个实体类型(“人物”、“演员”、“歌手”)中每
个实体类型的概率为1、0.8、0.1,则根据该概率确定的目标实体(“刘德华”)的实体类型先
验数据为[1,0.8,0.2]。
一个实体类型,比如“周杰伦凭借歌曲《青花瓷》获得第19届金曲奖最佳作曲人奖”中的目标
实体“周杰伦”是一个“人物/歌手”类型,那一定也是“人物”类型。基于此,本申请利用类型
嵌入数据来更好的对细粒度的实体类型进行分类。其中,类型嵌入数据用于描述预定义的
多个实体类型之间的依赖关系。
体类型j,例如目标实体的类别信息中包括的各个实体类型为“人物”、“演员”、“歌手”,则类
型嵌入数据为 ,其中第二行第一列为1,表示属于“演员”必定属于“人物”。第二类
别信息为目标实体在预定义的多个实体类型上的预测概率矩阵,假设第二类别信息中包括
的实体类型为“人物”、“演员”、“歌手”,预测概率矩阵为[0.1,0.4,0.5],表示属于“人物”、
“演员”、“歌手”的概率为0.1、0.4、0.5,由于“人物”比“演员”、“歌手”的层级更高,但此时概
率更低,这显然不符合逻辑,由此引入类型嵌入数据,将依赖关系矩阵和预测概率矩阵进行
相乘处理,得到调整后的预测概率矩阵,如下述公式(9)所示:
后,属于“人物”的概率为1,提升了分类的准确度。第三类别信息同样为目标实体针对预定
义的多个实体类型的预测概率矩阵。
络游戏”、“教育”、“理工学科”、“文学学科”、“中国语言文学”,则层级结构分别为“游戏”、
“游戏/动作游戏”、“游戏/网络游戏”、“教育”、“教育/理工学科”、“教育/文学学科”、“教育/
文学学科/中国语言文学”。则可以根据层级结构确定多个实体类型之间的依赖关系矩阵为
,并将依赖关系矩阵作为类型嵌入数据。
0.5],预设阈值为0.4,则目标实体的实体类型为“人物”、“歌手”。
实体类型先验数据;利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文
本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;基于所述
任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络
的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
文本中“刘德华”可能同时归类为"人物"、"歌手"、“演员”,则类别标签为[1,1,1]。在利用第
一分类网络和第二分类网络对训练样本集中包括的每个文本和每个文本中任一实体进行
处理时,首先将训练样本集中包括的每个文本和每个文本中任一实体输入第二分类网络,
接着将第二分类网络的输出的第一类别信息和任一实体的实体类型先验数据输入第一分
类网络,并利用类型嵌入数据对第一分类网络输出的第二类别信息进行调整得到第三类别
信息,将输出的第三类别信息作为任一实体的预测类别信息,基于任一实体的预测类别信
息、类别标签和损失函数对第一分类网络和第二分类网络的网络参数进行调整,以完成对
第一分类网络和第二分类网络的训练。其中,损失函数如下述公式(10)所示:
中第k个实体类型对应的预测概率进行处理。
络通过调整其网络参数来最小化损失函数的值,进而让预测类别信息和类别标签之间的差
异不断减小。当网络参数的调整次数达到预设次数,或损失函数收敛时,则停止对第一分类
网络和第二分类网络的训练。
输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进
一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数
据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效
果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类
的准确度。
待处理文本的关系编码表示,同时第二分类网络中的嵌入层获取待处理文本中目标实体的
实体编码表示,通过将关系编码表示和实体编码表示拼接作为第二分类网络中分类层的输
入,得到第一分类信息,其中分类层为一个全连接层,进一步地,将第一分类信息同实体类
型先验数据进行拼接,作为第一分类网络的输入,得到第二分类信息,最后利用类型嵌入数
据对第二分类信息进行调整,以得到第三分类信息,并将第三分类信息中大于预设阈值的
实体类型作为分类结果输出。
输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进
一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数
据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效
果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类
的准确度。
用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
的训练。
输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进
一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数
据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效
果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类
的准确度。
理器701、存储器702和通信接口703可通过总线704或其他方式连接,本申请实施例以通过
总线704连接为例。
设备70的各类数据,例如:CPU可以用于解析用户向计算机设备70所发送的开关机指令,并
控制计算机设备70进行开关机操作;再如:CPU可以在计算机设备70内部结构之间传输各类
交互数据,等等。通信接口703可选的可以包括标准的有线接口、无线接口(如Wi‑Fi、移动通
信接口等),受处理器701的控制用于收发数据。存储器702(Memory)是计算机设备70中的记
忆设备,用于存放程序和数据。可以理解的是,此处的存储器702既可以包括计算机设备70
的内置存储器,当然也可以包括计算机设备70所支持的扩展存储器。存储器702提供存储空
间,该存储空间存储了计算机设备70的操作系统,可包括但不限于:Windows系统、Linux系
统等等,本申请对此并不作限定。
所述待处理文本和所述目标实体进行处理得到的;
的训练。
输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进
一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数
据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效
果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类
的准确度。
中,该程序在执行时,可包括如上述数据处理方法的实施例的流程。其中,所述的存储介质
可为磁碟、光盘、只读存储记忆体(Read‑Only Memory, ROM)或随机存储记忆体(Random
Access Memory, RAM)等。
算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,
使得该计算机设备执行上述各方法的实施例中所执行的步骤。
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护
范围。因此,本申请专利的保护范围应以所附权利要求为准。