短文本内容分类方法和系统转让专利
申请号 : CN201810447731.9
文献号 : CN108595440B
文献日 : 2022-03-18
发明人 : 赵建强 , 申强 , 江汉祥
申请人 : 厦门市美亚柏科信息股份有限公司
摘要 :
权利要求 :
1.一种短文本内容分类方法,其特征在于,包括:取得社交网络平台的短文本内容;
取得该短文本内容的上下文情感特征值和先验情感特征值;
使用模型训练生成该短文本内容的词向量和分类特征向量;
利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;
其中,使用模型训练生成该短文本内容的词向量的步骤包括:使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;
将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];
将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;
使用第二模型训练生成该短文本内容的句子级特征向量td;以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot;
使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
2.根据权利要求1所述的方法,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值的步骤包括:
生成该短文本内容的上下文情感特征值向量tc;以及生成该短文本内容的先验情感特征值向量SenScore(t)。
3.根据权利要求1所述的方法,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化的步骤包括:
将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top‑K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top‑K池化操作,使得该最后一层的该Top‑K池化操作输出向量t′i。
4.根据权利要求1所述的方法,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别的步骤包括:连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';
将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
5.一种短文本内容分类系统,包括处理器和存储器,该存储器中存储有短文本内容分类单元,其特征在于,该短文本内容分类单元用于:取得社交网络平台的短文本内容;
取得该短文本内容的上下文情感特征值和先验情感特征值;
使用模型训练生成该短文本内容的词向量和分类特征向量;
利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;
其中,使用模型训练生成该短文本内容的词向量的步骤包括:使用第一模型训练生成该短文本内容的分布式词向量t=[w1,w2,...,wn],其中wi是该短文本内容中的单词项wi,每个单词项wi都是一个向量;
将该分布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部特征向量xt=[x1,x2,...xt];
将该分布式词向量t输入到前向长短时记忆网络中以取得前向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络输出序列向量以生成新向量hn;
使用第二模型训练生成该短文本内容的句子级特征向量td;以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文本语义向量ot;
使用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
6.根据权利要求5所述的系统,其特征在于,取得该短文本内容的上下文情感特征值和先验情感特征值包括:
生成该短文本内容的上下文情感特征值向量tc;以及生成该短文本内容的先验情感特征值向量SenScore(t)。
7.根据权利要求5所述的系统,其特征在于,利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化包括:
将该多层次文本语义向量ot输入深度卷积神经网络的池化层,以生成向量o't;以及将该向量o't再次进行卷积操作以取得更高一层的文本语义特征表示并输出向量再进行Top‑K池化操作,直到取得最后一层的该文本语义特征表示并输出向量再进行该Top‑K池化操作,使得该最后一层的该Top‑K池化操作输出向量t′i。
8.根据权利要求5所述的系统,其特征在于,组合不同层次的情感特征向量并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别包括:连接该上下文情感特征值向量tc、该先验情感特征值向量SenScore(t)和该向量t′i,以生成向量y';
将该向量y'输入深度卷积神经网络的全连接层,以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于一或多个内容类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
说明书 :
短文本内容分类方法和系统
技术领域
背景技术
和产品推广和传统媒体传播的主要平台。截止2017年9月,全球性的微博服务站点Twitter
的月活跃用户达到3.3亿,而中文微博平台新浪微博的月度活跃用户数达到3.76亿、日活跃
用户达到1.65亿。数以亿计的活跃用户来自不同的社会文化背景且遍布全球,每时每刻都
在生成大量包含用户的意见和情绪的文本信息。
感、态度和意见信息,是当前互联网信息处理、数据挖掘、计算语言学等领域的一个热点研
究问题,在政府管理、企业品牌和产品营销、消费者个体利益等方面均具有极其重要的意
义。
征,而分类特征多使用词袋模型,难以刻画词序信息,且面临了维数爆炸和数据稀疏的问
题。此外,微博的文本经常出现“明褒暗贬”或隐式的表述方式,而人工构建特征的方式难以
发现和描述这类隐含的语义关系。
发明内容
短文本内容的词向量和分类特征向量;利用多窗口卷积操作来取得不同粒度的该短文本内
容的语义关系,并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使
用双向长短时记忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量
并取得输出向量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容
类别的概率值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
布式词向量t输入到一个深度卷积神经网络的卷积层,以生成该短文本内容的上下文局部
特征向量xt=[x1,x2,...xt];将该分布式词向量t输入到前向长短时记忆网络中以取得前
向长短时记忆网络输出序列向量,并输入到后向长短时记忆网络中以取得后向长短时记忆
网络输出序列向量,并组合该前向长短时记忆网络输出序列向量和该后向长短时记忆网络
输出序列向量以生成新向量hn;使用第二模型训练生成该短文本内容的句子级特征向量td;
以及组合该上下文局部特征向量xt、该新向量hn以及该句子级特征向量td,以生成多层次文
本语义向量ot。
示并输出向量再进行Top‑K池化操作,直到取得最后一层的该文本语义特征表示并输出向
量再进行该Top‑K池化操作,使得该最后一层的该Top‑K池化操作输出向量t′i。
以取得输出向量y;以及使用第一函数对该输出向量y进行计算,以取得该短文本内容属于
一或多个内容类别的概率值P(i|t,θ),并将该概率值P(i|t,θ)为最大的该内容类别作为该
短文本内容的类别。
项,n是该短文本内容的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息,PMI(wi,
neg)是单词项wi与负向情感分类的点互信息。
本内容;取得该短文本内容的上下文情感特征值和先验情感特征值;使用模型训练生成该
短文本内容的词向量;利用多窗口卷积操作来取得不同粒度的该短文本内容的语义关系,
并组合池化操作而从不同层次对该短文本内容的语义表示进行抽象化;使用双向长短时记
忆网络获得该短文本内容的语义表征;以及组合不同层次的情感特征向量并取得输出向
量,使用函数对该输出向量进行计算以取得该短文本内容属于一或多个内容类别的概率
值,并将该概率值为最大的该内容类别作为该短文本内容的类别。
词向量的维数爆炸和数据稀疏的问题。此外,还利用多窗口卷积操作来取得不同粒度的短
文本内容的语义关系,并组合池化操作而从不同层次对短文本内容的语义表示进行抽象
化,最后再组合不同层次的情感特征向量,从而能够更加全面和多样的描述短文本内容的
情感语义特征,进而提高短文本内容的分类性能。
附图说明
到其他实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地
理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
具体实施方式
辑改变,而不背离本发明的范围。因此以下详细描述不应当在限制的意义上被采用,并且本
发明的范围由所附权利要求来限定。
内容分类方法包括以下步骤:
对短文本内容C进行处理前,可先删除这些信息,以降低文本处理的词汇表空间、减少数据
噪声信息。在一实施例中,步骤S10包括:通过社交网络平台P的应用程序编程接口
(Application Programming Interface,API)取得短文本内容C(例如编写取得社交网络平
台P的短文本内容C的程序,在程序中通过官方所提供的API来取得短文本内容C);清洗短文
本内容C(例如删除短文本内容C中的非文本字符、超链接、数字、一般标点符号和/或特殊符
号);以及对短文本内容C进行分词。
词是一种突出强调的表现,因此可统计大写单词的数量作为情感特征的一项;短文本内容C
中标点符号的重复是一种情绪或态度的突出强调,因此可将这种重复标点符号的出现作为
情感特征项。在一实施例中,步骤S20包括:根据短文本内容C中的表情符号、重复标点符号
及/或英文大写单词的数量生成短文本内容C的上下文情感特征值向量tc。
来取得作为显式的词语情感倾向表达的特征值。在一实施例中,先验情感特征值
其中,wi是短文本内容C中的单词
项,n是短文本内容C的长度,PMI(wi,pos)是单词项wi与正向情感分类的点互信息
(Pointwise Mutual Information,PMI),PMI(wi,neg)是单词项wi与负向情感分类的点互信
息。单词项wi的情感值可从情感字典取得。
Vector Space”),使用Word2Vec模型训练短文本内容C取得短文本内容C中的单词的词向量
k×|V|
表L∈R (其中k是词向量的维度,V是语料库的规模),进而计算取得短文本内容C的分布
式词向量t=[w1,w2,...,wn]。
Hochreiter 和Jürgen Schmidhuber(1997)所著的“Long short‑term memory”。在一实施
例中,新向量
Documents”。
池化操作,使得最后一层的Top‑K池化操作输出向量t′i。
而后再对输出的向量进行最大池化操作。直到最后一层的最大化池化操作,即输出向量t
′i。在一实施例中,向量t′i为固定长度的向量。通过使用固定长度的词向量,可避免维数爆
炸和数据稀疏的问题。
类别作为短文本内容C的类别。
内容C的类别。
unit,CPU)、数字信号处理器(digital signal processor,DSP)、专用集成电路
(application specific integrated circuit,ASIC)、现成可编程门阵列(field‑
programmable gate array,FPGA)或其他可编程逻辑器件,用来执行该存储器中所存储的
计算机程序。该存储器中存储有短文本内容分类单元110,其中短文本内容分类单元110包
括用来实现图1所示的短文本内容分类方法的计算机程序。
词向量的维数爆炸和数据稀疏的问题。此外,还利用多窗口卷积操作来取得不同粒度的短
文本内容的语义关系,并组合池化操作而从不同层次对短文本内容的语义表示进行抽象
化,最后再组合不同层次的情感特征向量,从而能够更加全面和多样的描述短文本内容的
情感语义特征,进而提高短文本内容的分类性能。
等同形式的范围内,则本发明还旨在涵盖这些修改和改变。词语“包括”不排除未在权利要
求中列出的其他元件或步骤的存在。某些措施记载在相互不同的从属权利要求中的简单事
实不表明这些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为限制
范围。