一种基于商品评论的舆情监控方法及系统转让专利
申请号 : CN201810818724.5
文献号 : CN108984775B
文献日 : 2020-05-22
发明人 : 黄文明 , 李莉 , 林雨蓝 , 邹苇 , 夏静 , 徐丽萍
申请人 : 南京新贝金服科技有限公司 , 新一站保险代理股份有限公司
摘要 :
权利要求 :
1.一种基于商品评论的舆情监控方法,其特征在于,包括词向量嵌入、评论数据收集和预处理、评论数据标引、神经网络训练和自动分类和报警的步骤,包括:步骤1,词向量嵌入,采集网络百科全书中的语料,并对语料进行分词,用分词后的语料训练词向量模型;
步骤2,评论数据收集和预处理,利用爬虫程序模拟用户在浏览器端的行为,获得各个页面的html代码;将html代码根据商品id和时间存储在系统的文件存储系统中;对收集的html代码进行解析,获得评论数据并存入数据库中;
步骤3,评论数据标引,根据需求设置标注体系,对标注界面设置标注指标;抽取一部分评论数据根据已经设置好的标注指标,对评论数据进行人工标注,标注完成的评论数据将存储至数据库中;
步骤4.神经网络训练,根据事先创建的神经网络训练参数文档,初始化一个包含两层LSTM和一个多层全连接的神经网络网络结构;选择导入事先训练好的网络权重参数或者使用初始化的权重值;根据神经网络训练参数文档中的batch size、学习率和学习次数的参数;从数据库中获得评论数据作为神经网络训练数据进行训练;
步骤5,自动分类和报警,从数据库中获得没有标注的、待标注的数据输入神经网络,获得分类结果,分类结果会被自动存入数据库中,分类结果将被抽样检查,检验通过的数据被发送并进行处理,并对消极评论发出警报;
所述步骤1中,网络百科全书选用维基百科,在对语料进行分词前,先进行中文翻译或简繁体转化;运用隐式马尔科夫链对转化后的语料进行分词,将分词后的语料输入Word2Vec算法中训练词向量模型,得到一个为∑的词语集合以及一一对应的向量集合V的词-向量词典Dict;所述Dict中的键和值分别为{Wi:Vi},其中Vi是一个由K个[0,1]之间均匀分布的随机数组成的向量,为了进行下一步的训练,需要设置一个超参数Window;根据超参数和变量,输入层有Window*2*k个节点,输出层有k个节点;训练过程包括,首先以某个词Wi为中心,找到左右临近的Window个词语,依次序在dict中找到这个词语W对应的向量V,将这Window*2个词语在dict中对应的词语向量依次首尾相连,拼接为一个Window*2*k的向量,输入神经网络的输入层,得到分类的概率P;根据dict查找Wi对应的k维的向量Vi,将Vi作为预测目标;计算P与Vi之间的损失函数loss,公式为mean(-Vilog(P));对loss求输入层的梯度,进行反向传播,调整神经网络的权重和输入的向量,最终收敛,得到一个稳定的dict;用Word2Vector算法得到Dict,Dict表示词-向量词典,其中∑是Dict中的词语的全集,每一个词语wi∈∑都能从Dict中找到唯一一个与之对应的向量vi;
所述步骤2中,所述爬虫程序模拟用户在浏览器端的行为包括登陆、搜索、点击、浏览和滚动,以操作浏览器在各个商品页面上浏览和跳转,所述评论数据包括获得评论内容和评论位置,将评论内容、商品id、评论位置、页面URL、评论时间、用户id存入数据库中;
所述步骤4中,从数据库中获得评论数据,在步骤1中的词向量模型中进行词向量嵌入,再作为神经网络训练数据进行训练;
所述步骤5中,检验通过的评论数据被发送至人工检查,如果没有通过人工检查,数据自动分类的标注结果将被擦除,并提示重新训练神经网络。
2.如权利要求1所述的一种基于商品评论的舆情监控方法,其特征在于:所述步骤4中,词向量嵌入后对每一批评论数据根据该批评论数据中的最长的语句,对较短的语句在语句前用零向量进行填补,使每一批评论数据形成一个三阶张量,具体为:首先对一个评论数据rk进行分词得到一个有序的词语序列seq包含[w1,w2,…,wm],m个词语;
按照词语序列seq中的语序依次在dict中查找词语wi对应的向量vi,若wi不包含于∑则跳过该词,继续查找下一个词语的词向量vi;
对词语序列查找完对应的词向量后得到一个维度为Lengthj×k的二维矩阵,其中Lengthj是这个评论rk包含于∑的词语数量,因此对于不同的rk其长度Lengthj不一定相等;
重复上述batch次抽取一个评论,进行分词和嵌入词向量操作,最终得到一个维度为batch个Lengthj×k的矩阵,求取这batch个评论中Length的最大值Lengthmax,对Lengthj
经上述操作得到的batch个矩阵的维度都为Lengthmax×k,将其拼接在一起得到一个维度为batch×Lengthmax×k的三阶张量。
3.如权利要求2所述的一种基于商品评论的舆情监控方法,其特征在于,所述步骤3中,抽取的每一条评论数据会被分派给两位用户进行人工标注,如标注结果不一致则分派给第三位用户,以标注一致的两位用户的结果作为这条评论数据的最终标注结果。
4.如权利要求3所述的一种基于商品评论的舆情监控方法,其特征在于,所述步骤4中,LSTM层运算包含遗忘门运算、记忆门运算和输出门运算,全连接神经网络的计算公式为:d=Relu(Input·wd+bd)
其中d是全连接神经网络的输出,Input是上一层神经网络输入的向量,wd与bd是随机数,反向传播中被训练,在导入训练好的神经网络权重后允许用户继续输入训练数据,优化网络结构。
5.如权利要求4所述的一种基于商品评论的舆情监控方法,其特征在于,所述步骤4中,每次训练前将训练数据分为训练数据和测试数据,利用测试数据评价模型准确率,当准确率较低或无法达到理想,能回滚至神经网络上一状态或者训练全新的神经网络。
6.一种根据权利要求1-5之一所述方法运行的基于商品评论的舆情监控系统,其特征在于:包括依次相连的词向量嵌入模块、评论数据收集和预处理模块、评论数据标引模块、神经网络训练模块和自动分类和报警模块:所述词向量嵌入模块用于采集网络百科全书中的语料,并对语料进行分词,用分词后的语料训练词向量模型;
所述评论数据收集和预处理模块用于利用程序模拟用户在浏览器端的行为,获得各个页面的html代码;将html代码根据商品id和时间存储在系统的文件存储系统中;对收集的html代码进行解析,获得评论数据并存入数据库中;
所述评论数据标引模块用于根据需求设置标注体系,对标注界面设置标注指标;抽取一部分评论数据根据已经设置好的标注指标,对评论数据进行人工标注,标注完成的评论数据将存储至数据库中;
所述神经网络训练模块用于根据事先创建的神经网络训练参数文档,初始化一个包含两层LSTM和一个多层全连接的神经网络网络结构;选择导入事先训练好的网络权重参数或者使用初始化的权重值;根据神经网络训练参数文档中的batch size、学习率和学习次数参数;从数据库中获得评论数据作为神经网络训练数据进行训练;
所述自动分类和报警模块用于从数据库中获得没有标注的,待标注的数据输入神经网络,获得分类结果,分类结果会被自动存入数据库中,分类结果将被抽样检查,检验通过的数据被发送并进行处理,并对消极评论发出警报。