一种涉及金融投研的数据处理方法及终端转让专利
申请号 : CN202010950256.4
文献号 : CN111815426B
文献日 : 2020-12-15
发明人 : 李伟 , 杨双
申请人 : 深圳司南数据服务有限公司
摘要 :
权利要求 :
1.一种涉及金融投研的数据处理方法,其特征在于,包括步骤:S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观;
所述S1具体为:
获取资讯来源,并根据预设规则将所述资讯来源转换为数字标识;
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数;
所述S2中根据所述句子序列及所述主观性词典得到每一个句子的主观性得分具体为:按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观性得分;
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分。
2.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中根据所述资讯来源得到来源特征向量具体为:预设资讯来源类别,确定所述资讯来源对应的所述资讯来源类别,得到所述资讯来源类别对应的来源特征向量,作为所述资讯来源对应的来源特征向量。
3.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中根据所述句子序列得到所述句子序列中每一个句子的句子特征向量具体为:预训练预设词库中词语对应的词向量;
对所述句子进行词语划分,得到分词列表;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取所述分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量。
4.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中所述根据所述句子序列及所述主观性词典,得到每一个句子的主观权重得分具体为:按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观权重得分;
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
对所述句子进行分词,得到分词列表;
匹配所述分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分。
5.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S3具体为:将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分两两交叉组合得到第二组合,通过attention机制表示所述第二组合;
将所述第二组合与所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分进行线性组合,得到低阶特征;
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分输入transformer模型,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量。
6.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S4具体为:根据所述资讯特征向量,通过sigmoid函数计算出主观概率,若主观概率大于第一阈值则所述标签类型为主观;
否则,所述标签类型为客观。
7.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2还包括:将所述句子特征向量输入加入attention机制BiLSTM模型,进行基于词的特征提取及基于字的特征提取,分别得到基于词的句子特征向量及基于字的句子特征向量;
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型。
8.一种涉及金融投研的数据处理终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一所述的一种涉及金融投研的数据处理方法。
说明书 :
一种涉及金融投研的数据处理方法及终端
技术领域
背景技术
发明内容
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
附图说明
图3为本发明实施例的一种涉及金融投研的数据处理方法的数据处理过程图;
图4为本发明实施例的LSTM模型提取特征示意图;
标号说明:
1、一种涉及金融投研的数据处理终端;2、处理器;3、存储器。
具体实施方式
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数。
对所述句子进行词语划分,得到分词列表;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取所述分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量。
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
对所述句子进行分词,得到分词列表;
匹配所述分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分。
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分。
将所述第二组合与所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分进行线性组合,得到低阶特征;
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分输入transformer模型,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量。
若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;
若不满足以上情况,则输出需再次检验的提示信息。
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型。
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
具体为:
获取资讯来源,并根据预设规则将所述资讯来源转换为数字标识;
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;句子序列包括标题句子序列及文本句子序列;
构建自定义词库,包括资讯网站名、公司名及专有名词;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数;具体的,预先收集一定数量的资讯,统计其中的词性频率将词性按照频率从高到低排列,从出现频率最高的词性开始,从高到低选择预设数量的词性构建其对应的词性字典,组成主观性词典;
在一种可选的实施方式中,选择频率前50的词性构建词性字典,主要包括221个程度副词(如绝对、非常、百分之百),29个否定副词(如没有、不会、不是),93个连词(如不但、而且、否则),719个能愿副词(如迟早、成天、定然),6846个评价词(如请愿、抗议),29个情态动词(如或许、理应、但愿),32个人称代词(如我、我们、他们),2090个情感词(如表彰、恭贺),139个叹词(如啊、吧),26个疑问代词(如为什么、怎么样),17个语气词(如吗、也好),64个指示代词(如那个、有的、这个),49个状态词(如企图、准备、打算),235个主张词(如觉得、以为、判定)等,并且为每一类型的词典设置一个(0,1)的权重系数;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
具体为:对句子序列进行预处理,利用jieba(一个开源的中文分词工具,可以将文本分割为一个个词语)对句子序列进行分词和词性标注,去除预设的停用词之后,得到句子序列中每一个句子的分词列表和分词列表中每个词语对应的词性;分词列表中的词语可按其在句子中出现的顺序排列;
(1)根据所述资讯来源得到来源特征向量具体为:
预设资讯来源类别,确定所述资讯来源对应的所述资讯来源类别,得到所述资讯来源类别对应的来源特征向量,作为所述资讯来源对应的来源特征向量;
(2)根据所述句子序列得到所述句子序列中每一个句子的句子特征向量具体为:
预训练预设词库中词语对应的词向量;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取句子对应的分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量;句子特征向量包括标题句子特征向量及文本句子特征向量;
(3)所述根据所述句子序列及所述主观性词典,得到每一个句子的主观权重得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观权重得分;
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
匹配句子对应的分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分;
(4)根据所述句子序列及所述主观性词典得到每一个句子的主观性得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观性得分;
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分;
具体的,获取主观词性组合及词性权重的方式为:
获取预设数量的已被标记主客观的训练句子作为训练集,对训练句子进行分词,得到训练分词列表,所述训练分词列表中词语按所述词语在训练句子中的出现顺序排列;确认所述训练分词列表中的词语的词性;
获取训练分词列表中相邻的两个训练词语作为训练组合,根据训练词语的词性,得到训练组合对应的训练词性组合;
计算每个训练词性组合的卡方值,得到训练词性组合与句子主客观的相关性,并将训练词性组合按照卡方值从大到小的顺序排列,得到训练词性组合列表;获取训练词性组合列表中前预设个数的训练词性组合,作为主观词性组合;
计算每个主观词性组合的精确率,作为其对应的词性权重;精确率=出现第一主观词性组合且标记为主观的训练句子总数/出现第一主观词性组合的训练句子总数;
在一种可选的实施方式中,获取训练词性组合列表中前3个训练词性组合作为主观词性组合,主观词性组合包括副词+形容词、名词+副词及副词+副词,对应的词性权重分别为:0.8、0.7及0.55;获取句子后,对所述句子进行分词得到分词列表及分词列表中每个词语所对应的词性,判断相邻的两个词语的词性组合是否存在副词+形容词、名词+副词或副词+副词的组合形式,若最终得出句子中存在2个副词+形容词的组合、1个名词+副词的组合,则句子的主观性得分为(0.8×2+0.7)/3≈0.767;
S3、根据来源特征向量、句子特征向量、主观权重得分及主观性得分,得到资讯特征向量;
具体为:
在输入层输入5个filed(相同性质的特征的一个集合)特征:来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分;
将来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分两两交叉组合得到第二组合,通过attention机制(注意力机制,考虑各个特征组合的权重,通过特征之间的相互作用得到特征两两组合的权重)表示所述第二组合的重要性程度,具体的,初始化三个权重矩阵h,w和b,定义a=h×ReLU(wx+b),使用softmax函数对a进行归一化,得到每个组合的权重系数;将所述第二组合与来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分进行线性组合,得到低阶特征;
ReLU为线性整流函数;
具体的,每个组合的权重系数的计算公式为:
其中,xi及xj分别为i和j的特征向量,vi及vj分别为i和j的特征向量所对应的权重矩阵; 为特征向量xi及xj组合的权重系数; 是对权重系数 进行归一化后的值;i,j为来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分其中两者;hT表示系数矩阵h的转置;exp表示指数函数;
将来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分拼接后输入两层transformer编码器部分,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观;
具体为,进行二分类:
根据所述资讯特征向量,通过sigmoid函数(也叫Logisit函数,用于隐藏层神经元输出,取值范围为(0,1),可以将一个实数映射到(0,1)的区间,可用于做二分类)计算出主观概率,若主观概率大于第三阈值,则所述标签类型为主观,否则,所述标签类型为客观;
在一种可选的实施方式中,计算出主观概率和客观概率;若主观概率大于第一阈值且客观概率小于第二阈值,则所述标签类型为主观;若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;若不满足以上情况,则输出需再次检验的提示信息。
所述S2中预训练预设词库中词语对应的词向量具体为:
获取一个大规模的中文资讯语料库,调用Word2vec(一种产生词向量的模型,属于浅层网络模型)工具为中文资讯语料库中的每个词语训练出128维的词向量及128维的字向量;
训练128维词向量的过程具体为:将中文资讯语料库中的资讯中的句子用jieba进行分词,并去除预设的停用词,得到分词列表;对分词列表中所有词语的出现频率进行统计,将词语按照出现频率从高到低进行排列,根据词语与其对应的出现频率得到词频列表;根据词频列表,获取分词列表中每个词语的one-hot向量;根据词频列表,按照出现频率由小到大构建哈夫曼树,每个词语为一个叶子节点,且位于左侧叶子节点的词语的出现频率小于位于右侧的叶子节点,为左侧的叶子节点编码为1,右侧的叶子节点编码为0,得到每个词语的哈夫曼编码;
对于需要训练词向量的目标词语,输入其预设窗口范围内(及输入目标词语前后文词语的数量)的上下文词语的one-hot向量,与预设的权重矩阵相乘作为隐藏层的输入,经过隐藏层的求和平均得到第一特征向量;获取目标词语的one-hot向量及哈夫曼编码,对目标词语的one-hot向量使用sigmoid激活函数激活,得到为0的概率和为1的概率结合哈夫曼编码得到目标词语的联合概率分布,获取联合概率分布的极大似然函数,并获取对应的损失函数;
将所有词语的损失函数求和得到目标损失函数,采用梯度下降法对目标损失函数进行优化,得到权重矩阵;训练好的权重矩阵即为所有词的词向量矩阵;
在一种可选的实施方式中,得到要预测的目标词的哈夫曼编码为0110101,并且经过sigmoid激活函数之后为1的概率为h(x),则为0的概率为1-h(x),则相对应的联合概率分布为p=(1-h(x))×h(x)×h(x)×(1-h(x))×h(x)×(1-h(x))×h(x);
训练128维字向量的过程与上述训练128维词向量的过程相似;
所述S2还包括:
将所述句子特征向量输入加入attention机制的BiLSTM模型,进行基于词的特征提取及基于字的特征提取,分别得到基于词的句子特征向量及基于字的句子特征向量;
得到基于词的句子特征向量具体为:
请参照图4,将句子特征向量输入embedding嵌入层,接着经过BiLSTM层,得到每个位置的特征向量;在Attention层使用双向LSTM每个时序的输出计算每个时序的权重,将所有时序的向量进行加权求和作为基于词的句子特征向量;
得到基于字的句子特征向量的过程与上述得到基于词的句子特征向量的过程相似;
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型;具体的,拼接基于词的句子特征向量及基于字的句子特征向量得到第二特征向量,通过sigmoid函数计算出对应第二特征向量的主观和客观的概率,若主观概率大于第一阈值且客观概率小于第二阈值,则所述标签类型为主观;若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;若不满足以上情况,则输出需再次检验的提示信息;
在一种可选的实施方式中,可将上述判断句子主客观的方法应用于除资讯文本外的较多客观性表述的文本中,如研究报告,可将标签类型为主观的句子在研究报告中高亮表示,以提示研究员对相应句子做出修改;
请参照图3,所述S4之后还包括:生成资讯摘要;
具体为:首先根据句子的标签类型,摘取标签为客观的句子,接着计算句子评分=(1-句子的主观性得分平均值)×textRank算法分数值(textRank算法为一种文本排序算法,由网页重要性排序算法PageRank算法改进而来,能够从给定的一个文本中提取该文本的关键词及关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句),根据句子评分结合预设的业务规则作为资讯摘要;
在一种可选的实施方式中,预设的业务规则可为资讯摘要句子总数或资讯摘要字数;
在一种可选的实施方式中,本说明书中的资讯为新闻。