确定新闻与股票之间的关联状态的方法、设备和存储介质转让专利

申请号 : CN202310108828.8

文献号 : CN115858986B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄少森朱峰

申请人 : 上海朝阳永续信息技术股份有限公司

摘要 :

本公开涉及一种用于确定新闻与股票之间的关联状态的方法、设备和存储介质。方法包括:将所获取的网页中的目标新闻的标题与股票的特征词进行匹配;如果目标新闻的标题与股票的特征词相匹配,则基于第一算法,计算目标新闻的标题相对于股票的标题关联状态表征数据;将目标新闻的正文与股票的特征词进行匹配;如果目标新闻的正文与股票的特征词相匹配,则基于第二算法,计算目标新闻的正文相对于股票的正文关联状态表征数据,其中第二算法与第一算法不同;以及基于标题关联状态表征数据和正文关联状态表征数据,确定目标新闻相对于股票的关联状态。本公开至少能够准确地确定新闻与股票之间的关联状态。

权利要求 :

1.一种用于确定新闻与股票之间的关联状态的方法,其特征在于,所述方法包括:将所获取的网页中的目标新闻的标题与股票的特征词进行匹配;

如果所述目标新闻的所述标题与所述股票的所述特征词相匹配,则基于第一算法,计算所述目标新闻的所述标题相对于所述股票的标题关联状态表征数据;

将所述目标新闻的正文与所述股票的所述特征词进行匹配;

如果所述目标新闻的所述正文与所述股票的所述特征词相匹配,则基于第二算法,计算所述目标新闻的所述正文相对于所述股票的正文关联状态表征数据,其中所述第二算法与所述第一算法不同;以及基于所述标题关联状态表征数据和所述正文关联状态表征数据,确定所述目标新闻相对于所述股票的关联状态;

计算所述目标新闻的所述正文相对于所述股票的所述正文关联状态表征数据包括:响应于所述第二算法指示所述股票的第一特征词的最大允许的相匹配次数为第二预定数目,并且所述目标新闻的所述正文与所述第一特征词的相匹配次数小于或者等于所述第二预定数目,则所述正文关联状态表征数据增加与所述第一特征词相对应的加权表征数据;以及响应于所述第二算法指示所述股票的第二特征词的最大允许的相匹配次数为第四预定数目,并且所述目标新闻的所述正文与所述第二特征词的相匹配次数小于或者等于所述第四预定数目,则所述正文关联状态表征数据增加与所述第二特征词相对应的加权表征数据,其中所述第四预定数目与所述第二预定数目不同。

2.根据权利要求1所述的方法,其特征在于,

将所述目标新闻的所述标题与所述股票的所述特征词进行匹配包括:

对所述目标新闻的所述标题进行分词以得到与所述目标新闻的所述标题相对应的标题词语集合;

判断所述标题词语集合中的词语是否与所述股票的所述特征词相同;以及将所述目标新闻的所述正文与所述股票的所述特征词进行匹配包括:对所述目标新闻的所述正文进行分词以得到与所述目标新闻的所述正文相对应的正文词语集合;

判断所述正文词语集合中的词语是否与所述股票的所述特征词相同;

其中,所述股票的所述特征词包括所述股票的股票代码、所述股票的股票名称、所述股票的上市公司全称、所述股票的上市公司简称、所述股票的上市公司关联主体标识、用于指示所述股票主营方向的信息。

3. 根据权利要求1所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据包括:响应于所述第一算法指示所述股票的第一特征词对应于第一加权表征数据,并且所述目标新闻的所述标题与所述第一特征词相匹配,则所述标题关联状态表征数据增加所述第一加权表征数据;以及计算所述目标新闻的所述正文相对于所述股票的所述正文关联状态表征数据包括:响应于所述第二算法指示所述股票的所述第一特征词对应于第二加权表征数据,并且所述目标新闻的所述正文与所述第一特征词相匹配,则所述正文关联状态表征数据增加所述第二加权表征数据,所述第二加权表征数据与所述第一加权表征数据不同。

4. 根据权利要求3所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据还包括:响应于所述第一算法指示所述股票的第二特征词对应于第三加权表征数据,并且所述目标新闻的所述标题与所述第二特征词相匹配,则所述标题关联状态表征数据增加所述第三加权表征数据,其中所述第三加权表征数据与所述第一加权表征数据不同;以及计算所述目标新闻的所述正文相对于所述股票的所述正文关联状态表征数据还包括:响应于所述第二算法指示所述股票的所述第二特征词对应于第四加权表征数据,并且所述目标新闻的所述正文与所述第二特征词相匹配,则所述正文关联状态表征数据增加所述第四加权表征数据,其中所述第四加权表征数据与所述第二加权表征数据不同。

5.根据权利要求3所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据还包括:响应于所述第一算法指示所述股票的所述第一特征词是歧义特征词且对应于第五加权表征数据,并且所述目标新闻的所述标题与所述第一特征词相匹配,则所述标题关联状态表征数据增加所述第五加权表征数据,其中所述第五加权表征数据与所述第一加权表征数据不同;

计算所述目标新闻的所述正文相对于所述股票的所述正文关联状态表征数据还包括:响应于所述第二算法指示所述股票的所述第一特征词是歧义特征词且对应于第六加权表征数据,并且所述目标新闻的所述正文与所述第一特征词相匹配,则所述正文关联状态表征数据增加所述第六加权表征数据,其中所述第六加权表征数据与所述第二加权表征数据不同。

6.根据权利要求1所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据包括:响应于所述第一算法指示所述股票的第一特征词的最大允许的相匹配次数为第一预定数目,并且所述目标新闻的所述标题与所述第一特征词的相匹配次数小于或者等于所述第一预定数目,则所述标题关联状态表征数据增加与所述第一特征词相对应的加权表征数据,其中所述第二预定数目与所述第一预定数目不同。

7.根据权利要求6所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据还包括:响应于所述第一算法指示所述股票的第二特征词的最大允许的相匹配次数为第三预定数目,并且所述目标新闻的所述标题与所述第二特征词的相匹配次数小于或者等于所述第三预定数目,则所述标题关联状态表征数据增加与所述第二特征词相对应的加权表征数据。

8. 根据权利要求6所述的方法,其特征在于,

计算所述目标新闻的所述标题相对于所述股票的所述标题关联状态表征数据还包括:响应于所述第一算法指示所述股票的第一特征词是歧义特征词且所述第一特征词的最大允许的相匹配次数为第五预定数目,并且所述目标新闻的所述标题与所述第一特征词的相匹配次数小于或者等于所述第五预定数目,则所述标题关联状态表征数据增加与所述第一特征词相对应的加权表征数据;以及计算所述目标新闻的所述正文相对于所述股票的所述正文关联状态表征数据还包括:响应于所述第二算法指示所述股票的所述第一特征词是歧义特征词且所述第一特征词的最大允许的相匹配次数为第六预定数目,并且所述目标新闻的所述正文与所述第一特征词的相匹配次数小于或者等于所述第六预定数目,则所述正文关联状态表征数据增加与所述第一特征词相对应的加权表征数据,所述第六预定数目小于所述第二预定数目。

9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

确定所述目标新闻相对于第一股票的第一关联状态;

确定所述目标新闻相对于第二股票的第二关联状态;

确定所述目标新闻相对于第三股票的第三关联状态;以及

基于所述第一关联状态、所述第二关联状态和所述第三关联状态,确定所述第一股票、所述第二股票和所述第三股票中的两者为与所述目标新闻相关联的股票。

10. 一种计算设备,包括:

至少一个处理器;以及

至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理器并且存储用于由所述至少一个处理器执行的指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备执行根据权利要求1至9中任一项所述的方法。

11.一种计算机可读存储介质,其上存储有计算机程序代码,所述计算机程序代码在被运行时执行根据权利要求1至9中任一项所述的方法。

说明书 :

确定新闻与股票之间的关联状态的方法、设备和存储介质

技术领域

[0001] 本公开总体上涉及信息处理领域,并且更具体地,涉及用于确定新闻与股票之间的关联状态的方法、设备和存储介质。

背景技术

[0002] 事件通常会影响股票的走势,为了用户在阅读网页中的与事件有关的新闻时能够快速确定该事件可能对哪些股票产生影响,通常将与事件有关的新闻关联到可能受影响的股票,例如为与事件有关的新闻增加相关联的股票的标签或链接。传统的确定新闻与股票之间的关联状态(例如,关联程度)的技术方案通常将股票的特征词直接与新闻的全文进行正则匹配,基于股票的特征词在新闻的全文中出现的次数来确定新闻与股票之间的关联状态,但并未考虑到股票的特征词在新闻中出现的位置不同对关联状态的影响不同、股票的不同特征词对关联状态的影响不同、股票的部分特征词可能存在歧义等问题,从而所确定的新闻与股票之间的关联状态的准确度低。
[0003] 综上,传统的确定新闻与股票之间的关联状态的方法的不足之处在于:无法准确地确定新闻与股票之间的关联状态。

发明内容

[0004] 针对上述问题,本公开提供一种用于确定新闻与股票之间的关联状态的方法、设备和存储介质,至少能够准确地确定新闻与股票之间的关联状态。
[0005] 根据本公开的第一方面,提供了一种用于确定新闻与股票之间的关联状态的方法,方法包括:将所获取的网页中的目标新闻的标题与股票的特征词进行匹配;如果目标新闻的标题与股票的特征词相匹配,则基于第一算法,计算目标新闻的标题相对于股票的标题关联状态表征数据;将目标新闻的正文与股票的特征词进行匹配;如果目标新闻的正文与股票的特征词相匹配,则基于第二算法,计算目标新闻的正文相对于股票的正文关联状态表征数据,第二算法与第一算法不同;以及基于标题关联状态表征数据和正文关联状态表征数据,确定目标新闻相对于股票的关联状态。
[0006] 在一些实施例中,将目标新闻的标题与股票的特征词进行匹配包括:对目标新闻的标题进行分词以得到与目标新闻的标题相对应的标题词语集合;判断标题词语集合中的词语是否与股票的特征词相同;以及将目标新闻的正文与股票的特征词进行匹配包括:对目标新闻的正文进行分词以得到与目标新闻的正文相对应的正文词语集合;判断正文词语集合中的词语是否与股票的特征词相同;股票的特征词包括股票的股票代码、股票的股票名称、股票的上市公司全称、股票的上市公司简称、股票的上市公司关联主体标识、用于指示股票主营方向的信息。
[0007] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据包括:响应于第一算法指示股票的第一特征词对应于第一加权表征数据,并且目标新闻的标题与第一特征词相匹配,则标题关联状态表征数据增加第一加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据包括:响应于第二算法指示股票的第一特征词对应于第二加权表征数据,并且目标新闻的正文与第一特征词相匹配,则正文关联状态表征数据增加第二加权表征数据,第二加权表征数据与第一加权表征数据不同。
[0008] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第二特征词对应于第三加权表征数据,并且目标新闻的标题与第二特征词相匹配,则标题关联状态表征数据增加第三加权表征数据,第三加权表征数据与第一加权表征数据不同;以及计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第二特征词对应于第四加权表征数据,并且目标新闻的正文与第二特征词相匹配,则正文关联状态表征数据增加第四加权表征数据,第四加权表征数据与第二加权表征数据不同。
[0009] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第一特征词是歧义特征词且对应于第五加权表征数据,并且目标新闻的标题与第一特征词相匹配,则标题关联状态表征数据增加第五加权表征数据,第五加权表征数据与第一加权表征数据不同;计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第一特征词是歧义特征词且对应于第六加权表征数据,并且目标新闻的正文与第一特征词相匹配,则正文关联状态表征数据增加第六加权表征数据,第六加权表征数据与第二加权表征数据不同。
[0010] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据包括:响应于第一算法指示股票的第一特征词的最大允许的相匹配次数为第一预定数目,并且目标新闻的标题与第一特征词的相匹配次数小于或者等于第一预定数目,则标题关联状态表征数据增加与第一特征词相对应的加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据包括:响应于第二算法指示股票的第一特征词的最大允许的相匹配次数为第二预定数目,并且目标新闻的正文与第一特征词的相匹配次数小于或者等于第二预定数目,则正文关联状态表征数据增加与第一特征词相对应的加权表征数据,第二预定数目与第一预定数目不同。
[0011] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第二特征词的最大允许的相匹配次数为第三预定数目,并且目标新闻的标题与第二特征词的相匹配次数小于或者等于第三预定数目,则标题关联状态表征数据增加与第二特征词相对应的加权表征数据;计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第二特征词的最大允许的相匹配次数为第四预定数目,并且目标新闻的正文与第二特征词的相匹配次数小于或者等于第四预定数目,则正文关联状态表征数据增加与第二特征词相对应的加权表征数据,第四预定数目与第二预定数目不同。
[0012] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第一特征词是歧义特征词且第一特征词的最大允许的相匹配次数为第五预定数目,并且目标新闻的标题与第一特征词的相匹配次数小于或者等于第五预定数目,则标题关联状态表征数据增加与第一特征词相对应的加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第一特征词是歧义特征词且第一特征词的最大允许的相匹配次数为第六预定数目,并且目标新闻的正文与第一特征词的相匹配次数小于或者等于第六预定数目,则正文关联状态表征数据增加与第一特征词相对应的加权表征数据,第六预定数目小于第二预定数目。
[0013] 在一些实施例中,方法还包括:确定目标新闻相对于第一股票的第一关联状态;确定目标新闻相对于第二股票的第二关联状态;确定目标新闻相对于第三股票的第三关联状态;以及基于第一关联状态、第二关联状态和第三关联状态,确定第一股票、第二股票和第三股票中的两者为与目标新闻相关联的股票。
[0014] 根据本公开的第二方面,还提供了一种计算设备,计算设备包括:至少一个处理器;以及至少一个存储器,至少一个存储器被耦合到至少一个处理器并且存储用于由至少一个处理器执行的指令,指令当由至少一个处理器执行时,使得计算设备执行本公开的第一方面的方法。
[0015] 根据本公开的第三方面,还提供了一种计算机可读存储介质,其上存储有计算机程序代码,计算机程序代码在被运行时执行本公开的第一方面的方法。
[0016] 提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。

附图说明

[0017] 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0018] 图1图示了根据本公开实施例的用于确定新闻与股票之间的关联状态的方法的系统的示意图。
[0019] 图2图示了根据本公开实施例的用于确定新闻与股票之间的关联状态的方法的流程图。
[0020] 图3图示了根据本公开实施例的用于确定新闻与股票之间的关联状态的示例性算法。
[0021] 图4图示了根据本公开实施例的用于从多个股票中确定与目标股票相关联的股票的方法的流程图。
[0022] 图5图示了用于实现本公开实施例的示例性电子设备的框图。实施方式
[0023] 下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例,不能将它们理解为对本申请保护范围的限定。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0024] 如前文所描述,传统的确定新闻与股票之间的关联状态的方法并未考虑到股票的特征词在新闻中出现的位置不同对关联状态的影响不同、股票的不同特征词对关联状态的影响不同、股票的部分特征词可能存在歧义等问题,从而无法准确地确定新闻与股票之间的关联状态。
[0025] 为了至少部分地解决上述问题以及其他潜在问题中的一个或多个,本公开提出了一种用于确定新闻与股票之间的关联状态的方法。在本公开的技术方案中,将所获取的网页中的目标新闻的标题与股票的特征词进行匹配;如果目标新闻的标题与股票的特征词相匹配,则基于第一算法,计算目标新闻的标题相对于股票的标题关联状态表征数据;将目标新闻的正文与股票的特征词进行匹配;如果目标新闻的正文与股票的特征词相匹配,则基于第二算法,计算目标新闻的正文相对于股票的正文关联状态表征数据,其中第二算法与第一算法不同;以及基于标题关联状态表征数据和正文关联状态表征数据,确定目标新闻相对于股票的关联状态。本公开的技术方案针对目标新闻的标题和正文分别经由不同的算法计算关联状态表征数据,考虑到了股票的特征词在新闻中出现的位置不同对关联状态的影响不同,至少能够提高所确定的新闻与股票之间的关联状态的准确度。
[0026] 进一步地,本公开的实施例对目标新闻的标题进行分词以得到与目标新闻的标题相对应的标题词语集合;判断标题词语集合中的词语是否与股票的特征词相同;以及对目标新闻的正文进行分词以得到与目标新闻的正文相对应的正文词语集合;判断正文词语集合中的词语是否与股票的特征词相同。本公开的实施例通过判断分词后的词语集合中的词语是否与股票的特征词相同来将目标新闻与股票的特征词进行匹配,至少能够减少误匹配的概率,从而进一步提高所确定的新闻与股票之间的关联状态的准确度。
[0027] 进一步地,本公开的实施例还基于以下方法中的一种或多种,至少能够更进一步地提高所确定的新闻与股票之间的关联状态的准确度:股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的加权表征数据;股票的不同特征词出现在目标新闻的标题中分别对应不同的加权表征数据;股票的不同特征词出现在目标新闻的正文中分别对应不同的加权表征数据;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的标题中对应不同的加权表征数据;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的加权表征数据;股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的最大允许的相匹配次数;股票的不同特征词出现在目标新闻的正文中分别对应不同的最大允许的相匹配次数;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的最大允许的相匹配次数。
[0028] 更进一步地,本公开的实施例通过确定目标新闻相对于第一股票的第一关联状态;确定目标新闻相对于第二股票的第二关联状态;确定目标新闻相对于第三股票的第三关联状态;以及基于第一关联状态、第二关联状态和第三关联状态,确定第一股票、第二股票和第三股票中的两者为与目标新闻相关联的股票,还至少能够准确地从多个股票中确定与目标股票相关联的股票。
[0029] 下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明,可省略已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时,该部件在每个附图中由相同的参考标号表示。
[0030] 图1图示了根据本公开实施例的用于实施确定新闻与股票之间的关联状态的方法的系统100的示意图。如图1所示,系统100包括新闻源120、新闻处理设备140和网络160,其中新闻处理设备140可以经由网络160从新闻源120获取新闻。
[0031] 在图1所示的示例中,新闻源120例如可以包括不同网站的网页。例如,新闻源120可以是不同财经新闻资讯网站的网页,这些不同财经新闻资讯网站的网页可以发布与事件有关的新闻(例如,快讯简评、深度分析等)。
[0032] 在图1所示的示例中,新闻处理设备140可以用于对从新闻源120获取的目标新闻进行处理。具体而言,新闻处理设备140可以用于确定目标新闻与股票之间的关联状态。例如,股票是预定股票集合中的股票。例如,新闻处理设备140包括:标题关联状态表征数据计算单元142、正文关联状态表征数据计算单元144和关联状态确定单元146。
[0033] 关于标题关联状态表征数据计算单元142,其用于将所获取的网页中的目标新闻的标题与股票的特征词进行匹配;如果目标新闻的标题与股票的特征词相匹配,则基于第一算法,计算目标新闻的标题相对于股票的标题关联状态表征数据。
[0034] 关于正文关联状态表征数据计算单元144,其用于将目标新闻的正文与股票的特征词进行匹配;如果目标新闻的正文与股票的特征词相匹配,则基于第二算法,计算目标新闻的正文相对于股票的正文关联状态表征数据,其中第二算法与第一算法不同。
[0035] 关于关联状态确定单元146,其用于基于标题关联状态表征数据和正文关联状态表征数据,确定目标新闻相对于股票的关联状态。
[0036] 在图1所示的示例中,网络160可以是有线网络或无线网络,本公开的实施例对此不作限制。
[0037] 图2图示了根据本公开实施例的用于确定新闻与股票之间的关联状态的方法200的流程图。方法200可以由图1中所示的系统100中的新闻处理设备140执行,也可以由图5所示的电子设备500执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
[0038] 在步骤202,新闻处理设备140将所获取的网页中的目标新闻的标题与股票的特征词进行匹配。
[0039] 关于网页中的目标新闻,其例如可以由新闻处理设备140经由爬虫算法定期从新闻源120获取。例如,在新闻源120是财经新闻资讯网站的网页的情况下,新闻处理设备140可以将从财经新闻资讯网站的网页中获取的财经新闻资讯作为目标新闻。需要说明的是,在本公开的实施例中,新闻源120的类型和目标新闻的类型可以取决于实际情况而定,本公开的实施例对此不作限制。
[0040] 关于股票的特征词,其用于描述股票的特征,例如包括:股票的股票代码、股票的股票名称、股票的上市公司全称、股票的上市公司简称、股票的上市公司关联主体标识(例如董事长姓名)、用于指示股票主营方向的信息等。
[0041] 关于将所获取的网页中的目标新闻的标题与股票的特征词进行匹配,在一个示例中,包括:将所获取的网页中的目标新闻的标题与股票的特征词直接进行正则匹配。需要说明的是,股票代码是纯数字,目标新闻中可能存在与股票代码类似的电话号码、统计数值等,从而导致在将所获取的网页中的目标新闻的标题与股票的特征词直接进行正则匹配的情况下可能出现误匹配。例如,贵州茅台的股票代码是“600519”,目标新闻中可能存在某个统计数值是“30600519”,如果将目标新闻与贵州茅台的股票代码直接进行正则匹配,则将错误地确定目标新闻与贵州茅台的股票代码相匹配,从而影响后续确定的新闻与股票之间的关联状态的准确度。
[0042] 关于将所获取的网页中的目标新闻的标题与股票的特征词进行匹配,在另一个示例中,包括:对目标新闻的标题进行分词以得到与目标新闻的标题相对应的标题词语集合;判断标题词语集合中的词语是否与股票的特征词相同。例如,经由结巴切词工具对目标新闻的标题进行分词以得到标题词语集合。在本示例中,通过判断分词后的词语集合是否与股票的特征词相同来将目标新闻与股票的特征词进行匹配,相对于直接进行正则匹配,至少能够减少误匹配的概率,从而提高所确定的新闻与股票之间的关联状态的准确度。
[0043] 需要说明的是,将所获取的网页中的目标新闻的标题与股票的特征词进行匹配的方式可以取决于实际情况而定,本公开的实施例对此不作限制。
[0044] 还需要说明的是,在将所获取的网页中的目标新闻的标题与股票的特征词进行匹配之前,可以去除目标新闻中的非文本数据,例如超文本标记语言标记标签(又称为HTML标签)、图片广告等。
[0045] 在步骤204,如果目标新闻的标题与股票的特征词相匹配,则新闻处理设备140基于第一算法,计算目标新闻的标题相对于股票的标题关联状态表征数据。
[0046] 关于第一算法,其用于指示计算目标新闻的标题相对于股票的标题关联状态表征数据时所遵循的准则。例如,第一算法可以指示股票的不同特征词出现在目标新闻的标题中分别对应不同的加权表征数据,该加权表征数据用于计算标题关联状态表征数据并例如是评分或评级。例如,第一算法可以指示股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的标题中对应不同的加权表征数据。又例如,第一算法可以指示与股票的各个特征词相对应的最大允许的相匹配次数。
[0047] 关于标题关联状态表征数据,其用于表征目标新闻的标题与股票的特征词的关联状态。例如,标题关联状态表征数据是评分。又例如,标题关联状态表征数据是评级。需要说明的是,标题关联状态表征数据的具体形式取决于实际情况而定,本公开的实施例对此不作限制。
[0048] 关于计算目标新闻的标题相对于股票的标题关联状态表征数据,其例如参考后续结合图3所描述的实施例,在此不再赘述。
[0049] 在步骤206,新闻处理设备140将目标新闻的正文与股票的特征词进行匹配。
[0050] 关于将目标新闻的正文与股票的特征词进行匹配,在一个示例中,包括:对目标新闻的正文进行分词以得到与目标新闻的正文相对应的正文词语集合;判断正文词语集合中的词语是否与股票的特征词相同。
[0051] 需要说明的是,将目标新闻的正文与股票的特征词进行匹配的方式与将目标新闻的标题与股票的特征词进行匹配的方式类似,在此不再赘述。
[0052] 在步骤208,如果目标新闻的正文与股票的特征词相匹配,则新闻处理设备140基于第二算法,计算目标新闻的正文相对于股票的正文关联状态表征数据,其中第二算法与第一算法不同。
[0053] 关于第二算法,其用于指示计算目标新闻的正文相对于股票的正文关联状态表征数据时所遵循的准则。例如,第二算法可以指示股票的不同特征词出现在目标新闻的正文中分别对应不同的加权表征数据。例如,第二算法可以指示股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的加权表征数据。例如,第二算法可以指示股票的不同特征词出现在目标新闻的正文中分别对应不同的最大允许的相匹配次数。又例如,第二算法可以指示股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的最大允许的相匹配次数。
[0054] 关于第二算法与第一算法不同,例如股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的加权表征数据。又例如,股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的最大允许的相匹配次数。
[0055] 关于正文关联状态表征数据,其用于表征目标新闻的正文与股票的特征词的关联状态。例如,正文关联状态表征数据是评分。又例如,正文关联状态表征数据是评级。需要说明的是,正文关联状态表征数据的具体形式取决于实际情况而定,本公开的实施例对此不作限制。
[0056] 关于计算目标新闻的正文相对于股票的正文关联状态表征数据,其例如参考后续结合图3所描述的实施例,在此不再赘述。
[0057] 在步骤210,新闻处理设备140基于标题关联状态表征数据和正文关联状态表征数据,确定目标新闻相对于股票的关联状态。
[0058] 关于目标新闻相对于股票的关联状态,其用于表征目标新闻与股票的关联状态。例如,目标新闻与股票的关联状态是评分。又例如,目标新闻与股票的关联状态是评级。例如,在标题关联状态表征数据和正文关联状态表征数据均是评分的情况下,将标题关联状态表征数据和正文关联状态表征数据直接相加或以不同的权重相加,所得到的总的评分作为目标新闻相对于股票的关联状态。又例如,在标题关联状态表征数据和正文关联状态表征数据均是评级的情况下,以标题关联状态表征数据和正文关联状态表征数据的平均评级或以不同权重计算得到的中间评级作为目标新闻相对于股票的关联状态。
[0059] 在结合图2所述的本公开的实施例中,针对目标新闻的标题和正文分别经由不同的算法计算关联状态表征数据,考虑到了股票的特征词在新闻中出现的位置不同对关联状态的影响不同,至少能够提高所确定的新闻与股票之间的关联状态的准确度。
[0060] 图3图示了根据本公开实施例的用于确定新闻与股票之间的关联状态的示例性算法。图3包括表302、表304、表306和表308,其中表302和306用于表示示例性的第一算法,表304和表308用于表示示例性的第二算法。表302指示了股票的不同特征词出现在目标新闻的标题中所对应的加权表征数据;表304指示了股票的不同特征词出现在目标新闻的正文中所对应的加权表征数据;表306指示了股票的特征词是歧义特征词时出现在目标新闻的标题中所对应的加权表征数据;表308指示了股票的特征词是歧义特征词时出现在目标新闻的正文中所对应的加权表征数据。需要说明的是,在本公开的实施例中,歧义特征词指代容易引起歧义的特征词(例如,股票名称是“机器人”或“老百姓”,股票的董事长姓名是“其实”等),则可以将该特征词视为歧义特征词。
[0061] 在一个示例中,目标新闻的标题是“贵州茅台(600519)三季度营收同比增长**%”,对目标新闻的标题进行分词以得到标题词语集合“贵州茅台/(/600519/)/三季度/营收/同比增长/**%”,其中/为分隔符。判断标题词语集合中的词语是否与股票的股票代码相同,如果目标新闻的标题与股票的股票代码相相同(例如,与贵州茅台的股票代码“600519”相同),则标题关联状态表征数据增加0.5(0.5是表302中股票代码所对应的加权表征数据)。如果目标新闻的标题与股票的股票代码不同(例如,与浦发银行的股票代码“600000”不同),则标题关联状态表征数据不变。将目标新闻的标题与预设股票集合中的一个股票的特征词进行匹配,若该股票的多个特征词与目标新闻的标题相匹配,则将该多个特征词所对应的加权表征数据进行累加,作为目标新闻相对于该股票的标题关联状态表征数据Ts,若该股票的一个特征词匹配上多次,该特征词所对应的加权表征数据不进行重复累加。
[0062] 在本示例中,计算目标新闻的正文相对于一个股票的正文关联状态表征数据与计算目标新闻的标题相对于该股票的标题关联状态表征数据类似。同样之处在于,进行特征词匹配并将匹配上的特征词所对应的加权表征数据进行累加。不一样之处在于,若股票的股票代码(其唯一性强)在目标新闻的正文中出现多次,则每次都对股票代码所对应的加权表征数据进行累加;而若股票的股票名称、股票的上市公司全称、股票的上市公司简称、股票的上市公司关联主体标识、用于指示股票主营方向的信息等特征词在目标新闻的正文中出现多次,则这些特征词所对应的加权表征数据最多进行2次累加(即最大允许的相匹配次数是2)。例如,贵州茅台的股票代码“600519”在目标新闻的正文中出现10次,则目标新闻相对于贵州茅台的正文关联状态表征数据增加10*0.3=3(0.3是图3中的表302中股票名称所对应的加权表征数据)。例如,贵州茅台的股票名称“贵州茅台”在目标新闻的正文中出现10次,则目标新闻相对于贵州茅台的正文关联状态表征数据增加2*0.1=0.2(0.1是图3中的表304中股票名称所对应的加权表征数据)。将目标新闻的正文与预设股票集合中的一个股票的特征词进行匹配,若该股票的多个特征词与目标新闻的正文相匹配,则基于如上所述的最大允许的相匹配次数将该多个特征词所对应的加权表征数据进行累加,作为目标新闻相对于该股票的正文关联状态表征数据Ps。目标新闻相对于该股票的关联状态Ss可以计算为Ss=Ts+Ps。
[0063] 在本示例中,表306和表308分别指示了股票的特征词是歧义特征词时出现在目标新闻的标题和正文中所对应的加权表征数据。若一个特征词是歧义特征词,则减小该特征词出现在目标新闻的标题或正文中所对应的加权表征数据。例如,在表302中,股票的股票名称出现在目标新闻的标题中所对应的加权表征数据是0.3;在表306中,股票的股票名称是歧义特征词时出现在目标新闻的标题中所对应的加权表征数据是0.1。另外,在本示例中,若股票的一个特征词是歧义特征词并且该特征词匹配上多次,该特征词所对应的加权表征数据不进行重复累加。
[0064] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据包括:响应于第一算法指示股票的第一特征词对应于第一加权表征数据,并且目标新闻的标题与第一特征词相匹配,则标题关联状态表征数据增加第一加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据包括:响应于第二算法指示股票的第一特征词对应于第二加权表征数据,并且目标新闻的正文与第一特征词相匹配,则正文关联状态表征数据增加第二加权表征数据,第二加权表征数据与第一加权表征数据不同。例如,第一特征词是股票的股票名称,第一加权表征数据是0.3(例如,参考图3中的表302),第二加权表征数据是0.1(例如,参考图3中的表304)。
[0065] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第二特征词对应于第三加权表征数据,并且目标新闻的标题与第二特征词相匹配,则标题关联状态表征数据增加第三加权表征数据,第三加权表征数据与第一加权表征数据不同;以及计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第二特征词对应于第四加权表征数据,并且目标新闻的正文与第二特征词相匹配,则正文关联状态表征数据增加第四加权表征数据,第四加权表征数据与第二加权表征数据不同。例如,第二特征词是股票的股票代码,第三加权表征数据是0.5(例如,参考图3中的表302),第四加权表征数据是0.3(例如,参考图3中的表304)。
[0066] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第一特征词是歧义特征词且对应于第五加权表征数据,并且目标新闻的标题与第一特征词相匹配,则标题关联状态表征数据增加第五加权表征数据,第五加权表征数据与第一加权表征数据不同;计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第一特征词是歧义特征词且对应于第六加权表征数据,并且目标新闻的正文与第一特征词相匹配,则正文关联状态表征数据增加第六加权表征数据,第六加权表征数据与第二加权表征数据不同。例如,第一特征词是股票的股票名称,第五加权表征数据是0.1(例如,参考图3中的表306),第六加权表征数据是0.05(例如,参考图3中的表308)。
[0067] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据包括:响应于第一算法指示股票的第一特征词的最大允许的相匹配次数为第一预定数目,并且目标新闻的标题与第一特征词的相匹配次数小于或者等于第一预定数目,则标题关联状态表征数据增加与第一特征词相对应的加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据包括:响应于第二算法指示股票的第一特征词的最大允许的相匹配次数为第二预定数目,并且目标新闻的正文与第一特征词的相匹配次数小于或者等于第二预定数目,则正文关联状态表征数据增加与第一特征词相对应的加权表征数据,第二预定数目与第一预定数目不同。例如,第一特征词是股票的股票名称,第一预定数目是1,第二预定数目是2。
[0068] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第二特征词的最大允许的相匹配次数为第三预定数目,并且目标新闻的标题与第二特征词的相匹配次数小于或者等于第三预定数目,则标题关联状态表征数据增加与第二特征词相对应的加权表征数据;计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第二特征词的最大允许的相匹配次数为第四预定数目,并且目标新闻的正文与第二特征词的相匹配次数小于或者等于第四预定数目,则正文关联状态表征数据增加与第二特征词相对应的加权表征数据,第四预定数目与第二预定数目不同。例如,第三预定数目可以与第一预定数目相同或不同。例如,第二特征词是股票的股票代码,第三预定数目是1,第四预定数目是10。
[0069] 在一些实施例中,计算目标新闻的标题相对于股票的标题关联状态表征数据还包括:响应于第一算法指示股票的第一特征词是歧义特征词且第一特征词的最大允许的相匹配次数为第五预定数目,并且目标新闻的标题与第一特征词的相匹配次数小于或者等于第五预定数目,则标题关联状态表征数据增加与第一特征词相对应的加权表征数据;以及计算目标新闻的正文相对于股票的正文关联状态表征数据还包括:响应于第二算法指示股票的第一特征词是歧义特征词且第一特征词的最大允许的相匹配次数为第六预定数目,并且目标新闻的正文与第一特征词的相匹配次数小于或者等于第六预定数目,则正文关联状态表征数据增加与第一特征词相对应的加权表征数据,第六预定数目小于第二预定数目。例如,第一特征词是股票的股票名称,第五预定数目和第六预定数目均是1。
[0070] 在本公开的上述实施例中,基于以下方法中的一种或多种,至少能够更进一步地提高所确定的新闻与股票之间的关联状态的准确度:股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的加权表征数据;股票的不同特征词出现在目标新闻的标题中分别对应不同的加权表征数据;股票的不同特征词出现在目标新闻的正文中分别对应不同的加权表征数据;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的标题中对应不同的加权表征数据;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的加权表征数据;股票的同一特征词出现在目标新闻的标题和正文中分别对应不同的最大允许的相匹配次数;股票的不同特征词出现在目标新闻的正文中分别对应不同的最大允许的相匹配次数;股票的特征词是歧义特征词时与不是歧义特征词时该特征词出现在目标新闻的正文中对应不同的最大允许的相匹配次数。
[0071] 图4图示了根据本公开实施例的用于从多个股票中确定与目标股票相关联的股票的方法400的流程图。方法400可以由图1中所示的系统100中的新闻处理设备140执行,也可以由图5所示的电子设备500执行。应当理解的是,方法400还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
[0072] 在步骤402,新闻处理设备140确定目标新闻相对于第一股票的第一关联状态。
[0073] 例如,第一股票为预定股票集合中的一个股票,计算目标新闻相对于第一股票的第一关联状态的过程如上述方法200及其实施例所述,在此不再赘述。
[0074] 在步骤404,新闻处理设备140确定目标新闻相对于第二股票的第二关联状态。
[0075] 例如,第二股票为预定股票集合中的另一个股票,计算目标新闻相对于第二股票的第二关联状态的过程如上述方法200及其实施例所述,在此不再赘述。
[0076] 在步骤406,新闻处理设备140确定目标新闻相对于第三股票的第三关联状态。
[0077] 例如,第三股票为预定股票集合中的又一个股票,计算目标新闻相对于第三股票的第三关联状态的过程如上述方法200及其实施例所述,在此不再赘述。
[0078] 在步骤408,新闻处理设备140基于第一关联状态、第二关联状态和第三关联状态,确定第一股票、第二股票和第三股票中的两者为与目标新闻相关联的股票。
[0079] 例如,在第一关联状态、第二关联状态和第三关联状态是评分的情况下,确定第一关联状态、第二关联状态和第三关联状态中相对高的两者所对应的股票作为与目标新闻相关联的股票。
[0080] 需要说明的是,在本公开的实施例中,还可以通过将目标新闻相对于一个股票的关联状态与预设的阈值进行比较,来确定该股票是否作为与该目标新闻相关联的股票。
[0081] 在结合图4所述的本公开的实施例中,至少能够准确地从多个股票中确定与目标股票相关联的股票。
[0082] 图5图示了用于实现本公开实施例的示例性电子设备500的框图。例如,如图1所示的新闻处理设备140可以由电子设备500来实施。如图所示,电子设备500包括中央处理单元(CPU)502,其可以根据存储在只读存储器(ROM)504中的计算机程序指令或者从存储单元516加载到随机存取存储器(RAM)506中的计算机程序指令,来执行各种适当的动作和处理。
在随机存取存储器506中,还可存储电子设备500操作所需的各种程序和数据。中央处理单元502、只读存储器504以及随机存取存储器506通过总线508彼此相连。输入/输出(I/O)接口510也连接至总线508。
[0083] 电子设备500中的多个部件连接至输入/输出接口510,包括:输入单元512,例如键盘、鼠标、麦克风等;输出单元514,例如各种类型的显示器、扬声器等;存储单元516,例如磁盘、光盘等;以及通信单元518,例如网卡、调制解调器、无线通信收发机等。通信单元518允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0084] 上文所描述的各个过程和处理,例如方法200和400,可由中央处理单元502执行。例如,在一些实施例中,方法200和400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元516。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器504和/或通信单元518而被载入和/或安装到电子设备500上。当计算机程序被加载到随机存取存储器506并由中央处理单元502执行时,可以执行上文描述的方法200和400的一个或多个动作。
[0085] 本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
[0086] 计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD‑ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0087] 这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0088] 用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0089] 这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0090] 这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0091] 也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0092] 附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0093] 以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。