科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置转让专利

申请号 : CN202110781559.2

文献号 : CN113239179B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 杜军平郭伟杰寇菲菲许明英

申请人 : 北京邮电大学

摘要 :

本发明提供一种科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置,所述训练方法通过获取窗口时间内学者发布或浏览的科技文本,基于注意力机制挖掘学者的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提取学者在窗口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述科技资源查询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选集与学者所感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源查询的个性化程度和准确度。

权利要求 :

1.一种科研技术兴趣领域识别模型训练方法,其特征在于,包括:获取多个样本,每个样本中包含一科研学者在设定时间窗口内发布或浏览的多个科技文本,每个样本内的科技文本属于同一技术领域;采用双向长短时记忆网络获取各科技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训练样本集;

获取初始网络模型,所述初始网络模型中,将设定时间窗口划分为第一设定数量的时步,按照发布或浏览的时间顺序将所述样本内各科技文本的文本特征输入至各时步形成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;所述查询矩阵与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩阵;将所述权重矩阵与所述输入序列相乘得到注意力矩阵,对所述注意力矩阵加权平均得到技术领域特征向量;将所述技术领域特征向量输入到分类器并输出分类结果;

采用所述训练样本集对所述初始网络模型进行训练,得到科研技术兴趣领域识别模型。

2.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,所述查询矩阵与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理中,所述归一化处理采用的是softmax函数。

3.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,采用双向长短时记忆网络获取各科技文本的文本特征之前,还包括:采用多个预设科技文本对所述双向长短时记忆网络的参数进行调整。

4.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,采用所述训练样本集对所述初始网络模型进行训练中,包括:采用交叉熵损失函数进行反向传播调整参数。

5.一种科技资源查询方法,其特征在于,包括:获取设定学者在设定时间窗口内发布或浏览的多个参考科技文本,采用双向长短时记忆网络获取各参考科技文本的第一文本特征,并输入至权利要求1至2任意一项所述科研技术兴趣领域识别模型训练方法的科研技术兴趣领域识别模型中,提取所述设定学者对应的技术领域特征向量作为兴趣向量;

获取查询关键词,由数据库基于相似性比对返回第一查询候选集,所述第一查询候选集内包括多个候选科技文本;

采用所述双向长短时记忆网络获取各候选科技文本的第二文本特征,将各第二本文特征以重复填充各时步的形式输入至权利要求1至2任意一项所述科研技术兴趣领域识别模型训练方法的科研技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考向量;

计算所述第一查询候选集中各候选科技文本的参考向量与所述兴趣向量的余弦相似度,按照所述余弦相似从大到小的顺序对各候选科技文本进行排序,并剔除所述余弦相似度小于设定值的候选科技文本,得到第二查询候选集;

根据所述第二查询候选集内各候选科技文本对应余弦相似度的值域范围,划分第二设定数量的分段,获取每个分段内的候选科技文本的影响力因子;

对所述第二查询候选集每个分段内的候选科技文本按照所述影响力因子从高到低的顺序重新排序,得到查询结果。

6.根据权利要求5所述的科技资源查询方法,其特征在于,所述数据库包括数据采集层、数据处理层和数据存储层,由多个业务功能模块按照发布订阅的形式向所述数据处理模层订阅科技文本,每个业务功能模块分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。

7.根据权利要求6所述的科技资源查询方法,其特征在于,所述数据采集层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;

和/或,所述数据处理层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;

和/或,所述数据存储层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度。

8.根据权利要求5所述的科技资源查询方法,其特征在于,获取每个分段内的候选科技文本的影响力因子,包括:

获取各候选科技文本的被引用量和相应第一作者的发文量,对所述被引用量和所述发文量加权求平均得到各候选科技文本的影响力因子。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

说明书 :

科研技术兴趣领域识别模型训练方法、科技资源查询方法及

装置

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置。

背景技术

[0002] 随着科学技术的不断发展,各种各样的科技资源随之涌现。不同于互联网上爆发式增长的新闻、社交等信息,科技资源有其独特的一面。科技资源主要以论文、专利等具有
学术风格的数据构成,服务于来自各个领域的科研人员。然而,科技资源具有数量庞大、种
类繁杂等特点。传统的查询方法很难发现和利用其蕴含的价值。
[0003] 现有的检索查询技术虽然已经具备了检索速度快和语义匹配精确等优点,但是由于其本质是基于查询语句相似度的打分进行匹配的过程,对于不同的用户的相似查询语
句,返回结果高度一致,无法实现“千人千面”的智能检索。这主要源于检索查询任务没有考
虑不同用户所具备的差异性,没有充分挖掘用户画像信息来反馈式地改进搜索引擎的检索
过滤算法。尤其是在科技资源检索中,以论文、专利、基金为代表的科技大数据资源具有领
域内专用词汇多、在不同科研领域中相同的术语可能有截然不同的含义。学者用户由于自
身的学术领域的不同,往往希望查询结果和自己的研究兴趣领域高度相关,现有的技术方
案很难达到学者用户的这种个性化要求。
[0004] 随着机器学习技术的普及和发展,利用各种各样的大数据分析技术,挖掘出用户或资源的潜在信息,全面分析科技实体间的关联关系,是构建高效率的科技资源查询的必
经之路。科研人员对科技资源的查询不再满足于传统的关键词匹配方式,从日益增加的科
技资源中准确地查询到自己感兴趣的信息成为一种迫切的需求。

发明内容

[0005] 本发明实施例提供了一种科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,以解决现有搜索技术无法
根据学者兴趣需求提供个性化检索结果的问题。
[0006] 本发明的技术方案如下:
[0007] 一方面,本发明提供一种科研技术兴趣领域识别模型训练方法,包括:
[0008] 获取多个样本,每个样本中包含一科研学者在设定时间窗口内发布或浏览的多个科技文本,每个样本内的科技文本属于同一技术领域;采用双向长短时记忆网络获取各科
技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训练样本集;
[0009] 获取初始网络模型,所述初始网络模型中,将设定时间窗口划分为第一设定数量的时步,按照发布或浏览的时间顺序将所述样本内各科技文本的文本特征输入至各时步形
成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向
量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;所述查询矩阵
与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩
阵;将所述权重矩阵与所述输入序列相乘得到注意力矩阵,对所述注意力矩阵加权平均得
到技术领域特征向量;将所述技术领域特征向量输入到分类器并输出分类结果;
[0010] 采用所述训练样本集对所述初始网络模型进行训练,得到科研技术兴趣领域识别模型。
[0011] 在一些实施例中,所述查询矩阵与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理中,所述归一化处理采用的是softmax函数。
[0012] 在一些实施例中,采用双向长短时记忆网络获取各科技文本的文本特征之前,还包括:采用多个预设科技文本对所述双向长短时记忆网络的参数进行调整。
[0013] 在一些实施例中,采用所述训练样本集对所述初始网络模型进行训练中,包括:采用交叉熵损失函数进行反向传播调整参数。
[0014] 另一方面,本发明提供一种科技资源查询方法,包括:
[0015] 获取设定学者在设定时间窗口内发布或浏览的多个参考科技文本,采用双向长短时记忆网络获取各参考科技文本的第一文本特征,并输入至上述科研技术兴趣领域识别模
型训练方法的科研技术兴趣领域识别模型中,提取所述设定学者对应的技术领域特征向量
作为兴趣向量;
[0016] 获取查询关键词,由数据库基于相似性比对返回第一查询候选集,所述第一查询候选集内包括多个候选科技文本;
[0017] 采用所述双向长短时记忆网络获取各候选科技文本的第二文本特征,将各第二本文特征以重复填充各时步的形式输入至上述科研技术兴趣领域识别模型训练方法的科研
技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考向量;
[0018] 计算所述第一查询候选集中各候选科技文本的参考向量与所述兴趣向量的余弦相似度,按照所述余弦相似从大到小的顺序对各候选科技文本进行排序,并剔除所述余弦
相似度小于设定值的候选科技文本,得到第二查询候选集;
[0019] 根据所述第二查询候选集内各候选科技文本对应余弦相似度的值域范围,划分第二设定数量的分段,获取每个分段内的候选科技文本的影响力因子;
[0020] 对所述第二查询候选集每个分段内的候选科技文本按照所述影响力因子从高到低的顺序重新排序,得到查询结果。
[0021] 在一些实施例中,所述数据库包括数据采集层、数据处理层和数据存储层,由多个业务功能模块按照发布订阅的形式向所述数据处理模层订阅科技文本,每个业务功能模块
分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。
[0022] 在一些实施例中,所述数据采集层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;
[0023] 和/或,所述数据处理层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;
[0024] 和/或,所述数据存储层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度。
[0025] 在一些实施例中,获取每个分段内的候选科技文本的影响力因子,包括:
[0026] 获取各候选科技文本的被引用量和相应第一作者的发文量,对所述被引用量和所述发文量加权求平均得到各候选科技文本的影响力因子。
[0027] 另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
[0028] 另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
[0029] 本发明的有益效果至少是:
[0030] 本发明所述科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置中,所述训练方法通过获取窗口时间内学者发布或浏览的科技文本,基于注意力机制挖掘学者
的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提取学者在窗
口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述科技资源查
询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选集与学者所
感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源查询的个性
化程度和准确度。
[0031] 进一步地,所述科技资源查询方法的数据库基于发布订阅模式,实现数据灵活采集和统一处理,提高了数据采集的效率。
[0032] 本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获
知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的
结构实现到并获得。
[0033] 本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

[0034] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
[0035] 图1为本发明一实施例所述科研技术兴趣领域识别模型训练方法中初始网络模型结构图;
[0036] 图2为本发明一实施例所述科技资源查询方法中数据库结构示意图;
[0037] 图3为本发明一实施例所述科技资源查询方法中数据采集逻辑示意图;
[0038] 图4为本发明一实施例所述科技资源查询方法逻辑示意图。

具体实施方式

[0039] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并
不作为对本发明的限定。
[0040] 在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大
的其他细节。
[0041] 应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
[0042] 科研技术领域对于现有技术的检索和查询具有较高的需求,一方面,各领域科技文件存量较大,发布频繁,庞大的数据量给数据采集和查询提出了挑战;另一方面,针对繁
杂的科技文本,传统基于关键词相似度比对进行检索的方式,会将不同技术领域存在相同
技术特征的科技文本全部输出,无法区分不同技术领域,例如,在检索查询“计算机视觉”
时,可能同时输出医学领域和机器人等多各领域涉及到计算机视觉的技术文本,而发起检
索的科研人员可能对发部分技术领域的资料都不感兴趣或不需要。这就需要提高检索过程
中,对科研学者的兴趣领域进行特征匹配,进行个性化的检索查询,提高准确度。
[0043] 一方面,本发明提供一种科研技术兴趣领域识别模型训练方法,参照图1,包括步骤S101 S103:
~
[0044] 步骤S101:获取多个样本,每个样本中包含一科研学者在设定时间窗口内发布或浏览的多个科技文本,每个样本内的科技文本属于同一技术领域;采用双向长短时记忆网
络获取各科技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训
练样本集。
[0045] 步骤S102:获取初始网络模型,初始网络模型中,将设定时间窗口划分为第一设定数量的时步,按照发布或浏览的时间顺序将样本内各科技文本的文本特征输入至各时步形
成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向
量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;查询矩阵与键
值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩阵;将权重
矩阵与输入序列相乘得到注意力矩阵,对注意力矩阵加权平均得到技术领域特征向量;将
技术领域特征向量输入到分类器并输出分类结果。
[0046] 步骤S103:采用训练样本集对初始网络模型进行训练,得到科研技术兴趣领域识别模型。
[0047] 本实施例用于训练一种能够获取学者科研技术兴趣领域的模型,识别学者的兴趣领域。在步骤S101中建立训练样本集,单个样本记录有单个科研学者在窗口时间内发布或
浏览的科技文本,窗口时间可以根据需求设置,对于学者本人发布的文件,考虑到一般的发
表周期,可以设置窗口时间为1个月、3个月、半年或一年等。对于学者浏览的文件,一般时间
较为集中,可以设置窗口时间为1天或1周。相应的,对于发布或浏览的科技文本应当标记相
应的发布或浏览的时间顺序。
[0048] 进一步的,采用双向长短时记忆网络获取各科技文本的文本特征,在一些实施例,采用双向长短时记忆网络获取各科技文本的文本特征之前,还包括:采用多个预设科技文
本对所述双向长短时记忆网络的参数进行调整。
[0049] 在步骤S102中,初始网络模型为了更准确地识别学者感兴趣的技术领域,本实施例提出基于时间窗口的注意力机制。时间窗口注意力机制和一般的注意力机制类似,就是
在众多信息中把注意力集中放在重要的点上,选出关键信息,而忽略其他不重要的信息。但
是其输入为可滑动的时间窗口,使得注意力的范围具备了随着时间不断更新的能力。本实
施例利用学者历史行为序列中最近的科研相关记录高效抽取学者的短期兴趣表示,通过序
列的自我匹配来进行注意力的表示,结合滑动时间窗口来挖掘学者兴趣随着时间推移而发
生的转变。
[0050] 具体的,对于一个时间窗口,将其划分为s个时步,时步用于标记科技文本发布或浏览的时间顺序,发布或浏览较早的在前,较迟的在后。对于一个样本,将步骤S101中采用
双向长短时记忆网络获取的各科技文本的文本特征,分别按照相应的时步输入作为输入序
列XS,利用三角编码添加位置编码,该位置编码用于标记时步的先后,用于引入各科技文本
发布或浏览的先后顺序特征,以应引入学者在窗口时间内兴趣内容随时间变化的特征,得
到序列CS。融合位置编码信息后的通过两个向量组做线性变换后通过激活函数得到注意力
机制中的键值矩阵K和查询矩阵Q。具体计算式为:
[0051]                              (1)
[0052]                              (2)
[0053] 其中,WK为用于生成键值矩阵的参数矩阵,WQ为用于生成查询矩阵的参数矩阵,σ函数为激活函数。
[0054] 查询矩阵与键值矩阵的转置进行矩阵乘运算后缩放点积(Scaled Dot‑Product),并通过softmax运算后得到注意力权重矩阵,计算式为:
[0055]                           (3)
[0056] 其中,d为缩放系数,US为注意力权重矩阵。
[0057] 进一步地,将原始的输入序列XS作为注意力机制的值矩阵V,通过值矩阵与注意力权重矩阵相乘可以得到学者兴趣技术领域的注意力矩阵,计算式为:
[0058]                 (4)
[0059] 其中,AS为注意力矩阵。
[0060] 进一步的,对注意力矩阵进行加权平均得到技术领域特征向量,将技术领域特征向量输入分类器,得到最终的分类结果。
[0061] 在步骤S103中,采用步骤S101中的训练样本集对步骤S102的初始网络模型进行训练,最终得到科研技术兴趣领域识别模型。
[0062] 在一些实施例中,采用训练样本集对所述初始网络模型进行训练中,包括:采用交叉熵损失函数进行反向传播调整参数。
[0063] 另一方面,本发明提供一种科技资源查询方法,包括步骤S201 S206:~
[0064] 需要预先说明的是,本实施例中步骤S201 S206并不是对步骤先后顺序的限定,应~
当理解为,在一些应用场景下,各步骤可以并行或调换顺序。本实施例中第一文本特征和第
二文本特征中的“第一”和“第二”并不是表示序数,仅用于区分参考科技文本和候选科技文
本的特征。
[0065] 步骤S201:获取设定学者在设定时间窗口内发布或浏览的多个参考科技文本,采用双向长短时记忆网络获取各参考科技文本的第一文本特征,并输入至上述科研技术兴趣
领域识别模型训练方法的科研技术兴趣领域识别模型中,提取设定学者对应的技术领域特
征向量作为兴趣向量。
[0066] 步骤S202:获取查询关键词,由数据库基于相似性比对返回第一查询候选集,第一查询候选集内包括多个候选科技文本。
[0067] 步骤S203:采用双向长短时记忆网络获取各候选科技文本的第二文本特征,将各第二本文特征以重复填充各时步的形式输入至上述科研技术兴趣领域识别模型训练方法
的科研技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考
向量。
[0068] 步骤S204:计算第一查询候选集中各候选科技文本的参考向量与兴趣向量的余弦相似度,按照余弦相似从大到小的顺序对各候选科技文本进行排序,并剔除余弦相似度小
于设定值的候选科技文本,得到第二查询候选集。
[0069] 步骤S205:根据第二查询候选集内各候选科技文本对应余弦相似度的值域范围,划分第二设定数量的分段,获取每个分段内的候选科技文本的影响力因子。
[0070] 步骤S206:对第二查询候选集每个分段内的候选科技文本按照所述影响力因子从高到低的顺序重新排序,得到查询结果。
[0071] 在步骤S201中,当设定学者对一个查询关键词发起查询时,首先分析识别该设定学者的感兴趣的技术领域。获取设定学者在设定时间窗口内发布或浏览的参考科技文本,
并采用双向长短时记忆网络提取第一文本特征。将各参考科技文本的第一文本特征输入步
骤S101 S103训练得到的科研技术兴趣领域识别模型,参照图1中的A段,将模型运算得到的
~
技术领域特征向量输出为兴趣向量。这里需要明确的是,步骤S201中并不需要使用科研技
术兴趣领域识别模型最终的识别结果,其所引用的是输入到分类器之前的技术领域特征向
量,以供进行查询操作。
[0072] 在步骤S202中,获取查询关键词,在第一阶段查询检索的过程中,数据库可以直接通过相似度匹配的方式、关键词检索的方式获得第一查询候选集。对于一查询关键词而言,
数据库中会有大量不同领域的科技文件包含相应的查询关键词,并且都会落入第一查询候
选集,因此,通过一般相似度匹配或关键词检索的形式获得的第一查询候选集难以满足学
者对特定方向领域技术的查询需求。例如,在搜索“计算机视觉”时,就会出现医学影像识
别、人脸识别、动作捕捉等多个技术领域的技术文件。
[0073] 在步骤S203中,将第一查询候选集中的候选科技文本转化至设定学者兴趣向量的相同维度进一步进行对比。在提取候选科技文本的参考向量时,参照步骤S201,采用步骤
S101 S103训练得到的科研技术兴趣领域识别模型进行处理。对于单个候选科技文本,为了
~
满足科研技术兴趣领域识别模型的输入要求,可以在输入端复制多次,以填充窗口时间的
多个时步,最后将科研技术兴趣领域识别模型分类器之前的技术领域特征向量输出为各候
选科技文本的参考向量,用于与设定学者的兴趣向量进行比对。
[0074] 在步骤S204中,通过计算第一查询候选集中各候选科技文本的参考向量与兴趣向量的余弦相似度进行排序。剔除余弦相似度小于设定值的候选科技文本,以保证查询质量,
该设定值可以根据具体场景需求设置,设定值越高剩余的候选科技文本与设定学者感兴趣
的技术领域越接近。
[0075] 在步骤S205和步骤S206中,对第二查询候选集划分段,是为了在一定程度上进一步区分不同技术领域。第一查询候选集采用前述余弦相似度排序得到第二查询候选集之
后,排序靠前的与设定学者感兴趣的技术领域越接近,排序靠后的与设定学者感兴趣的技
术领域越远。相应的,第二查询候选集中某一区间段内的将技术文件都是技术领域相近或
相同的。在进一步按照科技文件影响力进行重新排序时,为了不打乱整体上与设定学者感
兴趣技术领域从近到远排列的顺序,对每个分段内的科技文本单独根据影响力因子进行重
排,这样,在保留各分段与相应感兴趣的技术领域从近到远的基础上,每个分段内的科技文
本按照影响力从高到低排列,最终得到查询结果。
[0076] 在一些实施例中,步骤S205中,获取每个分段内的候选科技文本的影响力因子,包括:获取各候选科技文本的被引用量和相应第一作者的发文量,对被引用量和发文量加权
求平均得到各候选科技文本的影响力因子。
[0077] 在一些实施例中,步骤S202中,所述数据库包括数据采集层、数据处理层和数据存储层,由多个业务功能模块按照发布订阅的形式向所述数据处理模层订阅科技文本,每个
业务功能模块分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。
[0078] 发布订阅模式属于设计模式中的行为模式,在软件架构中,发布/订阅是一种消息范式,消息的发送者不会将消息直接发送给特定的接收者,而是通过消息通道广播出去,让
订阅该消息主题的订阅者消费到。发布/订阅者模式最大的特点就是实现了松耦合。本发明
中引入发布‑订阅模式设计数据采集与处理流水线,以实现数据处理体系的灵活性、高可靠
性和可测试性。
[0079] 在一些实施例中,数据采集层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;和/或,数据处理层部署在多个主机上,并基于相同的处理逻辑进行分布
式框架的调度;和/或,数据存储层部署在多个主机上,并基于相同的处理逻辑进行分布式
框架的调度。
[0080] 下面结合一实施例对本发明所述科技资源查询方法进行详细说明:
[0081] 本实施例所提出的科技资源查询方法,结合了分布式检索查询技术和深度神经网络模型。设计了基于发布‑订阅模式的科技资源获取与处理方法,能够在网络上高效采集、
清洗、处理、存储科技大数据资源。采用结合注意力机制的神经网络,提出基于时间窗口注
意力的科研人员兴趣领域提取算法,充分考虑了科研学者在一定时间周期内的研究领域聚
集以及在跨时间周期内的研究领域转移的特点。结合以上两种方法,通过两阶段检索查询
重排序机制,实现智能化和精准化的科技资源检索。
[0082] 为达到上述目的,如图2所示,本发明的技术方案划分为三个部分:第一,构建发布‑订阅模式进行科技资源获取和处理;第二,构建时间窗口注意力模型进行科研人员兴趣
领域提取;第三,科技资源的个性化两阶段检索查询。
[0083] (一)构建发布‑订阅模式进行科技资源获取与处理
[0084] 为了解决传统的数据获取与处理流程存在的冗余程度高,可扩展性差等问题,本身实施例引入了发布‑订阅模式。详细来说,在整体上,将数据治理模块按照距离数据源的
远近划分为了三层,包括数据采集层、数据处理层和数据存储层,所有的数据均从源点逐级
经过采集、处理、存储层,最后落入适合自己数据特点的数据库中。数据处理层提供一个高
层次的接受订阅者订阅的功能接口,允许每个业务功能去向数据处理层进行订阅,在订阅
时绑定自己的业务处理逻辑。通过这种方式,实现了连贯、灵活的数据处理方式,并且对于
数据采集层、数据处理层和数据存储层的任一层,都可以在多机上部署相同的处理逻辑,通
过分布式框架的调度,实现动态的负载均衡和压力缓冲。在存储层的选择方面,该架构实现
了透明的异构存储。由于差异性的数据内在的结构化和稀疏性等属性的不同,本实施例提
供了图数据库(Neo4j)、关系型数据库(Mysql)、搜索引擎数据库(Elasticsearch)等不同的
底层存储。基于发布‑订阅模式的科技资源获取与处理模型如图3所示。
[0085] 具体的,如图3所示,数据库获取和处理科技资源包括如下步骤1.1 1.4:~
[0086] 1.1 数据采集层通过分布式数据爬虫对多领域科技大数据进行爬取,进行实时数据获取与清洗。
[0087] 1.2 基于发布‑订阅模式绑定数据处理方式,对于不同规格的数据根据需求配置相应的处理逻辑。其中,对于图片采用下载器下载和存储,文本数据直接保存。
[0088] 1.3 具体到本发明所针对的检索查询问题,对于采集到的科技成果资源,建立双向长短时记忆网络模型进行文本特征表示。
[0089] 1.4 将处理结果输入到后续算法模块或存入多源异构数据库。
[0090] (二)构建时间窗口注意力模型进行科研人员兴趣领域提取
[0091] 对于有科研经历的学者用户,为了对其提供个性化的检索查询服务,需要从其研究成果中获取其研究兴趣和研究领域。本节提出时间窗口注意力机制,建立兴趣提取模型,
高效完成学者兴趣领域的挖掘。
[0092] 学者兴趣表示算法的具体步骤如2.1 2.5:~
[0093] 2.1 建立图1所示的科研技术兴趣领域识别模型,时间窗口内每一个时步的输入为向量化表示的科技资源实体,得到输入序列XS。例如一个学者在不同时间发表的多篇论
文的题目,采用双向长短时记忆网络模型进行向量化处理,并按照顺序输入各时步。
[0094] 2.2利用三角编码添加位置编码,该位置编码用于标记时步的先后,用于引入各科技文本发布或浏览的先后顺序特征,以应引入学者在窗口时间内兴趣内容随时间变化的特
征,得到序列CS,融合位置编码信息序列CS输入向量组做线性变换后通过激活函数分别得到
注意力机制中的K、Q矩阵也即键值矩阵和查询矩阵,计算方式如式(1)、式(2)所示。
[0095]                              (1)
[0096]                              (2)
[0097] 其中,WK为用于生成键值矩阵的参数矩阵,WQ为用于生成查询矩阵的参数矩阵,σ函数为激活函数。
[0098] 2.3 通过Scaled Dot‑Product和Softmax运算可以得到注意力的权重矩阵,如式(3)所示。
[0099]                           (3)
[0100] 其中,d为缩放系数,US为注意力权重矩阵。
[0101] 2.4将原始的输入序列XS作为注意力机制的值矩阵V,通过值矩阵与注意力权重矩阵相乘可以得到学者兴趣技术领域的注意力矩阵,如式(4)所示。
[0102]                 (4)
[0103] 其中,AS为注意力矩阵。
[0104] 2.5 对注意力值矩阵取加权平均即可得到科研学者兴趣的向量化表示 。
[0105] (三)科技资源的个性化两阶段检索查询
[0106] 为了对科技资源的海量数据进行高效查询,本实施例提出了一种两阶段的查询方法。用户输入的查询关键词到达分布式查询集群,根据数据库中的资源与查询语句的相似
性返回第一阶段的查询候选集,该阶段可以从海量数据中快速过滤掉不相关的结果,得到
近似结果集。在第二阶段,通过前述的学者兴趣表示结合学者的影响力对查询候选集进行
二次重排序,从而使得查询更加智能和个性化。对于用户输入的查询语句Q,得到查询结果
候选集W={wi},i=1,2,3…n。计算查询候选集W中每个科技实体wi的特征表示,为了与科研学
者兴趣的表示处于同一语义空间,将该科技实体的特征向量表示重复N次,填充N个时步,输
入到与前述步骤2.1相同的科研技术兴趣领域识别模型中,得到其在学者兴趣空间的特征
表示 。计算其与学者用户的兴趣向量 在兴趣语义空间中的相似度 。设定阈值
,过滤掉候选集中相似度小于 的实体。采用余弦相似度衡量兴趣语义空间中的相关性。参
照图4,具体步骤包括3.1 3.5:
~
[0107] 3.1 对查询候选集中的每篇论文的标题计算其在兴趣空间表示 。
[0108] 3.2 计算每篇论文和学者兴趣向量 的余弦相似度 ,过滤掉相似度小于的实体,同时根据 对 重排序得到集合 。
[0109] 3.3 根据 、 和分段个数 划分重排序的分段 。
[0110] 3.4 在每个分段 中,根据每篇文章的第一作者的发文量和被引量的加权平均计算其影响力,从大到小对集合 进行二次重排序,得到集合 。
[0111] 3.5 根据 的结果作为最终查询结果返回。
[0112] 本实施例基于发布‑订阅模式的数据处理架构进行科技资源的采集、处理和存储,能够显著提高科技资源检索所涉及的底层数据处理流程的灵活性。为了解决学者用户对于
个性化检索的强烈需求,本发明通过设计一种基于时间滑动窗口的注意力模型进行学者兴
趣的挖掘和表示,解决了传统兴趣挖掘算法无法刻画学者兴趣随时间进行转移的特性。最
后,本发明提出了一种基于学者兴趣和影响力的两阶段检索查询重排序算法,在分布式检
索的结果集上进行两次重排序,使得算法具备分布式检索的速度快、匹配程度高的优势的
同时,又兼具了智能化和个性化的特点。
[0113] 另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
[0114] 另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
[0115] 综上所述,本发明所述科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置中,所述训练方法通过获取窗口时间内学者发布或浏览的科技文本,基于注意力机
制挖掘学者的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提
取学者在窗口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述
科技资源查询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选
集与学者所感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源
查询的个性化程度和准确度。
[0116] 进一步地,所述科技资源查询方法的数据库基于发布订阅模式,实现数据灵活采集和统一处理,提高了数据采集的效率。
[0117] 本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还
是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每
个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的
范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插
件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代
码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传
输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。
机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软
盘、CD‑ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联
网等的计算机网络被下载。
[0118] 还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中
提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0119] 本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他
实施方式的特征。
[0120] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的
任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。