科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置转让专利
申请号 : CN202110781559.2
文献号 : CN113239179B
文献日 : 2021-09-17
发明人 : 杜军平 , 郭伟杰 , 寇菲菲 , 许明英
申请人 : 北京邮电大学
摘要 :
权利要求 :
1.一种科研技术兴趣领域识别模型训练方法,其特征在于,包括:获取多个样本,每个样本中包含一科研学者在设定时间窗口内发布或浏览的多个科技文本,每个样本内的科技文本属于同一技术领域;采用双向长短时记忆网络获取各科技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训练样本集;
获取初始网络模型,所述初始网络模型中,将设定时间窗口划分为第一设定数量的时步,按照发布或浏览的时间顺序将所述样本内各科技文本的文本特征输入至各时步形成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;所述查询矩阵与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩阵;将所述权重矩阵与所述输入序列相乘得到注意力矩阵,对所述注意力矩阵加权平均得到技术领域特征向量;将所述技术领域特征向量输入到分类器并输出分类结果;
采用所述训练样本集对所述初始网络模型进行训练,得到科研技术兴趣领域识别模型。
2.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,所述查询矩阵与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理中,所述归一化处理采用的是softmax函数。
3.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,采用双向长短时记忆网络获取各科技文本的文本特征之前,还包括:采用多个预设科技文本对所述双向长短时记忆网络的参数进行调整。
4.根据权利要求1所述的科研技术兴趣领域识别模型训练方法,其特征在于,采用所述训练样本集对所述初始网络模型进行训练中,包括:采用交叉熵损失函数进行反向传播调整参数。
5.一种科技资源查询方法,其特征在于,包括:获取设定学者在设定时间窗口内发布或浏览的多个参考科技文本,采用双向长短时记忆网络获取各参考科技文本的第一文本特征,并输入至权利要求1至2任意一项所述科研技术兴趣领域识别模型训练方法的科研技术兴趣领域识别模型中,提取所述设定学者对应的技术领域特征向量作为兴趣向量;
获取查询关键词,由数据库基于相似性比对返回第一查询候选集,所述第一查询候选集内包括多个候选科技文本;
采用所述双向长短时记忆网络获取各候选科技文本的第二文本特征,将各第二本文特征以重复填充各时步的形式输入至权利要求1至2任意一项所述科研技术兴趣领域识别模型训练方法的科研技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考向量;
计算所述第一查询候选集中各候选科技文本的参考向量与所述兴趣向量的余弦相似度,按照所述余弦相似从大到小的顺序对各候选科技文本进行排序,并剔除所述余弦相似度小于设定值的候选科技文本,得到第二查询候选集;
根据所述第二查询候选集内各候选科技文本对应余弦相似度的值域范围,划分第二设定数量的分段,获取每个分段内的候选科技文本的影响力因子;
对所述第二查询候选集每个分段内的候选科技文本按照所述影响力因子从高到低的顺序重新排序,得到查询结果。
6.根据权利要求5所述的科技资源查询方法,其特征在于,所述数据库包括数据采集层、数据处理层和数据存储层,由多个业务功能模块按照发布订阅的形式向所述数据处理模层订阅科技文本,每个业务功能模块分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。
7.根据权利要求6所述的科技资源查询方法,其特征在于,所述数据采集层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;
和/或,所述数据处理层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度;
和/或,所述数据存储层部署在多个主机上,并基于相同的处理逻辑进行分布式框架的调度。
8.根据权利要求5所述的科技资源查询方法,其特征在于,获取每个分段内的候选科技文本的影响力因子,包括:
获取各候选科技文本的被引用量和相应第一作者的发文量,对所述被引用量和所述发文量加权求平均得到各候选科技文本的影响力因子。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。
说明书 :
科研技术兴趣领域识别模型训练方法、科技资源查询方法及
装置
技术领域
背景技术
学术风格的数据构成,服务于来自各个领域的科研人员。然而,科技资源具有数量庞大、种
类繁杂等特点。传统的查询方法很难发现和利用其蕴含的价值。
句,返回结果高度一致,无法实现“千人千面”的智能检索。这主要源于检索查询任务没有考
虑不同用户所具备的差异性,没有充分挖掘用户画像信息来反馈式地改进搜索引擎的检索
过滤算法。尤其是在科技资源检索中,以论文、专利、基金为代表的科技大数据资源具有领
域内专用词汇多、在不同科研领域中相同的术语可能有截然不同的含义。学者用户由于自
身的学术领域的不同,往往希望查询结果和自己的研究兴趣领域高度相关,现有的技术方
案很难达到学者用户的这种个性化要求。
经之路。科研人员对科技资源的查询不再满足于传统的关键词匹配方式,从日益增加的科
技资源中准确地查询到自己感兴趣的信息成为一种迫切的需求。
发明内容
根据学者兴趣需求提供个性化检索结果的问题。
技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训练样本集;
成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向
量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;所述查询矩阵
与所述键值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩
阵;将所述权重矩阵与所述输入序列相乘得到注意力矩阵,对所述注意力矩阵加权平均得
到技术领域特征向量;将所述技术领域特征向量输入到分类器并输出分类结果;
型训练方法的科研技术兴趣领域识别模型中,提取所述设定学者对应的技术领域特征向量
作为兴趣向量;
技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考向量;
相似度小于设定值的候选科技文本,得到第二查询候选集;
分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。
的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提取学者在窗
口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述科技资源查
询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选集与学者所
感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源查询的个性
化程度和准确度。
知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的
结构实现到并获得。
附图说明
具体实施方式
不作为对本发明的限定。
的其他细节。
杂的科技文本,传统基于关键词相似度比对进行检索的方式,会将不同技术领域存在相同
技术特征的科技文本全部输出,无法区分不同技术领域,例如,在检索查询“计算机视觉”
时,可能同时输出医学领域和机器人等多各领域涉及到计算机视觉的技术文本,而发起检
索的科研人员可能对发部分技术领域的资料都不感兴趣或不需要。这就需要提高检索过程
中,对科研学者的兴趣领域进行特征匹配,进行个性化的检索查询,提高准确度。
~
络获取各科技文本的文本特征,将各样本所属的技术领域标记为相应样本的标签,生成训
练样本集。
成输入序列,采用三角编码对每个时步输入的文本特征添加位置编码后,分别输入两个向
量组做线性变换后通过激活函数得到注意力机制中的键值矩阵和查询矩阵;查询矩阵与键
值矩阵的转置进行矩阵乘运算后缩放点积并归一化处理,得到注意力的权重矩阵;将权重
矩阵与输入序列相乘得到注意力矩阵,对注意力矩阵加权平均得到技术领域特征向量;将
技术领域特征向量输入到分类器并输出分类结果。
浏览的科技文本,窗口时间可以根据需求设置,对于学者本人发布的文件,考虑到一般的发
表周期,可以设置窗口时间为1个月、3个月、半年或一年等。对于学者浏览的文件,一般时间
较为集中,可以设置窗口时间为1天或1周。相应的,对于发布或浏览的科技文本应当标记相
应的发布或浏览的时间顺序。
本对所述双向长短时记忆网络的参数进行调整。
在众多信息中把注意力集中放在重要的点上,选出关键信息,而忽略其他不重要的信息。但
是其输入为可滑动的时间窗口,使得注意力的范围具备了随着时间不断更新的能力。本实
施例利用学者历史行为序列中最近的科研相关记录高效抽取学者的短期兴趣表示,通过序
列的自我匹配来进行注意力的表示,结合滑动时间窗口来挖掘学者兴趣随着时间推移而发
生的转变。
双向长短时记忆网络获取的各科技文本的文本特征,分别按照相应的时步输入作为输入序
列XS,利用三角编码添加位置编码,该位置编码用于标记时步的先后,用于引入各科技文本
发布或浏览的先后顺序特征,以应引入学者在窗口时间内兴趣内容随时间变化的特征,得
到序列CS。融合位置编码信息后的通过两个向量组做线性变换后通过激活函数得到注意力
机制中的键值矩阵K和查询矩阵Q。具体计算式为:
当理解为,在一些应用场景下,各步骤可以并行或调换顺序。本实施例中第一文本特征和第
二文本特征中的“第一”和“第二”并不是表示序数,仅用于区分参考科技文本和候选科技文
本的特征。
领域识别模型训练方法的科研技术兴趣领域识别模型中,提取设定学者对应的技术领域特
征向量作为兴趣向量。
的科研技术兴趣领域识别模型中,提取各候选科技文本对应的技术领域特征向量作为参考
向量。
于设定值的候选科技文本,得到第二查询候选集。
并采用双向长短时记忆网络提取第一文本特征。将各参考科技文本的第一文本特征输入步
骤S101 S103训练得到的科研技术兴趣领域识别模型,参照图1中的A段,将模型运算得到的
~
技术领域特征向量输出为兴趣向量。这里需要明确的是,步骤S201中并不需要使用科研技
术兴趣领域识别模型最终的识别结果,其所引用的是输入到分类器之前的技术领域特征向
量,以供进行查询操作。
数据库中会有大量不同领域的科技文件包含相应的查询关键词,并且都会落入第一查询候
选集,因此,通过一般相似度匹配或关键词检索的形式获得的第一查询候选集难以满足学
者对特定方向领域技术的查询需求。例如,在搜索“计算机视觉”时,就会出现医学影像识
别、人脸识别、动作捕捉等多个技术领域的技术文件。
S101 S103训练得到的科研技术兴趣领域识别模型进行处理。对于单个候选科技文本,为了
~
满足科研技术兴趣领域识别模型的输入要求,可以在输入端复制多次,以填充窗口时间的
多个时步,最后将科研技术兴趣领域识别模型分类器之前的技术领域特征向量输出为各候
选科技文本的参考向量,用于与设定学者的兴趣向量进行比对。
该设定值可以根据具体场景需求设置,设定值越高剩余的候选科技文本与设定学者感兴趣
的技术领域越接近。
后,排序靠前的与设定学者感兴趣的技术领域越接近,排序靠后的与设定学者感兴趣的技
术领域越远。相应的,第二查询候选集中某一区间段内的将技术文件都是技术领域相近或
相同的。在进一步按照科技文件影响力进行重新排序时,为了不打乱整体上与设定学者感
兴趣技术领域从近到远排列的顺序,对每个分段内的科技文本单独根据影响力因子进行重
排,这样,在保留各分段与相应感兴趣的技术领域从近到远的基础上,每个分段内的科技文
本按照影响力从高到低排列,最终得到查询结果。
求平均得到各候选科技文本的影响力因子。
业务功能模块分别配置相应的数据处理逻辑并由所述数据处理模层统一执行后存储。
订阅该消息主题的订阅者消费到。发布/订阅者模式最大的特点就是实现了松耦合。本发明
中引入发布‑订阅模式设计数据采集与处理流水线,以实现数据处理体系的灵活性、高可靠
性和可测试性。
式框架的调度;和/或,数据存储层部署在多个主机上,并基于相同的处理逻辑进行分布式
框架的调度。
清洗、处理、存储科技大数据资源。采用结合注意力机制的神经网络,提出基于时间窗口注
意力的科研人员兴趣领域提取算法,充分考虑了科研学者在一定时间周期内的研究领域聚
集以及在跨时间周期内的研究领域转移的特点。结合以上两种方法,通过两阶段检索查询
重排序机制,实现智能化和精准化的科技资源检索。
领域提取;第三,科技资源的个性化两阶段检索查询。
远近划分为了三层,包括数据采集层、数据处理层和数据存储层,所有的数据均从源点逐级
经过采集、处理、存储层,最后落入适合自己数据特点的数据库中。数据处理层提供一个高
层次的接受订阅者订阅的功能接口,允许每个业务功能去向数据处理层进行订阅,在订阅
时绑定自己的业务处理逻辑。通过这种方式,实现了连贯、灵活的数据处理方式,并且对于
数据采集层、数据处理层和数据存储层的任一层,都可以在多机上部署相同的处理逻辑,通
过分布式框架的调度,实现动态的负载均衡和压力缓冲。在存储层的选择方面,该架构实现
了透明的异构存储。由于差异性的数据内在的结构化和稀疏性等属性的不同,本实施例提
供了图数据库(Neo4j)、关系型数据库(Mysql)、搜索引擎数据库(Elasticsearch)等不同的
底层存储。基于发布‑订阅模式的科技资源获取与处理模型如图3所示。
高效完成学者兴趣领域的挖掘。
文的题目,采用双向长短时记忆网络模型进行向量化处理,并按照顺序输入各时步。
征,得到序列CS,融合位置编码信息序列CS输入向量组做线性变换后通过激活函数分别得到
注意力机制中的K、Q矩阵也即键值矩阵和查询矩阵,计算方式如式(1)、式(2)所示。
性返回第一阶段的查询候选集,该阶段可以从海量数据中快速过滤掉不相关的结果,得到
近似结果集。在第二阶段,通过前述的学者兴趣表示结合学者的影响力对查询候选集进行
二次重排序,从而使得查询更加智能和个性化。对于用户输入的查询语句Q,得到查询结果
候选集W={wi},i=1,2,3…n。计算查询候选集W中每个科技实体wi的特征表示,为了与科研学
者兴趣的表示处于同一语义空间,将该科技实体的特征向量表示重复N次,填充N个时步,输
入到与前述步骤2.1相同的科研技术兴趣领域识别模型中,得到其在学者兴趣空间的特征
表示 。计算其与学者用户的兴趣向量 在兴趣语义空间中的相似度 。设定阈值
,过滤掉候选集中相似度小于 的实体。采用余弦相似度衡量兴趣语义空间中的相关性。参
照图4,具体步骤包括3.1 3.5:
~
个性化检索的强烈需求,本发明通过设计一种基于时间滑动窗口的注意力模型进行学者兴
趣的挖掘和表示,解决了传统兴趣挖掘算法无法刻画学者兴趣随时间进行转移的特性。最
后,本发明提出了一种基于学者兴趣和影响力的两阶段检索查询重排序算法,在分布式检
索的结果集上进行两次重排序,使得算法具备分布式检索的速度快、匹配程度高的优势的
同时,又兼具了智能化和个性化的特点。
制挖掘学者的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提
取学者在窗口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述
科技资源查询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选
集与学者所感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源
查询的个性化程度和准确度。
是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每
个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的
范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插
件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代
码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传
输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。
机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软
盘、CD‑ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联
网等的计算机网络被下载。
提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
实施方式的特征。
任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。