一种基于学术大数据的学术团队重要成员识别方法转让专利

申请号 : CN201811500188.0

文献号 : CN109657122B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 万良田张凯源于硕

申请人 : 大连理工大学

摘要 :

本发明公开了一种基于学术大数据的学术团队重要成员识别方法,从度中心性、H因子以及学术年龄的角度识别团队领导者,并首次使用基于PageRank方法的DHRank模型来评估并标记团队关键成员。为了合理地进行团队聚类,本发明在进行以领导者为中心的基于最短路径的团队聚类后,使用基于团队规模比较和领导者H因子比较的方法来对聚类结果进行了进一步的完善,有助于提高后期使用DHRank模型识别关键成员的结果的准确性。相比其他方法,本发明提出的方法在发现有影响力学者方面更加准确,并且拥有更低的运算时间复杂度。本发明提供了学术团队中识别领导者和关键者的一种新方法,为学术网络中的团队科学研究提供了一种新的解决方案。

权利要求 :

1.一种基于学术大数据的学术团队重要成员识别方法,其特征在于,步骤如下:步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;

通过统计分析DBLP数据集中的论文发表情况以及学者间的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析;再利用目标年限内的学者论文信息建立学术网络;学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目;

步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者的论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;

2.1)计算学者在学术网络中的度中心性;根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性的计算公式如下:其中,deg(a  ,G)表示在学术网络G中学者a 的全部合著者人数,A表示学术网络中全部的学者数;

2.2)计算学者的H因子;一名学者的H因子是指该学者至多有H篇论文分别被引用了至少H次;根据H因子的定义,统计论文发表的真实引用量对学术网络中的学者的H因子进行计算;

2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点;

步骤3):统计学术网络中学者论文发表情况并计算学者的学术年龄,利用学术年龄和步骤2)中所得到的潜在的团队领导者名单确定领导者节点,并利用领导者节点和领导者之间的最短路径将非领导节点划分归属到不同领导者的学术团队;

3.1)计算学者的学术年龄:对学者的论文发表行为进行统计,在步骤2)得到的潜在的团队领导者名单的基础上,筛选出学术年龄大于等于5的学者并将其标记为领导者节点;

3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,具有最短的最短路径距离的领导者节点即为此节点的领导者节点,将此节点划分为对应领导者节点的团队中;如果两个团队中共同节点个数大于平均团队节点数,则比较两个团队的领导者节点的H因子,具有高的H因子的领导者节点作为两个团队全部节点的领导者节点;

步骤4):根据步骤3)中所得的学术团队,利用DHRank算法对团队中的关键成员进行识别和标记,得到学术团队中的重要成员,包括领导者和团队关键成员;

4.1)计算团队中所有成员在学术网络中的度中心性,然后结合步骤2)计算得到的H因子计算每个学者的度中心性与H因子之和,对学者的学术影响力进行衡量;

4.2)计算团队中所有成员的DHRank值,DHRank的计算方式如下:其中,DHR(ai)表示学者ai的DHRank值,PR(ai)为学者ai的PageRank值,Deg(ai)表示学者ai在学术网络中的度,hindex(ai)为学者ai的H因子值;

其中,学术网络中学者ai的PageRank值计算方式如下:

其中,E表示学术网络中的所有边的集合;(ai, aj)表示学者节点ai和aj之间的连边,表示学者节点aj的度;

设P=(PR1,PR2,…PRn)T为n维PageRank向量,A为学术网络的对应的转移矩阵,如下所示:其中,A(ai, aj)表示从学者节点ai到学者节点aj的转移概率, 表示学者节点ai的度;

采用poweriteration方法,指定PageRank值的迭代初始值为1,在进行迭代时PageRank最小值设为0,通过多轮迭代求解:Pk=ATPk-1

k k-1

最终收敛于||P-P ||<ξ,即两次迭代的差值小于阈值ξ;k表示迭代结束时的迭代次数;

得到团队中的每个成员的DHRank值后,将团队成员按照该值进行降序排列,团队成员的关键性与其DHRank值成正比。

2.根据权利要求1所述的一种基于学术大数据的学术团队重要成员识别方法,其特征在于,阈值ξ=10-5。

说明书 :

一种基于学术大数据的学术团队重要成员识别方法

技术领域

[0001] 本发明属于学术网络识别技术领域,涉及一种基于学术大数据的学术团队重要成员识别方法,具体涉及一种度中心性、H因子和学术年龄的多特征领导者节点的识别方法和基于PageRank改进的DHRank算法来进行关键成员识别。

背景技术

[0002] 随着当今科学研究的多样化发展,学术团队正在向跨越大学、研究中心甚至研究领域的趋势发展。科研合作的广泛性和复杂性使得学术团队的规模也日益增大,团队成员之间及团队与团队之间的合作关系也愈加复杂。团队重要成员是一个团队的支柱,他们不仅承担着团队内部的规划管理职责,还承担着整个团队对外交流合作的职责。对于团队中重要成员的研究可以更好地反映出团队的合作结构和发展趋势。然而学术网络规模的增长和合作关系的复杂性增加了团队重要成员识别的难度,同时目前多数研究还只着眼于团队以及团队领导的识别,对于团队重要成员识别问题还未得到全面、准确的解决。因此需要研究人员提出一种能够合理准确的学术团队重要成员识别方法来对于学术团队结构和组成关系进行更好的研究。

发明内容

[0003] 本发明针对现有研究的一些不足之处,提出了一种利用度中心性、H因子以及学者学术年龄等指标结合DHRank算法来进行团队领导者以及重要成员的识别方法。该方法从宏观网络结构角度、学者的学术影响力以及学者的研究效率角度对团队的领导者进行识别;以团队领导者为中心进行基于最短路径的团队构建,使用基于PageRank算法改进的DHRank算法对团队中的成员进行能力评估,并得出团队中的关键成员用于研究学术团队组成和预测未来的团队领导者。本发明为识别学术团队中的具有影响力的领导者节点以及关键成员的问题提供一种新的解决方法。
[0004] 本发明的技术方案:
[0005] 一种基于学术大数据的学术团队重要成员识别方法,步骤如下:
[0006] 步骤1):通过统计真实的会议论文引用情况计算目标窗口年限,并根据目标窗口年限内的学者论文建立学术网络;
[0007] 步骤2):利用步骤1)中所构建的学术网络中学者节点的连接情况以及学者论文的真实引用量对学者在学术网络中的度中心性以及学者H因子进行统计计算,得到潜在的团队领导者名单;
[0008] 步骤3):统计学术网络中学者论文发表情况并计算学者的学术年龄,利用学术年龄和步骤2)中所得到的潜在的团队领导者名单确定领导者节点,并利用领导者节点和领导者之间的最短路径将非领导节点划分归属到不同领导者的学术团队;
[0009] 步骤4):根据步骤3)中所得的学术团队,利用DHRank算法对学术团队中的关键成员进行识别和标记,得到学术团队中的重要成员,包括领导者和学术团队关键成员。
[0010] 步骤1)~步骤4)具体如下:
[0011] 步骤1):
[0012] 通过统计分析DBLP数据集中的论文发表情况以及学者的合作情况,确定以10年作为目标窗口年限进行团队重要成员的识别和分析。论文合著可以被认为是学者之间合作关系的具体表现,以此为基础的学术网络能够真实的反映出学者的合作情况和团队归属。确定目标年限后,利用目标年限内的学者论文信息建立学术网络。其中,学术网络中的节点表示学者,边表示学者间的合作关系,边的权重表示两个学者的合作论文数目。
[0013] 步骤2)包括以下三个步骤:
[0014] 2.1)计算学者在学术网络中的度中心性,根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算;度中心性是网络分析中刻画节点重要程度的最直接度量指标,一个节点的度越大表示这个节点的度中心性越高,此节点在网络中就越重要;根据度中心性可以衡量学者在一个学术合作团队中的重要性和影响力,度中心性的计算公式如下:
[0015]
[0016] 其中,deg(a,G)表示在学术网络G中学者a的全部合著者人数,A表示学术网络中全部的学者数。
[0017] 2.2)计算学者的H因子;H因子又称为H指数,其中的‘H’代表学者的高引用次数,一名学者的H因子是指该学者至多有H篇论文分别被引用了至少H次。H因子能够比较准确地反应一个人的学术成就,学者的H指数越高,表明该学者的论文影响力越大。根据H因子的定义,统计论文发表的真实引用量对学术网络中的学者的H因子进行计算。
[0018] 2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点。
[0019] 步骤3)包括以下两个步骤:
[0020] 3.1)计算学者的学术年龄:根据论文发表情况可以得到学术网络中每位学者学术年龄,即从发表第一篇论文到最后一篇论文的时间跨度。对学者的论文发表行为进行统计,学术年龄小于5的学者通常可以被认为是学生研究人员,这些人并不能被称为真正的团队领导者。在步骤2)得到的潜在的团队领导者名单的基础上,筛选出学术年龄大于等于5的学者并将其标记为领导者节点。
[0021] 3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,具有最短的最短路径距离的领导者节点即为此节点的领导者节点,将此节点划分为对应领导者节点的团队中。进行团队划分后,存在一些节点属于多个团队的情况,因此需进行进一步的团队划分;如果两个团队中存在较多的共同节点,即共同节点个数大于平均团队节点数,则需比较两个团队领导者节点的H因子,具有较高的H因子的领导者节点作为两个团队全部节点的领导者节点。
[0022] 步骤4)包括以下两个步骤:
[0023] 4.1)计算团队中所有成员在学术网络中的度中心性,然后结合步骤2)中所计算得到的H因子计算每个学者的度中心性与H因子之和,对学者的学术影响力进行衡量;
[0024] 4.2)计算团队中所有成员的DHRank值,DHRank的计算方式如下:
[0025]
[0026] 其中,DHR(ai)表示学者ai的DHRank值,PR(ai)为学者ai的PageRank值,Deg(ai)表示学者ai在学术网络中的度,hindex(ai)为学者ai的H因子值。
[0027] 其中学术网络中学者ai的PageRank值计算方式如下:
[0028]
[0029] 其中,E表示学术网络中的所有边的集合;(ai,aj)表示学者节点ai和aj之间的连边,PR(aj)表示网络中学者ai的合作学者aj的PageRank值, 表示学者节点aj的度。
[0030] 设P=(PR1,PR2,…PRn)T为n维PageRank向量,A为学术网络的对应的转移矩阵,如下所示:
[0031]
[0032] 其中,A(ai,aj)表示从学者节点ai到学者节点aj的转移概率, 表示学者节点ai的度。
[0033] 采用poweriteration方法,指定PageRank值的迭代初始值为1。由于学术网络中的合著关系为双向关系,并且不考虑单作者发表论文的情况,在进行迭代时PageRank最小值设为0。通过多轮迭代求解:
[0034] Pk=ATPk-1
[0035] 最终收敛于||Pk-Pk-1||<ξ,即两次迭代的差值小于阈值ξ。k表示迭代结束时的迭代次数。
[0036] 在发明中,阈值ξ=10-5。
[0037] 得到团队中的每个成员的DHRank值后,将团队成员按照该值进行降序排列,团队成员的关键性与其DHRank值成正比。
[0038] 本发明的有益效果:本发明利用学者在学术网络中的度中心性、H因子以及学术年龄三个学者特征进行学术团队中的领导者识别,并且使用基于最短路径的方法提出了一种新的团队构建方法。为了更准确、有效的找到团队中的关键成员,本发明还提出了基于PageRank改进的DHRank算法来识别团队中的关键成员。实验结果表明,本发明提出的方法在发现有影响力学者方面更加准确,并且相比于其他的方法,本发明有更低的运算时间复杂度。本发明提供了学术团队中识别领导者和关键者的一种新方法,为学术网络中的团队科学研究提供了一种新的解决方案。

附图说明

[0039] 图1为在规定的合作窗口内,学者们的学术年龄分布情况以及具有某学术年龄的学者数所占比例的分布情况。
[0040] 图2和图3分别表示学术网络中的学者的度分布情况和学者的H因子分布情况。
[0041] 图4为学术网络中的学术年龄分布情况,可以根据此分布情况确定筛选潜在领导者的论文发表年限为5年。
[0042] 图5为团队识别过程中,不同团队之间存在的共同团队成员的情况。
[0043] 图6为部分团队识别的结果,在图中被标注出的为该团队的领导者。

具体实施方式

[0044] 为了使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式作进一步的详细描述。
[0045] 本发明实例提供了一种基于学术大数据的学术团队重要成员识别方法,该方法包括:
[0046] 步骤1:通过统计分析DBLP数据集中的论文发表情况以及学者的合作情况,以学者之间真实的论文合著数据构建学术网络。网络中的节点表示学者,边表示学者之间的合作关系。通过统计分析学者之间的合作情况运用数学统计的方法对学者之间的合作行为进行分析寻找合作窗口年限。
[0047] 本发明选取DBLP数据集中的论文数据进行实验,DBLP是计算机领域具有权威的数据集,它收录了400余万篇论文的相关信息,想要从其中获取实验所用的有效数据,就要对数据集进行筛选过滤。对DBLP数据集进行预处理,去掉只有一个作者的论文以及全部作者学术年龄小于5的论文。本发明以合著关系为基础进行团队构建,认为共同合著论文为合作关系的具体体现,所以只有一个作者的论文不能够反映出作者的真实合作情况;同时学术年龄小于5的学者在学术领域中的经验较少且通常被认为是学生研究员,并不能成为一个规模比较大的学术团队的领导者或者关键成员。在规定的合作窗口内,学者们的学术年龄分布情况以及具有某学术年龄的学者数所占比例的分布情况如图1所示。图4为学术网络中的学术年龄分布情况,可以根据此分布情况确定筛选潜在领导者的论文发表年限为5年。
[0048] 步骤2:利用学术网络以及数据集中论文的真实引用量对学者在学术网络中的度中心性以及H因子进行统计计算并产生潜在的团队领导者名单。
[0049] 2.1)计算学者在学术网络中的度中心性,只考虑学者间的合作关系,根据某个学者与学术网络中的其他学者的合著关系以及学术网络中的节点个数对该学者的度中心性进行计算。度中心性的计算公式如下:
[0050]
[0051] 其中,deg(a,G)表示在学术网络G中学者a的全部合著者人数,A表示学术网络中全部的学者数。
[0052] 2.2)根据论文发表的真实引用量可以对学术网络中的学者的H因子进行计算。
[0053] 2.3)根据计算统计所得到的学者的度中心性和H因子两项指标,找出两项指标均高于指标平均值的学者,并将其标记为潜在的团队领导者节点,实验结果表明学者的度平均值为7.8181,H因子的平均值为3.2178,具体度中心性和H因子的分布情况如图2、图3所示。
[0054] 步骤3:
[0055] 根据数据集中的论文发表情况统计学术网络中学者的学术年龄,在步骤2中所得到的潜在领导者节点名单中确定真正领导者节点。以所得的真正领导者节点为中心使用基于最短路径的团队聚类方法进行团队构建,并且在初步构建完成后,对于存在公共节点较多的团队进行进一步的团队构建,最终得到团队构建的最终结果。
[0056] 3.1)根据论文发表情况可以得到学术网络中每位学者的学术年龄,通过计算此项指标可以找出已经在学术科研领域研究多年并且发表论文比较频繁的学者,利用此条件对步骤2中已经筛选出的将潜在领导者节进行进一步筛选。其中学术年龄大于等于5的学者标记为真正领导者节点。
[0057] 3.2)对于学术网络中的非领导者节点,计算该节点到全部领导者节点的最短路径距离,集合中具有最短路径距离最小值的领导者节点即为此节点的领导者节点,将此节点划分到对应领导者节点的团队中。在进行团队划分后,存在一些节点属于多个团队的情况,对于这种情况进行进一步的划分处理。如果两个团队中存在较多的共同节点,即共同节点个数大于平均团队节点数,则需比较两个团队领导者节点的H因子,具有较高的H因子的领导者节点作为两个团队全部节点的领导者节点。团队识别过程中,不同团队之间存在的共同团队成员的情况如图5所示。
[0058] 通过以上步骤,我们可以得到所有学术团队的领导者以及成员分布。
[0059] 步骤4:
[0060] 在学术团队中,不仅仅只有领导者对整个团队进行管理,还有存在一些关键成员来协助领导者管理整个团队。因此这一步是利用得到的团队以及基于PageRank算法的DHRank算法对团队中的关键成员进行识别和标记。
[0061] 4.1)计算团队中所有成员在学术网络中的度中心性,然后结合所计算得到的H因子计算每个学者的度中心性与H因子之和,用来对学者的学术影响力进行衡量。
[0062] 4.2)计算团队中所有成员的PageRank值,学者ai的PageRank值计算方式如下:
[0063]
[0064] 其中,E表示学术网络中的所有边的集合;(ai,aj)表示学者节点ai和aj之间的连边,PR(aj)表示网络中学者ai的合作学者aj的PageRank值, 表示学者节点aj的度。设P=(PR1,PR2,…PRn)T为n维PageRank向量,A为学术网络的对应的转移矩阵,如下所示:
[0065]
[0066] 其中,A(ai,aj)表示从学者节点ai到学者节点aj的转移概率, 表示学者节点ai的度。
[0067] 采用poweriteration方法,指定PageRank值的迭代初始值为1。由于学术网络中的合著关系为双向关系,并且在此发明者不考虑单作者发表论文的情况,在进行迭代时PageRank最小值设为0。通过多轮迭代求解:
[0068] Pk=ATPk-1
[0069] 最终收敛于||Pk-Pk-1||<ξ,即两次迭代的差值小于某个阈值。在本实施例中阈值ξ=10-5。
[0070] 4.3)计算团队中所有成员的DHRank值,DHRank的计算方式如下:
[0071]
[0072] 其中,DHR(ai)表示学者ai的DHRank值,PR(ai)为学者ai的PageRank值,Deg(ai)表示该学者ai在学术网络中的节点度,hindex(ai)为该学者的H因子值。
[0073] 4.4)得到团队中的每个成员的DHRank值后,将团队成员按照该值进行降序排列,团队成员的关键性与其DHRank值成正比。团队中的关键成员可以帮助研究者明确在某个团队中,随着时间的推移,团队中的领导者可能会被某个关键成员取代。图6为部分团队识别的结果,在图中被标注出的为该团队的领导者。