[0095] R_diff>4,则相似度=0。
[0096] 上述的中英文文献作者姓名融合消歧方法,在步骤一、步骤二和步骤三中,均采用杰卡德相似系数分别计算合作网络相似度和引用网络相似度。
[0097] 本发明的有益效果:本发明基于语义指纹、作者合作网相似度、作者引用网络相似度等进行中文作者姓名消歧、英文作者姓名消歧以及中文作者与英文文献中姓名拼音的消歧,该方法能够准确的区分出不同文献的作者是否为同一人,能够很好的识别出中英文下的同一作者,快速定位到需要找的作者,准确率高,有利于检索工作的开展。
[0098] 本发明基于语义指纹比对文献相似度,可以大大简化比对的过程,提高了比对效率,相较于基于模型进行文献相似度计算,避免了模型训练的过程,节省了训练资源。
[0099] 本发明提出作者科研时长相似度的计算,可以很好的辅助中文作者中英文名的消歧,而且引入科研时长可以确定作者的年龄范围,过滤掉其他不在该范围内的同名作者,提高消歧准确性。
附图说明
[0100] 图1为本发明中文作者姓名消歧流程图。
[0101] 图2为本发明英文作者姓名消歧流程图。
[0102] 图3为本发明中英文作者姓名融合消歧流程图。
具体实施方式
[0103] 本发明设计的同名作者消歧方法主要从以下几个方面入手:
[0104] ①作者所属工作机构是否相同:工作机构相同,则是同一个人的概率会更高。
[0105] ②作者合作网络相似度:专家学者一般都有固定的科研合作团队,若两个作者的合作网络高度相似,则两个人大概率是同一个人。
[0106] ③作者引用网络相似度:引用网络指的是作者引用的文献其作者集合,同一个作者一般会引用相同的其他作者的文献,因为他们属于同一个研究领域。同时对于一些博导、硕导,他们所带领的每一届学生姓名均不同,学生的合作网络相似度极低,研究的方向也会存在很大差别,但有一些共同特征,学生的论文大概率会带上导师的姓名,学生论文大概率会引用导师或其他学长学姐的论文,因此可以采用引用网络相似度来进行姓名消歧。
[0107] ④作者发表文献内容相似度:同一个作者的研究内容基本不会发生大的变化,比对同名作者两篇文献的内容相似度可以确定是否是同一个作者。
[0108] ⑤作者科研时长相似度:本申请中科研时长定义为:作者发表的最早的一篇文献的年份距今的时间差。科研时长相同则是同一个人的概率更高。
[0109] 下面结合附图和实施例对本发明进一步说明。需要指出的是本发明中出现的所有字母均为示例性表示。
[0110] 实施例1:本实施例提供一种中英文文献作者姓名融合消歧方法,该方法包括中文作者姓名消歧、英文作者姓名消歧以及中文作者与英文文献中姓名拼音的消歧。其中[0111] 一、中文作者姓名消歧,如图1所示,包括以下步骤,
[0112] 步骤一、作者名称清洗:去除作者名称中的符号(包括空格、分号、逗号等符号),根据百家姓对作者名称进行转化,统一转化成姓+名的格式;如:“冲林”转换为“林冲”。
[0113] 步骤二、作者所属机构清洗:将作者机构统一规整为所属机构主体名称;如:“xx医院xx科室”规整为“xx医院”,“xx大学xx学院”规整为“xx大学”等;去除“有限责任公司”、“有限公司”、“股份有限公司”、“集团控股有限公司”等公司类型字眼,如“阿里巴巴集团控股有限公司”转为“阿里巴巴”。
[0114] 步骤三、计算作者机构相似度:
[0115] 以同名作者的两篇文章的机构作为特征值,计算特征值所有词的词频,生成词频向量,然后根据余弦相似度公式计算词频向量的相似度得到机构相似度;
[0116]
[0117] 例:
[0118] 1)两个机构分别为“小米科技有限责任公司”、“广东小米科技有限责任公司”;
[0119] 2)经过步骤(2)机构清洗后为:“小米科技”、“广东小米科技”这两个特征值;
[0120] 3)特征值“小米科技”的所有词为:[小、米、科、技]
[0121] 4)特征值“广东小米科技”的所有词为:[广、东、小、米、科、技]
[0122] 5)两个特征值的所有词合并后为:[广、东、小、米、科、技]
[0123] 6)特征值“小米科技”的词频向量为:[0,0,1,1,1,1]
[0124] 7)特征值“广东小米科技”的词频向量为:[1,1,1,1,1,1]
[0125] 8)根据余弦相似度算法计算两个词频向量的相似度:
[0126]
[0127] 步骤四、计算作者合作网络相似度:
[0128] 同名作者的合作网络分别为A,B,则相似度为:
[0129]
[0130] 例:合作网络A为:[a,b,c],合作网络B为:[a,c,d,e],根据合作网络相似度公式计算相似度为:
[0131]
[0132] 步骤五、计算作者引用网络相似度
[0133] 引用网络相似度算法与合作网络相似度算法相同,同名作者的引用网络分别为C,D,则相似度为:
[0134]
[0135] 步骤六、计算作者发表文献内容相似度,包括以下内容:
[0136] S1、采用标题+摘要+关键词进行内容相似度的计算,将标题、摘要、关键词拼接为一个字符串E;
[0137] S2、使用jieba分词对字符串E进行基于TF‑IDF算法的关键词抽取,并取Top 10的词及其权重,生成“{词+权重}数组”,记为F;
[0138] S3、将数组F中权重转换为1‑5的整数权重,将转换后的“{词+权重}数组”,记为G,转换标准为:
[0139] 权重小于0.2:转为1;
[0140] 权重大于等于0.2,小于0.4:转为2;
[0141] 权重大于等于0.4,小于0.6:转为3;
[0142] 权重大于等于0.6,小于0.8:转为4;
[0143] 权重大于等于0.8:转为5。
[0144] S4、使用SimHash计算数组G的哈希值得到文本的语义指纹H;
[0145] S5、按照步骤S1‑S4分别计算得到同名作者两篇文献的语义指纹H1、H2;
[0146] S6、根据汉明距离计算两篇文献的内容相似度,具体相似度计算标准为:
[0147] 汉明距离=0,相似度=1;
[0148] 汉明距离=1,相似度=0.9;
[0149] 汉明距离=2,相似度=0.8;
[0150] 汉明距离>=3,相似度=0;
[0151] 若汉明距离大于等于3,则两篇文献不相似;
[0152] 若汉明距离小于3则两篇文献相似。
[0153] 步骤七、判断作者是否为同一人,
[0154] 若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;
[0155] 若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人。
[0156] 步骤八、根据步骤一至七将同名作者的文献两两计算相似度、判断是否为同一人;将同一人打上相同的作者ID,将两两计算后的记过进行聚合完成中文作者姓名消歧。
[0157] 二、英文文献作者姓名消歧,如图2所示,包括以下步骤:
[0158] 步骤一、作者名称清洗:
[0159] 去除作者名称中的符号,例如空格、分号、逗号等;将作者姓名拼音进行格式转换,统一转换成“名+姓”格式;如“Wang Yuanzhuo”转为:“Yuanzhuo Wang”。
[0160] 步骤二、作者所属机构清洗:
[0161] 去除机构名称中的符号,并将机构简写补全;如:“Univ”补全为“University”。
[0162] 步骤三、计算作者机构相似度
[0163] 对同名作者的两篇文章的机构作为特征值,计算特征值所有词的词频,生成词频向量,根据余弦相似度公式计算词频向量相似度,得到机构相似度;
[0164]
[0165] 例:
[0166] 1)两个机构分别为“AA BB CD”、“AA CD EE”;
[0167] 2)特征值“AA BB CD”的所有词(以空格进行分割)为:[AA、BB、CD];
[0168] 3)特征值“AA CD EE”的所有词(以空格进行分割)为:[AA、CD、EE];
[0169] 4)两个特征值的所有词合并后为:[AA、BB、CD、EE];
[0170] 5)特征值“AA BB CD”的词频向量为:[1,1,1,0];
[0171] 6)特征值“AA CD EE”的词频向量为:[1,0,1,1];
[0172] 7)根据余弦相似度算法计算两个词频向量的相似度:
[0173]
[0174] 步骤四、计算作者合作网络相似度
[0175] 根据同名作者的合作网络A’、B’,计算作者合作网络相似度,
[0176]
[0177] 步骤五、计算作者引用网络相似度
[0178] 引用网络相似度算法与合作网络相似度算法相同,根据同名作者的引用网络C′、D′计算作者引用网络相似度,
[0179]
[0180] 步骤六、计算作者发表文献内容相似度
[0181] S1、一篇文献,标题、摘要、关键词包含更多、更精确的信息,因此采用标题+摘要+关键词来进行内容相似度计算,拼接标题、摘要、关键词为一个字符串E′;
[0182] S2、使用NLTK对字符串E′分词,计算每个词的TF‑IDF值作为权重,并取权重Top 10的词及其权重,生成“{词+权重}数组”,记为F′;
[0183] TF‑IDF值计算:
[0184] ①TF‑IDF是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。
[0185] 其中:
[0186]
[0187] TF越大说明该词出现的频率越高,在该篇文章中越重要。
[0188]
[0189] 语料库文档总数固定的情况下,包含该词的文档数越少,IDF越大,说明该词越新颖,具有很好的类别区分能力,越重要。
[0190] TF‑IDF=TF(词频)×IDF(逆文档频率)
[0191] TF‑IDF即为词频TF与逆文档频率IDF的乘积。
[0192] ②从所有英文文献中随机抽取10000篇文献作为语料库;
[0193] ③使用NLTK对字符串E进行分词,以分词后的一个词word1为例,其TF‑IDF计算如下:
[0194] 计算字符串E中word1出现的次数,记为w_count1,则TF_1=w_count1÷(E中词的总个数);
[0195] 从语料库10000篇文献中查找word1在多少篇文档中出现,记为
[0196] word1的TF‑IDF=TF_1×IDF_1。
[0197] S3、对数组F′中权重进行转换,将权重转为1~5的整数权重,转换后的“{词+权重}数组”,记为G′,转换方式如下:
[0198] 权重小于0.2:转为1
[0199] 权重大于等于0.2,小于0.4:转为2
[0200] 权重大于等于0.4,小于0.6:转为3
[0201] 权重大于等于0.6,小于0.8:转为4
[0202] 权重大于等于0.8:转为5;
[0203] S4、使用SimHash计算G′的哈希值,即为文本的语义指纹,记为H′;
[0204] S5、根据S1‑S4步骤计算同名作者两篇文献的语义指纹,分别为H1′、H2′[0205] S6、根据汉明距离,若H1′、H2′汉明距离小于3则两篇文献内容相似,反之则不相似;汉明距离与相似度转换如下:
[0206] 汉明距离=0,相似度=1;
[0207] 汉明距离=1,相似度=0.9;
[0208] 汉明距离=2,相似度=0.8;
[0209] 汉明距离>=3,相似度=0。
[0210] 步骤七、判断作者是否是同一个人
[0211] 若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有一个大于0.8,则认为是同一个人;
[0212] 若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人。
[0213] 步骤八、同名作者聚合完成消歧
[0214] 根据步骤一至七,同名作者的文献两两计算相似度、判断是否是同一个人,同一个人打上相同的作者ID,对两两计算后的结果进行聚合,完成英文作者消歧。
[0215] 三、中文作者与英文文献中姓名拼音的消歧,如图3所示,包括以下步骤:
[0216] 步骤一、作者名称转换
[0217] 在中文作者、英文作者分别消歧时已对姓名进行清洗,且英文作者拼音格式已规整为“名+姓”格式,此处不需要额外清洗操作。将中文文献中的中文作者、引用文献中的中文作者全部转换为拼音格式,且为“名+姓”格式。若中文名称的“名”跟“姓”均在百家姓中,如“林杨”,则将其转为拼音数组格式为{“Yang Lin”“,Lin Yang”},与英文文献作者名进行匹配时,两种格式均要进行匹配。
[0218] 步骤二、作者所属机构转换
[0219] 在英文作者消歧时已对所属机构进行清洗,此处不需要额外清洗操作。
[0220] 针对中文文献,不再去除公司类型字眼,同时利用谷歌翻译、维基百科将中文机构翻译为英文。
[0221] 步骤三、计算作者机构相似度
[0222] 对同名作者的两篇文章的机构作为特征值,计算特征值所有词的词频,生成词频向量,根据余弦相似度公式计算向量相似度,即为机构相似度。
[0223] 步骤四、计算作者合作网络相似度
[0224] 对于中文作者消歧后的所有中文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;合并同一个作者的所有文献中的合作者,生成该作者的合作网络,即为M;
[0225] 对弈英文作者消歧后的所有英文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;合并同一个作者的所有文献中的合作者,生成该作者的合作网络,即为N;
[0226] 若中文文献作者的拼音与英文文献中作者名称相同,计算合作网络相似度,相似度为:
[0227]
[0228] 步骤五、计算作者引用网络相似度
[0229] 对于中文作者消歧后的所有中文数据,根据作者ID进行分组,一个作者可能会对应多篇文献,合并同一个作者的所有文献中的引用文献的作者,生成该作者的引用网络,即为P;
[0230] 对于英文作者消歧后的所有英文数据,根据作者ID进行分组,一个作者可能会对应多篇文章,合并同一个作者的所有文献中的引用文献的作者,生成该作者的引用网络,记为Q;
[0231] 若中文文献作者的姓名拼音与英文文献中作者名称相同,计算引用网络相似度,相似度为:
[0232]
[0233] 步骤六、计算作者发表文献内容相似度
[0234] 中文文献与英文文献要计算相似度需要将一种语言的文献翻译为另一种语言的文献,但在进行大篇幅翻译时无法保证翻译的准确性,因此本申请引入了微软学术研究主题来帮助进行相似度计算。微软学术研究主题是微软学术以上亿篇论文为基础,通过人工智能和自然语言处理等技术抽取出的技术名词,共计70多万个,利用谷歌翻译、维基百科对这些研究主题进行翻译,生成中文研究主题集,记为Topics_zh;英文研究主题集记为Topics_en;中英文研究主题集对应关系记为zh_To_en。
[0235] 包括以下步骤:
[0236] S1、计算中文文献的语义指纹,包括以下步骤:
[0237] (1)将中文作者消歧后的所有中文数据根据作者ID进行分组,一个作者可能会对应多篇文献,根据ID分组结果对同一个作者的所有文献分别进行摘要+标题+关键词合并,记为A1、A2、A3...;
[0238] (2)使用中文研究主题集Topic_zh分别对A1、A2、A3...进行匹配,分别获取其包含的中文研究主题和出现次数,生成“{中文研究主题+出现次数}数组”B1、B2、B3...;
[0239] (3)利用zh_To_en将B1、B2、B3...中的中文研究主题转为英文,生成“{英文研究主题+出现次数}数组”C1_zh_to_en、C2_zh_to_en、C3_zh_to_en...;
[0240] (4)对C1_zh_to_en、C2_zh_to_en、C3_zh_to_en...进行合并,相同的研究主题出现次数相加,取出现次数最多的10个研究主题,得到最终的“{英文研究主题+出现次数}数组”C_zh_to_en;该数组包含了该作者所有中文文献中出现次数最多的研究主题,具有非常强的代表性。
[0241] (5)使用SimHash计算C_zh_to_en的哈希值,得到中文文献的语义指纹,记为D_zh;
[0242] S2、计算英文文献的语义指纹,包括以下步骤:
[0243] (1)对于英文作者消歧后的所有英文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;根据作者ID分组结果,对同一个作者的所有文献分别进行摘要摘要+标题+关键词合并,记为A1′、A2′、A3′...;
[0244] (2)使用英文研究主题集Topic_en分别对A1′、A2′、A3′...进行匹配,分别获取到其包含的英文研究主题及其出现次数,生成“{英文研究主题+出现次数}数组”B1′、B2′、B3′...;
[0245] (3)对B1′、B2′、B3′...进行合并,相同的研究主题出现次数相加,取出现次数最多的10个研究主题,得到最终的“{英文研究主题+出现次数}数组”C_en;该数组包含了该作者所有英文文献中出现次数最多的研究主题,具有非常强的代表性。
[0246] (4)使用SimHash计算C_en的哈希值,得到英文文献的语义指纹,记为D_en;
[0247] 步骤三、计算D_zh、D_en的汉明距离,
[0248] 若D_zh、D_en汉明距离小于3则两篇文献内容相似;
[0249] 若D_zh、D_en汉明距离大于等于3则两篇文献内容不相似;
[0250] 汉明距离与相似度转换方式为:
[0251] 汉明距离=0,相似度=1;
[0252] 汉明距离=1,相似度=0.9;
[0253] 汉明距离=2,相似度=0.8;
[0254] 汉明距离>=3,相似度=0。
[0255] 步骤七、若中文文献作者拼音与英文文献作者名称相同,计算科研时长相似度,包括以下步骤:
[0256] S1、计算中文文献作者的科研时长:对于中文作者消歧后的所有中文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;根据作者ID分组结果,找到作者所有中文文献中发表时间最早的一篇,计算发表年份距当前年份的时间差,即为该作者的科研时长,记为R_zh;
[0257] S2、计算英文文献作者的科研时长:对于英文文献作者消歧后的所有英文数据,根据作者ID进行分组,一个作者可能会对应多篇文献;根据作者ID分组结果,找到作者所有英文文献中发表时间最早的一篇,计算发表年份距当前年份的时间差,即为该作者的科研时长,记为R_en;
[0258] S3、计算R_zh与R_en之间差值R_diff,并转换得到科研时长相似度,计算标准为:
[0259] R_diff=0,则相似度=1;
[0260] 1=
[0261] 3=
[0262] R_diff>4,则相似度=0。
[0263] 步骤八、判断中文文献作者和英文文献作者是否为同一人,判断标准为:
[0264] 若机构相似度大于等于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这四个相似度中有一个大于0.8,则认为是同一个人;
[0265] 若机构相似度小于0.9,则作者合作网络相似度、作者引用网络相似度、文献内容相似度、科研时长相似度这三个相似度中有两个及以上大于0.8,则认为是同一个人。
[0266] 步骤九、根据步骤一至八,同名作者的文献两两计算相似度、判断是否是同一个人,若为同一人则将中文文献作者ID修改为英文文献作者ID,对两两计算后的结果进行聚合,完成中英文作者姓名融合消歧。
[0267] 以上所述仅为本发明的较佳实施例,并不限制本发明,凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进,均应包含在本发明的保护范围之内。