一种学术社交网络的自动构建方法转让专利

申请号 : CN201210041731.1

文献号 : CN102646122B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王博弘田勇郭莉莎任远张炯

申请人 : 北京航空航天大学

摘要 :

本发明提供了一种学术社交网络的自动构建方法,该自动构建方法基于由个性化推荐系统,学术社交网络自动构建系统,会议作者动态实时推荐系统及权威学者代入交流系统组成的综合系统实现;系统建立的基础为一定数量的学术论文和会议信息的数据库,使用系统的用户分为权威学者和普通学者;个性化推荐系统启动时需要用户预先输入简单的兴趣信息,通过用户对推荐论文的反应来不断更新用户的兴趣模型;权威学者的兴趣模型直接由其已经被系统收录的所有论文综合生成;系统中的任意两个用户之间都可以计算兴趣模型的相似度;建立学术网络后系统会将网络中作者的最新论文或参与会议动态推荐给用户。

权利要求 :

1.一种学术社交网络的自动构建方法,该方法的构建步骤如下:

步骤(1)、自动构建方法基于由个性化推荐系统,学术社交网络自动构建系统,会议作者动态实时推荐系统及权威学者代入交流系统组成的综合系统实现,用户在使用该综合系统前需要注册;

步骤(2)、该综合系统建立的基础为一定数量的学术论文和会议信息的数据库,该综合系统所有使用系统的用户可以被分为权威学者和普通学者两类,其中,在输出库中出现次数大于某一阈值Fn的学者被定义为权威学者,其余用户均为普通学者;对于普通学者,在完成学术圈的建立之前必须先通过个性化推荐系统收集研究领域兴趣信息,权威学者则可以有选择的使用个性化推荐系统;

步骤(3)、个性化推荐系统启动时需要用户预先输入简单的兴趣信息,通过用户对推荐论文的反应来不断更新用户的兴趣模型;其中,权威学者的兴趣模型直接由其已经被上述综合系统收录的所有论文综合生成;

步骤(4)、学术社交网络构建系统的实质工作为寻找学术社交网络构建系统的潜在用户与权威作者之间的联系;设学术社交网络的所有潜在用户构成集合P,上述综合系统中所有的权威学者构成集合Pf,其中, 则学术社交网络自动构建的目标为自动的确定集合R,R为集合P与集合Pf的笛卡尔积的子集;R中的一个有序偶代表学术社交网络的潜在用户a与权威作者b之间存在联系,即a,b两人的研究领域就较大的重合,可能具有更深一步交流与合作的空间;

步骤(5)、上述综合系统中的任意两个用户之间都可以计算兴趣模型的相似度,若用户A与权威作者B之间的相似度大于某一阈值 ,则有序偶属于用户A的联系集合RA;

步骤(6)、会议作者动态实时推荐系统定时的检查系统收录的各大会议及论文数据库的更新信息,设Ik为新发现的会议或论文信息,Auk为与此信息有关的权威作者集合,若存在用户A,使得A的联系网络中的权威作者集合与Auk存在交集,则将信息Ik推送至用户A处,完成信息的实时获取;

步骤(7)、当权威学者A注册使用所建立的学术社交网络后,首先遍历系统中所有其他用户已经建立的学术网络,若A处于用于B所建立的社交网络中,则系统会提示A有学者B的存在,并为两者建立相应的交流途径。

说明书 :

一种学术社交网络的自动构建方法

技术领域

[0001] 本发明属于网络技术中的社交网络服务与数据挖掘的技术领域,具体涉及一种学术社交网络的自动构建方法,该方法涉及个性化推荐,社交网络自动构建,自然语言处理技术。

背景技术

[0002] 社交网络及社交网络服务,主要作用是为一群拥有相同兴趣与活动的人创建在线社区。这类服务往往是基于互联网,为用户提供各种联系、交流的交互通路,如电子邮件、实时消息服务等。现在国内外较为流行的Facebook,人人网等都是较为典型的社交网络服务网站。
[0003] 现阶段流行的社交网络服务针对用户的吸引主要集中于两点:其一是社交网络可以发现和复制在现实生活中人与人之间的联系,其二是针对人与人之间的联系社交网络服务提了多种多样的交流途径,从而为人们之间的交流带来了极大的便利。更进一步的归纳,上述的第一点,即社交网络对联系的建立和发现,是社交网络获得成功的最坚实的基础。
[0004] 现阶段成熟运行的社交网络服务网站中,针对联系的建立都是基于注册和主动的。即用户与之建立联系的对象必须也使用了同样的社交网络服务,并且和其他用户的联系是由用户主动建立的。但事实交网络中的联系是客观存在与现实世界中的,如果能够实现某种社交网络联系自动构建的机制将无疑会给用户带来更加良好的体验。针对这一目标计算机服务届的多个公司都已经有过尝试。例如Google在发布微博社交网络Buzz是曾宣传:基于Gmail以及其他服务显示出的通信记录,采用一些算法将用户联系起来,该网络已经自动生成了。然而Google的用户对于已经建立的社交网络并不感到十分满意,并对网络中被误读而建立的社交关系反应强烈,这迫使Google降低了Buzz中社交网络的自动生成程度,将更大的建立联系的权利交还给用户。
[0005] Google的尝试鲜明的体现出了社交网络自动构建中存在的问题:即现实生活中复杂的人际关系很难从通讯记录等简单的数据中挖掘得出,并且用户有时面对过于精细的自动构建社交网络时会感到自己的隐私受到了侵犯。这些问题在论文“Inferring relevant social networks from interpersonal communication”(World Wide Web Conference Series-WWW,pp.301-310,2010)中有较为详细的叙述。
[0006] 本发明针对社交网络自动构建方面现阶段存在的问题,选择学术圈中的关系网络作为一个切入点,给出了一个结合了论文推荐与论文搜索系统的学术社交网络自动构建方法。现阶段网络中已经存在了一些“类”学术社交网络自动构建系统,例如MicroSoft Academic Search中的Co-author Graph及Co-author Path功能。但类似的“类”学术社交网络都存在一个明显的缺陷,即只能为研究领域中已经发表了一定数量论文的知名学者建立联系网络,而无法为随时可以新注册的普通用户或普通研究者构建学术网络。这一缺点大大的限制了这类学术网络的应用范围,也使其失去了部分社交网络的特性。
[0007] 本发明中的方法克服了学术社交网络只能针对权威学者以及社交网络参与对象必须在社交网络服务商处注册的两大缺点,提出了一个全新的学术社交网络构建方案。

发明内容

[0008] 相比于基于人际圈的社交网络,学术领域的社交网络中人与人之间的关系较为单一,可以简单的概括为研究领域的相关或重合,这种关系也可以简单的由论文发表这一明确的标准确定。因此学术社交网络的自动构建的目标就是找出所有的潜在使用者,也就是某个领域的学者之间研究领域相关或者重合的关系。本发明针对社交网络自动构建方面现阶段存在的问题,选择学术圈中的关系网络作为一个切入点,给出了一个结合了论文推荐与论文搜索系统的学术社交网络自动构建方法。
[0009] 本发明所提出的自动构建方法由以下几部分组成:
[0010] 1.个性化论文推荐系统
[0011] 2.学术社交网络自动构建系统
[0012] 3.会议,作者动态实时推送系统
[0013] 4.权威作者代入交流系统
[0014] 各个系统的详细功能如下所述:
[0015] 个性化的论文推荐系统:
[0016] 为了便于后文的叙述,这里先给出本发明所实现的系统的两大类使用者:权威学者和普通学者。
[0017] 权威学者是指在某一领域已经有一定数量较为有影响力的论文发表的学者,这类用户的研究领域兴趣模型在用户没有使用系统前就可以计算得出,用户在使用系统时只需将自己的学者身份与系统中的学者身份匹配带入即可。
[0018] 普通学者是权威学者之外所有学术社交网络的潜在使用者。这类用户在完成学术社交网络的自动构建之前必须先通过使用论文推荐系统来建立自己领域的兴趣模型,具体的使用模型如图1所示。
[0019] 论文推荐系统的目的是获取用户对于所推荐的论文的兴趣信息,从而确定用户研究领域的兴趣模型。用户研究领域的个性化兴趣模型是本发明中进行学术网络构建的基础。
[0020] 学术社交网络自动构建系统:
[0021] 学术社交网络构建系统的实质工作为寻找系统的潜在用户与权威作者之间的联系。设学术社交网络的所有潜在使用者构成集合P,系统中所有的权威学者构成集合P∫(有成立),则学术社交网络自动构建的目标为自动的确定集合R,R为集合P与集合Pf的笛卡尔积的子集。R中的一个有序偶代表学术社交网络的潜在使用者a与权威作者b之间存在联系,即a,b两人的研究领域就较大的重合,可能具有更深一步交流与合作的空间。
[0022] 针对用户的不同类型,学术社交网络自动构建系统的运作方式也分为两种。对于权威学者,首先要根据系统收录其发表的全部论文归纳计算出其研究领域的兴趣模型。在得到权威学者的兴趣模型后,依次与系统内其他权威学者的兴趣模型进行相似度计算,当两名学者的相似度大于某一阈值Sn时,这两位学者就会在生成的学术社交网络中建立联系。
[0023] 而对于普通用户,也即是普通学者,学术社交网络自动构建系统使用个性化论文推荐系统得到的用户兴趣模型来完成网络的构建。具体的构建方法与权威学者相同。
[0024] 会议,作者动态实时推荐系统:
[0025] 在针对使用系统的某一个用户求得了R集合后,便已经找到了与之存在联系的学者集合,但是这对于学术社交网络的建立并不是足够的。因为在一般形式的社交网络中,所有处于网络中的用户都一定在此社交网络服务中中完成了注册,可以发布消息与完成实时交流。但是在本专利所叙述的学术网络中权威作者完全有可能并未注册系统,这时便需要系统实时爬取权威作者的新闻动态,如参加了某个国际会议,最新发表了某一篇论文等。并将这些动态信息实时的推送给系统的使用者,以真正实现社交网络在资讯获取上的便利。这边是本发明中会议、作者动态实时推荐系统的功能。
[0026] 权威学者代入交流系统:
[0027] 针对任何一名系统的潜在用户,按照本发明的方法为其所构建的学术网络中的人员全部为系统收录的权威学者,但是这些权威学者很可能并未在同一社交网络中注册。
[0028] 因此权威学者带入交流系统的作用为,如果一位权威作者注册使用了本发明所论述的系统,系统会将所有与之建立过联系的用户信息显示出来,并提供多种的交流途径,使研究方向的两名学者能够方便的进行交流。
[0029] 本发明可以采用如下技术方案实现:一种学术社交网络的自动构建方法,该方法的构建步骤如下:
[0030] 步骤(1)、自动构建方法基于由个性化推荐系统,学术社交网络自动构建系统,会议作者动态实时推荐系统及权威学者代入交流系统组成的综合系统实现,用户在使用该综合系统前需要注册;
[0031] 步骤(2)、该综合系统建立的基础为一定数量的学术论文和会议信息的数据库,该综合系统所有使用系统的用户可以被分为权威学者和普通学者两类,其中,在输出库中出现次数大于某一阈值Fn的学者被定义为权威学者,其余用户均为普通学者;对于普通学者,在完成学术圈的建立之前必须先通过个性化推荐系统收集研究领域兴趣信息,权威学者则可以有选择的使用个性化推荐系统;
[0032] 步骤(3)、个性化推荐系统启动时需要用户预先输入简单的兴趣信息,通过用户对推荐论文的反应来不断更新用户的兴趣模型;其中,权威学者的兴趣模型直接由其已经被上述综合系统收录的所有论文综合生成;
[0033] 步骤(4)、学术社交网络构建系统的实质工作为寻找系统的潜在用户与权威作者之间的联系;设学术社交网络的所有潜在用户构成集合P,上述综合系统中所有的权威学者构成集合Pf(有 成立),则学术社交网络自动构建的目标为自动的确定集合R,R为集合P与集合Pf的笛卡尔积的子集;R中的一个有序偶代表学术社交网络的潜在用户a与权威作者b之间存在联系,即a,b两人的研究领域就较大的重合,可能具有更深一步交流与合作的空间;
[0034] 步骤(5)、上述综合系统中的任意两个用户之间都可以计算兴趣模型的相似度,若用户A与权威作者B之间的相似度大于某一阈值 则有序偶属于用户A的联系集合RA;
[0035] 步骤(6)、会议作者动态实时推荐系统定时的检查系统收录的各大会议及论文数据库的更新信息,设Ik为新发现的会议或论文信息,Auk为与此信息有关的权威作者集合,若存在用户A,使得A的联系网络中的权威作者集合与Auk存在交集,则将信息Ik推送至用户A处,完成信息的实时获取;
[0036] 步骤(7)、当权威学者A注册使用本发明所建立的学术社交网络后,首先遍历系统中所有其他用户已经建立的学术网络,若A处于用于B所建立的社交网络中,则系统会提示A有学者B的存在,并为两者建立相应的交流途径。
[0037] 本发明和现有技术相比的优点在于:
[0038] 1、本发明克服了现有学术社交网络自动构建方法只能针对著名学者(已经在学术期刊和学术会议中有作品发表并具有一定声望的学者)的缺点,通过为综合系统中的所有用户建立独立的兴趣模型,使得综合系统中的所有注册用户都可以被纳入到学术社交网络的自动生成范围中。
[0039] 2、本发明克服了社交网络中的所有用户必须在社交网络服务商处注册的缺点,将综合系统中的用户分为了权威学者和普通学者两类(在输出库中出现次数大于某一阈值Fn的学者被定义为权威学者,其余用户均为普通学者),所有的普通学者在使用综合系统是必须先完成注册,而权威学者则可以通过在互联网中收集其发表论文及参与学术会议的动态信息来完成虚拟用户的建立。

附图说明

[0040] 图1为论文推荐系统使用流程。

具体实施方式

[0041] 本发明的具体实施例如下:
[0042] 1.个性化推荐系统
[0043] 首先对个性化论文推荐系统的具体实施方式进行叙述。个性化的推荐系统是近年来网络及数据挖掘领域的研究热点,较为成熟的推荐方法有内容过滤和协同过滤两种。由于论文的关键词特征较为容易采取,本发明中采用内容过滤作为个性化推荐系统的主要算法。
[0044] 1.1论文特征模型建立
[0045] 采用向量空间模型来表示系统中收录的论文特征。具体的形式如下:
[0046] 论文兴趣模型Up={kw1,kw2,kw3,..,kwn},其中kwi表示第i个特征项的权值,特征项的项数n为一个预先设定的常量值。基于学术领域的特点,为了提高推荐的精度,表示论文向量空间的N个特征项可以由人工输入得出并输入系统。
[0047] 对于模型中特征项权值的计算采用TF*IDF函数,函数的具体表达式为:
[0048]
[0049] 其中:Wi,j表示文件j中词语i的圈中,tfi,j表示词频,idft表示逆向文件频率,ni,j表示词语i在文件j中的频率,∑knk,j表示文件j中所有词语的总频率,|D|表示文件集合的总数目,|{d:ti∈d}|表示文件集合中包含词语i的文件的数目。由于论文的摘要中一般都会对论文的内容进行概括性的叙述,因此上述任意一个文件i的内容就是指系统中的第i篇论文的摘要的内容。
[0050] 1.2用户兴趣模型建立
[0051] 用户兴趣模型的表现形式与论文特征模型相同,均可以表示为Up={kw1,kw2,kw3,..,kwn},其中kwi表示第i个特征项的权值。根据用户类型的不同(包括普通用户和权威作者),用户模型的建立包括以下两种方式:
[0052] 普通用户兴趣模型建立:
[0053] 普通用户在注册系统时需给出2-5个领域名词作为自己的初始兴趣信息,系统在初始时会把这些领域名词当做一片虚拟论文的摘要进行处理,使用上上文中已经叙述的TD*IDF函数计算出模型中各个特征项的权值,从而得到普通用户的初始兴趣模型UpQ。
[0054] 权威学者兴趣模型建立:
[0055] 设待建立模型的学者为Ai,Ai在系统的数据库中共发表了Ni篇论文,这Ni篇论文构成了论文集合Si。则构建Ai研究领域兴趣模型的步骤如下:
[0056] (1)将Si中的所有论文标记为未使用,从中任取一片论文pk,将Ai的UiQ兴趣模型置为pk的特征模型,并且将pk标记为已使用。
[0057] (2)若Si中存在标记为未使用的论文pk,则执行UiQ=update(UiQ,Uk,1),并将pk标记为已使用,并执行步骤(2).若Si中的所有论文都已经标记为已使用,则算法结束,UiQ即为所求。其中Uk表示论文pk对应的兴趣模型,update表示兴趣更新算法。
[0058] 完成所有的步骤后UiQ即为所求。
[0059] Update兴趣模型更新算法:
[0060] 设update算法的三个参数为Ui,Uj和tag,其中Ui表示待更新的兴趣模型,Uj表示作为更新参数的兴趣模型,tag表示更新的效果标记,取值大于0时表示更新效果为正,小于0时表示更新效果为负。在每次执行update算法是,首先判断Uj中的特征词k是否已经存在于Ui中,即Ui中k的权值是否大于0,若大于0则执行下列更新公式:
[0061] Wi=Ori*(delta*tag+1)
[0062] 其中:Wi为本次更新后特征值i的权值,Ori为上文中特征值的权值计算公式,delta为一小常数,代表奖励因子。
[0063] 1.3模型相似度计算
[0064] 采用向量余弦值的相似度计算方法,具体的计算公式如下所示:
[0065]
[0066] 其中xi,yi分别代表模型X和模型Y中第i个特征值对应的权值。
[0067] 1.4论文推荐算法
[0068] 在要对用户A进行推荐时,首先计算A与系统中所有论文的相似度,选择相似度最高的M篇进行推荐。
[0069] 1.5用户兴趣模型更新
[0070] 当用户在论文推荐系统中对一片论文标记感兴趣或不感兴趣后均要对用户的兴趣模型进行更新。设用户的兴趣模型为Ui,被标记的论文的兴趣模型为Uj,则若用户对该论文感兴趣,应执行:
[0071] Ui=update(Ui,Uj,1)
[0072] 否则执行:
[0073] Ui=update(Ui,Uj,-1)
[0074] 2.学术社交网络自动构建系统
[0075] 对于用户A,设A的兴趣模型为Ua,则在构件时首先分别计算Ua与系统中所有权威学者的兴趣模型的相似度,若与权威学者B的兴趣模型Ub的相似度计算结果则在生成的学术社交网络中为其建立联系。其中 为社交网络的联系建立阈值,有初始值,也可以由用户自动进行调整。
[0076] 3.会议、作者动态实时推荐系统
[0077] 系统以1天为间隔,定时的检查系统收录的各大会议及论文数据库的更新信息,设Ik为新发现的会议或论文信息,Auk为与此信息有关的权威作者集合,若存在用户A,使得A的联系网络中的权威作者集合与Auk存在交集,则将信息Ik推送至用户A处,完成信息的实时获取。
[0078] 4.权威学者代入交流系统
[0079] 当权威学者A注册使用本发明所建立的学术社交网络后,首先遍历系统中所有其他用户已经建立的学术网络,若A处于用于B所建立的社交网络中,则系统会提示A有学者B的存在,并为两者建立相应的交流途径。
[0080] 本发明未详细阐述的部分属于本领域公知技术。