会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 请求书 / 保护类型 / 专利 / 一种专利查重的关联论文查询方法

一种专利查重的关联论文查询方法

阅读:757发布:2021-02-28

IPRDB可以提供一种专利查重的关联论文查询方法专利检索,专利查询,专利分析的服务。并且本发明公开了一种专利查重的关联论文查询方法,本发明针对当前专利审查面临的人工查询效率低下、需要具备较好的专业技能、审核意见主观性强的现实情况,通过综合利用自然语言处理、文本挖掘等技术来研究专利与论文之间的关联性,从而提出了一种专利查重的关联论文查询方法,旨在以半自动化的方式实现专利查重过程中关联论文的查找。,下面是一种专利查重的关联论文查询方法专利的具体信息内容。

1.一种专利查重的关联论文查询方法,其特征在于,包括:

步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的排序靠前的K个元素TOP-K个关联论文作为关联论文集;

步骤2:通过关联论文集中关联论文和查询专利技术主题词集之间的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询。

2.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1包括如下步骤:步骤1.1:根据输入的查询专利或查询专利技术主题词集通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K作为关联专利集;

步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集;

步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度;

步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子;

步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集。

3.根据权利要求2所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.1包括如下步骤:步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;

步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用词频-逆向文件频率TF-IDF对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;词频-逆向文件频率TF-IDF的公式解释如下:公式的TFi,j为专利技术主题词ti在专利dj中的词频,公式的ni,j为专利技术主题词ti在专利dj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和;

D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,词频-逆向文件频率TF-IDF的计算公式如下:TF-IDFi,j=TFi,j×IDFi

步骤1.1.3:通过余弦相似度公式cosine计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度较高的TOP-K专利,形成关联专利集,余弦公式如下:其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。

4.根据权利要求2所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.3包括如下步骤:步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用词频-逆向文件频率TF-IDF对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp;

步骤1.3.2:通过余弦相似度公式cosine计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论文的论文概念术语集WSnpp之间的文本相似关联度,并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为其中, 表示关联专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集。

5.根据权利要求2所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.4包括如下步骤:步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};

步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};

步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合

Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};

步骤1.4.4:计算关联专利与对应的专利候选论文之间的关联影响因子τ,其计算公式如下:τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Paper(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值;

步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集。

6.根据权利要求2所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤1.5包括如下步骤:步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得, 表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;pti表示关联专利集中的第i件专利,而pp1、pp2...ppn则表示关联专利集中pti专利相应的专利候选论文集;

步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K的专利候选论文集中的候选论文作为该关联专利的关联论文集。

7.根据权利要求1所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2包括如下步骤:步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集;

步骤2.2:将论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。

8.根据权利要求5所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2.1包括如下步骤:步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论

文的候选论文检索概念术语集,计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度。下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:simk(A,B)=ρP(A→B)+(1-ρ)P(B→A)

其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值;

条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值;

步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概

念术语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...,ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概念术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文检索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度;

步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5;

步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。

9.根据权利要求5所述的一种专利查重的关联论文查询方法,其特征在于,所述的步骤2.2包括如下步骤:步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K的论文组成此轮扩展查询结果集;

步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。

说明书全文

一种专利查重的关联论文查询方法

技术领域

[0001] 本发明属于数据管理领域,涉及一种专利查重的关联论文查询方法,尤其涉及关联专利提取、专利发明人-论文作者关联论文提取、基于关联论文的专利扩展词的提取以及实施相应的扩展查询。

背景技术

[0002] 专利文献是一种受法律保护的特殊文献,这就导致了多数专利撰写人在撰写专利时大量使用上位词和复杂的词语组合来保护其发明的技术,这种现象在一定程度上使得计算专利之间、专利和论文之间的相似度变得相对困难。为了还原专利的技术关键词,使之能够成功用于论文的查询检索,一般需要对输入的查询专利技术主题词集进行相应的扩展。目前,针对专利查询的扩展技术主要有基于查询结果反馈和领域分类技术词库两种专利扩展查询方法。
[0003] 基于查询结果反馈的专利扩展查询方法,是一种基于迭代方法从前一次查询结果中抽取相应的技术主题词用于第二轮的扩展查询,只有当查询结果符合一定的查询条件,方可中止该专利的查询,并向用户反馈最终的查询结果。该方法实现了专利的扩展查询,丰富了查询语义,但是,该方法存在明显的不足,一个是查询周期一般比较长,在全局范围内很难实现即时的查询,另一个不足则是查询的参数设置在很大程度上影响着查询结果,即迭代不一定是收敛的,造成了较低的文献准确率。
[0004] 基于领域分类技术词库的专利扩展查询方法,该方法一般借助于专利分类的IPC描述信息或者各种信息资源库(例如Free Base、Wikipedia等等)来实现对输入的查询专利技术主题词集进行扩展查询。这种方法最大的亮点则是借助了知识库来实现专利的扩展查询,具有较高的准确性,但是,由于知识库反应的是既定之事实,不可能体现最新的技术融合方向,使的该方法在信息扩展广度上存在较大的不足,造成了较低的相关文献的召回率,这严重影响了专利查询的查全率。

发明内容

[0005] 为了解决上述的技术问题,本发明提出了一种专利查重的关联论文查询方法。
[0006] 本发明所采用的技术方案是:一种专利查重的关联论文查询方法,包括:
[0007] 步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的排序靠前的K个元素TOP-K个关联论文作为关联论文集;
[0008] 步骤2:通过关联论文集中关联论文和查询专利技术主题词集之间的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询。
[0009] 进一步的,所述的步骤1包括如下步骤:
[0010] 步骤1.1:根据输入的查询专利或查询专利技术主题词集通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K作为关联专利集;
[0011] 步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集;
[0012] 步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度;
[0013] 步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子;
[0014] 步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集。
[0015] 进一步的,所述的步骤1.1包括如下步骤:
[0016] 步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;
[0017] 步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用词频-逆向文件频率TF-IDF对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;词频-逆向文件频率TF-IDF的公式解释如下:
[0018]
[0019] 公式的TFi,j为专利技术主题词ti在专利dj中的词频,公式的ni,j为专利技术主题词ti在专利dj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和;
[0020]
[0021] D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,词频-逆向文件频率TF-IDF的计算公式如下:
[0022] TF-IDFi,j=TFi,j×IDFi
[0023] 步骤1.1.3:通过余弦相似度公式cosine计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度较高的TOP-K专利,形成关联专利集,余弦公式如下:
[0024]
[0025] 其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。
[0026] 进一步的,所述的步骤1.3包括如下步骤:
[0027] 步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用词频-逆向文件频率TF-IDF对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp;
[0028] 步骤1.3.2:通过余弦相似度公式cosine计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论文的论文概念术语集WSnpp之间的文本相似关联度,并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为 其中, 表示关联专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
[0029] 进一步的,所述的步骤1.4包括如下步骤:
[0030] 步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};
[0031] 步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};
[0032] 步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};
[0033] 步骤1.4.4:计算关联专利与对应的专利候选论文之间的关联影响因子τ,其计算公式如下:
[0034] τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))
[0035] 其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值;
[0036] 步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
[0037] 进一步的,所述的步骤1.5包括如下步骤:
[0038] 步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得, 表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集;
[0039] 步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K的专利候选论文集中的候选论文作为该关联专利的关联论文集。
[0040] 进一步的,所述的步骤2包括如下步骤:
[0041] 步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集;
[0042] 步骤2.2:将论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。
[0043] 进一步的,所述的步骤2.1包括如下步骤:
[0044] 步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论文的候选论文检索概念术语集,计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度。下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:
[0045] simk(A,B)=ρP(A→B)+(1-ρ)P(B→A)
[0046] 其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:
[0047]
[0048] 条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值;
[0049]
[0050] 条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值;
[0051] 步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概念术语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概
念术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文检索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度;
[0052] 步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5;
[0053] 步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。
[0054] 进一步的,所述的步骤2.2包括如下步骤:
[0055] 步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K的论文组成此轮扩展查询结果集;
[0056] 步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。
[0057] 本发明的有益效果是:本发明针对当前专利审查面临的人工查询效率低下、需要具备较好的专业技能、审核意见主观性强的现实情况,通过综合利用自然语言处理、文本挖掘等技术来研究专利与论文之间的关联性,从而提出了一种专利查重的关联论文查询方法,旨在以半自动化的方式实现专利查重过程中关联论文的查找。

附图说明

[0058] 图1:本发明的流程图;
[0059] 图2:本发明的扩展阶段示意图;
[0060] 图3:本发明的查询阶段示意图。

具体实施方式

[0061] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0062] 请见图1,本发明提供了一种专利查重的关联论文查询方法,是基于发明人、作者合作网络的专利扩展查询关联论文的方法;整个扩展查询过程区分为扩展和查询两个阶段,在扩展阶段,根据查询专利技术主题词集获得关联专利集,借助专利发明人-论文作者纽带获取候选论文集,综合文本相似性和关联影响因子而形成关联因子,获取关联因子较高的TOP-K(排序前K个元素)论文作为关联论文集。在查询阶段,根据扩展得到的关联论文,提取出相应的候选论文检索概念术语集,通过分析候选论文检索概念术语集与查询专利技术主题词集的关联性,挖掘出用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的检索。该方法实现了专利的自由扩展,保证了专利扩展查询的有效性和稳定性。一种专利查重的关联论文查询方法,包括以下步骤:
[0063] 扩展阶段如图2所示:
[0064] 步骤1:从查询专利中抽取技术主题词形成查询专利技术主题词集,进行专利检索,获取关联专利集,对通过专利发明人-论文作者获取的候选论文集进行关联因子计算,获取具有较高关联因子的关联论文集。
[0065] 步骤1.1:根据输入的查询专利或查询专利技术主题词集(下面统称为“查询专利技术主题词集”)通过相似性查询,检索出与之相关的初始检索专利集,对其按照文本相似度进行排序,取排序结果相似度较高的Top-K(排序前K个元素)作为关联专利集。
[0066] 步骤1.1.1:在专利数据库中,利用查询专利技术主题词集WSopat进行检索得到初始检索专利集PSpat;
[0067] 步骤1.1.2:对于步骤1.1.1得到的初始检索专利集PSpat,采用TF-IDF(词频-逆向文件频率)对每一件专利进行专利技术主题词的提取,得到该专利技术主题词集WSnpat;TF-IDF(词频-逆向文件频率)的公式解释如下:
[0068]
[0069] 公式左边的TFi,j为专利技术主题词ti在专利dj中的词频,公式右边的ni,j为专利技术主题词ti在专利dj中出现的次数,右边的分母则表示专利dj中所有专利技术主题词出现的次数总和。
[0070]
[0071] D表示专利的总数目,{j:ti∈dj}表示包含专利技术主题词ti的专利数目,TF表示专利技术主题词相对于某一件特定专利的权重,而IDF则表示专利技术主题词相对于所有专利的权重,因此,TF-IDF(词频-逆向文件频率)的计算公式如下:
[0072] TF-IDFi,j=TFi,j×IDFi
[0073] 步骤1.1.3:通过余弦相似度公式(cosine)计算查询专利技术主题词集WSopat与初始检索专利集的每一件专利技术主题词集WSnpat的文本相似关联度,取文本相似关联度较高的TOP-K(排序前K个元素)专利,形成关联专利集,余弦公式如下:
[0074]
[0075] 其中,wopat(k)和wnpat(k)分别表示专利技术主题词k在查询专利技术主题词集WSopat和初始检索专利技术主题词集WSnpat中的权重。
[0076] 步骤1.2:对于步骤1.1得到的关联专利集的每条专利,提取出专利发明人,从论文数据库中查找该专利发明人以作者身份发表过的论文,组成该专利的候选论文集。
[0077] 步骤1.3:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的文本相似关联度。
[0078] 步骤1.3.1:对于步骤1.2获取的专利候选论文集,采用TF-IDF(词频-逆向文件频率)对每一篇论文进行论文概念术语的提取,得到该论文的论文概念术语集WSnpp。
[0079] 步骤1.3.2:通过余弦相似度公式(cosine)计算关联专利集中的每一件专利的专利技术主题词集WSnpat和对应的专利候选论文集中的每一篇论
文的论文概念术语集WSnpp之间的文本相似关联度(余弦公式与步骤1.1.3类
似),并形成关联专利集与相应的专利候选论文集之间的文本相似度序列,记为
其中, 表示关联
专利集中第i件专利与相应的专利候选论文集之间的文本相似度序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
[0080] 步骤1.4:计算步骤1.1获得的关联专利集与步骤1.2获得的专利候选论文集之间的关联影响因子。
[0081] 步骤1.4.1:对于步骤1.1获得的关联专利集中的每一件专利x形成该专利的发明人集合,记为Inventorx={in1,in2,in3,...,inn};
[0082] 步骤1.4.2:对于步骤1.2确定的专利候选论文集中的每一篇论文y形成该论文的作者集合,记为Authory={au1,au2,au3...,aum};
[0083] 步骤1.4.3:对于步骤1.4.1提取的关联专利集中每一件专利x的发明人集合Inventorx与步骤1.4.2提取的关联专利对应的专利候选论文集中的论文作者集合Authory的交集,记为IN_AU(x,y)={z∈Inventorx∩Authory};
[0084] 步骤1.4.4:计算关联专利 与对应的专利候选论文 之间的关联影响因子τ,其计算公式如下:
[0085] τ(IN_AU(x,y))=1-Patent(IN_AU(x,y))×Paper(IN_AU(x,y))
[0086] 其中,Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为专利发明人发表的专利数目与以Inventorx为专利发明人发表的专利数目的比值,而Patent(IN_AU(x,y))表示以发明人-作者集合IN_AU(x,y)为论文作者发表的论文数目与以Authory为论文作者发表的论文数目的比值。
[0087] 步骤1.4.5:由步骤1.4.4计算关联专利集中的每一专利与关联专利对应的专利候选论文集之间的关联影响因子,并形成相应的关联影响因子序列,记为τ_pti={τ1(pti,pp1),τ2(pti,pp2),τ3(pti,pp3),...,τn(pti,ppn)},其中,τ_pti表示关联专利集中的第i件专利与相应的专利候选论文集之间的关联影响因子序列,pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
[0088] 步骤1.5:通过将步骤1.3获得的文本相似关联度与步骤1.4获得的关联影响因子相结合计算最终的关联因子,确定最终的关联论文集。
[0089] 步骤1.5.1:根据步骤1.3与步骤1.4获得的关联专利与对应专利候选论文集之间的文本相似关联度序列与关联影响因子序列来计算关联专利与对应专利候选论文集之间的关联因子,记为μ_pti={μ1(pti,pp1),μ2(pti,pp2),μ3(pti,pp3),...,μn(pti,ppn)},其中,μj(pti,ppj)由下式计算所得, 表示关联专利集中的第i件专利与相应的专利候选论文集中的第j篇论文之间的关联因子;
pti表示关联专利集中的第i件专利,而pp1、pp2…ppn则表示关联专利集中pti专利相应的专利候选论文集。
[0090] 步骤1.5.2:对于关联专利集中的每一专利所对应的专利候选论文集,选取步骤1.5.1获得的关联因子较高的前TOP-K(排序前K个元素)的专利候选论文集中的候选论文作为该关联专利的关联论文集。
[0091] 查询如图2所示:
[0092] 步骤2:通过关联论文集中关联论文和查询专利技术主题词集的关联性,从关联论文集中挖掘用于检索论文的论文检索概念术语集,并利用该检索概念术语集进行论文的查询。
[0093] 步骤2.1:根据步骤1.5获得的关联论文集与查询专利技术主题词集获得关联强度,选取关联强度较高的TOP-K个候选论文检索概念术语集作为最终的论文检索概念术语集。
[0094] 步骤2.1.1:关联专利的关联论文集中的每一篇论文提取的概念术语组成该论文的候选论文检索概念术语集。计算候选论文检索概念术语集中的第i个术语ppki与查询专利技术主题词集pt_kw={ptk1,ptk2,...,ptkn}之间的关联强度,记为其中,count(pt_kw)表示查询专利技术主题词集的规模,而simk(ppki,ptkj)表示第i个候选论文检索概念术语词ppki与第j个查询专利技术主题词ptkj之间的关联度。下面给出simk的形式化的定义,simk(A,B)表示关键词A和关键词B之间的关联度,其计算公式如下所示:
[0095] simk(A,B)=ρP(A→B)+(1-ρ)P(B→A)
[0096] 其中,系数ρ的设定取决于对关键词A和关键词B重要程度的考虑,在权重均等的情况下其值设为0.5,而P(A→B)表示关键词A对关键词B的依赖程度,P(B→A)表示关键词B对关键词A的依赖程度,可分别由下面公式计算得到:
[0097]
[0098] 条件概率p(B|A)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词A的文档数目的比值。
[0099]
[0100] 条件概率p(A|B)表示一个文档集合中,同时出现关键词A和B的文档数目与出现关键词B的文档数目的比值。
[0101] 步骤2.1.2:计算第i个候选论文检索概念术语词ppki与其他候选论文检索概念术语集pp_kw={ppk1,ppk2,...ppki-1,ppki+1,...ppkn}之间的关联强度,记为其中,count(pp_kw)-1表示除了候选论文检索概
念术语词ppki的候选论文检索概念术语集的规模,而simk(ppki,ppkj)表示第i个候选论文检索概念术语词ppki与第j个候选论文检索概念术语词ppkj之间的关联度。
[0102] 步骤2.1.3:基于步骤2.1.1与步骤2.1.2来计算第i个候选论文检索概念术语词ppki(ppki∈pp_kw)的扩展概率,即选择候选关键词ppki为论文检索概念术语集的概率,记为choose(ppki)=γSIM_P(ppki)+(1-γ)SIM_C(ppki),其中,γ为SIM_P与SIM_C的平衡因子,其值取决于对两者重要程度的考虑,在均等对待的情况下取值为0.5。
[0103] 步骤2.1.4:基于步骤2.1.3计算获得的候选论文检索概念术语词的扩展概率,选取具有前Top-K(排序前K个元素)扩展概率的候选论文检索概念术语词组成最终的论文检索概念术语集。
[0104] 步骤2.2:将步骤2.1.4获得的论文检索概念术语集与查询专利技术主题词集组合,进行专利关联论文的扩展检索。
[0105] 步骤2.2.1:循环完成专利关联论文的扩展查询,在每一轮循环中,不重合的选取论文检索概念术语集中的一组扩展词与查询专利技术主题词集组成查询关键词集合来完成专利扩展关联论文的查询,并选取相似度较高的TOP-K(排序前K个元素)的论文组成此轮扩展查询结果集。
[0106] 步骤2.2.2:依据扩展词扩展概率的次序对所有的扩展查询结果集进行排序,并形成相应的论文查询结果反馈给用户。
[0107] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0108] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用