一种基于区域产业企业的三网产业图谱构建方法转让专利

申请号 : CN202110029149.2

文献号 : CN112784057B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 彭敏贾旭胡刚徐文杰

申请人 : 武汉大学

摘要 :

本发明提出了一种基于区域产业企业的三网产业图谱构建方法。本发明从官方网站获取投入产出信息、产业描述信息、行政区划关系和企业相关属性信息;从新闻网站获取新闻舆情数据;利用共现性和相似度算法分别对企业经营范围和专利信息进行计算,得到企业合作和竞争网络,将企业合作和竞争网络加权得到企业关联网络;根据投入产出表计算产业关联网络;根据行政区划关系计算区域关联网络;利用无监督方法计算企业到产业的映射;根据企业关联网络更新产业关联网络;利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱。本发明通过舆情信息,动态反应在企业关联网络中,并更新到产业关联网络,帮助决策部门更快捕捉区域产业发展变化。

权利要求 :

1.一种基于区域产业企业的三网产业图谱构建方法,其特征在于,包括以下步骤:步骤1:从官方网站获取最新投入产出信息,获得产业部门之间的投入产出表和产业描述信息;从官方网站获得行政区划关系;从官方网站获得企业相关属性信息;从新闻网站获取新闻舆情,获得新闻相关文本,企业相关属性信息包括企业名称、注册资金、企业地址、企业营业范围、企业专利;

步骤2:将企业经营范围使用共现性计算得到企业合作关联网络,将企业专利使用文本匹配算法计算得到企业竞争关联网络,将企业合作关联网络和企业竞争关联网络通过加权计算得到企业关联网络;

步骤3:根据投入产出表计算产业关联网络;

步骤4:根据行政区划关系使用企业地址信息计算区域关联网络;

步骤5:根据企业经营范围使用无监督分类方法计算企业到产业的映射;

步骤6:根据企业关联网络更新产业关联网络;

步骤7:利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱。

2.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤1所述投入产出表为:

Iij

1≤i≤N,1≤j≤N

其中,Iij表示第i个产业部门对第j个产业部门的投入,N表示产业总数;

步骤1所述产业部门描述信息为:Di

其中,Di表示第i个产业部门的描述信息;

步骤1所述行政区划关系记为A;

步骤1所述企业相关属性信息为:name capital address business patentC={C ,C ,C ,C ,C }name capital address business其中,C 表示企业名称,C 表示注册资金,C 表示企业地址,C 表示企业patent

经营范围,C 表示企业专利;

步骤1所述新闻舆情记为News。

3.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤2所述企业合作关联网络为cooperation;

cooperation中每个元素具体计算为:计算企业Cp和企业Cq共同所属的新闻舆情News条数m;

cooperationpq=mpq其中,cooperationpq表示企业Cp和企业Cq的合作关联关系;

步骤2所述企业竞争关联网络为competition;

competition中每个元素具体计算为:其中,competitionpq表示企业Cp和企业Cq的竞争关联关系,cossim(·)表示余弦相似度, 表示第p个企业的所有专利组成的词向量,计算为:其中 表示转换为词向量的函数;

步骤2所述企业合作关联网络和企业竞争关联网络加权计算得到企业关联网络为enterprise,enterprise中每个元素具体计算为:enterprisepq=αcooperationpq+βcompetitionpq其中,enterprisepq表示企业Cp和企业Cq的企业关联关系,α和β表示权重。

4.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤3所述根据投入产出表计算产业关联网络:对投入产出表I,利用里昂惕夫逆矩阵计算得出产业关联网络矩阵industry,其中industryij表示第i个产业部门对第j个产业部门之间的关联关系。

5.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤4所述根据行政区划关系使用企业地址信息计算区域关联网络:address

对行政区划关系A,结合企业地址C ,每个元素具体计算为:其中, 表示企业Cp的企业地址;

根据行政区划关系A能够确定企业所属省、市、区三级区域。

6.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤5所述根据企业经营范围使用无监督分类方法计算企业到产业的映射,即根据企业经营范围确定所属产业部门,具体计算为:使用余弦相似度方法计算第i个产业部门和第p个企业经营范围的相似度:其中 表示第p个企业的经营范围词向量, 表示第i个产业部门的所有描述信息的词向量,计算为:

其中,Di表示第i个产业部门的描述信息, 表示转换为词向量的函数;

取第p个企业经营范围与所有产业部门相似度最小的前K个,表示第p个企业所属的K个产业部门,即为企业到产业的映射,记为Cp∈I。

7.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤6所述根据企业关联网络更新产业关联网络为NET,NET中每个元素具体计算为:其中,NETij表示动态更新后的产业关联网络i产业部门对j产业部门的关联关系,α为权重系数,M表示企业总数,K表示每个企业与产业相似度前K个最小值,industryij表示第i个产业部门对第j个产业部门之间的关联关系, 表示第p个企业的注册资金,enterprisepq表示第p个企业与第q个企业之间的关联关系。

8.根据权利要求1所述的基于区域产业企业的三网产业图谱构建方法,其特征在于:步骤7所述利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱为G(A,NET,enterprise,θ),其中θ表示网络之间的关联关系,计算为:θ=(Cp∈A,Cp∈I,Ii∈A)其中,根据步骤5所述的企业到产业的映射,Cp∈A表示第p个企业所属区域,Cp∈I表示第p个企业所属的产业部门,Ii∈A表示第i个产业所属区域。

说明书 :

一种基于区域产业企业的三网产业图谱构建方法

技术领域

[0001] 本发明属于知识图谱技术领域,具体涉及一种基于区域产业企业的三网产业图谱构建方法。

背景技术

[0002] 近年来,区域产业的发展一直是国家的重点发展目标。目前国家的区域产业政策的发展主要依靠每5年发布一次的产业投入产出表和各地区的统计数据,基于投入产出数
据构建有向图,通过确定阈值以提取强关联关系并构建产业复杂网络,实现对区域产业关
联进行分析。这类方法可以较为准确的统计出各个地区的产业发展现状。
[0003] 然而,投入产出表所构建的产业关联,主要考虑了产业之间的投入产出关系,对相关企业之间的联系关注较少,每5年发布一次的报告,无法实时向政府部门提供决策依据。
同时,面临外界环境干扰的突发事件和快速发展的新兴产业,无法提供快速、准确的判断依
据。同时,现有产业关联趋势的判断,缺乏行之有效的计量方法,仅通过统计数据和管理经
验,无法进行经验推广。

发明内容

[0004] 本项目旨在帮助产业政策制定的决策部门,通过了解和预测区域产业的发展趋势,迅速捕获当前的产业发展形势,制定行之有效的产业发展政策。本发明基于企业和产业
已有的结构化、非结构化数据,形成了一套基于区域产业企业的产业图谱构建方法。本发明
同时克服了传统基于产业投入产出表方法更新缓慢、无法发现新兴产业发展、无法融入更
丰富企业信息的问题,提出了一种能够融合区域信息、产业信息和企业信息,能够为决策者
提供计量工具的产业图谱构建方法。
[0005] 本发明所采用的技术方案是:一种基于区域产业企业的三网产业图谱构建方法,其特征在于,包括以下步骤:
[0006] 步骤1:从官方网站获取最新投入产出信息,获得产业部门之间的投入产出表和产业描述信息;从官方网站获得行政区划关系;从官方网站获得企业相关属性信息;从新闻网
站获取新闻舆情,获得新闻相关文本,企业相关属性信息包括企业名称、注册资金、企业地
址、企业营业范围、企业专利;
[0007] 步骤2:将企业经营范围使用共现性计算得到企业合作关联网络,将企业专利使用文本匹配算法计算得到企业竞争关联网络,将企业合作关联网络和企业竞争关联网络通过
加权计算得到企业关联网络;
[0008] 步骤3:根据投入产出表计算产业关联网络;
[0009] 步骤4:根据行政区划关系使用企业地址信息计算区域关联网络;
[0010] 步骤5:根据企业经营范围使用无监督分类方法计算企业到产业的映射;
[0011] 步骤6:根据企业关联网络更新产业关联网络;
[0012] 步骤7:利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱;
[0013] 作为优选,步骤1所述投入产出表为:
[0014] Iij
[0015] 1≤i≤N,1≤j≤N
[0016] 其中,Iij表示第i个产业部门对第j个产业部门的投入,N表示产业总数;
[0017] 步骤1所述产业部门描述信息为:
[0018] Di
[0019] 其中,Di表示第i个产业部门的描述信息;
[0020] 步骤1所述行政区划关系记为A;
[0021] 步骤1所述企业相关属性信息为:
[0022] C={Cname,Ccapital,Caddress,Cbusiness,Cpatent}
[0023] 其中,Cname表示企业名称,Ccapital表示注册资金,Caddress表示企业地址,Cbusiness表示patent
企业经营范围,C 表示企业专利;
[0024] 步骤1所述新闻舆情记为News;
[0025] 作为优选,步骤2所述企业合作关联网络为cooperation;
[0026] cooperation中每个元素具体计算为:
[0027] 计算企业Cp和企业Cq共同所属的新闻舆情News条数m;
[0028] cooperationpq=mpq
[0029] 其中,cooperationpq表示企业Cp和企业Cq的合作关联关系;
[0030] 步骤2所述企业竞争关联网络为competition;
[0031] competition中每个元素具体计算为:
[0032]
[0033] 其中,competitionpq表示企业Cp和企业Cq的竞争关联关系,cossim(·)表示余弦相似度, 表示第p个企业的所有专利组成的词向量,计算为:
[0034]
[0035] 其中 表示转换为词向量的函数;
[0036] 步骤2所述企业合作关联网络和企业竞争关联网络加权计算得到企业关联网络为enterprise,enterprise中每个元素具体计算为:
[0037] enterprisepq=αcooperationpq+βcompetitionpq
[0038] 其中,enterprisepq表示企业Cp和企业Cq的企业关联关系,α和β表示权重;
[0039] 作为优选,步骤3所述根据投入产出表计算产业关联网络:
[0040] 对投入产出表I,利用里昂惕夫逆矩阵计算得出产业关联网络矩阵industry,其中industryij表示第i个产业部门对第j个产业部门之间的关联关系;
[0041] 作为优选,步骤4所述根据行政区划关系使用企业地址信息计算区域关联网络:
[0042] 对行政区划关系A,结合企业地址Caddress,每个元素具体计算为:
[0043]
[0044] 其中, 表示企业Cp的企业地址;
[0045] 根据行政区划关系A能够确定企业所属省、市、区三级区域;
[0046] 作为优选,步骤5所述根据企业经营范围使用无监督分类方法计算企业到产业的映射,即根据企业经营范围确定所属产业部门,具体计算为:
[0047] 使用余弦相似度方法计算第i个产业部门和第p个企业经营范围的相似度:
[0048]
[0049] 其中 表示第p个企业的经营范围词向量, 表示第i个产业部门的所有描述信息的词向量,计算为:
[0050]
[0051] 其中,Di表示第i个产业部门的描述信息, 表示转换为词向量的函数;
[0052] 取第p个企业经营范围与所有产业部门相似度最小的前K个,表示第p个企业所属的K个产业部门,即为企业到产业的映射,记为Cp∈I。
[0053] 作为优选,步骤6所述根据企业关联网络更新产业关联网络为NET,NET中每个元素具体计算为:
[0054]
[0055] 其中,NETij表示动态更新后的产业关联网络i产业部门对j产业部门的关联关系,α为权重系数,M表示企业总数,K表示每个企业与产业相似度前K个最小值,industryij表示第
i个产业部门对第j个产业部门之间的关联关系, 表示第p个企业的注册资金,
enterprisepq表示第p个企业与第q个企业之间的关联关系。
[0056] 作为优选,步骤7所述利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱为G(A,NET,enterprise,θ),其中θ表示网络之间的关联关系,计算为:
[0057] θ=(Cp∈A,Cp∈I,Ii∈A)
[0058] 其中,根据步骤5所述的企业到产业的映射,Cp∈A表示第p个企业所属区域,Cp∈I表示第p个企业所属的产业部门,Ii∈A表示第i个产业所属区域。
[0059] 本发明基于区域产业企业的三网产业图谱构建方法,利用产业投入产出表计算产业关联网络。利用行政区划代码数据,进行区域关联网络构建。根据企业的经营范围共现性
和专利文本相似度匹配,对企业合作关联和竞争关联计算,融合后得到企业关联网络。进一
步根据无监督分类算法,按照经营范围将企业映射到产业,实现产业关联网络的动态更新。
最终融合三网的产业图谱,能够更加清晰明确的反映出各个区域、各个产业,包括所属区
域、产业的企业的关联关系。当舆情中出现更多的新兴交叉领域和产业时,会动态反映在企
业之间的合作关联网络中,并映射到产业关联关系网络,使得决策部门能够更快的捕捉到
区域产业发展的变化趋势,为决策部门提供更好的政策理论和计量工具。

附图说明

[0060] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。
[0061] 图1为本发明实施例的流程图;

具体实施方式

[0062] 为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不
用于限定本发明。
[0063] 下面结合图1介绍本发明的具体实施方式。
[0064] 请见附图1,本发明提供了本发明所采用的技术方案是:一种基于区域产业企业的三网产业图谱构建方法,其特征在于,包括以下步骤:
[0065] 步骤1:从官方网站获取最新投入产出信息,获得产业部门之间的投入产出表和产业描述信息;从官方网站获得行政区划关系;从官方网站获得企业相关属性信息;从新闻网
站获取新闻舆情,获得新闻相关文本,企业相关属性信息包括企业名称、注册资金、企业地
址、企业营业范围、企业专利;
[0066] 步骤1所述投入产出表为:
[0067] Iij
[0068] 1≤i≤N,1≤j≤N
[0069] 其中,Iij表示第i个产业部门对第j个产业部门的投入,N表示产业总数,本实施例中N=149;
[0070] 步骤1所述产业部门描述信息为:
[0071] Di
[0072] 其中,Di表示第i个产业部门的描述信息;
[0073] 步骤1所述行政区划关系记为A;
[0074] 步骤1所述企业相关属性信息为:
[0075] C={Cname,Ccapital,Caddress,Cbusiness,Cpatent}
[0076] 其中,Cname表示企业名称,Ccapital表示注册资金,Caddress表示企业地址,Cbusiness表示patent
企业经营范围,C 表示企业专利;
[0077] 步骤1所述新闻舆情记为News;
[0078] 步骤2:将企业经营范围使用共现性计算得到企业合作关联网络,将企业专利使用文本匹配算法计算得到企业竞争关联网络,将企业合作关联网络和企业竞争关联网络通过
加权计算得到企业关联网络;
[0079] 步骤2所述企业合作关联网络为cooperation;
[0080] cooperation中每个元素具体计算为:
[0081] 计算企业Cp和企业Cq共同所属的新闻舆情News条数mpq;
[0082] cooperationpq=mpq
[0083] 其中,cooperationpq表示企业Cp和企业Cq的合作关联关系;
[0084] 步骤2所述企业竞争关联网络为competition;
[0085] competition中每个元素具体计算为:
[0086]
[0087] 其中,competitionpq表示企业Cp和企业Cq的竞争关联关系,cossim(·)表示余弦相似度, 表示第p个企业的所有专利组成的词向量,计算为:
[0088]
[0089] 其中 表示转换为词向量的函数;
[0090] 步骤2所述企业合作关联网络和企业竞争关联网络加权计算得到企业关联网络为enterprise,enterprise中每个元素具体计算为:
[0091] enterprisepq=αcooperationpq+βcompetitionpq
[0092] 其中,enterprisepq表示企业Cp和企业Cq的企业关联关系,α和β表示权重,与合作和竞争网络中的平均值成正相关,合作网络的平均值计算公式为:
[0093]
[0094] 竞争网络中的平均值计算公式为:
[0095]
[0096] count(C)表示企业总数;
[0097] 步骤3:根据投入产出表计算产业关联网络;
[0098] 步骤3所述根据投入产出表计算产业关联网络:
[0099] 对投入产出表I,利用里昂惕夫逆矩阵计算得出产业关联网络矩阵industry,其中industryij表示第i个产业部门对第j个产业部门之间的关联关系;
[0100] 步骤4:根据行政区划关系使用企业地址信息计算区域关联网络;
[0101] 步骤4所述根据行政区划关系使用企业地址信息计算区域关联网络:
[0102] 对行政区划关系A,结合企业地址Caddress,每个元素具体计算为:
[0103]
[0104] 其中, 表示企业Cp的企业地址;
[0105] 根据行政区划关系A能够确定企业所属省、市、区三级区域;
[0106] 步骤5:根据企业经营范围使用无监督分类方法计算企业到产业的映射;
[0107] 步骤5所述根据企业经营范围使用无监督分类方法计算企业到产业的映射,即根据企业经营范围确定所属产业部门,具体计算为:
[0108] 使用余弦相似度方法计算第i个产业部门和第p个企业经营范围的相似度:
[0109]
[0110] 其中 表示第p个企业的经营范围词向量, 表示第i个产业部门的所有描述信息的词向量,计算为:
[0111]
[0112] 其中,Di表示第i个产业部门的描述信息, 表示转换为词向量的函数;
[0113] 取第p个企业经营范围与所有产业部门相似度最小的前K个,其中K=3,表示第p个企业所属的K个产业部门,即为企业到产业的映射,记为Cp∈I。
[0114] 步骤6:根据企业关联网络更新产业关联网络;
[0115] 步骤6所述根据企业关联网络更新产业关联网络为NET,NET中每个元素具体计算为:
[0116]
[0117] 其中,NETij表示动态更新后的产业关联网络i产业部门对j产业部门的关联关系,α为权重系数,M表示企业总数,K表示每个企业与产业相似度前K个最小值,industryij表示第
i个产业部门对第j个产业部门之间的关联关系, 表示第p个企业的注册资金,
enterprisepq表示第p个企业与第q个企业之间的关联关系。
[0118] 步骤7:利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱;
[0119] 步骤7所述利用区域关联网络、产业关联网络和企业关联网络形成三网产业图谱为G(A,NET,enterprise,θ),其中θ表示网络之间的关联关系,计算为:
[0120] θ=(Cp∈A,Cp∈I,Ii∈A)
[0121] 其中,根据步骤5所述的企业到产业的映射,Cp∈A表示第p个企业所属区域,Cp∈I表示第p个企业所属的产业部门,Ii∈A表示第i个产业所属区域。
[0122] 应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0123] 应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权
利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发
明的请求保护范围应以所附权利要求为准。