基于相似企业的项目匹配方法、装置、设备及介质转让专利

申请号 : CN202310778173.5

文献号 : CN116523473B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘宪锋阳晓杨阿磊彭俊潘妮娜肖涛

申请人 : 湖南省拾牛网络科技有限公司

摘要 :

本申请涉及基于相似企业的项目匹配方法、装置、设备及介质,该方法通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,确定目标企业的相似企业,基于相似企业曾获政策项目输出目标企业的匹配项目推荐数据,大幅提高了项目匹配精准度。

权利要求 :

1.一种基于相似企业的项目匹配方法,其特征在于,包括步骤:

获取目标企业的名称对应的公开互联网数据并存入第一维度数组;

获取各官网上公布的各政策文件和各相关公示文件,解析各所述政策文件和各所述相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;

将所述第一维度数组和所述第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;

在所述高维特征空间中,对所述低维特征向量对应的高维新数据进行中心化处理,计算中心化后的所述高维新数据与所述高维特征空间的支持向量的内积差;

将所述内积差为负的所述高维新数据对应的企业剔除,将所述内积差为正的所述高维新数据对应的企业确定为所述目标企业的相似企业;

采集各所述相似企业的曾获政策项目并统计各所述相似企业获得各所述曾获政策项目的次数;

根据各所述相似企业获得各所述曾获政策项目的次数与各所述相似企业的总数,计算得到各所述曾获政策项目的推荐指数并输出为所述目标企业的匹配项目推荐数据。

2.根据权利要求1所述的基于相似企业的项目匹配方法,其特征在于,所述公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数、发明公布数、上市类型维度和招投标数据。

3.根据权利要求1或2所述的基于相似企业的项目匹配方法,其特征在于,数据归一化处理过程中采用的归一化方法包括最小‑最大规范化、Z‑score标准化、均值方差归一化、小数定标标准化或Log函数转换。

4.根据权利要求3所述的基于相似企业的项目匹配方法,其特征在于,所述核函数为RBF核函数。

5.根据权利要求3所述的基于相似企业的项目匹配方法,其特征在于,还包括步骤:根据所述相似企业利用协同过滤算法输出匹配所述目标企业的政策项目数据。

6.根据权利要求3所述的基于相似企业的项目匹配方法,其特征在于,还包括步骤:根据所述目标企业的推介文案,分别生成匹配于各所述相似企业的推介文案。

7.根据权利要求1所述的基于相似企业的项目匹配方法,其特征在于,所述方法还包括步骤:根据设定的星级分配区间,按照所述匹配项目推荐数据中各所述曾获政策项目的推荐指数从高到低的顺序,为各所述曾获政策项目分配推荐星级标签;

按照各所述曾获政策项目的推荐星级从高到低进行推荐输出。

8.一种基于相似企业的项目匹配装置,其特征在于,包括:

第一获取模块,用于获取目标企业的名称对应的公开互联网数据并存入第一维度数组;

第二获取模块,用于获取各官网上公布的各政策文件和各相关公示文件,解析各所述政策文件和各所述相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;

归一映射模块,用于将所述第一维度数组和所述第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;

得分计算模块,用于在所述高维特征空间中,对所述低维特征向量对应的高维新数据进行中心化处理,计算中心化后的所述高维新数据与所述高维特征空间的支持向量的内积差;

企业确定模块,用于将所述内积差为负的所述高维新数据对应的企业剔除,将所述内积差为正的所述高维新数据对应的企业确定为所述目标企业的相似企业;

项目采集模块,用于采集各所述相似企业的曾获政策项目并统计各所述相似企业获得各所述曾获政策项目的次数;

匹配输出模块,用于根据各所述相似企业获得各所述曾获政策项目的次数与各所述相似企业的总数,计算得到各所述曾获政策项目的推荐指数并输出为所述目标企业的匹配项目推荐数据。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于相似企业的项目匹配方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于相似企业的项目匹配方法的步骤。

说明书 :

基于相似企业的项目匹配方法、装置、设备及介质

技术领域

[0001] 本发明属于大数据处理技术领域,涉及一种基于相似企业的项目匹配方法、装置、设备及介质。

背景技术

[0002] 随着互联网技术的发展,在互联网上的信息呈指数级增长,这无疑会增大获取准确有用信息的难度。在企业推荐领域,一些场景中需要根据一个企业名称来获取与其相似的一个或者多个企业,这就需要根据互联网上的企业相关信息进行相应的推荐。现有的企业推荐的相关技术中,通常是根据互联网上的公开信息(企业社保人数、工商注册、招投标等信息)或人工录入的企业信息(财务报表、经营信息等),来得到企业的特征信息,然后根据该特征信息基于推荐算法进行企业推荐。其中,“政策‑企业”的精准匹配是既是经济管理者的研究方向,也是企业战略分析的重要指标。目前通用的“政策‑企业”匹配方法是标签匹配,将政策解读内容进行标签化和图谱化处理,通过将企业的资质条件标签化形成企业画像并通过算法进行匹配。
[0003] 由于企业填写交付实际经营数据的意愿较低,在互联网上公开的企业信息有限且公开的企业信息也与企业实际经营情况存在出入。传统的标签匹配方法仍存在着项目匹配精准度不足的技术问题。

发明内容

[0004] 针对上述传统方法中存在的问题,本发明提出了一种基于相似企业的项目匹配方法、一种基于相似企业的项目匹配装置、一种计算机设备和一种计算机可读存储介质,能够大幅提高项目匹配精准度。
[0005] 为了实现上述目的,本发明实施例采用以下技术方案:
[0006] 一方面,提供一种基于相似企业的项目匹配方法,包括步骤:
[0007] 获取目标企业的名称对应的公开互联网数据并存入第一维度数组;
[0008] 获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;
[0009] 将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;
[0010] 在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;
[0011] 将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;
[0012] 采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;
[0013] 根据各相似企业对于各曾获政策项目的次数与各相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0014] 在其中一个实施例中,公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数、发明公布数、上市类型维度和招投标数据。
[0015] 在其中一个实施例中,数据归一化处理过程中采用的归一化方法包括最小‑最大规范化、Z‑score标准化、均值方差归一化、小数定标标准化或Log函数转换。
[0016] 在其中一个实施例中,核函数为RBF核函数。
[0017] 在其中一个实施例中,上述方法还包括步骤:
[0018] 根据相似企业利用协同过滤算法输出匹配目标企业的政策项目数据。
[0019] 在其中一个实施例中,上述方法还包括步骤:
[0020] 根据目标企业的推介文案,分别生成匹配于各相似企业的推介文案。
[0021] 在其中一个实施例中,上述方法还包括步骤:
[0022] 根据设定的星级分配区间,按照匹配项目推荐数据中各曾获政策项目的推荐指数从高到低的顺序,为各曾获政策项目分配推荐星级标签;
[0023] 按照各曾获政策项目的推荐星级从高到低进行推荐输出。
[0024] 另一方面,还提供一种基于相似企业的项目匹配装置,包括:
[0025] 第一获取模块,用于获取目标企业的名称对应的公开互联网数据并存入第一维度数组;
[0026] 第二获取模块,用于获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;
[0027] 归一映射模块,用于将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;
[0028] 得分计算模块,用于在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;
[0029] 企业确定模块,用于将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;
[0030] 项目采集模块,用于采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;
[0031] 匹配输出模块,用于根据各相似企业获得各曾获政策项目的次数与各所述相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0032] 又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述的基于相似企业的项目匹配方法的步骤。
[0033] 再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的基于相似企业的项目匹配方法的步骤。
[0034] 上述技术方案中的一个技术方案具有如下优点和有益效果:
[0035] 上述基于相似企业的项目匹配方法、装置、设备及介质,通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,剔除内积差为负的高维新数据对应的企业,输出排序后的目标企业的相似企业推荐数据,实现关于目标企业的企业推荐处理。最后,采集相似企业曾获得的曾获政策项目并基于此计算出各曾获政策项目的推荐指数,从而得到目标企业的匹配项目推荐数据。
[0036] 相比于传统方法,上述技术方案一方面将反向推导获得的企业具备的申报条件加入企业的特征信息,以有效丰富企业的特征信息,另一方面在数据分类预测过程中避免了直接计算高维新数据到高维特征空间中最优超平面的距离,而是直接使用支持向量来简化分类计算,又一方面基于相似企业来推荐目标企业也能匹配的政策项目,从而最终实现又快又准确的企业项目匹配推荐,达到了大幅提高企业项目匹配精准度的目的。

附图说明

[0037] 为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038] 图1为一个实施例中基于相似企业的项目匹配方法的流程示意图;
[0039] 图2为一个实施例中基于相似企业的项目匹配方法的一种应用流程示意图;
[0040] 图3为另一个实施例中基于相似企业的项目匹配方法的流程示意图;
[0041] 图4为又一个实施例中基于相似企业的项目匹配方法的流程示意图;
[0042] 图5为再一个实施例中基于相似企业的项目匹配方法的流程示意图;
[0043] 图6为一个实施例中基于相似企业的项目匹配装置的模块结构示意图。

具体实施方式

[0044] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0045] 除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
[0046] 需要说明的是,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。
[0047] 本领域技术人员可以理解,本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0048] 在本发明的研究设计中,发明人研究发现各个组织官网会公布企业申报政策支持的政策文件和该政策的相关公示文件,可通过解析政策文件和政策的相关公示文件,得出企业获得的政策项目(原理是政策文件可解析出申报条件的全部相关数据;政策文件对应的相关公示文件则可解析出获得该政策项目支持的企业名单);通过判断政策项目的要求条件,可反向推导出获得政策项目的企业具备的条件。将企业具备的条件加入企业的特征信息,可有效丰富企业的特征信息并用于有效提升企业推荐的准确性。例如:
[0049] 1、A企业在官网相关公示文件中获得了“国家企业技术中心”的认定。
[0050] 2、解析“国家企业技术中心”的政策申报条件得知:上年度研发费用大于等于1500万,员工人数大于等于300人等。
[0051] 3、从而推导获得:A企业上年度研发费用大于等于1500万,员工人数大与等于300人等特征信息。
[0052] 4、通过第3条获得了超出传统方法更多维度的特征信息,所以丰富了企业画像,进而可以提升企业推荐的准确性。
[0053] 下面将结合本发明实施例图中的附图,对本发明实施方式进行详细说明。
[0054] 请参阅图1,在一个实施例中,提供了一种基于相似企业的项目匹配方法,包括如下处理步骤S11至S17:
[0055] S11,获取目标企业的名称对应的公开互联网数据并存入第一维度数组。
[0056] 可以理解,目标企业可以但不限于是用户当前关注、想要查找或搜索的企业,或者想要获知能够申报哪些政策项目的待分析企业。公开互联网数据是指该目标企业公开在互联网上的企业相关公开信息,例如但不限于企业工商注册信息、所属行业信息、所属地区信息、企业参保人数信息和成立年限等,可以用于生成该目标企业的企业画像。
[0057] 具体的,企业推荐设备可以但不限于通过企业名称搜索采集、爬虫爬取、用户输入或上传等方式获取目标企业的名称所对应的公开互联网数据,然后可以将得到的公开互联网数据并存入预先配置好的第一维度数组,以便于后续的数据计算、分类处理等过程中处理算法能够进行快速调用。
[0058] S12,获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组。
[0059] 可以理解,各政策文件和各相关公示文件可以是各地区各部门的官网上公布、企业可申报政策支持的政策通知和政策相关公示文件。可以通过企业推荐设备解析政策文件和政策相关公示文件,获知政策公式文件中的企业所获得的政策项目。而且通过企业政策设备判断政策项目的申报条件,又可反向推导出获得政策项目的企业所具备的实际条件。将企业具备的实际条件加入到企业的特征信息中,可更有效地丰富企业的特征信息,以有效保证提升企业推荐的准确性。
[0060] 具体的,企业推荐设备可以但不限于通过官网搜索采集、爬虫爬取、用户输入或上传等方式获取各官网上公布的各政策文件和各相关公示文件,然后解析这些获取的文件,并可以将得到的企业名单及相应各政策项目的申报条件数据存入预先配置好的第二维度数组,以便于后续的数据计算、分类处理等过程中处理算法能够进行快速调用。
[0061] S13,将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中。
[0062] 可以理解,数据归一化是将数据缩放到特定范围内的处理过程,目的是消除不同特征之间的量纲差异,使得数据能更好地适应各种机器学习算法的处理,在本实施例中,通过采用数据归一化处理以形成各企业的各低维特征向量,每个低维特征向量包含多维的特征,其每个维度代表数据的一个样本特征,这些低维特征向量可以作为各企业的画像表达。在大数据领域中,不同的数据归一化方式适用于不同的数据情况,应此可以根据原始数据的类型和格式、机器学习算法的数据使用需要等,选择合适的现有数据归一化方式来进行上述的数据归一化处理,这也可以提高机器学习算法的精度和稳定性。
[0063] 对于支持向量机等机器学习算法中的非线性分类或回归问题,核函数是常用的函数工具,用于将低维数据映射到高维特征空间中,从而使得原本线性不可分的问题转变为线性可分的问题。在本实施例中,也采用了核函数来实现低维特征向量到高维特征空间的映射处理。
[0064] S14,在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差。
[0065] 可以理解,将原始数据通过核函数映射到了一个新的高维特征空间后,在这个新的高维特征空间中,就可以使用线性分类器(例如支持向量机)对数据进行分类。这样,即使原始数据在低维空间中是非线性可分的,也可以在高维特征空间中找到一个线性决策边界,也即构建一个最优分类超平面,使得高维特征空间中不同类别的数据点到超平面的距离最大化。
[0066] 具体的,在高维特征空间中求解最优分类超平面的一般过程可以是:计算特征空间中所有样本的平均值;分别对每个样本减去该平均值,得到中心化后的样本矩阵;求解该样本矩阵的协方差矩阵;求解该协方差矩阵的特征向量和特征值;选择特征值最大的特征向量作为超平面法向量;根据样本点到超平面的距离公式求解偏置参数;得到最终的最优分类超平面的表达式;利用该最优分类超平面对输入的数据样本进行分类。
[0067] 然后,由于实践研究中发明人发现在高维特征空间中,样本点到最优分类超平面的距离公式中,超平面法向量的模难以计算;而支持向量是最靠近最优分类超平面的数据点,它们到最优分类超平面的距离为1,对于任意输入的样本点,其到最优分类超平面的距离都可以简化为该样本点与支持向量的内积差;因此可以直接使用支持向量来简化分类计算过程,避免了直接计算高维新数据到最优分类超平面的距离。如此,使用支持向量机分类新数据的处理步骤就改进为:中心化高维新数据,计算高维新数据与支持向量的内积,计算内积差并判断内积差的正负,根据正负分类该高维新数据。
[0068] S15,将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业。
[0069] 具体的,把得分(也即内积差)为负数的相应企业剔除出相似企业的队列,正样本(也即内积差为正数的相应企业),也可以选择把正样本按得分的值从高到底排序得到目标企业的相似企业及各相似企业的相似度,即可作为匹配项目推荐数据输出,从而便于用户使用。
[0070] S16,采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数。
[0071] 可以理解,曾获政策项目是指各相似企业曾经获得过的政策项目,可以通过常用的爬虫工具来自动化采集各相似企业的曾获政策项目,经将采集的曾获政策项目数据存储到配置的项目数据库中备用。采集到各相似企业的曾获政策项目后,还可以按照项目类型来分组并统计相似企业分别获得每个曾获政策项目的次数,也即统计各相似企业获得各曾获政策项目的次数。
[0072] S17,根据各相似企业对于各曾获政策项目的次数与各相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0073] 具体的,统计得到各相似企业对于各曾获政策项目的次数后,即可以按照推荐指数计算公式计算出各曾获政策项目的推荐指数,例如每个曾获政策项目的推荐指数公式可以是:
[0074] 推荐指数=每个曾获政策项目的获得次数/相似企业总数 。
[0075] 其中,相似企业总数是指前述步骤获得的目标企业的所有相似企业的数量。最后,即可以将计算得到的各曾获政策项目的推荐指数输出,作为该目标企业的匹配项目推荐数据,实现向该目标企业推荐匹配的政策项目的目的。匹配项目推荐数据的输出数据格式可以但不限于数据表、相似企业地图或其他形式的文档,只要便于用户使用均可。
[0076] 上述基于相似企业的项目匹配方法,通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,剔除内积差为负的高维新数据对应的企业,输出排序后的目标企业的相似企业推荐数据,实现关于目标企业的企业推荐处理。最后,采集相似企业曾获得的曾获政策项目并基于此计算出各曾获政策项目的推荐指数,从而得到目标企业的匹配项目推荐数据。
[0077] 相比于传统方法,上述技术方案一方面将反向推导获得的企业具备的申报条件加入企业的特征信息,以有效丰富企业的特征信息,另一方面在数据分类预测过程中避免了直接计算高维新数据到高维特征空间中最优超平面的距离,而是直接使用支持向量来简化分类计算,又一方面基于相似企业来推荐目标企业也能匹配的政策项目,从而最终实现又快又准确的企业项目匹配推荐,达到了大幅提高企业项目匹配精准度的目的。同理类似,上述方法也可以用于向政策项目推荐目标企业。
[0078] 在一个实施例中,公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数、发明公布数、上市类型维度和招投标数据。因此低维特征向量也可以分别对应为企业历年的数据,例如可以包括从业人数、注册资金、实缴资本、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数和发明公布数等等,通过这些基础的互联网数据,增加企业所具备的申报条件数据,可以有效丰富企业画像,进而提升企业推荐的准确性。
[0079] 在一个实施例中,数据归一化处理过程中采用的归一化方法可以包括最小‑最大规范化、Z‑score标准化、均值方差归一化、小数定标标准化或Log函数转换。
[0080] 具体的,不同的归一化方式适用于不同的数据情况,选择合适的归一化方式可以提高机器学习算法的精度和稳定性。其中,最小‑最大规范化(Min‑Max Scaling):也称为离差标准化,用于将原始数据线性映射到[0, 1]的区间内。Z‑score标准化:用于将数据按其均值和标准差进行标准化,使得数据符合标准正态分布。小数定标标准化:用于通过移动小数点的位置来缩放数据,使得数据的绝对值小于1。Log函数转换:对于数据值较大且变化范围较大的特征,可以对其进行对数变换,使得数据更加符合正态分布。均值方差归一化(Standard Scaling):将数据减去均值,然后除以标准差,使得数据符合标准正态分布。
[0081] 以最小‑最大规范化为例:对上述两个数组中的每天特征数据取出最大值max和最小值min;对于每个特征数据x,采用如下公式进行归一化处理:
[0082] ;
[0083] 将所有特征都进行归一化处理后,就得到了一个新的归一化的数组,用于后续处理。
[0084] 又例如均值方差归一化,归一化计算公式如下:
[0085] ;
[0086] 其中,x表示原始数据, 表示原始数据的均值,表示原始数据的标准差,z表示转换后的数据。具体的标准化过程可以分为以下几个步骤:计算原始数据的均值和标准差;对每个原始数据进行标准化,包括将原始数值减去均值,得到差值;将差值除以标准差,即可得到标准化后的值;得到所有数据的标准化值后,即可用于进行后续的分类、聚类和回归分析等处理。取从业人数、注册资金两个维度为例子,取六家企业历年的数据,转换成如下企业特征矩阵[[100 50 80 200 90 150], [150 80 120 400 70 200]],再通过上面的算法进行归一化处理。
[0087] 关于其他归一化方法的具体应用实现,也可以参照其本身的处理流程同理理解。通过采用上述数据归一化处理方法,即可高效且准确地完成与原始数据的归一化处理。
[0088] 在一个实施例中,核函数为RBF核函数。可以理解,RBF(Radial Basis Function)核函数是一种常用的核函数,用于支持向量机(SVM)等机器学习算法中的非线性分类或回归问题。RBF核函数的定义如下:对于输入空间中的两个样本 和 ,RBF核函数的输出值为:
[0089] ;
[0090] 其中, 是RBF核函数的带宽参数(bandwidth), 表示向量 和 之间的欧几里得距离,μ表示原始数据的均值,表示原始数据的标准差,z表示转换后的数据。RBF核函数的特点是可以将原始输入空间映射到一个高维特征空间,从而使得原本线性不可分的问题变为线性可分的问题。同时,由于RBF核函数的自相似性(即每个样本点都与自己具有最大的相似度),使得它在处理时空数据等具有自相似性质的问题上具有较好的效果。
[0091] 在使用RBF核函数时,需要调整带宽参数 的大小,通常使用交叉验证等方法进行选择。如果 较大,则核函数的输出值随距离的变化较为平滑,具有较弱的局部化特性;如果 较小,则核函数的输出值随距离的变化较为敏感,具有较强的局部化特性。因此,可以根据实际使用需要进行灵活选择。
[0092] 具体的,用RBF核函数进行空间映射例子如下:在本例中,有一个二维的样本数据集X和其对应的分类标签Y。对于本例中的数据集X,计算两两样本之间的核矩阵。首先,需要选择一个合适的 值,可尝试不同的 值,例如 。然后,计算RBF核矩阵,得出的RBF核矩阵如:
[0093] [[1.0.60653066 0.60653066 0.00033546 0.00012341]
[0094] [0.60653066 1. 0.13533528 0.00183156 0.00067067]
[0095] [0.60653066 0.13533528 1. 0.00091188 0.00033546]
[0096] [0.00033546 0.00183156 0.00091188 1. 0.60653066]
[0097] [0.00012341 0.00067067 0.00033546 0.60653066 1. ]]
[0098] 依次类推直至完成全部数据的映射处理,即可完成将原始数据通过RBF核函数快速映射到了一个新的高维特征空间中。
[0099] 进一步的,在完成低维特征向量映射到基于支持向量机的高维特征空间中之后,即可求解最优分类超平面,例如:
[0100] 计算高维特征空间中所有样本的平均值,记为 ;以上述RBF核矩阵为例(本实施例下同),则 。
[0101] 对每个样本减去 ,得到中心化后的样本矩阵X;
[0102] X = [[0.69697399 0.30182766 0.30182766 ‑0.29990674 ‑0.28989119][0103] [0.30182766 0.69697399 0.05683738 0.116866 0.42786001]
[0104] [0.30182766 0.05683738 0.69697399 ‑0.28801512 ‑0.28989119]
[0105] [‑0.29990674 0.116866 ‑0.28801512 0.69697399 0.30182766]
[0106] [‑0.28989119 0.42786001 ‑0.28989119 0.30182766 0.69697399]]
[0107] 求样本矩阵X的协方差矩阵XX';
[0108] XX' = [[0.48358984 0.17124736 0.17124736 0. 0.]
[0109] [0.17124736 0.48358984 0.02399147 0.04655467 0.18360223]
[0110] [0.17124736 0.02399147 0.48358984 0.0.]
[0111] [0. 0.04655467 0. 0.48358984 0.17124736]
[0112] [0. 0.18360223 0. 0.17124736 0.48358984]]
[0113] 求协方差矩阵XX'的特征向量和特征值,注意特征向量的符号。
[0114] 特征向量:
[0115] [‑0.40824829 ‑0.40824829 0.81649658 0. 0.]
[0116] [‑0.40824829 0.81649658 0.40824829 0. 0.]
[0117] [‑0.40824829 0.40824829 ‑0.81649658 0. 0.]
[0118] [ 0. 0. 0. 0. 1.]
[0119] [ 0. 0. 0. 0. 1.]
[0120] 特征值:
[0121] [2.41597182 1.41597182 1.41597182 0.48358984 0.48358984]
[0122] 选择特征值最大的特征向量作为超平面法向量w。
[0123] w= [‑0.40824829 ‑0.40824829 0.81649658]
[0124] 根据样本点x到超平面距离公式 ,设 ,求偏置参数 。如b=  ‑1.2267573。其中, 表示向量w的 范数。
[0125] 最终,得到的最优分类超平面表达式为:
[0126] ;
[0127] 其中,x1、x2和x3分别表示最优分类超平面上的三个样本点。
[0128] 在得到最优分类超平面之后,即可使用它对新数据进行分类,具体的例如:
[0129] 1.对新数据样本x做中心化,减去平均值μ,得到中心化后的样本x'。
[0130] 2.计算x'与超平面法向量w的内积,加上偏置参数b,得到x'到最优分类超平面距离的算式: 。
[0131] 3.如果 ,则新数据样本位于超平面正方向,分类为正样本;如果 ,则新数据样本位于超平面负方向,分类为负样本。
[0132] 4.由于在高维特征空间中,超平面距离公式中超平面法向量w的模 难以计算,所以可以使用支持向量来简化计算。支持向量是最靠近超平面的数据点,它们到超平面的距离为1。那么对任意新数据x',其到超平面的距离d可以表示为:
[0133] ;
[0134] 其中, 是支持向量。
[0135] 5.所以,直接计算 和 的差,如果差>0,则新数据为正样本,否则为负样本。
[0136] 6.最后,由于w是超平面法向量,那么 就是支持向量到超平面的距离,根据超平面方程可以计算得到。
[0137] 最终,使用支持向量机分类新数据的步骤可以变为:1)中心化新数据;2)计算新数据与支持向量的内积;3)计算内积差并判断差的正负;4)根据正负分类新数据。这避免了直接计算新数据到超平面的距离,简化了分类计算过程。如图2所示,为应用相似企业的项目匹配方法的一种实现流程示意图,其中,相似度阈值可以选择为0。
[0138] 在另一实施例中,核函数还可以选择为线性核函数、多项式核函数、Sigmoid核函数或Laplace核函数。可以理解,除了RBF核函数,还可以有其他一些核函数可以用于支持向量机等机器学习算法中的非线性分类或回归问题,其中一些比RBF核函数更加适用于特定的数据集或任务,例如以下这些常用的核函数:
[0139] 线性核函数(Linear Kernel):将输入空间中的两个向量进行内积运算,适用于数据线性可分或近似线性可分的情况。
[0140] 多项式核函数(Polynomial Kernel):将输入空间中的两个向量进行多项式扩展后进行内积运算,适用于数据具有一定的非线性特征的情况。
[0141] Sigmoid核函数(Sigmoid Kernel):将输入空间中的两个向量进行Sigmoid函数变换后进行内积运算,适用于数据集中存在对称分布的特征。
[0142] Laplace核函数(Laplace Kernel):将输入空间中的两个向量之间的欧几里得距离代入Laplace函数后进行内积运算,适用于数据集中存在噪声或异常值的情况。
[0143] 除了以上几种核函数,还可以采用一些其他的核函数,如ANOVA核函数和Bessel核函数等。在实际应用中,可以根据数据集的特点和任务的需求选择最适合的核函数,从而达到更好的处理效果。
[0144] 在一个实施例中,如图3所示,上述方法还可以包括如下处理步骤S18:
[0145] S18,根据相似企业利用协同过滤算法输出匹配目标企业的政策项目数据。
[0146] 可以理解,在得到目标企业的相似企业推荐数据后,还可以指示企业推荐设备利用协同过滤算法根据相似企业推荐数据预测目标企业可能符合条件的政策项目,过滤掉其中目标企业已申报过的项目,得到目标企业可能符合条件且未申报过的政策项目并将其作为匹配于目标企业的政策项目,输出为该目标企业的政策项目数据,也即可以直接向用户推荐出该目标企业也适于申报的政策项目,从而进一步提升企业推荐的适用范围。
[0147] 具体的,根据相似企业推荐数据(可以相似企业列表的形式给出),获取所有相似企业已获得的政策项目情况,例如可以使用一个矩阵来表示,其中,行表示相似企业,列表示政策项目,矩阵的每个元素表示是否获得该项目的二元变量(0表示未获得,1表示已获得)。
[0148] 项目预测:根据相似企业获得的政策项目的统计数据,预测目标企业可能符合条件的政策项目。具体方法是找到与目标企业相似度最高的前K(可根据实际需要灵活取值)个相似企业,然后计算它们与目标企业的加权平均相似度,根据加权平均相似度的大小来加权平均相似企业对应的政策项目的统计数据。最后,过滤掉目标企业已申报过的项目,输出预测的符合条件的未申报项目,这里可以使用现有的协同过滤算法来实现,例如:
[0149] 假设有3个相似企业B、C和D,它们已获得的政策项目数据如下:
[0150]
[0151] 目标企业与相似企业的相似度分别为0.9、0.6和0.8,按相似度加权平均得到目标企业的预测数据:
[0152]
[0153] 由于目标企业已获得项目E2和E3,所以过滤掉这些项目,最终输出预测的符合条件的未申报项目为E1和E4。
[0154] 在一个实施例中,如图4所示,上述方法还可以包括如下处理步骤S19:
[0155] S19,根据目标企业的推介文案,分别生成匹配于各相似企业的推介文案。
[0156] 可以理解,在得到目标企业的相似企业推荐数据后,还可以指示企业推荐设备根据针对该目标企业已预先制作好的推介文案,例如定向营销推广文案,分别生成对应于各相似企业的各推介文案,从而得到也能直接适用于这些相似企业的推介文案,从而进一步提升企业推荐的适用范围,提高自动营销任务的执行效率和准确性。
[0157] 此外,根据已经获得的目标企业的相似企业推荐数据(名单),在此基础上还可以开展智能营销任务,例如根据相似企业未申报的项目列表,生成个性化的营销计划,以鼓励相似企业申报这些项目并提高申报成功率。例如,可以向相似企业发送营销计划邮件或短信,提供项目相关的市场分析情报数据和规划建议,向相似企业介绍申报成功案例数据和经验信息,或者主办方可以向相似企业提供一些优惠措施来吸引其申报这些项目。又例如可以利用已有的智能营销平台,对相似企业的上述相关数据进行深度分析,以了解相似企业的客户需求和消费习惯,根据分析结果,输出相似企业的营销策略调整建议等。
[0158] 在其中一个实施例中,如图5所示,上述方法还可以包括如下处理步骤S20和S21:
[0159] S20,根据设定的星级分配区间,按照匹配项目推荐数据中各曾获政策项目的推荐指数从高到低的顺序,为各曾获政策项目分配推荐星级标签;
[0160] S21,按照各曾获政策项目的推荐星级从高到低进行推荐输出。
[0161] 可以理解,在上述实施例中,为了更直观地显示各曾获政策项目的推荐程度,可以按照推荐指数从高到低的顺序分别为各相应曾获政策项目分配推荐值标签,例如但不限于推荐百分值、推荐十分值或者推荐级别。在本实施例中,采用“五星级”的推荐分级方式,显示各曾获政策项目的推荐程度。
[0162] 具体的,可以将所有符合要求的政策项目(也即各曾获政策项目)的推荐指数,按照指数从高到低的顺序划分成5个等级区间,例如推荐指数分别为45.1、52.5、60.8、79.0、82.3、98.6,那么45.1和52.5等55分以下的,可以划分为一星级,60.8在56分至70分区间的,可以划分为二星级,79.0在71分至80分区间的,可以划分为三星级,82.3在81分至90分区间的,可以划分为四星级,98.6在90分至100分区间的,可以划分为五星级,如此可以按推荐指数所在的等级区间分配它们所属的推荐星级标签,最后按推荐星级可以进行自高至低排序和输出推荐,匹配项目的推荐显示效果更好。
[0163] 应该理解的是,虽然图1至图5流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图5的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0164] 请参阅图6,在一个实施例中,提供一种基于相似企业的项目匹配装置100,包括第一获取模块11、第二获取模块12、归一映射模块13、得分计算模块14、企业确定模块15、项目采集模块16和匹配输出模块17。其中,第一获取模块11用于获取目标企业的名称对应的公开互联网数据并存入第一维度数组。第二获取模块12用于获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组。归一映射模块13用于将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中。得分计算模块14用于在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差。企业确定模块15用于将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业。项目采集模块16用于采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数。匹配输出模块16用于根据各相似企业获得各曾获政策项目的次数与各所述相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0165] 上述基于相似企业的项目匹配装置100,通过先获取目标企业的公开互联网数据后,再获取网上目标企业所属行业的各种政策文件和相关公示文件,进而解析出所属行业的各企业并组成企业名单,同时获取企业名单中各企业申报政策项目所满足的申报条件数据,然后对前述获取的所有原始数据进行数据归一化处理,形成低维特征向量数据并利用核函数映射到基于支持向量机的高维特征空间,在高维特征空间中直接计算中心化后的高维新数据与高维特征空间的支持向量的内积差,剔除内积差为负的高维新数据对应的企业,输出排序后的目标企业的相似企业推荐数据,实现关于目标企业的企业推荐处理。最后,采集相似企业曾获得的曾获政策项目并基于此计算出各曾获政策项目的推荐指数,从而得到目标企业的匹配项目推荐数据。
[0166] 相比于传统方法,上述技术方案一方面将反向推导获得的企业具备的申报条件加入企业的特征信息,以有效丰富企业的特征信息,另一方面在数据分类预测过程中避免了直接计算高维新数据到高维特征空间中最优超平面的距离,而是直接使用支持向量来简化分类计算,又一方面基于相似企业来推荐目标企业也能匹配的政策项目,从而最终实现又快又准确的企业项目匹配推荐,达到了大幅提高企业项目匹配精准度的目的。
[0167] 在一个实施例中,公开互联网数据包括企业所属行业、成立年限、从业人数、纳税人资质、注册资金、实缴资本、企业性质、注册地址、软件著作权数量、商标数量、证书数量、作品著作权数量、实用新型专利数、发明授权数、外观设计数、发明公布数、上市类型维度和招投标数据。
[0168] 在一个实施例中,数据归一化处理过程中采用的归一化方法包括最小‑最大规范化、Z‑score标准化、均值方差归一化、小数定标标准化或Log函数转换。
[0169] 在一个实施例中,核函数为RBF核函数。
[0170] 在一个实施例中,上述基于相似企业的项目匹配装置100还可以包括项目匹配模块,用于根据相似企业利用协同过滤算法输出匹配目标企业的政策项目数据。
[0171] 在一个实施例中,上述基于相似企业的项目匹配装置100还包括推介生成模块,用于根据目标企业的推介文案,分别生成匹配于各相似企业的推介文案。
[0172] 在一个实施例中,上述项目匹配模块还可以用于根据设定的星级分配区间,按照匹配项目推荐数据中各曾获政策项目的推荐指数从高到低的顺序,为各曾获政策项目分配推荐星级标签;按照各曾获政策项目的推荐星级从高到低进行推荐输出。
[0173] 关于基于相似企业的项目匹配装置100的具体限定,可以参见上文中基于相似企业的项目匹配方法的相应限定,在此不再赘述。上述基于相似企业的项目匹配装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具备数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据计算与处理设备。
[0174] 在一个实施例中,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如下处理步骤:获取目标企业的名称对应的公开互联网数据并存入第一维度数组;获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;根据各相似企业对于各曾获政策项目的次数与各相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0175] 可以理解,上述计算机设备除上述述及的存储器和处理器外,还包括其他本说明书未列出的软硬件组成部分,具体可以根据不同应用场景下的具体计算机设备的型号确定,本说明书不再一一列出详述。
[0176] 在一个实施例中,处理器执行计算机程序时还可以实现上述基于相似企业的项目匹配方法各实施例中增加的步骤或者子步骤。
[0177] 在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如下处理步骤:获取目标企业的名称对应的公开互联网数据并存入第一维度数组;获取各官网上公布的各政策文件和各相关公示文件,解析各政策文件和各相关公示文件,得到公示的企业名单及各政策项目的申报条件数据后存入第二维度数组;将第一维度数组和第二维度数组中的原始数据进行数据归一化处理,得到归一化后的低维特征向量并利用核函数映射到基于支持向量机的高维特征空间中;在高维特征空间中,对低维特征向量对应的高维新数据进行中心化处理,计算中心化后的高维新数据与高维特征空间的支持向量的内积差;将内积差为负的高维新数据对应的企业剔除,将内积差为正的高维新数据对应的企业确定为目标企业的相似企业;采集各相似企业的曾获政策项目并统计各相似企业获得各曾获政策项目的次数;根据各相似企业对于各曾获政策项目的次数与各相似企业的总数,计算得到各曾获政策项目的推荐指数并输出为目标企业的匹配项目推荐数据。
[0178] 在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于相似企业的项目匹配方法各实施例中增加的步骤或者子步骤。
[0179] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
[0180] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0181] 以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。