企业状态监管方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN202010445603.8

文献号 : CN111798352A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘春

申请人 : 平安国际智慧城市科技股份有限公司

摘要 :

本发明提供一种企业状态监管方法、装置、设备及计算机可读存储介质,所述方法包括:将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;根据所述数据分值,监管所述待核查企业的企业状态是否有效。本发明通过由大数据技术所生成的状态数据模型来监管待核查企业状态的有效性,实现了结合待核查企业的各类真实数据来反映企业的状态,在确保所监管企业状态的真实性和准确性的同时,还确保了监管的时效性,有利于及时监管和高效监管。

权利要求 :

1.一种企业状态监管方法,其特征在于,所述企业状态监管方法包括以下步骤:将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;

获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;

根据所述数据分值,监管所述待核查企业的企业状态是否有效。

2.如权利要求1所述的企业状态监管方法,其特征在于,所述获取待核查企业中与企业状态对应的结构化数据的步骤包括:采集待核查企业的企业文本数据,并从各所述企业文本数据中抽取与企业状态对应的文本数据进行分类,得到多类状态文本数据;

分别提取多类所述状态文本数据中的状态关键词,并根据预设数据格式,对提取的多类所述状态关键词进行格式转换,得到所述结构化数据。

3.如权利要求2所述的企业状态监管方法,其特征在于,所述分别提取多类所述状态文本数据中的状态关键词的步骤包括:分别对多类所述状态文本数据进行分段处理和分句处理,生成多类待识别分句,并剔除多类所述待识别分句中的无效分句;

对经剔除所述无效分句后的多类所述待识别分句分别进行分词处理,生成多类待识别分词;

将多类所述待识别分词中与所述企业状态无关的噪声词剔除,得到多类所述状态文本数据中的状态关键词。

4.如权利要求1所述的企业状态监管方法,其特征在于,所述将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值的步骤包括:将所述结构化数据传输到所述状态数据模型,确定与所述结构化数据中各类子数据分别匹配的目标样本数据;

根据与各所述目标样本数据分别对应的分值和权重值,确定各类所述子数据的子分值;

根据各类所述子数据的子分值,生成所述结构化数据的数据分值。

5.如权利要求1所述的企业状态监管方法,其特征在于,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤包括:根据预设的组合分值与状态之间的对应关系,确定由所述数据分值中最大值、最小值和平均值所形成组合对应的目标状态;

查找与所述待核查企业对应的登记状态,并根据所述目标状态和所述登记状态之间的一致性,监管所述待核查企业的企业状态是否有效。

6.如权利要求1-5任一项所述的企业状态监管方法,其特征在于,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤之后包括:将与所述待核查企业对应的研判分值传输到所述状态数据模型,判断所述研判分值与所述数据分值是否匹配;

若与所述数据分值匹配,则将所述数据分值和所述结构化数据对应存储;

若与所述数据分值不匹配,则查找所述预设样本数据中与所述结构化数据匹配的目标样本数据;

将所述目标样本数据以及与所述目标样本数据对应的分值标签剔除,并将所述研判分值生成为所述结构化数据的待训练分值标签;

根据所述结构化数据和所述待训练分值标签,更新所述预设样本数据,并基于更新的所述预设样本数据对所述状态数据模型优化训练。

7.如权利要求1-5任一项所述的企业状态监管方法,其特征在于,所述将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型的步骤包括:获取与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据,并将各所述正向样本数据和各所述负向样本数据作为所述预设样本数据传输到初始模型,对所述初始模型进行训练,生成模型梯度;

将所述模型梯度传输到与所述联邦学习算法对应的协调方,以供所述协调方将所述模型梯度和至少一个基于所述联邦学习算法生成的其他模型梯度进行聚合,生成回传梯度;

接收所述协调方返回的回传梯度,并根据所述回传梯度对所述初始模型持续训练,直到所述初始模型收敛,得到所述状态数据模型。

8.一种企业状态监管装置,其特征在于,所述企业状态监管装置包括:生成模块,用于将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;

获取模块,用于获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;

监管模块,用于根据所述数据分值,监管所述待核查企业的企业状态是否有效。

9.一种企业状态监管设备,其特征在于,所述企业状态监管设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的企业状态监管程序,所述企业状态监管程序被所述处理器执行时实现如权利要求1-7中任一项所述的企业状态监管方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有企业状态监管程序,所述企业状态监管程序被处理器执行时实现如权利要求1-7中任一项所述的企业状态监管方法的步骤。

说明书 :

企业状态监管方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种企业状态监管方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 当前国内餐饮企业数量众多,每年有大量餐饮企业兴起,也存在大量停业的餐饮企业。对于停业的餐饮企业,若未及时办理营业执照注销,其工商登记的营业状态就存在滞后性,而需要监管更新其营业状态。目前监管人员对餐饮企业营业状态的监管,则是依赖于查询工商登记实现。监管人员通常按照设定的期限进行查询,可能查询时餐饮企业已经停业很久,容易导致监管的不及时性。同时,对工商登记的查询还存在效率低下的问题,如此一来也影响了监管的效率。

发明内容

[0003] 本发明的主要目的在于提供一种企业状态监管方法、装置、设备及计算机可读存储介质,旨在解决现有技术中对餐饮企业经营状态的监管所存在的不及时和效率低下的技术问题。
[0004] 为实现上述目的,本发明实施例提供一种企业状态监管方法,所述企业状态监管方法包括以下步骤:
[0005] 将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;
[0006] 获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;
[0007] 根据所述数据分值,监管所述待核查企业的企业状态是否有效。
[0008] 优选地,所述获取待核查企业中与企业状态对应的结构化数据的步骤包括:
[0009] 采集待核查企业的企业文本数据,并从各所述企业文本数据中抽取与企业状态对应的文本数据进行分类,得到多类状态文本数据;
[0010] 分别提取多类所述状态文本数据中的状态关键词,并根据预设数据格式,对提取的多类所述状态关键词进行格式转换,得到所述结构化数据。
[0011] 优选地,所述分别提取多类所述状态文本数据中的状态关键词的步骤包括:
[0012] 分别对多类所述状态文本数据进行分段处理和分句处理,生成多类待识别分句,并剔除多类所述待识别分句中的无效分句;
[0013] 对经剔除所述无效分句后的多类所述待识别分句分别进行分词处理,生成多类待识别分词;
[0014] 将多类所述待识别分词中与所述企业状态无关的噪声词剔除,得到多类所述状态文本数据中的状态关键词。
[0015] 优选地,所述将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值的步骤包括:
[0016] 将所述结构化数据传输到所述状态数据模型,确定与所述结构化数据中各类子数据分别匹配的目标样本数据;
[0017] 根据与各所述目标样本数据分别对应的分值和权重值,确定各类所述子数据的子分值;
[0018] 根据各类所述子数据的子分值,生成所述结构化数据的数据分值。
[0019] 优选地,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤包括:
[0020] 根据预设的组合分值与状态之间的对应关系,确定由所述数据分值中最大值、最小值和平均值所形成组合对应的目标状态;
[0021] 查找与所述待核查企业对应的登记状态,并根据所述目标状态和所述登记状态之间的一致性,监管所述待核查企业的企业状态是否有效。
[0022] 优选地,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤之后包括:
[0023] 将与所述待核查企业对应的研判分值传输到所述状态数据模型,判断所述研判分值与所述数据分值是否匹配;
[0024] 若与所述数据分值匹配,则将所述数据分值和所述结构化数据对应存储;
[0025] 若与所述数据分值不匹配,则查找所述预设样本数据中与所述结构化数据匹配的目标样本数据;
[0026] 将所述目标样本数据以及与所述目标样本数据对应的分值标签剔除,并将所述研判分值生成为所述结构化数据的待训练分值标签;
[0027] 根据所述结构化数据和所述待训练分值标签,更新所述预设样本数据,并基于更新的所述预设样本数据对所述状态数据模型优化训练。
[0028] 优选地,所述将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型的步骤包括:
[0029] 获取与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据,并将各所述正向样本数据和各所述负向样本数据作为所述预设样本数据传输到初始模型,对所述初始模型进行训练,生成模型梯度;
[0030] 将所述模型梯度传输到与所述联邦学习算法对应的协调方,以供所述协调方将所述模型梯度和至少一个基于所述联邦学习算法生成的其他模型梯度进行聚合,生成回传梯度;
[0031] 接收所述协调方返回的回传梯度,并根据所述回传梯度对所述初始模型持续训练,直到所述初始模型收敛,得到所述状态数据模型。
[0032] 为实现上述目的,本发明还提供一种企业状态监管装置,所述企业状态监管装置包括:
[0033] 生成模块,用于将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;
[0034] 获取模块,用于获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;
[0035] 监管模块,用于根据所述数据分值,监管所述待核查企业的企业状态是否有效。
[0036] 进一步地,为实现上述目的,本发明还提供企业状态监管设备,所述企业状态监管设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的企业状态监管程序,所述企业状态监管程序被所述处理器执行时实现上述的企业状态监管方法的步骤。
[0037] 此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有企业状态监管程序,所述企业状态监管程序被处理器执行时实现上述的企业状态监管方法的步骤。
[0038] 本发明提供一种企业状态监管方法、装置、设备及计算机可读存储介质,先将预设样本数据传输到初始模型,并基于联邦学习算法对初始模型进行训练,生成状态数据模型;再获取待核查企业中与企业状态对应的结构化数据,并将结构化数据传输到状态数据模型,生成结构化数据的数据分值;进而根据该数据分值,监管待核查企业的企业状态是否有效。其中,预设样本数据为各个企业中表征各自状态的各类数据,为各企业真实有效的数据,通过联邦学习算法联合大量企业的预设样本数据进行训练,丰富了训练的样本量,使得所生成的状态数据模型更为准确。因此,通过状态数据模型来监管待核查企业状态的有效性,实现了结合待核查企业的各类真实数据来反映企业的状态,避免了依赖查询工商登记进行监管,在确保所监管企业状态的真实性和准确性的同时,还确保了监管的时效性,有利于及时监管和高效监管。

附图说明

[0039] 图1为本发明实施例方案涉及的硬件运行环境的企业状态监管设备结构示意图;
[0040] 图2为本发明企业状态监管方法第一实施例的流程示意图;
[0041] 图3为本发明企业状态监管装置较佳实施例的功能模块示意图。
[0042] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0043] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0044] 如图1所示,图1是本发明实施例方案涉及的硬件运行环境的企业状态监管设备结构示意图。
[0045] 在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
[0046] 本发明实施例企业状态监管设备可以是PC,也可以是平板电脑、便携计算机等可移动式终端设备。
[0047] 如图1所示,该企业状态监管设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0048] 本领域技术人员可以理解,图1中示出的企业状态监管设备结构并不构成对企业状态监管设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0049] 如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及检测程序。
[0050] 在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的检测程序,并执行以下操作:
[0051] 将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;
[0052] 获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;
[0053] 根据所述数据分值,监管所述待核查企业的企业状态是否有效。
[0054] 进一步地,所述获取待核查企业中与企业状态对应的结构化数据的步骤包括:
[0055] 采集待核查企业的企业文本数据,并从各所述企业文本数据中抽取与企业状态对应的文本数据进行分类,得到多类状态文本数据;
[0056] 分别提取多类所述状态文本数据中的状态关键词,并根据预设数据格式,对提取的多类所述状态关键词进行格式转换,得到所述结构化数据。
[0057] 进一步地,所述分别提取多类所述状态文本数据中的状态关键词的步骤包括:
[0058] 分别对多类所述状态文本数据进行分段处理和分句处理,生成多类待识别分句,并剔除多类所述待识别分句中的无效分句;
[0059] 对经剔除所述无效分句后的多类所述待识别分句分别进行分词处理,生成多类待识别分词;
[0060] 将多类所述待识别分词中与所述企业状态无关的噪声词剔除,得到多类所述状态文本数据中的状态关键词。
[0061] 进一步地,所述将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值的步骤包括:
[0062] 将所述结构化数据传输到所述状态数据模型,确定与所述结构化数据中各类子数据分别匹配的目标样本数据;
[0063] 根据与各所述目标样本数据分别对应的分值和权重值,确定各类所述子数据的子分值;
[0064] 根据各类所述子数据的子分值,生成所述结构化数据的数据分值。
[0065] 进一步地,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤包括:
[0066] 根据预设的组合分值与状态之间的对应关系,确定由所述数据分值中最大值、最小值和平均值所形成组合对应的目标状态;
[0067] 查找与所述待核查企业对应的登记状态,并根据所述目标状态和所述登记状态之间的一致性,监管所述待核查企业的企业状态是否有效。
[0068] 进一步地,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤之后,处理器1001可以用于调用存储器1005中存储的检测程序,并执行以下操作:
[0069] 将与所述待核查企业对应的研判分值传输到所述状态数据模型,判断所述研判分值与所述数据分值是否匹配;
[0070] 若与所述数据分值匹配,则将所述数据分值和所述结构化数据对应存储;
[0071] 若与所述数据分值不匹配,则查找所述预设样本数据中与所述结构化数据匹配的目标样本数据;
[0072] 将所述目标样本数据以及与所述目标样本数据对应的分值标签剔除,并将所述研判分值生成为所述结构化数据的待训练分值标签;
[0073] 根据所述结构化数据和所述待训练分值标签,更新所述预设样本数据,并基于更新的所述预设样本数据对所述状态数据模型优化训练。
[0074] 进一步地,所述将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型的步骤包括:
[0075] 获取与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据,并将各所述正向样本数据和各所述负向样本数据作为所述预设样本数据传输到初始模型,对所述初始模型进行训练,生成模型梯度;
[0076] 将所述模型梯度传输到与所述联邦学习算法对应的协调方,以供所述协调方将所述模型梯度和至少一个基于所述联邦学习算法生成的其他模型梯度进行聚合,生成回传梯度;
[0077] 接收所述协调方返回的回传梯度,并根据所述回传梯度对所述初始模型持续训练,直到所述初始模型收敛,得到所述状态数据模型。
[0078] 本发明企业状态监管设备的具体实施方式与下述企业状态监管方法各实施例基本相同,在此不再赘述。
[0079] 为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0080] 为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0081] 参照图2,本发明第一实施例提供一种企业状态监管方法的流程示意图。该实施例中,所述企业状态监管方法包括以下步骤:
[0082] 步骤S10,将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;
[0083] 本实施例中的企业状态监管方法应用于监管服务器,适用于通过监管服务器来对企业的状态进行监管。其中,企业的状态为企业的经营状态,通过企业在采购、欠费、信息公开、工商登记、监管、销售、培训等各方面的大量数据来判断企业是否处于经营状态继而进行监管。企业可以是餐饮、服装、旅行、金融、建筑等各类企业,本实施例优选以餐饮企业为例进行说明。具体地,通过已确定企业状态的各类餐饮企业在各方面的大量数据来对初始模型进行训练,得到用于企业监管的状态数据模型部署到监管服务器中。预先设定表征餐饮企业经营状况的数据指标,若采购、工商登记、销售、培训、明厨亮灶等指标,进而从各已确定企业状态的各类餐饮企业中获取在该类指标上的大量数据,即获取多个餐饮企业的采购数据、工商登记数据、销售数据、培训数据和明厨亮灶等数据。针对获取的数据依据各自对企业状态有效性的影响程度,设定不同的权重和分值,如相对于培训数据,采购数据对企业状态有效性的影响程度较高,从而针对采购数据设定较高的权重和分值。在获取的各数据均设定各自的权重和分值后,即将各类数据作为预设样本数据传输到初始模型进行训练。
[0084] 需要说明的是,初始模型是预先设定的网络模型,并且训练基于联邦学习算法实现。联邦学习算法是在保护数据隐私、满足合法合规要求的前提下继续进行机器学习的方式,其利用技术算法加密建造的模型,联邦双方在不用给出己方数据的情况下,也可进行模型训练得到模型参数,联邦学习通过加密机制下的参数交换方式保护用户数据隐私,数据和模型本身不会进行传输,也不能反猜对方数据,因此在数据层面不存在泄露的可能,也不违反更严格的数据保护法案,因此,能够在较高程度保持数据完整性的同时,保障数据隐私。
[0085] 本实施例将需要进行企业状态监管的相同级别的地区作为联邦的双方,如两个不同的县,两个不同的市等。不同地区设定各自的初始模型,并通过各自已确定企业状态的餐饮企业在各方面的数据,即各自的预设样本数据的联合来对各自的初始模型进行联邦训练,进而得到用于对各自本地区内的餐饮企业的企业状态进行监管的状态数据模型。即联合的每个地区均经训练得到本地的状态数据模型,对本地的餐饮企业的企业状态进行监管。在联合其他地区数据进行训练,丰富了训练样本量,使得状态数据模型更为准确的同时,又确保了数据的安全性。
[0086] 步骤S20,获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;
[0087] 进一步地,将需要进行企业状态核查的餐饮企业作为待核查企业,获取其中与企业状态对应的结构化数据,该结构化数据为待核查企业在表征餐饮企业经营状况的数据指标上的各类,经结构化处理之后得到以特定数据结构存在的数据。其中,对应数据指标的各类数据,形成结构化数据中的各类子数据;如对应数据指标的销售数据和采购数据,则形成结构化数据中的两类子数据,且该两类子数据的数据结构相同。
[0088] 更进一步地,将结构化数据传输到状态数据模型中,通过状态数据模型对结构化数据中的各类子数据进行类型预测。进而依据预测的类型查找各类子数据的分值和权重,由各个分值和权重,来生成结构化数据的数据分值,表征企业经营状态的正常与否。具体地,将结构化数据传输到状态数据模型,生成结构化数据的数据分值的步骤包括:
[0089] 步骤S21,将所述结构化数据传输到所述状态数据模型,确定与所述结构化数据中各类子数据分别匹配的目标样本数据;
[0090] 进一步地,在将结构化数据传输到状态数据模型之后,由状态数据模型经训练之后得到的模型参数,来对结构化数据中的各类子数据进行分类,查找预设样本数据中与各类子数据分别匹配的目标样本数据。其中,匹配与否通过相似度的大小确定,当某一类子数据与预设样本数据中某一数据之间的相似度大于预设阈值,则判定该类子数据与该数据匹配,而将该数据作为目标样本数据。例如,结构化数据包含的子数据有a和b,状态数据模型中预设样本数据包括p1、p2和p3三类数据;则将a和b均传输到状态数据模型,依据其模型参数,计算a分别与p1、p2、p3之间的相似度;若与p3之间的相似度大于预设阈值,则将p3作为与a匹配的目标样本数据。同样地,计算b分别与p1、p2、p3之间的相似度;若与p1之间的相似度大于预设阈值,则将p1作为与b匹配的目标样本数据。
[0091] 步骤S22,根据与各所述目标样本数据分别对应的分值和权重值,确定各类所述子数据的子分值;
[0092] 可理解地,组成预设样本数据的各数据均对应有各自的分值和权重,在得到目标样本数据之后,则可查找与各目标样本数据分别对应的分值和权重。进而对分值和权重进行计算,将与同一目标样本数据对应的分值和权重相乘,得到各类子数据的子分值。例如,对于上述目标样本数据p1和p3,若p1对应的分值和权重值分别为w1和k1,p3对应的分值和权重值分别为w3和k3,则子数据a的子分值为k3*w3,子数据b的子分值为k1*w1。
[0093] 步骤S23,根据各类所述子数据的子分值,生成所述结构化数据的数据分值。
[0094] 进一步地,在各类子数据的子分值均计算完成后,即可依据各个子分值,得到结构化数据的数据分值。为了通过数据分值准确表征企业经营状态,可将数据分值设定为包括多个分值的集合,其中包括的分值至少有:各个子分值的最小值、最大值和平均值。通过对各类子数据的子分值进行对比,筛选出其中的最小值和最大值;同时对各个子分值进行均值处理,得到平均值;进而将得到的最小值、最大值和平均值作为结构化数据的数据分值。例如,对于上述包含子数据a和b的结构化数据,对各自的子分值k3*w3和k1*w1比较,确定其中的最大值k1*w1,和最小值k3*w3,同时在两项子分值之间做均值处理,得到平均值(k1*w1+k1*w1)/2;进而将k1*w1、k3*w3和(k1*w1+k1*w1)/2形成为结构化数据的数据分值。
[0095] 步骤S30,根据所述数据分值,监管所述待核查企业的企业状态是否有效。
[0096] 更进一步地,预先针对不同的数据分值设定不同经营状态的对应关系,将得到的结构化数据的数据分值和该对应关系进行对比,确定对应关系中与结构化数据的数据分值一致的目标数据分值,进而依据目标数据分值在对应关系中的经营状态,确定待核查企业的实际企业状态,该实际企业状态表征了待核查企业当前真实的经营状态。进而依据该实际企业状态对该待核查企业登记的企业状态是否有效进行监管,判定登记的企业状态是否存在更新上的滞后,若存在更新上的滞后,则判定企业状态无效;反之,若不存在更新上的滞后,则判定企业状态有效。具体地,根据数据分值,监管待核查企业的企业状态是否有效的步骤包括:
[0097] 步骤S31,根据预设的组合分值与状态之间的对应关系,确定由所述数据分值中最大值、最小值和平均值所形成组合对应的目标状态;
[0098] 可理解地,因数据分值为包含最大值、最小值和平均值等多项分值的集合,从而在设定数据分值与经营状态之间对应关系时,将多个分值范围形成为组合分值,预设为与状态之间的对应关系。在确定数据分值后,调用该对应关系,并将由数据分值中最大值、最小值和平均值所形成的组合和对应关系中组合分值对比,判断所形成组合的各项数值是否在组合分值的分值范围内;若各项数值同时存在于某一组合分值的各项分值范围内,即最大值、最小值和平均值同时存在于某一组合分值的最大值范围、最小值范围和平均值范围,则查找对应关系中与该组合分值对应的状态,作为与数据分值对应的目标状态,表征待核查企业当前实际的经营状态。
[0099] 步骤S32,查找与所述待核查企业对应的登记状态,并根据所述目标状态和所述登记状态之间的一致性,监管所述待核查企业的企业状态是否有效。
[0100] 进一步地,对待核查企业的登记状态进行查找,并将查找的登记状态和目标状态进行对比,判断两者的一致性。若经对比确定两者一致,则说明待核查企业所登记的状态与其实际的运营状态一致,判定待核查企业的企业状态有效。反之若经对比登记状态和目标状态不一致,则说明待核查企业所登记的状态与实际运营的状态不一致,登记的企业状态存在更新上的滞后,判定待核查企业的企业状态无效。以此,实现结合待核查企业各方面的真实数据来监管其经营状态,确保了监管的真实性和有效性。同时,通过获取结构化数据即可实现监管,又确保了监管的及时性和高效性。
[0101] 本实施例的企业状态监管方法,先将预设样本数据传输到初始模型,并基于联邦学习算法对初始模型进行训练,生成状态数据模型;再获取待核查企业中与企业状态对应的结构化数据,并将结构化数据传输到状态数据模型,生成结构化数据的数据分值;进而根据该数据分值,监管待核查企业的企业状态是否有效。其中,预设样本数据为各个企业中表征各自状态的各类数据,为各企业真实有效的数据,通过联邦学习算法联合大量企业的预设样本数据进行训练,丰富了训练的样本量,使得所生成的状态数据模型更为准确。因此,通过状态数据模型来监管待核查企业状态的有效性,实现了结合待核查企业的各类真实数据来反映企业的状态,避免了依赖查询工商登记进行监管,在确保所监管企业状态的真实性和准确性的同时,还确保了监管的时效性,有利于及时监管和高效监管。
[0102] 进一步的,基于本发明企业状态监管方法第一实施例,提出本发明企业状态监管方法第二实施例,在第二实施例中,所述获取待核查企业中与企业状态对应的结构化数据的步骤包括:
[0103] 步骤S24,采集待核查企业的企业文本数据,并从各所述企业文本数据中抽取与企业状态对应的文本数据进行分类,得到多类状态文本数据;
[0104] 可理解地,企业在经营过程中涉及到的数据众多,在监管过程中,为了获取到表征待核查企业经营状态的结构化数据,需要先获取其在经营过程中所生成的各类数据,进而从各类数据中抽取出与经营状态相关的数据进行处理,以此得到结构化数据。具体地,监管服务器与待核查企业对接,以从待核查企业中采集其企业文本数据,该企业文本数据即为待核查企业经营过程中涉及到的各类数据,至少包括采购、欠费、信息公开、工商登记、监管、销售、培训、企业组成架构、企业员工组成等各类以文本形式存在的数据。
[0105] 进一步地,对采集的企业文本数据依据表征餐饮企业经营状况的数据指标进行抽取,抽取出与企业状态对应的文本数据,并对抽取的文本数据进行分类,得到多类与数据指标对应的状态文本数据。即判断抽取的文本数据所归属的数据指标,将归属于同一类数据指标的数据划分到同一类型,形成诸如销售、采购等多类状态文本数据。
[0106] 步骤S25,分别提取多类所述状态文本数据中的状态关键词,并根据预设数据格式,对提取的多类所述状态关键词进行格式转换,得到所述结构化数据。
[0107] 更进一步地,对各类状态文本数据中的状态关键词进行提取,以通过各类型的状态关键词来表征待核查企业在各个方面所体现的经营状态。同时预先依据需求的数据结构设定有预设数据格式,按照预设数据格式,对提取的多类状态关键字分别进行格式转换,将每一类状态关键词均转化为预设数据格式所表征的数据形式,得到多类结构化数据。例如,对于采购数据,其预设数据格式为:采购品类-采购时间-采购数据,则在提取到采购文本数据各次采购的状态关键字之后,对各次采购的状态关键字按照预设格式数据进行排列,并检测状态关键字中时间关键字与预设数据格式中所要求的采购时间格式是否一致,若要求的采购时间格式为XXXX年-XX月-XX日,而时间关键字的时间格式为XX.XX.XX,则判定时间格式不一致,则在将状态关键字按照预设格式数据进行排列的同时,对其中的时间关键字的时间格式进行转换,以形成符合预设数据格式要求的结构化数据。
[0108] 进一步地,所述分别提取多类所述状态文本数据中的状态关键词的步骤包括:
[0109] 步骤S251,分别对多类所述状态文本数据进行分段处理和分句处理,生成多类待识别分句,并剔除多类所述待识别分句中的无效分句;
[0110] 进一步地,本实施提取各类状态文本数据中的状态关键词是针对各类状态文本数据单独处理的过程,该单独处理可以是串行处理也可以是并行处理。具体地,先对每一类状态文本数据进行分段处理,得到状态文本数据的文本数据段,进而对各文本数据段进行分句处理,得到多个文本语句作为待识别分句。此后,查找多个待识别分句中与经营状态不相关的语句,并将查找得到的语句作为无效分句进行剔除,以确保从待识别分句中所提取的状态关键词均与经营状态相关。
[0111] 步骤S252,对经剔除所述无效分句后的多类所述待识别分句分别进行分词处理,生成多类待识别分词;
[0112] 更进一步地,对剔除无效分句后的每一类待识别分句均进行分词处理,将待识别分句按照语言逻辑划分为多个词语,得到每一类状态文本数据中的待识别分词。
[0113] 步骤S253,将多类所述待识别分词中与所述企业状态无关的噪声词剔除,得到多类所述状态文本数据中的状态关键词。
[0114] 进一步地,预先设定与经营状态相关的词形成词典,将划分的待识别分词逐一和词典中的词对比,判断待识别分词是否存在于词典中。若存在于词典中则判定该划分的待识别分词为与经营状态相关的有效词,若不存在与词典中则判定该划分的待识别分词为与经营状态无关的无效词。在查找出每一类待识别分词中与经营状态无关的所有无效词之后,将所有的无效词作为与企业状态无关的噪声词进行剔除,得到每一类状态文本数据中的状态关键词。进而将各类状态关键词按照预设数据格式进行格式转换,得到从各方面表征企业实际状态的结构化数据,结构化数据中的各项子数据均以相同的预设数据格式所存在,便于对各项子数据以同样的方式进行处理,有利于处理效率的提高。
[0115] 本实施例从采集的待核查企业的各类企业文本数据中提取出状态关键词,并生成为结构化数据,来表征企业实际状态。因各类企业文本数据为企业的真实数据,且从各方面表征了企业的经营状态,使得依据其生成的结构化数据实现了从多方面来反应企业的真实状态,提高了企业实际状态的有效性和准确性。
[0116] 进一步的,基于本发明企业状态监管方法第一实施例或第二实施例,提出本发明企业状态监管方法第三实施例,在第三实施例中,所述根据所述数据分值,监管所述待核查企业的企业状态是否有效的步骤之后包括:
[0117] 步骤S40,将与所述待核查企业对应的研判分值传输到所述状态数据模型,判断所述研判分值与所述数据分值是否匹配;
[0118] 本实施例针对状态数据模型设置有优化机制。具体地,由人工依据结构化数据所表征的企业状态,对待核查企业进行打分,得到与待核查企业对于的研判分值传输到监管服务器。监管服务器则将该研判分值传输到状态数据模型,判断经由状态数据模型生成的数据分值与该研判分值之间是否匹配。其中,匹配不要求完全一致,当数据分值和研判分值的数值差值在一定范围内,则说明两者较为接近,可认定两者匹配。反之则说明两者相差较远,认定两者不匹配。
[0119] 步骤S50,若与所述数据分值匹配,则将所述数据分值和所述结构化数据对应存储;
[0120] 进一步地,若经判定研判分值与数据分值匹配,则说明状态数据模型当前可准确对结构化数据进行处理,可以不用优化。此时,将数据分值和结构化数据形成对应关系后存储,作为企业状态监管依据。
[0121] 步骤S60,若与所述数据分值不匹配,则查找所述预设样本数据中与所述结构化数据匹配的目标样本数据;
[0122] 更进一步地,若经确定研判分值与数据分值之间不匹配,则说明状态数据模型当前对结构化数据处理的准确性低,而需要对其进行优化。因数据分值依据状态数据模型中与待核查企业的结构化数据相似的预设样本数据生成,而依据该相似的预设样本数据生成的数据分值不准确,故对状态数据模型的优化处理即为对该相似的预设样本数据进行处理。具体地,将结构化数据与预设样本数据中的各项数据进行对比,查找其中与结构化数据相似度大于预设相似阈值的数据,进而将查找得到的数据作为与结构化数据匹配的目标样本数据,即与核查企业的结构化数据相似,用于生成数据分值的预设样本数据。
[0123] 步骤S70,将所述目标样本数据以及与所述目标样本数据对应的分值标签剔除,并将所述研判分值生成为所述结构化数据的待训练分值标签;
[0124] 进一步地,状态数据模型依据目标样本数据所携带的表征分值和权重的分值标签来生成数据分值,在所生成的数据分值不准确而对状态数据模型优化过程中,将目标样本数据及其携带的分值标签从预设样本数据中剔除,不作为状态数据模型的训练样本。同时,因研判分值为准确分值,而将研判分值生成为结构化数据的待训练分值标签,以用于对状态数据模型进行训练,优化状态数据模型。
[0125] 步骤S80,根据所述结构化数据和所述待训练分值标签,更新所述预设样本数据,并基于更新的所述预设样本数据对所述状态数据模型优化训练。
[0126] 更进一步地,根据数据指标,将结构化数据转换为样本数据,并将转换的样本数据和待训练分值标签作为新的预设样本数据,以更新预设样本数据。此后,基于更新的预设样本数据对状态数据模型进行优化训练,以提高状态数据模型的准确性。
[0127] 需要说明的是,本实施例对于目标样本数据也可重新设置分值标签进行训练,即仅将与目标样本数据对应的分值标签剔除,而保留目标样本数据。并且依据研判分值设定目标样本数据的新的分值标签,进而将目标样本数据及其新的分值标签作为新的预设样本数据,对状态数据模型进行优化训练,提高状态数据模型的准确性。
[0128] 进一步的,基于本发明企业状态监管方法第一实施例、第二实施例或第三实施例,提出本发明企业状态监管方法第四实施例,在第四实施例中,所述将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型的步骤包括:
[0129] 步骤S11,获取与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据,并将各所述正向样本数据和各所述负向样本数据作为所述预设样本数据传输到初始模型,对所述初始模型进行训练,生成模型梯度;
[0130] 本实施例基于联邦学习算法对初始模型进行联邦训练生成状态数据模型,其中联邦训练至少涉及到两方地区,各方地区均设置有各自的初始模型,各方地区之间用于训练的预设样本数据相互独立。各方地区对各自初始模型的训练过程相同,本实施例以其中任意一方进行说明。具体地,预设样本数据包括表征企业状态有效的正向样本数据,以及表征企业状态无效的负向样本数据。预先设置有表征正向样本的预设正向字段名和表征负向样本的预设负向字段名。在采集到该方已确定企业状态的各类餐饮企业在数据指标上的大量数据后,依据预设正向字段名和负向字段名,对采集的大量数据进行筛选,以得到与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据。进而针对各正向样本数据设定不同的分值和权重,以及针对各负向样本数据设定不同的分值和权重,此后将各项正向样本数据和各项负向样本数据作为预设样本数据传输到初始模型进行训练,生成该方用于对模型参数进行更新的模型梯度。
[0131] 步骤S12,将所述模型梯度传输到与所述联邦学习算法对应的协调方,以供所述协调方将所述模型梯度和至少一个基于所述联邦学习算法生成的其他模型梯度进行聚合,生成回传梯度;
[0132] 进一步地,为了对各方地区初始模型训练过程的协调,联邦训练过程中设置有与联邦学习算法对应的协调方,该协调方可以是各方地区中的任意一方,也可以是独立于各方地区的第三方。将生成的模型梯度传输到该协调方,协调方将该模型梯度和其他各方基于联邦学习算法生成的其他模型梯度进行聚合,聚合可依据需求设定为均值聚合或者加权聚合等,以此,生成回传梯度返回到各方地区的监督服务器。
[0133] 步骤S13,接收所述协调方返回的回传梯度,并根据所述回传梯度对所述初始模型持续训练,直到所述初始模型收敛,得到所述状态数据模型。
[0134] 更进一步地,在接收到协调方返回的回传梯度后,则根据回传梯度对初始模型持续训练。在每次训练结束后均判断初始模型是否收敛,若收敛,则说明所训练的初始模型可准确生成数据分值,而将该经训练的初始模型作为状态数据模型。反之,若不收敛,则继续训练直到收敛,得到状态数据模型。
[0135] 需要说明的是,初始模型的收敛与否可通过初始模型中的收敛函数判定。在初始模型每次训练结束后,依据初始模型中经训练得到的模型参数对测试样本数据进行处理,得到处理结果。通过收敛函数来计算处理结果与预期结果之间的额损失值,在损失值持续多次均小于预设值后,判定初始模型收敛,停止训练,反之则继续训练。
[0136] 本实施例通过联邦学习算法对初始模型进行联邦训练得到状态数据模型,在各方地区的预设样本数据不外传,保护数据隐私性的同时丰富了训练样本数量,优化了状态数据模型的训练效果,使得依据状态数据模型所进行的企业状态监管更为准确。
[0137] 进一步地,本发明还提供一种企业状态监管装置。
[0138] 参照图3,图3为本发明企业状态监管装置第一实施例的功能模块示意图。
[0139] 所述企业状态监管装置包括:
[0140] 生成模块10,用于将预设样本数据传输到初始模型,并基于联邦学习算法对所述初始模型进行训练,生成状态数据模型;
[0141] 获取模块20,用于获取待核查企业中与企业状态对应的结构化数据,并将所述结构化数据传输到所述状态数据模型,生成所述结构化数据的数据分值;
[0142] 监管模块30,用于根据所述数据分值,监管所述待核查企业的企业状态是否有效。
[0143] 本实施例的企业状态监管装置,先由生成模块10将预设样本数据传输到初始模型,并基于联邦学习算法对初始模型进行训练,生成状态数据模型;再由获取模块20获取待核查企业中与企业状态对应的结构化数据,并将结构化数据传输到状态数据模型,生成结构化数据的数据分值;进而由监管模块30根据该数据分值,监管待核查企业的企业状态是否有效。其中,预设样本数据为各个企业中表征各自状态的各类数据,为各企业真实有效的数据,通过联邦学习算法联合大量企业的预设样本数据进行训练,丰富了训练的样本量,使得所生成的状态数据模型更为准确。因此,通过状态数据模型来监管待核查企业状态的有效性,实现了结合待核查企业的各类真实数据来反映企业的状态,避免了依赖查询工商登记进行监管,在确保所监管企业状态的真实性和准确性的同时,还确保了监管的时效性,有利于及时监管和高效监管。
[0144] 进一步地,所述获取模块20包括:
[0145] 采集单元,用于采集待核查企业的企业文本数据,并从各所述企业文本数据中抽取与企业状态对应的文本数据进行分类,得到多类状态文本数据;
[0146] 转换单元,用于分别提取多类所述状态文本数据中的状态关键词,并根据预设数据格式,对提取的多类所述状态关键词进行格式转换,得到所述结构化数据。
[0147] 进一步地,所述转换单元还用于:
[0148] 分别对多类所述状态文本数据进行分段处理和分句处理,生成多类待识别分句,并剔除多类所述待识别分句中的无效分句;
[0149] 对经剔除所述无效分句后的多类所述待识别分句分别进行分词处理,生成多类待识别分词;
[0150] 将多类所述待识别分词中与所述企业状态无关的噪声词剔除,得到多类所述状态文本数据中的状态关键词。
[0151] 进一步地,所述获取模块20还包括:
[0152] 第一传输单元,用于将所述结构化数据传输到所述状态数据模型,确定与所述结构化数据中各类子数据分别匹配的目标样本数据;
[0153] 第一确定单元,用于根据与各所述目标样本数据分别对应的分值和权重值,确定各类所述子数据的子分值;
[0154] 生成单元,用于根据各类所述子数据的子分值,生成所述结构化数据的数据分值。
[0155] 进一步地,所述监管模块30还包括:
[0156] 第二确定单元,用于根据预设的组合分值与状态之间的对应关系,确定由所述数据分值中最大值、最小值和平均值所形成组合对应的目标状态;
[0157] 监管单元,用于查找与所述待核查企业对应的登记状态,并根据所述目标状态和所述登记状态之间的一致性,监管所述待核查企业的企业状态是否有效。
[0158] 进一步地,所述企业状态监管装置还包括:
[0159] 判断模块,用于将与所述待核查企业对应的研判分值传输到所述状态数据模型,判断所述研判分值与所述数据分值是否匹配;
[0160] 存储模块,用于若与所述数据分值匹配,则将所述数据分值和所述结构化数据对应存储;
[0161] 查找模块,用于若与所述数据分值不匹配,则查找所述预设样本数据中与所述结构化数据匹配的目标样本数据;
[0162] 剔除模块,用于将所述目标样本数据以及与所述目标样本数据对应的分值标签剔除,并将所述研判分值生成为所述结构化数据的待训练分值标签;
[0163] 更新模块,用于根据所述结构化数据和所述待训练分值标签,更新所述预设样本数据,并基于更新的所述预设样本数据对所述状态数据模型优化训练。
[0164] 进一步地,所述生成模块10还包括:
[0165] 获取单元,用于获取与预设正向字段名对应的正向样本数据,以及与预设负向字段名对应的负向样本数据,并将各所述正向样本数据和各所述负向样本数据作为所述预设样本数据传输到初始模型,对所述初始模型进行训练,生成模型梯度;
[0166] 第一传输单元,用于将所述模型梯度传输到与所述联邦学习算法对应的协调方,以供所述协调方将所述模型梯度和至少一个基于所述联邦学习算法生成的其他模型梯度进行聚合,生成回传梯度;
[0167] 接收单元,用于接收所述协调方返回的回传梯度,并根据所述回传梯度对所述初始模型持续训练,直到所述初始模型收敛,得到所述状态数据模型。
[0168] 本发明企业状态监管装置具体实施方式与上述企业状态监管方法各实施例基本相同,在此不再赘述。
[0169] 此外,本发明实施例还提出一种计算机可读存储介质。
[0170] 计算机可读存储介质上存储有企业状态监管程序,企业状态监管程序被处理器执行时实现如上所述的企业状态监管方法的步骤。
[0171] 本发明计算机可读存储介质的具体实施方式与上述企业状态监管方法各实施例基本相同,在此不再赘述。
[0172] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0173] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0174] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0175] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。