危险废物种类缺失申报的识别方法、装置、计算机设备转让专利

申请号 : CN202111071916.2

文献号 : CN113515637B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 严加昊丁汉其潘晓英秦小钟

申请人 : 神彩科技股份有限公司

摘要 :

本公开涉及一种危险废物种类缺失申报的识别方法、装置和计算机设备。所述方法包括:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,并进行预处理,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对应的预测危险废物种类;将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果。采用本方法能够识别目标对象缺失申报的危险废物种类。

权利要求 :

1.一种危险废物种类缺失申报的识别方法,其特征在于,所述方法包括:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联的数据包括企业基本信息、企业生产情况、企业管理计划中的至少一种;

将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;

将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对应的预测危险废物种类,所述预设敏感信息是指与危险废物种类的产生有关的信息,所述预测模型的构建至少包括下述过程:获取分组数据对应的预设常见危险废物产生清单上的危险废物种类产生条件数据,从所述产生条件数据中提取敏感信息,作为预设敏感信息,根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及与所述判别规则对应的标签,所述分组数据是指分组存在的训练数据;

将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所述第一数据中的识别结果。

2.根据权利要求1所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,作为初始训练数据;

对所述初始训练数据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据;

利用所述训练数据训练得到预测模型。

3.根据权利要求2所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:将所述训练数据进行规范化处理,所述规范化处理包括:对所述训练数据进行文本相似度计算,得到计算结果,根据第一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达到预设阈值的计算结果相对应的文本映射到预先定义的语义词典上。

4.根据权利要求3所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:根据目标对象所属分类,对所述训练数据进行分组,得到所述分组数据;

使用频繁项集挖掘算法挖掘所述分组数据,得到关于危险废物种类的频繁项集;

根据所述关于危险废物种类的频繁项集,计算不同危险废物种类在相应分组数据中的出现概率;

选择所述出现概率达到第二预设阈值的危险废物种类,构建所述常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在相应分组数据中的出现概率。

5.根据权利要求4所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练,所述线上迭代训练包括将线上模型使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的危险废物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据;

利用所述更新后的训练数据重新训练所述预测模型。

6.根据权利要求2所述的方法,其特征在于,所述预处理至少还包括下述处理中的一种:

识别所述相关联的数据中的非文本数据,将所述非文本数据转换成文本数据,所述非文本数据包括生产工艺流程图、环评文件中的至少一种;

对所述训练数据进行计算概括,查找问题数据并进行修改或删除,用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。

7.根据权利要求1所述的方法,其特征在于,所述识别结果用于提供预警。

8.一种危险废物种类缺失申报的识别装置,其特征在于,所述装置包括:数据获取模块,用于获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联的数据包括企业基本信息、企业生产情况、企业管理计划中的至少一种;

预处理模块,用于将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;

预测模块,用于将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对应的预测危险废物种类,所述预设敏感信息是指与危险废物种类的产生有关的信息,所述预测模型的构建至少包括下述过程:获取分组数据对应的预设常见危险废物产生清单上的危险废物种类的产生条件数据,从所述产生条件中提取敏感信息,作为预设敏感信息,根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及与所述判别规则对应的标签,所述分组数据是指分组存在的训练数据;

识别模块,用于将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所述第一数据中的识别结果。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书 :

危险废物种类缺失申报的识别方法、装置、计算机设备

技术领域

[0001] 本公开涉及适用于管理和监督的数据处理技术领域,特别是涉及一种危险废物缺失申报的识别方法、装置、计算机设备、计算机可读存储介质、计算机程序产品。

背景技术

[0002] 随着环境监管领域技术的发展,出现了危险废物监管技术,这个技术能够对使用危险废物的目标对象进行监管,从而促进对生态保护的监管。现有的环境监管技术只可以
根据目标对象已申报的危险废物种类进行监管,无法满足生态环境监管部门发现目标对象
应申报但实际未申报的危险废物种类的需求,存在潜在环境风险。

发明内容

[0003] 基于此,有必要针对上述技术问题,提供一种危险废物种类缺失申报的识别方法、装置、计算机设备和存储介质。本公开的技术方案如下:
[0004] 根据本公开实施例的第一方面,提供一种危险废物种类缺失申报的识别方法,所述方法包括:
[0005] 获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联包括与目标对象在一个或多个维度上存在关联;
[0006] 将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数
据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
[0007] 将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对
应的预测危险废物种类;
[0008] 将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所
述第一数据中的识别结果。
[0009] 在其中一个实施例中,所述预测模型的构建至少包括下述过程:
[0010] 获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,作为初始训练数据;
[0011] 对所述初始训练数据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据;
[0012] 利用所述训练数据训练得到预测模型。
[0013] 在其中一个实施例中,所述预测模型的构建至少包括下述过程:
[0014] 将训练数据进行规范化处理,所述规范化处理包括:对所述训练数据进行文本相似度计算,得到计算结果,根据第一预设阈值对所述计算结果进行过滤,得到达到预设阈值
的计算结果,将与所述达到预设阈值的计算结果相对应的文本映射到预先定义的语义词典
上。
[0015] 在其中一个实施例中,所述预测模型的构建至少包括下述过程:
[0016] 根据目标对象所属分类,对训练数据进行分组,得到分组数据;
[0017] 使用频繁项集挖掘算法挖掘所述分组数据,得到关于危险废物种类的频繁项集;
[0018] 根据所述关于危险废物种类的频繁项集,计算不同危险废物种类在相应分组数据中的出现概率;
[0019] 选择所述出现概率达到第二预设阈值的危险废物种类,构建常见危险废物产生清单。
[0020] 在其中一个实施例中,所述预测模型的构建至少包括下述过程:
[0021] 获取分组数据对应的所述常见危险废物产生清单上的危险废物种类的产生条件数据;
[0022] 从所述产生条件中提取敏感信息,作为预设敏感信息;
[0023] 根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及与所述判别规则对应的标签。
[0024] 在其中一个实施例中,所述预测模型的构建至少包括下述过程:
[0025] 对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练,所述线上迭代训练包括将线上模型使用结果用于所述出现概率的更新,所述线下迭代
训练包括将新增目标对象申报的危险废物种类数据和与所述新增目标对象相关联的数据
加入训练数据,得到更新后的训练数据;
[0026] 利用所述更新后的训练数据重新训练所述预测模型。
[0027] 在其中一个实施例中,所述预处理至少还包括下述处理中的一种:
[0028] 识别所述相关联的数据中的非文本数据,将所述非文本数据转换成文本数据,所述非文本数据包括生产工艺流程图、环评文件中的至少一种;
[0029] 对所述训练数据进行计算概括,查找问题数据并进行修改或删除,用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
[0030] 根据本公开实施例的第二方面,提供一种危险废物种类缺失申报的识别装置,所述装置包括:
[0031] 数据获取模块,用于获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联包括与目标对象在一个或多个维度上存在关联;
[0032] 预处理模块,用于将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的
数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
[0033] 预测模块,用于将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述
预设敏感信息对应的预测危险废物种类;
[0034] 识别模块,用于将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条
件,且未包含在所述第一数据中的识别结果。
[0035] 根据本公开实施例的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0036] 获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联包括与目标对象在一个或多个维度上存在关联;
[0037] 将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数
据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
[0038] 将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对
应的预测危险废物种类;
[0039] 将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所
述第一数据中的识别结果。
[0040] 根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一项所述的方法的步骤。
[0041] 根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被电子设备的处理器执行时,使得所述电子设备能够执行上述实施
例任一项所述的方法。
[0042] 上述危险废物种类缺失申报的识别方法、装置、计算机设备和存储介质,通过获取与所述目标对象相关联的数据并进行数据预处理,将预处理后的与所述目标对象相关联的
数据输入预先构建的危险废物种类预测模型,利用所述预测模型预测危险废物种类,将预
测的危险废物种类与目标对象申报的危险废物种类进行对比,从而识别目标对象缺失申报
的危险废物种类。

附图说明

[0043] 图1为一个实施例中危险废物种类缺失申报的识别方法的应用环境图;
[0044] 图2为一个实施例中危险废物种类缺失申报的识别方法的流程示意图;
[0045] 图3为一个实施例中危险废物种类缺失申报的识别装置的结构框图;
[0046] 图4为一个实施例中计算机设备的内部结构图。

具体实施方式

[0047] 为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不
用于限定本公开。
[0048] 本公开提供的危险废物种类缺失申报的识别方法,可以应用于如图1所示的应用环境中。其中,服务器102拥有数据接收端。服务器102获取目标对象申报的危险废物种类数
据和与所述目标对象相关联的数据,服务器102将所述申报的危险废物种类数据和所述相
关联的数据进行预处理,得到统一数据格式的数据,将所述第二数据(即所述与所述目标对
象相关联的数据经过所述预处理后得到的数据)输入预先构建的危险废物种类预测模型,
利用所述预测模型预测危险废物种类,将所述预测危险废物种类与所述申报的危险废物种
类数据进行对比,确定危险废物种类缺失申报的识别结果。其中,服务器102可以用独立的
服务器或者是多个服务器组成的服务器集群来实现,不公开不排除所述的服务器也可以包
括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
[0049] 在一个实施例中,如图2所示,提供了一种危险废物种类缺失申报的识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
[0050] S202,获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联包括与目标对象在一个或多个维度上存在关联。
[0051] 其中,危险废物种类一般是指《国家危险废物名录》中的危险废物种类。在《国家危险废物名录》中,危险废物被分为很多种类,大类称为“废物类别”,拥有废物类别代码,大类
下划分小类,表示小类的代码称为“废物代码”,本公开中的危险废物种类一般指的是所述
“废物代码”表示的危险废物种类。
[0052] 具体地,在国家危险废物名录中,危险废物种类可以用废物代码表示,例如医疗废物中的感染性废物的废物代码为841‑001‑01,焚烧处理残渣中的生活垃圾焚烧飞灰的废物
代码为772‑002‑18。所述目标对象可以是企业、居民组织或其他团体。所述申报的危险废物
种类数据可以是目标对象向监管部门申报的危险废物种类数据。所述相关联的数据可以是
与目标对象有关的任何数据。例如当所述目标对象是企业时,所述目标对象申报的危险废
物种类数据可以是企业向环保部门申报的危险废物种类数据,所述相关联的数据可以包括
企业基本信息、企业生产情况(如原辅材料、产品、生产工艺、工段)、企业管理计划等信息数
据中的至少一种。
[0053] S204,将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第
一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据。
[0054] 具体地,所述申报的危险废物种类数据和所述相关联的数据,可以是多种数据格式的文本数据或者非文本数据。所述得到统一数据格式的数据,可以是相同格式的文本数
据或者非文本数据。预处理的目的是使数据方便使用。“第一数据”和“第二数据”这两个名
称仅用指代和区分相应的数据,名称本身没有特别的含义,可以替换为其他的名称。
[0055] S206,将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感
信息对应的预测危险废物种类。
[0056] 其中,预设敏感信息是指与危险废物种类的产生有关的信息。
[0057] 具体地,所述预测模型通过使用大量目标对象的申报的危险废物种类数据和与所述目标对象相关联的数据训练得到,所述预测模型中包含在所述训练过程中获得的预设敏
感信息,即所述与危险废物种类的产生有关的信息。
[0058] S208,将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包
含在所述第一数据中的识别结果。
[0059] 具体地,将所述预测的危险废物种类与所述第一数据(即目标对象申报的危险废物种类)进行对比,将预测结果(即所述预测的危险废物种类)中包含且申报结果(即所述第
一数据)中不包含的危险废物种类作为识别结果。需要说明的是,此处识别出的缺失申报的
危险废物种类,只是目标对象可能缺失申报的危险废物种类,并非一定是目标对象缺失申
报的危险废物种类,识别结果用于提供预警,方便相关人员进行排查、复核,及时消除危险
废物种类缺失申报的风险。
[0060] 上述危险废物种类缺失申报的识别方法中,利用所述预先构建的预测模型,依据所述与目标对象相关联的数据,预测所述目标对象应当申报的危险废物种类,将所述预测
结果与所述申报结果进行对比,识别出所述申报结果中缺失申报的危险废物种类。
[0061] 在一个实施例中,所述预测模型的构建至少包括下述过程:
[0062] 获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,作为初始训练数据。对所述初始训练数据进行缺失值数据处理、重复值数据处理、异常值数据处
理,得到训练数据。利用所述训练数据训练得到预测模型。
[0063] 其中,所述缺失值数据处理是指当目标对象无危险废物数据时,删除该目标对象的相关数据。所述重复值数据处理是指当获取的数据重复时,删除重复的数据。所述异常值
数据处理是指当危险废物种类数据不在最新版的国家危险废物名录中时,将相应的危险废
物种类数据删除。
[0064] 具体地,可以通过接口、ETL(ETL是Extract‑Transform‑Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)数据交
换等方式,获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据。所述
初始训练数据可以是大量目标对象申报的危险废物种类数据和大量与所述目标对象相关
联的数据,数据量越多,越有利于预测模型的训练。缺失值数据处理、重复值数据处理和异
常值数据处理可以由软件程序完成,也可以由人工完成。
[0065] 本实施例中,通过对所述初始训练数据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据,利用所述训练数据训练得到预测模型,能够达到优化训练数
据,从而提升预测模型训练效果,进而提升所述预测模型预测应申报危险废物种类的能力
的目的。
[0066] 在一个实施例中,所述预测模型的构建至少包括下述过程:将所述训练数据进行规范化处理。所述规范化处理包括:对所述训练数据进行文本相似度计算,得到计算结果,
根据第一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达
到预设阈值的计算结果相对应的文本映射到预先定义的语义词典上。
[0067] 其中,第一预设阈值是指人为设定的相似度阈值。预先定义的语义词典是指根据获取到的标准文件或人工制定的规则预先定义的语义词典。
[0068] 具体地,可以结合词项语义信息和TF‑IDF方法(TF是Term Frequency的缩写,中文名为词频,IDF是Inverse Document Frequency的缩写,中文名为逆文本频率指数,TF‑IDF
方法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件
的重要程度)对所述训练数据进行文本相似度计算,也可以使用其他文本相似度计算方法,
例如使用编辑距离算法。第一预设阈值的大小可以根据实际需要进行调整,例如可以是
90%、80%或者20%等。对所述训练数据进行文本相似度计算,得到计算结果,根据第一预设阈
值对所述计算结果进行过滤,得到达到预设阈值的计算结果。对于所述达到预设阈值的计
算结果,可以增加由人工或者计算机程序进行确认的步骤。将与所述达到预设阈值的计算
结果相对应的文本映射到预先定义的语义词典上,例如将相似度达到预设阈值的多个词语
映射到所述语义词典中的同一词语上,方便文本的查找和筛选。对于未达到预设阈值的数
据,则认定不属于同一类数据,无法进行映射。所述语义词典仅用于将多个相似文本映射到
同一文本上,没有特别的限制。
[0069] 本实施例中,通过对所述训练数据进行文本相似度计算,根据第一预设阈值对所述计算结果进行过滤,将与所述达到预设阈值的计算结果相对应的文本映射到预先定义的
语义词典上,能够达到训练所述预测模型快速识别所述第二数据中的预设敏感信息,进而
快速获取对应的预测危险废物种类的目的。
[0070] 在一个实施例中,所述预测模型的构建至少包括下述过程:根据目标对象所属分类,对所述训练数据进行分组,得到分组数据;使用频繁项集挖掘算法挖掘所述分组数据,
得到关于危险废物种类的频繁项集;根据所述关于危险废物种类的频繁项集,计算不同危
险废物种类在相应分组数据中的出现概率;选择所述出现概率达到第二预设阈值的危险废
物种类,构建常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在
相应分组数据中的出现概率。
[0071] 其中,第二预设阈值是指预设的危险废物种类在分组数据中的出现概率阈值。
[0072] 具体地,根据目标对象所属分类,例如当目标对象是企业时,可以根据企业所属国民经济行业分类对所述训练数据进行分组,得到分组数据。使用频繁项集挖掘算法,例如
Apriori算法(Apriori算法是一种关联规则挖掘算法),挖掘所述分组数据,得到关于危险
废物种类的频繁项集。根据所述关于危险废物种类的频繁项集,计算不同危险废物种类在
相应分组数据中的出现概率。选择所述出现概率达到第二预设阈值的危险废物种类,构建
常见危险废物产生清单。所述第二预设阈值可以根据实际使用需要进行设定,例如可以设
定为90%、80%、50%或者20%等。所述常见危险废物产生清单可以包括企业的不同行业分组、
不同行业的常见危险废物种类和常见危险废物种类在相应的分组数据中的出现概率(所述
在相应的分组数据中的出现概率即是在相应的行业分组中的出现概率)。例如在火力发电
行业中,获取到100家企业的数据,共申报10种危险废物种类,分别计算所述10种危险废物
种类在所述100家企业的申报危险废物种类数据中出现的次数,范围为0‑100,概率则为0‑
100%。假设频繁项阈值设置为70%,则在70家以上的企业申报危险废物种类数据中出现的危
险废物种类即为频繁项,纳入后续分析,少于70家的则不做后续分析。
[0073] 本实施例中,通过对所述训练数据进行分组,使用频繁项集挖掘算法挖掘分组数据中的危险废物种类频繁项集,计算危险废物种类在相应分组数据中的出现概率,构建常
见危险废物产生清单,能够达到帮助监管人员了解行业常见危险废物及其出现概率的目
的,也能够达到提升所述预测模型预测目标对象应申报危险废物准确度的目的,进而达到
提升所述预测模型识别目标对象缺失申报危险废物种类的准确度的目的。
[0074] 在一个实施例中,所述预测模型的构建至少包括下述过程:获取分组数据对应的所述常见危险废物产生清单上的危险废物种类的产生条件数据;从所述产生条件中提取敏
感信息,作为预设敏感信息;根据所述预设敏感信息,生成产生相应危险废物种类的判别规
则及与所述判别规则对应的标签。
[0075] 其中,产生条件是指可以用于预判危险废物种类产生的条件。
[0076] 具体地,通过人工或者计算机程序对达到预设阈值的危险废物种类进行深入分析,获取分组数据对应的所述常见危险废物产生清单上的危险废物种类的产生条件数据,
例如可以使用聚类算法探索各危险废物在该行业中的产生条件,所述产生条件可以是用于
预判危险废物种类产生的名词或者句子。从所述产生条件中提取敏感信息,作为预设敏感
信息,所述敏感信息可以是所述产生条件包含的关键词、关键短语或关键句子,也可以是从
所述产生条件中总结提炼出的关键词、关键短语或关键句子。根据所述预设敏感信息,生成
产生相应危险废物种类的判别规则及与所述判别规则对应的标签。例如对于危险废物种类
(在国家危险废物名录中,“烟气脱硝过程中产生的废钒钛系催化剂”属于HW50废催化剂,用
代码772‑007‑50表示),经分析发现,在火力发电行业中,当烟气脱硝工段中使用SCR(SCR是
Selective Catalytic Reduction的缩写,表示选择性催化还原法)进行脱硝处理时,会有
危险废物种类“烟气脱硝过程中产生的废钒钛系催化剂”产生,可以将判别规则确定为使用
SCR(选择性催化还原法)进行烟气脱硝,可以将标签确定为SCR脱硝(火力发电)。
[0077] 本实施例中,通过获取分组数据对应的所述常见危险废物产生清单上的危险废物种类的产生条件数据,从所述产生条件中提取敏感信息,生成产生相应危险废物种类的判
别规则及与所述判别规则对应的标签,能够达到生成行业危险废物种类产生的判别规则的
目的,也能够达到提升所述预测模型预测目标对象应申报危险废物准确度的目的,进而达
到提升所述预测模型识别目标对象缺失申报危险废物种类的准确度的目的。
[0078] 在一个实施例中,所述预测模型的构建至少包括下述过程:对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练,所述线上迭代训练包括将线
上模型使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的
危险废物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练
数据;利用所述更新后的训练数据重新训练所述预测模型。
[0079] 具体地,对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练。所述线上迭代训练包括将线上模型使用结果用于所述出现概率的更新,例如危
险废物种类X1的出现概率在迭代训练前为60.0%(60%由数据10家企业中有6家企业申报了
危险废物种类X1计算得到),预测模型在使用过程中获得新数据,即1家新增企业也产生了
危险废物种类X1。于是根据新数据对出现概率进行更新,更新后的出现概率为63.64%(11家
企业中有7家企业产生了危险废物X1,则出现概率为63.64%)。所述常见危险废物清单和所
述出现概率都会得到动态化更新。所述线下迭代训练包括将新增目标对象申报的危险废物
种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据。利
用所述更新后的训练数据重新训练所述预测模型。训练完成后,将所述预测模型重新推送
到线上使用。所述预测模型也可以用于线下使用。
[0080] 本实施例中,通过对所述预测模型进行迭代训练,包括线上迭代训练和线下迭代训练数据,能够达到及时更新预测模型,从而提升所述预测模型预测目标对象应申报危险
废物准确度的目的,进而达到提升所述预测模型识别目标对象缺失申报危险废物种类的准
确度的目的。
[0081] 在一个实施例中,所述预处理至少还包括下述处理中的一种:识别所述第二原始数据中的非文本数据,将所述非文本数据转换成文本数据,所述非文本数据包括生产工艺
流程图、环评文件中的至少一种;对所述训练数据进行计算概括,查找问题数据并进行修改
或删除,用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
[0082] 其中,环评文件是指建设项目环境影响评价文件。环评文件按照等级可分为:建设项目环境影响报告书、建设项目环境影响报告表和建设项目环境影响登记表三类。
[0083] 具体地,可以对所述第二原始数据中的非文本数据进行OCR识别(OCR是Optical Character Recognition的简称,中文含义为光学字符识别),将所述非文本数据转换成文
本数据。所述非文本数据可以包括生产工艺流程图、环评文件中的至少一种。对所述训练数
据进行计算概括,通过人工或者计算机程序查找问题数据并进行修改或删除,用于所述计
算概括的方法至少包括制表、制图、文本概括中的一种。
[0084] 本实施例中,通过在所述预处理过程中识别所述第二原始数据中的非文本数据并转换成文本数据,对所述训练数据进行计算概括,查找问题数据并进行修改或删除,能够达
到优化第二原始数据的目的,进而达到方便所述预测模型预测应申报危险废物种类的目
的。
[0085] 应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的
执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分
步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完
成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是
可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0086] 在一个实施例中,如图3所示,提供了一种危险废物种类缺失申报的识别装置,包括:数据获取模块、预处理模块、预测模块和识别模块,其中:
[0087] 数据获取模块S302,用于获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联包括与目标对象在一个或多个维度上存在关联;
[0088] 预处理模块S304,用于将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得
到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数
据;
[0089] 预测模块S306,用于将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取
所述预设敏感信息对应的预测危险废物种类;
[0090] 识别模块S308,用于将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生
条件,且未包含在所述第一数据中的识别结果。
[0091] 在一个实施例中,数据获取模块S302,用于实现下述处理:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,作为初始训练数据;对所述初始训练数
据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据。预测模块S306,
用于利用所述训练数据训练得到预测模型。
[0092] 在一个实施例中,预测模块S306,用于实现下述处理:将所述训练数据进行规范化处理,所述规范化处理包括:对所述训练数据进行文本相似度计算,得到计算结果,根据第
一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达到预设
阈值的计算结果相对应的文本映射到预先定义的语义词典上。
[0093] 在一个实施例中,预测模块S306,用于实现下述处理:根据目标对象所属分类,对所述训练数据进行分组,得到分组数据;使用频繁项集挖掘算法挖掘所述分组数据,得到关
于危险废物种类的频繁项集;根据所述关于危险废物种类的频繁项集,计算不同危险废物
种类在相应分组数据中的出现概率;选择所述出现概率达到第二预设阈值的危险废物种
类,构建常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在相应
分组数据中的出现概率。
[0094] 在一个实施例中,预测模块S306,用于实现下述处理:获取分组数据对应的所述常见危险废物产生清单上的危险废物种类的产生条件数据;从所述产生条件中提取敏感信
息,作为预设敏感信息;根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及
与所述判别规则对应的标签。
[0095] 在一个实施例中,预测模块S306,用于实现下述处理:对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练,所述线上迭代训练包括将线上模型
使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的危险废
物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据;
利用所述更新后的训练数据重新训练所述预测模型。
[0096] 在一个实施例中,预处理模块S304,用于实现下述处理:识别所述相关联的数据中的非文本数据,将所述非文本数据转换成文本数据,所述非文本数据包括生产工艺流程图、
环评文件中的至少一种;对所述训练数据进行计算概括,查找问题数据并进行修改或删除,
用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
[0097] 关于危险废物种类缺失申报的识别装置的具体限定可以参见上文中对于危险废物种类缺失申报的识别方法的限定,在此不再赘述。上述危险废物种类缺失申报的识别装
置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式
内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储
器中,以便于处理器调用执行以上各个模块对应的操作。
[0098] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。
其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该
内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备
的数据库用于存储目标对象申报的危险废物种类数据和与所述目标对象相关联的数据。该
计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行
时以实现一种危险废物种类缺失申报的识别方法。
[0099] 本领域技术人员可以理解,图4中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备
可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0100] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述本公开任一实施例所述的方法。
[0101] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0102] 在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0103] 关于上述实施例中的装置、计算机可读存储介质、计算机程序产品,计算机设备等,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此
处将不做详细阐述说明。
[0104] 需要说明的是,本公开所涉及的目标对象信息(包括但不限于目标对象设备信息、目标对象个体信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据
等),均为经目标对象授权或者经过各方充分授权的信息和数据。
[0105] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read‑
Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种
形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存
储器(Dynamic Random Access Memory,DRAM)等。
[0106] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛
盾,都应当认为是本说明书记载的范围。
[0107] 以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护
范围。因此,本公开专利的保护范围应以所附权利要求为准。