危险废物种类缺失申报的识别方法、装置、计算机设备转让专利
申请号 : CN202111071916.2
文献号 : CN113515637B
文献日 : 2022-02-08
发明人 : 严加昊 , 丁汉其 , 潘晓英 , 秦小钟
申请人 : 神彩科技股份有限公司
摘要 :
权利要求 :
1.一种危险废物种类缺失申报的识别方法,其特征在于,所述方法包括:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联的数据包括企业基本信息、企业生产情况、企业管理计划中的至少一种;
将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对应的预测危险废物种类,所述预设敏感信息是指与危险废物种类的产生有关的信息,所述预测模型的构建至少包括下述过程:获取分组数据对应的预设常见危险废物产生清单上的危险废物种类产生条件数据,从所述产生条件数据中提取敏感信息,作为预设敏感信息,根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及与所述判别规则对应的标签,所述分组数据是指分组存在的训练数据;
将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所述第一数据中的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,作为初始训练数据;
对所述初始训练数据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据;
利用所述训练数据训练得到预测模型。
3.根据权利要求2所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:将所述训练数据进行规范化处理,所述规范化处理包括:对所述训练数据进行文本相似度计算,得到计算结果,根据第一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达到预设阈值的计算结果相对应的文本映射到预先定义的语义词典上。
4.根据权利要求3所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:根据目标对象所属分类,对所述训练数据进行分组,得到所述分组数据;
使用频繁项集挖掘算法挖掘所述分组数据,得到关于危险废物种类的频繁项集;
根据所述关于危险废物种类的频繁项集,计算不同危险废物种类在相应分组数据中的出现概率;
选择所述出现概率达到第二预设阈值的危险废物种类,构建所述常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在相应分组数据中的出现概率。
5.根据权利要求4所述的方法,其特征在于,所述预测模型的构建至少包括下述过程:对所述预测模型进行迭代训练,所述迭代训练包括线上迭代训练和线下迭代训练,所述线上迭代训练包括将线上模型使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的危险废物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据;
利用所述更新后的训练数据重新训练所述预测模型。
6.根据权利要求2所述的方法,其特征在于,所述预处理至少还包括下述处理中的一种:
识别所述相关联的数据中的非文本数据,将所述非文本数据转换成文本数据,所述非文本数据包括生产工艺流程图、环评文件中的至少一种;
对所述训练数据进行计算概括,查找问题数据并进行修改或删除,用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
7.根据权利要求1所述的方法,其特征在于,所述识别结果用于提供预警。
8.一种危险废物种类缺失申报的识别装置,其特征在于,所述装置包括:数据获取模块,用于获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据,所述相关联的数据包括企业基本信息、企业生产情况、企业管理计划中的至少一种;
预处理模块,用于将所述申报的危险废物种类数据和所述相关联的数据进行预处理,得到统一数据格式的数据,将所述申报的危险废物种类数据经过所述预处理后得到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
预测模块,用于将所述第二数据输入预先构建的危险废物种类预测模型,利用所述预测模型识别出所述第二数据中的预设敏感信息,根据识别出的预设敏感信息获取所述预设敏感信息对应的预测危险废物种类,所述预设敏感信息是指与危险废物种类的产生有关的信息,所述预测模型的构建至少包括下述过程:获取分组数据对应的预设常见危险废物产生清单上的危险废物种类的产生条件数据,从所述产生条件中提取敏感信息,作为预设敏感信息,根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及与所述判别规则对应的标签,所述分组数据是指分组存在的训练数据;
识别模块,用于将所述预测危险废物种类与所述第一数据进行对比,确定危险废物种类缺失申报的识别结果,所述缺失申报的识别结果包括满足预设的危险废物产生条件,且未包含在所述第一数据中的识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
说明书 :
危险废物种类缺失申报的识别方法、装置、计算机设备
技术领域
背景技术
根据目标对象已申报的危险废物种类进行监管,无法满足生态环境监管部门发现目标对象
应申报但实际未申报的危险废物种类的需求,存在潜在环境风险。
发明内容
据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
应的预测危险废物种类;
述第一数据中的识别结果。
的计算结果,将与所述达到预设阈值的计算结果相对应的文本映射到预先定义的语义词典
上。
训练包括将新增目标对象申报的危险废物种类数据和与所述新增目标对象相关联的数据
加入训练数据,得到更新后的训练数据;
数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
预设敏感信息对应的预测危险废物种类;
件,且未包含在所述第一数据中的识别结果。
据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据;
应的预测危险废物种类;
述第一数据中的识别结果。
例任一项所述的方法。
数据输入预先构建的危险废物种类预测模型,利用所述预测模型预测危险废物种类,将预
测的危险废物种类与目标对象申报的危险废物种类进行对比,从而识别目标对象缺失申报
的危险废物种类。
附图说明
具体实施方式
用于限定本公开。
据和与所述目标对象相关联的数据,服务器102将所述申报的危险废物种类数据和所述相
关联的数据进行预处理,得到统一数据格式的数据,将所述第二数据(即所述与所述目标对
象相关联的数据经过所述预处理后得到的数据)输入预先构建的危险废物种类预测模型,
利用所述预测模型预测危险废物种类,将所述预测危险废物种类与所述申报的危险废物种
类数据进行对比,确定危险废物种类缺失申报的识别结果。其中,服务器102可以用独立的
服务器或者是多个服务器组成的服务器集群来实现,不公开不排除所述的服务器也可以包
括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
下划分小类,表示小类的代码称为“废物代码”,本公开中的危险废物种类一般指的是所述
“废物代码”表示的危险废物种类。
代码为772‑002‑18。所述目标对象可以是企业、居民组织或其他团体。所述申报的危险废物
种类数据可以是目标对象向监管部门申报的危险废物种类数据。所述相关联的数据可以是
与目标对象有关的任何数据。例如当所述目标对象是企业时,所述目标对象申报的危险废
物种类数据可以是企业向环保部门申报的危险废物种类数据,所述相关联的数据可以包括
企业基本信息、企业生产情况(如原辅材料、产品、生产工艺、工段)、企业管理计划等信息数
据中的至少一种。
一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数据。
据或者非文本数据。预处理的目的是使数据方便使用。“第一数据”和“第二数据”这两个名
称仅用指代和区分相应的数据,名称本身没有特别的含义,可以替换为其他的名称。
信息对应的预测危险废物种类。
感信息,即所述与危险废物种类的产生有关的信息。
含在所述第一数据中的识别结果。
一数据)中不包含的危险废物种类作为识别结果。需要说明的是,此处识别出的缺失申报的
危险废物种类,只是目标对象可能缺失申报的危险废物种类,并非一定是目标对象缺失申
报的危险废物种类,识别结果用于提供预警,方便相关人员进行排查、复核,及时消除危险
废物种类缺失申报的风险。
结果与所述申报结果进行对比,识别出所述申报结果中缺失申报的危险废物种类。
理,得到训练数据。利用所述训练数据训练得到预测模型。
数据处理是指当危险废物种类数据不在最新版的国家危险废物名录中时,将相应的危险废
物种类数据删除。
换等方式,获取目标对象申报的危险废物种类数据和与所述目标对象相关联的数据。所述
初始训练数据可以是大量目标对象申报的危险废物种类数据和大量与所述目标对象相关
联的数据,数据量越多,越有利于预测模型的训练。缺失值数据处理、重复值数据处理和异
常值数据处理可以由软件程序完成,也可以由人工完成。
据,从而提升预测模型训练效果,进而提升所述预测模型预测应申报危险废物种类的能力
的目的。
根据第一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达
到预设阈值的计算结果相对应的文本映射到预先定义的语义词典上。
方法是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件
的重要程度)对所述训练数据进行文本相似度计算,也可以使用其他文本相似度计算方法,
例如使用编辑距离算法。第一预设阈值的大小可以根据实际需要进行调整,例如可以是
90%、80%或者20%等。对所述训练数据进行文本相似度计算,得到计算结果,根据第一预设阈
值对所述计算结果进行过滤,得到达到预设阈值的计算结果。对于所述达到预设阈值的计
算结果,可以增加由人工或者计算机程序进行确认的步骤。将与所述达到预设阈值的计算
结果相对应的文本映射到预先定义的语义词典上,例如将相似度达到预设阈值的多个词语
映射到所述语义词典中的同一词语上,方便文本的查找和筛选。对于未达到预设阈值的数
据,则认定不属于同一类数据,无法进行映射。所述语义词典仅用于将多个相似文本映射到
同一文本上,没有特别的限制。
语义词典上,能够达到训练所述预测模型快速识别所述第二数据中的预设敏感信息,进而
快速获取对应的预测危险废物种类的目的。
得到关于危险废物种类的频繁项集;根据所述关于危险废物种类的频繁项集,计算不同危
险废物种类在相应分组数据中的出现概率;选择所述出现概率达到第二预设阈值的危险废
物种类,构建常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在
相应分组数据中的出现概率。
Apriori算法(Apriori算法是一种关联规则挖掘算法),挖掘所述分组数据,得到关于危险
废物种类的频繁项集。根据所述关于危险废物种类的频繁项集,计算不同危险废物种类在
相应分组数据中的出现概率。选择所述出现概率达到第二预设阈值的危险废物种类,构建
常见危险废物产生清单。所述第二预设阈值可以根据实际使用需要进行设定,例如可以设
定为90%、80%、50%或者20%等。所述常见危险废物产生清单可以包括企业的不同行业分组、
不同行业的常见危险废物种类和常见危险废物种类在相应的分组数据中的出现概率(所述
在相应的分组数据中的出现概率即是在相应的行业分组中的出现概率)。例如在火力发电
行业中,获取到100家企业的数据,共申报10种危险废物种类,分别计算所述10种危险废物
种类在所述100家企业的申报危险废物种类数据中出现的次数,范围为0‑100,概率则为0‑
100%。假设频繁项阈值设置为70%,则在70家以上的企业申报危险废物种类数据中出现的危
险废物种类即为频繁项,纳入后续分析,少于70家的则不做后续分析。
见危险废物产生清单,能够达到帮助监管人员了解行业常见危险废物及其出现概率的目
的,也能够达到提升所述预测模型预测目标对象应申报危险废物准确度的目的,进而达到
提升所述预测模型识别目标对象缺失申报危险废物种类的准确度的目的。
感信息,作为预设敏感信息;根据所述预设敏感信息,生成产生相应危险废物种类的判别规
则及与所述判别规则对应的标签。
例如可以使用聚类算法探索各危险废物在该行业中的产生条件,所述产生条件可以是用于
预判危险废物种类产生的名词或者句子。从所述产生条件中提取敏感信息,作为预设敏感
信息,所述敏感信息可以是所述产生条件包含的关键词、关键短语或关键句子,也可以是从
所述产生条件中总结提炼出的关键词、关键短语或关键句子。根据所述预设敏感信息,生成
产生相应危险废物种类的判别规则及与所述判别规则对应的标签。例如对于危险废物种类
(在国家危险废物名录中,“烟气脱硝过程中产生的废钒钛系催化剂”属于HW50废催化剂,用
代码772‑007‑50表示),经分析发现,在火力发电行业中,当烟气脱硝工段中使用SCR(SCR是
Selective Catalytic Reduction的缩写,表示选择性催化还原法)进行脱硝处理时,会有
危险废物种类“烟气脱硝过程中产生的废钒钛系催化剂”产生,可以将判别规则确定为使用
SCR(选择性催化还原法)进行烟气脱硝,可以将标签确定为SCR脱硝(火力发电)。
别规则及与所述判别规则对应的标签,能够达到生成行业危险废物种类产生的判别规则的
目的,也能够达到提升所述预测模型预测目标对象应申报危险废物准确度的目的,进而达
到提升所述预测模型识别目标对象缺失申报危险废物种类的准确度的目的。
上模型使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的
危险废物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练
数据;利用所述更新后的训练数据重新训练所述预测模型。
险废物种类X1的出现概率在迭代训练前为60.0%(60%由数据10家企业中有6家企业申报了
危险废物种类X1计算得到),预测模型在使用过程中获得新数据,即1家新增企业也产生了
危险废物种类X1。于是根据新数据对出现概率进行更新,更新后的出现概率为63.64%(11家
企业中有7家企业产生了危险废物X1,则出现概率为63.64%)。所述常见危险废物清单和所
述出现概率都会得到动态化更新。所述线下迭代训练包括将新增目标对象申报的危险废物
种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据。利
用所述更新后的训练数据重新训练所述预测模型。训练完成后,将所述预测模型重新推送
到线上使用。所述预测模型也可以用于线下使用。
废物准确度的目的,进而达到提升所述预测模型识别目标对象缺失申报危险废物种类的准
确度的目的。
流程图、环评文件中的至少一种;对所述训练数据进行计算概括,查找问题数据并进行修改
或删除,用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
本数据。所述非文本数据可以包括生产工艺流程图、环评文件中的至少一种。对所述训练数
据进行计算概括,通过人工或者计算机程序查找问题数据并进行修改或删除,用于所述计
算概括的方法至少包括制表、制图、文本概括中的一种。
到优化第二原始数据的目的,进而达到方便所述预测模型预测应申报危险废物种类的目
的。
执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分
步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完
成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是
可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
到的数据记为第一数据,将所述相关联的数据经过所述预处理后得到的数据记为第二数
据;
所述预设敏感信息对应的预测危险废物种类;
条件,且未包含在所述第一数据中的识别结果。
据进行缺失值数据处理、重复值数据处理、异常值数据处理,得到训练数据。预测模块S306,
用于利用所述训练数据训练得到预测模型。
一预设阈值对所述计算结果进行过滤,得到达到预设阈值的计算结果,将与所述达到预设
阈值的计算结果相对应的文本映射到预先定义的语义词典上。
于危险废物种类的频繁项集;根据所述关于危险废物种类的频繁项集,计算不同危险废物
种类在相应分组数据中的出现概率;选择所述出现概率达到第二预设阈值的危险废物种
类,构建常见危险废物产生清单,所述常见危险废物产生清单还包括危险废物种类在相应
分组数据中的出现概率。
息,作为预设敏感信息;根据所述预设敏感信息,生成产生相应危险废物种类的判别规则及
与所述判别规则对应的标签。
使用结果用于所述出现概率的更新,所述线下迭代训练包括将新增目标对象申报的危险废
物种类数据和与所述新增目标对象相关联的数据加入训练数据,得到更新后的训练数据;
利用所述更新后的训练数据重新训练所述预测模型。
环评文件中的至少一种;对所述训练数据进行计算概括,查找问题数据并进行修改或删除,
用于所述计算概括的方法至少包括制表、制图、文本概括中的一种。
置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式
内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储
器中,以便于处理器调用执行以上各个模块对应的操作。
其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该
内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备
的数据库用于存储目标对象申报的危险废物种类数据和与所述目标对象相关联的数据。该
计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行
时以实现一种危险废物种类缺失申报的识别方法。
可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处将不做详细阐述说明。
等),均为经目标对象授权或者经过各方充分授权的信息和数据。
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read‑
Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种
形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存
储器(Dynamic Random Access Memory,DRAM)等。
盾,都应当认为是本说明书记载的范围。
说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护
范围。因此,本公开专利的保护范围应以所附权利要求为准。