施工质量隐患数据挖掘模型训练方法及挖掘系统转让专利

申请号 : CN202211522702.7

文献号 : CN115828926B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 钟波涛潘杏骆汉宾胡啸威沈罗昕

申请人 : 华中科技大学

摘要 :

本发明公开了一种施工质量隐患数据挖掘模型训练方法及挖掘系统,训练方法包括:训练第一至第三深度学习网络模型,三个基模型分别基于局部特征、词语语义与语义之间PMI值以及词语语义与文档之间的tf‑idf值、关键词确定词语语义权重;集成三个基模型得到数据挖掘模型;将每个本地挖掘模型参数加密后再通过区块链上传至星际文件系统并将哈希值存储于区块链;通过联邦平均算法将存储在星际文件系统中的多个加密模型参数进行加权平均,每个本地用户通过区块链下载更新模型参数;重复训练和共享参数过程直至模型收敛。集成相辅相成的三个基分类器得到数据挖掘模型,且集成区块链技术实现多个本地模型参数的共享,提高了数据挖掘模型的泛化能力和分类精度。

权利要求 :

1.一种施工质量隐患数据挖掘模型训练方法,其特征在于,包括:

步骤S1:用本地数据分别训练能够对工程施工质量隐患整改报告中的质量隐患描述对应的工程问题进行分类的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型,其中,所述第一深度学习网络模型基于分析质量隐患描述的局部特征确定词语语义权重,所述第二深度学习网络模型基于分析质量隐患描述的词语与词语之间PMI值以及词语与文档之间的tf‑idf值确定词语语义权重,所述第三深度学习网络模型基于提取质量隐患描述的关键词确定词语语义权重;

步骤S2:将每个本地所训练好的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型进行集成,得到对应本地的施工质量隐患数据挖掘模型;

步骤S3:将每个本地的施工质量隐患数据挖掘模型参数通过本地差分隐私技术进行加密后再通过区块链将加密后的模型参数上传至星际文件系统,并将加密后的模型参数的哈希值存储于区块链中;

步骤S4:通过联邦平均算法将存储在星际文件系统中的多个加密模型参数进行加权平均,形成更新后的模型参数并存储于星际文件系统中,更新后的模型参数的哈希值保存在区块链上;

步骤S5:每个本地用户通过区块链下载星际文件系统中更新后的模型参数;

步骤S6:判断更新参数后的所有本地施工质量隐患数据挖掘模型是否收敛,若否,则对未收敛的施工质量隐患数据挖掘模型继续进行本地训练直至收敛后跳转至步骤S3;若是,则结束当前训练。

2.如权利要求1所述的施工质量隐患数据挖掘模型训练方法,其特征在于,在步骤S6中,若更新参数后的所有本地施工质量隐患数据挖掘模型收敛,则结束当前训练并跳转至S7:步骤S7:对训练好的模型进行模型评估,若符合标准,则输出最终模型,若不符合标准,则增加本地训练样本并跳转至步骤S3继续训练。

3.如权利要求2所述的施工质量隐患数据挖掘模型训练方法,其特征在于,模型评估包括准确率、召回率和F1值的评估。

4.如权利要求1所述的施工质量隐患数据挖掘模型训练方法,其特征在于,在进行模型训练前,先执行:采集本地一定数量的工程施工质量隐患整改报告,并对质量隐患描述标注已经定义好的隐患标签;

对质量隐患描述进行分词后再转换为词向量矩阵,得到训练数据;

在进行模型训练时,使预测的工程问题的分类结果趋近于对应的隐患标签。

5.如权利要求4所述的施工质量隐患数据挖掘模型训练方法,其特征在于,对质量隐患描述进行分词后再转换为词向量矩阵,包括:借助jieba分词技术对质量隐患描述进行分词;

借助Word2vec词向量将分词后的质量隐患描述转化为词向量矩阵。

6.如权利要求1所述的施工质量隐患数据挖掘模型训练方法,其特征在于,所述第一深度学习网络模型包含卷积层、rule激活函数和最大池化层,通过分析局部特征确定词语语义权重;

所述第二深度学习网络模型包含计算综合词语与文档之间的tf‑idf值以及计算词语与词语之间的PMI值的计算结构,其中,通过计算词语与文档之间的tf‑idf值以计算词语与词语之间的PMI值确定词语语义权重;

所述第三深度学习网络模型包括双向LSTM、tanh非线性激活函数和注意力机制模块,通过提取关键词确定词语语义权重。

7.如权利要求1所述的施工质量隐患数据挖掘模型训练方法,其特征在于,在步骤S2中,通过顺序二次规划算法优化第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型的权重后,利用stacking策略集成第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型的权重,得到施工质量隐患数据挖掘模型。

8.如权利要求1所述的施工质量隐患数据挖掘模型训练方法,其特征在于,在将每个本地的施工质量隐患数据挖掘模型参数的哈希值存储于区块链中的同时,还将当前训练所用的本地数据存储于区块链中。

9.一种施工质量隐患数据挖掘系统,其特征在于,包括数据采集模块和施工质量隐患数据挖掘模型,其中,所述数据采集模块用于收集工程施工质量隐患整改报告中的质量隐患描述并进行数据预处理后输入所述施工质量隐患数据挖掘模型;

所述施工质量隐患数据挖掘模型为基于权利要求1至8任一项所述的施工质量隐患数据挖掘模型训练方法所训练得到的施工质量隐患数据挖掘模型,用于对工程施工质量隐患整改报告中的质量隐患描述对应的工程问题进行分类。

10.如权利要求9所述的施工质量隐患数据挖掘系统,其特征在于,还包括数据管理模块,用于在输出多份对不同的工程施工质量隐患整改报告所分类结果后分析质量隐患的时空分布特征。

说明书 :

施工质量隐患数据挖掘模型训练方法及挖掘系统

技术领域

[0001] 本发明属于施工质量诊控技术领域,更具体地,涉及一种施工质量隐患数据挖掘模型训练方法及挖掘系统。

背景技术

[0002] 近年来房屋建筑质量安全事故频发,不仅造成人员伤亡,也造成巨大的经济损失。在建筑产品施工建造过程中,工程质量问题难免会发生,工程质量不仅关系到工程的适应性和建设项目投资效果,而且关系到人民群众的生命财产安全。现场巡视做作为监理对工程质量控制的重要一环,针对工程施工过程中发现的问题,监理通常以质量隐患整改单的书面形式联系施工单位按时对发现的质量问题进行整改,质量隐患整改单在确保施工质量达规达标,排除施工质量隐患,保证建筑主体工程质量起到了很大的作用,在当前施工建造还未实现智能建造和数字建造之前是建筑精益建造的必然选择。
[0003] 质量隐患整改单为监理单位下发给施工单位对建筑工程项目中出现的质量问题进行整改的过程性表单,质量隐患整改单含有丰富的质量问题信息,对这些质量问题信息的知识获取和利用有助于工程人员提高对建筑工程质量控制水平。由于质量问题信息为非结构化文本信息且分散在不同质量隐患整改单中,工程人员对质量问题信息的获取和分析是一个耗时费力的过程,造成工程人员无法有效利用已有知识为建筑工程质量管理起到充分的借鉴作用,进而影响即时准确的对建筑工程项目进行质量控制与决策,因此对质量隐患描述这一非结构化工程文本进行知识建模和信息抽取对提高工程文本管理效率、增强隐性知识的利用和增强工程效益具有重要意义。

发明内容

[0004] 针对现有技术的以上缺陷或改进需求,本发明提供了一种施工质量隐患数据挖掘模型训练方法及挖掘系统,其目的在于快速对工程施工质量隐患整改报告中的工程问题进行分类,提高工程文本管理效率。
[0005] 为实现上述目的,按照本发明的一个方面,提供了一种施工质量隐患数据挖掘模型训练方法,其包括:
[0006] 步骤S1:用本地数据分别训练能够对工程施工质量隐患整改报告中的质量隐患描述对应的工程问题进行分类的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型,其中,所述第一深度学习网络模型基于分析质量隐患描述的局部特征确定词语语义权重,所述第二深度学习网络模型基于分析质量隐患描述的词语语义与语义之间PMI值以及词语语义与文档之间的tf‑idf值确定词语语义权重,所述第三深度学习网络模型基于提取质量隐患描述的关键词确定词语语义权重;
[0007] 步骤S2:将每个本地所训练好的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型进行集成,得到对应本地的施工质量隐患数据挖掘模型;
[0008] 步骤S3:将每个本地的施工质量隐患数据挖掘模型参数通过本地差分隐私技术进行加密后再通过区块链将加密后的模型参数上传至星际文件系统,并将加密后的模型参数的哈希值存储于区块链中;
[0009] 步骤S4:通过联邦平均算法将存储在星际文件系统中的多个加密模型参数进行加权平均,形成更新后的模型参数并存储于星际文件系统中,更新后的模型参数的哈希值保存在区块链上;
[0010] 步骤S5:每个本地用户通过区块链下载星际文件系统中更新后的模型参数;
[0011] 步骤S6:判断更新参数后的所有本地施工质量隐患数据挖掘模型是否收敛,若否,则对未收敛的施工质量隐患数据挖掘模型继续进行本地训练直至收敛后跳转至步骤S3;若是,则结束当前训练。
[0012] 在其中一个实施例中,在步骤S6中,若更新参数后的所有本地施工质量隐患数据挖掘模型收敛,则结束当前训练并跳转至S7:
[0013] 步骤S7:对训练好的模型进行模型评估,若符合标准,则输出最终模型,若不符合标准,则增加本地训练样本并跳转至步骤S3继续训练。
[0014] 在其中一个实施例中,模型评估包括准确率、召回率和F1值的评估。
[0015] 在其中一个实施例中,在进行模型训练前,先执行:
[0016] 采集本地一定数量的工程施工质量隐患整改报告,并对质量隐患描述标注已经定义好的隐患标签;
[0017] 对质量隐患描述进行分词后将再转换为词向量矩阵,得到训练数据;
[0018] 在进行模型训练时,使预测的工程问题的分类结果趋近于对应的隐患标签。
[0019] 在其中一个实施例中,对质量隐患描述进行分词后将再转换为词向量矩阵,包括:
[0020] 借助jieba分词技术对质量隐患描述进行分词;
[0021] 借助Word2vec词向量将分词后的质量隐患描述转化为词向量矩阵。
[0022] 在其中一个实施例中,所述第一深度学习网络模型包含卷积层、rule激活函数和最大池化层,通过分析局部特征确定词语语义权重;
[0023] 所述第二深度学习网络模型包含计算综合词与文档之间的tf‑idf值以及计算词与词之间的PMI值的计算结构,其中,通过计算词与文档之间的tf‑idf值以计算词语语义与词语之间的PMI值确定词语语义权重;
[0024] 所述第三深度学习网络模型包括双向LSTM、tanh非线性激活函数和注意力机制模块,通过提取关键词确定词语语义权重。
[0025] 在其中一个实施例中,在步骤S2中,通过顺序二次规划算法优化第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型的权重后,利用stacking策略集成第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型的权重,得到施工质量隐患数据挖掘模型。
[0026] 在其中一个实施例中,在将每个本地的施工质量隐患数据挖掘模型参数的哈希值存储于区块链中的同时,还将当前训练所用的本地数据存储于区块链中。
[0027] 按照本发明的另一方面,提供了一种施工质量隐患数据挖掘系统,其包括数据采集模块和施工质量隐患数据挖掘模型,其中,
[0028] 所述数据采集模块用于收集工程施工质量隐患整改报告中的质量隐患描述并进行数据预处理后输入所述施工质量隐患数据挖掘模型;
[0029] 所述施工质量隐患数据挖掘模型为基于上述施工质量隐患数据挖掘模型训练方法所训练得到的施工质量隐患数据挖掘模型,用于对工程施工质量隐患整改报告中的质量隐患描述对应的工程问题进行分类。
[0030] 在其中一个实施例中,还包括数据管理模块,用于在输出多份对不同的工程施工质量隐患整改报告所分类结果后分析质量隐患的时空分布特征。
[0031] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0032] (1)考虑施工质量隐患记录表达长短语言各异、非结构化等特征,本发明分别构建第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型,用本地数据对每个模型进行训练以实现工程施工质量隐患整改报告中工程问题进行分类。三个深度学习网络模型进行分类学习所侧重的特征不同。其中,第一深度学习网络模型主要是分析质量隐患描述的局部特征确定词语语义权重。第二深度学习网络模型基于分析质量隐患描述的词语语义与语义之间PMI值以及词语语义与文档之间的tf‑idf值确定词语语义权重。第三深度学习网络模型主要是基于提取质量隐患描述的关键词确定词语语义权重。通过训练优化各个模型内部的权重,使模型收敛,实现分类。在完成上述三个深度学习网络模型的训练后,以三个深度学习网络模型作为基分类器进行集成,得到最终所需的数据挖掘模型。由于前期已经进行了三个基分类器的学习,每个基分类器相辅相成,集成后能够增强数据挖掘模型的泛化能力,有效提高数据挖掘模型的收敛速度以及分类精度。
[0033] (2)当训练得到多个本地的数据挖掘模型后,本发明集成区块链技术实现多个本地模型参数的共享,通过多个本地模型参数的共享,进一步优化本地模型参数并继续进行本地训练,重复该过程直至所有本地模型收敛后完成训练。本发明结合区块链技术实现多个本地模型参数的共享,拓宽了数据获取的渠道,保证了数据来源的可靠性,进一步提高了数据挖掘模型的泛化能力和分类精度。
[0034] (3)在实现模型参数共享期间,本发明先通过本地差分隐私技术对模型参数进行加密,然后通过区块链将加密后的参数上传至对应的星际文件系统,同时将加密后的参数的哈希值存储于区块链中,通过差分隐私加密技术和在区块链上广播哈希值,可以防止攻击者对上传的相关参数进行查询或篡改,避免用户隐私信息安全的泄漏,提高整个训练过程信息的安全可靠。
[0035] (4)利用训练所得的施工质量隐患数据挖掘模型,能够自动识别和分类工程质量文本中各类类别(隶属工程、隐患问题和隐患解决方案等类别),提高工程文本管理效率,从而挖掘质量隐患关联规则和揭示质量隐患的时空分布特征,最终支持质量诊控方案制定决策。

附图说明

[0036] 图1是一实施例中的部分隐患标签;
[0037] 图2是一实施例中的施工质量隐患数据挖掘模型训练方法的步骤流程图;
[0038] 图3是一实施例中的不同本地模型参数进行存储与共享的示意图;
[0039] 图4是一实施例中的施工质量隐患数据挖掘模型训练方法的示意图。

具体实施方式

[0040] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0041] 在进行训练之前,需要收集工程施工质量隐患整改报告并对报告进行预处理后才能用于训练模型,预处理包括标注标签和隐患表述转换。具体包括以下步骤。
[0042] 步骤S001:采集本地一定数量的工程施工质量隐患整改报告。
[0043] 具体的,质量隐患整改报告为监理单位下发给施工单位对建筑工程项目中出现的质量问题进行整改的过程性,质量隐患整改报告含有丰富的质量问题信息。
[0044] 步骤S002:专家对工程施工质量隐患整改报告中的隐患描述标注对应的隐患标签。
[0045] 其中,先定义好程施工质量隐患标注标签,针对报告中的每一处隐患描述标注对应的隐患标签,该隐患标签即为隐患的工程问题分类,该分类可以为一级分类,也可以为多级分类。如图1所示为一实施例中的部分隐患标签,包括多个隐患隶属工程,每个隶属工程有分为多个具体的隐患问题,每个隐患问题对应有相应的隐患解决方案。施工质量隐患数据挖掘模型训练的目标为当输入工质量隐患整改报告中的隐患描述时,该数据挖掘模型能够自动分析出当前隐患描述属于哪一类隐患隶属工程中的哪一种隐患问题,并给出对应的隐患解决方案。例如,当输入的质量隐患描述为“卫生间防水层没有做好,渗漏情况严重”,该模型能够自动识别隐患描述隶属工程类别“防水工程”以及隐患问题类别“防水层起鼓开裂”。
[0046] 具体的,根据建筑工程领域内与工程施工质量监控审查相关的文档或部分内容定义工程施工质量隐患标注标签。来源包括:建设工程现行标准规范中的术语规范(如《建筑工程施工质量验收统一标准》(GB50300‑2013)、《建筑工程施工质量评价标准》(GB/T50375‑2016));各类规范文件中的术语定义部分(如,建筑工程质量通病防治手册,施工质量隐患整改规程等);专家经验总结;相关研究文献。
[0047] 步骤S003:对质量隐患描述进行分词后将再转换为词向量矩阵,得到训练数据。
[0048] 具体的,先借助jieba分词将质量隐患描述进行分词。例如,将“卫生间防水层没有做好,渗漏情况严重”分词为“卫生间防水层没有做好渗漏情况严重”。然后再借助Word2vec词向量将分词后质量隐患描述转化为词向量矩阵。例如,将“卫生间防水层没有做好渗漏情况严重”转化为词向量为128维度的矩阵w=[6,128],得到能够输入神经网络的训练数据。
[0049] 在得到训练数据后,可以将其分为训练集和测试集,训练集和测试集对应占比可为0.7:0.3或0.8:0.2。对模型进行训练,使模型预测的工程问题的分类结果趋近于对应的隐患标签。
[0050] 如图2所示为一实施例中的施工质量隐患数据挖掘模型训练方法的步骤流程图,其主要包括以下步骤。
[0051] 步骤S100:用本地数据分别训练能够对工程施工质量隐患整改报告中的质量隐患描述对应的工程问题进行分类的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型。
[0052] 其中,第一深度学习网络(TextCNN)模型能够提取工程施工质量隐患整改报告的局部特征,通过分析局部特征确定质量隐患描述的词语语义权重,实现分类,第二深度学习网络(TextGCN)模型能够提取工程施工质量隐患整改报告的全局特征,通过计算质量隐患描述的词语语义与语义之间的PMI值以及词语语义与文档之间的的tf‑idf值确定词语语义权重,实现分类,第三深度学习网络(TextRNN+attention)模型能够提取工程施工质量隐患整改报告的关键特征,通过分析质量隐患描述的关键词确定语义权重,实现分类。
[0053] 具体的,第一神经网络模型包括卷积层、rule激活函数、最大池化层。在输入质量隐患描述后,能够分析质量隐患描述的局部特征,即计算质量隐患描述的词语语义权重,通过训练优化权重,使分类结果朝预期收敛。
[0054] 第二神经网络模型具有tf‑idf值和PMI值计算结构,在输入质量隐患描述后,能够分析质量隐患描述的全部特征,即计算词语语义与文档之间的tf‑idf值以及计算词语语义与语义间的PMI(Point‑wise Mutual Information,点互信息)值,基于tf‑idf值和PMI值确定词语语义权重,通过训练优化权重,使分类结果朝预期收敛。
[0055] 第三神经网络模型包含双向LSTM、tanh非线性激活函数、注意力机制模块,能够提取质量隐患描述中关键词,确定词语语义权重,通过训练优化权重,使分类结果朝预期收敛。
[0056] 步骤S200:将每个本地所训练好的第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型进行集成,得到对应本地的施工质量隐患数据挖掘模型。
[0057] 以训练好的三个深度学习网络模型作为基分类器进行集成,具体可以通过顺序二次规划(SQP)算法优化第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型之间的权重后,利用stacking策略集成第一深度学习网络(TextCNN)模型局部特征、第三深度学习网络(TextRNN)模型关键特征、和第二深度学习网络(text‑GCN)模型全局特征,得到施工质量隐患数据挖掘模型。集成后的施工质量隐患数据挖掘模型,由于集成了三个基分类器的优点,具有更强的泛化能力和分类精度,在后续训练中也具有较快的收敛速度。
[0058] 步骤S300:将每个本地的施工质量隐患数据挖掘模型参数通过本地差分隐私技术进行加密后再通过区块链将加密后的模型参数上传至对应的星际文件系统,并将加密后的模型参数的哈希值存储于区块链中。
[0059] 具体的,该步骤具体可以分为以下步骤:
[0060] 步骤S310:借助本地差分隐私技术,加密训练后的本地模型参数。
[0061] 步骤S320:构建区块链网络,借助超级账本平台搭建了联盟链网络。
[0062] 步骤S330:利用Go语言调用多个本地训练的模型参数,通过区块链网络将多个加密的本地模型参数上传至IPFS(星际文件系统)中,同时,将模型参数的哈希值保存在构建好的区块链网络中。通过基于区块链的P2P对等网络,实现不同本地之间的质量隐患数据加密共享。
[0063] 步骤S400:通过联邦平均算法将存储在星际文件系统中的多个加密模型参数进行加权平均,形成更新后的模型参数并存储于星际文件系统中,更新后的模型参数的哈希值保存在区块链上。
[0064] 通过区块链对IPFS中存储的本地模型参数进行加权平均,借助联邦平均算法更新全局模型参数,对模型进行优化,优化后的模型参数继续存储在IPFS数据库中,其哈希值存储在区块链网络中并进行广播。在一实施例中,联邦平均为根据每个本地模型的训练样本数量进行加权平均。例如,所有工程项目在当前联邦迭代周期内的总样本数为n,第k个工程项目的在当前联邦迭代周期内的训练样本数量为nk,则在当前联邦迭代周期内进行联邦平均时,第k个工程项目对应的本地模型参数的权重为nk/n,加权计算后的模型参数聚合后形成更新后的模型参数。
[0065] 步骤S500:每个本地用户通过区块链下载星际文件系统中更新后的模型参数。
[0066] 步骤S600:判断更新参数后的所有本地施工质量隐患数据挖掘模型是否收敛,若否,则对未收敛的施工质量隐患数据挖掘模型继续进行本地训练直至收敛后跳转至步骤S300;若是,则结束当前训练。
[0067] 如图3所示,以施工方、监理、业主和政府作为一个建筑工程项目的利益参与主体,然后构建以建筑工程项目1,2,3,4为区块链网络节点的区块链网络,各个建筑工程项目先将数据挖掘模型在本地数据库(本地数据库1,2,3,4)上训练,然后借助本地差分隐私技术加密训练后的本地模型参数(CNN分类模型参数1,2,3,4)上传至IPFS数据库中,同时将参数的哈希值保存在构建好的区块链网络中,通过基于区块链的P2P对等网络,实现不同项目之间的质量隐患数据加密共享。
[0068] 在一实施例中,在所有模型收敛之后,则结束当前训练并跳转至
[0069] 步骤S700:对训练好的模型进行模型评估,若符合标准,则输出最终模型,若不符合标准,则增加本地训练样本并跳转至步骤S300继续训练。
[0070] 具体的,可以采用Precision、Recall和F1值指标进行衡量,Precision和Recall的计算公式如下:
[0071]
[0072]
[0073] 其中,真正例(True Positive,TP):表示实际为正被预测为正的样本数量,假正例(False Positive,FP):表示实际为负但被预测为正的样本的数量,假反例(False Negative,FN):表示实际为正但被预测为负的样本数量。
[0074] 分析输出的Precision,Recall和F1的值,若值在预设范围以内,则将经过深度学习处理过得到的结果发送至区块链网络;否则重新增加采集样本进行训练,直至准确值在预设范围以内。
[0075] 在一实施例中,在将每个本地的施工质量隐患数据挖掘模型参数的哈希值存储于区块链中的同时,还将当前训练所用的本地数据存储于区块链中。
[0076] 在一实施例中,可以根据实际需求定期或不定期地利用新建筑工程质量隐患数据对上述模块进行训练,优化各模块的内部参数。
[0077] 如图3和图4所示,通过区块链实现多个本地模型参数的集成,安全存储工程质量隐患数据并有效共享,借助本地差分隐私技术,加密本地模型参数,并将加密后的本地模型参数上传到IPFS数据库中,同时将参数的哈希值以及工程质量隐患数据保存在区块链网络中。通过联邦平均算法将多个本地模型参数进行加权平均,更新全局模型参数。借助准确率、召回率和F1值等评估指标,将优化后的集成学习施工隐患分类模型自动标注的质量隐患标注标签与人工标注的质量隐患标注标签做对比计算,对优化集成学习施工隐患分类模型进行评价。若准确率不佳,重复上述操作步骤,直至符合要求:优化后的分类模型参数存储在IPFS中,参数哈希值和工程质量隐患数据存储在区块链网络中并进行广播。同时,本地用户借助最终训练好的工程施工质量隐患数据挖掘模型,自动识别和分类工程质量文本中各类类别(隶属工程、隐患问题和解决方案),以供各参与方对质量隐患数据进行查询与质量隐患责任追溯。
[0078] 相应的,本申请还涉及一种施工质量隐患数据挖掘系统,其包括数据采集模块和经过上述方法训练得到的施工质量隐患数据挖掘模型。
[0079] 数据采集模块用于从工程施工质量隐患整改报告中收集质量隐患描述,质量隐患整改记录为监理单位下发给施工单位对建筑工程项目中出现的质量问题进行整改的过程性报告,质量隐患整改报告含有丰富的质量隐患信息。在一实施例中,数据采集模块还用于对质量隐患描述进行分词并转换为词向量矩阵后输入施工质量隐患数据挖掘模型,施工质量隐患数据挖掘模型自动对输入的质量隐患描述进行分类,输出其隶属工程、隐患问题和解决方案。在一实施例中,还进一步包括数据管理模块,可以根据质量隐患关联规则规律和可视化图表,把握质量隐患的时空分布特征,制定质量诊控方案决策。
[0080] 通过本发明提供的一种施工质量隐患数据挖掘模型训练方法及挖掘系统,具有以下效果:
[0081] (1)本发明考虑工程质量隐患整改文本记录信息冗杂,构建施工质量隐患数据挖掘模型,自动识别和分类工程质量文本中各类类别(隶属工程、隐患问题和隐患解决方案等类别),从而挖掘质量隐患关联规则和揭示质量隐患的时空分布特征,最终支持质量诊控方案制定决策。
[0082] (2)本发明考虑施工质量隐患记录表达长短语言各异、非结构化等特征,集成基于textCNN的质量隐患文本局部特征,基于图神经网络textGCN的质量隐患文本全局特征,基于textRNN+attention的质量隐患文本关键信息特征,最终形成强泛化能力和高精度的施工质量隐患数据挖掘模型;
[0083] (3)本发明集成区块链技术和深度学习算法,面向自动化工程质量隐患文本信息分类任务,将区块链技术、深度学习技术相结合,提高了文本分类结构化的速度和精度。同时,面向工程质量隐患数据,考虑区块链技术和深度学习算法集成痛点,例如:共享训练模型的参数(如深度神经网络训练的权值)仍可能存在泄露用户的隐私信息安全问题,攻击者对客户端训练上传的相关参数的查询差异进行分析工程中可能会获取参与用户的部分隐私信息,尤其是内部实体发起的攻击(如恶意用户、不信任的服务器等)威胁,本发明考虑差分隐私技术,利用本地差分隐私来扰动用户上传的模型参数;同时利用联邦平均算法将IPFS中保存的本地模型参数进行加权平均,更新全局模型参数,优化模型参数;将本地分类模型参数和更新后的全局模型参数存储在IPFS中,而区块链中只保存参数的哈希值,进而减少区块链网络的冗余。
[0084] (4)本发明借助区块链技术,拓宽了数据获取的渠道,保证了数据来源的可靠性。各类互联网+质量监管平台等在技术体系上多为中心化系统,由政府或可信第三方主导,存在数据被篡改的风险,给质量数据可信带来挑战,可追溯性差,追责困难,降低了参与方彼此间的信任和共享质量信息的积极性;区块链以其分布式储存信息、难以篡改、易于追溯的特性以及自动执行的智能合约等将合同信任转化为机器信任和代码信任,为互联网+质量监管提供进一步的信任基础,有望改变质量治理的模式和流程。
[0085] 总体而言,通过本发明可实现对建筑工程质量隐患信息价值的自动挖掘与存储,结合直观形象的结构化表示,有利于施工安全信息的学习和检索。
[0086] 本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。