一种基于数据分析的工程施工材料供应链管理系统转让专利

申请号 : CN202311471859.6

文献号 : CN117195891B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 梁艳仙李会敏余成影

申请人 : 成都航空职业技术学院

摘要 :

本发明公开了一种基于数据分析的工程施工材料供应链管理系统,属于语义识别技术领域,本发明中通过采集工程施工材料供应链表单的图像,并对图像进行文字识别,从而得到文字信息,实现自动录入工程施工材料供应链表单,再通过实体提取子系统提取文字信息中的实体,再采用实体关系提取子系统提取文字信息中的实体关系,根据实体与实体关系构建知识图谱,(56)对比文件Baosheng Yin 等.Entity relationextraction method based on fusion ofmultiple information and attentionmechanism.2020 IEEE 6th InternationalConference on Computer and Communications(ICCC).2021,2485-2490.

权利要求 :

1.一种基于数据分析的工程施工材料供应链管理系统,其特征在于,包括:工程施工材料供应链表单采集子系统、文字识别子系统、实体提取子系统、实体关系提取子系统、知识图谱构建子系统和知识图谱加密子系统;

所述工程施工材料供应链表单采集子系统用于采集工程施工材料供应链表单的图像;

所述文字识别子系统用于对图像上的文字进行识别,得到文字信息;所述实体提取子系统用于提取文字信息中的实体;所述实体关系提取子系统用于提取文字信息中的实体关系;

所述知识图谱构建子系统用于根据实体和实体关系,构建供应链知识图谱;所述知识图谱加密子系统用于对供应链知识图谱进行加密,得到加密图谱数据;

所述实体提取子系统包括:第一分段单元、第一特征提取单元、第一特征融合单元和第一CRF神经网络;

所述第一分段单元用于对文字信息进行分段处理,得到多个文字子段信息;

所述第一特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;

所述第一特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;

所述第一CRF神经网络对融合特征进行分类,得到文字信息中的实体;

所述实体关系提取子系统包括:第二分段单元、第二特征提取单元、第二特征融合单元、第一LSTM单元、第二LSTM单元、Concat单元和第二CRF神经网络;

所述第二分段单元用于对文字信息进行分段处理,得到文字子段信息;

所述第二特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;

所述第二特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;

所述第一LSTM单元用于对融合特征提取第一时间特征;

所述第二LSTM单元用于对融合特征提取第二时间特征;

所述Concat单元用于将第一时间特征和第二时间特征进行拼接,得到拼接时间特征;

所述第二CRF神经网络用于对拼接时间特征进行分类,得到文字信息中的实体关系;

所述第一特征提取单元或第二特征提取单元包括:第一特征提取子单元和第二特征提取子单元;

所述第一特征提取子单元用于将文字子段信息分成多个向量,并对每个向量加权处理,得到特征值;

所述第二特征提取子单元用于对所有特征值取平均值和最大特征值,并与特征值进行拼接,得到文字子段特征;

所述第一特征提取子单元的表达式为:

其中, 为第 个特征值, 为文字子段信息中第 个向量, 为第 个权重向量;

所述第二特征提取子单元的表达式为:

其中,为文字子段特征,为所有特征值的平均值, 为最大特征值, 为将 、 和所有 进行拼接;

所述第一特征融合单元或第二特征融合单元的表达式为:,

其中,为融合特征, 为将 个

进行拼接, 为双曲正切函数, 为对数函数, 为以自然常数为底的指数函数, 为取 的平均值, 为第 个文字子段特征, 为文字子段特征的数量;

所述实体提取子系统和实体关系提取子系统在应用时,采用是训练完成后的实体提取子系统和实体关系提取子系统,训练实体提取子系统和实体关系提取子系统的损失函数为:,

其中, 为损失值, 为最大差值,为第一比例系数,为第二比例系数, 为差值阈值,为自然常数, 为第 次训练时的标签, 为第 次训练时实体提取子系统或实体关系提取子系统的输出,用于表示当前的第 次训练, 用于表示在第次训练邻域的第 次训练, 为训练次数,为在取最大差值 时对应的标签,为在取最大差值 时对应的实体提取子系统或实体关系提取子系统的输出, 为对数函数,为取最大值。

2.根据权利要求1所述的基于数据分析的工程施工材料供应链管理系统,其特征在于,所述知识图谱加密子系统包括:密钥生成单元、第一加密单元和第二加密单元;

将密钥生成单元用于将私人密钥矩阵与系统密钥矩阵进行按位异或操作,得到图谱加密密钥矩阵;

所述第一加密单元用于图谱加密密钥矩阵与供应链知识图谱中每个实体关系或实体的数据进行按位异或操作,得到加密数据;

所述第二加密单元用于对加密数据进行多次取反操作,根据取反次数移动位置,得到加密图谱数据。

3.根据权利要求2所述的基于数据分析的工程施工材料供应链管理系统,其特征在于,所述第二加密单元的表达式为:,

其中, 为加密图谱数据上第 位的数据值, 为对加密数据上第位进行 次取反操作, 为移动的位数, 为 的二进制码的第 位, 为异或操作。

说明书 :

一种基于数据分析的工程施工材料供应链管理系统

技术领域

[0001] 本发明涉及语义识别技术领域,具体涉及一种基于数据分析的工程施工材料供应链管理系统。

背景技术

[0002] 在工程中,工程施工材料供应链信息为众多文档资料,在每次使用时,都需将新的文档资料录入到计算机系统,其在录入过程中,容易因为个人因素而录错信息,造成采购时的经济损失。同时,工程中所需材料众多,施工材料的供应商又分布在不同地区,且价格不同,优势不同,需要将所有施工材料的供应商罗列出来,进行精细化对比,从而获得采购方案。
[0003] 现有的供应链管理系统主要用于简单统计各个订单的供应商信息、价格和地点等具体信息,无法对整体的供应链架构进行呈现,且所有的工程施工材料供应链的信息存储在计算机系统中,更便于第三方窃取,保密性差。

发明内容

[0004] 针对现有技术中的上述不足,本发明提供的一种基于数据分析的工程施工材料供应链管理系统解决了以下问题:
[0005] 1、手动录入文档资料的录入时间长,且容易出错;
[0006] 2、现有的供应链管理系统无法对整体的供应链架构进行呈现;
[0007] 3、工程施工材料供应链的信息存储在计算机系统中,保密性差。
[0008] 为了达到上述发明目的,本发明采用的技术方案为:一种基于数据分析的工程施工材料供应链管理系统,包括:工程施工材料供应链表单采集子系统、文字识别子系统、实体提取子系统、实体关系提取子系统、知识图谱构建子系统和知识图谱加密子系统;
[0009] 所述工程施工材料供应链表单采集子系统用于采集工程施工材料供应链表单的图像;所述文字识别子系统用于对图像上的文字进行识别,得到文字信息;所述实体提取子系统用于提取文字信息中的实体;所述实体关系提取子系统用于提取文字信息中的实体关系;所述知识图谱构建子系统用于根据实体和实体关系,构建供应链知识图谱;所述知识图谱加密子系统用于对供应链知识图谱进行加密,得到加密图谱数据。
[0010] 进一步地,所述实体提取子系统包括:第一分段单元、第一特征提取单元、第一特征融合单元和第一CRF神经网络;
[0011] 所述第一分段单元用于对文字信息进行分段处理,得到多个文字子段信息;
[0012] 所述第一特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;
[0013] 所述第一特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;
[0014] 所述第一CRF神经网络对融合特征进行分类,得到文字信息中的实体。
[0015] 上述进一步地方案的有益效果为:本发明中采用分段单元对文字信息进行分段处理,从而实现对信息的切分,在每个文字子段信息中充分提取文字子段特征,再根据每个文字子段特征的情况,对各文字子段特征进行加权处理,再进行拼接操作,能实现根据每个文字子段特征的情况,自适应的调节文字子段特征的权重,便于各特征的体现,进行拼接操作,实现特征的汇集,将汇集特征输入CRF神经网络进行分类,通过前面结构对特征的充分提取,提高CRF神经网络的分类精度。
[0016] 进一步地,所述实体关系提取子系统包括:第二分段单元、第二特征提取单元、第二特征融合单元、第一LSTM单元、第二LSTM单元、Concat单元和第二CRF神经网络;
[0017] 所述第二分段单元用于对文字信息进行分段处理,得到文字子段信息;
[0018] 所述第二特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;
[0019] 所述第二特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;
[0020] 所述第一LSTM单元用于对融合特征提取第一时间特征;
[0021] 所述第二LSTM单元用于对融合特征提取第二时间特征;
[0022] 所述Concat单元用于将第一时间特征和第二时间特征进行拼接,得到拼接时间特征;
[0023] 所述第二CRF神经网络用于对拼接时间特征进行分类,得到文字信息中的实体关系。
[0024] 上述进一步地方案的有益效果为:本发明中实体关系提取子系统比实体提取子系统多了两个LSTM单元,由于实体关系提取子系统提取的是实体关系,因此,其更需要综合前后语义信息,因此,利用LSTM单元的记忆性,提高提取实体关系的精度。
[0025] 进一步地,所述第一特征提取单元或第二特征提取单元包括:第一特征提取子单元和第二特征提取子单元;
[0026] 所述第一特征提取子单元用于将文字子段信息分成多个向量,并对每个向量加权处理,得到特征值;
[0027] 所述第二特征提取子单元用于对所有特征值取平均值和最大特征值,并与特征值进行拼接,得到文字子段特征。
[0028] 进一步地,所述第一特征提取子单元的表达式为:
[0029] ,
[0030] 其中, 为第 个特征值, 为文字子段信息中第 个向量, 为第 个权重向量。
[0031] 进一步地,所述第二特征提取子单元的表达式为:
[0032] ,
[0033] 其中,为文字子段特征, 为所有特征值的平均值, 为最大特征值,为将 、 和所有 进行拼接。
[0034] 上述进一步地方案的有益效果为:本发明再将文字子段信息切分成多份,将每份向量进行加权处理,提取特征值,再从各个特征值中计算出平均值表征整个文字子段信息的整体水平,再筛选出最大值表征整个文字子段信息的显著特征,最终与所有特征值进行拼接,解决梯度消失的问题,防止特征提取过程中特征丢失。
[0035] 进一步地,所述第一特征融合单元或第二特征融合单元的表达式为:
[0036] ,
[0037] 其中,为融合特征, 为将 个进行拼接, 为双曲正切函数, 为对数函数,
为以自然常数为底的指数函数, 为取 的平均值, 为第 个文字子段特征, 为文字子段特征的数量。
[0038] 上述进一步地方案的有益效果为:本发明中对每个文字子段特征取平均值,利用进行线性放大,再采用 函数获取各个文字子段特征的权重值,根据各自的权重值对各文字子段特征进行加权,自适应的调节文字子段特征的权重,便于各特征的体现,进行拼接操作,实现特征的汇集。
[0039] 进一步地,所述实体提取子系统和实体关系提取子系统在应用时,采用是训练完成后的实体提取子系统和实体关系提取子系统,训练实体提取子系统和实体关系提取子系统的损失函数为:
[0040] ,
[0041] ,
[0042] ,
[0043] ,
[0044] 其中, 为损失值, 为最大差值, 为第一比例系数,为第二比例系数,为差值阈值,为自然常数, 为第 次训练时的标签, 为第 次训练时实体提取子系统或实体关系提取子系统的输出,用于表示当前的第 次训练,用于表示在第 次训练邻域的第 次训练, 为训练次数,为在取最大差值 时对应的标签,为在取最大差值 时对应的实体提取子系统或实体关系提取子系统的输出, 为对数函数, 为取最大值。
[0045] 上述进一步地方案的有益效果为:本发明中实体提取子系统和实体关系提取子系统的损失函数包括两部分,一部分实现粗训练,用于提高训练速度,另一部分实现精训练,用于提高预测精度,本发明中选取邻近训练次数中标签与实际输出差距中最大差值 ,以此体现多次训练的情况,邻近训练次数中的最大差值 大于差值阈值时,则说明实体提取子系统和实体关系提取子系统的训练深度还不足,因此,需要指数函数加快实体提取子系统和实体关系提取子系统的训练,在邻近训练次数中的最大差值 小于差值阈值时,设置对数函数,降低实体提取子系统和实体关系提取子系统中参数下降的幅度,实现实体提取子系统和实体关系提取子系统的预测值逐步向目标值逼近,提高分类精度。
[0046] 进一步地,所述知识图谱加密子系统包括:密钥生成单元、第一加密单元和第二加密单元;
[0047] 将密钥生成单元用于将私人密钥矩阵与系统密钥矩阵进行按位异或操作,得到图谱加密密钥矩阵;
[0048] 所述第一加密单元用于图谱加密密钥矩阵与供应链知识图谱中每个实体关系或实体的数据进行按位异或操作,得到加密数据;
[0049] 所述第二加密单元用于对加密数据进行多次取反操作,根据取反次数移动位置,得到加密图谱数据。
[0050] 进一步地,所述第二加密单元的表达式为:
[0051] ,
[0052] 其中, 为加密图谱数据上第 位的数据值, 为对加密数据上第 位进行 次取反操作, 为移动的位数, 为 的二进制码的第 位, 为异或操作。
[0053] 上述进一步地方案的有益效果为:本发明中私人密钥矩阵由个人的密码构成,系统密钥矩阵由本地端存储的密码构成,通过异或操作构成图谱加密密钥矩阵,将图谱加密密钥矩阵与供应链知识图谱中每个实体关系或实体的数据进行按位异或操作,实现对供应链知识图谱中每个实体关系或实体的加密,再多次取反,并根据取反情况,进行再次异或操作,从而再次加密, 的值可进行多次设置,增加加密过程的随机性。
[0054] 综上,本发明的有益效果为:本发明中通过采集工程施工材料供应链表单的图像,并对图像进行文字识别,从而得到文字信息,实现自动录入工程施工材料供应链表单,再通过实体提取子系统提取文字信息中的实体,再采用实体关系提取子系统提取文字信息中的实体关系,根据实体与实体关系构建知识图谱,从而实现对整体的供应链架构的呈现,再对知识图谱进行加密处理,从而防止第三方窃取,提高信息保密性。

附图说明

[0055] 图1为一种基于数据分析的工程施工材料供应链管理系统的系统框图;
[0056] 图2为实体提取子系统的结构示意图;
[0057] 图3为实体关系提取子系统的结构示意图。

具体实施方式

[0058] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0059] 如图1所示,一种基于数据分析的工程施工材料供应链管理系统,包括:工程施工材料供应链表单采集子系统、文字识别子系统、实体提取子系统、实体关系提取子系统、知识图谱构建子系统和知识图谱加密子系统;
[0060] 所述工程施工材料供应链表单采集子系统用于采集工程施工材料供应链表单的图像;所述文字识别子系统用于对图像上的文字进行识别,得到文字信息;所述实体提取子系统用于提取文字信息中的实体;所述实体关系提取子系统用于提取文字信息中的实体关系;所述知识图谱构建子系统用于根据实体和实体关系,构建供应链知识图谱;所述知识图谱加密子系统用于对供应链知识图谱进行加密,得到加密图谱数据。
[0061] 在本实施例中文字识别子系统可采用OCR文字识别算法。
[0062] 如图2所示,所述实体提取子系统包括:第一分段单元、第一特征提取单元、第一特征融合单元和第一CRF神经网络;
[0063] 所述第一分段单元用于对文字信息进行分段处理,得到多个文字子段信息;
[0064] 所述第一特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;
[0065] 所述第一特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;
[0066] 所述第一CRF神经网络对融合特征进行分类,得到文字信息中的实体。
[0067] 本发明中采用分段单元对文字信息进行分段处理,从而实现对信息的切分,在每个文字子段信息中充分提取文字子段特征,再根据每个文字子段特征的情况,对各文字子段特征进行加权处理,再进行拼接操作,能实现根据每个文字子段特征的情况,自适应的调节文字子段特征的权重,便于各特征的体现,进行拼接操作,实现特征的汇集,将汇集特征输入CRF神经网络进行分类,通过前面结构对特征的充分提取,提高CRF神经网络的分类精度。
[0068] 如图3所示,所述实体关系提取子系统包括:第二分段单元、第二特征提取单元、第二特征融合单元、第一LSTM单元、第二LSTM单元、Concat单元和第二CRF神经网络;
[0069] 所述第二分段单元用于对文字信息进行分段处理,得到文字子段信息;
[0070] 所述第二特征提取单元用于对文字子段信息进行特征提取,得到文字子段特征;
[0071] 所述第二特征融合单元用于对各文字子段特征进行加权,并对加权后的特征进行拼接操作,得到融合特征;
[0072] 所述第一LSTM单元用于对融合特征提取第一时间特征;
[0073] 所述第二LSTM单元用于对融合特征提取第二时间特征;
[0074] 所述Concat单元用于将第一时间特征和第二时间特征进行拼接,得到拼接时间特征;
[0075] 所述第二CRF神经网络用于对拼接时间特征进行分类,得到文字信息中的实体关系。
[0076] 本发明中实体关系提取子系统比实体提取子系统多了两个LSTM单元,由于实体关系提取子系统提取的是实体关系,因此,其更需要综合前后语义信息,因此,利用LSTM单元的记忆性,提高提取实体关系的精度。
[0077] 所述第一特征提取单元或第二特征提取单元包括:第一特征提取子单元和第二特征提取子单元;
[0078] 所述第一特征提取子单元用于将文字子段信息分成多个向量,并对每个向量加权处理,得到特征值;
[0079] 所述第二特征提取子单元用于对所有特征值取平均值和最大特征值,并与特征值进行拼接,得到文字子段特征。
[0080] 所述第一特征提取子单元的表达式为:
[0081] ,
[0082] 其中, 为第 个特征值, 为文字子段信息中第 个向量, 为第 个权重向量。
[0083] 所述第二特征提取子单元的表达式为:
[0084] ,
[0085] 其中, 为文字子段特征, 为所有特征值的平均值, 为最大特征值,为将 、 和所有 进行拼接。
[0086] 本发明再将文字子段信息切分成多份,将每份向量进行加权处理,提取特征值,再从各个特征值中计算出平均值表征整个文字子段信息的整体水平,再筛选出最大值表征整个文字子段信息的显著特征,最终与所有特征值进行拼接,解决梯度消失的问题,防止特征提取过程中特征丢失。
[0087] 所述第一特征融合单元或第二特征融合单元的表达式为:
[0088] ,
[0089] 其中,为融合特征, 为将 个进行拼接, 为双曲正切函数, 为对数函数,
为以自然常数为底的指数函数, 为取 的平均值, 为第 个文字子段特征, 为文字子段特征的数量。
[0090] 在本发明中,所述拼接均为Concat操作。
[0091] 本发明中对每个文字子段特征取平均值,利用 进行线性放大,再采用 函数获取各个文字子段特征的权重值,根据各自的权重值对各文字子段特征进行加权,自适应的调节文字子段特征的权重,便于各特征的体现,进行拼接操作,实现特征的汇集。
[0092] 所述实体提取子系统和实体关系提取子系统在应用时,采用是训练完成后的实体提取子系统和实体关系提取子系统,训练实体提取子系统和实体关系提取子系统的损失函数为:
[0093] ,
[0094] ,
[0095] ,
[0096] ,
[0097] 其中, 为损失值, 为最大差值,为第一比例系数,为第二比例系数,为差值阈值,为自然常数, 为第 次训练时的标签, 为第 次训练时实体提取子系统或实体关系提取子系统的输出,用于表示当前的第 次训练,用于表示在第 次训练邻域的第 次训练, 为训练次数,为在取最大差值 时对应的标签, 为在取最大差值 时对应的实体提取子系统或实体关系提取子系统的输出, 为对数函数, 为取最大值。
[0098] 本发明中实体提取子系统和实体关系提取子系统的损失函数包括两部分,一部分实现粗训练,用于提高训练速度,另一部分实现精训练,用于提高预测精度,本发明中选取邻近训练次数中标签与实际输出差距中最大差值 ,以此体现多次训练的情况,邻近训练次数中的最大差值 大于差值阈值时,则说明实体提取子系统和实体关系提取子系统的训练深度还不足,因此,需要指数函数加快实体提取子系统和实体关系提取子系统的训练,在邻近训练次数中的最大差值 小于差值阈值时,设置对数函数,降低实体提取子系统和实体关系提取子系统中参数下降的幅度,实现实体提取子系统和实体关系提取子系统的预测值逐步向目标值逼近,提高分类精度。
[0099] 在本发明中实体提取子系统和实体关系提取子系统采用相同的损失函数,但在具体训练时,训练样本的构建是不同的,对文字信息标记的标签是不同的,对于实体提取子系统来说,标签针对的对象为实体,对于实体关系提取子系统,标签针对的对象为实体关系。
[0100] 在本实施例中,本发明中的知识图谱可采用现有Neo4j知识图谱结构。实体包括:供应商的名称和地址等,实体关系包括:供货价格、供货品质、供货时间、供货量和供应商信用等便于用于全面展示的各种关系。本发明中知识图谱的实体与实体关系不限于本发明中指出的内容,其具体的结构可根据需求进行设置。
[0101] 所述知识图谱加密子系统包括:密钥生成单元、第一加密单元和第二加密单元;
[0102] 将密钥生成单元用于将私人密钥矩阵与系统密钥矩阵进行按位异或操作,得到图谱加密密钥矩阵;
[0103] 所述第一加密单元用于图谱加密密钥矩阵与供应链知识图谱中每个实体关系或实体的数据进行按位异或操作,得到加密数据;
[0104] 所述第二加密单元用于对加密数据进行多次取反操作,根据取反次数移动位置,得到加密图谱数据。
[0105] 所述第二加密单元的表达式为:
[0106] ,
[0107] 其中, 为加密图谱数据上第 位的数据值, 为对加密数据上第 位进行 次取反操作, 为移动的位数, 为 的二进制码的第 位, 为异或操作。
[0108] 本发明中私人密钥矩阵由个人的密码构成,系统密钥矩阵由本地端存储的密码构成,通过异或操作构成图谱加密密钥矩阵,将图谱加密密钥矩阵与供应链知识图谱中每个实体关系或实体的数据进行按位异或操作,实现对供应链知识图谱中每个实体关系或实体的加密,再多次取反,并根据取反情况,进行再次异或操作,从而再次加密, 的值可进行多次设置,增加加密过程的随机性。
[0109] 本发明中通过采集工程施工材料供应链表单的图像,并对图像进行文字识别,从而得到文字信息,实现自动录入工程施工材料供应链表单,再通过实体提取子系统提取文字信息中的实体,再采用实体关系提取子系统提取文字信息中的实体关系,根据实体与实体关系构建知识图谱,从而实现对整体的供应链架构的呈现,再对知识图谱进行加密处理,从而防止第三方窃取,提高信息保密性。
[0110] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。