一种工程材料信息价格匹配方法、系统及存储介质转让专利

申请号 : CN202211440292.1

文献号 : CN115495507B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李珍珍赵博张海军徐忠崔爱民黄宜华

申请人 : 江苏鸿程大数据技术与应用研究院有限公司江苏皓盘云建网络科技有限公司

摘要 :

本发明公开了一种工程材料信息价格匹配方法、系统及存储介质,属于数据处理技术领域。本发明的方法首先构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;参考材料库和待匹配材料预处理;再根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,并将匹配到的材料信息按照相关性排序;再对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;最后对匹配材料价格单位换算。本发明基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。

权利要求 :

1.一种工程材料信息价格匹配方法,其特征在于,该方法具体步骤如下:步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;

步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;

步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;

步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;

步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;

步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串集合, 为第i个字符串,s为字符串的组合, 为信息熵, 为字符串 在字符串组合s出现的概率;

候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:其中, 为平均互信息,W为候选词,n为候选词长度, 是联合概率分布函数,和 分别为字符串 和 的边缘概率分布函数;

候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互信息的评估权重;

对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。

2.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。

3.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,参考材料库所述的参考材料库预处理具体方法为:参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;

参考材料库过滤去除名称为空的材料;

参考材料库的材料名称和规格统一转换为大写;

部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;

同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;

若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。

4.根据权利要求2所述的一种工程材料信息价格匹配方法,其特征在于,所述的待匹配材料预处理方法具体为:待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符;

待匹配材料名称和规格统一转换为大写;

同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。

5.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S3所述材料匹配方法如下:以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;

将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;

通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;

按照相关性排序,取出前10条数据记录作为匹配结果。

6.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S4所述匹配结果后处理具体方法如下:过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;

过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;

部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;

常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;

特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;

规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。

7.根据权利要求1所述的一种工程材料信息价格匹配方法,其特征在于,步骤S5所述匹配材料价格单位换算方法具体为:根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算;若单位不可进行转换或包含砖的材料,匹配材料不做处理。

8.一种工程材料信息价格匹配系统,其特征在于,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;

所述常用材料库和特殊材料库构建单元,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;

所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;

所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;

所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;

所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;

所述数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料;

所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串集合, 为第i个字符串,s为字符串的组合, 为信息熵, 为字符串 在字符串组合s出现的概率;

候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:其中, 为平均互信息,W为候选词,n为候选词长度, 是联合概率分布函数,和 分别为字符串 和 的边缘概率分布函数;

候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互信息的评估权重;

对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。

9.一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现如权利要求1所述一种工程材料信息价格匹配方法的步骤。

说明书 :

一种工程材料信息价格匹配方法、系统及存储介质

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种工程材料信息价格匹配方法、系统及存储介质。

背景技术

[0002] 随着大数据技术的发展,尤其是在建筑行业中,正在加速实现建筑行业信息智能化管理,其中建筑工程材料信息的管理是建筑行业信息化建设中不可或缺的组成部分。目前构建的建筑工程材料参考材料库中材料名称和规格命名不规范,且规格混合在材料名称中,在查询需匹配材料价格过程中,材料名称和规格与参考材料库中不一致,单位不一致,名称相似材料不同,相同材料名称不同,导致需要匹配材料与参考材料库无法匹配。
[0003] 针对以上问题,现有匹配方法是通过自然语言处理技术,并结合规则匹配实现。该方案采用新词发现对大量的数据进行挖掘,构建常用词库。基于常用词库对匹配出的材料进行规则匹配,显著提高匹配的准确度,并且解决人工进行材料价格匹配效率低的问题。

发明内容

[0004] 为了解决上述问题,本发明提出一种工程材料信息价格匹配方法,具体步骤如下:
[0005] 步骤S1:构建常用材料库和特殊材料库,采用新词发现技术对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
[0006] 步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
[0007] 步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
[0008] 步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
[0009] 步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
[0010] 进一步地,步骤S1中所述新词发现技术是根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
[0011] 使用现有工程材料的名称建立语料库,计算每个候选词的总体得分,按照总体得分进行排序,选出常用材料库和特殊材料库词语,总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息,
[0012] 候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
[0013]
[0014] 其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串集合, 为第i个字符串,s为字符串的组合, 为信息熵, 为字符串在字符串组合s出现的概率;
[0015] 候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
[0016]
[0017] 其中, 为平均互信息,W为候选词,n为候选词长度, 是联合概率分布函数, 和 分别为字符串 和 的边缘概率分布函数;
[0018] 候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
[0019]
[0020] 其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互信息的评估权重;
[0021] 对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
[0022] 进一步地,步骤S2中所述参考材料库和待匹配材料预处理具体是指对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段;待匹配材料含有名称,规格,单位描述字段。
[0023] 进一步地,参考材料库所述的参考材料库预处理具体方法为:
[0024] 参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符;
[0025] 参考材料库过滤去除名称为空的材料;
[0026] 参考材料库的材料名称和规格统一转换为大写;
[0027] 部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
[0028] 同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
[0029] 若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
[0030] 进一步地,所述的待匹配材料预处理方法具体为:
[0031] 待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
[0032] 待匹配材料名称和规格统一转换为大写;
[0033] 同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
[0034] 进一步地,步骤S3所述材料匹配方法如下:
[0035] 以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
[0036] 将分词存储在一个辅助表中,分词大小设置为2;辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
[0037] 通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
[0038] 按照相关性排序,取出前10条数据记录作为匹配结果。
[0039] 进一步地,步骤S4所述匹配结果后处理具体方法如下:
[0040] 过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料,遍历异义词材料表去除匹配结果中的异义词材料;
[0041] 过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B,遍历单向含义材料表去除匹配结果中的单向含义材料;
[0042] 部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料;对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料;对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料;
[0043] 常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除;
[0044] 特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除;
[0045] 规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
[0046] 进一步地,步骤S5所述匹配材料价格单位换算方法具体为:
[0047] 根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
[0048] 本发明还提供一种工程材料信息价格匹配系统,包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元,匹配材料价格单位换算单元和系统数据库;
[0049] 所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称;
[0050] 所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名;
[0051] 所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序;
[0052] 所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理;
[0053] 所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算;
[0054] 所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
[0055] 本发明另外提供一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤。
[0056] 综上所述,本发明提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。

附图说明

[0057] 图1为一种工程材料信息价格匹配方法步骤流程图;
[0058] 图2为一种工程材料信息价格匹配方法系统框架图。

具体实施方式

[0059] 为了能够更加清楚完整地描述本发明实施例中的技术方案,以下结合实施例中附图,对本发明做进一步详细描述说明。本发明所描述的具体实施例,以及基于本发明的其他实施例,均属于本发明保护范围。
[0060] 本发明的目的在于提供了一种工程材料信息价格匹配方法、系统及存储介质,通过构建常用材料库和特殊材料库,基于现有工程材料名称建立语料库丰富语义,解决匹配结果与待匹配材料明显不匹配问题。通过参考材料库和待匹配材料预处理,补全材料名称和规格信息作为别名,提高材料匹配的准确度。通过匹配结果后处理,采用规则匹配对部分特殊材料进行后处理后,进一步提高了匹配的准确度。
[0061] 如图1所示为本发明的一种工程材料信息价格匹配方法步骤如下:
[0062] 步骤S1:构建常用材料库和特殊材料库,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
[0063] 步骤S2:参考材料库和待匹配材料预处理,分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
[0064] 步骤S3:材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
[0065] 步骤S4:匹配结果后处理,对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
[0066] 步骤S5:匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
[0067] 其中,步骤S1中,新词发现技术主要根据信息熵和互信息两个评估指标对材料名称进行打分,材料名称得分计算方法如下:
[0068] 使用现有工程材料的名称建立语料库,计算每个候选词的总体得分。按照总体得分进行排序,选出常用材料库和特殊材料库词语。总体得分由信息熵和互信息两个指标组成,首先分别计算每个候选词的信息熵和互信息。
[0069] 候选词信息熵采用左邻熵和右邻熵评估左右相邻词的丰富程度,信息熵的计算公式如下:
[0070]
[0071] 其中,EL和ER分别为左邻熵和右邻熵, 和 分别为左邻字符串集合和右邻字符串集合, 为第i个字符串,s为字符串的组合, 为信息熵, 为字符串在字符串组合s出现的概率;
[0072] 候选词互信息用于评估一个字符串组合是否为有意义的新词,计算公式如下:
[0073]
[0074] 其中, 为平均互信息,W为候选词,n为候选词长度, 是联合概率分布函数, 和 分别为字符串 和 的边缘概率分布函数。
[0075] 候选词的总体得分用信息熵和互信息两个指标进行评估,计算公式如下:
[0076]
[0077] 其中, 为候选词的整体得分, 为候选词信息熵, 和 分别为信息熵和互信息的评估权重。
[0078] 对语料库中所有候选词计算其整体得分,根据得分进行排序,选取前1000的分词结果作为常用材料库词语。
[0079] 在实际工程应用中,常用材料库词语可根据具体使用场景的词语建立语料库,并对建立语料库进行挖掘,最终构建适用场景的常用材料库。本发明采用的常用材料库词语为建筑工程材料仅取其名称构建,例如:接头,焊条,砌块和砂布等。
[0080] 在实际工程应用中,特殊材料库可以根据需匹配材料的特殊属性要求。本发明采用特殊材料库词语为建筑工程材料的特殊工程要求,例如:非钢化,镀银,非泵送和防锈等。
[0081] 其中,步骤S2中,对参考材料库和待匹配材料名称title和规格specs分别进行预处理,参考材料库预处理后的材料名称作为别名title_alias和spec_alias,参考材料库含有材料名称,规格,单位,含税价,除税价,来源及区域描述字段。待匹配材料含有名称,规格,单位描述字段。参考材料库和待匹配材料预处理方法如下。
[0082] S201:参考材料库预处理具体方法:
[0083] 参考材料库格式校验,检测其信息字段是否有缺失,补全缺失值为空字符。
[0084] 参考材料库过滤去除名称为空的材料;
[0085] 参考材料库的材料名称和规格统一转换为大写;
[0086] 部分特殊材料补全描述信息,遍历特殊材料换算表对钢筋和砂浆材料进行代号换算,根据材料代号,获取参考材料库的材料名称和规格中缺少的描述信息作为补全信息;
[0087] 同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息;
[0088] 若预处理后的材料和规格名称不变,则将原始名称和规格作为材料别名和规格别名。
[0089] 在实际工程应用中,参考材料库经过步骤S201预处理后,材料和规格举例见表1所示:
[0090] 表1
[0091]
[0092] S202:待匹配材料预处理具体方法:
[0093] 待匹配材料格式校验,检测其材料信息字段是否有缺失,补全缺失值为空字符。
[0094] 待匹配材料名称和规格统一转换为大写;
[0095] 同义词材料补全描述信息,遍历同含义词表查找材料是否含有同含义词语,取同含义但未出现的词语作为补全信息。
[0096] 在实际工程应用中,待匹配材料经过步骤S202预处理后,材料和规格举例见表2所示:
[0097] 表2
[0098]
[0099] 进一步,步骤S3中,材料匹配,根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。材料匹配方法如下:
[0100] S301:以参考材料库的材料名称和规格别名title_alias和 spec_alias为全文索引;
[0101] S302:将分词存储在一个辅助表中,分词大小设置为2。辅助表内容为词语及词语在各条记录位置的映射关系,存储为倒排文件索引;
[0102] S303:通过倒排索引进行前查找,计算查看各条数据的相关性,相关性根据记录中的单词数,记录中唯一单词数,集合中单词的总数以及包含特定单词的记录数各因素进行计算;
[0103] S304:按照相关性排序,取出前10条数据记录作为匹配结果。
[0104] 在实际工程应用中,经过步骤S3材料匹配,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格相似,但是并未完全是同种材料,3
因此需要执行步骤4。若待匹配材料名称为砼(泵送型),规格为C25,单位为m ,匹配结果为表3所示:
[0105] 表3
[0106]
[0107] 进一步,步骤S4中,匹配结果后处理,对步骤S3材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理,具体处理内容如下:
[0108] S401:过滤异义词材料,异义词材料即材料名称相似,但是完全不同的材料。遍历异义词材料表去除匹配结果中的异义词材料;
[0109] S402:过滤单向含义材料,单向含义材料即需匹配材料A,材料B属于材料A,但是需匹配材料B,材料A不属于材料B。遍历单向含义材料表去除匹配结果中的单向含义材料;
[0110] S403:部分特殊材料处理,对于待匹配材料为水泥,若含有水泥等级,过滤匹配结果中水泥等级的材料。对于待匹配材料为钢筋,若可换算为标准钢筋种类代号,过滤匹配结果中钢筋代号相同的材料。对于待匹配材料为砂浆,若可换算为标准砂浆种类代号,过滤匹配结果中砂浆代号相同的材料。
[0111] S404:常用材料库过滤,待匹配材料名称包含的常用词列表,匹配结果中存在相同的常用词列表,否则去除。
[0112] S405:特殊材料库过滤,待匹配材料名称包含的特殊词列表,匹配材料中存在相同的特殊词列表,待匹配材料名称不包含的特殊词列表,匹配材料同样不包含该特殊词列表,否则去除。
[0113] S406:规格精确匹配过滤,若待匹配材料规格不为空则分割为多个条件,对于每个条件数字和字母进行完全匹配,否则去除。
[0114] 在实际工程应用中,经过步骤4匹配结果后处理,待匹配的材料均会有至少0个,最多10个材料作为匹配结果。匹配结果与待匹配材料名称或规格大概率属于同种材料。若待3
匹配材料名称为砼(泵送型),规格为C25,单位为m,匹配结果为表4所示:
[0115] 表4
[0116]
[0117] 进一步,步骤S5中,匹配材料价格单位换算,将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
[0118] 根据单位换算表,若单位为相同度量单位且可进行转换,则对价格按照单位进率进行换算。若单位不可进行转换或包含砖的材料,匹配材料不做处理。
[0119] 在实际工程应用中,经过步骤5匹配材料价格单位换算,待匹配的材料与匹配结果中材料单位一致,信息价格可供参考使用。
[0120] 为了实现上述一种工程材料信息价格匹配方法,本发明还包括一种工程材料信息价格匹配系统。
[0121] 如图2所示的一种工程材料信息价格匹配方法系统框架图,系统包括常用材料库和特殊材料库构建单元、参考材料库和待匹配材料预处理单元、材料匹配单元、匹配结果后处理单元和匹配材料价格单位换算单元和系统数据库。
[0122] 其中,所述常用材料库和特殊材料库构建单元,采用新词发现对现有工程材料数据进行挖掘,根据信息熵和互信息两个评估指标给材料名称打分,按照得分顺序选取常用材料和特殊材料名称。
[0123] 所述参考材料库和待匹配材料预处理单元分别对参考材料库和待匹配材料名称和规格起别名,将补全材料名称描述信息作为别名。
[0124] 所述材料匹配单元根据待匹配的材料名称和规格与参考材料库中的材料进行数据匹配,获取符合待匹配的材料信息,并将匹配到的材料信息按照相关性排序。
[0125] 所述匹配结果后处理单元对材料匹配出来的结果,采用规则匹配对部分特殊材料进行后处理。
[0126] 所述匹配材料价格单位换算单元将待匹配材料在参考材料库匹配出的材料中,单位不一致的材料进行单位价格换算。
[0127] 所属数据库存储上述参考材料库的材料数据,以及初步查询匹配的材料。
[0128] 在实施例中,提供了一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种工程材料信息价格匹配方法的步骤:获取常用材料库和特殊材料库,接收参考材料库和待匹配材料预处理,材料匹配,对材料匹配结果后处理,最后匹配材料价格单位换算。
[0129] 上面结合附图对本发明的实施例进行了详细描述,但是本发明并不仅限于上述描述的实施方式,在本领域本发明启示和权利要求保护范围内,其他形式的实施例,均属于本发明的保护范围。