一种结构化建设行业材料文件及材料数据识别管理方法转让专利

申请号 : CN201510160769.4

文献号 : CN104715359B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈红仙张晓张涛贺阳谭厚能

申请人 : 广东中建普联科技股份有限公司

摘要 :

本发明涉及一种结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本发明可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。

权利要求 :

1.一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,包括以下步骤:检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件;

检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件;

读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置;

从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值;

基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存;

其中,读取所述有效数据文件内容中的材料数据之前还包括以下步骤:

检测所述有效类型文件中表头的位置,并对所述表头的内容进行词义分析,确认出表头对应的数据列所代表的信息;

所述读取所述有效数据文件内容中的材料数据包括:根据所述数据列所代表的信息,相应从所述数据列中读取所需的材料数据。

2.根据权利要求1所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,从所述数据列中读取所需的材料数据之后,还包括以下步骤:通过字符识别将所述数据列中的无效数据进行清洗;

将所述材料数据与预设的国标材料数据库中的材料名称进行匹配的步骤具体为:将所述材料数据中的有效数据与预设的国标材料数据库中的材料名称进行匹配。

3.根据权利要求2所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括:通过字符识别,对所述数据列中的空行或无效字符做相应的清除处理,并相应进行全角/半角转换。

4.根据权利要求1所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,所述检测所述有效类型文件中表头的位置之后,还包括以下步骤:检测是否存在合并单元格;若是,则判断所述合并单元格是否为规格列;若是,则对其进行规范拆分。

5.根据权利要求1所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,对所述表头的内容进行词义分析之后,还包括以下步骤:基于所述词义分析,确定是否存在多个价格表头;若是,则根据预设的优先顺序选取对应的数据列中的优选价格数据;

所述得出所述有效数据文件的材料属性值的步骤中,将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。

6.根据权利要求1所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,所述检测所述有效类型文件中表头的位置的步骤具体为:检测所述表头所处的列数及行数,以确定所述表头的位置。

7.根据权利要求1至6任一项所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,所述结构化建设行业材料文件包括:以XML、Excel、Word或PDF格式呈现的建设行业材料文件。

8.根据权利要求7所述的一种结构化建设行业材料文件及材料数据识别管理方法,其特征在于,所述预设文件类型具体为Excel文件类型。

说明书 :

一种结构化建设行业材料文件及材料数据识别管理方法

技术领域

[0001] 本发明属于建设行业材料文件处理领域,尤其涉及一种结构化建设行业材料文件及材料数据识别管理方法。

背景技术

[0002] 目前,建设行业材料多达几十万种,材料来源呈多样化,且记载材料数据的材料文件格式各异,因此难以进行统一规范及管理。在行业信息化管理及使用过程中,如何将材料数据从材料文件中甄别、判断材料属性是否完全,及对同类材料进行去重、归类,一直是行业的痛点。
[0003] 现有技术中针对建设行业材料文件及材料数据的识别及管理主要还是基于人工操作的方式,即对各类型材料文件进行收集后,人工将甄选的材料数据归并入分类的Excel文件进行保存,以备后续查阅及使用。但是,这种方式显然存在工作效率低下、运营成本过高等缺陷。

发明内容

[0004] 本发明针对现有技术中存在的工作效率低、运营成本过高等缺陷,提出一种效率高且能够节约运营成本的结构化建设行业材料文件及材料数据识别管理方法。
[0005] 本发明提出的一种结构化建设行业材料文件及材料数据识别管理方法,其包括以下步骤:
[0006] 检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件;
[0007] 检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件;
[0008] 读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置;
[0009] 从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值;
[0010] 基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存。
[0011] 进一步,读取所述有效数据文件内容中的材料数据之前还包括以下步骤:
[0012] 检测所述有效类型文件中表头的位置,并对所述表头的内容进行词义分析,确认出表头对应的数据列所代表的信息;
[0013] 所述读取所述有效数据文件内容中的材料数据包括:根据所述数据列所代表的信息,相应从所述数据列中读取所需的材料数据。
[0014] 进一步,从所述数据列中读取所需的材料数据之后,还包括以下步骤:
[0015] 通过字符识别将所述数据列中的无效数据进行清洗;
[0016] 将所述材料数据与预设的国标材料数据库中的材料名称进行匹配的步骤具体为:将所述材料数据中的有效数据与预设的国标材料数据库中的材料名称进行匹配。
[0017] 进一步,通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括:通过字符识别,对所述数据列中的空行或无效字符做相应的清除处理,并相应进行全角/半角转换。
[0018] 进一步,所述检测所述有效类型文件中表头的位置之后,还包括以下步骤:
[0019] 检测是否存在合并单元格;若是,则判断所述合并单元格是否为规格列;若是,则对其进行规范拆分;
[0020] 进一步,对所述表头的内容进行词义分析之后,还包括以下步骤:
[0021] 基于所述词义分析,确定是否存在多个价格表头;若是,则根据预设的优先顺序选取对应的数据列中的优选价格数据;
[0022] 所述得出所述有效数据文件的材料属性值的步骤中,将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。
[0023] 进一步,所述检测所述有效类型文件中表头的位置的步骤具体为:检测所述表头所处的列数及行数,以确定所述表头的位置。
[0024] 进一步,所述结构化建设行业材料文件包括:以XML、Excel、Word或PDF格式呈现的建设行业材料文件。
[0025] 进一步,所述预设文件类型具体为Excel文件类型。
[0026] 有益效果:本发明提出的结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本发明可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。

附图说明

[0027] 图1为本发明提出的一种结构化建设行业材料文件及材料数据识别管理方法实施例的主要流程示意图。
[0028] 图2为本发明提出的一种结构化建设行业材料文件及材料数据识别管理方法实施例的详细流程示意图。

具体实施方式

[0029] 为了便于本领域技术人员理解,下面将结合附图以及实施例对本发明进行进一步描述。
[0030] 本发明提出的一种结构化建设行业材料文件及材料数据识别管理方法实施例,可由具备关系型数据库存储结构的单台电脑、局域网电脑及广域互联网电脑来实施,请参阅图1,其主要包括以下步骤S100至S500:
[0031] S100、检测接收到的结构化建设行业材料文件的文件类型是否属于预设文件类型,若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型,以形成有效类型文件。
[0032] 步骤S100中,所述结构化建设行业材料文件具体是指:诸如XML、Excel、Word或PDF等已经数字化、格式化的建设行业材料文件,而不是像TXT之类没格式化的、纯文本的文件。
[0033] 所述预设文件类型是指可以进行统一处理的文件类型,本实施例中的预设文件类型以Excel文件类型为例,以便于材料数据的识别及处理。
[0034] 因此,在步骤S100中,假设接收到(用户上传)的结构化建设行业材料文件为Excel文件,则确定其为有效类型文件,不需要进行格式转换;假设接收到(用户上传)的结构化建设行业材料文件为PDF文件,则需将其转换成有效类型文件,即转换成Excel文件。
[0035] S200、检测所述有效类型文件的内容,确定其是否存在三列以上非空数据,若是,则确定其为有效数据文件。
[0036] 步骤S200中,若所述有效类型文件中非空数据少于三列,说明该有效类型文件的材料数据非常不完整,没有信息化意义;为了提高识别及管理的效率,本实施例去除这类文件,优选处理存在三列以上非空数据的文件。
[0037] S300、读取所述有效数据文件内容中的材料数据,将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,得出所述有效数据文件的材料名称,并标记出其在所述有效数据文件中的位置。
[0038] 步骤S300中,所述国标材料数据库是按照国家规定的建设行业材料标准分类法建立的数据库,其包括各种材料对应的通用的材料名称及对应的属性单位等。本实施例将所述材料数据与预设的国标材料数据库中的材料名称进行匹配,可以大大提高材料识别的精度和管理的专业度。
[0039] 例如,国标材料数据库中存在通用的材料名称“圆钢”,同时,通过匹配发现所述有效数据文件内容中存在“圆钢”这一字样,则将“圆钢”作为所述有效数据文件的材料名称,同时标记所述有效数据文件内容中“圆钢”这一字样的位置。
[0040] 所述对材料名称位置的标记,以Excel文件为例,具体可以标记出该(匹配出的)材料名称在Excel文件中的行数和列数。
[0041] S400、从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值。
[0042] 在建设行业领域,材料属性包括“规格”、“单位”和“单价”等,所述国标材料数据库中的材料属性单位包括“t”和“元”等。假设所述国标材料数据库中材料名称“圆钢”对应的材料属性单位为“t”,在步骤S400中,读取所述有效数据文件中材料名称的位置之后的材料数据得到“10t”的字样(先匹配到“t”),则将(“t”所在的整个Excel单元格的材料数据)“10t”作为所述有效数据文件的材料属性值。
[0043] 步骤S400中,从所标记的材料名称的位置去识别材料属性值可以大大提高材料数据的识别效率。
[0044] S500、基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存。
[0045] 步骤S500中,所述有效数据文件中的材料数据均被有效甄别,基于甄别出来的材料名称和材料属性值形成关联属性数据(例如将上述“圆钢”与“10t”进行关联),该关联属性数据可供后续查询及使用,有助于提高查询及使用的效率及精确性。
[0046] 本实施例提出的结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本实施例可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。
[0047] 为了更好地实现本实施例的目的,本实施例还对各步骤做了进一步优化。
[0048] 具体的,步骤S300中读取所述有效数据文件内容中的材料数据之前还包括以下步骤S210:
[0049] S210、检测所述有效类型文件中表头的位置,并对所述表头的内容进行词义分析,确认出表头对应的数据列所代表的信息。
[0050] 在步骤S210的基础上,所述步骤S300中读取所述有效数据文件内容中的材料数据包括以下步骤S310:
[0051] S310、根据所述数据列所代表的信息,相应从所述数据列中读取所需的材料数据。
[0052] 步骤S210中,检测表头的位置具体可以通过检测所述表头所处的列数及行数来确定;而对所述表头内容的词义分析可以较大提高材料数据识别的效率。例如,从步骤S210中分析得出表头的内容为“名称”,则该表头对应的列(的单元格)中的材料数据很可能便是该有效数据文件的材料名称;如果需要读取该有效数据文件的材料名称,在步骤S310中便可只对该表头中对应的数据列中进行读取即可,而不需要读取所有的数据列。
[0053] 本实施例中,在步骤S310中从所述数据列中读取所需的材料数据之后,还包括以下步骤S320:
[0054] S320、通过字符识别将所述数据列中的无效数据进行清洗。
[0055] 在步骤S320的基础上,步骤S300中将所述材料数据与预设的国标材料数据库中的材料名称进行匹配的步骤具体为以下步骤S330:
[0056] S330、将所述材料数据中的有效数据与预设的国标材料数据库中的材料名称进行匹配。
[0057] 本实施例中的无效数据包括空行或无效字符等不具备识别价值的数据,同时还包括其格式不便于直接识别或使用的字符,例如全角或半角等,因此本实施例对这些无效数据进行了清洗,只保留(或使其形成)有效数据,这样能够有效减少数据量,降低数据的复杂度,提高数据的识别效率及数据的规范性,并节约存储空间资源。
[0058] 具体的,所述步骤S320中通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括:通过字符识别,对所述数据列中的空行或无效字符做相应的清除处理,并相应进行全角/半角转换。
[0059] 本实施例中,所述步骤S210中检测所述有效类型文件中表头的位置之后,还可包括以下步骤S220:
[0060] S220、检测是否存在合并单元格;若是,则判断所述合并单元格是否为规格列;若是,则对其进行规范拆分。
[0061] 由于用户上传的建设行业材料文件往往并非规范的文件,其中可能会出现合并单元格等影响本实施例的材料数据识别效率的情况,因此本实施步骤S220中还检测是否存在合并单元格,若存在合并单元格,则判断其是否为规格列,若是则可进行拆分;若否,则通常情况下应该是无法拆分的单元格,为了提高效率,可以不做拆分处理。
[0062] 基于以上步骤S100、S200、S210、S220、S300、S310、S320、S330、S400以及S500形成的详细流程示意图请参阅图2。
[0063] 此外,本实施例中所述步骤S210中对所述表头的内容进行词义分析之后,还可进一步包括以下步骤S215:
[0064] S215、基于所述词义分析,确定是否存在多个价格表头;若是,则根据预设的优先顺序选取对应的数据列中的优选价格数据;
[0065] 在步骤S215的基础上,所述步骤S400中得出所述有效数据文件的材料属性值具体为:将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。
[0066] 即当所述材料属性值具体指价格时,则根据预设的优先顺序选取对应的数据列中的优选价格,以提高材料数据识别的准确度。
[0067] 以下用三个具体实例来展示本发明实施例的具体应用过程(仅介绍主要流程)。
[0068] 实例1,以用户上传了内含“圆钢”这一材料数据的Excel文件为例,包括以下步骤:
[0069] L1、检测用户想要上传的文件是否是Excel、Word、PDF之类的结构化文件,若是,则允许上传。由于用户上传的是Excel文件,因此允许上传。
[0070] L2、检测用户上传的文件是否为预设文件类型,即Excel文件类型;若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型。由于用户上传的是Excel文件,因此可以确定其为有效类型文件,不需要进行转换。
[0071] L3、执行文件读取操作,并将读取到的材料数据与预设的国标材料数据库中的材料名称进行匹配,发现有“圆钢”字样,对该字样的位置进行标记。
[0072] L4、依据标记的文字位置,调取国标材料数据库中“圆钢”的属性单位,与从该标记字样“圆钢”起的后续文字进行匹配,获取该“圆钢”的属性值。假设获取到的规格“Q235”、单位“t”、和价格“3469”。
[0073] L5、将步骤L3获取到的“圆钢”与步骤L4获取到的规格“Q235”、单位“t”、和价格“3469”形成关联属性数据并保存。
[0074] L6、材料文件及材料数据已被有效甄别,进程结束。
[0075] 实例2,以用户上传了内含“沥青复合胎柔性防水卷材-双面膜”这一材料数据的Excel文件为例,包括以下步骤:
[0076] X1、检测用户想要上传的文件是否是Excel、Word、PDF之类的结构化文件,若是,则允许上传。由于用户上传的是Excel文件,因此允许上传。
[0077] X2、检测用户上传的文件是否为预设文件类型,即Excel文件类型;若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型。由于用户上传的是Excel文件,因此可以确定其为有效类型文件,不需要进行转换。
[0078] X3、执行文件读取操作,并将读取到的材料数据与预设的国标材料数据库中的材料名称进行匹配,发现有“沥青复合胎柔性防水卷材-双面膜”字样,对该字样的位置进行标记。
[0079] X4、依据标记的文字位置,调取国标材料数据库中“沥青复合胎柔性防水卷材-双面膜”的属性单位,与从该标记字样“沥青复合胎柔性防水卷材-双面膜”起的后续文字进行匹配,获取该“沥青复合胎柔性防水卷材-双面膜”的属性值。假设获取到的获取到(其中一2
面)“YH-GK-S3型号:35#,-5摄氏度”、单位“m”、价格“9.54”,以及(另一面)“YH-GK-S4型号:
45#,-10摄氏度”、单位“m2”、价格“13.91”。
[0080] X5、将步骤X3获取到的“沥青复合胎柔性防水卷材-双面膜”分别与步骤X4获取到(其中一面)“YH-GK-S3型号:35#,-5摄氏度”、单位“m2”、价格“9.54”,以及(另一面)“YH-GK-2
S4型号:45#,-10摄氏度”、单位“m”、价格“13.91”形成关联属性数据并保存。
[0081] X6、材料文件及材料数据已被有效甄别,进程结束。
[0082] 实例3,以用户上传了内含“氯丁橡胶沥青防水涂料”这一材料数据的PDF文件为例,包括以下步骤:
[0083] M1、检测用户想要上传的文件是否是Excel、Word、PDF之类的结构化文件,若是,则允许上传。由于用户上传的是PDF文件,因此允许上传。
[0084] M2、检测用户上传的文件是否为预设文件类型,即Excel文件类型;若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型。由于用户上传的是PDF文件,因此需要进行转换成Excel文件。
[0085] M3、执行文件读取操作,并将读取到的材料数据与预设的国标材料数据库中的材料名称进行匹配,发现有“氯丁橡胶沥青防水涂料”字样,对该字样的位置进行标记。
[0086] M4、依据标记的文字位置,调取国标材料数据库中“氯丁橡胶沥青防水涂料”的属性单位,与从该标记字样“氯丁橡胶沥青防水涂料”起的后续文字进行匹配,获取该“氯丁橡胶沥青防水涂料”的属性值。假设获取到的规格“AT-118”、单位“kg”、和价格“13.20”。
[0087] M5、将步骤M3获取到的“氯丁橡胶沥青防水涂料”与步骤M4获取到的规格“AT-118”、单位“kg”、和价格“13.20”形成关联属性数据并保存。
[0088] M6、材料文件及材料数据已被有效甄别,进程结束。
[0089] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。