车辆数据清洗方法、装置及存储介质转让专利

申请号 : CN202011231659.X

文献号 : CN112417861B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 周凯金振东徐嘉赟张明磊

申请人 : 明觉科技(北京)有限公司

摘要 :

本发明公开了一种车辆数据清洗方法、装置及存储介质。该方法包括:获取标准车辆数据。获取原始车辆数据。原始车辆数据包括原始车型数据时,根据原始车型数据和车型原子库对标准车型进行筛选得到指定标准车型。原始车辆数据包括原始配件数据时,根据原始配件数据和配件原子库对标准配件进行筛选得到指定标准配件。原始车辆数据包括原始配件功能属性数据时,根据原始配件功能属性数据和配件功能属性原子库对标准配件功能属性进行筛选,得到指定标准配件功能属性。本发明依据原始车辆数据对标准车辆数据进行筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。

权利要求 :

1.一种车辆数据清洗方法,其特征在于,所述数据清洗方法包括:获取标准车辆数据;

其中,所述标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;

获取原始车辆数据;

其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;

所述原始车辆数据包括原始车型数据时,对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;

所述原始车辆数据包括原始配件数据时,对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;所述指定标准配件为多个时,还包括对多个所述指定标准配件进行排序;

对多个所述指定标准配件进行排序的步骤包括:将每个所述指定标准配件的评分值设置为0;

获取与所述多个所述指定标准配件中的任一个所述指定标准配件存在对应关系的配件功能属性记为评分配件功能属性;

对每个所述评分配件功能属性执行如下步骤:分别计算每个所述指定标准配件相对于当前的所述评分配件功能属性的属性评分,将相对于当前的所述评分配件功能属性的属性评分最高的所述指定标准配件的评分值加1;

将所述指定标准配件按照评分值由高到低进行排序;

所述评分配件功能属性为有倾向性时,所述属性评分的计算公式为:其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;

所述评分配件功能属性为无倾向性时,所述配件评分的计算公式为:其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;

所述原始车辆数据包括原始配件功能属性数据时,对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。

2.根据权利要求1所述的车辆数据清洗方法,其特征在于,每个所述标准车型与至少一个所述标准配件存在对应关系,每个所述标准配件与至少一个所述标准配件功能属性存在对应关系;

所述标准车辆数据还包括原厂配件编码,每个所述标准配件与一个所述原厂配件编码存在对应关系;

所述原始车辆数据包括原始车型数据时,还包括获取与所述指定标准车型存在对应关系的所述标准配件,获取与所述指定标准车型存在对应关系的所述标准配件功能属性,获取与所述指定标准车型存在对应关系的所述原厂配件编码;

所述原始车辆数据包括原始配件数据时,还包括获取与所述指定标准配件存在对应关系的所述标准车型,获取与所述指定标准配件存在对应关系的所述标准配件功能属性,获取与所述指定标准配件存在对应关系的所述原厂配件编码;

所述原始车辆数据包括原始配件功能属性数据时,还包括获取与所述指定配件功能属性存在对应关系的所述标准车型,获取与所述指定配件功能属性存在对应关系的所述标准配件,获取与所述指定配件功能属性存在对应关系的所述原厂配件编码。

3.根据权利要求2所述的车辆数据清洗方法,其特征在于,所述原始车辆数据包括原始车型数据时,还包括根据与所述指定标准车型对应的所述原厂配件编码获取指定原厂车型数据,依据所述指定原厂车型数据对所述指定标准车型进行校验;

所述原始车辆数据包括原始配件数据时,还包括根据与所述指定标准配件对应的所述原厂配件编码获取指定原厂配件数据,依据所述指定原厂配件数据对所述指定标准配件进行校验;

所述原始车辆数据包括原始配件功能属性数据时,还包括根据与所述指定标准配件功能属性对应的所述原厂配件编码获取指定原厂配件功能属性数据,依据所述指定原厂配件功能属性数据对所述指定标准配件功能属性进行校验。

4.根据权利要求1所述的车辆数据清洗方法,其特征在于,存在至少两个所述指定标准配件的评分值相同时,从所述评分配件功能属性中获取核心评分配件功能属性,所述指定标准配件相对于所述核心评分配件功能属性的属性评分越高排序越靠前。

5.根据权利要求1所述的车辆数据清洗方法,其特征在于,所述标准车辆数据还包括车型配置评分,每个所述标准车型对应一个所述车型配置评分;

所述车型配置评分的计算方法包括:获取所述标准车型对应的原厂配件功能属性,根据所述标准车型对应的所述标准配件功能属性对所述原厂配件功能属性进行筛选得到匹配的原厂配件功能属性,计算所述匹配的原厂配件功能属性的总数与所述原厂配件功能属性总数的比值;

所述原始车辆数据包括原始车型数据时,还包括获取所述指定标准车型对应的所述车型配置评分。

6.根据权利要求1至5中任一所述的车辆数据清洗方法,其特征在于,所述标准车型包括以下至少之一:车型名称、工信部公告号、经销渠道销售版型、车身形式、国别。

7.一种车辆数据清洗装置,用于权利要求1-6任一项的车辆数据清洗方法,其特征在于,所述装置包括:

第一获取装置,用于获取标准车辆数据;

其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;

第二获取装置,用于获取原始车辆数据;

其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;

第一筛选装置,所述原始车辆数据包括原始车型数据时,所述第一筛选装置用于对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;

第二筛选装置,所述原始车辆数据包括原始配件数据时,所述第二筛选装置用于对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;

第三筛选装置,所述原始车辆数据包括原始配件功能属性数据时,所述第三筛选装置用于对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。

8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现上述权利要求1-6中任一所述方法的步骤。

说明书 :

车辆数据清洗方法、装置及存储介质

技术领域

[0001] 本发明涉及车辆数据匹配领域,具体涉及一种车辆数据清洗方法、装置及存储介质。

背景技术

[0002] 汽车后市场中,配件制造商、配件经销商以及配件电商平台等机构的零配件数据通常涉及多品牌、多品类、原厂、高仿、套包等不同类型的配件数据。由于车型变化快、中间
环节多,导致上述配件数据杂、乱、多、差,缺乏统一的数据管理标准。进而造成生产管理难、
库存管理难、信息被封锁、售后服务难、销售管理难等问题。
[0003] 图1为现有的厂方配件目录数据表格。如图1所示,现有的配件数据通常采用Excel或word作为载体来管理数据,通常将产品适配的车型填在一个单元格内。图2为现有的配件
匹配表格。如图2所示,配件商一般通过人工匹配转换成标准结构化的数据,人力成本高,且
匹配效率低。配件商在自行匹配时没有统一的标准数据做基础对标,由于对车型数据的理
解偏差和数据的缺乏,匹配后的数据精确度极低,后期仍需多次调整和匹配,仅可短期使
用。同时,目前配件商、制造厂商没有全面且标准的车型对应下的配件原厂编码以及功能属
性数据,自行匹配数据的局限性很大,这也是导致数据越来越不好管理的主要原因。通常情
况下,有能力进行数据化管理的制造厂方需要为每一个类目,例如火花塞,分别配备一名专
业的数据产品经理,进行日常的数据管理工作,对使用者的要求极高。
[0004] 因此,如何提高车辆数据清洗的效率、精确度和智能化水平,降低操作难度和维护成本成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

[0005] 有鉴于此,本发明实施例提供了一种车辆数据清洗方法、装置及存储介质,以解决现有技术中车辆数据清洗方法效率低、精确度低、操作难度高、维护成本高的问题。
[0006] 为此,本发明实施例提供了如下技术方案:
[0007] 本发明第一方面,提供了一种车辆数据清洗方法,包括:
[0008] 获取标准车辆数据;
[0009] 其中,所述标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;
[0010] 获取原始车辆数据;
[0011] 其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;
[0012] 所述原始车辆数据包括原始车型数据时,对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指
定标准车型;
[0013] 所述原始车辆数据包括原始配件数据时,对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指
定标准配件;
[0014] 所述原始车辆数据包括原始配件功能属性数据时,对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功
能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。
[0015] 进一步地,每个所述标准车型与至少一个所述标准配件存在对应关系,每个所述标准配件与至少一个所述标准配件功能属性存在对应关系;
[0016] 所述标准车辆数据还包括原厂配件编码,每个所述标准配件与一个所述原厂配件编码存在对应关系;
[0017] 所述原始车辆数据包括原始车型数据时,还包括获取与所述指定标准车型存在对应关系的所述标准配件,获取与所述指定标准车型存在对应关系的所述标准配件功能属
性,获取与所述指定标准车型存在对应关系的所述原厂配件编码;
[0018] 所述原始车辆数据包括原始配件数据时,还包括获取与所述指定标准配件存在对应关系的所述标准车型,获取与所述指定标准配件存在对应关系的所述标准配件功能属
性,获取与所述指定标准配件存在对应关系的所述原厂配件编码;
[0019] 所述原始车辆数据包括原始配件功能属性数据时,还包括获取与所述指定配件功能属性存在对应关系的所述标准车型,获取与所述指定配件功能属性存在对应关系的所述
标准配件,获取与所述指定配件功能属性存在对应关系的所述原厂配件编码。
[0020] 进一步地,所述原始车辆数据包括原始车型数据时,还包括根据与所述指定标准车型对应的所述原厂配件编码获取指定原厂车型数据,依据所述指定原厂车型数据对所述
指定标准车型进行校验;
[0021] 所述原始车辆数据包括原始配件数据时,还包括根据与所述指定标准配件对应的所述原厂配件编码获取指定原厂配件数据,依据所述指定原厂配件数据对所述指定标准配
件进行校验;
[0022] 所述原始车辆数据包括原始配件功能属性数据时,还包括根据与所述指定标准配件功能属性对应的所述原厂配件编码获取指定原厂配件功能属性数据,依据所述指定原厂
配件功能属性数据对所述指定标准配件功能属性进行校验。
[0023] 进一步地,所述指定标准配件为多个时,还包括对多个所述指定标准配件进行排序;
[0024] 对多个所述指定标准配件进行排序的步骤包括:
[0025] 将每个所述指定标准配件的评分值设置为0;
[0026] 获取与所述多个所述指定标准配件中的任一个所述指定标准配件存在对应关系的配件功能属性记为评分配件功能属性;
[0027] 对每个所述评分配件功能属性执行如下步骤:
[0028] 分别计算每个所述指定标准配件相对于当前的所述评分配件功能属性的属性评分,将相对于当前的所述评分配件功能属性的属性评分最高的所述指定标准配件的评分值
加1;
[0029] 将所述指定标准配件按照评分值由高到低进行排序。
[0030] 进一步地,所述评分配件功能属性为有倾向性时,所述属性评分的计算公式为:
[0031]
[0032] 其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括
标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
[0033] 所述评分配件功能属性为无倾向性时,所述配件评分的计算公式为:
[0034]
[0035] 其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准
配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。
[0036] 进一步地,存在至少两个所述指定标准配件的评分值相同时,从所述评分配件功能属性中获取核心评分配件功能属性,所述指定标准配件相对于所述核心评分配件功能属
性的属性评分越高排序越靠前。
[0037] 进一步地,所述标准车辆数据还包括车型配置评分,每个所述标准车型对应一个所述车型配置评分;
[0038] 所述车型配置评分的计算方法包括:获取所述标准车型对应的原厂配件功能属性,根据所述标准车型对应的所述标准配件功能属性对所述原厂配件功能属性进行筛选得
到匹配的原厂配件功能属性,计算所述匹配的原厂配件功能属性的总数与所述原厂配件功
能属性总数的比值;
[0039] 所述原始车辆数据包括原始车型数据时,还包括获取所述指定标准车型对应的所述车型配置评分。
[0040] 进一步地,所述标准车型包括以下至少之一:车型名称、工信部公告号、经销渠道销售版型、车身形式、国别。
[0041] 本发明第二方面,提供了一种车辆数据清洗装置,所述装置包括:
[0042] 第一获取装置,用于获取标准车辆数据;
[0043] 其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;
[0044] 第二获取装置,用于获取原始车辆数据;
[0045] 其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;
[0046] 第一筛选装置,所述原始车辆数据包括原始车型数据时,所述第一筛选装置用于对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型
原子库对所述标准车型进行筛选得到指定标准车型;
[0047] 第二筛选装置,所述原始车辆数据包括原始配件数据时,所述第二筛选装置用于对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件
原子库对所述标准配件进行筛选得到指定标准配件;
[0048] 第三筛选装置,所述原始车辆数据包括原始配件功能属性数据时,所述第三筛选装置用于对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所
述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,
得到指定标准配件功能属性。
[0049] 本发明第三方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本发明第一方面中任一所述方法的步骤。
[0050] 本发明实施例技术方案,具有如下优点:
[0051] 本发明实施例提供了一种车辆数据清洗方法、装置及存储介质。现有的车辆数据清洗方法通常为人工查找,效率低,操作难度高。本发明依据原始车辆数据对标准车辆数据
进行筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对
原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。

附图说明

[0052] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
[0053] 图1为现有的厂方配件目录数据表格。
[0054] 图2为现有的配件匹配表格。
[0055] 图3为本发明实施例的车辆数据清洗方法流程图。
[0056] 图4为本发明实施例的车辆数据清洗装置结构框图。

具体实施方式

[0057] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于
本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本申请保护的范围。
[0058] 在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时
针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于
描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特
定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于
描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在
本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0059] 在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可
以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间
接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术
人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
[0060] 在本申请中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它
们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特
征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在
第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示
第一特征水平高度小于第二特征。
[0061] 下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并
且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,
这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的
关系。此外,本申请提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以
意识到其他工艺的应用和/或其他材料的使用。
[0062] 图3为本发明实施例的车辆数据清洗方法流程图。如图3所示,车辆数据清洗方法包括如下步骤:
[0063] S1:获取标准车辆数据;
[0064] 其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库。本实施例中,标准车型包括以下至少之一:车型名称、工
信部公告号、经销渠道销售版型、车身形式、国别。车型原子库包括车型俗称,配件原子库包
括配件俗称,配件功能属性原子库包括配件功能属性俗称。每个标准车型对应至少一个车
型俗称,每个标准配件对应至少一个配件俗称,每个标准配件功能属性对应至少一个配件
功能属性俗称。在汽车专业领域,同一配件名称既有书面称谓,如前保险杠皮、发动机罩、中
网,这些书面名称为配件标准名,也有行业当中的俗称,如前保,头盖,鬼面罩。前保即为前
保险杠皮,头盖即为发动机罩,鬼面罩即为中网。而且,一个物件往往还会存在很多个不同
的俗称,前保险杠皮的俗称有:前杠,前保,前杆,前泵把、前杠蒙皮等。标准车型、配件和标
准配件功能属性为书面称谓。
[0065] S2:获取原始车辆数据;
[0066] 其中,原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据。本实施例中,原始车型数据包括车型的俗称,原始配件数据包括配件的俗
称,原始配件功能属性数据包括配件功能属性的俗称。
[0067] S3:原始车辆数据包括原始车型数据时,对原始车型数据进行切词处理得到车型原子信息,根据车型原子信息和车型原子库对标准车型进行筛选得到指定标准车型。本实
施例中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆
数据进行筛选。
[0068] 原始车辆数据包括原始配件数据时,对原始配件数据进行切词处理得到配件原子信息,根据配件原子信息和配件原子库对标准配件进行筛选得到指定标准配件。本实施例
中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据
进行筛选。
[0069] 原始车辆数据包括原始配件功能属性数据时,对原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据配件功能属性原子信息和配件功能属性原子库对标
准配件功能属性进行筛选,得到指定标准配件功能属性。本实施例中,指定标准车型可选为
一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据进行筛选。
[0070] 本实施例中,切词处理包括将字段拆分为词。例如对“揽胜运动版”进行切词处理得到“揽胜”和“运动”,对“帕萨特领驭”进行切词处理得到“帕萨特”和“领驭”。标准关键词
优选包括品牌、厂商、底盘、车系、车型、排量、年款、发动机、变速箱和销售版型。
[0071] 现有的汽车配件数据清洗方法通常为人工查找,效率低,操作难度高。本发明通过对原始车辆数据进行匹配筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化
水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。本发明
将不同语义,不同维度的原始车辆数据通过切词处理转换成最细维度车型数据,有利于识
别和逻辑处理,极大地提高了标准化处理的效率。使用时,例如,“速腾2019舒适版1.4”通过
本发明实施例的车辆数据清洗方法可转化为:品牌-厂牌为“大众-一汽大众”,车组为“速
腾0J 2019”,车型为“速腾”,排量-发动机号为“1.4T-DJSA”,销售版型为“1.4TSI双离合
280TSI舒适型”,年款为“2019”以及标准车型信息为“MJS9208637”。此处区别于现有的搜索
反复在用户直接查询时提供的单车型查询,在目录匹配场景下为多车型查询。
[0072] 在一个具体的实施方式中,每个标准车型与至少一个标准配件存在对应关系,每个标准配件与至少一个标准配件功能属性存在对应关系。标准车辆数据还包括原厂配件编
码,每个标准配件与一个原厂配件编码存在对应关系。原始车辆数据包括原始车型数据时,
还包括获取与指定标准车型存在对应关系的标准配件,获取与指定标准车型存在对应关系
的标准配件功能属性,获取与指定标准车型存在对应关系的原厂配件编码。原始车辆数据
包括原始配件数据时,还包括获取与指定标准配件存在对应关系的标准车型,获取与指定
标准配件存在对应关系的标准配件功能属性,获取与指定标准配件存在对应关系的原厂配
件编码。原始车辆数据包括原始配件功能属性数据时,还包括获取与指定配件功能属性存
在对应关系的标准车型,获取与指定配件功能属性存在对应关系的标准配件,获取与指定
配件功能属性存在对应关系的原厂配件编码。
[0073] 与现有技术相比,本发明实施例提供的车辆数据清洗方法能够将原始车辆数据、标准车辆数据和原厂编码建立联系。本发明实施例对原始车型数据、原始配件数据和原始
配件功能属性数据分别进行处理,在得到多个处理结果时能够相互验证,提高了数据的稳
定性。
[0074] 在一个具体的实施方式中,原始车辆数据包括原始车型数据时,还包括根据与指定标准车型对应的原厂配件编码获取指定原厂车型数据,依据指定原厂车型数据对指定标
准车型进行校验。原始车辆数据包括原始配件数据时,还包括根据与指定标准配件对应的
原厂配件编码获取指定原厂配件数据,依据指定原厂配件数据对指定标准配件进行校验。
原始车辆数据包括原始配件功能属性数据时,还包括根据与指定标准配件功能属性对应的
原厂配件编码获取指定原厂配件功能属性数据,依据指定原厂配件功能属性数据对指定标
准配件功能属性进行校验。
[0075] 与现有技术相比,本发明实施例依据原厂数据对指定标准车型、指定标准配件或指定标准配件功能属性进行验证,提高了数据的可靠性。
[0076] 在一个具体的实施方式中,指定标准配件为多个时,还包括对多个指定标准配件进行排序。对多个指定标准配件进行排序的步骤包括:
[0077] 将每个指定标准配件的评分值设置为0。获取与多个指定标准配件中的任一个指定标准配件存在对应关系的配件功能属性记为评分配件功能属性。
[0078] 对每个评分配件功能属性执行如下步骤:
[0079] 分别计算每个指定标准配件相对于当前的评分配件功能属性的属性评分,将相对于当前的评分配件功能属性的属性评分最高的指定标准配件的评分值加1;
[0080] 将指定标准配件按照评分值由高到低进行排序。
[0081] 本实施例中,评分配件功能属性为有倾向性时,属性评分的计算公式为:
[0082]
[0083] 其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括
标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
[0084] 评分配件功能属性为无倾向性时,配件评分的计算公式为:
[0085]
[0086] 其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准
配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。
[0087] 与现有技术相比,本发明实施例提供的车辆数据清洗方法依据标准配件与原厂配件的近似度对标准配件进行评分,能够确定标准配件的配置高低。
[0088] 在一个具体的实施方式中,存在至少两个指定标准配件的评分值相同时,从评分配件功能属性中获取核心评分配件功能属性,指定标准配件相对于核心评分配件功能属性
的属性评分越高排序越靠前。
[0089] 本实施例中,可选根据实际需求增加核心功能属性的权重。
[0090] 在一个具体的实施方式中,标准车辆数据还包括车型配置评分,每个标准车型对应一个车型配置评分。车型配置评分的计算方法包括:获取标准车型对应的原厂配件功能
属性,根据标准车型对应的标准配件功能属性对原厂配件功能属性进行筛选得到匹配的原
厂配件功能属性,计算匹配的原厂配件功能属性的总数与原厂配件功能属性总数的比值。
原始车辆数据包括原始车型数据时,还包括获取指定标准车型对应的车型配置评分。
[0091] 与现有技术相比,本发明实施例提供的车辆数据清洗方法依据标准车型件与原厂车型的近似度对标准车型进行评分,能够确定标准车型的配置高低。
[0092] 在本实施例中还提供了一种车辆数据清洗装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能
的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,
或者软件和硬件的组合的实现也是可能并被构想的。
[0093] 图4为本发明实施例的车辆数据清洗装置结构框图,如图4所示,该装置包括:第一获取装置11,用于获取标准车辆数据。其中,标准车辆数据包括标准车型、车型原子库、标准
配件、配件原子库、标准配件功能属性和配件功能属性原子库。第二获取装置12,用于获取
原始车辆数据。其中,原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原
始配件功能属性数据。第一筛选装置13,原始车辆数据包括原始车型数据时,第一筛选装置
13用于对原始车型数据进行切词处理得到车型原子信息,根据车型原子信息和车型原子库
对标准车型进行筛选得到指定标准车型。第二筛选装置14,原始车辆数据包括原始配件数
据时,第二筛选装置14用于对原始配件数据进行切词处理得到配件原子信息,根据配件原
子信息和配件原子库对标准配件进行筛选得到指定标准配件。第三筛选装置15,原始车辆
数据包括原始配件功能属性数据时,第三筛选装置15用于对原始配件功能属性数据进行切
词处理得到配件功能属性原子信息,根据配件功能属性原子信息和配件功能属性原子库对
标准配件功能属性进行筛选,得到指定标准配件功能属性。
[0094] 本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的车辆数据清洗方法。
其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆
体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩
写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储
器的组合。
[0095] 虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所
限定的范围之内。