车辆数据清洗方法、装置及存储介质转让专利
申请号 : CN202011231659.X
文献号 : CN112417861B
文献日 : 2021-07-23
发明人 : 周凯 , 金振东 , 徐嘉赟 , 张明磊
申请人 : 明觉科技(北京)有限公司
摘要 :
权利要求 :
1.一种车辆数据清洗方法,其特征在于,所述数据清洗方法包括:获取标准车辆数据;
其中,所述标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;
获取原始车辆数据;
其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;
所述原始车辆数据包括原始车型数据时,对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;
所述原始车辆数据包括原始配件数据时,对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;所述指定标准配件为多个时,还包括对多个所述指定标准配件进行排序;
对多个所述指定标准配件进行排序的步骤包括:将每个所述指定标准配件的评分值设置为0;
获取与所述多个所述指定标准配件中的任一个所述指定标准配件存在对应关系的配件功能属性记为评分配件功能属性;
对每个所述评分配件功能属性执行如下步骤:分别计算每个所述指定标准配件相对于当前的所述评分配件功能属性的属性评分,将相对于当前的所述评分配件功能属性的属性评分最高的所述指定标准配件的评分值加1;
将所述指定标准配件按照评分值由高到低进行排序;
所述评分配件功能属性为有倾向性时,所述属性评分的计算公式为:其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,有)为同时包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,有)为同时包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
所述评分配件功能属性为无倾向性时,所述配件评分的计算公式为:其中,na为标准配件,op为评分配件功能属性,prn为第n个配置代码,S(na,op,无)为不包括标准配件和评分配件功能属性的非去重原厂车辆数据总数,S(na,op,prn,无)为不包括标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
所述原始车辆数据包括原始配件功能属性数据时,对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。
2.根据权利要求1所述的车辆数据清洗方法,其特征在于,每个所述标准车型与至少一个所述标准配件存在对应关系,每个所述标准配件与至少一个所述标准配件功能属性存在对应关系;
所述标准车辆数据还包括原厂配件编码,每个所述标准配件与一个所述原厂配件编码存在对应关系;
所述原始车辆数据包括原始车型数据时,还包括获取与所述指定标准车型存在对应关系的所述标准配件,获取与所述指定标准车型存在对应关系的所述标准配件功能属性,获取与所述指定标准车型存在对应关系的所述原厂配件编码;
所述原始车辆数据包括原始配件数据时,还包括获取与所述指定标准配件存在对应关系的所述标准车型,获取与所述指定标准配件存在对应关系的所述标准配件功能属性,获取与所述指定标准配件存在对应关系的所述原厂配件编码;
所述原始车辆数据包括原始配件功能属性数据时,还包括获取与所述指定配件功能属性存在对应关系的所述标准车型,获取与所述指定配件功能属性存在对应关系的所述标准配件,获取与所述指定配件功能属性存在对应关系的所述原厂配件编码。
3.根据权利要求2所述的车辆数据清洗方法,其特征在于,所述原始车辆数据包括原始车型数据时,还包括根据与所述指定标准车型对应的所述原厂配件编码获取指定原厂车型数据,依据所述指定原厂车型数据对所述指定标准车型进行校验;
所述原始车辆数据包括原始配件数据时,还包括根据与所述指定标准配件对应的所述原厂配件编码获取指定原厂配件数据,依据所述指定原厂配件数据对所述指定标准配件进行校验;
所述原始车辆数据包括原始配件功能属性数据时,还包括根据与所述指定标准配件功能属性对应的所述原厂配件编码获取指定原厂配件功能属性数据,依据所述指定原厂配件功能属性数据对所述指定标准配件功能属性进行校验。
4.根据权利要求1所述的车辆数据清洗方法,其特征在于,存在至少两个所述指定标准配件的评分值相同时,从所述评分配件功能属性中获取核心评分配件功能属性,所述指定标准配件相对于所述核心评分配件功能属性的属性评分越高排序越靠前。
5.根据权利要求1所述的车辆数据清洗方法,其特征在于,所述标准车辆数据还包括车型配置评分,每个所述标准车型对应一个所述车型配置评分;
所述车型配置评分的计算方法包括:获取所述标准车型对应的原厂配件功能属性,根据所述标准车型对应的所述标准配件功能属性对所述原厂配件功能属性进行筛选得到匹配的原厂配件功能属性,计算所述匹配的原厂配件功能属性的总数与所述原厂配件功能属性总数的比值;
所述原始车辆数据包括原始车型数据时,还包括获取所述指定标准车型对应的所述车型配置评分。
6.根据权利要求1至5中任一所述的车辆数据清洗方法,其特征在于,所述标准车型包括以下至少之一:车型名称、工信部公告号、经销渠道销售版型、车身形式、国别。
7.一种车辆数据清洗装置,用于权利要求1-6任一项的车辆数据清洗方法,其特征在于,所述装置包括:
第一获取装置,用于获取标准车辆数据;
其中,标准车辆数据包括标准车型、车型原子库、标准配件、配件原子库、标准配件功能属性和配件功能属性原子库;
第二获取装置,用于获取原始车辆数据;
其中,所述原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原始配件功能属性数据;
第一筛选装置,所述原始车辆数据包括原始车型数据时,所述第一筛选装置用于对所述原始车型数据进行切词处理得到车型原子信息,根据所述车型原子信息和所述车型原子库对所述标准车型进行筛选得到指定标准车型;
第二筛选装置,所述原始车辆数据包括原始配件数据时,所述第二筛选装置用于对所述原始配件数据进行切词处理得到配件原子信息,根据所述配件原子信息和所述配件原子库对所述标准配件进行筛选得到指定标准配件;
第三筛选装置,所述原始车辆数据包括原始配件功能属性数据时,所述第三筛选装置用于对所述原始配件功能属性数据进行切词处理得到配件功能属性原子信息,根据所述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现上述权利要求1-6中任一所述方法的步骤。
说明书 :
车辆数据清洗方法、装置及存储介质
技术领域
背景技术
环节多,导致上述配件数据杂、乱、多、差,缺乏统一的数据管理标准。进而造成生产管理难、
库存管理难、信息被封锁、售后服务难、销售管理难等问题。
匹配表格。如图2所示,配件商一般通过人工匹配转换成标准结构化的数据,人力成本高,且
匹配效率低。配件商在自行匹配时没有统一的标准数据做基础对标,由于对车型数据的理
解偏差和数据的缺乏,匹配后的数据精确度极低,后期仍需多次调整和匹配,仅可短期使
用。同时,目前配件商、制造厂商没有全面且标准的车型对应下的配件原厂编码以及功能属
性数据,自行匹配数据的局限性很大,这也是导致数据越来越不好管理的主要原因。通常情
况下,有能力进行数据化管理的制造厂方需要为每一个类目,例如火花塞,分别配备一名专
业的数据产品经理,进行日常的数据管理工作,对使用者的要求极高。
发明内容
定标准车型;
定标准配件;
能属性原子库对所述标准配件功能属性进行筛选,得到指定标准配件功能属性。
性,获取与所述指定标准车型存在对应关系的所述原厂配件编码;
性,获取与所述指定标准配件存在对应关系的所述原厂配件编码;
标准配件,获取与所述指定配件功能属性存在对应关系的所述原厂配件编码。
指定标准车型进行校验;
件进行校验;
配件功能属性数据对所述指定标准配件功能属性进行校验。
加1;
标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。
性的属性评分越高排序越靠前。
到匹配的原厂配件功能属性,计算所述匹配的原厂配件功能属性的总数与所述原厂配件功
能属性总数的比值;
原子库对所述标准车型进行筛选得到指定标准车型;
原子库对所述标准配件进行筛选得到指定标准配件;
述配件功能属性原子信息和所述配件功能属性原子库对所述标准配件功能属性进行筛选,
得到指定标准配件功能属性。
进行筛选能够实现原始车辆数据的标准化,提高了数据清洗的智能化水平。本发明通过对
原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。
附图说明
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
具体实施方式
本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例,都属于本申请保护的范围。
针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于
描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特
定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于
描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在
本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以是机械连接,也可以是电连接或可以相互通讯;可以是直接相连,也可以通过中间媒介间
接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术
人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特
征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在
第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示
第一特征水平高度小于第二特征。
且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,
这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的
关系。此外,本申请提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以
意识到其他工艺的应用和/或其他材料的使用。
信部公告号、经销渠道销售版型、车身形式、国别。车型原子库包括车型俗称,配件原子库包
括配件俗称,配件功能属性原子库包括配件功能属性俗称。每个标准车型对应至少一个车
型俗称,每个标准配件对应至少一个配件俗称,每个标准配件功能属性对应至少一个配件
功能属性俗称。在汽车专业领域,同一配件名称既有书面称谓,如前保险杠皮、发动机罩、中
网,这些书面名称为配件标准名,也有行业当中的俗称,如前保,头盖,鬼面罩。前保即为前
保险杠皮,头盖即为发动机罩,鬼面罩即为中网。而且,一个物件往往还会存在很多个不同
的俗称,前保险杠皮的俗称有:前杠,前保,前杆,前泵把、前杠蒙皮等。标准车型、配件和标
准配件功能属性为书面称谓。
称,原始配件功能属性数据包括配件功能属性的俗称。
施例中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆
数据进行筛选。
中,指定标准车型可选为一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据
进行筛选。
准配件功能属性进行筛选,得到指定标准配件功能属性。本实施例中,指定标准车型可选为
一个或多个。优选通过智能搜索中心(Ai Search)对标准车辆数据进行筛选。
优选包括品牌、厂商、底盘、车系、车型、排量、年款、发动机、变速箱和销售版型。
水平。本发明通过对原始车辆数据进行切词处理,提高了后续筛选的速度和精确度。本发明
将不同语义,不同维度的原始车辆数据通过切词处理转换成最细维度车型数据,有利于识
别和逻辑处理,极大地提高了标准化处理的效率。使用时,例如,“速腾2019舒适版1.4”通过
本发明实施例的车辆数据清洗方法可转化为:品牌-厂牌为“大众-一汽大众”,车组为“速
腾0J 2019”,车型为“速腾”,排量-发动机号为“1.4T-DJSA”,销售版型为“1.4TSI双离合
280TSI舒适型”,年款为“2019”以及标准车型信息为“MJS9208637”。此处区别于现有的搜索
反复在用户直接查询时提供的单车型查询,在目录匹配场景下为多车型查询。
码,每个标准配件与一个原厂配件编码存在对应关系。原始车辆数据包括原始车型数据时,
还包括获取与指定标准车型存在对应关系的标准配件,获取与指定标准车型存在对应关系
的标准配件功能属性,获取与指定标准车型存在对应关系的原厂配件编码。原始车辆数据
包括原始配件数据时,还包括获取与指定标准配件存在对应关系的标准车型,获取与指定
标准配件存在对应关系的标准配件功能属性,获取与指定标准配件存在对应关系的原厂配
件编码。原始车辆数据包括原始配件功能属性数据时,还包括获取与指定配件功能属性存
在对应关系的标准车型,获取与指定配件功能属性存在对应关系的标准配件,获取与指定
配件功能属性存在对应关系的原厂配件编码。
配件功能属性数据分别进行处理,在得到多个处理结果时能够相互验证,提高了数据的稳
定性。
准车型进行校验。原始车辆数据包括原始配件数据时,还包括根据与指定标准配件对应的
原厂配件编码获取指定原厂配件数据,依据指定原厂配件数据对指定标准配件进行校验。
原始车辆数据包括原始配件功能属性数据时,还包括根据与指定标准配件功能属性对应的
原厂配件编码获取指定原厂配件功能属性数据,依据指定原厂配件功能属性数据对指定标
准配件功能属性进行校验。
标准配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数;
配件、评分配件功能属性和第n个配置代码的原厂车辆数据总数。
的属性评分越高排序越靠前。
属性,根据标准车型对应的标准配件功能属性对原厂配件功能属性进行筛选得到匹配的原
厂配件功能属性,计算匹配的原厂配件功能属性的总数与原厂配件功能属性总数的比值。
原始车辆数据包括原始车型数据时,还包括获取指定标准车型对应的车型配置评分。
的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,
或者软件和硬件的组合的实现也是可能并被构想的。
配件、配件原子库、标准配件功能属性和配件功能属性原子库。第二获取装置12,用于获取
原始车辆数据。其中,原始车辆数据包括以下至少之一:原始车型数据、原始配件数据和原
始配件功能属性数据。第一筛选装置13,原始车辆数据包括原始车型数据时,第一筛选装置
13用于对原始车型数据进行切词处理得到车型原子信息,根据车型原子信息和车型原子库
对标准车型进行筛选得到指定标准车型。第二筛选装置14,原始车辆数据包括原始配件数
据时,第二筛选装置14用于对原始配件数据进行切词处理得到配件原子信息,根据配件原
子信息和配件原子库对标准配件进行筛选得到指定标准配件。第三筛选装置15,原始车辆
数据包括原始配件功能属性数据时,第三筛选装置15用于对原始配件功能属性数据进行切
词处理得到配件功能属性原子信息,根据配件功能属性原子信息和配件功能属性原子库对
标准配件功能属性进行筛选,得到指定标准配件功能属性。
其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆
体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩
写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储
器的组合。
限定的范围之内。