利用商品名中的关键词实现归一的处理系统和处理方法转让专利

申请号 : CN202210633889.1

文献号 : CN114817672B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王妹刘思捷潘坤慕巍刘杰苏海萍

申请人 : 舟谱数据技术南京有限公司

摘要 :

一种利用商品名中的关键词实现归一的处理系统和处理方法,包括:处理装置和其相通讯相连的外部源,外部源中存有商品名;运行在处理装置上的归一模块一、合并模块和归一模块二;所述归一模块一用于获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;有效避免了现有技术中并无面向商品名的商品归一的解决方案的缺陷。

权利要求 :

1.一种利用商品名中的关键词实现归一的处理系统,其特征在于,包括:处理装置和其相通讯相连的外部源,外部源中存有商品名;

运行在处理装置上的归一模块一、合并模块和归一模块二;

所述归一模块一用于获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;

所述合并模块用于合并商品类;

所述归一模块二用于如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一;

所述归一模块二还用于计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和;用于比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中;

所述合并模块还用于对N个商品类,提取每个商品类下的关键词;用于对比不同商品类间关键词的相似度,合并不同的商品类。

2.根据权利要求1所述的利用商品名中的关键词实现归一的处理系统,其特征在于,所述合并模块还用于提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式;用于利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。

3.根据权利要求1所述的利用商品名中的关键词实现归一的处理系统,其特征在于,所述归一模块二还用于不同商品类的归一阈值计算;用于归一打分排序。

4.一种利用商品名中的关键词实现归一的处理系统的处理方法,其特征在于,包括:步骤1:获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;

步骤2:合并商品类;

步骤3:如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一;

步骤3‑1具体包括:计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和;

步骤3‑2具体包括:比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中;

所述步骤2具体包括:

步骤2‑1:对N个商品类,提取每个商品类下的关键词;

步骤2‑2:对比不同商品类间关键词的相似度,合并不同的商品类。

5.根据权利要求4所述的利用商品名中的关键词实现归一的处理系统的处理方法,其特征在于,步骤2‑1具体包括:提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式;

步骤2‑2具体包括:利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。

6.根据权利要求4所述的利用商品名中的关键词实现归一的处理系统的处理方法,其特征在于,所述步骤3具体包括:步骤3‑1:不同商品类的归一阈值计算;

步骤3‑2:归一打分排序。

说明书 :

利用商品名中的关键词实现归一的处理系统和处理方法

技术领域

[0001] 本发明涉及商品关键词处理技术领域,具体涉及一种利用商品名中的关键词实现归一的处理系统和处理方法。

背景技术

[0002] 在快消领域,不同商家(经销商)维护的商品名都不相同,甚至连品牌方也很难给出一个标准的商品名,例如:对于 “农夫山泉 新尖叫绿瓶 运动饮料 纤维型 500ml”这款产品,商家A维护的是“农夫山泉绿纤维”,商家B维护的是 “农夫山泉绿尖叫”,由于不同商家维护的商品名的不同,很难对商品进行统一的大数据分析,实现对线下商品流通效率的提升。所以,商品归一的目的是面对不同商家维护的千奇百怪的商品名,如何利用技术手段判断出哪些商品是同一个商品,哪些不是,但是现在并无面向商品名的商品归一的解决方案。

发明内容

[0003] 为解决所述问题,本发明提供了一种利用商品名中的关键词实现归一的处理系统和处理方法,有效避免了现有技术中并无面向商品名的商品归一的解决方案的缺陷。
[0004] 要克服现有技术中的不足,本发明提供了一种利用商品名中的关键词实现归一的处理系统和处理方法的解决方案,具体如下:
[0005] 一种利用商品名中的关键词实现归一的处理系统,包括:
[0006] 处理装置和其相通讯相连的外部源,外部源中存有商品名;
[0007] 运行在处理装置上的归一模块一、合并模块和归一模块二;
[0008] 所述归一模块一用于获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;
[0009] 所述合并模块用于合并商品类;
[0010] 所述归一模块二用于如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一。
[0011] 所述合并模块还用于对N个商品类,提取每个商品类下的关键词;用于对比不同商品类间关键词的相似度,合并不同的商品类。
[0012] 所述合并模块还用于提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式;用于利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。
[0013] 所述归一模块二还用于不同商品类的归一阈值计算;用于归一打分排序。
[0014] 所述归一模块二还用于计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和;用于比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中。
[0015] 一种利用商品名中的关键词实现归一的处理系统的处理方法,包括:
[0016] 步骤1:获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;
[0017] 步骤2:合并商品类;
[0018] 所述步骤2具体包括:
[0019] 步骤2‑1:对N个商品类,提取每个商品类下的关键词;
[0020] 所述步骤2‑1具体包括:提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式。
[0021] 步骤2‑2:对比不同商品类间关键词的相似度,合并不同的商品类。
[0022] 所述步骤2‑2具体包括:利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果
[0023] 各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。
[0024] 步骤3:如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一。
[0025] 所述步骤3具体包括:
[0026] 步骤3‑1:不同商品类的归一阈值计算;
[0027] 所述步骤3‑1具体包括:计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和。
[0028] 步骤3‑2:归一打分排序。
[0029] 所述步骤3‑2具体包括:比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中。
[0030] 本发明的有益效果为:
[0031] 本发明对比不同商品类间关键词的相似度,合并不同的商品类,这一步就解决了由于不同厂家生产的商品带来的标识码barcode不同而导致无法归一的问题。如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一,也就解决了由于不同厂家生产的商品带来的无标识码barcode而导致无法归一的问题。有效避免了现有技术中并无面向商品名的商品归一的解决方案的缺陷。

附图说明

[0032] 图1是本发明的运行在处理装置上的模块结构图。
[0033] 图2是本发明的步骤1到步骤3的流程图。
[0034] 图3是本发明的步骤2‑1到步骤2‑2的流程图。
[0035] 图4是本发明的步骤3‑1到步骤3‑2的流程图。

具体实施方式

[0036] 下面将结合附图和实施例对本发明做进一步地说明。
[0037] 如图1到图4所示,利用商品名中的关键词实现归一的处理系统,包括:
[0038] 处理装置和其相通讯相连的外部源,外部源中存有商品名;外部源能是存有商品名的服务器,处理装置能够是PDA或者PC机。
[0039] 运行在处理装置上的归一模块一、合并模块和归一模块二;
[0040] 所述归一模块一用于获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;
[0041] 所述合并模块用于合并商品类;
[0042] 所述归一模块二用于如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一。
[0043] 所述合并模块还用于对N个商品类,提取每个商品类下的关键词;用于对比不同商品类间关键词的相似度,合并不同的商品类。
[0044] 所述合并模块还用于提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式;用于利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。
[0045] 所述归一模块二还用于不同商品类的归一阈值计算;用于归一打分排序。
[0046] 所述归一模块二还用于计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和;用于比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中。
[0047] 利用商品名中的关键词实现归一的处理系统的处理方法,包括:
[0048] 关键词定义如下:
[0049] 一个商品的商品名一般是包含下面几个部分的子集:品牌+系列+规格+品类+口味+功效。所以假如能够识别出一个商品以上6大类的关键词,那么就可以利用不同商品关键词的区别实现商品的归一。
[0050] 在用关键词做商品归一之前,会先识别一个商品的品牌和品类,显然,当2个商品是不同的品牌或者品类,它们一定不是同一个商品(例如:农夫山泉和康师傅)。所以,只会对相同品牌和品类的商品进行归一判断。
[0051] 当把商品限制在同品牌、同品类的时候,品牌信息和品类信息显然就不是关键词了,因为它们都是相同的,例如:“农夫山泉绿尖叫 550ml” 和 “农夫山泉天然水550ml”,品牌都是农夫山泉,品类都是水饮,对于上面2个商品,关键词就变成了“绿尖叫”、“天然水”、以及“550ml”,再比如:康师傅红烧牛肉面袋装100g,那对于这个商品,与其他康师傅面相比,它的关键词是:“红烧牛肉”、“袋装”、“100g”。
[0052] 本发明的技术应用点如下所示:
[0053] 因为很多商品有一个唯一标识码,把它称作barcode,同一个唯一标识码的商品一定是同一个商品,所以可以先利用商品标识码做一些商品的归一,并就积累了一批训练样本。而关键词归一的技术主要用在下面2种情况:1,当商品没有barcode的时候怎么归一;2,同一个商品由不同厂家生产,barcode是不同的,这个时候怎么归一。
[0054] 步骤1:获取外部源传来的商品名,如果商品名中有标识码Barcode,就归一商品名中有标识码Barcode的商品,即:利用标识码barcode信息,对有标识码barcode的商品进行归一,得到N个商品类,其中N为正整数;这里得到N个商品类的方式也就是把barcode一致的商品归为一类。
[0055] 步骤2:合并商品类;
[0056] 所述步骤2具体包括:
[0057] 步骤2‑1:对N个商品类,提取每个商品类下的关键词;
[0058] 所述步骤2‑1具体包括:提取每个商品类下的关键词就是对每个类下的每个商品的商品名执行分词,分词方式用jieba分词方式。
[0059] 步骤2‑2:对比不同商品类间关键词的相似度,合并不同的商品类,这一步就实现了由于不同厂家生产的商品带来的barcode不同而导致无法归一的问题。
[0060] 所述步骤2‑2具体包括:利用tf‑idf 算法计算分词后的每个词的权重,按照权重排序,把每个类排行前三的关键词提取出来,如果
[0061] 各类间的排行前三的关键词的重合度高过设定的阈值,就把排行前三的关键词的所在的类执行合并。
[0062] 步骤3:如果商品名中无标识码Barcode,就对商品名中无识别码Barcode的商品进行归一。
[0063] 所述步骤3具体包括:
[0064] 步骤3‑1:不同商品类的归一阈值计算;
[0065] 所述步骤3‑1具体包括:计算每个类已经归一的商品名的关键词的权重和得到类内权重和,再计算无识别码Barcode的商品的商品名的关键词权重和,该关键词权重利用tf‑idf 算法而得,该商品名的关键词依然用jieba分词方式而得。
[0066] 步骤3‑2:归一打分排序。
[0067] 所述步骤3‑2具体包括:比较无识别码Barcode的商品的商品名的关键词权重和同类内关键词权重和的基准值,如果无识别码Barcode的商品的商品名的关键词权重和高过类内关键词权重和的基准值,就把该无识别码Barcode的商品归为该类已经归一的商品名中。类内关键词权重和的基准值的计算公式为:
[0068]
[0069] 其中,countNum为每个类已经归一的商品的商品数,weightu为每个类已经归一的商品的最低权重。
[0070] 以下用具体实施例来对本发明的利用商品名中的关键词实现归一的处理系统的处理方法执行说明:
[0071] 表1
[0072] 商品id barcode 商品名 所属商品类a1 111 康师傅红烧牛肉面100g A
a2 111 红烧牛肉面100g A
a3 111 红烧牛肉面 好吃 A
a4 222 康师傅红烧牛肉 100g A
a5 222 红烧牛肉 康师傅 A
a6 无 红烧牛肉100g A
a7 无 康师傅红烧牛肉 A
b1 333 康师傅老坛酸菜面100g B
b2 333 老坛酸菜 100g B
b3 333 老坛酸菜面 B
b4 无 老坛酸菜100g康师傅 B
[0073] 表1为商品名中有标识码Barcode的商品的具体条目,据此,利用商品名中的关键词实现归一的处理系统的处理方法,包括:
[0074] 步骤A‑1:利用barcode,可以将表1中的商品归一成如下几类:,,,也就是把barcode一致的商品归为一类;
[0075] 步骤A‑2:步骤A‑1结束后,要计算每个类的关键词,步骤A‑2具体包括:
[0076] 步骤A‑2‑1:对每个类下每个商品进行分词,这里分词方式用是jieba分词方式,以举例,分词后结果如下表2所示(不同的词用空格表示):
[0077] 表2
[0078]商品id barcode 商品名 所属商品类
a1 111 康师傅 红烧牛肉 面 100g A
a2 111 红烧牛肉 面 100g A
a3 111 红烧牛肉 面 好吃 A
[0079] 步骤A‑2‑2:利用tf‑idf 算法计算分词后的每个词的权重,仍然以举例,计算结果如下(可以去掉品牌信息):
[0080] tf_idf算法的计算方式示例如下:
[0081] tf:一个关键词在一个商品类中出现的频率:例如红烧牛肉在共出现了3次,而这个文档中一共有9个词,所以频率为 3/9 = 0.333;
[0082] idf:包含某关键词的类的个数占总的类的个数的比例,例如包含红烧牛肉的类有2个,一共有3个类:,所以idf = log(3/2) = 2.1
[0083] 关键词的分数为:tf*idf = 0.3*2.1 = 0.63
[0084] 下面是用tf‑idf计算出来的各个关键词的权重,如表3所示:
[0085] 表3
[0086]商品类 词 权重
红烧牛肉 0.6375584
面 0.6375584
100g 0.33008065
好吃 0.27943756
红烧牛肉 0.93219169
100g 0.361965
老坛酸菜 0.90561693
100g 0.356
面 0.222
[0087] 按照权重排序,把每个类排行前三,即TOP3的关键词提取出来,那么对于的关键词为红烧牛肉和面,对于的关键词为红烧牛肉和100g,就能发现这2个商品类的关键词重合度很高(2/3),所以可以合并,那么就得到一个新类
[0088] 步骤A‑3:步骤A‑2结束后,可以得到如下2个类:,,在步骤A‑3,会把无barcode 的a6,a7,b4归到对应的类,这里以a6归一的过程来看:
[0089] 步骤A‑3‑1:计算每个类已经归一的商品的关键词(仅计算与类内TOP3关键词重合的部分)的权重和,例如类,如表4所示:
[0090] 表4
[0091] 商品id barcode 商品名 关键词权重和 a1 康师傅红烧牛肉面100g 1.6
a2 红烧牛肉面100g 1.6
a3 红烧牛肉面 好吃 1.26
a4 康师傅红烧牛肉 100g 0.96
a5 红烧牛肉 康师傅 0.66
[0092] 步骤A‑3‑2:计算a6商品的关键词权重;
[0093] 可以看到a6有2个关键词:红烧牛肉:0.63和100g:0.33,权重和为0.96[0094] 步骤A‑3‑3:比较a6的关键词权重和类内关键词权重,公式如下:
[0095]
[0096] countNum:商品数,这里等于5
[0097] weightu:5个已经归一的商品的最低权重,这里为0.66
[0098] 所以a6的关键词权重和大于类内关键词权重和,即:
[0099] 0.96>0.66
[0100] 所以a6会被归一到这个类。
[0101] 以上以用实施例说明的方式对本发明作了描述,本领域的技术人员显而易见的是,本公开不限于以上描述的实施例,在不偏离本发明的范围的状态下,能够做出各种变动、改变和替换。