一种商品类目关键词提取方法和装置转让专利

申请号 : CN201610327244.X

文献号 : CN105931082B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 向园

申请人 : 北京奇虎科技有限公司奇智软件(北京)有限公司

摘要 :

本发明实施例提供了一种商品类目关键词提取方法,涉及广告系统技术领域。所述方法包括:将各从商品数据库中获取的商品描述信息进行分词;针对同一类目下的各分词,计算分词的出现次数在该类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括该分词的类目数之比计算第一平滑值;根据该类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;提取贡献值较大的分词作为该类目的关键词。本发明解决了在先技术中的根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,取得了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。

权利要求 :

1.一种商品类目关键词提取方法,包括:

获取商品数据库中的各商品的描述信息以及预置的商品的类目;

将同一类目下的各商品的描述信息进行分词;

针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;

根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值;

将所述类目下的各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值;

提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。

2.根据权利要求1所述的方法,其特征在于,所述根据总类目数与包括所述分词的类目数之比计算第一平滑值的步骤,包括:对总类目数与包括所述分词的类目数之比取对数;

根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值的步骤,包括:对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。

3.根据权利要求1所述的方法,其特征在于,在提取贡献值排序靠前的至少一个分词作为相应类目的关键词的步骤之后,还包括:获取用户在客户端对商品页面的浏览信息;

查找所述商品页面中商品信息所属类目;

获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。

4.如权利要求3所述的方法,所述获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示的步骤,包括:获取所述类目中与各商品类目关键词最相关的商品页面的链接;

将所述链接赋予所述商品类目关键词;

将赋予了所述链接的商品类目关键词返回客户端进行展示。

5.如权利要求4所述的方法,所述获取所述类目中与各商品类目关键词最相关的商品页面的链接的步骤,包括:针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;

获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;

根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;

将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。

6.如权利要求4所述的方法,所述将赋予了所述链接的商品类目关键词返回客户端进行展示的步骤,包括:在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。

7.一种商品类目关键词提取装置,包括:

信息获取模块,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;

信息分词模块,适于将同一类目下的各商品的描述信息进行分词;

第一平滑值计算模块,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;

第二平滑值计算模块,适于根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值;

贡献值计算模块,适于将所述类目下的各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值;

关键词生成模块,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。

8.根据权利要求7所述的装置,其特征在于,所述第一平滑值计算模块,包括:第一平滑值取对数模块,适于对总类目数与包括所述分词的类目数之比取对数;

所述第二平滑值计算模块,包括:

第二平滑值取对数模块,适于对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。

9.根据权利要求7所述的装置,其特征在于,在所述关键词生成模块之后,还包括:浏览信息获取模块,适于获取用户在客户端对商品页面的浏览信息;

类目查找模块,适于查找所述商品页面中商品信息所属类目;

关键词展示模块,适于获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。

10.如权利要求9所述的装置,所述关键词展示模块,包括:链接获取子模块,适于获取所述类目中与各商品类目关键词最相关的商品页面的链接;

链接设置子模块,适于将所述链接赋予所述商品类目关键词;

关键词展示第一子模块,适于将赋予了所述链接的商品类目关键词返回客户端进行展示。

11.如权利要求10所述的装置,所述链接获取子模块,包括:第一相关性计算子模块,适于针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;

竞争参数获取子模块,适于获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;

第二相关性计算子模块,适于根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;

最相关链接设置子模块,适于将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。

12.如权利要求10所述的装置,所述关键词展示第一子模块,包括:弹窗展示子模块,适于将赋予了所述链接的商品类目关键词返回客户端,以在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。

说明书 :

一种商品类目关键词提取方法和装置

技术领域

[0001] 本发明涉及广告系统技术领域,特别是涉及一种商品类目关键词提取方法和装置。

背景技术

[0002] 随着互联网的发展和各种独特的需求,产生了很多细分的领域,比如广告系统。广告系统可以在用户访问互联网时,向用户推荐广告。
[0003] 在先技术中,广告系统一般由商家购买竞价词,该竞价词实际上可以理解为关键词,其与客户的广告数据关联。当用户在搜索框中输入关键词后,广告推荐系统则根据关键词,将与其关联的广告数据推荐给用户所在的客户端展示。但是,在先技术中广告系统提供的关键词,是广告平台技术人员根据经验在对各类目设置的。
[0004] 在先技术中,可能跟其广告数据对应的商品所在类目相关性不高,从而各类目的关键词精确性不高,进一步的可能影响广告数据推荐的准确性,导致用户无法及时获取到需求的广告数据,然后多次发送查询请求,增加了系统资源和网络带宽耗用。

发明内容

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种商品类目关键词提取方法和装置。
[0006] 依据本发明的一个方面,提供了一种商品类目关键词提取方法,包括:
[0007] 获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0008] 将同一类目下的各商品的描述信息进行分词;
[0009] 针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0010] 根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0011] 提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0012] 优选地,在根据各分词的第一比例和第一平滑值,计算各分词的贡献值之前,还包括:
[0013] 根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值。
[0014] 优选地,所述根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值的步骤包括:
[0015] 将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值。
[0016] 优选地,所述根据总类目数与包括所述分词的类目数之比计算第一平滑值的步骤,包括:
[0017] 对总类目数与包括所述分词的类目数之比取对数;
[0018] 根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值的步骤,包括:
[0019] 对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。
[0020] 优选地,在提取贡献值排序靠前的至少一个分词作为相应类目的关键词的步骤之后,还包括:
[0021] 获取用户在客户端对商品页面的浏览信息;
[0022] 查找所述商品页面中所述商品信息所属类目;
[0023] 获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0024] 优选地,所述获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示的步骤,包括:
[0025] 获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0026] 将所述链接赋予所述商品类目关键词;
[0027] 将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0028] 优选地,所述获取所述类目中与各商品类目关键词最相关的商品页面的链接的步骤,包括:
[0029] 针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0030] 获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0031] 根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0032] 将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0033] 优选地,所述将赋予了所述链接的商品类目关键词返回客户端进行展示的步骤,包括:
[0034] 在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。
[0035] 依据本发明的另一方面,提供了一种商品类目关键词提取装置,包括:
[0036] 信息获取模块,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0037] 信息分词模块,适于将同一类目下的各商品的描述信息进行分词;
[0038] 第一平滑值计算模块,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0039] 贡献值计算模块,适于根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0040] 关键词生成模块,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0041] 优选地,在所述贡献值计算模块之前,还包括:
[0042] 第二平滑值计算模块,适于根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值。
[0043] 优选地,所述贡献值计算模块,包括:
[0044] 贡献值计算第一子模块,适于将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值。
[0045] 优选地,所述第一平滑值计算模块,包括:
[0046] 第一平滑值取对数模块,适于对总类目数与包括所述分词的类目数之比取对数;
[0047] 所述第二平滑值计算模块,包括:
[0048] 第二平滑值取对数模块,适于对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。
[0049] 优选地,在所述关键词生成模块之后,还包括:
[0050] 浏览信息获取模块,适于获取用户在客户端对商品页面的浏览信息;
[0051] 类目查找模块,适于查找所述商品页面中所述商品信息所属类目;
[0052] 关键词展示模块,适于获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0053] 优选地,所述关键词展示模块,包括:
[0054] 链接获取子模块,适于获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0055] 链接设置子模块,适于将所述链接赋予所述商品类目关键词;
[0056] 关键词展示第一子模块,适于将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0057] 优选地,所述链接获取子模块,包括:
[0058] 第一相关性计算子模块,适于针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0059] 竞争参数获取子模块,适于获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0060] 第二相关性计算子模块,适于根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0061] 最相关链接设置子模块,适于将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0062] 优选地,所述关键词展示第一子模块,包括:
[0063] 弹窗展示子模块,适于将赋予了所述链接的商品类目关键词返回客户端,以在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。
[0064] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0065] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

[0066] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0067] 图1示出了本发明的商品类目关键词提取方法实施例一的步骤流程图;
[0068] 图2示出了本发明的商品类目关键词提取方法实施例二的步骤流程图;
[0069] 图3示出了本发明的商品类目关键词提取方法实施例三的步骤流程图;
[0070] 图4示出了本发明的商品类目关键词提取装置实施例四的结构框图;
[0071] 图5示出了本发明的商品类目关键词提取装置实施例五的结构框图;
[0072] 图6示出了本发明的商品类目关键词提取装置实施例六的结构框图。

具体实施方式

[0073] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0074] 本发明的核心思想在于,将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0075] 实施例一
[0076] 参照图1,示出了本发明的商品类目关键词提取方法实施例一的步骤流程图,具体可以包括如下步骤:
[0077] 步骤110、获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0078] 商品数据库是存储商品信息的数据库,可以对商品数据库中的商品进行管理。例如,增加新商品时将此商品信息录入到商品数据库中,不再销售某商品时将该商品信息从商品数据库中删除,商品信息发生变化时更新商品数据库中对应的商品信息。其中,商品信息可以包括:商品ID、商品名称、商品描述信息、商品类目等。
[0079] 商品ID唯一标识商品,是商品的身份证,可以根据商品ID检索商品信息,例如,在常用的电子商务系统中,用户发送请求查看商品信息的请求中携带有商品ID,从而系统可以从商品数据库中查找出与上述用户发送的查看商品信息请求中携带的商品ID对应的商品信息,以供用户查看。
[0080] 商品描述信息可以是对商品的形状、尺寸、颜色、材质、使用方法、功能、注意事项等的详细描述,用户根据上述商品描述信息来判断是否购买该商品。例如,该商品为一件衣服,用户可以根据衣服的颜色、大小、以及材质等来判断该商品是否符合自己的需求,从而决定是否购买。
[0081] 商品类目是按照商品的特点和用途对商品进行分类的结果,可以按照商品所属范围从大到小划分为若干范围更小、特性和特征更一致的子集从而形成多级类目,例如,所有商品第一级类目可以包括女装、男装、箱包、食品、家电等,女装的第二级类目包括外套、鞋子、裙子、裤子、毛衣等。本发明中的商品类目是指最小级类目,上述例子中最小层级为第二级类目。
[0082] 步骤120、将同一类目下的各商品的描述信息进行分词;
[0083] 将商品的描述信息分成多个词,例如,对“什么是百度分词技术”进行分词后,得到的结果为:“什么是”,“百度”,“分词技术”。
[0084] 分词技术已经非常成熟,主要包括三种技术:字符串匹配法、词义分词法和统计分词法,其中,字符串匹配分词法是通过字符串匹配来实现分词,具体包括正向最大匹配法、反向最大匹配法和最短路径分词法以及双向最大匹配法;词义匹配法通过对字符串进行语法、语义分析,利用语法、语义信息处理歧义从而实现分词;统计分词法通过分析词的出现频率进行分词。上述分词技术均可以用来对本发明中商品的描述信息进行分词,本发明对分词方法不做限制。
[0085] 当然,在本发明实施例中,可以先对每个商品的描述信息进行分词,然后将同一类目的商品的分词合并。在合并时,可以统计各分词的出现次数。
[0086] 需要说明的是,对上述描述信息进行分词之后,本发明实施例还可以排除一些无用词,比如一些语气用词、如“的”等,又比如一些指示词,如“产品参数”、“产品类型”等。本发明实施例可以预先根据各商品描述信息的结构,将其中的无用词加入无用词典,然后对于前述分词,可以通过无用词典对分词进行过滤,排除掉在无用词典中的分词。因为对于商品来说,其网页中的描述信息可能是结构化的,比如一种化妆品的商品的描述信息其中之一如下:
[0087] “产品名称:悦木之源咖啡因
[0088] 功效:去浮肿缓解眼疲劳
[0089] 规格类型:正常规格化妆品
[0090] 净含量:15ml
[0091] 品牌:origins/悦木之源
[0092] 适合肤质:任何肤质
[0093] 批准文号:国妆备进字J20100834”
[0094] 该描述信息是结构化的,实际上其中的产品名称、功效、规格类型、净含量、品牌、批准文号这些指示词对很多商品的描述信息都有,出现频繁,但是这些指示词对商品类目来说,其代表性可能并不强。因此可以通过构建无用词词典对由描述信息得到的分词进行过滤。
[0095] 步骤130、针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0096] 在本申请实施例中,对于每个商品类目,可以统计其中各个分词的出现次数。同时,可以统计同一个分词,出现在多少个类目中,即包括所述分词的类目数。当然,还可以从统计总类目数。
[0097] 然后可以采用如下公式(1),计算第i个类目下的第j个分词的出现次数Ci,j在第i个类目下所有词出现次数中所占的第一比例Fi,j:
[0098]
[0099] 其中,J为第i个类目下分词总数。
[0100] 可以理解,分词的出现次数在所述类目中所有词出现次数中所占的比例越高,表明所述分词在类目中相对的重要性系数更大,例如,一类目中的所有分词A1、A2、A3、A4、A5的出现次数分别为5、2、3、3、7,则A1、A2、A3、A4、A5出现次数在该类目中所占的比例分别为0.25、0.1、0.15、0.15、0.35,分词A5出现次数在类目中所占的比例0.35最大,所以,分词A5的重要性系数最大。
[0101] 另一方面,总类目数越大,包含所述分词的类目数越小,总类目数与包括所述分词的类目数之比越大,分词的重要性系数越大。
[0102] 上述第一比例没有体现包含当前分词的类目数,会存在如下问题。例如,类目L1下的所有分词W1、W2的出现次数分别为5、5,则根据公式(1)计算得到的分词W1、W2的第一比例分别为0.5、0.5,类目L2下的所有分词W1、W3的出现次数分别为15、15,则根据公式(1)计算得到的分词W1、W3的第一比例分别为0.5、0.5。对于类目L1,分词W1和W2的第一比例相同,从而根据第一比例得出分词W1和W2在L1中的重要性相同,然而L1和L2均包含分词W1,而只有L1包含了分词W2,从而实际上分词W1比分词L2对类目L1的重要性更大。在极限情况下,当所有类目均包含了某分词时,此分词对所有类目的重要性均相同,当只有一个类目L1包含了某分词时,此分词对类目L1的重要性较大。
[0103] 为了解决上述问题,需要通过平滑计算对第一比例进行调整,从而使得计算结果更加合理。也即根据总类目数与包括所述分词的类目数之比计算第一平滑值。
[0104] 优选地,所述根据总类目数与包括所属分词的类目数之比计算第一平滑值的步骤,包括子步骤131:
[0105] 子步骤131,对总类目数与包括所属分词的类目数之比取对数;
[0106] 第一平滑值可以通过公式(2)计算第i个类目下的第j个分词的平滑值P1i,j:
[0107]
[0108] 其中,I为所有商品类目总数,Lj为包含第j个分词的类目数,底数a取大于1的正整数,本发明实施例中a=10,或者a=e,e为自然底数。
[0109] 步骤140、根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0110] 各分词的第一比例越大、第一平滑值越大,分词对应的贡献值越大,综上,第i个类目下的第j个分词的贡献值Gi,j为:
[0111]
[0112] 步骤150、提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0113] 按照步骤140的计算结果,将所述类目下的所有分词按照各分词的贡献值从大到小排序,然后提取排列在前面的至少一个分词作为相应类目的商品类目关键词,即将贡献值较大的分词作为相应的商品类目关键词。
[0114] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0115] 实施例二
[0116] 参照图2,示出了本发明的商品类目关键词提取方法实施例二的步骤流程图,具体可以包括如下步骤:
[0117] 步骤210、获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0118] 步骤220、将同一类目下的各商品的描述信息进行分词;
[0119] 步骤230、针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0120] 步骤240、根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值;
[0121] 根据实施例一中的公式(3)计算得到的贡献值没有包含分词在非本类目下的出现次数,会存在如下问题。例如,类目L1下的分词A1、A2、A3、A4的出现次数分别为10、10、17、12,类目L2下的分词A1、A2、A3的出现次数分别为15、13、10,类目L3下的分词A3、A4的出现次数分别为21,19,可以得出,分词A1、A2在类目L1下出现的次数相同,均为10,且包含分词A1、A2的类目均为L1和L2,此时,根据公式(3)得到分词A1、A2在类目L1下的贡献值相同,从而无法区分分词A1、A2对类目L1的重要性。进一步而言,对于由总类目数与包括所述分词的类目数之比计算第一平滑值,而由于对商品而言,商品类目数量庞大,而词可能分布很广,很多类目可能该词只出现1次,其也会增加包括所述分词的类目数,那么对于包括所述分词很多的类目来说,该第一平滑值的平滑效果就很低,总类目数与包括所述分词的类目数之比会变低,影响商品类目关键词提取精确度。
[0122] 为了解决上述问题,需要引入第二平滑值,对公式(3)中的贡献值进行调整,使得贡献值更能准确的描述分词的重要性。上述例子中,分词A1在非类目L1下出现的次数为15,非类目L1下的分词总出现次数为15+13+10+21+19=78,分词A1在非类目L1下出现的概率为15/78=19.23%,分词A2在非类目L1下出现的次数为13,非类目L1下的分词总出现次数为
15+13+10+21+19=78,分词A2在非类目L1下出现的概率为13/78=16.67%,分词A2在非类目L1下出现的概率比分词A1在非类目L1下出现的概率小,所以分词A2对类目L1的重要性系数比分词A1对类目L1的重要性系数大。
[0123] 优选地,步骤240可以包括子步骤241:
[0124] 子步骤241,对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数;
[0125] 可以理解,可以通过公式(4)计算第i个类目下的第j个分词的第二平滑值P2i,j为:
[0126]
[0127] 其中, 表示所有类目下所有分词的总出现次数, 表示类目i中的第j个分词在所有类目中总出现次数, 表示类目i所有分词的总出现次数,Ci,j表示类目i下第j各分词出现的次数,底数b取大于1的正整数,本发明实施例中a=10,或者a=e,e为自然底数。
[0128] 步骤250、将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值;
[0129] 将步骤240计算得到的第二平滑值也作为计算分词贡献值的因子,分词的第二平滑值越大,分词的贡献值越大。
[0130] 第i个类目下的第j个分词的贡献值Gi,j为:
[0131]
[0132] 步骤260、提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0133] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0134] 并且本发明实施例将所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数作为第二平滑值,并根据第二平滑值计算分词的贡献值,可以更加准确的描述不同分词在不同商品类目下的贡献值。
[0135] 实施例三
[0136] 参照图3,示出了本发明的商品类目关键词提取方法实施例三的步骤流程图,具体可以包括如下步骤:
[0137] 步骤310、获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0138] 步骤320、将同一类目下的各商品的描述信息进行分词;
[0139] 步骤330、针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0140] 步骤340、根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0141] 步骤350、提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词;
[0142] 将提取的商品类目关键词存储在广告系统的数据库中,首先,按照商品类目关键词所属类目字母存储所属类目和类目关键词,然后在同一类目下按照商品类目关键词的贡献值从大到小存储,例如,类目L1的类目关键词A1、A2的贡献值分别为0.8、0.6,类目L2的类目关键词A3、A4的贡献值分别为0.7、0.9,则首先按照类目关键词的贡献值大小从大到小存储类目L1的类目关键词,然后按照类目关键词的贡献值大小从大到小存储类目L2的类目关键词,得到的存储结果为{(L1,A1),(L1,A2),(L2,A4),(L2,A3)}。
[0143] 步骤360、获取用户在客户端对商品页面的浏览信息;
[0144] 上述客户端为可以提供商品浏览的任何终端设备,包括:个人电脑、手机、平板电脑等,本申请对客户端的具体形式不做限制。用户可以通过客户端访问网上商城的服务器,接收该服务器返回的商品页面进行展示以供用户浏览商品信息。
[0145] 在实际应用中用户可以在直接通过在客户端的浏览器中输入网址登陆网上商城,也可以通过网上商城的单独应用来进入网上商城等。用户在进入网上商城后,浏览商品信息时,服务器可以接收到用户的商品信息浏览请求,从而可以从所述请求中获取到用户对商品页面的浏览信息,包括:商品页面ID,商品ID,浏览商品的时间,在当前商品网页停留的时间等,可以理解,用户浏览多个商品页面对应多个浏览信息。
[0146] 步骤370、查找所述商品页面中所述商品信息所属类目;
[0147] 根据用户浏览商品网页的商品ID,从商品库中查找对应商品从而取得所述商品的所属类目。在实际应用中,将用户浏览商品ID与商品库中的商品信息中的商品ID做对比,若ID相同,商品库中商品信息所属类目为所述商品页面中所述商品信息所属类目。
[0148] 步骤380、获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0149] 从步骤350得到的结果中获取步骤370得到的商品网页中商品信息所属类目对应的商品类目关键词,返回相应的客户端,然后该客户端可以在其屏幕上展示该商品类目关键词。为了不影响用户在客户端的其他应用,可以将关键词以小窗口形式展示在屏幕边角上,小窗口可以包括主显示区域、关闭按钮、最小化按钮等,当有多个关键词时,将多个关键词对应的多个小窗口以合理的布局展示在客户端屏幕上,可以是横向、纵向等其他方式,也可以设置关键词最大值。
[0150] 优选地,步骤380包括子步骤381至383:
[0151] 子步骤381、获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0152] 链接可以为商品页面的URL(Uniform Resource Locator,统一资源定位符),是打开商品页面的唯一路径,每个商品页面对应唯一的一个链接。链接符合标准的URL格式,包括:资源类型、存放资源的主机名、资源文件名,其中,资源类型可以为https协议或http等,主机名指存放资源的服务器的域名系统主机名或IP地址,资源文件名指资源文件名称。
[0153] 与商品类目关键词最相关的商品为商品类目中商品描述与商品关键词最相关、使用最广泛的商品。
[0154] 优选地,步骤381包括子步骤381A至381D:
[0155] 子步骤381A、针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0156] 第一相关性可以根据商品类目关键词在商品的描述信息中出现的频率和密度来衡量,商品类目关键词在商品的描述信息中出现的频率越大,密度越集中,说明第一相关性越大;还可以根据商品类目关键词在商品描述信息中出现的位置衡量,商品类目关键词出现在商品的标题等重要位置时,说明第一相关性较大。第一相关性可以使用现有技术中的计算方法,本发明对计算第一相关性的方法不做限制。
[0157] 子步骤381B、获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0158] 商品所属账户为提供商品的商家,竞争参数为商家在商品类目关键词下展示商品的成本,比如商家在广告系统中为该商品类目关键词的竞价。竞争参数越大,商品在商品类目关键词下的比重越大,竞争参数越小,商品在商品类目关键词下的比重越小,对于同一商品,商品与商品类目关键词的第一相关性相同,竞争参数越大的商品在商品类目关键词下的比重越大,竞争参数越小的商品在商品类目关键词下的比重越小。
[0159] 子步骤381C、根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0160] 商品的第一相关性和竞争参数越大,商品的第二相关性越大,商品的第一相关性和竞争参数越小,商品的第二相关性越小,第i个商品的第二相关性可以由下面公式计算:
[0161] R2i=a*R1i+b*Vi   (6)
[0162] 其中,a和b为调整因子,均为正数,R1i为步骤381A得到的第i个商品的第一相关性,Vi为步骤381B得到的第i个商品的竞争参数。
[0163] 当然,也可以采用其他计算方式,本发明实施例不对其加以限制。
[0164] 子步骤381D、将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0165] 由于第二相关性体现了商品的描述信息与商品关键字的相关性,则第二相关性最大的商品是对应商品关键字最准确的商品。
[0166] 子步骤382、将所述链接赋予所述商品类目关键词;
[0167] 将子步骤381获得的链接与商品类目关键字作为一组信息,表明商品类目关键字对应的页面为所述链接指向的页面,每个商品类目关键字均对应一个链接。
[0168] 子步骤383、将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0169] 用户可以根据选择查看展示的商品类关键词,当用户点击展示在客户端的商品类目关键词时,客户端向广告服务器发送请求,广告服务器则根据该请求的商品页面返回客户端,客户端则跳转到商品类目关键词对应的链接指向的页面。
[0170] 优选地,子步骤383包括子步骤383A:
[0171] 子步骤383A:将赋予了所述链接的商品类目关键词返回客户端,以在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。
[0172] 在本发明实施例中,客户端在接收到服务器返回的赋予了链接的商品类目关键词,可以在客户端的浏览器中生成弹窗,然后将该关键词展示在弹窗之中。其中弹窗可以包括:最小化按钮、关闭按钮、主显示区域,商品类目关键词在主显示区域展示,当点击最小化按钮时系统可以最小化所述弹窗,当用户点击关闭按钮时系统可以关闭所述弹窗,当用户点击主显示区域内的商品类目关键词时,系统跳转到所述商品类关键词的链接对应的页面中。
[0173] 弹窗的大小、形状、位置、颜色等,均可以按照实际应用中的屏幕大小合理设置,也可以由用户自定义设置,本发明对此不做限制。
[0174] 可以理解,实施例三还可以在步骤330和步骤340之间增加如实施例二步骤240中计算第二平滑值的步骤,此时步骤340中计算分词贡献值的过程可以参考实施例二中的步骤250及其子步骤。
[0175] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0176] 并且,本发明实施例通过将广告链接赋予商品类目关键词,从而使得用户在广告系统中点击商品类目关键词时,直接跳转到商品页面,方便了用户的操作,也能够为用户提供精准的商品类目关键词推荐。
[0177] 实施例四
[0178] 参照图4、示出了本发明的商品类目关键词提取装置实施例一的结构框图,具体可以包括如下模块:
[0179] 信息获取模块410,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0180] 信息分词模块420,适于将同一类目下的各商品的描述信息进行分词;
[0181] 第一平滑值计算模块430,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0182] 优选地,所述第一平滑值计算模块430,包括:
[0183] 第一平滑值取对数子模块,适于对总类目数与包括所述分词的类目数之比取对数;
[0184] 贡献值计算模块440,适于根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0185] 关键词生成模块450,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0186] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0187] 实施例五
[0188] 参照图5、示出了本发明的商品类目关键词提取装置实施例二的结构框图,具体可以包括如下模块:
[0189] 信息获取模块510,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0190] 信息分词模块520,适于将同一类目下的各商品的描述信息进行分词;
[0191] 第一平滑值计算模块530,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0192] 第二平滑值计算模块540,适于根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值。
[0193] 优选地,所述第二平滑值计算模块540,包括:
[0194] 第二平滑值取对数子模块,适于对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。
[0195] 贡献值计算模块550,具体包括:
[0196] 贡献值计算第一子模块551,适于将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值。
[0197] 关键词生成模块560,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0198] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0199] 并且本发明实施例将所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数作为第二平滑值,并根据第二平滑值计算分词的贡献值,可以更加准确的描述不同分词在不同商品类目下的贡献值。
[0200] 实施例六
[0201] 参照图6、示出了本发明的商品类目关键词提取装置实施例三的结构框图,具体可以包括如下模块:
[0202] 信息获取模块610,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0203] 信息分词模块620,适于将同一类目下的各商品的描述信息进行分词;
[0204] 第一平滑值计算模块630,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0205] 贡献值计算模块640,适于根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0206] 关键词生成模块650,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词;
[0207] 浏览信息获取模块660,适于获取用户在客户端对商品页面的浏览信息;
[0208] 类目查找模块670,适于查找所述商品页面中所述商品信息所属类目;
[0209] 关键词展示模块680,适于获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0210] 优选地,所述关键词展示模块680,包括:
[0211] 链接获取子模块,适于获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0212] 链接设置子模块,适于将所述链接赋予所述商品类目关键词;
[0213] 关键词展示第一子模块,适于将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0214] 优选地,所述链接获取子模块,包括:
[0215] 第一相关性计算子模块,适于针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0216] 竞争参数获取子模块,适于获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0217] 第二相关性计算子模块,适于根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0218] 最相关链接设置子模块,适于将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0219] 优选地,所述关键词展示第一子模块,包括:
[0220] 弹窗展示子模块,适于将赋予了所述链接的商品类目关键词返回客户端,以在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。
[0221] 根据本发明的商品类目关键词提取方法和装置,可以将商品的描述信息分词,并通过各分词的出现次数在所属类目下的总出现次数所占的比例,以及总类目数与包含所属分词的类目数之比,所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算得出所述分词的贡献值,最终将贡献值较大的分词作为商品类目关键词,由此解决了根据经验设置竞价词导致的广告推荐准确性不高,系统资源和网络带宽耗用大的问题,达到了提高广告推荐准确性,减少系统资源和网络带宽耗用的效果。
[0222] 并且,本发明实施例通过将广告链接赋予商品类目关键词,从而使得用户在广告系统中点击商品类目关键词时,直接跳转到商品页面,方便了用户的操作,也能够为用户提供精准的商品类目关键词推荐。
[0223] 对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0224] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0225] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0226] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0227] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0228] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0229] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0230] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的商品类目关键词提取设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0231] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0232] 本发明公开了A1、一种商品类目关键词提取方法,包括:
[0233] 获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0234] 将同一类目下的各商品的描述信息进行分词;
[0235] 针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0236] 根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0237] 提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0238] A2、如A1所述的方法,在根据各分词的第一比例和第一平滑值,计算各分词的贡献值之前,还包括:
[0239] 根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值。
[0240] A3、如A2所述的方法,所述根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值的步骤包括:
[0241] 将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值。
[0242] A4、如A2所述的方法,所述根据总类目数与包括所述分词的类目数之比计算第一平滑值的步骤,包括:
[0243] 对总类目数与包括所述分词的类目数之比取对数;
[0244] 根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值的步骤,包括:
[0245] 对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。
[0246] A5、如A1所述的方法,在提取贡献值排序靠前的至少一个分词作为相应类目的关键词的步骤之后,还包括:
[0247] 获取用户在客户端对商品页面的浏览信息;
[0248] 查找所述商品页面中所述商品信息所属类目;
[0249] 获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0250] A6、如A5所述的方法,所述获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示的步骤,包括:
[0251] 获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0252] 将所述链接赋予所述商品类目关键词;
[0253] 将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0254] A7、如A6所述的方法,所述获取所述类目中与各商品类目关键词最相关的商品页面的链接的步骤,包括:
[0255] 针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0256] 获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0257] 根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0258] 将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0259] A8、如A6所述的方法,所述将赋予了所述链接的商品类目关键词返回客户端进行展示的步骤,包括:
[0260] 在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。
[0261] 本发明还公开了B9、一种商品类目关键词提取装置,包括:
[0262] 信息获取模块,适于获取商品数据库中的各商品的描述信息以及预置的商品的类目;
[0263] 信息分词模块,适于将同一类目下的各商品的描述信息进行分词;
[0264] 第一平滑值计算模块,适于针对一类目下的各个分词,计算所述分词的出现次数在所述类目下所有词的出现次数中所占的第一比例,以及根据总类目数与包括所述分词的类目数之比计算第一平滑值;
[0265] 贡献值计算模块,适于根据所述类目下的各分词的第一比例和第一平滑值,计算各分词的贡献值;
[0266] 关键词生成模块,适于提取贡献值排序靠前的至少一个分词作为相应类目的商品类目关键词。
[0267] B10、如B9所述的装置,在所述贡献值计算模块之前,还包括:
[0268] 第二平滑值计算模块,适于根据所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比,计算第二平滑值。
[0269] B11、如B10所述的装置,所述贡献值计算模块,包括:
[0270] 贡献值计算第一子模块,适于将各分词的第一比例、第一平滑值、第二平滑值相乘,得到各分词的贡献值。
[0271] B12、如B10所述的装置,所述第一平滑值计算模块,包括:
[0272] 第一平滑值取对数模块,适于对总类目数与包括所述分词的类目数之比取对数;
[0273] 所述第二平滑值计算模块,包括:
[0274] 第二平滑值取对数模块,适于对所述分词所在类目之外的其他所有类目的所有分词的总出现次数,与所述分词在所述类目之外的其他类目中的出现次数的之比取对数。
[0275] B13、如B9所述的装置,在所述关键词生成模块之后,还包括:
[0276] 浏览信息获取模块,适于获取用户在客户端对商品页面的浏览信息;
[0277] 类目查找模块,适于查找所述商品页面中所述商品信息所属类目;
[0278] 关键词展示模块,适于获取对应所述类目的商品类目关键词返回给所述用户所在客户端进行展示。
[0279] B14、如B13所述的装置,所述关键词展示模块,包括:
[0280] 链接获取子模块,适于获取所述类目中与各商品类目关键词最相关的商品页面的链接;
[0281] 链接设置子模块,适于将所述链接赋予所述商品类目关键词;
[0282] 关键词展示第一子模块,适于将赋予了所述链接的商品类目关键词返回客户端进行展示。
[0283] B15、如B14所述的装置,所述链接获取子模块,包括:
[0284] 第一相关性计算子模块,适于针对每个商品类目关键词,计算所述商品类目关键词与各商品的描述信息之间的第一相关性;
[0285] 竞争参数获取子模块,适于获取各商品所属账户对第一展示模式的竞争参数;所述第一展示模式为在用户所在客户端访问各个不同的网站时展示商品类目关键词;
[0286] 第二相关性计算子模块,适于根据对应各商品的第一相关性和竞争参数,计算所述商品的商品页面第二相关性;
[0287] 最相关链接设置子模块,适于将第二相关性最大的商品页面的链接,作为与所述商品类目关键词最相关的链接。
[0288] B16、如B14所述的装置,所述关键词展示第一子模块,包括:
[0289] 弹窗展示子模块,适于将赋予了所述链接的商品类目关键词返回客户端,以在用户所在客户端的浏览器中生成弹窗,并将赋予了所述链接的商品类目关键词在所述弹窗之中展示。