用户搜索行为的识别方法及装置转让专利

申请号 : CN201910580360.6

文献号 : CN110334277B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 范成周晗高山柳超

申请人 : 北京天眼查科技有限公司

摘要 :

本发明提出一种用户搜索行为的识别方法及装置,其中方法包括:通过根据用户行为日志生成多个用户行为链;根据预设规则确定每个用户行为链的类别;对多个用户行为链的类别进行统计分析,确定分析结果;根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。由此,以构建行为链的方式来灵活准确地划分用户的连续搜索行为区间,不受时间窗口的限制,有利于准确高效地用户搜索行为进行挖掘分析,实现准确地更新输入的搜索词和搜索结果,提升搜索体验。

权利要求 :

1.一种用户搜索行为的识别方法,其特征在于,包括:根据用户行为日志生成多个用户行为链;所述用户行为链包括起始行为和终止行为;

其中,按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序;依次遍历所述排序后的用户行为日志中各个用户搜索行为;针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为;

根据预设规则确定每个用户行为链的类别;

对多个用户行为链的类别进行统计分析,确定分析结果;

根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新;

其中,所述每个用户行为链包括多个搜索词,所述根据预设规则确定每个用户行为链的类别包括:对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;

对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;

根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。

2.根据权利要求1所述的方法,其特征在于,所述分析结果包括用户行为模式;

在所述用户行为模式包括常见纠错模式或频繁行为模式;

所述根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新包括:根据常见纠错模式对当前接收到的搜索词进行纠错;

或者,根据频繁行为模式调整待输出的搜索结果的排序。

3.根据权利要求1所述的方法,其特征在于,所述每个用户行为链包括多个搜索结果,所述根据预设规则确定每个用户行为链的类别包括:对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语;

对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息;

根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。

4.一种用户搜索行为的识别装置,其特征在于,包括:生成模块,用于根据用户行为日志生成多个用户行为链;所述用户行为链包括起始行为和终止行为;其中,按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序;依次遍历所述排序后的用户行为日志中各个用户搜索行为;针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为;

确定模块,用于根据预设规则确定每个用户行为链的类别;

分析模块,用于对多个用户行为链的类别进行统计分析,确定分析结果;

更新模块,用于根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新;

所述每个用户行为链包括多个搜索词,所述确定模块具体用于:对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;

对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;

根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。

5.根据权利要求4所述的装置,其特征在于,所述分析结果包括用户行为模式;

在所述用户行为模式包括常见纠错模式或频繁行为模式;

所述更新模块具体用于:

根据常见纠错模式对当前接收到的搜索词进行纠错;

或者,根据频繁行为模式调整待输出的搜索结果的排序。

6.一种用户搜索行为的识别装置,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一所述的用户搜索行为的识别方法。

7.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的用户搜索行为的识别方法。

说明书 :

用户搜索行为的识别方法及装置

技术领域

[0001] 本发明涉及互联网技术领域,尤其涉及一种用户搜索行为的识别方法及装置。

背景技术

[0002] 对用户的搜索行为日志进行挖掘和分析是优化搜索效果,提升用户体验的重要环节。目前,较为常见的搜索行为挖掘和分析方法为对用户在一小段时间窗口内连续的搜索次数、查询点击率、点击位置、内容修改等进行挖掘分析。然而,这种方法无法准确高效地用户搜索行为进行挖掘分析方面,进行无法提供良好的搜索体验。

发明内容

[0003] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004] 为此,本发明的第一个目的在于提出一种用户搜索行为的识别方法。
[0005] 本发明的第二个目的在于提出一种用户搜索行为的识别装置。
[0006] 本发明的第三个目的在于提出另一种用户搜索行为的识别装置。
[0007] 本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
[0008] 本发明的第五个目的在于提出一种计算机程序产品。
[0009] 为达上述目的,本发明第一方面实施例提出了一种用户搜索行为的识别方法,包括:
[0010] 根据用户行为日志生成多个用户行为链;
[0011] 根据预设规则确定每个用户行为链的类别;
[0012] 对多个用户行为链的类别进行统计分析,确定分析结果;
[0013] 根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。
[0014] 在一种可能的实现方式中,所述分析结果包括用户行为模式;
[0015] 在所述用户行为模式包括常见纠错模式或频繁行为模式;
[0016] 所述根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新包括:
[0017] 根据常见纠错模式对当前接收到的搜索词进行纠错;
[0018] 或者,根据频繁行为模式调整待输出的搜索结果的排序。
[0019] 在一种可能的实现方式中,所述根据用户行为日志生成多个用户行为链包括:
[0020] 按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序;
[0021] 按照预设分割方法对排序后的用户行为日志进行分割,生成多个用户行为链。
[0022] 在一种可能的实现方式中,所述按照预设分割方法对排序后的用户行为日志进行分割,生成多个用户行为链,包括:
[0023] 依次遍历所述排序后的用户行为日志中各个用户搜索行为;
[0024] 针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为。
[0025] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索词,所述根据预设规则确定每个用户行为链的类别包括:
[0026] 对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;
[0027] 对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0028] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0029] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索结果,所述根据预设规则确定每个用户行为链的类别包括:
[0030] 对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语;
[0031] 对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0032] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0033] 在一种可能的实现方式中,所述域为行政区域名称、字号、行业、组织形式中任一种。
[0034] 本发明实施例提供的用户搜索行为的识别方法,通过根据用户行为日志生成多个用户行为链;根据预设规则确定每个用户行为链的类别;对多个用户行为链的类别进行统计分析,确定分析结果;根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。由此,以构建行为链的方式来灵活准确地划分用户的连续搜索行为区间,不受时间窗口的限制,有利于准确高效地用户搜索行为进行挖掘分析,实现准确地更新输入的搜索词和搜索结果,提升搜索体验。
[0035] 为达上述目的,本发明第二方面实施例提出了一种用户搜索行为的识别装置,包括:
[0036] 生成模块,用于根据用户行为日志生成多个用户行为链;
[0037] 确定模块,用于根据预设规则确定每个用户行为链的类别;
[0038] 分析模块,用于对多个用户行为链的类别进行统计分析,确定分析结果;
[0039] 更新模块,用于根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。
[0040] 在一种可能的实现方式中,所述分析结果包括用户行为模式;
[0041] 在所述用户行为模式包括常见纠错模式或频繁行为模式;
[0042] 所述更新模块具体用于:
[0043] 根据常见纠错模式对当前接收到的搜索词进行纠错;
[0044] 或者,根据频繁行为模式调整待输出的搜索结果的排序。
[0045] 在一种可能的实现方式中,所述生成模块包括:
[0046] 排序单元,用于按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序;
[0047] 生成单元,用于按照预设分割方法对排序后的用户行为日志进行分割,生成多个用户行为链。
[0048] 在一种可能的实现方式中,所述生成单元具体用于:
[0049] 依次遍历所述排序后的用户行为日志中各个用户搜索行为;
[0050] 针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为。
[0051] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索词,所述确定模块具体用于:
[0052] 对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;
[0053] 对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0054] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0055] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索结果,所述确定模块具体用于:
[0056] 对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语;
[0057] 对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0058] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0059] 在一种可能的实现方式中,所述域为行政区域名称、字号、行业、组织形式中任一种。
[0060] 本发明实施例提供的用户搜索行为的识别装置,通过根据用户行为日志生成多个用户行为链;根据预设规则确定每个用户行为链的类别;对多个用户行为链的类别进行统计分析,确定分析结果;根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。由此,以构建行为链的方式来灵活准确地划分用户的连续搜索行为区间,不受时间窗口的限制,有利于准确高效地用户搜索行为进行挖掘分析,实现准确地更新输入的搜索词和搜索结果,提升搜索体验。
[0061] 为达上述目的,本发明第三方面实施例提出了另一种用户搜索行为的识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的用户搜索行为的识别方法。
[0062] 为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的用户搜索行为的识别方法。
[0063] 为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的用户搜索行为的识别方法。
[0064] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0065] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0066] 图1为本发明实施例提供的一种用户搜索行为的识别方法的流程示意图;
[0067] 图2为本发明实施例提供的又一种用户搜索行为的识别方法的流程示意图;
[0068] 图3为本发明实施例提供的又一种用户搜索行为的识别方法的流程示意图;
[0069] 图4为本发明实施例提供的一种用户搜索行为的识别装置的结构示意图;
[0070] 图5为本发明实施例提供的又一种用户搜索行为的挖掘装置的结构示意图。

具体实施方式

[0071] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0072] 下面参考附图描述本发明实施例的用户搜索行为的识别方法及装置。
[0073] 图1为本发明实施例提供的一种用户搜索行为的识别方法的流程示意图。如图1所示,该用户搜索行为的识别方法包括以下步骤:
[0074] S101、根据用户行为日志生成多个用户行为链。
[0075] 本发明实施例提供的用户搜索行为的识别方法的执行主体为用户搜索行为的识别装置,用户搜索行为的识别装置具体可以为硬件设备,或者硬件设备中安装的软件。其中,硬件设备例如可以为终端设备、服务器等。
[0076] 具体的,对每个用户的用户行为日志进行处理,得到每个用户的多个用户行为链。
[0077] 作为一种示例,步骤S101的具体实现方式为:
[0078] S1011、按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序。
[0079] 作为一种示例,首先从历史用户日志中获取批量的用户行为日志;接着,用户ID对批量的用户行为日志进行聚类,得到每个用户的用户行为日志;最后,在需要对目标用户进行搜索行为挖掘分析时,根据目标用户ID获取目标用户的用户行为日志;接着,对目标用户的用户行为日志中的各个用户搜索行为按照时间先后顺序进行排序,得到目标用户的排序后的用户行为日志。
[0080] 作为又一种示例,从流式实时日志分析系统获取实时用户行为日志;按照用户ID将实时获取的用户行为日志各个用户搜索行为,按照时间先后顺序依次插入至与用户ID对应的队列中;在需要对目标用户进行搜索行为挖掘分析时,从对应的队列中获取各个用户搜索行为,以得到目标用户的排序后的用户行为日志。
[0081] S1012、按照预设分割方法对排序后的用户行为日志进行分割,生成多个用户行为链。
[0082] 具体的,步骤S1012的实现方式为:依次遍历所述排序后的用户行为日志中各个用户搜索行为;针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为。
[0083] 在实际情形中,用户在搜索时,可能会出现输入错误的搜索词的情形,这时用户在输入原始的搜索词后,会再次输入纠正后的搜索词;每输入一次搜索词,为一次查询行为。搜索引擎根据纠正后的搜索词进行搜索,得到多个搜索结果,当用户点击一个搜索结果之后,兴趣发生了转移,可能会点击下一个搜索结果;每点击一个搜索结果,为一次点击行为。
当用户想从当前搜索结果返回上一个搜索结果时,会执行一次跳出行为。
[0084] 本实施例中,用户行为链包括起始行为和终止行为。一个用户行为链可能有一个或多个查询行为,以及一个或多个点击行为或跳出行为。其中,起始行为可以理解为用户基于当前的搜索需求首次输入的搜索词所对应的查询行为;终止行为可以理解为与起始行为对应的最后一次点击行为或跳出行为。可以理解的是,在用户行为链为多个时,当前用户行为链的起始行为是在上一个用户行为链的终止行为之后的首个查询行为;当前用户行为链的终止行为为在对应的首个查询行为之后,首次出现的最后一次点击行为或跳出行为定义。
[0085] 其中,第一个用户行为链的起始行为为对用户行为日志中各个用户搜索行为进行遍历,首次遍历到的查询行为;第一个用户行为链的终止行为为对用户行为日志中在该查询行为之后的各个用户搜索行为,若遍历到首次出现的最后一次点击行为或跳出行为,将首次出现的最后一次点击行为或跳出行为定义为第一个用户行为链的终止行为。
[0086] 进一步地,为了提高对用户搜索行为的识别分析效率,对多个用户行为链进行去重处理并过滤掉无效的用户行为链。
[0087] S102、根据预设规则确定每个用户行为链的类别。
[0088] 具体的,每个用户行为链的类别可以从搜索词或搜索结果的变化情形分析得到,当搜索词和搜索结果都发生变化时,用户行为链的类别包括搜索词所确定的类别和搜索结果所确定的类别。
[0089] 在实际情形中,用户在搜索时,可能会出现输入错误的搜索词的情形,这时用户在输入原始的搜索词后,会再次输入纠正后的搜索词,这时,用户行为链包括多个搜索词,通过分析各个搜索词的变化情形确定用户行为链的类别。需要指出的是,若各个搜索词可能多个维度上都发生了变化,确定出的用户行为链的类别可能为多个。
[0090] 以公司名称搜索场景为例,用户行为链的类别可能为行政区域名称域的搜索纠错行为、字号域的搜索纠错行为、行业域的搜索纠错行为、组织形式域的搜索纠错行为。
[0091] 例如,某个用户行为链为:搜索:云天只能->搜索:云天智能->点击:湖南云天智能科技有限公司。两个相邻的搜索词“云天只能”、“云天智能”中的行业域发生了变化,行业域从“只能”纠正为“智能”,所确定该用户行为链的搜索行为类别为行业的搜索纠错行为。
[0092] 又例如,某个用户行为链为:搜索:金提可技->搜索:金堤科技->点击:北京金堤科技有限公司。两个相邻的搜索词“金提科技”、“金堤科技”中的字号域发生了变化,字号域从“金提”纠正为“金堤”,所生成的域变化信息为字号域发生变化,所确定该行为链的搜索行为类别为字号的搜索纠错行为;行业域从“可技”纠正为“科技”,所生成的域变化信息为行业域发生了变化,所确定该行为链的搜索行为类别为行业的搜索纠错行为。
[0093] 在实际情形中,搜索引擎根据最终的搜索词进行搜索,得到多个搜索结果,当用户点击一个搜索结果之后,兴趣发生了转移,可能会点击下一个搜索结果;每点击一个搜索结果,每点击一个搜索结果,为一次点击行为。当用户想从当前搜索结果返回上一个搜索结果时,会执行一次跳出行为。这时,用户行为链中包括多个搜索结果,通过分析各个搜索结果的变化情形确定用户行为链的类别。若多个搜索结果发生了多种不同的变化,确定出的用户行为链的类别可能为多个。
[0094] 以公司名称搜索场景为例,用户行为链的类别为从总公司转移到分公司的搜索兴趣转移行为,或者从分公司转移到总公司的搜索兴趣转移行为。
[0095] 例如,某个用户行为链为:搜索:天眼查->点击:北京金堤科技有限公司->点击:盐城金堤科技有限公司。两个相邻的搜索结果“北京金堤科技有限公司”、“盐城金堤科技有限公司”中行政区域名称域发生了变化,行政区域名称域从“北京”变为“盐城”,所生成的域变化信息为行政区域名称发生了变化,所确定该用户行为链的搜索行为类别为搜索兴趣转移,从总公司转移到分公司。
[0096] 又例如,某个用户行为链为:搜索:天眼查->点击:盐城金堤科技有限公司->点击:北京金堤科技有限公司。两个相邻的搜索结果“盐城金堤科技有限公司”、“北京金堤科技有限公司”中行政区域名称域发生了变化,行政区域名称域从“盐城”变为“北京”,所生成的域变化信息为行政区域名称发生了变化,所确定该用户行为链的搜索行为类别为搜索兴趣转移,从分公司转移到总公司。
[0097] S103、对多个用户行为链的类别进行统计分析,确定分析结果。
[0098] 具体的,对多个用户行为链的类别进行统计分析,分析结果例如为用户行为模式,但并不限于此。
[0099] 对归属于搜索词的变化情形的分析所确定的用户行为链的类别进行统计分析,可以确定常见纠错模式。
[0100] 以公司名称搜索场景为例,用户行为链的类别可能为行政区域名称域的搜索纠错行为、字号域的搜索纠错行为、行业域的搜索纠错行为、组织形式域的搜索纠错行为。
[0101] 通过统计分析,用户大多数的用户纠错行为发生在字号域和行业域,常见纠错模式为字号域和行业域的纠错,用户搜索行为的识别装置对容易出错的字号域和行业域进行自动纠错,提升用户的搜索体验。
[0102] 通过统计分析,用户大多数的纠错行为发生在组织形式(例如混淆“股份有限公司”和“有限责任公司”),常见纠错模式为组织形式域的纠错,用户搜索行为的识别装置自动输入的搜索词中的组织形式做规范化处理。
[0103] 对归属于搜索结果的变化情形的分析所确定的用户行为链的类别进行统计分析,可以确定频繁行为模式。
[0104] 通过统计分析,频繁行为模式为用户连续的多次点击多倾向于首先点击总公司再点击分公司,即挖掘出的频繁行为模式为首先点击总公司再点击分公司,所以总公司的排序应该在分公司之前。举例来说,用户输入的搜索词为天眼查,搜索结果中“北京金堤科技有限公司”(总公司)排在“盐城金堤科技有限公司”(分公司)的前面。
[0105] 通过统计分析,用户在点击一家公司后,会倾向于访问其股东公司再点击总公司,即挖掘出的频繁行为模式为先点击股东公司再点击总公司,所以股东公司排序应该靠前。举例来说,用户输入的搜索词为天眼查,搜索结果中“盐城金堤科技有限公司”(股东公司)排在“北京金堤科技有限公司”(总公司)的前面。
[0106] 进一步地,还可以对多个用户的多个用户行为链进行统计分析,进一步地挖掘搜索行为模式。
[0107] 作为一种示例,获取多个用户的行为链,对属于搜索纠错行为这一搜索行为类别的各个用户行为链进行统计分析,挖掘用户的常见纠错模式。在挖掘出常见纠错模式之后,用户搜索行为的识别装置对容易出错的域进行自动纠错,提升用户的搜索体验。
[0108] 例如,通过统计分析,大多数的用户纠错行为发生在字号域和行业域,常见纠错模式为字号域和行业域的纠错,用户搜索行为的识别装置对容易出错的字号域和行业域进行自动纠错,提升用户的搜索体验。
[0109] 又例如,通过统计分析,大多数的用户纠错行为发生在组织形式(例如混淆“股份有限公司”和“有限责任公司”),常见纠错模式为组织形式域的纠错,用户搜索行为的识别装置自动输入的搜索词中的组织形式做规范化处理。
[0110] 作为一种示例,获取多个用户的行为链,对属于搜索兴趣转移行为这一搜索行为类别的各个行为链进行统计分析,挖掘用户的频繁行为模式。
[0111] 例如,通过统计分析,大多数用户连续的多次点击多倾向于首先点击总公司再点击分公司,频繁行为模式为先点击总公司再点击分公司,所以总公司的排序应该在分公司之前。举例来说,用户输入的搜索词为天眼查,搜索结果中“北京金堤科技有限公司”(总公司)排在“盐城金堤科技有限公司”(分公司)的前面。
[0112] 又例如,大多数用户在点击一家公司后,会倾向于访问其股东公司,频繁行为模式为先点击股东公司再点击总公司,所以股东公司排序应该靠前。举例来说,用户输入的搜索词为天眼查,搜索结果中“盐城金堤科技有限公司”(股东公司)排在“北京金堤科技有限公司”(总公司)的前面。
[0113] 进一步地,在对多个行为链进行统计分析时,还可以实时积累常见错别字、形近字、相似行业等,并将所积累的常见错别字、形近字、相似行业等分别更新到对应的数据集中,以完成对应的数据集的自动补偿,进而帮助调整搜索结果的排序。
[0114] S104、根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。
[0115] 具体的,当用户有搜索需求时,获取用户当前输入的搜索词,在向用户返回搜索结果前,会对用户当前输入的搜索词进行纠错分析以更新搜索词,以及优化搜索结果的排序。
[0116] 具有的,若分析结果包括常见纠错模式,根据常见纠错模式对当前接收到的搜索词进行自动纠错。若分析结果包括频繁行为模式,根据频繁行为模式调整待输出的搜索结果的排序。
[0117] 例如,通过统计分析,大多数的用户纠错行为发生在字号域和行业域,常见纠错模式为字号域和行业域的纠错,用户搜索行为的识别装置处理当前接收到的搜索词时,对容易出错的字号域和行业域进行自动纠错,提升用户的搜索体验。
[0118] 又例如,通过统计分析,大多数的用户纠错行为发生在组织形式(例如混淆“股份有限公司”和“有限责任公司”),常见纠错模式为组织形式域的纠错,用户搜索行为的识别装置处理当前接收到的搜索词时,自动输入的搜索词中的组织形式做规范化处理。
[0119] 例如,通过统计分析,大多数用户连续的多次点击多倾向于首先点击总公司再点击分公司,频繁行为模式为先点击总公司再点击分公司,所以总公司的排序应该在分公司之前。举例来说,用户输入的搜索词为天眼查,搜索结果中“北京金堤科技有限公司”(总公司)排在“盐城金堤科技有限公司”(分公司)的前面。
[0120] 又例如,大多数用户在点击一家公司后,会倾向于访问其股东公司,频繁行为模式为先点击股东公司再点击总公司,所以股东公司排序应该靠前。举例来说,用户输入的搜索词为天眼查,搜索结果中“盐城金堤科技有限公司”(股东公司)排在“北京金堤科技有限公司”(总公司)的前面。
[0121] 本发明实施例提供的用户搜索行为的识别方法,通过根据用户行为日志生成多个用户行为链;根据预设规则确定每个用户行为链的类别;对多个用户行为链的类别进行统计分析,确定分析结果;根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。由此,以构建行为链的方式来灵活准确地划分用户的连续搜索行为区间,不受时间窗口的限制,有利于准确高效地用户搜索行为进行挖掘分析,实现准确地更新输入的搜索词和搜索结果,提升搜索体验。
[0122] 图2为本发明实施例提供的又一种用户搜索行为的识别方法的流程示意图。结合参考图2,在图1所示的实施例的基础上,每个用户行为链包括多个搜索词,“根据预设规则确定每个用户行为链的类别”具体包括以下步骤:
[0123] S201、对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语。
[0124] 在实际情形中,用户在搜索时,可能会出现输入错误的搜索词的情形,这时用户在输入原始的搜索词后,会再次输入纠正后的搜索词,这时,用户行为链包括多个搜索词。
[0125] 具体的,根据应用场景的不同,所定义的域不同。按照所定义的域对搜索词中的各个词语进行域标注。
[0126] 需要指出的是,域可以根据应用场景进行定义,基于所定义的域对用户行为链中的多个搜索词进行分割,基于域变化信息实现对用户行为链中搜索词的变化情况进行更加细化的分析和统计,能够实现准确地对用户搜索行为进行分类。
[0127] 以公司名称搜索场景为例,所定义的域包括行政区域名称、字号、行业、组织形式,但并不限于此。
[0128] 例如,某个用户行为链为:搜索:云天只能->搜索:云天智能->点击:湖南云天智能科技有限公司。在该用户行为链中,“搜索:云天只能”为起始行为,“点击:湖南云天智能科技有限公司”为终止行为。
[0129] 对于搜索词“云天只能”,分割为:云天(所标注的域为字号)、只能(所标注的域为行业)。
[0130] 对于搜索词“云天智能”,分割为:云天(所标注的域为字号)、智能(所标注的域为行业)。
[0131] 又例如,某个用户行为链为:搜索:金提科技->搜索:金堤科技->点击:北京金堤科技有限公司。在该行为链中,“搜索:金提科技”为起始行为,“点击:北京金堤科技有限公司”为终止行为。
[0132] 对于搜索词“金提科技”,分割为:金提(所标注的域为字号)、科技(所标注的域为行业)。
[0133] 对于搜索词“金堤科技”,分割为:金堤(所标注的域为字号)、科技(所标注的域为行业)。
[0134] 又例如,某个用户行为链为:搜索:天眼查->点击:北京金堤科技有限公司->点击:盐城金堤科技有限公司。在该行为链中,“搜索:天眼查”为为起始行为,“点击:盐城金堤科技有限公司”为终止行为。
[0135] 对于搜索词“天眼查”,分割为:天眼查(所标注的域为字号)。
[0136] S202、对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息。
[0137] S203、根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0138] 具体的,每个用户行为链可能有一个或多个域变化信息,根据每个域变化信息确定每个用户行为链的搜索行为类别为对应域的搜索纠错行为。
[0139] 例如,某个用户行为链为:搜索:云天只能->搜索:云天智能->点击:湖南云天智能科技有限公司。两个相邻的搜索词“云天只能”、“云天智能”中的行业域发生了变化,行业域从“只能”纠正为“智能”,所生成的域变化信息为行业域发生变化,所确定该用户行为链的搜索行为类别为行业的搜索纠错行为。
[0140] 又例如,某个用户行为链为:搜索:金提可技->搜索:金堤科技->点击:北京金堤科技有限公司。两个相邻的搜索词“金提科技”、“金堤科技”中的字号域发生了变化,字号域从“金提”纠正为“金堤”,所生成的域变化信息为字号域发生变化,所确定该行为链的搜索行为类别为字号的搜索纠错行为;行业域从“可技”纠正为“科技”,所生成的域变化信息为行业域发生了变化,所确定该行为链的搜索行为类别为行业的搜索纠错行为。
[0141] 本发明实施例提供的用户搜索行为的识别方法,若每个用户行为链包括多个搜索词,对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。从而基于域变化信息实现对用户行为链中搜索词的变化情况进行更加细化的分析和统计,能够实现准确地对用户搜索行为进行分类。
[0142] 图3为本发明实施例提供的又一种用户搜索行为的识别方法的流程示意图。结合参考图3,在图1所示的实施例的基础上,每个用户行为链包括多个搜索结果,“根据预设规则确定每个用户行为链的类别”具体包括以下步骤:
[0143] S301、对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语。
[0144] 在实际情形中,搜索引擎根据最终的搜索词进行搜索,得到多个搜索结果,当用户点击一个搜索结果之后,兴趣发生了转移,可能会点击下一个搜索结果;每点击一个搜索结果,每点击一个搜索结果,为一次点击行为。当用户想从当前搜索结果返回上一个搜索结果时,会执行一次跳出行为。这时,用户行为链中包括多个搜索结果。
[0145] 本实施例中,根据应用场景的不同,所定义的域不同。按照所定义的域对搜索结果中的各个词语进行域标注。
[0146] 需要指出的是,域可以根据应用场景进行定义,基于所定义的域对用户行为链中的多个搜索结果进行分割,基于域变化信息实现对用户行为链的搜索结果的变化情况进行更加细化的分析和统计,能够实现准确地对用户搜索行为进行分类。
[0147] 以公司名称搜索场景为例,所定义的域包括行政区域名称、字号、行业、组织形式,但并不限于此。
[0148] 例如,某个用户行为链为:搜索:云天只能->搜索:云天智能->点击:湖南云天智能科技有限公司。在该用户行为链中,“搜索:云天只能”为起始行为,“点击:湖南云天智能科技有限公司”为终止行为。
[0149] 对于搜索结果“湖南云天智能科技有限公司”,分割为:湖南(所标注的域为行政区域名称)、云天(所标注的域为字号)、智能科技(所标注的域为行业)、有限公司(所标注的域组织形式)。
[0150] 又例如,某个用户行为链为:搜索:金提科技->搜索:金堤科技->点击:北京金堤科技有限公司。在该用户行为链中,“搜索:金提科技”为起始行为,“点击:北京金堤科技有限公司”为终止行为。
[0151] 对于搜索结果“北京金堤科技有限公司”,分割为:北京(所标注的域为行政区域名称)、金堤(所标注的域为字号)、科技(所标注的域为行业)、有限公司(所标注的域组织形式)。
[0152] 又例如,某个用户行为链为:搜索:天眼查->点击:北京金堤科技有限公司->点击:盐城金堤科技有限公司。在该行为链中,“搜索:天眼查”为为起始行为,“点击:盐城金堤科技有限公司”为终止行为。
[0153] 对于搜索结果“北京金堤科技有限公司”,分割为:北京(所标注的域为行政区域名称)、金堤(所标注的域为字号)、科技(所标注的域为行业)、有限公司(所标注的域组织形式)。
[0154] S302、对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息。
[0155] S303、根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0156] 具体的,每个用户行为链可能有一个或多个域变化信息,根据每个域变化信息确定每个用户行为链的搜索行为类别为搜索兴趣转移行为。
[0157] 例如,某个用户行为链为:搜索:天眼查->点击:北京金堤科技有限公司->点击:盐城金堤科技有限公司。两个相邻的搜索结果“北京金堤科技有限公司”、“盐城金堤科技有限公司”中行政区域名称域发生了变化,行政区域名称域从“北京”变为“盐城”,所生成的域变化信息为行政区域名称发生了变化,所确定该用户行为链的搜索行为类别为搜索兴趣转移,从总公司转移到子公司。
[0158] 又例如,某个用户行为链为:搜索:天眼查->点击:盐城金堤科技有限公司->点击:北京金堤科技有限公司。两个相邻的搜索结果“盐城金堤科技有限公司”、“北京金堤科技有限公司”中行政区域名称域发生了变化,行政区域名称域从“盐城”变为“北京”,所生成的域变化信息为行政区域名称发生了变化,所确定该用户行为链的搜索行为类别为搜索兴趣转移,从子公司转移到总公司。
[0159] 本发明实施例提供的用户搜索行为的识别方法,若每个用户行为链包括多个搜索结果,对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语;对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息;根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。从而基于域变化信息实现对用户行为链中搜索结果的变化情况进行更加细化的分析和统计,能够实现准确地对用户搜索行为进行分类。
[0160] 图4为本发明实施例提供的一种用户搜索行为的识别装置的结构示意图。如图4所示,该用户搜索行为的识别装置包括:生成模块11、确定模块12、分析模块13、更新模块14。
[0161] 生成模块11,用于根据用户行为日志生成多个用户行为链;
[0162] 确定模块12,用于根据预设规则确定每个用户行为链的类别;
[0163] 分析模块13,用于对多个用户行为链的类别进行统计分析,确定分析结果;
[0164] 更新模块14,用于根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。
[0165] 在一种可能的实现方式中,所述分析结果包括用户行为模式;
[0166] 在所述用户行为模式包括常见纠错模式或频繁行为模式;
[0167] 所述更新模块14具体用于:
[0168] 根据常见纠错模式对当前接收到的搜索词进行纠错;
[0169] 或者,根据频繁行为模式调整待输出的搜索结果的排序。
[0170] 在一种可能的实现方式中,所述生成模块11包括:
[0171] 排序单元,用于按时间先后顺序对所述用户行为日志中的各个用户搜索行为进行排序;
[0172] 生成单元,用于按照预设分割方法对排序后的用户行为日志进行分割,生成多个用户行为链。
[0173] 在一种可能的实现方式中,所述生成单元具体用于:
[0174] 依次遍历所述排序后的用户行为日志中各个用户搜索行为;
[0175] 针对每个用户行为链,将当前遍历到的在上一个用户行为链的终止行为之后首次出现的查询行为定义为当前用户行为链的起始行为,将当前遍历到的查询行为对应的最后一次点击行为或跳出行为定义为当前用户行为链的终止行为。
[0176] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索词,所述确定模块12具体用于:
[0177] 对每个搜索词的各个词语进行域标注,并按照域对每个搜索词进行分割处理,得到每个搜索词的各个词语;
[0178] 对每两个相邻的搜索词中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0179] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0180] 在一种可能的实现方式中,所述每个用户行为链包括多个搜索结果,所述确定模块12具体用于:
[0181] 对每个搜索结果的各个词语进行域标注,并按照域对每个搜索结果进行分割处理,得到每个搜索结果的各个词语;
[0182] 对每两个相邻的搜索结果中相同域的词语进行比较,根据比较结果确定一个域变化信息;
[0183] 根据每个用户行为链的一个或多个域变化信息,确定每个用户行为链的搜索行为类别。
[0184] 在一种可能的实现方式中,所述域为行政区域名称、字号、行业、组织形式中任一种。
[0185] 需要说明的是,前述对用户搜索行为的识别方法实施例的解释说明也适用于该实施例的用户搜索行为的识别装置,其实现原理类似,此处不再赘述。
[0186] 本发明实施例提供的用户搜索行为的识别装置,通过根据用户行为日志生成多个用户行为链;根据预设规则确定每个用户行为链的类别;对多个用户行为链的类别进行统计分析,确定分析结果;根据所述分析结果对当前接收到的搜索词或对待输出的搜索结果进行更新。由此,以构建行为链的方式来灵活准确地划分用户的连续搜索行为区间,不受时间窗口的限制,有利于准确高效地用户搜索行为进行挖掘分析,实现准确地更新输入的搜索词和搜索结果,提升搜索体验。
[0187] 图5为本发明实施例提供的另一种用户搜索行为的识别装置的结构示意图。该用户搜索行为的识别装置包括:
[0188] 存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
[0189] 处理器1002执行所述程序时实现上述实施例中提供的用户搜索行为的识别方法。
[0190] 进一步地,用户搜索行为的识别装置还包括:
[0191] 通信接口1003,用于存储器1001和处理器1002之间的通信。
[0192] 存储器1001,用于存放可在处理器1002上运行的计算机程序。
[0193] 存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0194] 处理器1002,用于执行所述程序时实现上述实施例所述的用户搜索行为的识别方法。
[0195] 如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0196] 可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
[0197] 处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
[0198] 本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的用户搜索行为的识别方法。
[0199] 本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的用户搜索行为的识别方法。
[0200] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0201] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0202] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0203] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0204] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0205] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0206] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0207] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。