基于人工智能模型的数据挖掘方法及系统转让专利

申请号 : CN202210823015.2

文献号 : CN114896306B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 胡志强国忠金张睿李小倩刘心语张甲兵

申请人 : 泰山学院山东云聚科技有限公司

摘要 :

本发明是关于基于人工智能模型的数据挖掘方法及系统,通过待定用户兴趣短语的特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,不仅能够提高用户兴趣挖掘的效率,还可以保障用户兴趣挖掘的准确性,从而得到准确可靠的最终用户兴趣知识向量,以便利用最终用户兴趣知识向量准确定位用户需求,进而基于用户需求进行针对性的大数据推送处理,实现兴趣挖掘、需求分析、大数据推送的全链条数据处理。

权利要求 :

1.一种基于人工智能模型的数据挖掘方法,其特征在于,应用于数据挖掘系统,所述方法包括:

调取待进行挖掘的用户行为数据,然后确定出对所述待进行挖掘的用户行为数据和所述待进行挖掘的用户行为数据的前一组用户行为数据进行兴趣知识捕捉过程中挖掘到的目标兴趣挖掘参考向量;其中,所述目标兴趣挖掘参考向量用于反映所述前一组用户行为数据的用户兴趣知识向量中包含在所述待进行挖掘的用户行为数据中的用户兴趣知识向量;

结合所述目标兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中确定用户兴趣挖掘窗口;在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分;以及,基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。

2.根据权利要求1所述的方法,其特征在于,所述结合所述目标兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中确定用户兴趣挖掘窗口,包括:结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。

3.根据权利要求2所述的方法,其特征在于,所述结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口,包括:确定所述目标兴趣挖掘参考向量中历史兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中的分布标签,得到目标分布标签;

基于所述目标分布标签在所述待进行挖掘的用户行为数据中确定第一用户行为数据块;

将所述待进行挖掘的用户行为数据中除所述第一用户行为数据块以外的剩余用户行为数据块确定为所述用户兴趣挖掘窗口。

4.根据权利要求1所述的方法,其特征在于,所述基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量,包括:在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语;

基于所述目标待定用户兴趣短语和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量;

其中,所述在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语,包括:在所述待定用户兴趣短语所处的用户兴趣短语序列中挑选特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语;其中,所述用户兴趣短语序列中包含每个待定用户兴趣短语的特征价值评分;基于所述目标待定用户兴趣短语在所述待进行挖掘的用户行为数据中的分布标签,在所述用户兴趣挖掘窗口中确定待处理的数据清洗窗口;在所述用户兴趣短语序列中过滤掉处于所述待处理的数据清洗窗口内的待定用户兴趣短语的内容,得到完成调整的用户兴趣短语序列;在完成调整的用户兴趣短语序列中挑选特征价值评分最高的用户兴趣短语作为目标待定用户兴趣短语,直到挑选出的目标待定用户兴趣短语的数目达到设定数目。

5.根据权利要求1所述的方法,其特征在于,所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语,包括:对于所述用户兴趣挖掘窗口中的每个行为数据单元,根据每个行为数据单元的分布标签信息在所述用户兴趣挖掘窗口中确定第二用户行为数据块;

如果确定出第二用户行为数据块内目标行为数据单元的数目大于设定数目,则确定该行为数据单元为所述待定用户兴趣短语;其中,所述目标行为数据单元与该行为数据单元之间的行为热力值之差大于设定行为热力值。

6.根据权利要求1所述的方法,其特征在于,所述待定用户兴趣短语的数目为多个;所述方法还包括:在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分之后,通过预设专家系统模型对多个所述待定用户兴趣短语进行优化,得到完成优化的待定用户兴趣短语;

所述基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量,包括:基于所述完成优化的待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。

7.根据权利要求1所述的方法,其特征在于,所述在所述用户兴趣挖掘窗口中确定所述待定用户兴趣短语的特征价值评分,包括:在所述待进行挖掘的用户行为数据中确定每个待定用户兴趣短语所对应的用户行为数据块的文本描述内容,并确定所述文本描述内容的量化描述值,得到多个量化描述值;

在所述多个量化描述值中挑选最小量化描述值作为每个待定用户兴趣短语的特征价值评分。

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

确定所述目标兴趣挖掘参考向量中所包括的历史兴趣挖掘参考向量的数目;

基于所述历史兴趣挖掘参考向量的数目和/或所述待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据是否达到数据集筛选处理要求;其中,所述行为数据要素用于确定所述待进行挖掘的用户行为数据是否为活跃用户行为数据;

如果鉴别出达到所述数据集筛选处理要求,则实施“结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理”的步骤;

其中,所述基于所述历史兴趣挖掘参考向量的数目和/或所述待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据是否达到数据集筛选处理要求,包括如下其中一项:如果所述历史兴趣挖掘参考向量的数目小于第一数目,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求;如果所述历史兴趣挖掘参考向量的数目不小于所述第一数目,小于第二数目,且基于所述行为数据要素确定出所述待进行挖掘的用户行为数据为活跃用户行为数据,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求。

9.根据权利要求1所述的方法,其特征在于,所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语之前,还包括:对所述待进行挖掘的用户行为数据的扰动数据集进行分割,得到分割之后的待进行挖掘的用户行为数据;

所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分,包括:在分割之后的待进行挖掘的用户行为数据所包括的用户兴趣挖掘窗口中确定所述待定用户兴趣短语和待定用户兴趣短语的特征价值评分。

10.一种数据挖掘系统,其特征在于,包括处理引擎、网络模块和存储器,所述处理引擎和所述存储器通信连接于所述网络模块,所述处理引擎用于从所述存储器中读取计算机程序并运行,以实现权利要求1‑9任一项所述的方法。

说明书 :

基于人工智能模型的数据挖掘方法及系统

技术领域

[0001] 本发明涉及数据挖掘技术领域,具体而言,涉及一种基于人工智能模型的数据挖掘方法及系统。

背景技术

[0002] 数据挖掘(Data mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。当下,数据挖掘在用户兴趣分析中应用较为广泛,但是大部分数据挖掘技术在兴趣挖掘的效率和精度方面还需进行改进。

发明内容

[0003] 第一方面,本发明实施例提供了一种基于人工智能模型的数据挖掘方法,应用于数据挖掘系统,所述方法包括:调取待进行挖掘的用户行为数据,然后确定出对所述待进行挖掘的用户行为数据和所述待进行挖掘的用户行为数据的前一组用户行为数据进行兴趣知识捕捉过程中挖掘到的目标兴趣挖掘参考向量,其中,所述目标兴趣挖掘参考向量用于反映前一组用户行为数据的用户兴趣知识向量中包含在所述待进行挖掘的用户行为数据中的用户兴趣知识向量;结合所述目标兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中确定用户兴趣挖掘窗口;在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分;并基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0004] 如此设计,通过待定用户兴趣短语的特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,不仅能够提高用户兴趣挖掘的效率,还可以保障用户兴趣挖掘的准确性,从而得到准确可靠的最终用户兴趣知识向量,以便利用最终用户兴趣知识向量准确定位用户需求,进而基于用户需求进行针对性的大数据推送处理,实现兴趣挖掘、需求分析、大数据推送的全链条数据处理。
[0005] 在一些可能的实施例下,所述结合所述目标兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中确定用户兴趣挖掘窗口,包括:结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0006] 如此设计,在对待进行挖掘的用户行为数据进行用户兴趣挖掘之前,通过目标兴趣挖掘参考向量在待进行挖掘的用户行为数据中筛选出用户兴趣挖掘窗口的思路,无需对待进行挖掘的用户行为数据的所有用户行为数据块进行用户兴趣挖掘,这样能够减少特征运算的复杂度,并节约不必要的资源开销。
[0007] 在一些可能的实施例下,所述结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口,包括:确定所述目标兴趣挖掘参考向量中历史兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中的分布标签,得到目标分布标签;基于所述目标分布标签在所述待进行挖掘的用户行为数据中确定第一用户行为数据块;将所述待进行挖掘的用户行为数据中除所述第一用户行为数据块以外的剩余用户行为数据块确定为所述用户兴趣挖掘窗口。
[0008] 如此设计,通过对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理的思路,可以进一步减少数据挖掘系统的系统开销,这样能够提高数据挖掘系统的数据处理效率,侧面提高兴趣挖掘的时效性。
[0009] 在一些可能的实施例下,所述基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量,包括:在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语;基于所述目标待定用户兴趣短语和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0010] 在一些可能的实施例下,所述在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为所述目标待定用户兴趣短语,包括:在所述待定用户兴趣短语所处的用户兴趣短语序列中挑选特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语,其中,所述用户兴趣短语序列中包含每个待定用户兴趣短语的特征价值评分;基于所述目标待定用户兴趣短语在所述待进行挖掘的用户行为数据中的分布标签,在所述用户兴趣挖掘窗口中确定待处理的数据清洗窗口;在所述用户兴趣短语序列中过滤掉处于所述待处理的数据清洗窗口内的待定用户兴趣短语的内容,得到完成调整的用户兴趣短语序列;在完成调整的用户兴趣短语序列中挑选特征价值评分最高的用户兴趣短语作为目标待定用户兴趣短语,直到挑选出的目标待定用户兴趣短语的数目达到设定数目。
[0011] 如此设计,采用在用户兴趣挖掘窗口确定待定用户兴趣短语,并确定待定用户兴趣短语的特征价值评分,以根据特征价值评分确定目标待定用户兴趣短语的思路,能够得到精度更佳,抗干扰性更高的待定用户兴趣短语,从而得到更准确和更可信的最终用户兴趣知识向量。此外,能够将高精度的用户兴趣短语加入到数据挖掘系统中,这使得用户兴趣知识向量的完整性和多样性受到保障,从而提高生成的兴趣知识库的准确性。
[0012] 在一些可能的实施例下,所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语,包括:对于所述用户兴趣挖掘窗口中的每个行为数据单元,根据每个行为数据单元的分布标签信息在所述用户兴趣挖掘窗口中确定第二用户行为数据块;如果确定出第二用户行为数据块内目标行为数据单元的数目大于设定数目,则确定该行为数据单元为所述待定用户兴趣短语;其中,所述目标行为数据单元与该行为数据单元之间的行为热力值之差大于设定行为热力值。
[0013] 在一些可能的实施例下,所述待定用户兴趣短语的数目为多个;所述方法还包括:在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分之后,通过预设专家系统模型对多个所述待定用户兴趣短语进行优化,得到完成优化的待定用户兴趣短语;所述基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量,包括:基于所述完成优化的待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0014] 在一些可能的实施例下,所述在所述用户兴趣挖掘窗口中确定所述待定用户兴趣短语的特征价值评分,包括:在所述待进行挖掘的用户行为数据中确定每个待定用户兴趣短语所对应的用户行为数据块的文本描述内容,并确定所述文本描述内容的量化描述值,得到多个量化描述值;在所述多个量化描述值中挑选最小量化描述值作为每个待定用户兴趣短语的特征价值评分。
[0015] 如此设计,采用特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,可以改善相关技术挖掘出的用户兴趣短语价值度低下,全面性较差导致的数据挖掘系统挖掘精度低下的缺陷。此外,采用预设专家系统模型对待定用户兴趣短语进行优化的思路,能够尽可能确定出抗干扰性高的待定用户兴趣短语,从而侧面保障了最终用户兴趣知识向量的准确性。
[0016] 在一些可能的实施例下,所述方法还包括:确定所述目标兴趣挖掘参考向量中所包括的历史兴趣挖掘参考向量的数目;基于所述历史兴趣挖掘参考向量的数目和/或所述待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据是否达到数据集筛选处理要求;其中,所述行为数据要素用于确定所述待进行挖掘的用户行为数据是否为活跃用户行为数据;如果鉴别出达到所述数据集筛选处理要求,则实施“结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理”的步骤。
[0017] 在一些可能的实施例下,所述基于所述历史兴趣挖掘参考向量的数目和/或所述待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据是否达到数据集筛选处理要求,包括:如果所述历史兴趣挖掘参考向量的数目小于第一数目,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求;或者,如果所述历史兴趣挖掘参考向量的数目不小于所述第一数目,小于第二数目,且基于所述行为数据要素确定出所述待进行挖掘的用户行为数据为活跃用户行为数据,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求。
[0018] 如此设计,通过数据挖掘系统目标兴趣挖掘参考向量的数目以及待进行挖掘的用户行为数据是否是活跃用户行为数据来判断是否对待进行挖掘的用户行为数据实施用户兴趣挖掘的思路,如果是,则对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到完成优化的用户兴趣挖掘窗口,进一步地,在用户兴趣挖掘窗口中进行用户兴趣挖掘,可以减少兴趣挖掘的时间消耗,并且能够缓解数据挖掘系统的运行压力。
[0019] 在一些可能的实施例下,所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语之前,还包括:对所述待进行挖掘的用户行为数据的扰动数据集进行分割,得到分割之后的待进行挖掘的用户行为数据;所述在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分,包括:在分割之后的待进行挖掘的用户行为数据所包括的用户兴趣挖掘窗口中确定所述待定用户兴趣短语和待定用户兴趣短语的特征价值评分。
[0020] 如此设计,在得到分割之后的待进行挖掘的用户行为数据之后,便能够在分割之后的待进行挖掘的用户行为数据中所包括的用户兴趣挖掘窗口内确定待定用户兴趣短语,从而保证不挖掘扰动数据集对应的用户兴趣短语,进而提高用户兴趣挖掘过程中的得到的结果的信噪比。
[0021] 第二方面,本发明实施例还提供了一种数据挖掘系统,包括处理引擎、网络模块和存储器,所述处理引擎和所述存储器通信连接于所述网络模块,所述处理引擎用于从所述存储器中读取计算机程序并运行,以实现上述的方法。
[0022] 在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前发明中的特征可以被实现和获得。

附图说明

[0023] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0024] 附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中参考数字在附图的各个视图中代表相似的机构。
[0025] 图1是根据本发明的一些实施例所示的一种示例性基于人工智能模型的数据挖掘方法的应用场景的框图。
[0026] 图2是根据本发明的一些实施例所示的一种示例性数据挖掘系统中硬件和软件组成的示意图。
[0027] 图3是根据本发明的一些实施例所示的一种示例性基于人工智能模型的数据挖掘方法和/或过程的流程图。

具体实施方式

[0028] 为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
[0029] 在下面的详细描述中,通过实例阐述了许多具体细节,以便提供对相关指导的全面了解。然而,对于本领域的技术人员来说,显然可以在没有这些细节的情况下实施本发明。在其他情况下,公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述,没有细节,以避免不必要的模糊本发明的方面。
[0030] 这些和其他特性、当前发明披露的功能、执行的方法、结构中相关元素的功能和部件的组合和生产经济性,在参照附图进行以下描述的考虑中可能会变得更加明显,所有这些形成本发明的一部分。然而,需要理解清楚的是,附图仅仅是为了说明和描述的目的,并不旨在限制本发明的范围。应当了解的是,这些图纸不是按比例绘制的。然而,应当明确理解的是,附图仅用于说明和描述的目的,并不意图限制本发明的范围。应当知晓的是,这些附图并不依照比例。
[0031] 本发明中使用流程图说明根据本发明的实施例的系统所执行的执行过程。应当明确理解的是,流程图的执行过程可以不按顺序执行。相反,这些执行过程可以以相反的顺序或同时执行。另外,可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。
[0032] 图1是根据本发明的一些实施例所示的一种示例性基于人工智能模型的数据挖掘方法的应用场景300的框图,基于人工智能模型的数据挖掘方法的应用场景300可以包括数据挖掘系统100和数字化用户客户端200。
[0033] 在一些实施例中,如图2所示,数据挖掘系统100可以包括处理引擎110、网络模块120和存储器130,处理引擎110和存储器130通过网络模块120通信。
[0034] 处理引擎110可以处理相关的信息和/或数据以执行本发明中描述的一个或多个功能。例如,在一些实施例中,处理引擎110可以包括至少一个处理引擎(例如,单核处理引擎或多核处理器)。仅作为示例,处理引擎110可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application‑Specific Integrated Circuit,ASIC)、专用指令集处理器(Application‑Specific Instruction‑set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、精简指令集计算机(Reduced Instruction‑Set Computer,RISC)、微处理器等或其任意组合。
[0035] 网络模块120可以促进信息和/或数据的交换。在一些实施例中,网络模块120可以是任何类型的有线或无线网络或其组合。仅作为示例,网络模块120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网络(Wireless Local Area Network,WLAN)、城域网(Metropolitan Area Network,MAN)、公用电话交换网(Public Telephone Switched Network,PSTN)、蓝牙网络、无线个域网络、近场通讯(Near Field Communication,NFC)网络等或上述举例的任意组合。在一些实施例中,网络模块120可以包括至少一个网络接入点。例如,网络模块120可以包括有线或无线网路接入点,如基站和/或网路接入点。
[0036] 存储器130可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read‑Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read‑Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read‑Only Memory,EEPROM)等。其中,存储器130用于存储程序,所述处理引擎110在接收到执行指令后,执行所述程序。
[0037] 可以理解,图2所示的结构仅为示意,数据挖掘系统100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
[0038] 图3是根据本发明的一些实施例所示的一种示例性基于人工智能模型的数据挖掘方法和/或过程的流程图,基于人工智能模型的数据挖掘方法应用于图1中的数据挖掘系统100,图3所示的流程图进一步可以包括步骤201、步骤203以及步骤205所描述的技术方案。
[0039] 步骤201:调取待进行挖掘的用户行为数据,然后确定出对所述待进行挖掘的用户行为数据和所述待进行挖掘的用户行为数据的前一组用户行为数据进行兴趣知识捕捉过程中挖掘到的目标兴趣挖掘参考向量。
[0040] 对于本发明实施例而言,所述目标兴趣挖掘参考向量用于反映前一组用户行为数据的用户兴趣知识向量中包含在所述待进行挖掘的用户行为数据中的用户兴趣知识向量。
[0041] 对于本发明实施例而言,目标兴趣挖掘参考向量可以理解为上下游用户行为数据(比如待进行挖掘的用户行为数据及其前一组用户行为数据)的兴趣挖掘参考向量,也可以理解为兴趣重叠向量或者兴趣跟踪向量。其中,待进行挖掘的用户行为数据的前一组用户行为数据可以理解为待进行挖掘的用户行为数据的前一组待待进行挖掘的用户行为数据。比如,待进行挖掘的用户行为数据的前一组用户行为数据的用户兴趣知识向量中包含在待进行挖掘的用户行为数据中的用户兴趣知识向量。以上所描述的待进行挖掘的用户行为数据和前一组用户行为数据可以为数据挖掘系统中数据采集线程(比如大数据爬虫)所采集到的文本描述内容。
[0042] 一般而言,对于本发明实施例而言,目标兴趣挖掘参考向量可以理解为用户行为数据中的若干个历史兴趣挖掘参考向量。
[0043] 进一步地,用户兴趣知识向量用于表征用户兴趣特征,因而还可以理解为兴趣特征向量,可以通过数值、字母等字符串组成,在此不作限定。用户行为数据涉及的业务领域可以包括数字支付、远程办公、虚拟现实、智慧物联等。
[0044] 步骤203:结合所述目标兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中确定用户兴趣挖掘窗口。
[0045] 举例而言,用户兴趣挖掘窗口可以理解为用于指示进行用户兴趣挖掘的窗口化信息或者数据区域,比如可以通过规则形状或者不规则形状进行用户兴趣挖掘窗口的围合确定。
[0046] 步骤205:在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分;以及,基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0047] 对于本发明实施例而言,在确定出用户兴趣挖掘窗口之后,便能够在用户兴趣挖掘窗口中确定不少于一个特征短语作为待定用户兴趣短语,并根据待进行挖掘的用户行为数据中每个特征短语(比如待定用户兴趣短语)所对应的用户行为数据块的量化描述值来确定每个特征短语(比如待定用户兴趣短语)的特征价值评分。
[0048] 对于本发明实施例而言,特征价值评分用于表征每个待定用户兴趣短语对确定出的待进行挖掘的用户行为数据的最终用户兴趣知识向量的精度的贡献,以及表征每个待定用户兴趣短语对系统运行压力大小的影响。比如,在根据特征价值评分高的待定用户兴趣短语确定待进行挖掘的用户行为数据的最终用户兴趣知识向量时,可以得到更准确和更可信的最终用户兴趣知识向量,且对系统运行压力呈最小化;反之,在根据特征价值评分低的待定用户兴趣短语确定待进行挖掘的用户行为数据的最终用户兴趣知识向量时,得到准确度降低的最终用户兴趣知识向量,且对系统运行压力逐渐增加。鉴于此,对于本发明实施例而言,采用特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,可以改善相关技术挖掘出的用户兴趣短语价值度低下,以及全面性较差导致的数据挖掘系统挖掘精度低下的缺陷。
[0049] 对于一些示例性实施例而言,可以结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0050] 举例而言,在确定目标兴趣挖掘参考向量之后,便能够根据目标兴趣挖掘参考向量对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,从而剔除待进行挖掘的用户行为数据中的非用户兴趣挖掘窗口。在剔除非用户兴趣挖掘窗口之后,便能够对剔除之后得到的用户兴趣挖掘窗口进行用户兴趣挖掘,从而简化了待进行挖掘的用户行为数据中的用户行为数据块,从而提高兴趣挖掘效率。
[0051] 假如目标兴趣挖掘参考向量为多个历史兴趣挖掘参考向量,那么历史兴趣挖掘参考向量的数目越多,从待进行挖掘的用户行为数据筛选出的非用户兴趣挖掘窗口也就越大,在这种情况下,筛选之后得到的用户兴趣挖掘窗口的越小,从而进一步减少了系统运算压力,提高了兴趣挖掘的时效性。
[0052] 如此设计,对于本发明实施例而言,在对待进行挖掘的用户行为数据进行用户兴趣挖掘之前,通过目标兴趣挖掘参考向量在待进行挖掘的用户行为数据中筛选出用户兴趣挖掘窗口的思路,无需对待进行挖掘的用户行为数据的所有用户行为数据块进行用户兴趣挖掘,这样能够减少特征运算的复杂度,并节约不必要的资源开销;再通过待定用户兴趣短语的特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,不仅能够提高用户兴趣挖掘的效率,还可以保障用户兴趣挖掘的准确性,从而得到准确可靠的最终用户兴趣知识向量,以便利用最终用户兴趣知识向量准确定位用户需求,进而基于用户需求进行针对性的大数据推送处理,实现兴趣挖掘、需求分析、大数据推送的全链条数据处理。
[0053] 如此设计,对于本发明实施例而言,在获取到待进行挖掘的用户行为数据和数据挖掘系统的目标兴趣挖掘参考向量之后,便能够对待进行挖掘的用户行为数据进行数据更新,得到数据更新之后的待进行挖掘的用户行为数据,进而通过目标兴趣挖掘参考向量对数据更新之后的待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。其中,一般而言,对待进行挖掘的用户行为数据进行数据更新是指对待进行挖掘的用户行为数据进行数据补全和纠错处理,从而得到更加准确的待进行挖掘的用户行为数据,以提高待进行挖掘的用户行为数据的用户兴趣挖掘准确性。
[0054] 对于一些示例性实施例而言,在通过目标兴趣挖掘参考向量对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理之前,还可以根据目标兴趣挖掘参考向量中历史兴趣挖掘参考向量的数目和目标获取到的待进行挖掘的用户行为数据是否为活跃用户行为数据来鉴别待进行挖掘的用户行为数据是否达到数据集筛选处理要求。示例性地,以上思路可以包括如下内容。
[0055] (一)、确定所述目标兴趣挖掘参考向量中所包括的历史兴趣挖掘参考向量的数目。
[0056] (二)、基于所述历史兴趣挖掘参考向量的数目和/或所述待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据是否达到数据集筛选处理要求;其中,所述行为数据要素用于确定所述待进行挖掘的用户行为数据是否为活跃用户行为数据。
[0057] 对于本发明实施例而言,针对数据挖掘系统来说,活跃用户行为数据为实施用户兴趣挖掘的用户行为数据。换言之,在数据挖掘系统,并不是对每组用户行为数据都实施用户兴趣挖掘操作,而是对活跃用户行为数据实施用户兴趣挖掘操作。比如,可以设定间隔3组确定一组活跃用户行为数据,然后,对该活跃用户行为数据实施用户兴趣挖掘操作。因此,对于本发明实施例而言,可以根据当前待进行挖掘的用户行为数据的行为数据要素来判断是否对该待进行挖掘的用户行为数据实施用户兴趣挖掘操作。
[0058] 此外,除了根据行为数据要素来判断是否对待进行挖掘的用户行为数据实施用户兴趣挖掘操作之外,还可以根据目标兴趣挖掘参考向量中历史兴趣挖掘参考向量的数目来判断是否对待进行挖掘的用户行为数据实施用户兴趣挖掘操作。举例而言,可以预先设定一个最小值和一个最大值,然后,将历史兴趣挖掘参考向量的数目分别与最小值和最大值进行比对,从而确定是否对待进行挖掘的用户行为数据实施用户兴趣挖掘操作。
[0059] (三)、如果鉴别出达到所述数据集筛选处理要求,则结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理。
[0060] 对于本发明实施例而言,如果根据历史兴趣挖掘参考向量的数目和/或待进行挖掘的用户行为数据的行为数据要素确定所述待进行挖掘的用户行为数据达到数据集筛选处理要求,则对待进行挖掘的用户行为数据实施用户兴趣挖掘操作,从而实施步骤203和步骤205。
[0061] 进一步地,如果根据历史兴趣挖掘参考向量的数目和/或待进行挖掘的用户行为数据的行为数据要素确定该待进行挖掘的用户行为数据不达到数据集筛选处理要求,则跳过该待进行挖掘的用户行为数据,并继续获取下一个待进行挖掘的用户行为数据,进而继续判断下一个待进行挖掘的用户行为数据是否达到数据集筛选处理要求。
[0062] 对于本发明实施例而言,可以通过以下思路来判断待进行挖掘的用户行为数据是否达到数据集筛选处理要求。
[0063] 思路1:如果所述历史兴趣挖掘参考向量的数目小于第一数目,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求。
[0064] 举例而言,对于本发明实施例而言,数据挖掘系统的目标兴趣挖掘参考向量记为vector1,目标兴趣挖掘参考向量中所包括的历史兴趣挖掘参考向量的数目记为N_vector;第一数目即以上的最小值,设置为N_min。基于此,可以先判断N_vector是否小于N_min,如果是,则说明数据挖掘系统的目标兴趣挖掘参考向量的历史兴趣挖掘参考向量的数目较少,为了提高数据挖掘系统中知识库生成节点的准确性,需要在N_vector小于N_min的情况下,通过目标兴趣挖掘参考向量对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0065] 一般而言,对于本发明实施例而言,第一数目可以灵活设置,比如,第一数目可以挑选为10,除了10之外,还可以挑选为其他数值,比如,11和12等。
[0066] 思路2:如果所述历史兴趣挖掘参考向量的数目不小于所述第一数目,小于第二数目,且基于所述行为数据要素确定出所述待进行挖掘的用户行为数据为活跃用户行为数据,则确定所述待进行挖掘的用户行为数据达到所述数据集筛选处理要求。其中,第二数目大于第一数目。
[0067] 举例而言,对于本发明实施例而言,数据挖掘系统的目标兴趣挖掘参考向量记为vector1,目标兴趣挖掘参考向量中所包括的历史兴趣挖掘参考向量的数目记为N_vector;第一数目即以上的最小值,记为N_min,第二数目即为以上的最大值,记为N_max。在这种情况下,可以先判断N_vector是否小于N_min,如果不是,则继续判断N_vector是否小于N_max。如果是,则继续确定目标待进行挖掘的用户行为数据是否为活跃用户行为数据。假设,间隔3组确定一个活跃用户行为数据。基于此,可以确定出待进行挖掘的用户行为数据达到数据集筛选处理要求,从而可以对待进行挖掘的用户行为数据实施用户兴趣挖掘操作。
[0068] 如此设计,在对待进行挖掘的用户行为数据进行用户兴趣挖掘之前,首先要结合行为数据要素和历史兴趣挖掘参考向量的数目来判断待进行挖掘的用户行为数据是否达到数据集筛选处理要求。若达到,则实施后续的用户兴趣挖掘操作。这样一来,能够对不达标的待进行挖掘的用户行为数据进行进一步剔除,以提高系统运算效率,保障兴趣挖掘的时效性。
[0069] 对于本发明实施例而言,在判断出待进行挖掘的用户行为数据达到数据集筛选处理要求之后,便能够通过目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0070] 对于一些示例性实施例而言,步骤203,结合所述目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口,可以通过如下技术方案实现:确定目标兴趣挖掘参考向量中历史兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中的分布标签,得到目标分布标签;根据目标分布标签在所述待进行挖掘的用户行为数据中确定第一用户行为数据块;将所述待进行挖掘的用户行为数据中除所述第一用户行为数据块以外的剩余用户行为数据块确定为所述用户兴趣挖掘窗口。
[0071] 其中,分布标签可以是历史兴趣挖掘参考向量在所述待进行挖掘的用户行为数据中的位置信息。
[0072] 如果第一用户行为数据块为矩形窗口,那么以每个目标分布标签为基准,在待进行挖掘的用户行为数据中确定多个矩形窗口的思路如下:设定目标兴趣挖掘参考向量vector1中包含多个历史兴趣挖掘参考向量,第j个历史兴趣挖掘参考向量vector_j在待进行挖掘的用户行为数据中的定位变量为(index1_j,index2_j),此时,可以结合定位变量(index1_j,index2_j)确定对应的用户兴趣挖掘窗口。
[0073] 基于以上思路确定得到多个第一用户行为数据块之后,便能够将待进行挖掘的用户行为数据中除所述多个第一用户行为数据块以外的剩余用户行为数据块确定为用户兴趣挖掘窗口。比如,在一些示例中的矩形窗口为非用户兴趣挖掘窗口,待进行挖掘的用户行为数据中除了矩形窗口以外的数据集可以理解为对应的用户兴趣挖掘窗口。
[0074] 可以理解的是,在确定出用户兴趣挖掘窗口之后,便能够对用户兴趣挖掘窗口进行处理,从而得到待进行挖掘的用户行为数据的最终用户兴趣知识向量。如此设计,对于本发明实施例而言,通过对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理的思路,可以进一步减少数据挖掘系统的系统开销,这样能够提高数据挖掘系统的数据处理效率,侧面提高兴趣挖掘的时效性。
[0075] 对于本发明实施例而言,基于以上思路确定出用户兴趣挖掘窗口之后,便能够在用户兴趣挖掘窗口中确定待定用户兴趣短语,以及确定待定用户兴趣短语的特征价值评分。
[0076] 对于一些示例性实施例而言,在所述用户兴趣挖掘窗口中确定待定用户兴趣短语可以包括如下内容:对于所述用户兴趣挖掘窗口中的每个行为数据单元,根据每个行为数据单元的分布标签信息,在所述用户兴趣挖掘窗口中确定第二用户行为数据块;如果确定出第二用户行为数据块内目标行为数据单元的数目大于设定数目,则确定该行为数据单元为所述待定用户兴趣短语;其中,所述目标行为数据单元与该行为数据单元之间的行为热力值之差大于设定行为热力值。
[0077] 举例而言,对于本发明实施例而言,在用户兴趣挖掘窗口中确定待定用户兴趣短语时,可以首先对待进行挖掘的用户行为数据的扰动数据集进行分割,得到分割之后的待进行挖掘的用户行为数据;从而在分割之后的待进行挖掘的用户行为数据所包括的用户兴趣挖掘窗口中确定待定用户兴趣短语。进一步地,行为热力值可以理解为特征识别度或者行为活跃度。
[0078] 可以理解的是,在得到分割之后的待进行挖掘的用户行为数据之后,便能够在分割之后的待进行挖掘的用户行为数据所包括的用户兴趣挖掘窗口内确定待定用户兴趣短语,从而确保在扰动数据集中不挖掘用户兴趣短语,进而提高用户兴趣挖掘过程中的得到的结果的信噪比。
[0079] 对于本发明实施例而言,在得到上述分割之后的待进行挖掘的用户行为数据的用户行为数据块data block_i之后,便能够对该用户行为数据块data block_i中的行为数据单元 以每个行为数据单元unit_i为基准,在用户兴趣挖掘窗口中确定第二用户行为数据块。进一步地,可以统计处于第二用户行为数据块内的每个行为数据单元与该行为数据单元unit_i之间的行为热力值之差。若行为热力值之差大于设定行为热力值,则确定第二用户行为数据块内的该行为数据单元为目标行为数据单元。进一步地,统计目标行为数据单元的数目,若目标行为数据单元的数目大于设定数目,则确定该行为数据单元unit_i为待定用户兴趣短语。
[0080] 一般而言,对于本发明实施例而言,设定行为热力值可以挑选为10个行为数据单元,设定数目可以挑选为5个行为数据单元。
[0081] 对于本发明实施例而言,针对用户行为数据块data block_i中的每个行为数据单元,都基于以上的思路确定该行为数据单元是否为待定用户兴趣短语。
[0082] 对于本发明实施例而言,在确定出待定用户兴趣短语之后,便能够确定用户兴趣短语的特征价值评分,举例而言,可以在所述待进行挖掘的用户行为数据中确定每个待定用户兴趣短语所对应的用户行为数据块的文本描述内容,并确定所述文本描述内容的量化描述值,得到多个量化描述值;从而在所述多个量化描述值中挑选最小量化描述值作为每个待定用户兴趣短语的特征价值评分。
[0083] 对于本发明实施例而言,可以在待进行挖掘的用户行为数据的用户兴趣挖掘窗口中确定一个X*X的用户行为数据块,比如,8*8的用户行为数据块。然后,确定该X*X的用户行为数据块的文本描述内容,比如,X*X的用户行为数据块的数据单元关系网。进一步地,对该X*X的用户行为数据块的文本描述内容进行量化描述值(特征值)确定,得到多个量化描述值,进一步地,在多个量化描述值中挑选最小量化描述值作为每个待定用户兴趣短语的特征价值评分。
[0084] 举例而言,可以根据公式VALUE=min(D1,D2)计算每个待定用户兴趣短语的特征价值评分,其中,D1和D2表示待定用户兴趣短语所对应的用户行为数据块的文本描述内容的量化描述值。
[0085] 对于本发明实施例而言,在所述用户兴趣挖掘窗口中确定待定用户兴趣短语和待定用户兴趣短语的特征价值评分之后,还可以通过预设专家系统模型对多个所述待定用户兴趣短语进行优化,得到完成优化的待定用户兴趣短语,从而使得完成优化的待定用户兴趣短语在用户兴趣挖掘窗口所对应的8*8的用户行为数据块内包含一个稳定性最高的待定用户兴趣短语。其中,稳定性最高的待定用户兴趣短语可以理解为抗干扰性高的待定用户兴趣短语。
[0086] 进一步地,在得到完成优化的待定用户兴趣短语后,便能够基于所述完成优化的待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0087] 如此设计,对于本发明实施例而言,特征价值评分用于表征每个待定用户兴趣短语对确定出的待进行挖掘的用户行为数据的最终用户兴趣知识向量的准确性的贡献,以及表征每个待定用户兴趣短语对系统运行压力大小的影响。鉴于此,对于本发明实施例而言,采用特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,可以改善相关技术挖掘出的用户兴趣短语价值度低下,全面性较差导致的数据挖掘系统挖掘精度低下的缺陷。此外,采用预设专家系统模型对待定用户兴趣短语进行优化的思路,能够尽可能确定出抗干扰性高的待定用户兴趣短语,从而侧面保障了最终用户兴趣知识向量的精度。
[0088] 在另外的一些示例下,基于所述待定用户兴趣短语的特征价值评分和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量,可以包括如下内容:在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为所述目标待定用户兴趣短语;基于所述目标待定用户兴趣短语和所述目标兴趣挖掘参考向量确定所述待进行挖掘的用户行为数据的最终用户兴趣知识向量。
[0089] 举例而言,对于本发明实施例而言,可以根据多个待定用户兴趣短语的特征价值评分,依次从多个待定用户兴趣短语中挑选不少于一个特征价值评分最高的目标待定用户兴趣短语。然后,确定目标待定用户兴趣短语的特征信息,并将确定出的目标待定用户兴趣短语的特征信息添加至目标兴趣挖掘参考向量中,从而得到最终用户兴趣知识向量。
[0090] 一般而言,对于本发明实施例而言,在确定最终用户兴趣知识向量时,除了要考虑待定用户兴趣短语的特征价值评分之外,还需要考虑最终用户兴趣知识向量的全面性和多样性,因为若获取到向量满足全面性和多样性要求的最终用户兴趣知识向量,能够显著提高数据挖掘系统的兴趣挖掘和知识库生成的准确性。
[0091] 基于此,对于本发明实施例而言,在所述待定用户兴趣短语中挑选不少于一个特征价值评分最高的待定用户兴趣短语作为所述目标待定用户兴趣短语可以作如下理解。
[0092] (1)、在所述待定用户兴趣短语所处的用户兴趣短语序列中挑选特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语,其中,所述用户兴趣短语序列中包含每个待定用户兴趣短语的特征价值评分。
[0093] 对于本发明实施例而言,待定用户兴趣短语对应一个用户兴趣短语序列,包含每个待定用户兴趣短语的用户兴趣短语信息和特征价值评分。其中,在该用户兴趣短语序列中,特征价值评分可以按照降序的规则进行整理,或者,按照升序的规则进行整理。
[0094] 对于本发明实施例而言,可以先从用户兴趣短语序列中挑选一个特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语,并将该目标待定用户兴趣短语加入到历史兴趣挖掘参考向量所处的用户兴趣短语序列中。
[0095] (2)、基于所述目标待定用户兴趣短语在所述待进行挖掘的用户行为数据中的分布标签,在所述用户兴趣挖掘窗口中确定待处理的数据清洗窗口。
[0096] 进一步地,在确定出目标待定用户兴趣短语之后,需要在待进行挖掘的用户行为数据中确定目标待定用户兴趣短语所对应的一个用户行为数据块,比如,以该目标待定用户兴趣短语为基准,T个行为数据单元为约束值确定一个矩形窗口,其中,该矩形窗口即为待处理的数据清洗窗口。
[0097] (3)、在所述用户兴趣短语序列中过滤掉处于所述待处理的数据清洗窗口内的待定用户兴趣短语的内容,得到完成调整的用户兴趣短语序列。
[0098] (4)、在完成调整的用户兴趣短语序列中挑选特征价值评分最高的用户兴趣短语作为目标待定用户兴趣短语,直到挑选出的目标待定用户兴趣短语的数目达到设定数目。
[0099] 进一步地,要在多个待定用户兴趣短语中确定处于该待处理的数据清洗窗口内的待定用户兴趣短语,并在用户兴趣短语序列中过滤掉该待定用户兴趣短语的语义注释和特征价值评分。并在用户兴趣短语序列的剩余待定用户兴趣短语中挑选一个特征价值评分最高的待定用户兴趣短语作为目标待定用户兴趣短语。
[0100] 在确定出又一个目标待定用户兴趣短语之后,需要跳转至(2)至(4),直到确定出的目标待定用户兴趣短语的数目与历史兴趣挖掘参考向量的数目累计值达到以上的第二数目。其中,设定数目即第二数目与历史兴趣挖掘参考向量的数目之间的差值。
[0101] 如此设计,对于本发明实施例而言,在每轮确定出一个目标待定用户兴趣短语之后,都会根据该目标待定用户兴趣短语对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理和待定用户兴趣短语的筛选,从而保证确定出的目标待定用户兴趣短语的全面性和多样性是满足要求的,以提升数据挖掘系统兴趣挖掘和知识库生成的准确性。
[0102] 在另外的一些实施例中,该方法还包括如下内容。
[0103] STEP1,调取待进行挖掘的用户行为数据,并对待进行挖掘的用户行为数据进行数据更新。
[0104] 对待进行挖掘的用户行为数据进行数据更新是指对待进行挖掘的用户行为数据进行数据补全和纠错,从而得到更加准确的待进行挖掘的用户行为数据,以提高待进行挖掘的用户行为数据的用户兴趣挖掘精度。
[0105] STEP2,获取数据挖掘系统对待进行挖掘的用户行为数据和待进行挖掘的用户行为数据的前一组用户行为数据进行兴趣知识捕捉得到的目标兴趣挖掘参考向量。
[0106] 对于本发明实施例而言,目标兴趣挖掘参考向量可以理解为上下游用户行为数据(比如待进行挖掘的用户行为数据及其前一组用户行为数据)的兴趣挖掘参考向量,比如,待进行挖掘的用户行为数据的前一组用户行为数据的用户兴趣知识向量中包含在待进行挖掘的用户行为数据中的用户兴趣知识向量。以上的待进行挖掘的用户行为数据和前一组用户行为数据为上述的数据挖掘系统中数据采集线程所获取到的文本描述内容。
[0107] STEP3,判断目标兴趣挖掘参考向量的数目是否小于第一数目,如果是,则实施STEP6;如果否,则实施STEP4。
[0108] 其中,第一数目记为N_min。此时,可以先判断N_vector是否小于N_min,如果是,则说明数据挖掘系统的目标兴趣挖掘参考向量的历史兴趣挖掘参考向量的数目较少,为了提高数据挖掘系统中知识库生成节点的精度,需要在N_vector小于N_min的情况下,对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理处理。反之,实施STEP4,继续判断目标兴趣挖掘参考向量的数目与第二数目之间的比较情况。
[0109] STEP4,判断目标兴趣挖掘参考向量的数目是否小于第二数目,如果是,则实施STEP5;如果不是,则返回实施STEP1;
[0110] 第二数目即为以上的最大值,记为N_max。此时,可以先判断N_vector是否小于N_min,如果不是,则继续判断N_vector是否小于N_max。如果是,则继续实施STEP5判断目标待进行挖掘的用户行为数据是否为活跃用户行为数据。反之,返回STEP1,继续获取下一个待进行挖掘的用户行为数据。
[0111] STEP5,判断待进行挖掘的用户行为数据是否为活跃用户行为数据;如果是,则实施STEP6;如果不是,则返回实施STEP1。
[0112] 针对数据挖掘系统来说,活跃用户行为数据为实施用户兴趣挖掘的用户行为数据。换言之,在数据挖掘系统,并不是对每个用户行为数据都实施用户兴趣挖掘操作,而是对活跃用户行为数据实施用户兴趣挖掘操作。比如,可以设定间隔3组确定一个活跃用户行为数据,然后,对该活跃用户行为数据实施用户兴趣挖掘操作。此时,可以判断待进行挖掘的用户行为数据是否为活跃用户行为数据,如果是,则实施STEP6,否则,返回STEP1,继续获取下一个待进行挖掘的用户行为数据。
[0113] STEP6,通过目标兴趣挖掘参考向量对所述待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0114] 对于本发明实施例而言,可以采用以上描述的思路对待进行挖掘的用户行为数据进行待挖掘数据集的筛选处理,得到所述待进行挖掘的用户行为数据中的用户兴趣挖掘窗口。
[0115] STEP7,在所述用户兴趣挖掘窗口中确定待定用户兴趣短语。
[0116] 对于本发明实施例而言,对于所述用户兴趣挖掘窗口中的每个行为数据单元,以每个行为数据单元的分布标签信息为基准,在所述用户兴趣挖掘窗口中确定第二用户行为数据块;如果确定出第二用户行为数据块内目标行为数据单元的数目大于设定数目,则确定该行为数据单元为所述待定用户兴趣短语;其中,所述目标行为数据单元与该行为数据单元之间的行为热力值之差大于设定行为热力值。
[0117] 举例而言,对于本发明实施例而言,在用户兴趣挖掘窗口中确定待定用户兴趣短语时,可以首先对待进行挖掘的用户行为数据的扰动数据集进行分割,得到分割之后的待进行挖掘的用户行为数据;从而在分割之后的待进行挖掘的用户行为数据所包括的用户兴趣挖掘窗口中确定待定用户兴趣短语。
[0118] STEP8,确定待定用户兴趣短语的特征价值评分。
[0119] 对于本发明实施例而言,可以在待进行挖掘的用户行为数据的用户兴趣挖掘窗口中确定一个X*X的用户行为数据块,比如,8*8的用户行为数据块,然后,确定该X*X的用户行为数据块的文本描述内容,比如,X*X的用户行为数据块的数据单元关系网;进一步地,对该X*X的用户行为数据块的文本描述内容进行量化描述值计算,得到多个量化描述值,最后,在多个量化描述值中挑选最小量化描述值作为每个待定用户兴趣短语的特征价值评分。
[0120] 举例而言,可以根据公式VALUE=min(D1,D2)计算每个待定用户兴趣短语的特征价值评分,其中,D1和D2表示待定用户兴趣短语所对应的用户行为数据块的文本描述内容的量化描述值。
[0121] STEP9,挑选一个特征价值评分最高的目标待定用户兴趣短语加入到目标兴趣挖掘参考向量所属用户兴趣短语序列中。
[0122] STEP10,判断目标待定用户兴趣短语的定位变量是否处于待进行挖掘的用户行为数据内;如果是,则实施STEP11;如果不是,则返回实施STEP9。
[0123] STEP11,基于所述目标待定用户兴趣短语在所述待进行挖掘的用户行为数据中的分布标签,在所述用户兴趣挖掘窗口中确定待处理的数据清洗窗口。
[0124] 举例而言,对于本发明实施例而言,可以根据多个待定用户兴趣短语的特征价值评分,依次从多个待定用户兴趣短语中挑选不少于一个特征价值评分最高的目标待定用户兴趣短语。然后,将确定出的目标待定用户兴趣短语的特征信息加入到目标兴趣挖掘参考向量中,得到最终用户兴趣知识向量。
[0125] 一般而言,对于本发明实施例而言,在确定最终用户兴趣知识向量时,除了要考虑待定用户兴趣短语的特征价值评分之外,还需要考虑最终用户兴趣知识向量的全面性和多样性,因为如果获取到向量满足全面性和多样性要求的最终用户兴趣知识向量,能够有效提升数据挖掘系统兴趣挖掘和知识库生成的准确性。
[0126] STEP12,更新目标兴趣挖掘参考向量所属用户兴趣短语序列中用户兴趣短语的数目。
[0127] STEP13,判断该数目是否小于第二数目,如果是,则结束流程;如果不是,则返回实施STEP9。
[0128] 如此设计,对于本发明实施例而言,在对待进行挖掘的用户行为数据进行用户兴趣挖掘之前,通过目标兴趣挖掘参考向量在待进行挖掘的用户行为数据中筛选出用户兴趣挖掘窗口的思路,无需对待进行挖掘的用户行为数据的所有用户行为数据块进行用户兴趣挖掘,这样能够减少特征运算的复杂度,并节约不必要的资源开销;再通过待定用户兴趣短语的特征价值评分来确定待进行挖掘的用户行为数据的最终用户兴趣知识向量的思路,不仅能够提高用户兴趣挖掘的效率,还可以保障用户兴趣挖掘的准确性,从而得到准确可靠的最终用户兴趣知识向量,以便利用最终用户兴趣知识向量准确定位用户需求,进而基于用户需求进行针对性的大数据推送处理,实现兴趣挖掘、需求分析、大数据推送的全链条数据处理。
[0129] 上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅作为示例,而并不构成对本发明的限定。虽然此处并没有明确说明,本领域技术人员可以对本发明进行各种修改、改进和修正。该类修改、改进和修正在本发明中被建议,所以该类修改、改进、修正仍属于本发明示范实施例的精神和范围。
[0130] 同时,本发明使用了特定术语来描述本发明的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。
[0131] 另外,本领域普通技术人员可以理解的是,本发明的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们任何新的和有用的改进。相应地,本发明的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外,本发明的各方面可以表现为位于至少一个计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
[0132] 计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。
[0133] 本发明各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写,包括面向对象程序设计,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET,Python等,或类似的常规程序编程语言,如C编程语言,Visual Basic,Fortran 2003,Perl,COBOL 2002,PHP,ABAP,动态编程语言如Python,Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网络(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
[0134] 此外,除非申请专利范围中明确说明,本发明所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用,并非用于限定本发明流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的申请专利范围并不仅限于披露的实施例,相反,申请专利范围旨在覆盖所有符合本发明实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件装置实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或行动装置上安装所描述的系统。
[0135] 同样应当理解的是,为了简化本发明揭示的表述,从而帮助对至少一个发明实施例的理解,前文对本发明实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法幷不意味着本发明对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。