用户群体发现方法、装置、设备及计算机可读存储介质转让专利

申请号 : CN201910815482.9

文献号 : CN110598769B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 韩月彭南博

申请人 : 京东科技控股股份有限公司

摘要 :

本发明提供一种用户群体发现方法、装置、设备及计算机可读存储介质,方法包括:获取多个用户的用户行为数据,用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于位置时的时间信息、用户触发的应用标识以及触发应用的时间信息;根据用户行为数据确定多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;根据位置序列信息以及应用触发序列信息确定多个用户对应的标签信息;根据标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。由于用户行为数据中包括位置信息以及用户行为数据,从而能够更加准确地确定用户对应的标签,进而根据用户标签确定的具有相同标签的用户的群体边界位置信息也更加准确。

权利要求 :

1.一种用户群体发现方法,其特征在于,包括:

获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息;

根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;

根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息;

根据所述多个用户对应的标签信息以及莫兰指数确定多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息;

根据所述至少一个热点位置的位置信息以及Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。

2.根据权利要求1所述的方法,其特征在于,所述根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息之前,还包括:通过预设的算法将所述多个用户所处的位置信息对应的区域分割为多个网格;

所述根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息,包括:根据所述多个用户的用户行为数据,确定所述多个用户在预设时间间隔内在每一网格内的位置序列信息。

3.根据权利要求2所述的方法,其特征在于,所述根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息,包括:根据所述位置序列信息以及应用触发序列信息确定每一所述网格对应的时间序列信息;

通过预设的第一向量生成模型确定所述每一所述网格对应的时间序列信息对应的高维向量信息;

获取用户行为数据序列,所述用户行为数据序列包括所述每一所述网格对应的时间序列信息对应的高维向量信息以及所述应用触发序列信息;

通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息;

将所述用户行为数据序列对应的高维向量输入至预设的标签扩散模型,获得所述用户对应的标签信息。

4.根据权利要求3所述的方法,其特征在于,所述通过预设的第一向量生成模型确定所述每一所述网格对应的时间序列信息对应的高维向量信息之前,还包括:获取第一待处理数据,所述第一待处理数据中包括多个网格对应的时间序列信息;

根据所述多个网格对应的时间序列信息对应的已知标签信息对所述多个网格对应的时间序列信息进行标注,获得第一待训练数据;

通过所述待训练数据对预设的第一待训练模型进行训练,获得所述第一向量生成模型。

5.根据权利要求4所述的方法,其特征在于,所述通过预设的第一向量生成模型确定所述每一所述网格对应的时间序列信息对应的高维向量信息,包括:将所述每一所述网格对应的时间序列信息输入至所述第一向量生成模型中;

获取所述第一向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述每一所述网格对应的时间序列信息对应的高维向量信息。

6.根据权利要求3‑5任一项所述的方法,其特征在于,所述通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息之前,还包括:获取第二待处理数据,所述第二待处理数据中包括多个用户行为数据序列;

根据所述多个用户行为数据序列对应的已知标签信息对所述多个用户行为数据序列进行标注,获得第二待训练数据;

通过所述第二待训练数据对预设的第二待训练模型进行训练,获得所述第二向量生成模型。

7.根据权利要求6所述的方法,其特征在于,所述通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息,包括:将所述用户行为数据序列输入至所述第二向量生成模型中;

获取所述第二向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述用户行为数据序列对应的高维向量信息。

8.根据权利要求3所述的方法,其特征在于,所述将所述用户行为数据序列对应的高维向量输入至预设的标签扩散模型,获得所述用户对应的标签信息之前,还包括:获取第三待处理数据,所述第三待处理数据中包括多个用户行为数据序列对应的高维向量;

根据所述多个用户行为数据序列对应的高维向量对应的标签信息对所述多个用户行为数据序列对应的高维向量进行标注,获得第三待训练数据;

通过所述第三待训练数据对第三待训练模型进行训练,获得所述标签扩散模型。

9.根据权利要求3‑5、8任一项所述的方法,其特征在于,所述通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息之后,还包括:获取至少一个用户对应的目标高维向量信息,所述至少一个用户对应的标签相同;

计算所述至少一个用户对应的目标高维向量信息之间的相似度;

根据所述相似度确定所述用户行为数据序列对应的高维向量信息的精准度。

10.根据权利要求7所述的方法,其特征在于,所述通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息之后,还包括:获取至少一个用户对应的目标高维向量信息,所述至少一个用户对应的标签相同;

计算所述至少一个用户对应的目标高维向量信息之间的相似度;

根据所述相似度确定所述用户行为数据序列对应的高维向量信息的精准度。

11.一种用户群体发现装置,其特征在于,包括:

用户行为数据获取模块,用于获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息;

统计模块,用于根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;

标签信息确定模块,用于根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息;

群体发现模块,用于根据所述多个用户对应的标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息;

所述群体发现模块,具体用于根据所述多个用户对应的标签信息以及莫兰指数确定多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息;

根据所述至少一个热点位置的位置信息以及Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。

12.一种用户群体发现设备,其特征在于,包括:存储器,处理器;

存储器;用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为由所述处理器执行如权利要求1‑10任一项所述的用户群体发现方法。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1‑10任一项所述的用户群体发现方法。

说明书 :

用户群体发现方法、装置、设备及计算机可读存储介质

技术领域

[0001] 本发明涉及大数据领域,尤其涉及一种用户群体发现方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 标签扩散,即根据已有目标用户的用户画像,给目标用户进行标签分类,再根据标签分类发现具有相同标签的目标人群。从而能够有效地实现目标人群的确定,降低运营成本。
[0003] 现有技术中一般都是获取用户的历史轨迹信息、WIFI序列数据,根据各用户的现有标签,通过频繁的轨迹挖掘,采用聚类或者马尔科夫转移矩阵等算法进行用户判别或者轨迹预测。根据预测结果进行目标人群的获取。
[0004] 但是,采用上述方法进行目标人群的获取时,单靠位置数据难以把握用户的行为模式和规律性,举例来说,相同场景中可能存在不同人群类别,比如办公楼中同时有白领和蓝领,因此,采用上述方法获取到的目标人群不够准确。

发明内容

[0005] 本发明提供一种用户群体发现方法、装置、设备及计算机可读存储介质,用于解决现有的目标用户群体发现方法获取到的目标人群不够准确的技术问题。
[0006] 本发明的第一个方面是提供一种用户群体发现方法,包括:
[0007] 获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息;
[0008] 根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;
[0009] 根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息;
[0010] 根据所述多个用户对应的标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。
[0011] 本发明的第二个方面是提供一种用户群体发现装置,包括:
[0012] 用户行为数据获取模块,用于获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息;
[0013] 统计模块,用于根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;
[0014] 标签信息确定模块,用于根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息;
[0015] 群体发现模块,用于根据所述多个用户对应的标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。
[0016] 本发明的第三方面是提供一种用户群体发现设备,包括:存储器,处理器;
[0017] 存储器;用于存储所述处理器可执行指令的存储器;
[0018] 其中,所述处理器被配置为由所述处理器执行如第一方面所述的用户群体发现方法。
[0019] 本发明的第四方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的用户群体发现方法。
[0020] 本发明提供的用户群体发现方法、装置、设备及计算机可读存储介质,通过获取包括用户位置信息以及触发应用标识的用户行为数据,并根据该用户行为数据确定与用户对应的标签信息,根据该标签信息确定具有相同标签的用户的群体边界位置信息。由于用户行为数据中除用户的位置信息以外,还包括用户触发应用标识以及时间,从而能够更加准确地确定用户对应的标签,进而根据用户标签确定的具有相同标签的用户的群体边界位置信息也更加准确。

附图说明

[0021] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0022] 图1为本发明基于的网络架构示意图;
[0023] 图2为本发明实施例一提供的用户群体发现方法的流程示意图;
[0024] 图3为本发明实施例提供的区域网格示意图;
[0025] 图4为本发明实施例二提供的用户群体发现方法的流程示意图;
[0026] 图5为本发明实施例三提供的用户群体发现方法的流程示意图;
[0027] 图6为本发明实施例四提供的用户群体发现方法的流程示意图;
[0028] 图7为本发明实施例五提供的用户群体发现装置的结构示意图;
[0029] 图8为本发明实施例六提供的用户群体发现设备的结构示意图。

具体实施方式

[0030] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 针对上述提及的现有的目标用户群体发现方法获取到的目标人群不够准确的技术问题,本发明提供了一种用户群体发现方法、装置、设备及计算机可读存储介质。
[0032] 需要说明的是,本申请提供用户群体发现方法、装置、设备及计算机可读存储介质可运用在对各种目标群体识别的场景中。
[0033] 图1为本发明基于的网络架构示意图,如图1所示,本发明基于的网络架构至少包括:用户群体发现装置1以及数据服务器2。其中,用户群体发现装置1采用C/C++、Java、Shell或Python等语言编写;数据服务器2则可为云端服务器或服务器集群,其内存储有大量的数据。用户群体发现装置1与数据服务器2通信连接,从而用户群体发现装置1能够从数据服务器2中获取用户行为数据。
[0034] 图2为本发明实施例一提供的用户群体发现方法的流程示意图,如图2所示,所述方法包括:
[0035] 步骤101、获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息。
[0036] 本实施例的执行主体为用户群体发现装置。在本实施方式中,随着智能移动设备的普及,用户对智能移动设备的使用率也越来越高。用户的智能移动设备中可以设置多个应用软件,用户在使用智能移动设备的过程中,会对多个应用软件进行点击以及使用。此外,智能移动设备能够实现对用户位置的确定。通信运营商一般都存储有大量用户定位数据以及应用使用数据。因此,为了实现对目标群体的获取,首先需要获取多个用户的用户行为数据,该用户行为数据可以直接从通讯运营商的数据服务器中进行获取。其中,用户行为数据中可以包括用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、用户触发的应用标识以及触发应用的时间信息。该位置信息可以由经纬度进行标识。
[0037] 步骤102、根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息。
[0038] 在本实施方式中,为了实现对用户行为规律的总结,可以根据获取到的用户行为数据确定用户在预设时间间隔内的位置序列信息以及应用触发序列信息。位置序列信息可以表现为:(时间,位置信息)的形式。具体地,智能移动设备中安装的应用可能有多种不同的类别,举例来说,其可以包括办公类、社交类、出行类、消费类、新闻类、视频类等,根据用户触发应用的次数能够精准地体现出用户的偏好和属性,举例来说,若用户常触发使用消费类的应用,表征用户可能具有较强的消费偏好或者比价行为,若用户经常触发使用出行类应用,表征用户可能具有较强的旅游偏好,或者为差旅人士。为了方便后续的数据处理,可以对各应用类别进行标识,例如,办公类(W)、社交类(S)、出行类(T)、消费类(C)、新闻类(N)、视频类(V)。因此,还可以确定用户在预设时间间隔内的应用触发序列信息,该应用触发序列信息具体可以表现为(时间,各应用类别标识对应的触发次数,触发总数)。以实际应用举例来说,预设时间间隔可以为6:00—24:00。
[0039] 步骤103、根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息。
[0040] 在本实施方式中,根据多个用户的用户行为数据确定多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息之后,由于位置序列信息以及应用触发序列信息有效地表征用户的位置以及行为偏好等信息,从而可以根据位置序列信息以及应用触发序列信息确定多个用户对应的标签信息。
[0041] 步骤104、根据所述多个用户对应的标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。
[0042] 在本实施方式中,确定了各用户的标签之后,即可以根据该标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。进而该群体边界位置信息能够在用户营销、个性化推荐、线下推广等方面进行广泛应用。
[0043] 本发明提供的用户群体发现方法,通过获取包括用户位置信息以及触发应用标识的用户行为数据,并根据该用户行为数据确定与用户对应的标签信息,根据该标签信息确定具有相同标签的用户的群体边界位置信息。由于用户行为数据中除用户的位置信息以外,还包括用户触发应用标识以及时间,从而能够更加准确地确定用户对应的标签,进而根据用户标签确定的具有相同标签的用户的群体边界位置信息也更加准确。
[0044] 进一步地,图3为本发明实施例提供的区域网格示意图;在上述任一实施例的基础上,所述根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息之前,还包括:
[0045] 通过预设的算法将所述多个用户所处的位置信息对应的区域分割为多个网格;
[0046] 所述根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息,包括:
[0047] 根据所述多个用户的用户行为数据,确定所述多个用户在预设时间间隔内在每一网格内的位置序列信息。
[0048] 在本实施例中,为了更加精准地对用户的位置序列信息进行统计,首先可以将多个用户所处的位置信息对应的区域进行分割。具体地,可以通过预设的算法将多个用户所处的位置对应的区域分割为多个网格。其中,该预设的算法可以为Geohash算法,也可以为其他任意一种能够实现区域分割的算法,本发明对此不做限定。如图3所示,第一张图表征用户在该区域的分布示意图,对该分布示意图进行分割之后,能够精准地确定每一网格中用户的分布状况。为了方便对用户位置信息进行统计,针对每一网格,可以为其设置唯一的标识,如图3所示,中心的网格被命名为G1。对多个用户所处的位置信息对应的区域进行分割之后,可以根据多个用户的用户行为数据,确定多个用户在预设时间间隔内在每一网格内的位置序列信息。具体地,一个星期内一个用户在预设时间间隔内在每一网格内的位置序列信息可以如表1所示。
[0049]
[0050] 表1
[0051] 本实施例提供的用户群体发现方法,通过将多个用户所处的位置信息对应的区域进行分割,根据所述多个用户的用户行为数据,确定所述多个用户在预设时间间隔内在每一网格内的位置序列信息。从而能够精准地确定每一网格中用户的分布状况,进一步地能够提高用户标签信息的准确性。
[0052] 图4为本发明实施例二提供的用户群体发现方法的流程示意图,在上述任一实施例的基础上,如图4所示,步骤103具体包括:
[0053] 步骤201、根据所述位置序列信息以及应用触发序列信息确定每一所述网格对应的时间序列信息;
[0054] 步骤202、通过预设的第一向量生成模型确定所述每一所述网格对应的时间序列信息对应的高维向量信息;
[0055] 步骤203、获取用户行为数据序列,所述用户行为数据序列包括所述每一所述网格对应的时间序列信息对应的高维向量信息以及所述应用触发序列信息;
[0056] 步骤204、通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息;
[0057] 步骤205、将所述用户行为数据序列对应的高维向量输入至预设的标签扩散模型,获得所述用户对应的标签信息。
[0058] 在本实施例中,根据用户行为数据确定位置序列信息以及应用触发序列信息之后,可以对位置序列信息以及应用触发序列信息进行统计,以确定每一网格对应的时间序列信息。其中,网格对应的时间序列信息中可以包括:(时间,常驻人数;当前网格某一类别应用触发的统计量对应的分位数;当前网格某一类别应用触发的统计量对应的标准差;周围预设数量网格某一类别应用触发的统计量对应的分位数;周围预设数量网格某一类别应用触发的统计量对应的标准差)。进一步地,可以通过预设的第一向量生成模型对各网格对应的时间序列信息进行向量化处理,获得各网格对应的时间序列对应的高维向量信息。获取用户行为数据序列,其中,用户行为数据序列中包括每一网格对应的时间序列信息对应的高维向量信息以及应用触发序列信息。
[0059] 表2为用户行为数据序列:
[0060]
[0061]
[0062] 由于各网格对应的时间序列信息为一个序列,而应用触发序列信息中每一项均为数字,因此,需要对时间序列信息进行向量化处理,向量化处理后的用户行为数据序列如表3所示,其中,Gn‑embedding表示Gn对应的高维向量信息:
[0063]Hour Geohash W S T C N V A
7 G1‑embedding 0 5 2 4 1 2 14
8 G2‑embedding 1 4 0 2 1 0 8
9 G3‑embedding 1 2 5 0 5 5 18
10 G3‑embedding 5 0 0 5 4 2 16
11 G3‑embedding 4 5 0 1 2 5 17
12 G4‑embedding 2 0 1 1 0 0 4
13 G3‑embedding 0 3 1 5 5 0 14
[0064] 对时间序列信息进行向量化处理后,用户行为数据序列中均为可以直接计算的向量信息,且建立了用户行为与用户所处位置之间的关联关系。进一步地,为了实现对用户标签信息的确定,可以对用户行为数据序列进行向量化处理,将用户行为数据序列输入至预设的第二向量生成模型中,获得与用户行为数据序列对应的高维向量信息。将与用户行为数据序列对应的高维向量信息输入至预设的标签扩散模型,获得所述用户对应的标签信息。
[0065] 本实施例提供的用户群体发现方法,通过根据位置序列信息以及应用触发序列信息确定每一网格对应的时间序列信息,通过预设的第一向量生成模型确定每一网格对应的时间序列信息对应的高维向量信息,获取用户行为数据序列,用户行为数据序列包括每一网格对应的时间序列信息对应的高维向量信息以及应用触发序列信息,通过预设的第二向量生成模型确定用户行为数据序列对应的高维向量信息,将用户行为数据序列对应的高维向量输入至预设的标签扩散模型,获得用户对应的标签信息。从而能够精准地确定各用户对应的标签信息,进而能够提高用户群体的精准度。
[0066] 具体地,在步骤202之前,所述方法还包括:
[0067] 获取第一待处理数据,所述第一待处理数据中包括多个网格对应的时间序列信息;
[0068] 根据所述多个网格对应的时间序列信息对应的已知标签信息对所述多个网格对应的时间序列信息进行标注,获得第一待训练数据;
[0069] 通过所述待训练数据对预设的第一待训练模型进行训练,获得所述第一向量生成模型。
[0070] 在本实施例中,为了实现对时间序列信息的向量化,首先需要建立第一向量生成模型。具体地,可以获取第一待处理数据,其中,第一待处理数据中包括多个网格对应的时间序列信息。根据多个网格对应的时间序列信息对应的已知标签信息对所述多个网格对应的时间序列信息进行标注,获得第一待训练数据。通过该第一待训练数据对预设的第一待训练模型进行训练,直至模型收敛,获得第一向量生成模型。
[0071] 进一步地,在上述任一实施例的基础上,步骤202具体包括:
[0072] 将所述每一所述网格对应的时间序列信息输入至所述第一向量生成模型中;
[0073] 获取所述第一向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述每一所述网格对应的时间序列信息对应的高维向量信息。
[0074] 在本实施例中,确定每一网格对应的时间序列信息之后,可以将该时间序列信息输入至第一向量生成模型中,该第一向量生成模型具有输入层、隐藏层以及输出层。获取第一向量模型中隐藏层输出的高维向量,将该高维向量作为各网格对应的时间序列信息对应的高维向量信息。需要说明的是,该隐藏输出的高维向量为Embedding向量,该向量即为时间序列信息在高维向量空间的映射。
[0075] 本实施例提供的用户群体发现方法,通过训练获得第一向量生成模型,从而能够精准、有效地对时间序列信息进行向量化处理,提高计算效率以及精准度。
[0076] 具体地,在上述任一实施例的基础上,步骤204之前,还包括:
[0077] 获取第二待处理数据,所述第二待处理数据中包括多个用户行为数据序列;
[0078] 根据所述多个用户行为数据序列对应的已知标签信息对所述多个用户行为数据序列进行标注,获得第二待训练数据;
[0079] 通过所述第二待训练数据对预设的第二待训练模型进行训练,获得所述第二向量生成模型。
[0080] 在本实施例中,为了实现对用户行为数据序列的向量化,首先需要建立第二向量生成模型。具体地,可以获取第二待处理数据,其中,第二待处理数据中包括多个用户行为数据序列。其中,多个用户的标签信息已知,因此,可以根据用户的标签信息对多个用户行为数据序列进行标注,获得第二待训练数据。通过该第二待训练数据对预设的第二待训练模型进行训练,直至模型收敛,获得第二向量生成模型。
[0081] 需要说明的是,第一待训练模型与第二待训练模型为同一待训练模型。作为一种可以实施的方式,其也可以为能够实现序列数据向量化的不同模型,本发明在此不做限制。
[0082] 进一步地,在上述任一实施例的基础上,所述通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息,包括:
[0083] 将所述用户行为数据序列输入至所述第二向量生成模型中;
[0084] 获取所述第二向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述用户行为数据序列对应的高维向量信息。
[0085] 在本实施例中,确定用户行为数据序列之后,可以将该用户行为数据序列输入至第二向量生成模型中,该第二向量生成模型具有输入层、隐藏层以及输出层。获取第二向量模型中隐藏层输出的高维向量,将该高维向量作为用户行为数据序列对应的高维向量信息。需要说明的是,该隐藏输出的高维向量为Embedding向量,该向量即为用户行为数据序列在高维向量空间的映射。
[0086] 本实施例提供的用户群体发现方法,通过训练获得第二向量生成模型,从而能够精准、有效地对用户行为数据序列进行向量化处理,提高计算效率以及精准度。
[0087] 进一步地,在上述任一实施例的基础上,步骤205之前,还包括:
[0088] 获取第三待处理数据,所述第三待处理数据中包括多个用户行为数据序列对应的高维向量;
[0089] 根据所述多个用户行为数据序列对应的高维向量对应的标签信息对所述多个用户行为数据序列对应的高维向量进行标注,获得第三待训练数据;
[0090] 通过所述第三待训练数据对所述第三待训练模型进行训练,获得所述标签扩散模型。
[0091] 在本实施例中,为了实现对个用户行为数据序列的向量化,首先需要建立标签扩散模型。具体地,可以获取第三待处理数据,其中,第三待处理数据中包括多个用户行为数据序列对应的高维向量。其中,多个用户的标签信息已知,因此,可以根据用户的标签信息对多个用户的用户行为数据序列对应的高维向量进行标注,获得第三待训练数据。通过该第三待训练数据对预设的第三待训练模型进行训练,直至模型收敛,获得标签扩散模型。
[0092] 本实施例提供的用户群体发现方法,通过训练获得标签扩散模型,从而能够精准、有效地对用户行为数据序列进行向量化处理,提高计算效率以及精准度。
[0093] 图5为本发明实施例三提供的用户群体发现方法的流程示意图,在上述任一实施例的基础上,步骤204之后,还包括:
[0094] 步骤301、获取至少一个用户对应的目标高维向量信息,所述至少一个用户对应的标签相同;
[0095] 步骤302、计算所述至少一个用户对应的目标高维向量信息之间的相似度;
[0096] 步骤303、根据所述相似度确定所述用户行为数据序列对应的高维向量信息的精准度。
[0097] 在本实施例中,为了进一步地提高用户标签信息确定方法的精准度,获取到多个用户对应的高维向量信息之后,可以从其中获取标签已知且相同的至少一个用户对应的目标高维向量信息。由于至少一个用户的标签信息相同,因此,若目标高维向量信息足够精准的情况下,任意两个目标高维向量信息的相似度应该超过预设的阈值。因此,可以计算至少一个用户对应的目标高维向量信息之间的相似度,根据该相似度确定用户行为数据序列对应的高维向量信息的精准度。若相似度超过预设的阈值,则表征目标高维向量信息足够精准,反之,则表征目标高维向量信息不够精准,此时,需要对上述实施例中所述的网络模型进行迭代,直至至少一个用户对应的目标高维向量信息之间的相似度超过预设的阈值。可选地,可以计算至少一个用户对应的目标高维向量信息之间的余弦相似度,也可以采用其他相似度计算方法实现至少一个用户对应的目标高维向量信息之间的相似度的计算,本发明对此不做限制。可选地,还可以对高维向量信息进行降维操作,对降维后的向量采用T‑SNE方法进行可视化,以确定目标高维向量信息的精准度。需要说明的是,若至少一个用户具有相同的标签,则任意两个用户对应的目标高维向量信息之间的相似度大于预设的阈值,若至少一个用户具有不同的标签,则任意两个用户对应的高维向量相似度低于预设的阈值,进而能够在高位空间向量维度上将不同类标签的用户进行区分。
[0098] 本实施例提供的用户群体发现方法,通过计算至少一个用户对应的目标高维向量信息之间的相似度,从而能够确定目标高维向量信息,提高用户标签确定的精准度。
[0099] 图6为本发明实施例四提供的用户群体发现方法的流程示意图,在上述任一实施例的基础上,步骤104具体包括:
[0100] 步骤401、根据所述多个用户对应的标签信息以及莫兰指数确定多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息;
[0101] 步骤402、根据所述至少一个热点位置的位置信息以及Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。
[0102] 在本实施例中,确定多个用户对应的标签信息之后,可以通过多个用户对应的标签信息以及莫兰指数确定多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息。具体地,可以首先通过全局莫兰指数进行空间自相关检验,其中全局莫兰指数如公式1所示:
[0103]
[0104] 其中,zi是位置网格i中某类标签用户的数量与计算范围内网格该类标签用户数量均值的偏差 ωi,j是要素i和j之间的空间权重,即为不同位置网格中心点间距离的倒数,可采用相似指标替换,n等于要素总数,即计算范围内位置网格的数量,[0105] (全局莫兰指数I的显著性检验Z统计量为 其中 V[I]=E2 2
[I]‑E[I];)
[0106] 莫兰指数大于0时,表示数据呈现空间正相关,其值越大空间相关性越明显;莫兰指数小于0时,表示数据呈现空间负相关,其值越小空间差异越大;莫兰指数为0时,空间呈随机性。通过全局莫兰指数进行空间自相关检验之后,可以获取莫兰指数超过预设指数阈值的自相关显著性检验的区域,通过局部莫兰指数对该自相关显著性检验的区域进行检测与标注,获得多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息。其中,局部莫兰指数如公式2所示:
[0107]
[0108] 其中,xi是位置网格i中某类标签用户的数量, 为计算范围内网格中该类标签用户数量的均值,ωi,j是要素i和j之间的空间权重,即为不同位置网格中心点间距离的倒数,可采用相似指标替换,n等于要素总数,即计算范围内位置网格的数量,
[0109] (局部莫兰指数I的显著性检验Z统计量为 其中 V[I]=2 2
E[I]‑E[I];)
[0110] 进一步地,确定相同标签用户数量超过预设阈值的至少一个热点位置的位置信息之后,可以通过Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。从而能够有效地实现用户群体的发现。
[0111] 本实施例提供的用户群体发现方法,通过莫兰指数确定相同标签用户数量超过预设阈值的至少一个热点位置的位置信息,并通过Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。从而能够有效地实现用户群体的发现。进而该群体边界位置信息能够在用户营销、个性化推荐、线下推广等方面进行广泛应用。
[0112] 图7为本发明实施例五提供的用户群体发现装置的结构示意图,如图7所示,所述装置包括:
[0113] 用户行为数据获取模块51,用于获取多个用户的用户行为数据,所述用户行为数据中包括预设的时间间隔内用户所处的位置信息以及处于所述位置时的时间信息、所述用户触发的应用标识以及触发所述应用的时间信息;
[0114] 统计模块52,用于根据所述多个用户的用户行为数据确定所述多个用户在预设时间间隔内的位置序列信息以及应用触发序列信息;
[0115] 标签信息确定模块53,用于根据所述位置序列信息以及应用触发序列信息确定所述多个用户对应的标签信息;
[0116] 群体发现模块54,用于根据所述多个用户对应的标签信息以及预设的群体发现算法确定具有相同标签的用户的群体边界位置信息。
[0117] 本发明提供的用户群体发现装置,通过获取包括用户位置信息以及触发应用标识的用户行为数据,并根据该用户行为数据确定与用户对应的标签信息,根据该标签信息确定具有相同标签的用户的群体边界位置信息。由于用户行为数据中除用户的位置信息以外,还包括用户触发应用标识以及时间,从而能够更加准确地确定用户对应的标签,进而根据用户标签确定的具有相同标签的用户的群体边界位置信息也更加准确。
[0118] 进一步地,在上述任一实施例的基础上,所述装置还包括:
[0119] 分割模块,用于通过预设的算法将所述多个用户所处的位置信息对应的区域分割为多个网格;
[0120] 所述统计模块包括:
[0121] 位置序列信息确定单元,用于根据所述多个用户的用户行为数据,确定所述多个用户在预设时间间隔内在每一网格内的位置序列信息。
[0122] 进一步地,在上述任一实施例的基础上,所述标签信息确定模块包括:
[0123] 时间序列信息确定单元,用于根据所述位置序列信息以及应用触发序列信息确定每一所述网格对应的时间序列信息;
[0124] 第一生成单元,用于通过预设的第一向量生成模型确定所述每一所述网格对应的时间序列信息对应的高维向量信息;
[0125] 用户行为数据序列获取单元,用于获取用户行为数据序列,所述用户行为数据序列包括所述每一所述网格对应的时间序列信息对应的高维向量信息以及所述应用触发序列信息;
[0126] 第二生成单元,用于通过预设的第二向量生成模型确定所述用户行为数据序列对应的高维向量信息;
[0127] 第三生成单元,用于将所述用户行为数据序列对应的高维向量输入至预设的标签扩散模型,获得所述用户对应的标签信息。
[0128] 进一步地,在上述任一实施例的基础上,所述标签信息确定模块还包括:
[0129] 第一待处理数据获取单元,用于获取第一待处理数据,所述第一待处理数据中包括多个网格对应的时间序列信息;
[0130] 第一标注单元,用于根据所述多个网格对应的时间序列信息对应的已知标签信息对所述多个网格对应的时间序列信息进行标注,获得第一待训练数据;
[0131] 第一训练单元,用于通过所述待训练数据对预设的第一待训练模型进行训练,获得所述第一向量生成模型。
[0132] 进一步地,在上述任一实施例的基础上,所述第一生成单元具体用于:
[0133] 将所述每一所述网格对应的时间序列信息输入至所述第一向量生成模型中;
[0134] 获取所述第一向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述每一所述网格对应的时间序列信息对应的高维向量信息。
[0135] 进一步地,在上述任一实施例的基础上,所述标签信息确定模块还包括:
[0136] 第二待处理数据获取单元,用于获取第二待处理数据,所述第二待处理数据中包括多个用户行为数据序列;
[0137] 第二标注单元,用于根据所述多个用户行为数据序列对应的已知标签信息对所述多个用户行为数据序列进行标注,获得第二待训练数据;
[0138] 第二训练单元,用于通过所述第二待训练数据对预设的第二待训练模型进行训练,获得所述第二向量生成模型。
[0139] 进一步地,在上述任一实施例的基础上,所述第二生成单元具体用于:
[0140] 将所述用户行为数据序列输入至所述第二向量生成模型中;
[0141] 获取所述第二向量生成模型中隐藏层输出的高维向量信息,将所述隐藏层输出的高维向量信息作为所述用户行为数据序列对应的高维向量信息。
[0142] 进一步地,在上述任一实施例的基础上,所述标签信息确定模块还包括:
[0143] 第三待处理数据获取单元,用于获取第三待处理数据,所述第三待处理数据中包括多个用户行为数据序列对应的高维向量;
[0144] 第三标注单元,用于根据所述多个用户行为数据序列对应的高维向量对应的标签信息对所述多个用户行为数据序列对应的高维向量进行标注,获得第三待训练数据;
[0145] 第三训练单元,用于通过所述第三待训练数据对所述第三待训练模型进行训练,获得所述标签扩散模型。
[0146] 进一步地,在上述任一实施例的基础上,所述标签信息确定模块还包括:
[0147] 目标高维向量信息获取单元,用于获取至少一个用户对应的目标高维向量信息,所述至少一个用户对应的标签相同;
[0148] 计算单元,用于计算所述至少一个用户对应的目标高维向量信息之间的相似度;
[0149] 精准度确定单元,用于根据所述相似度确定所述用户行为数据序列对应的高维向量信息的精准度。
[0150] 进一步地,在上述任一实施例的基础上,所述群体发现模块包括:
[0151] 位置信息计算单元,用于根据所述多个用户对应的标签信息以及莫兰指数确定多个用户所处的位置信息中相同标签用户数量超过预设阈值的至少一个热点位置的位置信息;
[0152] 边界位置确定单元,用于根据所述至少一个热点位置的位置信息以及Delaunay三角剖分算法确定具有相同标签的用户的群体边界位置信息。
[0153] 图8为本发明实施例六提供的用户群体发现设备的结构示意图,如图8所示,所述设备包括:存储器61,处理器62;
[0154] 存储器61;用于存储所述处理器62可执行指令的存储器61;
[0155] 其中,所述处理器62被配置为由所述处理器62执行如上述任一实施例所述的用户群体发现方法。
[0156] 本发明又一实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的用户群体发现方法。
[0157] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0158] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0159] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。