用户行为分析方法、装置、设备及存储介质转让专利

申请号 : CN201911039177.1

文献号 : CN110781066B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈大伟汪明玮

申请人 : 北京字节跳动网络技术有限公司

摘要 :

本公开实施例提供一种用户行为分析方法、装置、设备及存储介质,该方法包括:接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据;获取所述目标视频的目标评论信息;对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。

权利要求 :

1.一种用户行为分析方法,其特征在于,包括:

接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;

获取所述目标视频的目标评论信息;

将每个所述目标视频对应的目标评论信息作为一个评论集;

提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;

对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度;

根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;

根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。

2.根据权利要求1所述的方法,其特征在于,所述目标数据还包括用户头像、用户昵称;

在所述得到每个所述目标视频的匹配度之后,所述方法还包括:

根据所述目标数据中的用户头像,通过局部敏感哈希计算,得到各个所述用户之间所述用户头像的特征值的相似度,将所述用户头像的特征值的相似度作为所述目标数据对应的所述用户头像的匹配度;

根据所述目标数据中的用户昵称,获得各个所述用户之间对应的所述用户昵称的相似度,将所述用户昵称的相似度作为所述目标数据对应的所述用户昵称的匹配度。

3.根据权利要求2所述的方法,其特征在于,所述根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:若将所述重合数据作为所述目标视频的匹配度,且所述重合数据大于第一预设阈值时,将所述重合数据对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;

若将所述重合率作为所述目标视频的匹配度,且所述重合率大于第二预设阈值时,将所述重合率对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;

若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,且所述用户头像的特征值的相似度大于第三预设阈值,将所述用户头像的特征值的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;

若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,将所述用户昵称的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。

4.根据权利要求2所述的方法,其特征在于,所述根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:若将所述重合率作为所述目标视频的匹配度,则对所述重合率、所述用户头像的特征值的相似度以及所述用户昵称的相似度进行加权融合,得到加权后的匹配度;

将所述加权后的匹配度的最大值对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。

5.根据权利要求4所述的方法,其特征在于,所述确定在各个所述目标应用程序中属于同一个用户的多个身份标识,还包括:获取所述目标视频对应的用户行为的数据量,所述用户行为数据包括分享行为的数据量、转发行为的数据量;

若所述用户在分享或转发所述目标视频且具有所述分享或转发的行为授权时,响应于所述用户对应的所述分享或转发的行为,得到所述用户在分享或转发所述目标视频对应的参考应用程序;

将所述参考应用程序对应的用户的身份标识与所述具有所述分享或转发的行为授权的用户对应的用户的身份标识作为同一用户的多个身份标识。

6.根据权利要求1‑5任一项所述的方法,其特征在于,所述根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据,包括:根据所述多个身份标识,建立关联表格并存储,其中,所述关联表中存储有多个身份标识之间的映射关系;

根据所述映射关系,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。

7.一种用户行为分析装置,其特征在于,包括:

目标数据接收模块,用于接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;

第一目标评论信息获取模块,用于获取所述目标视频的目标评论信息;

第一视频匹配度模块,用于对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;

第一用户的身份标识确定模块,用于根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;

第一用户行为数据确定模块,用于根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据;

所述第一视频匹配度模块,具体用于:

将每个所述目标视频对应的目标评论信息作为一个评论集;提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度。

8.一种电子设备,其特征在于,包括:至少一个处理器、存储器以及通信接口;

所述通信接口用于与各个用户终端进行通信;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的用户行为分析方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的用户行为分析方法。

说明书 :

用户行为分析方法、装置、设备及存储介质

技术领域

[0001] 本公开实施例涉及数据处理技术领域,尤其涉及一种用户行为分析方法、装置、设备及存储介质。

背景技术

[0002] 随着网络和信息技术的不断发展,各类平台应用而生,为了改善平台的各项功能,以方便平台为用户提供更好的服务,需要在确保合法合规的基础上,对具有获取权限的用户信息进行一定程度的收集和分析。
[0003] 目前各种内容类应用程序都非常重视原创型用户和发文数据,而原创型用户可能同时活跃在多个应用程序中,即用户在不同的应用程序中可能采用不同的身份标识,这些身份标识一般并未关联,从而影响用户信息分析时的准确性。

发明内容

[0004] 本公开实施例提供一种用户行为分析方法、装置、设备及存储介质,以解决现有技术中用户行为分析方法无法充分分析用户的特征的问题。
[0005] 第一方面,本公开实施例提供一种用户行为分析方法,包括:
[0006] 接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;
[0007] 获取所述目标视频的目标评论信息;
[0008] 对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;
[0009] 根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;
[0010] 根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0011] 第二方面,本公开实施例提供一种用户行为分析装置,包括:
[0012] 目标数据接收模块,用于接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;
[0013] 第一目标评论信息获取模块,用于获取所述目标视频的目标评论信息;
[0014] 第一视频匹配度模块,用于对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;
[0015] 第一用户的身份标识确定模块,用于根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;
[0016] 第一用户行为数据确定模块,用于根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0017] 第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器、存储器以及通信接口;
[0018] 所述通信接口用于与各个用户终端进行通信;
[0019] 所述存储器存储计算机执行指令;
[0020] 所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的用户行为分析方法。
[0021] 第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的用户行为分析方法。
[0022] 本公开实施例提供的用户行为分析方法、装置、设备及存储介质,首先接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,由于目标数据包括目标视频,然后基于目标视频获取针对该目标数据的目标评论信息,开始对目标评论信息进行分析,在视频维度上对所述目标数据进行数据处理,得到所述目标数据在视频维度上的匹配度即为目标视频的匹配度,然后根据所述目标数据在视频维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,为各个所述目标应用程序中各个用户进行聚类,再根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。

附图说明

[0023] 为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024] 图1为本公开实施例提供的用户行为分析系统的结构示意图;
[0025] 图2为本公开实施例提供的用户行为分析方法的流程示意图;
[0026] 图3为本公开又一实施例提供的用户行为分析方法的流程示意图;
[0027] 图4为本公开另一实施例提供的用户行为分析方法的流程示意图;
[0028] 图5为本公开再一实施例提供的用户行为分析方法的流程示意图;
[0029] 图6为本公开另一实施例提供的用户行为分析方法的流程示意图;
[0030] 图7为本公开再一实施例提供的用户行为分析方法的流程示意图;
[0031] 图8为本公开实施例提供的所述用户行为分析装置的结构框图;
[0032] 图9为本公开又一实施例提供的所述用户行为分析装置的结构框图;
[0033] 图10为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

[0034] 下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0035] 应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0036] 本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0037] 需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0038] 需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0039] 本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0040] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0041] 参考图1,图1为本公开实施例提供的用户行为分析系统的结构示意图。本公开实施例提供的用户行为分析系统包括用户终端10、终端设备(或服务器)20,其中,多个用户通过自身的用户终端在至少一个目标应用程序中上传目标数据,一个用户可以通过自身的用户终端在一个或多个目标应用程序中上传同一个目标数据或不同的目标数据;然后终端设备接收这多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,并存储在存储器中,进而终端设备通过向自身的处理器或服务器发送数据处理指令,以使处理器或服务器对存储器中存储的至少一个目标应用程序中的目标数据进行数据处理,由于目标数据包括目标视频,则终端设备或服务器可以对目标视频进行分析,得到目标视频的匹配度,还可以在多个维度上对所述目标数据进行数据处理,得到所述目标数据在每个所述维度上的匹配度,根据目标数据在每个所述维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户的身份标识关联关系,用以分析所述多个身份标识对应的用户的用户行为,进而为用户提供更好的服务。
[0042] 其中,用户行为分析方法的实现可以用过至少以下方式实现:
[0043] 参考图2,图2为本公开实施例提供的用户行为分析方法的流程示意图。本公开实施例的方法可以应用在终端设备或服务器中,即执行主体可以是终端设备或服务器。该用户行为分析方法包括:
[0044] S101、接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频。
[0045] 在本公开实施例中,终端设备可以通过通信接口接收多个用户终端中每个用户终端发送的至少一个目标应用程序(平台)中的目标数据,并将目标数据存储至终端设备的存储器中,继而终端设备向自身的处理器或服务器发送处理指令,以使处理器或服务器可以对存储器中的目标数据以及目标应用程序进行分析和处理。
[0046] 其中,对目标应用程序不做限定,可以是现有任意平台上的应用程序,对每个用户终端不进行限定,可以是手机、电脑、平板等可以上传数据的终端,每个用户终端上可以上传一个或多个目标应用程序中的目标数据,其中,每个目标数据可以包括至少一条目标视频,因此,对目标应用程序的统计和分析可以是由多个用户终端对应的多个目标应用程序,下面以多个目标应用程序中任一目标应用程序为例对该目标应用程序中的用户进行用户行为分析。
[0047] S102、获取所述目标视频的目标评论信息。
[0048] 本公开实施例中,除了在视频维度上对目标数据进行数据分析,还可以在其他维度上,比如用户的头像维度、用户的昵称维度等等。针对视频维度,首先获取针对目标视频的目标评论信息,基于各个目标评论信息,实现对目标视频的聚类分析,进而实现对目标数据的聚类分析。
[0049] S103、对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度。
[0050] 本公开实施例中,可以在多个维度上对所述目标数据进行数据处理,得到所述目标数据在每个所述维度上的匹配度,其中,包括在视频维度上的数据处理即为对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度。
[0051] 其中,对目标评论信息的数据处理可以是信息识别,得到每条目标评论信息的关键字,也可以是对目标评论信息的文本信息进行聚类,将相似的评论聚为一类,在针对每一聚类结果中的目标评论信息进行划分,使得评论同一主题的不同用户作为相似用户,可以将相似用户的相似度作为目标视频的匹配度。
[0052] S104、根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;
[0053] 本公开实施例中,基于目标视频的匹配度以及对应的目标视频,结合分析,各个目标视频之间的相似度,将相似度大于预设相似度阈值的多个目标视频作为同一视频,并且将同一视频的多个目标视频在对应的各个所述目标应用程序上的多个用户的用户的身份标识作为属于同一个用户的多个身份标识。
[0054] S105、根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0055] 本公开实施例中,在得到各个目标应用程序中属于同一个用户的多个身份标识之后,为同一个用户的多个身份标识建立用户的身份标识之间的关联关系,通过这种同一个用户在不同目标应用程序之间用户的身份标识的关联关系可以分析用户在不用应用程序上的用户行为。在实际应用中,这种关联关系的分析过程也是在对用户行为分析产生的,这里的用户行为可以是分享行为、转发行为中的至少一种。
[0056] 在实际应用中,以分享为例,当A用户在将已在某应用程序上发表的内容分享至另一应用程序时,事先已明确获得用户授权的服务器或终端可获取到分享前的用户身份标识、以及分享后的另一应用程序的中的用户身份标识,则据此可以据此来实现用户在不同应用程序中的身份标识之间的关联。或者间接关联的实现:A平台(平台可以认为是应用程序)的A用户在B平台上的关联用户为A’用户,而B平台A’用户在C平台上的关联用户为A”用户,则可建立A平台、B平台与C平台之间“A用户‑A’用户‑A”用户”之间的用户的身份标识关联关系。通过用户的身份标识关联关系用于平台对用户行为进行管理、分析。
[0057] 具体地,在多个平台中采集用户的发表的视频数据与基础数据(头像、昵称等),在前述多个不同维度上,获取多个平台上用户数据(这里指目标数据,包括视频数据与基础数据)的匹配度(例如用户在多个应用程序上发表视频的重合度),从而,结合各维度的匹配度,来识别出各平台中的同一个用户的身份标识;进而,建立多个平台之间的用户的身份标识关联关系,进而实现在多个平台上的同一个用户的用户行为的分析。
[0058] 本公开实施例中,首先接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,由于目标数据包括目标视频,然后基于目标视频获取针对该目标数据的目标评论信息,开始对目标评论信息进行分析,在视频维度上对所述目标数据进行数据处理,得到所述目标数据在视频维度上的匹配度即为目标视频的匹配度,能够通过互联网充分地提取到用户的特征,然后根据所述目标数据在视频维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,为各个所述目标应用程序中各个用户进行聚类,再根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户的身份标识关联关系,用以分析所述多个身份标识对应的用户的用户行为。
[0059] 本公开实施例首先接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,由于目标数据包括目标视频,然后基于目标视频获取针对该目标数据的目标评论信息,开始对目标评论信息进行分析,在视频维度上对所述目标数据进行数据处理,得到所述目标数据在视频维度上的匹配度即为目标视频的匹配度,然后根据所述目标数据在视频维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,为各个所述目标应用程序中各个用户进行聚类,再根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0060] 在实际应用中,通过分析各个平台中不同用户的行为,建立不同平台上同一用户的多个身份标识关联关系,根据用户的身份标识关联关系可以进一步地分析该用户的行为,根据分析的用户行为数据,进而能够为用户提供更好的服务。
[0061] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0062] 为了得到目标数据在视频维度上的匹配度,参见图3所示,图3为本公开又一实施例提供的用户行为分析方法的流程示意图,本公开实施例在上述公开实施例的基础上,对S103进行了详细说明。所述对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度,包括:
[0063] S201、将每个所述目标视频对应的目标评论信息作为一个评论集;
[0064] S202、提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;
[0065] S203、对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度。
[0066] 本公开实施例中,根据目标数据中的目标视频,通过统计针对目标视频的评论集对应的目标关键词在各个目标应用程序上的重合情况,来确定目标视频的重合数据和/或重合率。其中,确定目标视频的重合数据和/或重合率可以通过两种方式实现:
[0067] 方式一:假设某个用户在某几个目标应用程序中发表了多个视频数据(目标视频),以一个目标应用程序为例,根据多个目标视频,统计该目标应用程序上的每个目标视频与其他目标应用程序上的目标视频是否存在重复发表的视频数据,将存在重复发表的视频数据进行数量累加,将累加后的数量作为该用户在该目标应用程序中发表的目标视频的重合数据,重合数据与用户发表的多个视频数据对应的数量之间的比值作为重合率,可以将重合数据或重合率或重合数据与重合率的加权后的值作为目标数据在视频维度上的匹配度即为将所述重合数据和/或重合率作为所述目标视频的匹配度。
[0068] 具体地,以A用户在目标应用程序A上发表的目标视频1、目标视频2、目标视频3为例,在目标应用程序B上获取所有用户的发表的目标视频,针对A用户在目标应用程序A上发表的每个目标视频,统计目标视频1是否与在目标应用程序B上获取所有用户的目标视频有重合的,若存在重合的,则统计重合数据,比如重合数据为1,并将在目标应用程序B上重合的用户的身份标识进行记录,依次类推,统计A用户发表的所有视频数据对应的总的重合数据即将A用户在目标应用程序A上发表的每条视频数据对应的重合数据进行累加,将累加后的数据作为重合数据。
[0069] 方式二:从各个所述目标应用程序中确定参考应用程序,所述参考应用程序为各个所述目标应用程序中任一个所述目标应用程序;将所述参考应用程序上各个用户对应的至少一个所述目标视频的目标关键词分别与各个所述目标应用程序中其他目标应用程序上各个用户对应的至少一个所述目标视频的目标关键词进行聚类,得到所述参考应用程序上各个用户对应的每个所述目标视频的聚类结果,每个所述目标视频的聚类结果中包含各个所述目标应用程序中其他目标应用程序上的多个目标用户的身份标识;根据所述参考应用程序上的每个所述用户对应的各个所述聚类结果,统计所述多个目标用户的身份标识中的每个目标用户的身份标识在所述参考应用程序上的每个所述用户对应的各个所述聚类结果中出现的次数;将所述次数作为在所述参考应用程序上的每个所述用户对应的至少一个所述目标视频的重合数据即为每个所述目标关键词的重合数据;对所述重合数据与所述重合数据对应的在所述参考应用程序上的用户通过所述用户终端发表的至少一个所述目标视频的数目做比值,将所述比值作为在所述参考应用程序上的每个所述用户对应的至少一个所述目标视频的重合率即为每个所述目标关键词的重合率。
[0070] 具体地,可以将各个所述目标应用程序中任一个目标应用程序作为参考应用程序,下面将针对参考应用程序上某一个用户通过自身的用户终端发送的多个目标视频为例,确定目标视频的重合数据和/或重合率的具体过程为:
[0071] 首先将参考应用程序上该用户发表的至少一个目标视频对应的目标关键词与其他目标应用程序上各个用户发表的至少一个目标视频对应的目标关键词进行聚类,查找出参考应用程序上的该用户的每个目标视频与其他目标应用程序上各个用户发表的至少一个目标视频相似的目标数据,并将参考应用程序与其他目标应用程序上每一类相似的所有目标数据作为一个聚类标识即为聚类结果,这个聚类标识用于表示一类相似的目标视频对应的用户的身份标识群,一个目标应用程序上的一个用户对应一个用户的身份标识。然后从各个用户的身份标识群中获取出现最多次的用户的身份标识,将出现最多次的用户的身份标识对应的用户作为与该用户相似的用户,并将出现最多次的用户的身份标识的次数作为在参考应用程序上的该用户对应的至少一个所述目标视频的重合数据,这里的重合数据是指在参考应用程序上获取到的该用户所有发表目标视频的重合数据,将重合数据与在参考应用程序上获取到的该用户所有目标视频的总数目作比值,将该比值作为重合率。其中,可以将重合数据或重合率或重合数据与重合率的加权后的值作为目标数据在视频维度上的匹配度。
[0072] 其中,比如,可以通过判断发表目标视频的重合数目(重合数据)和/或重合率(重合数目在发视频基数的比例)是否大于或者等于预设的阈值(包括第一预设阈值、第二预设阈值),若是,则确定为疑似相同的用户(还可结合其他内容来)或同一用户。其中,重合数目的获取方式可以为:针对A用户在A平台上的各发表内容(也可以是部分),例如100条视频,然后,对这100条视频分别与B平台上的发表内容做聚类处理,得到各视频的聚类结果,其中,聚类结果中包含B平台上的多个用户的身份标识,由此,根据各B平台上用户的身份标识的出现次数,作为重合数目。
[0073] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0074] 为了建立不同平台之间用户的身份标识的关联关系,还可以针对目标数据在其他维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,参见图4,图4为本公开另一实施例提供的用户行为分析方法的流程示意图,本公开实施例在上述公开实施例的基础上,对用户行为分析方法进行了详细说明。其中,所述目标数据还包括用户头像、用户昵称;在所述得到每个所述目标视频的匹配度之后,所述方法还包括:
[0075] S301、根据所述目标数据中的用户头像,通过局部敏感哈希计算,得到各个所述用户之间所述用户头像的特征值的相似度,将所述用户头像的特征值的相似度作为所述目标数据对应的所述用户头像的匹配度;
[0076] S302、根据所述目标数据中的用户昵称,获得各个所述用户之间对应的所述用户昵称的相似度,将所述用户昵称的相似度作为所述目标数据对应的所述用户昵称的匹配度。
[0077] 本公开实施例中,利用用户发表的视频重合情况结合其他用户基础数据,来识别同一用户。基础数据包括:头像、昵称、通信号码的至少一种。
[0078] 针对头像维度,用户头像的匹配程度,通过局部敏感哈希值,来得到用户头像的特征值,然后,将特征值之间的相似度作为匹配度。针对昵称维度,通过识别技术获取到各个用户昵称之间的相似度,并将用户昵称之间的相似度作为匹配度。
[0079] 通过对多个维度上的目标数据的分析,便于建立多个平台之间的用户的身份标识关联关系,以分析所述多个身份标识对应的用户的用户行为,进而能够为用户提供更好的服务。
[0080] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0081] 为了详细说明如何确定在各个所述目标应用程序中属于同一个用户的多个身份标识,可以通过以下三种实现方式实现:
[0082] 方式一:参见图5所示。图5为本公开再一实施例提供的用户行为分析方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图4所述的实施例的基础上,对S104进行了详细说明。所述确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:
[0083] S401、若将所述重合数据作为所述目标视频的匹配度,且所述重合数据大于第一预设阈值时,将所述重合数据对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0084] 本公开实施例中,针对视频维度,若选取重合数据作为目标数据在视频维度上的匹配度时,判断重合数据是否大于第一预设阈值,若重合数据大于第一预设阈值,若存在多个大于第一预设阈值的重合数据的用户的身份标识,则将大于第一预设阈值的重合数据对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户,或者,若存在多个重合数据的用户的身份标识,将大于第一预设阈值的重合数据中最大的重合数据对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户。比如,在B平台上与A用户存在重合数据大于第一预设阈值的用户的身份标识有用户的身份标识1和用户的身份标识2,且用户的身份标识1对应的重合数据大于用户的身份标识2对应的重合数据,则用户的身份标识1对应的用户为A用户相同的目标用户。
[0085] S402、若将所述重合率作为所述目标视频的匹配度,且所述重合率大于第二预设阈值时,将所述重合率对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0086] 本公开实施例中,若将重合率作为目标数据在视频维度上的匹配度,判断重合率是否大于第二预设阈值,若存在多个重合率大于第二预设阈值的用户的身份标识,则将大于第二预设阈值的重合率对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户,或者,若存在多个重合率的用户的身份标识,将大于第二预设阈值的重合率中最大的重合率对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户。比如,在B平台上与A用户存在重合率大于第二预设阈值的用户的身份标识有用户的身份标识1和用户的身份标识2,且用户的身份标识1对应的重合率大于用户的身份标识2对应的重合率,则用户的身份标识1对应的用户为A用户相同的目标用户。
[0087] S403、若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,且所述用户头像的特征值的相似度大于第三预设阈值,将所述用户头像的特征值的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0088] 本公开实施例中,针对头像维度,若重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值时,且用户头像的特征值的相似度大于第三预设阈值,则将大于第三预设阈值的用户头像的特征值的相似度对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户,或者,若存在多个用户头像的特征值的相似度大于第三预设阈值的用户的身份标识,将大于第三预设阈值的多个用户头像的特征值的相似度中最大值对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户。比如,在B平台上与A用户存在用户头像的特征值的相似度大于第三预设阈值的用户的身份标识有用户的身份标识1和用户的身份标识2,且用户的身份标识1对应的用户头像的特征值的相似度大于用户的身份标识2对应的用户头像的特征值的相似度,则用户的身份标识1对应的用户为A用户相同的目标用户。
[0089] S404、若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,将所述用户昵称的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0090] 本公开实施例中,针对昵称维度,若重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,则将大于第四预设阈值的用户昵称的相似度对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户,或者,若存在多个用户昵称的相似度大于第四预设阈值的用户的身份标识,将大于第四预设阈值的多个用户昵称的相似度中最大值对应的在目标应用程序上即B平台上的用户与A用户为相同的目标用户。比如,在B平台上与A用户存在用户昵称的相似度大于第四预设阈值的用户的身份标识有用户的身份标识1和用户的身份标识2,且用户的身份标识1对应的用户昵称的相似度大于用户的身份标识2对应的用户昵称的相似度,则用户的身份标识1对应的用户为A用户相同的目标用户。
[0091] 即通过逐层筛选的方式实现。例如,先利用目标视频的重合情况筛选出候选用户,然后,再通过前述基础数据的匹配度来进一步确定在B平台上与A用户相同的目标用户,实现各个平台或应用程序的用户之间的用户的身份标识关联,进而精准地对用户行为分析,进而能够为用户提供更好的服务。
[0092] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0093] 方式二:参见图6所示。图6为本公开另一实施例提供的用户行为分析方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图4所述的实施例的基础上,对S104进行了详细说明。所述确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:
[0094] S501、若将所述重合率作为所述目标视频的匹配度,则对所述重合率、所述用户头像的特征值的相似度以及所述用户昵称的相似度进行加权融合,得到加权后的匹配度;
[0095] S502、将所述加权后的匹配度的最大值对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0096] 本公开实施例中,选取将所述目标数据对应的所述重合率作为所述目标数据在所述视频维度上的匹配度,通过对前述各维度数据做加权处理,得到A用户与B平台上的各用户的匹配程度,进而选择匹配程度最高的B平台用户作为目标用户。或者,通过对前述各维度数据作进一步聚类处理,也就是,从用户维度做聚类处理,得到A用户对应的B平台的目标用户,并且这种实现方式能适应大规模数据的处理需求。
[0097] 本公开实施例中,在多个平台中采集用户的目标视频(与基础数据(头像、昵称、通信号码等),在前述多个不同维度上,获取多个平台上用户数据(这里指目标数据,包括视频数据与基础数据)的匹配度(例如用户在多个平台上的发文重合度),从而,结合各维度的匹配度,来识别出各平台中的同一个用户的身份标识;进而,建立多个平台之间的用户的身份标识关联关系,通过同一用户的各个用户的身份标识之间的关联关系用以分析该用户的用户行为,进而能够为用户提供更好的服务。
[0098] 本公开中涉及的所有的用户信息获取、使用和分析,均得到了用户的明确授权。
[0099] 方式三:参见图7所示。图7为本公开再一实施例提供的用户行为分析方法的流程示意图,本公开实施例在上述公开实施例的基础上,例如,在图6所述的实施例的基础上,对S104进行了详细说明。所述确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:
[0100] S601、获取所述目标视频对应的用户行为的数据量,所述用户行为数据包括分享行为的数据量、转发行为的数据量;
[0101] S602、若所述用户在分享或转发所述目标视频且具有所述分享或转发的行为授权时,响应于所述用户对应的所述分享或转发的行为,得到所述用户在分享或转发所述目标视频对应的参考应用程序;
[0102] S603、将所述参考应用程序对应的用户的身份标识与所述具有所述分享或转发的行为授权的用户对应的用户的身份标识作为同一用户的多个身份标识。
[0103] 本公开实施例中,除了在视频维度、头像维度、昵称维度以及通信号码维度上对同一用户的多个身份标识的聚类以外,还可以通过用户的行为数据进行同一用户的多个身份标识的识别。具体地,用户行为数据,来结合前述视频匹配结果(和基础数据),来识别同一用户。其中,用户行为数据包括:分享行为、转发行为中的至少一种。以分享为例,若A用户在分享已发表内容时,具备行为授权的话,即可获取到分享后的另一平台的标识,则可以据此来实现用户的身份标识之间的关联。
[0104] 因此,在实际应用中,该用户行为分析方法包括:
[0105] 接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据;在多个维度上对所述多个目标数据进行数据处理,得到每个所述目标数据在每个所述维度上的匹配度;根据所述目标数据以及所述目标数据在每个所述维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户的身份标识关联关系,通过用户的身份标识关联关系用以分析所述多个身份标识对应的用户的用户行为。
[0106] 具体地,根据所述目标数据在每个所述维度上的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识。通过多个维度,对每个用户终端发送的至少一个目标应用程序中的目标数据进行数据处理,其中,目标数据可以包括目标视频、用户头像以及用户昵称,而数据处理的具体过程在每个所述维度上可以不同,比如,多个维度可以包括视频维度、头像维度以及昵称维度,还可以包括通信号码维度。
[0107] 其中,在每个维度上都能够得到每个用户对应的用户终端发送的目标数据的匹配度,这里的匹配度是指一个用户A通过用户终端A发送的一个目标应用程序中的目标数据与该用户通过用户终端发送的其他目标应用程序中的目标数据、其他用户(可能是一个其他用户B,也可能是多个其他用户B\C\D等等)通过对应的用户终端发送的至少一个目标应用程序中的目标数据之间的匹配程度。
[0108] 其中,在得到每个用户终端发送的目标数据在每个所述维度上的匹配度之后,为了准确地确定用户的特征,需要对各维度上的每个用户终端发送的目标数据的匹配度进行加权或是通过逐层筛选各个维度上的匹配度的方式实现,得到上述所有目标应用程序中属于同一个用户的多个身份标识。
[0109] 比如,A用户在目标应用1中上传的目标数据为3个:目标数据1、目标数据2、目标数据3,针对目标应用程序B中的目标数据为4个:目标数据4、目标数据5、目标数据6、目标数据7,在目标数据4、目标数据5、目标数据6、目标数据7中查找分别与目标数据1、目标数据2、目标数据3属于用一个用户通过用户终端上传的目标数据,统计目标应用程序A和目标应用程序B中属于同一个用户的多个身份标识,即为哪些目标数据是A用户用不同的用户名既在目标应用程序A上上传目标数据又在目标应用程序B上上传目标数据,进而实现用户的身份标识的关联。
[0110] 具体地,如何根据多个身份标识,来确定多个身份标识对应的用户在各个目标应用程序上的用户行为数据,在一种公开实施例中,本公开实施例在上述公开实施例的基础上,对S105进行了详细说明。所述根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据,包括:
[0111] 根据所述多个身份标识,建立关联表格并存储,其中,所述关联表中存储有多个身份标识之间的映射关系;;根据所述映射关系,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0112] 本公开实施例中,一个平台中一个用户对应一个用户的身份标识,用户的身份标识这里的映射关系可以为用户的身份标识关联关系。为同一个用户在不同目标应用上的用户的身份标识建立关联表格,关联表中存储有多个身份标识之间的映射关系,根据映射关系可以确定用户行为数据。即通过分析各个平台中不同用户的行为,建立不同平台上同一用户的多个身份标识关联关系,根据用户的身份标识关联关系可以进一步地分析该用户的行为,根据分析的用户行为数据,进而更好地监督和管理各个平台或用户。比如,A平台的A用户在B平台上的关联用户为A’用户,而B平台A’用户在C平台上的关联用户为A”用户,则可建立A平台、B平台与C平台之间“A用户‑A’用户‑A”用户”之间的用户的身份标识关联关系。
[0113] 对应于上文公开实施例的用户行为分析方法,图8为本公开实施例提供的用户行为分析装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图8,所述用户行为分析装置80包括:目标数据接收模块801、第一目标评论信息获取模块802、第一视频匹配度模块803、第一用户的身份标识确定模块804以及第一用户行为数据确定模块805;目标数据接收模块801,用于接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;第一目标评论信息获取模块802,用于获取所述目标视频的目标评论信息;第一视频匹配度模块803,用于对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;第一用户的身份标识确定模块804,用于根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;第一用户行为数据确定模块805,用于根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0114] 本公开实施例提供的目标数据接收模块801、第一目标评论信息获取模块802、第一视频匹配度模块803、第一用户的身份标识确定模块804以及第一用户行为数据确定模块805,用于对目标数据进行数据处理,得到目标数据在视频维度上的匹配度,然后通过根据目标数据对应的目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,能够精准地对用户行为分析,即通过实现各个平台或应用程序的用户之间的用户的身份标识关联,能够及时准确地分析用户行为,进而能够为用户提供更好的服务。
[0115] 本公开实施例提供的装置,可用于执行上文终端设备为执行主体的方法实施例的技术方案,其实现原理和技术效果类似,本公开实施例此处不再赘述。
[0116] 在本公开的一个实施例中,所述第一视频匹配度模块803,具体用于:
[0117] 将每个所述目标视频对应的目标评论信息作为一个评论集;提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度。
[0118] 参见图9,图9为本公开又一实施例提供的用户行为分析装置的结构框图,本公开实施例在上述公开实施例的基础上,例如,在图8实施例的基础上,本公开实施例对用户行为分析装置进行了详细说明。其中,所述目标数据还包括用户头像、用户昵称;所述用户行为分析装置,还包括:第一头像匹配度确定模块806、第一昵称匹配度模块807;
[0119] 所述第一头像匹配度确定模块806,用于在所述得到每个所述目标视频的匹配度之后,根据所述目标数据中的用户头像,通过局部敏感哈希计算,得到各个所述用户之间所述用户头像的特征值的相似度,将所述用户头像的特征值的相似度作为所述目标数据对应的所述用户头像的匹配度;所述第一昵称匹配度模块807,用于根据所述目标数据中的用户昵称,获得各个所述用户之间对应的所述用户昵称的相似度,将所述用户昵称的相似度作为所述目标数据对应的所述用户昵称的匹配度。
[0120] 在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图8实施例的基础上,本公开实施例对所述第一用户的身份标识确定模块804进行了详细说明。所述第一用户的身份标识确定模块804,具体用于:
[0121] 若将所述重合数据作为所述目标视频的匹配度,且所述重合数据大于第一预设阈值时,将所述重合数据对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;若将所述重合率作为所述目标视频的匹配度,且所述重合率大于第二预设阈值时,将所述重合率对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,且所述用户头像的特征值的相似度大于第三预设阈值,将所述用户头像的特征值的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,将所述用户昵称的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0122] 在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图8实施例的基础上,本公开实施例对所述第一用户的身份标识确定模块804进行了详细说明。所述第一用户的身份标识确定模块804,具体用于:
[0123] 若将所述重合率作为所述目标视频的匹配度,则对所述重合率、所述用户头像的特征值的相似度以及所述用户昵称的相似度进行加权融合,得到加权后的匹配度;将所述加权后的匹配度的最大值对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0124] 在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图8实施例的基础上,本公开实施例对所述第一用户的身份标识确定模块804进行了详细说明。所述第一用户的身份标识确定模块804,还具体用于:
[0125] 获取所述目标视频对应的用户行为的数据量,所述用户行为数据包括分享行为的数据量、转发行为的数据量;若所述用户在分享或转发所述目标视频且具有所述分享或转发的行为授权时,响应于所述用户对应的所述分享或转发的行为,得到所述用户在分享或转发所述目标视频对应的参考应用程序;将所述参考应用程序对应的用户的身份标识与所述具有所述分享或转发的行为授权的用户对应的用户的身份标识作为同一用户的多个身份标识。
[0126] 在本公开的一个实施例中,本公开实施例在上述公开实施例的基础上,例如,在图8实施例的基础上,本公开实施例对所述第一用户行为数据确定模块805进行了详细说明。
第一用户行为数据确定模块805,具体用于:
[0127] 根据所述多个身份标识,建立关联表格并存储,其中,所述关联表中存储有多个身份标识之间的映射关系;根据所述映射关系,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0128] 参考图10,其示出了适于用来实现本公开实施例的电子设备1000的结构示意图,该电子设备1000可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable Media Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0129] 如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(Read Only Memory,简称ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(Random Access Memory,简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口
1005也连接至总线1004。
[0130] 通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(Liquid Crystal Display,简称LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1008。通信装置1008可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0131] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1008从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。
[0132] 需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
[0133] 上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0134] 上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述公开实施例所示的方法。
[0135] 可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(Local Area Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0136] 附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0137] 描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0138] 本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
[0139] 在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0140] 第一方面,本公开实施例提供一种用户行为分析方法,包括:
[0141] 接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;
[0142] 获取所述目标视频的目标评论信息;
[0143] 对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;
[0144] 根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;
[0145] 根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0146] 根据本公开的一个或多个实施例,所述目标数据包括发表数据、用户头像以及用户昵称,所述多个维度包括发表数据维度、头像维度以及昵称维度。
[0147] 根据本公开的一个或多个实施例,所述对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度,包括:
[0148] 将每个所述目标视频对应的目标评论信息作为一个评论集;
[0149] 提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;
[0150] 对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度。
[0151] 根据本公开的一个或多个实施例,所述目标数据还包括用户头像、用户昵称;
[0152] 在所述得到每个所述目标视频的匹配度之后,所述方法还包括:
[0153] 根据所述目标数据中的用户头像,通过局部敏感哈希计算,得到各个所述用户之间所述用户头像的特征值的相似度,将所述用户头像的特征值的相似度作为所述目标数据对应的所述用户头像的匹配度;
[0154] 根据所述目标数据中的用户昵称,获得各个所述用户之间对应的所述用户昵称的相似度,将所述用户昵称的相似度作为所述目标数据对应的所述用户昵称的匹配度。
[0155] 根据本公开的一个或多个实施例,所述根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:
[0156] 若将所述重合数据作为所述目标视频的匹配度,且所述重合数据大于第一预设阈值时,将所述重合数据对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0157] 若将所述重合率作为所述目标视频的匹配度,且所述重合率大于第二预设阈值时,将所述重合率对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0158] 若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,且所述用户头像的特征值的相似度大于第三预设阈值,将所述用户头像的特征值的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0159] 若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,将所述用户昵称的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0160] 根据本公开的一个或多个实施例,所述根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识,包括:
[0161] 若将所述重合率作为所述目标视频的匹配度,则对所述重合率、所述用户头像的特征值的相似度以及所述用户昵称的相似度进行加权融合,得到加权后的匹配度;
[0162] 将所述加权后的匹配度的最大值对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0163] 根据本公开的一个或多个实施例,所述确定在各个所述目标应用程序中属于同一个用户的多个身份标识,还包括:
[0164] 获取所述目标视频对应的用户行为的数据量,所述用户行为数据包括分享行为的数据量、转发行为的数据量;
[0165] 若所述用户在分享或转发所述目标视频且具有所述分享或转发的行为授权时,响应于所述用户对应的所述分享或转发的行为,得到所述用户在分享或转发所述目标视频对应的参考应用程序;
[0166] 将所述参考应用程序对应的用户的身份标识与所述具有所述分享或转发的行为授权的用户对应的用户的身份标识作为同一用户的多个身份标识。
[0167] 根据本公开的一个或多个实施例,所述根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据,包括:
[0168] 根据所述多个身份标识,建立关联表格并存储,其中,所述关联表中存储有多个身份标识之间的映射关系;
[0169] 根据所述映射关系,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0170] 第二方面,本公开实施例提供一种用户行为分析装置,包括:
[0171] 目标数据接收模块,用于接收多个用户终端中每个用户终端发送的至少一个目标应用程序中的目标数据,所述多个用户终端对应多个目标数据,所述目标数据包括目标视频;
[0172] 第一目标评论信息获取模块,用于获取所述目标视频的目标评论信息;
[0173] 第一视频匹配度模块,用于对所述多个目标数据对应的目标评论信息进行数据处理,得到每个所述目标视频的匹配度;
[0174] 第一用户的身份标识确定模块,用于根据所述目标视频以及所述目标视频的匹配度,确定在各个所述目标应用程序中属于同一个用户的多个身份标识;
[0175] 第一用户行为数据确定模块,用于根据所述多个身份标识,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0176] 根据本公开的一个或多个实施例,所述第一视频匹配度模块,具体用于:
[0177] 将每个所述目标视频对应的目标评论信息作为一个评论集;
[0178] 提取所述评论集中目标评论信息的关键词,并将所述关键词作为所述评论集的目标关键词;
[0179] 对多个所述评论集对应的目标关键词进行聚类,得到每个所述目标关键词的重合数据和/或重合率,将所述重合数据和/或重合率作为所述目标视频的匹配度。
[0180] 根据本公开的一个或多个实施例,所述目标数据还包括用户头像、用户昵称;所述装置还包括:第一头像匹配度确定模块、第一昵称匹配度模块;
[0181] 所述第一头像匹配度确定模块,用于在所述得到每个所述目标视频的匹配度之后,根据所述目标数据中的用户头像,通过局部敏感哈希计算,得到各个所述用户之间所述用户头像的特征值的相似度,将所述用户头像的特征值的相似度作为所述目标数据对应的所述用户头像的匹配度;
[0182] 所述第一昵称匹配度模块,用于根据所述目标数据中的用户昵称,获得各个所述用户之间对应的所述用户昵称的相似度,将所述用户昵称的相似度作为所述目标数据对应的所述用户昵称的匹配度。
[0183] 根据本公开的一个或多个实施例,所述第一用户的身份标识确定模块,具体用于:
[0184] 若将所述重合数据作为所述目标视频的匹配度,且所述重合数据大于第一预设阈值时,将所述重合数据对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0185] 若将所述重合率作为所述目标视频的匹配度,且所述重合率大于第二预设阈值时,将所述重合率对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0186] 若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,且所述用户头像的特征值的相似度大于第三预设阈值,将所述用户头像的特征值的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识;
[0187] 若所述重合数据小于或等于第一预设阈值和/或所述重合率小于或等于第二预设阈值,所述用户头像的特征值的相似度小于或等于第三预设阈值,且所述用户昵称的相似度大于第四预设阈值时,将所述用户昵称的相似度对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0188] 根据本公开的一个或多个实施例,所述第一用户的身份标识确定模块,具体用于:
[0189] 若将所述重合率作为所述目标视频的匹配度,则对所述重合率、所述用户头像的特征值的相似度以及所述用户昵称的相似度进行加权融合,得到加权后的匹配度;
[0190] 将所述加权后的匹配度的最大值对应的各个所述目标应用程序上的用户的身份标识作为同一用户的多个身份标识。
[0191] 根据本公开的一个或多个实施例,所述第一用户的身份标识确定模块,还具体用于:
[0192] 获取所述目标视频对应的用户行为的数据量,所述用户行为数据包括分享行为的数据量、转发行为的数据量;
[0193] 若所述用户在分享或转发所述目标视频且具有所述分享或转发的行为授权时,响应于所述用户对应的所述分享或转发的行为,得到所述用户在分享或转发所述目标视频对应的参考应用程序;
[0194] 将所述参考应用程序对应的用户的身份标识与所述具有所述分享或转发的行为授权的用户对应的用户的身份标识作为同一用户的多个身份标识。
[0195] 根据本公开的一个或多个实施例,所述第一用户行为数据确定模块,具体用于:
[0196] 根据所述多个身份标识,建立关联表格并存储,其中,所述关联表中存储有多个身份标识之间的映射关系;
[0197] 根据所述映射关系,确定所述多个身份标识对应的用户在各个目标应用程序上的用户行为数据。
[0198] 第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器、存储器以及通信接口;
[0199] 所述通信接口用于与各个用户终端进行通信;
[0200] 所述存储器存储计算机执行指令;
[0201] 所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的用户行为分析方法。
[0202] 第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的用户行为分析方法。
[0203] 以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0204] 此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0205] 尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。