基于网络足迹进行分析的用户行为预测系统转让专利

申请号 : CN202311206662.X

文献号 : CN116955738B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王杰关鹏

申请人 : 北京华鑫杰瑞计算机系统工程有限公司

摘要 :

本发明涉及行为分析技术领域。本发明涉及基于网络足迹进行分析的用户行为预测系统。其包括足迹抓取单元、无效时间设定单元、无效数据剔除单元、行为数据寻找单元以及预测数据更新单元;足迹抓取单元用于抓取用户在网络的足迹数据;无效时间设定单元用于对足迹抓取单元抓取的足迹数据进行频繁度分析,根据分析结果设定足迹数据的无效时间;通过无效时间设定单元和无效数据剔除单元设定无效时间,并对足迹数据中的部分数据通过无效时间进行比对,将无效的足迹数据进行剔除,避免用户喜好出现改变,造成该用户的部分历史记录数据并不适用于该用户,出现了无效性,导致在对该用户进行预测时,部分历史记录数据会对预测数据进行误导。

权利要求 :

1.基于网络足迹进行分析的用户行为预测系统,其特征在于:包括足迹抓取单元(10)、无效时间设定单元(20)、无效数据剔除单元(30)、行为数据寻找单元(40)以及预测数据更新单元(50);

所述足迹抓取单元(10)用于抓取用户在网络的足迹数据;

所述无效时间设定单元(20)用于对足迹抓取单元(10)抓取的足迹数据进行频繁度分析,根据分析结果设定足迹数据的无效时间;

所述无效数据剔除单元(30)用于将足迹抓取单元(10)抓取的足迹数据根据时段进行划分,并对每个时段的足迹数据结合无效时间设定单元(20)设定的无效时间进行比对,剔除已经超过无效时间的足迹数据;

所述行为数据寻找单元(40)用于根据无效数据剔除单元(30)剔除后的足迹数据进行筛选,获取每个时段使用时间最长的特征数据,并根据特征数据在足迹数据中寻找类型关联的行为数据;

所述预测数据更新单元(50)用于建立用户行为预测模型,根据所处时段的特征数据作为用户的行为预测数据,并结合足迹抓取单元(10)抓取最新的足迹数据进行反馈,根据反馈结果更新行为预测数据;

所述无效时间设定单元(20)包括无效设定模块,所述无效设定模块用于设定一天内占用时间不同所对应的无效时间阈值,同时根据足迹抓取单元(10)抓取的足迹数据进行频繁度分析,获取一个月用户在每一天内网络足迹占用时间的平均值,根据平均值与无效时间阈值进行比对,从而设定对应的无效时间;

所述无效数据剔除单元(30)包括时段划分模块和数据筛选模块;

所述时段划分模块用于将足迹抓取单元(10)抓取的足迹数据根据早中晚三个时段进行划分,获取早足迹数据库、中足迹数据库,晚足迹数据库;

所述数据筛选模块用于将时段划分模块划分后的早足迹数据库、中足迹数据库,晚足迹数据库分别和无效设定模块设定的无效时间进行比对,并剔除每个时段中记录时间超出无效时间的足迹数据;

所述无效数据剔除单元(30)还包括用户使用分析模块,所述用户使用分析模块用于根据足迹抓取单元(10)抓取的足迹数据进行频繁度分析,根据分析结果将足迹数据划分为上班时间和下班时间,并剔除上班时间所使用的足迹数据,同时将保留的数据发送至时段划分模块进行划分。

2.根据权利要求1所述的基于网络足迹进行分析的用户行为预测系统,其特征在于:所述足迹抓取单元(10)通过网络足迹抓取工具,抓取用户在网络上的行为痕迹数据。

3.根据权利要求1所述的基于网络足迹进行分析的用户行为预测系统,其特征在于:所述足迹抓取单元(10)还包括用户信息收集模块,所述用户信息收集模块用于向用户发送兴趣行为爱好填写问卷,根据用户反馈问卷内容获取用户在网络中的足迹数据。

4.根据权利要求1所述的基于网络足迹进行分析的用户行为预测系统,其特征在于:所述行为数据寻找单元(40)包括特征数据获取模块和关联匹配模块;

所述特征数据获取模块用于根据数据筛选模块剔除后的早足迹数据库、中足迹数据库,晚足迹数据库分别进行占比时间最长的数据筛选,获取早足迹数据库、中足迹数据库,晚足迹数据库对应占比时间最长的特征数据;

所述关联匹配模块用于根据特征数据在足迹抓取单元(10)获取的足迹数据中进行行为关联分析,获取足迹数据与特征数据有关联的行为数据。

5.根据权利要求1所述的基于网络足迹进行分析的用户行为预测系统,其特征在于:所述预测数据更新单元(50)通过神经网络技术,根据早足迹数据库、中足迹数据库,晚足迹数据库建立用户行为预测模型。

6.根据权利要求1所述的基于网络足迹进行分析的用户行为预测系统,其特征在于:所述预测数据更新单元(50)包括行为预测模块和反馈更新模块;

所述行为预测模块用于根据将所处时段发送至用户行为预测模型,用户行为预测模型根据所处时段匹配对应时间的足迹数据库,将足迹数据库的特征数据作为行为预测数据进行发送;

所述反馈更新模块用于根据足迹抓取单元(10)抓取的最新足迹数据和行为预测模块发送的行为预测数据进行差异比对,若比对结果错误,根据最新足迹数据结合行为数据进行匹配,若匹配正确以行为数据作为行为预测数据发送行为预测模块进行更新,若比对结果正确,即继续预测。

说明书 :

基于网络足迹进行分析的用户行为预测系统

技术领域

[0001] 本发明涉及行为分析技术领域,具体地说,涉及基于网络足迹进行分析的用户行为预测系统。

背景技术

[0002] 用户网络行为分析是指在获得用户在网络操作行为的相关数据的情况下,对相关数据进行统计分析,从而判断发现网络用户的群体构成和各自的喜好,目前,对用户行为进行预测时,通过该用户的历史记录数据对用户进行行为分析,但人的喜好是随着事物而进行改变的,当喜好出现改变,造成该用户的部分历史记录数据并不适用于该用户,出现了无效性,导致在对该用户进行预测时,部分历史记录数据会对预测数据进行误导,造成预测数据的偏移,为了减少这种情况,提出基于网络足迹进行分析的用户行为预测系统。

发明内容

[0003] 本发明的目的在于提供基于网络足迹进行分析的用户行为预测系统,以解决上述背景技术中提出的问题。
[0004] 为实现上述目的,提供了基于网络足迹进行分析的用户行为预测系统,包括足迹抓取单元、无效时间设定单元、无效数据剔除单元、行为数据寻找单元以及预测数据更新单元;
[0005] 所述足迹抓取单元用于抓取用户在网络的足迹数据;
[0006] 所述无效时间设定单元用于对足迹抓取单元抓取的足迹数据进行频繁度分析,根据分析结果设定足迹数据的无效时间;
[0007] 所述无效数据剔除单元用于将足迹抓取单元抓取的足迹数据根据时段进行划分,并对每个时段的足迹数据结合无效时间设定单元设定的无效时间进行比对,剔除已经超过无效时间的足迹数据;
[0008] 所述行为数据寻找单元用于根据无效数据剔除单元剔除后的足迹数据进行筛选,获取每个时段使用时间最长的特征数据,并根据特征数据在足迹数据中寻找类型关联的行为数据;
[0009] 所述预测数据更新单元用于建立用户行为预测模型,根据所处时段的特征数据作为用户的行为预测数据,并结合足迹抓取单元抓取最新的足迹数据进行反馈,根据反馈结果更新行为预测数据。
[0010] 作为本技术方案的进一步改进,所述足迹抓取单元通过网络足迹抓取工具,抓取用户在网络上的行为痕迹数据。
[0011] 作为本技术方案的进一步改进,所述足迹抓取单元还包括用户信息收集模块,所述用户信息收集模块用于向用户发送兴趣行为爱好填写问卷,根据用户反馈问卷内容获取用户在网络中的足迹数据。
[0012] 作为本技术方案的进一步改进,所述无效时间设定单元包括无效设定模块,所述无效设定模块用于设定一天内占用时间不同所对应的无效时间阈值,同时根据足迹抓取单元抓取的足迹数据进行频繁度分析,获取一个月用户在每一天内网络足迹占用时间的平均值,根据平均值与无效时间阈值进行比对,从而设定对应的无效时间。
[0013] 作为本技术方案的进一步改进,所述无效数据剔除单元包括时段划分模块和数据筛选模块;
[0014] 所述时段划分模块用于将足迹抓取单元抓取的足迹数据根据早中晚三个时段进行划分,获取早足迹数据库、中足迹数据库,晚足迹数据库;
[0015] 所述数据筛选模块用于将时段划分模块划分后的早足迹数据库、中足迹数据库,晚足迹数据库分别和无效设定模块设定的无效时间进行比对,并剔除每个时段中记录时间超出无效时间的足迹数据。
[0016] 作为本技术方案的进一步改进,所述无效数据剔除单元还包括用户使用分析模块,所述用户使用分析模块用于根据足迹抓取单元抓取的足迹数据进行频繁度分析,根据分析结果将足迹数据划分为上班时间和下班时间,并剔除上班时间所使用的足迹数据,同时将保留的数据发送至时段划分模块进行划分。
[0017] 作为本技术方案的进一步改进,所述行为数据寻找单元包括特征数据获取模块和关联匹配模块;
[0018] 所述特征数据获取模块用于根据数据筛选模块剔除后的早足迹数据库、中足迹数据库,晚足迹数据库分别进行占比时间最长的数据筛选,获取早足迹数据库、中足迹数据库,晚足迹数据库对应占比时间最长的特征数据;
[0019] 所述关联匹配模块用于根据特征数据在足迹抓取单元获取的足迹数据中进行行为关联分析,获取足迹数据与特征数据有关联的行为数据。
[0020] 作为本技术方案的进一步改进,所述预测数据更新单元通过神经网络技术,根据早足迹数据库、中足迹数据库,晚足迹数据库建立用户行为预测模型。
[0021] 作为本技术方案的进一步改进,所述预测数据更新单元包括行为预测模块和反馈更新模块;
[0022] 所述行为预测模块用于根据将所处时段发送至用户行为预测模型,用户行为预测模型根据所处时段匹配对应时间的足迹数据库,将足迹数据库的特征数据作为行为预测数据进行发送;
[0023] 所述反馈更新模块用于根据足迹抓取单元抓取的最新足迹数据和行为预测模块发送的行为预测数据进行差异比对,若比对结果错误,根据最新足迹数据结合行为数据进行匹配,若匹配正确以行为数据作为行为预测数据发送行为预测模块进行更新,若比对结果正确,即继续预测。
[0024] 与现有技术相比,本发明的有益效果:
[0025] 该基于网络足迹进行分析的用户行为预测系统中,通过无效时间设定单元和无效数据剔除单元设定无效时间,并对足迹数据中的部分数据通过无效时间进行比对,将无效的足迹数据进行剔除,避免用户喜好出现改变,造成该用户的部分历史记录数据并不适用于该用户,出现了无效性,导致在对该用户进行预测时,部分历史记录数据会对预测数据进行误导,造成预测数据的偏移,通过行为数据寻找单元和预测数据更新单元根据时段对用户行为进行预测,并根据用户行为进行预测数据更新,避免预测数据和用户行为不一致,造成为用户推动产品质量降低。

附图说明

[0026] 图1为本发明的整体流程框图。
[0027] 图中各个标号意义为:
[0028] 10、足迹抓取单元;20、无效时间设定单元;30、无效数据剔除单元;40、行为数据寻找单元;50、预测数据更新单元。

具体实施方式

[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030] 实施例1:
[0031] 请参阅图1所示,本实施例目的在于,提供了基于网络足迹进行分析的用户行为预测系统,包括足迹抓取单元10、无效时间设定单元20、无效数据剔除单元30、行为数据寻找单元40以及预测数据更新单元50;
[0032] 足迹抓取单元10用于抓取用户在网络的足迹数据;
[0033] 足迹抓取单元10通过网络足迹抓取工具,抓取用户在网络上的行为痕迹数据。步骤如下:
[0034] 定义抓取范围:确定要抓取的网络平台或网站,例如社交媒体平台、搜索引擎、网购平台等;
[0035] 获取授权访问:如果需要获取用户的行为数据,需要获取用户的授权访问权限,如登录账号或使用API密钥;
[0036] 设置抓取参数:确定要抓取的数据类型和时间范围,例如浏览记录、搜索记录、购买记录等;
[0037] 编写抓取脚本:使用编程语言或专用工具编写程序,模拟用户访问网页或调用API接口,从而获取用户的行为数据;
[0038] 数据存储和处理:将抓取到的数据存储到数据库或文件系统中,以备后续分析和处理。
[0039] 足迹抓取单元10还包括用户信息收集模块,用户信息收集模块用于向用户发送兴趣行为爱好填写问卷,根据用户反馈问卷内容获取用户在网络中的足迹数据。步骤如下:
[0040] 设计问卷:确定需要收集的信息内容,包括用户的兴趣、行为和爱好等方面的问题。确保问题清晰明了,并提供适当的选项供用户选择或自由填写;
[0041] 选择发送方式:确定向用户发送问卷的方式,可以通过电子邮件、社交媒体、网站弹窗等方式进行;
[0042] 发送问卷:将问卷链接或问卷内容发送给用户,提供简洁明了的说明,解释为什么需要用户填写该问卷以及如何确保用户的隐私和数据安全;
[0043] 收集问卷数据:用户填写问卷后,收集、记录和存储用户的回答信息。可以使用在线调查工具或问卷调查平台来简化数据收集和管理过程;
[0044] 数据分析:对收集到的问卷数据进行统计分析和解释,以了解用户的兴趣和偏好。可以使用统计软件或数据分析工具来处理数据和生成报告
[0045] 无效时间设定单元20用于对足迹抓取单元10抓取的足迹数据进行频繁度分析,根据分析结果设定足迹数据的无效时间;
[0046] 无效时间设定单元20包括无效设定模块,无效设定模块用于设定一天内占用时间不同所对应的无效时间阈值,同时根据足迹抓取单元10抓取的足迹数据进行频繁度分析,获取一个月用户在每一天内网络足迹占用时间的平均值,根据平均值与无效时间阈值进行比对,从而设定对应的无效时间。步骤如下:
[0047] 分析每天的足迹占用时间:根据所收集的足迹数据,计算每天用户在网络上的足迹占用时间。可以将每次访问的持续时间进行累加,得到每天的总占用时间;
[0048] 计算一个月内的平均值:对于一个月内的每一天,计算每天足迹占用时间的平均值。将每天的总占用时间除以一个月内的总天数,得到平均值;
[0049] 设定无效时间阈值:根据需求和可接受的定义,设定不同占用时间对应的无效时间阈值。可以根据用户习惯、行为模式和业务需求来确定;如设置无效时间阈值为一个月,超出一个月即视为无效数据;
[0050] 比较平均值和阈值:将每天的平均足迹占用时间与设定的无效时间阈值进行比较。如果平均值超过阈值,则认为该天内的足迹时间无效;
[0051] 根据结果调整阈值:根据比较结果,可以根据实际情况对无效时间阈值进行调整,以更好地反映用户的需求和行为模式。
[0052] 无效数据剔除单元30用于将足迹抓取单元10抓取的足迹数据根据时段进行划分,并对每个时段的足迹数据结合无效时间设定单元20设定的无效时间进行比对,剔除已经超过无效时间的足迹数据;
[0053] 无效数据剔除单元30包括时段划分模块和数据筛选模块;
[0054] 时段划分模块用于将足迹抓取单元10抓取的足迹数据根据早中晚三个时段进行划分,获取早足迹数据库、中足迹数据库,晚足迹数据库;步骤如下:
[0055] 足迹数据收集:使用网络监测工具或应用程序分析工具,收集用户在网络上的足迹数据;
[0056] 时间段划分:根据足迹数据中的时间信息,将每条足迹数据划分为早、中、晚三个时段。可以根据具体需求和时间范围进行划分,如早晨6:0011:59,中午12:0017:59,晚上18:0023:59;
[0057] 早足迹数据库创建:将划分为早晨时段的足迹数据存储到早足迹数据库中;
[0058] 中足迹数据库创建:将划分为中午时段的足迹数据存储到中足迹数据库中;
[0059] 晚足迹数据库创建:将划分为晚上时段的足迹数据存储到晚足迹数据库中。
[0060] 数据筛选模块用于将时段划分模块划分后的早足迹数据库、中足迹数据库,晚足迹数据库分别和无效设定模块设定的无效时间进行比对,并剔除每个时段中记录时间超出无效时间的足迹数据。表达式如下:
[0061] 设定的无效时间阈值:
[0062] 无效时间开始时间:startTime;
[0063] 无效时间结束时间:endTime;
[0064] 早足迹数据库剔除无效数据:
[0065] 早足迹数据库=早足迹数据库[记录时间 ≥ startTime and 记录时间 ≤ endTime];
[0066] 中足迹数据库剔除无效数据:
[0067] 中足迹数据库=中足迹数据库[记录时间 ≥ startTime and 记录时间 ≤ endTime];
[0068] 晚足迹数据库剔除无效数据:
[0069] 晚足迹数据库=晚足迹数据库[记录时间 ≥ startTime and 记录时间 ≤ endTime]。
[0070] 无效数据剔除单元30还包括用户使用分析模块,用户使用分析模块用于根据足迹抓取单元10抓取的足迹数据进行频繁度分析,根据分析结果将足迹数据划分为上班时间和下班时间,并剔除上班时间所使用的足迹数据,同时将保留的数据发送至时段划分模块进行划分。在对用户行为进行预测时,由于用户如果在上班期间,足迹数据是跟随工作内容进行变动,这类足迹数据由于并不是用户自身的行为想法,导致记录对后期预测价值较低,同时还会误导行为预测模型。公式如下:
[0071] 假设上班时间为早上9点到下午6点:
[0072] 上班时间数据剔除:足迹数据=足迹数据[时间<'09:00:00'or时间>'18:00:00'];
[0073] 行为数据寻找单元40用于根据无效数据剔除单元30剔除后的足迹数据进行筛选,获取每个时段使用时间最长的特征数据,并根据特征数据在足迹数据中寻找类型关联的行为数据;
[0074] 行为数据寻找单元40包括特征数据获取模块和关联匹配模块;
[0075] 特征数据获取模块用于根据数据筛选模块剔除后的早足迹数据库、中足迹数据库,晚足迹数据库分别进行占比时间最长的数据筛选,获取早足迹数据库、中足迹数据库,晚足迹数据库对应占比时间最长的特征数据;步骤如下:
[0076] 统计每个时间段内的足迹占用时间总和:对于早足迹数据库、中足迹数据库和晚足迹数据库,分别计算每个时间段内的足迹占用时间总和;
[0077] 计算时间段内的足迹占比:将每个时间段内的足迹占用时间总和除以整体的足迹占用时间总和,得到时间段内的足迹占比;
[0078] 筛选占比最高的特征数据:根据时间段内的足迹占比,筛选出占比最高的特征数据。
[0079] 关联匹配模块用于根据特征数据在足迹抓取单元10获取的足迹数据中进行行为关联分析,获取足迹数据与特征数据有关联的行为数据。步骤如下:
[0080] 行为关联分析准备:将特征数据与足迹数据进行准备,以便进行行为关联分析。确保数据格式和表结构可以进行关联操作;
[0081] 行为关联分析:基于特征数据和足迹数据的共同字段如用户ID、日期等,进行关联操作,找出特征数据和足迹数据之间的行为关联;
[0082] 提取关联行为数据:根据行为关联分析的结果,从足迹数据中提取与特征数据有关联的行为数据。
[0083] 预测数据更新单元50用于建立用户行为预测模型;
[0084] 预测数据更新单元50通过神经网络技术,根据早足迹数据库、中足迹数据库,晚足迹数据库建立用户行为预测模型。表示式如下:
[0085] 输入层:将早足迹数据库、中足迹数据库和晚足迹数据库的数据作为输入;
[0086] 隐藏层:包含多个神经元,负责提取数据的特征和学习数据的模式;
[0087] 输出层:根据预测目标的类型,可以是二分类、多分类或回归输出;
[0088] 训练过程:通过给定的训练样本和标签,使用梯度下降等优化算法来调整神经网络的权重和偏置,以最小化预测与真实值之间的误差;
[0089] 预测过程:根据经过训练的神经网络模型和新的输入数据,使用前向传播算法计算输出结果,得到用户行为的预测结果。
[0090] 根据所处时段的特征数据作为用户的行为预测数据,并结合足迹抓取单元10抓取最新的足迹数据进行反馈,根据反馈结果更新行为预测数据。
[0091] 预测数据更新单元50包括行为预测模块和反馈更新模块;
[0092] 行为预测模块用于根据将所处时段发送至用户行为预测模型,用户行为预测模型根据所处时段匹配对应时间的足迹数据库,将足迹数据库的特征数据作为行为预测数据进行发送;步骤如下:
[0093] 获取所处时段:根据当前时间或其他相关的时间信息,确定用户所处的时段,如早晨、上午、下午、晚上等;
[0094] 发送所处时段至用户行为预测模型:将获取的时段信息发送至用户行为预测模型,作为预测模型的输入;
[0095] 时段匹配与足迹数据库选择:用户行为预测模型根据接收到的时段信息,匹配对应的足迹数据库,如根据早晨时段选择早足迹数据库,根据上午时段选择中足迹数据库等;
[0096] 获取足迹数据库的特征数据:从匹配到的足迹数据库中提取特征数据,以应用于行为预测模型;
[0097] 发送特征数据至用户行为预测模型:将足迹数据库的特征数据作为行为预测模型的输入,发送至用户行为预测模型进行行为预测。
[0098] 反馈更新模块用于根据足迹抓取单元10抓取的最新足迹数据和行为预测模块发送的行为预测数据进行差异比对,若比对结果错误,根据最新足迹数据结合行为数据进行匹配,若匹配正确以行为数据作为行为预测数据发送行为预测模块进行更新,若比对结果正确,即继续预测。表达式如下:
[0099] if prediction ! = latestfootprint:
[0100] matchedbehaviordata = match(latestfootprint,behaviordata);
[0101] updatedprediction = matchedbehaviordata send(updatedprediction);
[0102] # 发送更新后的预测数据至行为预测模块;
[0103] else:
[0104] continueprediction() # 继续预测;
[0105] 其中,prediction:预测数据,代表从行为预测模块接收到的行为预测结果。latestfootprint:最新足迹数据,代表从抓取的数据中获取的最新的用户足迹数据。
matchedbehaviordata:匹配后的行为数据,代表根据最新足迹数据和行为数据进行匹配后找到的匹配正确的行为数据。match():匹配函数,用于匹配最新足迹数据和行为数据,以找到匹配正确的行为数据。updatedprediction:更新后的预测数据,代表匹配正确的行为数据,作为新的行为预测数据。send(updatedprediction):发送更新后的预测数据至行为预测模块,用于更新行为预测模型。continueprediction():继续预测,表示在预测与实际足迹一致时,继续进行下一次的预测。
[0106] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。