根据网络行为确定用户偏好的方法及装置转让专利

申请号 : CN201810108024.7

文献号 : CN110110219A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈实如

申请人 : 北大方正集团有限公司方正宽带网络服务有限公司

摘要 :

本发明提供一种根据网络行为确定用户偏好的方法及装置。方法包括:获取用户的访问信息,其中,访问信息包括网页信息、访问时间;根据网页信息确定用户访问的网页所属的类别;根据访问时间、网页所属的类别,确定在预设周期内用户每天访问每类网页的次数;根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值;根据访问每类网页的平均次数、次数方差值,确定在预设周期内用户的偏好。本发明提供的方案,能够充分利用用户上网时产生的访问信息,确定用户偏好,从而使网络运营商能够充分的了解用户喜好,进而能够有针对性的向用户提供更好的服务。

权利要求 :

1.一种根据网络行为确定用户偏好的方法,其特征在于,包括:获取用户的访问信息,其中,所述访问信息包括网页信息、访问时间;

根据所述网页信息确定所述用户访问的网页所属的类别;

根据所述访问时间、所述网页所属的类别,确定在预设周期内所述用户每天访问每类网页的次数;

根据所述次数,确定所述用户访问每类网页的平均次数以及访问每类网页的次数方差值;

根据访问每类网页的所述平均次数、所述次数方差值,确定在所述预设周期内所述用户的偏好。

2.根据权利要求1所述的方法,其特征在于,所述根据访问每类网页的所述平均次数、所述次数方差值,确定在所述预设周期内所述用户的偏好,包括:根据所述预设周期内,所述用户访问每类网页的所述平均次数、所述次数方差值确定所述用户所属的第一类别;

根据所述第一类别确定所述用户的偏好。

3.根据权利要求2所述的方法,其特征在于,所述根据所述预设周期内,所述用户访问每类网页的所述平均次数、所述次数方差值确定所述用户所属的第一类别,包括:判断μi是否大于

若是,则确定所述用户属于第一类别i;

其中,m为所述网页类别的总数,a为预设修正值,μi为所述用户访问第i类网页的平均次数;μk为访问第k类网页的所述平均次数,σk为访问每k类网页的次数方差值的根值。

4.根据权利要求2或3所述的方法,其特征在于,还包括:确定在P个所述预设周期内,每个所述预设周期中所述用户属于的所述第一类别、访问每类网页的所述平均次数以及所述次数方差值;

根据在每个所述预设周期中确定的访问每类网页的所述平均次数以及所述次数方差值,在多个所述第一类别中确定出用户属于的第二类别;

根据所述第二类别确定所述用户的偏好。

5.根据权利要求4所述的方法,其特征在于,所述根据在每个所述预设周期中确定的访问每类网页的所述平均次数以及所述次数方差值,在多个所述第一类别中确定出所述用户属于的第二类别,包括:获取每个所述预设周期中的所述第一类别i,确定出将所述类别i确定为第一类别的预设周期数量P';

根据所述数量P'、预设周期数量P确定所述第一类别i是否满足第一条件;

若是,则确定P个所述预设周期内,所述用户访问所述类别i的网页的总平均次数;

根据所述数量P'、每个所述预设周期中访问每类网页的所述平均次数以及所述次数方差值、所述总平均次数确定所述第一类别i是否满足第二条件,若是,则确定所述第一类别i为所述第二类别。

6.根据权利要求5所述的方法,其特征在于,若确定所述第一类别i为所述第二类别,则根据预设算法确定所述用户属于类别i的概率,并输出所述概率;

其中,所述预设算法为:

其中,q为所述概率。

7.根据权利要求1~3、5、6任一项所述的方法,其特征在于,所述根据所述网页信息确定所述用户访问的网页所属的类别,包括:在所述网页的统一资源定位符url,和/或所述网页的内容中提取关键词;

根据所述关键词在预设类别库中确定所述网页所属的类别,和/或,将所述关键词作为所述网页所属的类别。

8.根据权利要求7所述的方法,其特征在于,所述预设类别库中包括所述关键词与所述类别的对应关系;

所述方法还包括:

接收所述关键词与所述类别的对应关系,并将所述对应关系存储到所述预设类别库中;

和/或,检测所述预设类别库中是否包括所述关键词,若否,则在所述预设类别库中添加所述关键词,并将所述关键词的类别确定为所述关键词本身。

9.一种根据网络行为确定用户偏好的装置,其特征在于,包括:获取模块,用于获取用户的访问信息,其中,所述访问信息包括网页信息、访问时间;

类别确定模块,用于根据所述网页信息确定所述用户访问的网页所属的类别;

次数确定模块,用于根据所述访问时间、所述网页所属的类别,确定在预设周期内所述用户每天访问每类网页的次数;计算模块,用于根据所述次数,确定所述用户访问每类网页的平均次数以及访问每类网页的次数方差值;

偏好确定模块,用于根据访问每类网页的所述平均次数、所述次数方差值,确定在所述预设周期内所述用户的偏好。

10.根据权利要求9所述的装置,其特征在于,所述偏好确定模块,包括:第一类别确定单元,用于根据访问每类网页的所述平均次数、所述次数方差值确定所述用户所属的第一类别;

偏好确定单元,用于根据所述第一类别确定所述用户的偏好。

11.根据权利要求10所述的装置,其特征在于,还包括:多周期确定模块,用于:确定在P个所述预设周期内,每个所述预设周期中所述用户属于的所述第一类别、访问每类网页的所述平均次数以及所述次数方差值;

根据在每个所述预设周期中确定的访问每类网页的所述平均次数以及所述次数方差值,在多个所述第一类别中确定出用户属于的第二类别;

根据所述第二类别确定所述用户的偏好。

说明书 :

根据网络行为确定用户偏好的方法及装置

技术领域

[0001] 本发明涉及互联网技术,尤其涉及一种根据网络行为确定用户偏好的方法及装置。

背景技术

[0002] 目前,随着互联网技术的发展,用户对网络服务的需求也越来越高。对于网络运营商而言,需要了解用户的偏好,再根据用户偏好改造网络,优化网络,设计精准化营销套餐,进而提升服务水平,以满足日益提高的用户需求。
[0003] 发明人发现,用户在对网络进行访问时,宽带运营商能够记录用户的上网信息,并将这些信息记录在数据库中。而如何利用这些信息来确定用户的偏好,是本领域技术人员亟需解决的技术问题。

发明内容

[0004] 本发明提供一种根据网络行为确定用户偏好的方法及装置,通过获取用户的访问信息,根据采集的信息统计在预设周期内用户访问每类网页的次数,再根据统计的访问次数,计算出用户访问每类网页的平均次数以及访问每类网页的次数方差值,再根据计算结果,确定预设周期内用户的偏好,本发明提供的方案,能够充分利用用户上网时产生的访问信息,确定用户偏好,从而使网络运营商能够充分的了解用户喜好,进而能够有针对性的向用户提供更好的服务。
[0005] 本发明的第一个方面是提供一种根据网络行为确定用户偏好的方法,包括:
[0006] 获取用户的访问信息,其中,所述访问信息包括网页信息、访问时间;
[0007] 根据所述网页信息确定所述用户访问的网页所属的类别;
[0008] 根据所述访问时间、所述网页所属的类别,确定在预设周期内所述用户每天访问每类网页的次数;
[0009] 根据所述次数,确定所述用户访问每类网页的平均次数以及访问每类网页的次数方差值;
[0010] 根据访问每类网页的所述平均次数、所述次数方差值,确定在所述预设周期内所述用户的偏好。
[0011] 本发明的另一个方面是提供一种根据网络行为确定用户偏好的装置,包括:
[0012] 获取模块,用于获取用户的访问信息,其中,所述访问信息包括网页信息、访问时间;
[0013] 类别确定模块,用于根据所述网页信息确定所述用户访问的网页所属的类别;
[0014] 次数确定模块,用于根据所述访问时间、所述网页所属的类别,确定在预设周期内所述用户每天访问每类网页的次数;计算模块,用于根据所述次数,确定所述用户访问每类网页的平均次数以及访问每类网页的次数方差值;
[0015] 偏好确定模块,用于根据访问每类网页的所述平均次数、所述次数方差值,确定在所述预设周期内所述用户的偏好。
[0016] 本发明提供的根据网络行为确定用户偏好的方法及装置的技术效果是:
[0017] 本实施例提供的根据网络行为确定用户偏好的方法及装置,包括获取用户访问网页的访问信息,其中,访问信息包括网页信息、访问时间;根据网页信息确定用户访问的网页所属的类别;根据访问时间、网页所属的类别,确定在预设时间内用户每天访问每类网页的次数;根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值;根据访问每类网页的平均次数、次数方差值,确定在预设周期内用户的偏好。采用本实施例所提供的方法及装置,能够充分利用用户在浏览网页时产生的访问信息,准确的确定用户的偏好,从而能够使网络供应商了解用户的偏好,进而提升服务水平。

附图说明

[0018] 图1为本发明一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图;
[0019] 图2为本发明另一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图;
[0020] 图3为本发明又一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图;
[0021] 图4为本发明再一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图;
[0022] 图5为本发明一示例性实施例示出的根据网络行为确定用户偏好的装置的结构图;
[0023] 图6为本发明另一示例性实施例示出的根据网络行为确定用户偏好的装置的结构图。

具体实施方式

[0024] 图1为本发明一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图。
[0025] 如图1所示,本实施例提供的根据网络行为确定用户偏好的方法包括:
[0026] 步骤101,获取用户的访问信息,其中,访问信息包括网页信息、访问时间。
[0027] 具体的,用户在上网浏览网页时,会产生很多访问信息。通常用户在上网时浏览的内容都是自己感兴趣的内容,因此,可以根据用户上网时产生的访问信息,确定用户喜好。
[0028] 可以在宽度运营商侧可以记录用户的访问信息,再将这些访问信息记录到数据库中,用户所使用的浏览器也可以获取用户访问信息,再将获取的信息发送至浏览器的后台数据库中,以使后台数据库能够存储用户的访问信息。记录的数据可以包括上网时间、用户ID、源IP地址、目标IP、url清单、上网终端类型等。在需要对用户进行偏好分析时,可以直接从数据库中读取这些信息。另外,还可以在服务器的存储器中存储本实施例提供的方法,并使服务器中的处理器运行本实施例提供的方法,从而使服务器能够执行本实施例提供的方法。还可以把本实施例提供的方法封装到应用程序中,将其安装在服务器中,以使服务器能够运行本实施例提供的方法。
[0029] 进一步的,可以从采集的数据中获取用户访问网页的访问信息,其中,可以获取全部的用户访问信息,也可以获取需要的访问信息。同时,还应根据用户标识对访问信息进行分类,从而根据与用户标识对应的访问信息确定该用户的偏好。用户标识可以是用户手机号码、账号、ip等。
[0030] 实际应用时,可以仅获取用户在访问网页时产生的网页信息、访问时间。网页信息具体包括:url、网页内容等。例如,url为http://games.sina.com。访问时间是指用户访问网页的时间,例如,用户在2017年11月23日访问了新浪游戏的网页。
[0031] 其中,还可以按天获取用户访问信息,获取每天用户的访问信息,并对获取的访问信息进行分析。
[0032] 步骤102,根据网页信息确定用户访问的网页所属的类别。
[0033] 其中,可以对获取的网页信息进行解析,若网页信息为url,则可以根据预设规则提取url中的关键词,根据关键词确定网页类别。例如,可以先去除url中的“.”、“//”等符号,得到词汇组合{http games sina com},再在预设的类别库中,确定与词汇组合对应的类别为game,从而确定用户访问的网页所属的类别。
[0034] 可以在类别库中设置所有或部分网页类别,例如仅存储需要考察的网页类别。若对网页信息进行解析时,无法在类别库中确定与其对应的网页类别,则可以抛弃该访问信息数据,还可以将其存储为异常数据,由维护人员对其进行处理。若类别库中存储了当前能够确定的所有网页类别及其对应的关键词,那么此时无法确定与网页对应的网页类别,可能是由于类别库中的数据还不够丰富导致的,那么可以将此次访问信息数据存储为异常数据,由维护人员根据该异常数据补充类别库中的网页类别或关键词,即可以根据采集的访问信息丰富类别库的内容。另外,若类别库中存储的是需要考察的网页类别及其对应的关键词,那么出现网页信息无法匹配到与其相应的网页类别时,则可以认为该网页的访问信息不是此次考察的范围,则可以不统计此次访问信息。
[0035] 步骤103,根据访问时间、网页所属的类别,确定在预设周期内用户每天访问每类网页的次数。
[0036] 具体的,根据访问时间,可以将用户在同一天访问的网页信息都筛选出来,再根据步骤102的结果,确定筛选出的网页信息对应的网页类别,并计算每类网页出现的次数,也就是用户在一天的时间内访问该类网页的次数。如果用户在一天内浏览了多个网页,那么能够在一天之内确定多个网页类型。如果用户在一天内没有浏览网页,那么在这一天内的数据可以用0替代。例如,在第一天用户访问game类别的网站5次,在第二天用户访问game类别的网站0次。
[0037] 进一步的,可以遍历用户在同一天访问的网页信息所对应的类别,当第一次遍历到一个网页类别时,就将访问该网页类别的访问次数设置为1,当第二次遍历到该网页类别时,在此基础上增加1。还可以将各个网页类别的访问次数初始化为0,在遍历到其中一个网页类别时,在该网页类别的访问次数上叠加1。还可以采用其他方式统计用户每天访问网页类别的次数,在此不做限制。
[0038] 其中,可以根据需求预先设定预设周期,例如五天、一周、一个月等等。再以预设周期为单位,确定预设周期内用户每天访问每类网页的次数。例如,以五天为单位,确定连续的五天中,用户每天访问每类网页的次数。
[0039] 具体的,为了便于根据统计结果进行计算或分析,可以根据确定的数据建立第一矩阵:
[0040]
[0041] 其中,aij为用户在第j天访问第i类网页的次数。
[0042] 具体的,矩阵A中每行数据代表用户每天访问该行所对应类别网页的次数,即每行数据对应的网页类别是相同的,如第一行代表着第一类别网页的相关数据。矩阵A中每列数据代表在同一天,用户访问每类网页类别的次数,每列数据产生的日期是相同的,例如第一列代表着该预设周期内,第一天用户访问的每类网页的次数。在矩阵A中,共包括m类网页,预设周期为n天。
[0043] 进一步的,可以根据需要考察的网页类型确定m值,例如,共需要考察5类网页,则可以将m设置为5,且在每个预设周期内,m都等于5。
[0044] 步骤104,根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值。
[0045] 其中,用户访问每类网页的平均次数的计算方法可以为:
[0046]
[0047] 也就是将用户在n天内访问第i类网页的次数相加,再除以n,从而确定出用户每天访问第i类网页的平均次数。
[0048] 具体的,用户访问每类网页的次数方差值的计算方法可以为:
[0049]
[0050] 其中, 表示用户访问第i类网页的次数方差值
[0051] 通过计算方差 能够进一步的了解用户每天访问第i类网页的次数对于每天访问该类网页的平均次数的偏离程度。
[0052] 为了便于统计,也可以根据确定的平均次数及次数方差值建立第二矩阵:
[0053]
[0054] 其中,第二矩阵中为用户在一个预设周期内访问每类网页的平均次数以及次数方差值。
[0055] 步骤105,根据访问每类网页的平均次数、次数方差值,确定在预设周期内用户的偏好。
[0056] 其中,可以持续统计用户每天访问每类网页的次数,并计算用户访问没类网页的总次数,确定出访问总次数靠前的网页类别,并将其作为用户偏好。还可以通过计算用户每天访问每类网页次数的平均值,对网页类别进行排序。在采用上述确定方式时,可以在统计完用户每天访问每类网页的次数以后,正常处理数据库中存储的访问信息,如覆盖、清空等,采用本实施例提供的方法,能够在访问信息被处理之前,充分利用这些信息对用户进行偏好分析,而且在访问信息被处理之后,不会影响对用户的分析结果。
[0057] 具体的,还可以根据预设周期内用户每天访问各个类别网页的次数确定用户偏好,再根据多个预设周期内确定的结果,进一步的确定用户偏好。
[0058] 进一步的,本实施例提供的方案中,可以根据用户访问每类网页的平均次数、次数方差值,确定在预设周期内用户的偏好。
[0059] 平均次数能够直观的表征用户访问各类网页的次数,若用户访问某类网页的平均次数较多,则可以认为用户对这类网页的内容较关注。另外,还可以根据次数方差值确定用户的偏好。当用户每天访问第i类网页的次数较平均、稳定时,σi就会较小,相反,若用户每天访问第i类网页的次数不平均,例如第一天访问了40次第i网页,但是其他天中,均没有观看第i类网页,此时,σi就会较大。因此,可以综合考虑平均次数以及次数方差值,确定用户是否对这类网页的内容较关注。例如,可以在平均次数大于次数阈值,且次数方差值小于方差阈值时,确定用户对这类网页内容比较感兴趣,从而确定用户的偏好。
[0060] 实际应用时,在预设周期内用户访问过的众多类型的网页中,可能能够确定出多个用户感兴趣的网页类别,此时,可以得到多个用户偏好。例如,用户同时对体育以及房产感兴趣。
[0061] 本实施例提供的根据网络行为确定用户偏好的方法,包括获取用户访问网页的访问信息,其中,访问信息包括网页信息、访问时间;根据网页信息确定用户访问的网页所属的类别;根据访问时间、网页所属的类别,确定在预设周期内用户每天访问每类网页的次数;根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值;根据访问每类网页的平均次数、次数方差值,确定在预设周期内确定用户的偏好。采用本实施例所提供的方法,能够充分利用用户在浏览网页时产生的访问信息,并根据用户的访问信息确定用户访问每类网页的平均次数以及方差值,从而综合考虑平均次数以及次数方差值更准确的确定用户的偏好,进而能够使网络供应商了解用户的偏好,进而提升服务水平。
[0062] 图2为本发明另一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图。
[0063] 如图2所示,本实施例提供的根据网络行为确定用户偏好的方法,包括:
[0064] 步骤201,获取用户访问网页的访问信息,其中,访问信息包括网页信息、访问时间。
[0065] 步骤201与步骤101的具体原理和实现方式均相同,在此不再赘述。
[0066] 步骤202,在网页的统一资源定位符url,和/或网页的内容中提取关键词。
[0067] 其中,可以根据网页的url确定该网页的关键词。网页的统一资源定位符url是指可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。url中至少包括模式/协议(scheme)部分以及存有该资源的主机IP地址。可以根据预设规则对获取的url进行处理,例如,预设规则可以是去除其中包括的“.”、“//”等符号,还可以去除其中包括的模式、协议部分,如“http”、“https”、“ftp”等,还可以去除通用的域名格式以及万维网标识,如“com”、“cn”、“www”,从而从url中得到有用信息。例如,http://www.iqiyi.com/,根据预设规则去除掉通用内容后,得到的词汇为“iqiyi”,则可以将其作为网页的关键词。
[0068] 具体的,还可以根据网页的内容提取网页的关键词。一般来说,网页中都包括网站名称,可以获取网页中的网站名称,并将其作为网页的关键词。例如在优酷网站的所有网页中,顶端都包括优酷的标识,可以识别该标识,确定该网页的关键词。
[0069] 步骤203,根据关键词在预设的类别库中确定网页所属的类别,和/或,将关键词作为网页所属的类别。
[0070] 进一步的,可以预先设置类别库,类别库中包括关键词与网页类别的对应关系。例如,一种网页类别可以包括多个关键词。为了便于对类别库进行维护,还可以设置关键词与网页类别的对应表,用于存储关键词与网页类别的对应关系,例如表1。
[0071] 表1
[0072]
[0073]
[0074] 表1中是按url关键词的个数设置的行数,即一个url关键词一行,还可以按网页类别的数量设置行数,即一个网页类别对应一行,相应的,可以将属于同一个网页类别的url关键词放在一个方框内。
[0075] 实际应用时,可以对表1进行维护,删除、增加、修改其中的url关键词和网页类别,还可以删除、增加、修改其中的对应关系。例如,可以在对应表中添加需要考察的网页类别及其对应的url关键词。当用户的访问信息中未解析出对应表中所包括的关键词,则不记录此次访问情况。采用这种实施方式能够使类别库中的数据较少,便于维护。
[0076] 若需要预先设置类别库,则本实施例提供的方法还可以包括:
[0077] 接收关键词与类别的对应关系,并将对应关系存储到预设类别库中。
[0078] 其中,关键词与类别的对应关系可以是用户主动上传的,接收到用户上传的对应关系后,可以将其保存在预设的类别库中。
[0079] 具体的,还可以通过机器学习的方法确定关键词与类别的对应关系。在统计用户访问信息时,可以检测预设类别库中是否包括网页关键词,若否,则可以将关键词导入计算机的自学习系统,使计算机自动确定关键词所对应的类别,并将二者对应关系存储在预设类别库中。其中,可以采用现有技术中的机器学习框架实现上述功能。
[0080] 另外,还可以检测预设类别库中是否包括关键词,若否,则在预设类别库中添加关键词,并将关键词的类别确定为关键词本身。
[0081] 其中,可以直接将关键词作为网页类别,当提取到网页关键词时,且预设类别库中不包括该关键词,可以直接将其保存到类别库中,并将关键词作为类别。
[0082] 若直接将关键词作为网页所属的类别,可以以表格的形式设置类别库,如表2所示。
[0083] 表2
[0084]
[0085]
[0086] 采用这种实施方式时,类别库中能够涵盖所有的网页类别,数据较为丰富。
[0087] 相似的,根据从网页内容中提取的关键词对网页进行分类时,也可以采用上述方式,仅是维护的类别库不同,在此不再赘述。
[0088] 步骤204,根据访问时间、网页所属的类别,确定在预设周期内用户每天访问每类网页的次数。
[0089] 步骤204与步骤103的具体原理和实现方式均相同,在此不再赘述。
[0090] 步骤205,根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值。
[0091] 步骤205与步骤104的具体原理和实现方式均相同,在此不再赘述。
[0092] 步骤206,根据预设周期内,用户访问每类网页的平均次数、次数方差值确定用户所属的第一类别。
[0093] 具体的,可以根据用户在预设周期内,访问每类网页的平均次数确定其所属的第一类别,可以将用户平均访问次数最多的网页类型确定为该用户所属的第一类别,例如,μ2在多个平均值中较大,而与第2类网页对应的网页类别为News类,那么就可以确定用户属于News,其偏好为新闻。
[0094] 进一步的,还可以确定出多个用户所属的第一类别,例如,用户同时属于News类、Videos类。
[0095] 实际应用时,还存在用户仅仅是由于某种原因,在同一天浏览一个类型的网页较多,而其他时间没有浏览该类网页的情况,由于这一天的访问次数,导致用户访问该类网页的平均次数较多,在这种场景下,直接根据平均访问次数确定用户所属第一类别,则会造成分类不准确的问题。
[0096] 因此,还可以考虑根据次数方差值确定用户所属的第一类别。当用户每天访问第i类网页的次数较平均、稳定时,σi就会较小,相反,若用户每天访问第i类网页的次数不平均,例如第一天访问了40次第i网页,但是其他天中,均没有观看第i类网页,此时,σi就会较大。因此,可以通过比较σi与预设值,进一步的确定用户是否属于第一类别。
[0097] 另外,本实施例还提供另一种确定用户所属的第一类别的方法。
[0098] 可以判断μi是否大于 若是,则确定用户属于第一类别i。其中,a为预设修正值,通常设置为0.5,m为网页类别的总数。μi为用户访问第i类网页的平均次数;μk为访问第k类网页的平均次数,σk为访问每k类网页的次数方差值的根值。
[0099] 将除去第i类网页后的所有网页的访问平均值及方差根值相加,再除以网页类别数量m-1,能够得到(μ+σ)的均值,再乘以修正值0.5,能够得到μ、σ的均值。通过去除所有网页中第i类网页的参数,再使用μi与其他网页的μ、σ的均值进行比较,若μi大于最终计算的均值结果,则可以认为用户属于第一类别i。通过上述确定方式,能够将用户访问第i类网页的情况与整体的访问情况进行比较,再确定用户是否属于第一类别i,从而使分类的结果更加准确。
[0100] 步骤207,根据第一类别确定用户的偏好。
[0101] 确定出用户所属的第一类别后,再根据第一类别确定用户的偏好。例如,用户属于News类、Videos类,则可以确定该用户的偏好为新闻、影视类。
[0102] 本实施例提供的方法,能够在一个预设周期内根据用户的访问情况,确定出用户访问每类网页的平均次数以及次数方差值,再根据确定的平均次数以及方差值,能够准确的确定出用户所属类别,进而能够准确的确定用户偏好。
[0103] 图3为本发明又一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图。
[0104] 本实施例提供的方法能够根据多个预设周期中用户的访问信息,确定用户的偏好。
[0105] 如图3所示,本实施例提供的根据网络行为确定用户偏好的方法,包括:
[0106] 步骤301,确定P个预设周期内每个预设周期中用户属于的第一类别、访问每类网页的平均次数以及次数方差值。
[0107] 其中,预先确定需要考察的预设周期数P,例如,考察10个周期、15个周期等,也可以根据需求长期考察用户的偏好。由于用户的访问信息不可能永久的存储在数据库中,因此,当预设周期P较大时,可以在产生访问信息后,就根据访问信息记录访问次数,并且在一个预设周期结束后,根据该预设周期内的数据确定用户所属的第一类别。从而避免数据库中的数据被处理掉,却未基于这些数据对用户进行偏好分析的情况发生。另外,当长期考察用户的偏好时,还可以将P设置为动态值,即每当一个预设周期结束,则在当前P值的基础上叠加1。再根据新增加的预设周期确定出第一类别,综合根据在此之前的预设周期内确定的第一类别,从中确定出第二类别。
[0108] 具体的,在每个预设周期内还可以确定出访问每类网页的平均次数以及次数方差值,具体的确定方法可以参照图2所示的实施例中步骤201~步骤206,在此不再赘述。
[0109] 步骤302,根据在每个预设周期中确定的访问每类网页的平均次数以及次数方差值,在多个第一类别中确定出用户属于的第二类别。
[0110] 进一步的,由于在每个预设周期中,都能确定出至少一个第一类别,那么在P个预设周期内,就能够确定出多个第一类别。例如,在第一个预设周期中确定的第一类别为第1、3类,在第二个预设周期中确定的第一类别为第1、4类,在第三个预设周期中确定的第一类别为第1、5类。
[0111] 由于根据一个预设周期确定的第一类别为短期的确定将结果,也就是这个预设周期内用户更感兴趣的内容。但是,有可能在这个预设周期内,用户对某一类的内容比较感兴趣,但是在过一段时间,用户对其他内容更感兴趣。因此,仅根据一个预设周期确定用户偏好无法长期考察用户的喜好。基于此,本实施例为了能够在一段较长的时间内考察用户的偏好,综合考虑多个预设周期中访问每类网页时产生的平均次数以及次数方差值,在确定的第一类别中筛选出第二类别。
[0112] 实际应用时,可以在获取每个预设周期中,访问第一类别网页所对应的平均次数以及所述次数方差值,再根据各个值的大小确定该第一类别是否符合第二类别的要求。例如,P=3,第一个预设周期中确定的第一类别为第1、3类,在第二个预设周期中确定的第一类别为第1、4类,在第三个预设周期中确定的第一类别为第1、5类。则可以获取第一到第三预设周期中,访问第1、3、4、5类的平均次数以及次数方差值,再比较其中任一个第一类别网页的平均次数以及次数方差值是否均大于与其相应的预设数值,若是,则该第一类别可以被确定为用户属于的第二类别。
[0113] 可以遍历所有的第一类别,从中筛选出满足条件的第二类别。
[0114] 若长期考察用户的偏好,也就是P值是根据时间变化情况增加的,那么每当P值变化后,还可以根据最新确定的预设周期中包括的第一类别、访问每类网页的平均次数以及次数方差值,重新确定用户属于的第二类别,从而使第二类别能够根据P值的变化而更新。
[0115] 步骤303,根据第二类别确定用户的偏好。
[0116] 步骤303与步骤208的实现方式相似,在此不再赘述。
[0117] 需要说明的是,确定出的用户偏好能够随着第二类别的变化而变化。
[0118] 本实施例提供的根据网络行为确定用户偏好的方法,能够根据用户访问网页时产生的访问信息,长期考察用户的偏好,从而能够长期了解用户的偏好以及偏好的变化,进而根据用户的喜好向用户提供个性化的服务。
[0119] 图4为本发明再一示例性实施例示出的根据网络行为确定用户偏好的方法的流程图。
[0120] 如图4所示,本实施例提供的根据网络行为确定用户偏好方法,包括:
[0121] 步骤401,确定P个预设周期内每个预设周期中用户属于的第一类别、访问每类网页的平均次数以及次数方差值。
[0122] 步骤401与步骤301的实现原理及方式相同,在此不再赘述。
[0123] 步骤402,获取每个预设周期中的第一类别i,确定出将类别i确定为第一类别的预设周期数量P'。
[0124] 由于用户在每个预设周期内的访问信息都不尽相同,因此,每个预设周期内确定的第一类别也会不同。可以获取每个预设周期中的第一类别i,例如,P=3,在第一个预设周期内,第一类别i为网页类别1、3;在第二个预设周期内,第一类别i为网页类别1、4;在第三个预设周期内,第一类别i为网页类别1、5。再确定出将每个类别i确定为第一类别的预设周期数量P'。例如,将网页类别1被确定为为第一类别的第一类别的预设周期数量为3,将网页类别3、4、5被确定为为第一类别的第一类别的预设周期数量均为1。
[0125] 为了便于统计数量P',可以根据每个预设周期内确定的第一类别建立集合C'。具体方式为:
[0126] 根据每个预设周期内确定的第一类别i建立子集合C′n。其中,子集合C′n中包括该预设周期内确定的所有第一类别i。n表示预设周期标识,例如第一个预设周期,则n=1。由于共包括P个预设周期,因此,可以得到P个子集合:
[0127] C′1={… e … Cf …}1
[0128] C′2={… Cg … Ch …}2
[0129] ……
[0130] C′P={… Cc … Cd …}P
[0131] 其中,Ce、Cf、Cg、Ch等为每个预设周期中,用户属于的第一类别。
[0132] 根据多个子集合确定集合C':
[0133] C′=
[0134] {{… Ce … Cf …}1{… Cg … Ch …}2…{… Cc … Cd …}P}。
[0135] 进一步的,由于每个预设周期内,每个类别i最多只能被确定为一次第一类别,也就是在上述集合中,每个子集合中最多只能出现一次类别i,那么可以根据各个第一类别i出现的次数,确定将类别i确定为第一类别的预设周期数P'。
[0136] 步骤403,根据数量P'、预设周期数量P确定第一类别i是否满足第一条件。
[0137] 进一步的,可以设定预设规则,若根据数量P'以及P确定第一类别i满足该预设规则,则确定第一类别i满足第一条件。
[0138] 实际应用时,可以判断数量P'是否大于 若是,则判断满足预设规则,否则判断不满足预设规则。
[0139] 其中, 为修正值,可以根据需求进行设置,例如,将 设置为1/3。
[0140] 若第一类别i满足第一条件的要求,则执行步骤404。否则,继续确定下一个第一类别是否满足第一条件的要求。
[0141] 步骤404,确定P个预设周期内,用户访问类别i的网页的总平均次数。
[0142] 具体的,每个预设周期内都记录有用户每天访问每类网页的次数aij(详见矩阵A),可以根据这些数值,确定在P个预设周期内,用户访问类别i的网页的总访问次数,再用总访问次数除以P个预设周期的总天数,从而得到访问类别i的网页的总平均次数μi',其中,总天数为预设周期天数乘以P,例如,每个预设周期为5天,那么总天数则为5×P。
[0143] 步骤405,根据数量P'、每个预设周期中访问每类网页的平均次数以及次数方差值、总平均次数确定第一类别i是否满足第二条件,若是,则确定第一类别i为第二类别。
[0144] 进一步的,可以先对每个预设周期中访问每类网页的平均次数以及次数方差值进行处理。当具有P个预设周期时,可以得到P个矩阵A,相应的,根据每个矩阵A都可以得到一个矩阵B,因此,能够得到P个矩阵B,即:
[0145]
[0146] 可以对P个矩阵B进行处理,得到第三矩阵Bi:
[0147]
[0148] 再根据第三矩阵Bj中包括的μij、σij、数量P'、总平均次数μi'确定第一类别i是否满足第二条件,具体的确定方法可以是判断总平均次数μi'是否满足:
[0149]
[0150] 若是,则判断类别i满足第二条件。
[0151] 若类别i满足第一条件和第二条件,则判断类别i为第二类别,也就是在多个预设周期中产生的多个第一类别中,根据用户长期的访问数据,再确定出用户属于的第二类别,从而使最终确定的结果更加准确。
[0152] 在确定完类别i是否满足第一条件以及第二条件后,可以继续确定其他的类别i是否满足第一条件以及第二条件。
[0153] 步骤406,根据第二类别确定用户的偏好。
[0154] 步骤406与步骤208的实现方式相似,在此不再赘述。
[0155] 步骤407,若确定第一类别i为第二类别,则根据预设算法确定用户属于类别i的概率,并输出概率;
[0156] 其中,预设算法为:
[0157]
[0158] 其中,P'是指将类别i确定为第一类别的预设周期数目,也就是类别i在集合C′中出现次数。再计算P'除以P得到q,也就是计算类别i在P个周期内,被确定为第一类别的概率,因此,能够通过q值表示将用户确定为类别i的概率。
[0159] 其中,步骤406与步骤407的执行顺序不做限制,可以先执行步骤406,也可以先执行步骤407,还可以同时执行步骤406和407。
[0160] 本实施例提供的根据网络行为确定用户偏好的方法,在确定出每个预设周期中用户所属于的第一类别的基础上,根据每个预设周期中的数据,确定P个预设周期这一较长时间内,用户所属于的第二类别,从而能够在一段较长的时间里,对用户进行分类。并且,通过引入多个预设周期内的均值以及方差值,能够考察用户在访问第i类网页的平稳性,从而更准确的对用户进行分类,进而更准确的对用户的偏好进行分析。
[0161] 图5为本发明一示例性实施例示出的根据网络行为确定用户偏好的装置的结构图。
[0162] 如图5所示,本实施例提供的根据网络行为确定用户偏好的装置,包括:
[0163] 获取模块51,用于获取用户的访问信息,其中,所述访问信息包括网页信息、访问时间;
[0164] 类别确定模块52,用于根据所述网页信息确定所述用户访问的网页所属的类别;
[0165] 次数确定模块53,用于根据所述访问时间、所述网页所属的类别,确定在预设周期内用户每天访问每类网页的次数;
[0166] 计算模块54,用于根据所述次数,确定所述用户访问每类网页的平均次数以及访问每类网页的次数方差值;
[0167] 偏好确定模块55,用于根据所述用户每天访问每类网页的次数确定所述用户偏好。
[0168] 本实施例提供的根据网络行为确定用户偏好的装置,包括获取用户访问网页的访问信息,其中,访问信息包括网页信息、访问时间;根据网页信息确定用户访问的网页所属的类别;根据访问时间、网页所属的类别,确定在预设周期内用户每天访问每类网页的次数;根据次数,确定用户访问每类网页的平均次数以及访问每类网页的次数方差值;根据访问每类网页的平均次数、次数方差值,确定在预设周期内确定用户偏好。采用本实施例所提供的装置,能够充分利用用户在浏览网页时产生的访问信息,并根据用户的访问信息确定用户访问每类网页的平均次数以及方差值,从而综合考虑平均次数以及次数方差值更准确的确定用户的偏好,进而能够使网络供应商了解用户的偏好,进而提升服务水平。
[0169] 本实施例提供的根据网络行为确定用户偏好的装置的具体原理和实现方式均与图1所示的实施例类似,此处不再赘述。
[0170] 图6为本发明另一示例性实施例示出的根据网络行为确定用户偏好的装置的结构图。
[0171] 如图6所示,在上述实施例的基础上,本实施例提供的根据网络行为确定用户偏好的装置,
[0172] 所述偏好确定模块55,包括:
[0173] 第一类别确定单元551,用于根据访问每类网页的所述平均次数、所述次数方差值确定所述用户所属的第一类别;
[0174] 偏好确定单元552,用于根据所述第一类别确定所述用户的偏好。
[0175] 其中,第一类别确定单元551具体用于:
[0176] 判断μi是否大于
[0177] 若是,则确定所述用户属于第一类别i;
[0178] 其中,m为所述网页类别的总数,a为预设修正值,μi为所述用户访问第i类网页的平均次数;μk为访问第k类网页的所述平均次数,σk为访问每k类网页的次数方差值的根值。
[0179] 具体的,本实施例提供的装置还包括:多周期确定模块56,用于:
[0180] 确定在P个所述预设周期内,每个所述预设周期中所述用户属于的所述第一类别、访问每类网页的所述平均次数以及所述次数方差值;
[0181] 根据在每个所述预设周期中确定的访问每类网页的所述平均次数以及所述次数方差值,在多个所述第一类别中确定出用户属于的第二类别;
[0182] 根据所述第二类别确定所述用户的偏好。
[0183] 可选的,所述多周期确定模块56,包括:
[0184] 获取单元561,用于获取每个所述预设周期中的所述第一类别i,确定出将所述类别i确定为第一类别的预设周期数量P';
[0185] 第一确定单元562,用于根据所述数量P'、预设周期数量P确定所述第一类别i是否满足第一条件;
[0186] 若是,则第一确定单元562确定P个所述预设周期内,所述用户访问所述类别i的网页的总平均次数;
[0187] 所述第一确定单元562还用于根据所述数量P'、每个所述预设周期中访问每类网页的所述平均次数以及所述次数方差值、所述总平均次数确定所述第一类别i是否满足第二条件,若是,则确定所述第一类别i为所述第二类别。
[0188] 可选的,本实施例提供的装置还包括概率输出模块57,用于:
[0189] 若确定所述第一类别i为所述第二类别,则根据预设算法确定所述用户属于类别i的概率,并输出所述概率;
[0190] 其中,所述预设算法为:
[0191]
[0192] 其中,q为所述概率。
[0193] 另外,类别确定模块52还可以包括:
[0194] 提取单元521,在所述网页的url,和/或所述网页的内容中提取关键词;
[0195] 第二确定单元522,用于根据所述关键词在预设的类别库中确定所述网页所属的类别,和/或,将所述关键词作为所述网页所属的类别。
[0196] 可选的,所述预设类别库中包括所述关键词与所述类别的对应关系;
[0197] 相应的,所述类别确定模块52还包括:
[0198] 接收单元523,用于接收所述关键词与所述类别的对应关系,并将所述对应关系存储到所述预设类别库中;
[0199] 和/或,添加单元524,用于检测所述预设类别库中是否包括所述关键词,若否,则在所述预设类别库中添加所述关键词,并将所述关键词的类别确定为所述关键词本身。
[0200] 本实施例提供的根据网络行为确定用户偏好的装置的具体原理和实现方式均与图2~4所示的实施例类似,此处不再赘述。
[0201] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0202] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。