一种实现收视信息处理的方法及装置转让专利

申请号 : CN201611095824.7

文献号 : CN106658091B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 欧阳佑刘沛刘向东吴明辉

申请人 : 北京学之途网络科技有限公司

摘要 :

一种实现收视信息处理的方法及装置,包括:以户为单位统计预设数值户家庭的收视样本信息;根据统计的收视样本信息统计每一个收视成员的收视情况;根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;采集需要进行收视分析的每一户家庭的收视源信息;根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。本发明实施例在克服成本、隐私等问题的前提下,实现了对收视成员的信息进行有效分析。

权利要求 :

1.一种实现收视信息处理的方法,其特征在于,包括:

以户为单位统计预设数值户家庭的收视样本信息;

根据统计的所述收视样本信息统计每一个收视成员的收视情况;

根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;

采集需要进行收视分析的每一户家庭的收视源信息;

根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;

其中,所述收视样本信息包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息,所述统计收视样本信息中的每一个收视成员的收视情况包括:

按照预设时段统计所述收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率;

其中,在第i个所述预设时段里观看收视节目类别为第j类节目的频次记为count(类型=j,时段=i);

收视成员在时段i下观看每一种收视节目类别的节目的概率为:

其中,T是收视节目类别的个数,

所述拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:根据统计获得的所述收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;

其中,所述超分布参数包括狄利克雷Dirichlet分布,超参数分布的计算公式为:其中, 为计算获得的所有收视成员收视各个收视节目类

别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数,a为配置参数;

根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息;其中,收视习惯概率信息的计算公式包括:其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T,

所述根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析包括:对第二预设时长内采集的每一户家庭的所述收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的频次为向量V的第k维vk,k=(i-1)×N+j;

从收视样本信息截取第二预设时长的收视信息,获得所述收视样本信息中每一户家庭的样本特征向量;其中,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;

对统计的每一户家庭的待分析特征向量,分别与所述收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;其中,进行相似度计算的计算公式为:根据确定的所述收视成员数、及根据所述收视样本信息统计的每一个收视成员的所述收视情况及所述收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。

2.根据权利要求1所述的方法,其特征在于,所述预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,所述收视信息包括:每一个第一时段中每一个收视成员的收视节目类别;

每一个第二时段中每一个收视成员的收视节目类别。

3.根据权利要求1或2所述的方法,其特征在于,所述收视源信息包括以下任意组合:收视设备身份标识号ID、收视行为时间、收看的节目、收视节目类别。

4.根据权利要求1所述的方法,其特征在于,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,所述方法还包括:对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。

5.一种实现收视信息处理的装置,其特征在于,包括:统计样本单元、统计收视情况单元、拟合单元、采集单元、分析单元;其中,统计样本单元用于,以户为单位统计预设数值户家庭的收视样本信息;

统计收视情况单元用于,根据统计的所述收视样本信息统计每一个收视成员的收视情况;

拟合单元用于,根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;

采集单元用于,采集需要进行收视分析的每一户家庭的收视源信息;

分析单元用于,根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;

其中,所述收视样本信息包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息,所述统计收视情况单元具体用于:

按照所述预设时段统计所述收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率;

其中,在第i个所述预设时段里观看收视节目类别为第j类节目的频次记为count(类型=j,时段=i);

收视成员在时段i下观看每一种收视节目类别的节目的概率为:

其中,T是收视节目类别的个数,

所述拟合单元拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:根据统计获得的所述收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;

其中,所述超分布参数包括狄利克雷Dirichlet分布,超参数分布的计算公式为:其中, 为计算获得的所有收视成员收视各个收视节目类

别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数,a为配置参数;

根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息;其中,收视习惯概率信息的计算公式包括:其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T,

所述分析单元具体用于,

对第二预设时长内采集的每一户家庭的所述收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的频次为向量V的第k维vk,k=(i-1)×N+j;

从收视样本信息截取第二预设时长的收视信息,获得所述收视样本信息中每一户家庭的样本特征向量;其中,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;对统计的每一户家庭的待分析特征向量,分别与所述收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;其中,进行相似度计算的计算公式为:根据确定的所述收视成员数、及根据所述收视样本信息统计的每一个收视成员的所述收视情况及所述收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。

6.根据权利要求5所述的装置,其特征在于,所述预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,所述收视信息包括:每一个第一时段中每一个收视成员的收视节目类别;

每一个第二时段中每一个收视成员的收视节目类别。

7.根据权利要求5或6所述的装置,其特征在于,所述收视源信息包括以下任意组合:收视设备身份标识号ID、收视行为时间、收看的节目、收视节目类别。

8.根据权利要求5或6所述的装置,其特征在于,所述分析单元还用于,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。

说明书 :

一种实现收视信息处理的方法及装置

技术领域

[0001] 本文涉及但不限于数据处理技术,尤指一种实现收视信息处理的方法及装置。

背景技术

[0002] 随着支持双向通信的智能电视技术的发展,对智能电视数据的采集和分析的需求变得越来越多。一般来说,智能电视的数据采集系统只能获取如机顶盒标识、智能电视标识等代表以户为单位的家庭属性信息,具体收视行为涉及到的具体收视人员无法直接通过电视机或机顶盒获取。当在进行收视率分析、受众属性分析、节目推荐等需求分析时,往往需要具体的收视人员及其人口属性、兴趣爱好等信息。
[0003] 目前,对每一户家庭具体收视人员的信息分析主要可以分为以下几种:
[0004] (1)通过带有用户识别按钮的特殊遥控器或特定智能终端来识别唯一收视人员。每个家庭的收视人员在观看电视时,通过按下特殊遥控器或特定智能终端上的特定按钮表明身份才可以使用电视,由此记录此次收视行为对应的收视人员。这种方法大大影响了用户观看电视的体验,且调研成本很昂贵、无法获得大量的样本;而样本量少时,不仅在数据分析时容易出现较大的方差,也更容易被污染。另外,收视人员在观看电视时也可能存在忘记操作或误操作特定按钮等情况,影响获取的信息的准确性。
[0005] (2)通过在电视机或机顶盒上安装特殊的识别设备,如摄像头、红外模块等,对观看电视的收视人员进行识别。这种方法成本较高,并且涉及收视人员的用户隐私,因此还没有完善的应用方案。
[0006] (3)对一部分样本户进行调研,将历史数据中每个家庭的收视人员的收视习惯作为其在未来的收视行为的参照。例如某样本户在调研中回答该户在晚上观看体育节目的人员为父亲和儿子,母亲不观看。那么之后该户每次在晚上发生体育节目的收视行为时,都认为对应的收看人员为父亲和儿子。这种方法没有考虑到每个家庭成员每天的具体收视行为的变化,因此跟真实情况具有不可避免的偏差。
[0007] (4)直接对当前用户行为数据进行分析,例如申请号为CN201510890345中公开了基于影片主题判断收视人员的方法。但专利中仅仅给出了根据影片主题来确定特定收视人群的举例,即“古装战争剧是年轻男性观看,当红明星古装剧是年轻女性观看”,没有给出完整的从主题推导收视人群的方法。该方法中也未考虑同一节目被不同收视人群观看的客观情况,因此跟实际情况很可能具有较大的出入。
[0008] 综上,上述对收视人员的信息分析方法存在成本、误差、隐私等问题,无法对收视成员的信息进行有效分析。

发明内容

[0009] 以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
[0010] 本发明实施例提供一种实现收视信息处理的方法及装置,能够对收视人员的信息进行有效分析。
[0011] 本发明实施例提供了一种实现收视信息处理的方法,包括:
[0012] 以户为单位统计预设数值户家庭的收视样本信息;
[0013] 根据统计的所述收视样本信息统计每一个收视成员的收视情况;
[0014] 根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;
[0015] 采集需要进行收视分析的每一户家庭的收视源信息;
[0016] 根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;
[0017] 其中,所述收视样本信息包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息。
[0018] 可选的,所述预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,所述收视信息包括:
[0019] 每一个第一时段中每一个收视成员的收视节目类别;
[0020] 每一个第二时段中每一个收视成员的收视节目类别。
[0021] 可选的,所述统计收视样本信息中的每一个收视成员的收视情况包括:
[0022] 按照预设时段统计所述收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率;
[0023] 其中,在第i个所述预设时段里观看收视节目类别为第j类节目的频次记为count(时段=i,类型=j);
[0024] 收视成员在时段下i观看每一种收视节目类别的节目的概率为:
[0025]
[0026] 其中,T是收视节目类别的个数。
[0027] 可选的,所述拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:
[0028] 根据统计获得的所述收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;
[0029] 其中,所述超分布参数包括狄利克雷Dirichlet分布,超参数分布的计算公式为:
[0030]
[0031] 其中, 为计算获得的所有收视成员收视各个收视节目类别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数;
[0032] 根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息;其中,收视习惯概率信息的计算公式包括:
[0033]
[0034] 其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T。
[0035] 可选的,所述收视源信息包括以下任意组合:收视设备身份标识号ID、收视行为时间、收看的节目、收视节目类别。
[0036] 可选的,所述根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析包括:
[0037] 对第二预设时长内采集的每一户家庭的所述收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的频次为向量V的第k维vk,k=(i-1)×N+j;
[0038] 从收视样本信息截取第二预设时长的收视信息,获得所述收视样本信息中每一户家庭的样本特征向量;其中,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;
[0039] 对统计的每一户家庭的待分析特征向量,分别与所述收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;其中,进行相似度计算的计算公式为:
[0040] 根据确定的所述收视成员数、及根据所述收视样本信息统计的每一个收视成员的所述收视情况及所述收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。
[0041] 可选的,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,所述方法还包括:
[0042] 对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。
[0043] 另一方面,本发明实施例还提供一种实现收视信息处理的装置,包括:统计样本单元、统计收视情况单元、拟合单元、采集单元、分析单元;其中,
[0044] 统计样本单元用于,以户为单位统计预设数值户家庭的收视样本信息;
[0045] 统计收视情况单元用于,根据统计的所述收视样本信息统计每一个收视成员的收视情况;
[0046] 拟合单元用于,根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;
[0047] 采集单元用于,采集需要进行收视分析的每一户家庭的收视源信息;
[0048] 分析单元用于,根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;
[0049] 其中,所述收视样本信息包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息。
[0050] 可选的,所述预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,所述收视信息包括:
[0051] 每一个第一时段中每一个收视成员的收视节目类别;
[0052] 每一个第二时段中每一个收视成员的收视节目类别。
[0053] 可选的,所述统计收视情况单元具体用于:
[0054] 按照所述预设时段统计所述收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率;
[0055] 其中,在第i个所述预设时段里观看收视节目类别为第j类节目的频次记为count(时段=i,类型=j);
[0056] 收视成员在时段下i观看每一种收视节目类别的节目的概率为:
[0057]
[0058] 其中,T是收视节目类别的个数。
[0059] 可选的,所述拟合单元拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:
[0060] 根据统计获得的所述收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;
[0061] 其中,所述超分布参数包括狄利克雷Dirichlet分布,超参数分布的计算公式为:
[0062]
[0063] 其中, 为计算获得的所有收视成员收视各个收视节目类别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数;
[0064] 根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息;其中,收视习惯概率信息的计算公式包括:
[0065]
[0066] 其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T。
[0067] 可选的,所述收视源信息包括以下任意组合:收视设备身份标识号ID、收视行为时间、收看的节目、收视节目类别。
[0068] 可选的,所述分析单元具体用于,
[0069] 对第二预设时长内采集的每一户家庭的所述收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的频次为向量V的第k维vk,k=(i-1)×N+j;
[0070] 从收视样本信息截取第二预设时长的收视信息,获得所述收视样本信息中每一户家庭的样本特征向量;其中,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;对统计的每一户家庭的待分析特征向量,分别与所述收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;其中,进行相似度计算的计算公式为:
[0071] 根据确定的所述收视成员数、及根据所述收视样本信息统计的每一个收视成员的所述收视情况及所述收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。
[0072] 可选的,所述分析单元还用于,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。
[0073] 与相关技术相比,本申请技术方案包括:包括:以户为单位统计预设数值户家庭的收视样本信息;根据统计的所述收视样本信息统计每一个收视成员的收视情况;根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;采集需要进行收视分析的每一户家庭的收视源信息;根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。本发明实施例在克服成本、隐私等问题的前提下,实现了对收视成员的信息进行有效分析。
[0074] 在阅读并理解了附图和详细描述后,可以明白其他方面。

附图说明

[0075] 图1为本发明实施例实现收视信息处理的方法的流程图;
[0076] 图2为本发明实施例实现收视信息处理的装置的结构框图。

具体实施方式

[0077] 为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
[0078] 图1为本发明实施例实现收视信息处理的方法的流程图,如图1所示,包括:
[0079] 步骤100、以户为单位统计预设数值户家庭的收视样本信息;
[0080] 本发明实施例,收视样本信息可以包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息;这里,人口属性可以包括性别、年龄、收入等、其中,年龄可以根据年龄区间进行区分,例如、每5岁设置一个区间,收入可以按照区间值进行设定,例如、参考纳税的分段标准设置区分不同的收入人群。
[0081] 需要说明的是,本发明预设数值可以根据收视信息处理的精度要求及统计收视样本信息的成本进行设置,精度要求越高,成本也就越高;因此根据精度及成本,本领域技术人员可以确定预设数值的取值大小。
[0082] 可选的,本发明实施例预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,收视信息包括:
[0083] 每一个第一时段中每一个收视成员的收视节目类别;
[0084] 每一个第二时段中每一个收视成员的收视节目类别。
[0085] 需要说明的是,本发明实施例第一预设时长一般可以设置为1个小时,也可以根据收看节目的时长进行设定;例如、45分钟,或90分钟;第二预设时长可以和第一预设时长相同,也可以根据第一预设时长进行设置,例如、设置第二预设时长大于第一预设时长。本发明实施例还可以根据收视信息处理的精度要求,可以对预设时段进行调整,例如、为了获得更高的精度,可以将节假日区分为一般节假日和较长节假日,每一个工作日可以区分为活动时间和休息时间,每一个节假日可以区分为室外活动时间和室内活动时间;活动时间的第一预设时长可以根据收看节目的时长进行设定,休息时间可以长于第一预设时长。基于上述定义,收视信息可以是形如“工作日时,一户家庭中的一个收视成员A在晚上7点-8点会观看新闻类节目”的信息;如果将工作日和节假日均按照1小时作为预设时段,则本发明实施例可以划分出包括工作日24个时段和节假日24个时段在内的48个预设时段。
[0086] 另外,本发明实施例收视节目类别包括体育、军事、女性、新闻等;收视节目类别可以根据实际分类设置进行调整。对于每一户家庭里的每一个收视成员,将其在第i个预设时段里观看收视节目类别为第j类节目的频次记为count(时段=i,类型=j)。本发明实施例还可以将未观看节目的收视情况记录为:count(时段=i,类型=0),记录类型=0也可以通过其他种类的信息进行表示,例如、类型=X、或类型=未观看。
[0087] 步骤101、根据统计的收视样本信息统计每一个收视成员的收视情况;
[0088] 可选的,本发明实施例统计收视样本信息中的每一个收视成员的收视情况包括:
[0089] 按照预设时段统计收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率。
[0090] 根据调研数据,本发明实施例可以计算出收视成员在时段下i观看各种类节目的概率:
[0091]
[0092] 其中,计算公式中:类型为收视节目类别的缩写,时段为预设时段的缩写,T是收视节目类别的个数,所有收视节目类别的概率组成了该收视成员在一个预设时段的偏好收视节目类别的多项式分布。
[0093] 步骤102、根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;
[0094] 可选的,本发明实施例,拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:
[0095] 根据统计获得的收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;
[0096] 可选的,本发明实施例超分布参数为狄利克雷(Dirichlet)分布,在最大似然估计方法可求出该Dirichlet分布对应第j个类型的参数αj。超参数分布的计算公式为:
[0097]
[0098] 其中, 为计算获得的所有收视成员收视各个收视节目类别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数;
[0099] a为配置参数,默认a=1。
[0100] 需要说明的是,对于一个收视成员在一个预设时段的偏好收视节目类别的多项式分布应该服从Dirichlet分布;
[0101] 根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息。
[0102] 需要说明的是,对于每一种人口属性的收视用户,在时段i偏好收视节目类别的多项式分布应该服从Dirichlet分布。记收视成员在第i个预设时段观看各收视节目类别的概率的分布为pl,则一个分布(p1,p2,…,pT)出现的概率等于其在Dirichlet分布上的密度,即收视习惯概率信息的计算公式包括:
[0103]
[0104] 其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T。
[0105] 步骤103、采集需要进行收视分析的每一户家庭的收视源信息;
[0106] 可选的,本发明实施例,收视源信息包括以下任意组合:收视设备身份标识号(ID)、收视行为时间、收看的节目、收视节目类别。
[0107] 需要说明的是,采集收视源信息的方法可以是本领域技术人员的惯用技术手段,例如、在每一户家庭的收视设备上设置采集装置,通过采集装置获得收视源信息,由于收视设备(包括机顶盒和智能电视)具备双向交互功能,因此在对用户进行操作时,可以对收视源信息包含的内容进行解析和收集;采集的收视源信息可以以日志的方式进行存储。另外,收视设备ID可以包括:机顶盒设备ID、网络电视账户ID、物理地址(MAC)地址等,这里信息可以区分不同的家庭;收看的节目、收视节目类别包括收看的节目的具体名称和节目所属类型。收视行为时间可以包括收看每一个节目的时间。
[0108] 步骤104、根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;
[0109] 可选的,本发明实施例根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析包括:
[0110] 对第二预设时长内采集的每一户家庭的收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;
[0111] 这里,以第二预设时长(例如一个月)采集的每一户家庭的收视源信息,按照预设时段和收视节目类别统计,得到收视源信息对应的收视设备(通过收视设备ID区分)在每一个预设时段观看各收视节目类别节目的频次,组成表示该户家庭的待分析特征向量,待分析特征向量可以通过V={v1×1,v1×2,…,vM×N}。其中,M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的行为频次即为向量V的第k维vk,这里k=(i-1)×N+j。
[0112] 从收视样本信息截取第二预设时长的收视信息,获得收视样本信息中每一户家庭的样本特征向量;这里,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;
[0113] 对统计的每一户家庭的待分析特征向量,分别与收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;
[0114] 可选的,本发明实施例可以通过下式进行相似度计算:
[0115]
[0116] 这里,Vi表示基于收视样本信息计算的样本特征向量。
[0117] 需要说明的是,本发明实施例还可以通过预先存储的调研数据直接获得收视成员数。例如、在按照机顶盒或智能电视时,直接统计获得,由于每一户家庭的收视成员数一般比较稳定,无需通过统计更新,维护成本低。
[0118] 根据确定的收视成员数、及根据收视样本信息统计的每一个收视成员的收视情况及收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。
[0119] 对于一个已获知收视成员数的收视设备(与一户家庭的收视源信息对应),通过根据收视样本信息统计的每一个收视成员的收视情况及收视习惯概率信息可以实现该户家庭收视成员的人口属性,及在收视源信息对应的时间段内各个收视成员的收视情况;
[0120] 如果其中一户家庭的收视源信息的一个收视成员符合人口属性A,例如人口属性A为:女性25到29岁、收入3000-5000,那么该收视成员的行为模式同时满足:
[0121] (1)在收视样本信息统计获得的属性A的收视习惯概率信息;
[0122] (2)可以解释该收视源信息中记录的收视行为。
[0123] 具体地,对于收视成员数为Q的收视设备ID(记为F),记收视成员分别为P1、P2、…、PQ,对应的人口属性为A1、A2、…、AQ。根据收视样本信息分析,可以得到P1在一个预设时段ti观看不同类型的节目的多项式分布(记为D(P1,ti))应服从人口属性A1在预设时段ti对应的Dirichlet分布(记为Dirichlet(A1,ti))。对于收视源信息F的发生在预设时段ti的观看类型j的收视行为a,P1的收视习惯概率为该收视成员的收视节目类别分布在人口属性对应的Dirichlet分布下的收视习惯概率乘以该收视行为被这个收视节目类别分布产生的概率,即P(a|P1)=P(D(P1,ti)|Dirichlet(A1,ti))*P(j|D(P1,ti));将一个收视源信息对应的所有收视成员的收视习惯概率汇总,那么这一次收视行为a被Q个收视成员里的至少一个产生的概率等于1-Q个收视成员都不产生的概率,即
[0124]
[0125] 将D(P1,ti)作为模型中待估计的参数,通过概率统计学里的最大似然法即可计算出:满足 情况下的D(P1,ti),这个参数表示的分布即为该设备ID下每个具体用户在不同时段观看不同收视节目类别的多项式分布。
[0126] 通过遍历不同人口属性组成的所有组合,可以得到各个人口属性组合下使得的的D(P1,ti),即:在不同人口属性的组合下,每个人口属性组合产生收视设备ID的日志的概率。而使得这个概率最大化的人口属性组合就是该收视设备ID对应的最可能的人口属性组合。而这个组合下的每个具体收视成员在不同预设时段观看不同收视节目类别的节目的多项式分布,就可以作为各个收视成员的具体收视习惯概率。
[0127] 获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,本发明实施例方法还包括:
[0128] 对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。
[0129] 对于一个待分析户的收视设备ID在时段i观看收视节目类别j的行为,此概率可以基于收视样本信息的统计分析,例如:
[0130] 节目的总观看人次等于 其中,N是采集到的收视行为的日志个数,Li是第i次收视行为对应的收视设备ID的收视成员数,P(i,j)是其中第j个收视成员参与该次收视行为的概率。又例如:
[0131] 节目的总女性观看人次等于 其中,指示函数在第j个用户是女性时取值为1,否则取值为0。
[0132] 本发明实施例在克服成本、隐私等问题的前提下,实现了对收视成员的信息进行有效分析。
[0133] 图2为本发明实施例实现收视信息处理的装置的结构框图,如图2所示,包括:统计样本单元、统计收视情况单元、拟合单元、采集单元、分析单元;其中,
[0134] 统计样本单元用于,以户为单位统计预设数值户家庭的收视样本信息;
[0135] 统计收视情况单元用于,根据统计的收视样本信息统计每一个收视成员的收视情况;
[0136] 拟合单元用于,根据统计获得的收视情况拟合获得具有相同人口属性的收视成员的收视习惯概率信息;
[0137] 采集单元用于,采集需要进行收视分析的每一户家庭的收视源信息;
[0138] 分析单元用于,根据统计的收视成员的收视情况及收视习惯概率信息对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况;
[0139] 其中,收视样本信息包括:第一预设时长内每一户家庭中的每一个收视成员的人口属性,及按照预设时段统计的每一个收视成员的收视信息。
[0140] 可选的,本发明实施例预设时段包括:工作日中以第一预设时长划分的第一时段和节假日时以第二预设时长划分的第二时段,收视信息包括:
[0141] 每一个第一时段中每一个收视成员的收视节目类别;
[0142] 每一个第二时段中每一个收视成员的收视节目类别。
[0143] 可选的,本发明实施例,统计收视情况单元具体用于:
[0144] 按照预设时段统计收视样本信息中的每一个收视成员收看每一种收视节目类别的收视频次,并根据统计的收视频次计算每一个收视人员在每一个预设时段收视每一收视节目类别的概率;
[0145] 其中,在第i个预设时段里观看收视节目类别为第j类节目的频次记为count(时段=i,类型=j);
[0146] 收视成员在时段下i观看每一种收视节目类别的节目的概率为:
[0147]
[0148] 其中,T是收视节目类别的个数。
[0149] 可选的,本发明实施例拟合单元拟合获得具有相同人口属性的收视成员的收视习惯概率信息包括:
[0150] 根据统计获得的收视情况汇聚具有相同人口属性的收视成员,在相同的预设时段收看所有收视节目类别的概率后,使用最大似然估计法拟合出对应的超分布参数;
[0151] 其中,所述超分布参数包括狄利克雷Dirichlet分布,超参数分布的计算公式为:
[0152]
[0153] 其中, 为计算获得的所有收视成员收视各个收视节目类别的节目的平均概率;N为收视样本信息中满足一种人口属性的收视成员总数,pk(类型=j,时段=i)为第k个收视成员在第i个预设时段收看收视节目类别为j的概率,T是收视节目类别的个数;
[0154] 根据拟合出的超分布参数获得具有相同人口属性的收视成员的收视习惯概率信息;其中,收视习惯概率信息的计算公式包括:
[0155]
[0156] 其中, 为Beta函数,pl表示收视成员在第i个预设时段观看收视节目类别l的概率,l=1、2、3……T。
[0157] 可选的,本发明实施例收视源信息包括以下任意组合:收视设备身份标识号ID、收视行为时间、收看的节目、收视节目类别。
[0158] 可选的,本发明实施例,分析单元具体用于,
[0159] 对第二预设时长内采集的每一户家庭的收视源信息,按照预设时段和收视节目类别统计每一户家庭的待分析特征向量;其中,待分析特征向量V={v1×1,v1×2,…,vM×N},M表示预设时段的个数,N是收视节目类别的个数,该收视设备在第i个预设时段观看第j个收视节目类别的频次为向量V的第k维vk,k=(i-1)×N+j;
[0160] 从收视样本信息截取第二预设时长的收视信息,获得收视样本信息中每一户家庭的样本特征向量;其中,基于收视样本信息计算的样本特征向量可以记为V1、V2、……Vi……、VL;其中,L是收视样本集合里的家庭总户数;
[0161] 对统计的每一户家庭的待分析特征向量,分别与收视样本信息中每一户家庭的样本特征向量进行相似度计算,将相似度最高的样本特征向量对应的家庭的收视成员数作为该待分析特征向量对应的家庭的收视成员数;其中,进行相似度计算的计算公式为:
[0162] 根据确定的收视成员数、及根据收视样本信息统计的每一个收视成员的收视情况及收视习惯概率信息,对采集每一户家庭的收视源信息进行分析,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况。
[0163] 可选的,本发明实施例分析单元还用于,获得每一户家庭的收视源信息对应的收视成员构成和每一个收视成员的收视情况后,对各收视源信息对应的家庭中收视在相同预设时段同时收视相同电视节目的用户进行统计。
[0164] 以下通过具体应用示例对本发明进行清楚详细的说明,应用示例仅用于陈述本发明,并不用于限定本发明的保护范围。
[0165] 应用示例
[0166] 本应用示例按照收视信息处理过程对收视分析进行整理,包括:
[0167] (1)收视样本信息
[0168] 通过对选择的家庭进行调研获得包括收视成员组成、人口属性和收视信息的收视样本信息,表1为收视样本信息的示例:
[0169] 从表中可以得到对应户1收视成员1,其人口属性是:男性30到34岁,在工作日晚上8-9点,他收看体育类节目,因此平时晚上8点的他的收视行为分布是{体育类:1},类似的可以得到:
[0170] 户1人员1在工作日晚上9-10点收看行为分布是{金融:1};
[0171] 户1人员2在工作日晚上8-9点收看行为分布是{古装剧:0.5,情感剧:0.5};
[0172] 户2人员1在工作日晚上8-9点收看行为分布是{体育:0.5,实事:0.5};
[0173] 户2人员1在工作日晚上9-10点收看行为分布是{不看;1};
[0174] 户2人员1在工作日晚上10-11点收看行为分布是{古装剧:1};
[0175]
[0176] 表1
[0177] 进一步的,将所有相同人口属性的收视成员在同一个预设时段的收视行为分布进行整合。在上例中,男性30-34岁对应有两个收视成员:户1收视成员1和户2收视成员1。那么,男性30-34岁在工作日晚上8-9点的Dirichlet分布的参数为这两个收视成员的收视习惯概率平均后加1,即体育类为:(0.5+1)/2+1=1.75,实事类为:(0.5+0)/2=1.25。类似的,还可以得到:
[0178] 男性30-34岁在工作日晚上9-10点的Dirichlet分布的参数为{金融:1.5,不看:1.5};
[0179] 男性30-34岁在工作日晚上10-11点的Dirichlet分布的参数为{古装剧:1.5,不看:1.5};
[0180] 实际中需要使用男性30-34岁的所有样本来得到更合理的分布,而这些分布就代表着这个人口属性的收视成员的一个平均收视习惯。
[0181] (2)采集收视源信息;
[0182] 本发明实施例收视源信息的采集可以理解为日志采集,以一个家庭的收视源信息为例,表2为某一个收视设备ID的日志:
[0183]
[0184] 表2
[0185] (3)收视源信息对应的家庭的收视习惯分析
[0186] 通过调研或相似度计算来得到每个收视设备ID的收视成员数。这里,假设已经得到收视设备ID1的的收视成员总数为2。且收视成员1的人口属性为男性30-34岁,收视成员2的人口属性为女性25-29岁。那么这两个收视成员在不同预设时段的各个收视节目类别的收视习惯概率即为需要估计的参数。
[0187] 将第一个收视成员信息在平时晚上8-9点的收看各个收视节目类别的概率记为p(类别),本例中男性30-34在工作日晚上8-9点的Dirichlet分布为{体育类:0.75,实事类:0.25},所以第一个收视成员的特定分布的概率为:
[0188]
[0189] 例如,如果第一个收视成员的多项式分布为{体育类:0.5,实事类:0.25,不看0.25},那对应的多项式分布的概率是:
[0190]
[0191] 另一方面,第一条日志的收视源信息为工作日晚上8-9点观看体育类节目,那么他被第一个收视成员(男性30-34岁)生成多项式分布的概率为0.5。因此,在这种情况下第一个收视成员能产生这条日志的概率为:
[0192]
[0193] 同样的,可得到日志1被第二个收视成员生成的概率,从而得到日志1至少一个收视成员生成的概率p(日志1)。然后,将所有日志的概率相乘得到,即最后的总概率Πp(日志1)。然后,通过概率统计中的最大似然法和梯度下降法,找出使得这个总概率最大的分布。
进行运算后,可以得到的第一个收视成员在工作日晚上8点的p(体育)=0.7,p(实事)=
0.25,p(情感剧)=0.05。
[0194] 然后遍历人口属性,这里,如果第一个收视成员的人口属性为男性30-34岁,第二个收视成员的人口属性为女性30-34岁,计算得到一个最大的总概率,本发明实施例假设计算出来为0.331;如果第一个收视成员的人口属性为男性25-29岁,第二个收视成员的人口属性为女性25-29岁,计算得到一个最大的总概率,这里设计算出来为0.115;如果第一个收视成员的人口属性为男性25-29岁,第二个人的人口属性为女性30-34岁,计算得到一个最大的总概率,这里设计算出来为0.023;……
[0195] 从这些人口属性组合里面,取出总概率最大的那个组合,作为实际的家庭组合。在上面设的结果中,应该选择男性30-34岁和女性25-29岁这个组合。得到这个组合后,这个组合中的概率就被认为是每个收视成员在每个预设时段的看每个收视节目类别的概率,例如、第一个收视成员在工作日晚上8-9点观看体育类节目的概率=0.7。
[0196] (4)实时日志分析
[0197] 在上一步中得到了家庭组成中第一个收视成员的人口属性为男性30-34,第二个收视成员的人口属性为女性25-29。设计算出来的概率为:第一个收视成员在工作日晚上8点的分布为p(体育)=0.7,p(实事)=0.2,p(情感剧)=0.1,第二个人在平时晚上8点的分布为p(实事)=0.2,p(古装剧)=0.3,p(情感剧)=0.5。
[0198] 那么对于上例中的日志1,即平时8-9点的体育观看行为,这次观看行为的4种可能为1和2都观看、只有1观看、只有2观看、1和2都不观看。注意实际中第4种情况不会发生,因为这次收视行为已经发生了,所以一定有人观看。计算可得前三种情况的概率分别为0.7×0=0,0.7×(1-0)=0.7,(1-0.7)×0=0,因此本次节目一定是第一个收视成员自己观看。
[0199] 对于上例中的日志4,即平时8-9点的情感剧观看行为,4种情况的概率计算为0.1*0.5,0.1*(1-0.5),(1-0.1)*0.5,(1-0.1)*(1-0.5),去掉最后一种情况后,得到3种情况的概率分别是0.05,0.05,0.45,因此可认为该次观看有3种可能;其中,
[0200] 两个收视成员一起观看的概率为
[0201] 第一个收视成员自己观看的概率为
[0202] 第二个收视成员自己观看的概率为
[0203] 根据这个结果,即可以得到每个只有收视设备ID的日志中不同收视成员的收视情况,从而实现从收视户到收视人的转化,并进行各种后续的数据统计。
[0204] 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的每个模块/单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。
[0205] 虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。