一种隐性用户特征提取方法和电视节目推荐方法和系统转让专利

申请号 : CN200810142739.0

文献号 : CN101383942B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐江山陶疆

申请人 : 深圳市天威视讯股份有限公司

摘要 :

本发明涉及电视节目推荐技术,针对现有技术通过问卷调查方式获取用户特征时存在的调查结果不够准确且容易过期以及任务繁重的缺陷,提供一种隐性用户特征提取方法和电视节目推荐方法和系统。隐性用户特征提取方法包括采集用户收视记录,从采集到的收视记录中提取包含多个喜好特征的隐性用户特征。本发明还提供了一种电视节目推荐方法和系统。本发明整个方案均自动完成,无需人工干预,大大节省人力;依据用户收视记录来提取用户特征,可使用户特征能够随收视记录定期更新,且收视记录详实客观,可确保提取的结果细致准确;通过从多个角度来综合比较节目特征与用户特征的相似度,可以使推荐的电视节目更符合用户的实际需要。

权利要求 :

1.一种隐性用户特征提取方法,其特征在于,包括采集用户收视记录,从采集到的收视记录中提取包含多个喜好特征的隐性用户特征,其中,所述多个喜好特征包括大类喜好特征Rl,该大类喜好特征Rl的生成方法包括:从所述收视记录中提取统计时段内的收视次数N;

从收视记录中提取统计时段内各个大类的收视次数Xi,其中i用于标识第i个大类;

求出各个大类的喜好值rli=wlXi/N,其中wl为大类喜好特征对应的权重;

大类喜好特征Rl=(rl1,rl2,...,rln)T,其中n为大类的数量。

2.根据权利要求1所述的隐性用户特征提取方法,其特征在于,所述隐性用户特征包括时段喜好特征Rt,该时段喜好特征Rt的生成方法包括:从所述收视记录中提取统计时段内的收视次数N;

从收视记录中提取统计时段内各个单位时段内的收视次数Ni,其中i用于标识第i个单位时段;

求出各个单位时段的喜好值rti=wtNi/N,其中wt为时段喜好特征对应的权重;

时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中n为统计时段内单位时段的数量。

3.根据权利要求1所述的隐性用户特征提取方法,其特征在于,所述隐性用户特征包括频道喜好特征Rc,该频道喜好特征Rc的生成方法包括:从所述收视记录中提取统计时段内的收视次数N;

从收视记录中提取统计时段内各个频道的收视次数Mi,其中i用于标识第i个频道;

求出各个频道的喜好值rci=wcMi/N,其中wc为频道喜好特征对应的权重;

频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中n为频道的数量。

4.根据权利要求1所述的隐性用户特征提取方法,其特征在于,所述隐性用户特征包括小类喜好特征Rs,该小类喜好特征Rs的生成方法包括:从所述收视记录中提取统计时段内的收视次数N;

从收视记录中提取统计时段内各个小类的收视次数Yi,其中i用于标识第i个小类;

求出各个小类的喜好值rsi=wsYi/N,其中ws为小类喜好特征对应的权重;

小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中n为小类的数量。

5.一种电视节目推荐方法,其特征在于,包括:

依据每一节目的节目特征求得该节目的推荐值,其中,所述节目特征依据隐性用户特征和所述节目的节目属性求得,所述隐性用户特征包括时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中rtn为第n个单位时段的喜好值;频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中rcn为第n个频道的喜好值;大类喜好特征Rl=(rl1,rl2,...,rln)T,其中rln为第n个大类的喜好值;小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中rsn为第n个小类的喜好值;所述节目特征的求得过程包括,分别依据该节目的播出时段、所在频道、所在大类和所在小类,在隐性用户特征中依次查找该节目对应的播出时段的喜好值rt、所在频道的喜好值rc、所在大类的喜好值rl和所在小类的喜好值rs,节目特征P=(rt,rc,rl,rs)T;

对可选节目按照推荐值从大到小进行排序;

发送排序靠前的可选节目的名称。

6.根据权利要求5所述的电视节目推荐方法,其特征在于,依据每一节目的节目特征求得该节目的推荐值包括,推荐值A=rt+rc+rl+rs。

7.一种电视节目推荐系统,与多个数字电视终端通信连接,其特征在于,包括:收视记录采集单元,用于采集每一数字电视终端的收视记录并存储;

隐性特征提取单元,与收视记录采集单元通信连接,用于读取每一数字电视终端的收视记录,从中提取该数字电视终端的隐性用户特征并存储,所述隐性用户特征包括:时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中rtn为第n个单位时段的喜好值;

频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中rcn为第n个频道的喜好值;

大类喜好特征Rl=(rl1,rl2,...,rln)T,其中rln为第n个大类的喜好值;

小类喜好特征Rs(rs1,rs2,...,rsn)T,其中rsn为第n个小类的喜好值;

节目特征提取单元,与隐性特征提取单元通信连接,用于读取每一数字电视终端的隐性用户特征和每一节目的节目属性,求得该节目对应该数字电视终端的节目特征并存储,其中,所述节目特征提取单元分别依据每一节目的播出时段、所在频道、所在大类和所在小类,在每一数字电视终端的隐性用户特征中依次查找该节目对应的播出时段的喜好值rt、所在频道的喜好值rc、所在大类的喜好值rl和所在小类的喜好值rs,求得节目特征P=(rt,rc,rl,rs)T;

节目推荐单元,与节目特征提取通信连接;

对于每一数字电视终端,所述节目推荐单元用于读取每一节目对应该数字电视终端的节目特征,求得该节目的推荐值A=rt+rc+rl+rs,并依据该节目的推荐值,对所有节目按照推荐值从大到小进行排序,将排序靠前的节目的名称发往该数字电视终端。

说明书 :

技术领域

本发明涉及电视节目推荐技术,更具体地说,涉及一种隐性用户特征提取方法和电视节目推荐方法和系统。

背景技术

当今世界正处在数字化浪潮之中,广播电视也是如此。欧美主要发达国家都将广播电视全面数字化的时间定在2010年前后,我国也计划于2015年全面实现数字化。2006年底,中国数字电视用户已经达到1200万户,并且,根据赛迪顾问的预测,到2007年,全球数字电视用户将达到6.3亿户。
电视数字化带来的变革之一就是电视节目的极大丰富。按照当前MPEG2的视频编码方式,有线电视系统将能够传输500套标准清晰度的数字电视节目。如果使用H.264等先进的编码格式,传输的数字电视节目将达到1500套,在此趋势下,一方面电视用户在很高兴地面对日益丰富多彩的电视节目,而另一方面他们又在为如何在如此众多的电视节目中挑选他们感兴趣的内容而发愁,电视用户将面临与互联网用户类似的“信息过载”问题。传统的印制电视节目清单和频道冲浪方式此时已经不能对他们提供帮助。因为对于500个频道,如果10个频道1天的节目清单印制在一页纸上,那么全部500个频道一个星期的电视节目清单将是一本350页的厚书,面对这样一本书,用户很难有耐心来阅读和查找他所需要的节目;另外,如果每个频道浏览10秒钟,用户采用频道冲浪方法浏览完全部500个频道的内容将耗时82.5分钟,这样的时间用户是难以接受的。目前的电子节目指南采用基于频道或类别(例如体育、财经、电影等)的方式显示节目清单,此种方式虽然能够部分解决上述问题,但仍然没有彻底解决问题。
要彻底的解决电视信息“过载”的问题,就需要研究用户的收视行为,判断用户的收视喜好以及其他爱好,根据用户的兴趣、爱好和规律自动地向用户推荐电视节目和服务。为实现电视节目与用户喜好的自动匹配,现有技术为电视节目预先定义节目特征,为用户定义用户特征,并使用相同的分量来描述节目特征和用户特征。如此一来,便可通过比较节目特征和用户特征的相似度来将电视节目与用户喜好进行匹配,继而向用户推荐其喜爱(即与用户特征相似度高)的电视节目。
在现有的电视节目推荐方案中,节目特征的内容包括节目的类型、播出时间、播出频道等等,与此相对,用户特征的内容包括喜爱的节目类型、喜爱的播出时间、喜爱的频道等等。节目特征可通过节目本身的属性来获取。而在现阶段,用户特征则主要通过问卷调查的方式来获取,即通过纸件或电子等形式的调查问卷来收集用户特征。由于用户特征可能经常发生变化,因此问卷调查的结果非常容易过期。同时,由于问卷内容过多过细会使用户失去耐心,因此问卷调查的结果非常粗略,无法做到十分准确。此外,对于有线电视运营商而言,从调查问卷中提取用户特征(尤其是以手工方式)也是一项繁重的工作。
因此,需要一种用户特征提取方案,能够克服现有技术存在的缺陷。

发明内容

本发明要解决的技术问题在于,针对现有技术通过问卷调查方式获取用户特征时存在的调查结果不够准确且容易过期以及任务繁重的缺陷,提供一种隐性用户特征提取方法和电视节目推荐方法和系统。
本发明解决其技术问题所采用的技术方案是:
一种隐性用户特征提取方法,包括采集用户收视记录,从采集到的收视记录中提取包含多个喜好特征的隐性用户特征,其中,所述多个喜好特征包括大类喜好特征Rl,该大类喜好特征Rl的生成方法包括:
从所述收视记录中提取统计时段内的收视次数N;
从收视记录中提取统计时段内各个大类的收视次数Xi,其中i用于标识第i个大类;
求出各个大类的喜好值rli=wlXi/N,其中wl为大类喜好特征对应的权重;
大类喜好特征Rl=(rl1,rl2,...,rln)T,其中n为大类的数量。
在本发明所述的隐性用户特征提取方法中,所述隐性用户特征包括时段喜好特征Rt,该时段喜好特征Rt的生成方法包括:
从所述收视记录中提取统计时段内的收视次数N;
从收视记录中提取统计时段内各个单位时段内的收视次数Ni,其中i用于标识第i个单位时段;
求出各个单位时段的喜好值rti=wtNi/N,其中wt为时段喜好特征对应的权重;
时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中n为统计时段内单位时段的数量。
在本发明所述的隐性用户特征提取方法中,所述隐性用户特征包括频道喜好特征Rc,该频道喜好特征Rc的生成方法包括:
从所述收视记录中提取统计时段内的收视次数N;
从收视记录中提取统计时段内各个频道的收视次数Mi,其中i用于标识第i个频道;
求出各个频道的喜好值rci=wcMi/N,其中wc为频道喜好特征对应的权重;
频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中n为频道的数量。
在本发明所述的隐性用户特征提取方法中,所述隐性用户特征包括小类喜好特征Rs,该小类喜好特征Rs的生成方法包括:
从所述收视记录中提取统计时段内的收视次数N;
从收视记录中提取统计时段内各个小类的收视次数Yi,其中i用于标识第i个小类;
求出各个小类的喜好值rsi=wsYi/N,其中ws为小类喜好特征对应的权重;
小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中n为小类的数量。
本发明还提供了一种电视节目推荐方法,包括:
依据每一节目的节目特征求得该节目的推荐值,其中,所述节目特征依据隐性用户特征和所述节目的节目属性求得,所述隐性用户特征包括时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中rtn为第n个单位时段的喜好值;频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中rcn为第n个频道的喜好值;大类喜好特征Rl=(rl1,rl2,...,rln)T,其中rln为第n个大类的喜好值;小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中rsn为第n个小类的喜好值;所述节目特征的求得过程包括,分别依据该节目的播出时段、所在频道、所在大类和所在小类,在隐性用户特征中依次查找该节目对应的播出时段的喜好值rt、所在频道的喜好值rc、所在大类的喜好值rl和所在小类的喜好值rs,节目特征P=(rt,rc,rl,rs)T;
对可选节目按照推荐值从大到小进行排序;
发送排序靠前的可选节目的名称。
在本发明所述的电视节目推荐方法中,依据每一节目的节目特征求得该节目的推荐值包括,推荐值A=rt+rc+rl+rs。
本发明还提供了一种电视节目推荐系统,与多个数字电视终端通信连接,包括:
收视记录采集单元,用于采集每一数字电视终端的收视记录并存储;
隐性特征提取单元,与收视记录采集单元通信连接,用于读取每一数字电视终端的收视记录,从中提取该数字电视终端的隐性用户特征并存储,所述隐性用户特征包括:
时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中rtn为第n个单位时段的喜好值;
频道喜好特征Rc=(rc1,rc2,...,rtn)T,其中rcn为第n个频道的喜好值;
大类喜好特征Rl=(rl1,rl2,...,rln)T,其中rln为第n个大类的喜好值;
小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中rsn为第n个小类的喜好值;
节目特征提取单元,与隐性特征提取单元通信连接,用于读取每一数字电视终端的隐性用户特征和每一节目的节目属性,求得该节目对应该数字电视终端的节目特征并存储,其中,所述节目特征提取单元分别依据每一节目的播出时段、所在频道、所在大类和所在小类,在每一数字电视终端的隐性用户特征中依次查找该节目对应的播出时段的喜好值rt、所在频道的喜好值rc、所在大类的喜好值rl和所在小类的喜好值rs,求得节目特征P=(rt,rc,rl,rs)T;
节目推荐单元,与节目特征提取通信连接;
对于每一数字电视终端,所述节目推荐单元用于读取每一节目对应该数字电视终端的节目特征,求得该节目的推荐值A=rt+rc+rl+rs,并依据该节目的推荐值,对所有节目按照推荐值从大到小进行排序,将排序靠前的节目的名称发往该数字电视终端。
实施本发明的技术方案,具有以下有益效果:从采集用户收视记录到依据收视记录提取用户特征再到依据用户特征向用户推荐电视节目,整个过程均自动完成,无需人工干预,大大节省人力;依据用户收视记录来提取用户特征,可使用户特征能够随收视记录定期更新,且收视记录详实客观,可确保提取的结果细致准确;通过从多个角度来综合比较节目特征与用户特征的相似度,可以使推荐的电视节目更符合用户的实际需要。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明一较佳实施例数字电视网络的结构示意图;
图2是依据本发明一较佳实施例的隐性用户特征生成方法的流程图;
图3是依据本发明一较佳实施例的节目特征生成方法的流程图;
图4是依照本发明一较佳实施例的电视节目推荐方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种电视节目推荐解决方案,可从用户收视记录中提取用户特征,并从多个角度来综合靠量节目是否适合推荐,比较节目特征与用户特征的相似度,下面就结合附图和具体实施例对本发明的技术方案进行描述。
图1是依据本发明一较佳实施例数字电视网络100的结构示意图。如图1所示,数字电视网络100包括电视节目推荐系统102、多个数字电视终端104、106和108,以及宽带城域网110,其中,多个数字电视终端104、106和108通过宽带城域网110与电视节目推荐系统102通信连接。
数字电视终端104和106通过双向机顶盒连接到宽带城域网110,既可通过宽带城域网110接收电视节目,又可将统计得到的收视记录通过宽带城域网110发送给电视节目推荐系统102。不同于数字电视终端104和106,数字电视终端108无需通过机顶盒即可连接到宽带城域网110,并接收电视节目,以及向电视节目推荐系统102发送收视记录。
电视节目推荐系统102包括收视记录采集服务器(收视记录采集单元)1022、隐性特征提取服务器(隐性特征提取单元)1024、节目特征提取服务器(节目特征提取单元)1026和节目推荐服务器(节目推荐单元)1028。下面就对上述各服务器所完成的任务进行详细描述。
收视记录采集服务器1022通信连接到宽带城域网110,用于接收多个数字电视终端104、106和108发来的收视记录。收视记录中记录有与用户近期收看的电视节目有关的记录信息,包括例如但不限于电视节目的名称、播放频道、播放时间、所属大类、所属小类等等。
隐性特征提取服务器1024与收视记录采集服务器1022通信连接,用于读取收视记录采集服务器1022收到的收视记录,生成隐性用户特征并存储。
节目特征提取服务器1026与隐性特征提取服务器1024通信连接。节目特征提取服务器1026中存储有每个节目的节目属性,包括例如但不限于节目的名称、播放频道、播放时间、所属大类、所属小类等等。节目特征提取服务器1026从隐性特征提取服务器1024中读取每个用户的隐性用户特征,并依据所存储的每个节目的节目属性,为每个节目生成针对所提取的隐性用户特征的节目特征,并将生成的节目特征与该隐性用户特征建立关联。
节目推荐服务器1028与节目特征提取服务器1028通信连接,其中存储有用户列表。节目推荐服务器1028用于从节目特征提取服务器1026中读取针对每个用户的所有节目的节目特征,计算节目的推荐值,依照推荐值从大到小对节目进行排序,将排序靠前的节目的名称发往数字电视终端104、106和108。
隐性用户特征与通过调查问卷获取的显性用户特征相对,其是通过对用户的收视记录进行分析而获得的。隐性用户特征R可包括例如但不限于时段喜好特征Rt、频道喜好特征Rc、大类喜好特征Rl和小类喜好特征Rs等多个喜好特征。本发明将隐性用户特征中包含的各种喜好特征进行量化,并按各个喜好特征的重要程度对每一喜好特征设定了的权重,下面就结合附图对隐性用户特征的生成过程进行详细描述。
图2是依据本发明一较佳实施例的隐性用户特征生成方法200的流程图。如图2所示,方法200开始于步骤202。
在下一步骤204,读取收视记录。隐性用户特征与收视用户相对应,不同收视用户的隐性用户特征各不相同。对于某一特定用户,其隐性用户特征可从其收视记录中提取。
在下一步骤206,依据收视记录生成时段喜好特征Rt,其具体生成方法如下,首先设定统计时段,例如可将统计时段设定为1天;随后将统计时段划分为多个单位时段,例如将1天中的24小时划分为24个单位时段,每个单位时段的时长为1个小时。假设用户在统计时段内收看电视节目的总次数为N,落在第i(0≤i≤24)个时段的次数为Ni,则用户在第i个时段收看电视的喜好值rti通过下列公式计算:
rti=wtNi/N                     (1-1)
其中wt是预先为时段喜好特征设定的权重。通过求得每个时段的喜好值,便可得到时段喜好特征Rt=(rt1,rt2,...,rtn)T,其中n为统计时段内单位时段的数量。
在下一步骤208,依据收视记录生成频道喜好特征Rc,其具体生成方法如下,从收视记录中提取统计时段内的收视次数N和各个频道的收视次数Mi,其中i用于标识第i个频道,则第i个频道的喜好值rci通过下列公式计算:
rci=wcMi/N                     (1-2)
其中wc是预先为频道喜好特征设定的权重。通过求得每个频道的喜好值,便可得到频道喜好特征Rc=(rc1,rc2,...,rcn)T,其中n为频道的数量。应注意,本步骤中涉及的统计时段可以与步骤206中设定的统计时段相同,也可与其不同。
在下一步骤210,依据收视记录生成大类喜好特征Rl,其具体生成方法如下,从收视记录中提取统计时段内的收视次数N和各个大类的收视次数Xi,其中i用于标识第i个大类,则第i个大类的喜好值rli通过下列公式计算:
rli=wlXi/N                 (1-3)
其中wl是预先为大类喜好特征设定的权重。通过求得每个大类的喜好值,便可得到大类喜好特征Rl=(rl1,rl2,...,rln)T,其中n为大类的数量。应注意,由于一个节目可能归入多个不同的大类(例如球类节目可以归入体育大类,也可归入休闲大类),因此各个大类的收视次数之和可能大于统计时段内的收视次数N,在这种情况下,可将N设定为各个大类的收视次数之和。此外,本步骤中涉及的统计时段可以与步骤206中设定的统计时段相同,也可与其不同。
在下一步骤212,依据收视记录生成小类喜好特征Rs,其具体生成方法如下,从收视记录中提取统计时段内的收视次数N和各个小类的收视次数Yi,其中i用于标识第i个小类,则第i个小类的喜好值rsi通过下列公式计算:
Rsi=wsXi/N                 (1-4)
其中ws是预先为小类喜好特征设定的权重。通过求得每个小类的喜好值,便可得到小类喜好特征Rs=(rs1,rs2,...,rsn)T,其中n为小类的数量。应注意,由于一个节目可能归入多个不同的小类(例如足球类节目可以归入球类小类,也可归入健身小类),因此各个小类的收视次数之和可能大于统计时段内的收视次数N,在这种情况下,可将N设定为各个小类的收视次数之和。此外,本步骤中涉及的统计时段可以与步骤206中设定的统计时段相同,也可与其不同。
如此一来,便可得到隐性用户特征R=(Rt,Rc,Rl,Rs)T。
最后,方法200结束于步骤214。
应注意,隐性用户特征中包含的内容并非仅限于上文描述的几个喜好特征,还可包含其他喜好特征。同时,隐性用户特征的生成步骤也并非仅限于上述步骤,还可添加其他步骤或者按照不同的顺序执行上述步骤,例如还可包含其他喜好特征的生成步骤,且上述喜好特征的生成过程可按照其他顺序进行。
在求得用户的隐性用户特征后,便可依据每一节目的属性生成该节目对应该用户的节目特征。下面就结合附图对节目特征的生成过程进行描述。
图3是依据本发明一较佳实施例的节目特征生成方法300的流程图。如图3所示,方法300开始于步骤302。
随后,在下一步骤304,读取隐性用户特征R。
随后,在下一步骤306,依据节目属性在隐性用户特征中查找各属性对应的喜好值。首先,提取节目的各个属性,例如但不限于节目的播出时间、所在频道、所属大类和所属小类。随后,依据节目的播出时间在隐性用户特征R的时段喜好特征Rt中查找该播出时间所在时段对应的喜好值rt。同理,查找该节目所在频道对应的喜好值rc、所属大类对应的喜好值rl和所属小类对应的喜好值rs。
随后,在下一步骤308,依据找到的各个喜好值生成该节目的节目特征P=(rt,rc,rl,rs)T。
最后,方法300结束于步骤310。
应注意,由于不同用户对同一节目的喜好程度各不相同,因此同一节目对应不同用户具有不同的节目特征。
在求得节目特征后,便可依照该节目特征计算推荐值,进而对节目进行排序。下面就结合附图对节目的推荐过程进行描述。
图4是依照本发明一较佳实施例的电视节目推荐方法400的流程图。如图4所示,方法400开始于步骤402。
随后,在下一步骤404,读取每一节目针对某一特定用户的节目特征P=(rt,rc,rl,rs)T
随后,在下一步骤406,计算节目的推荐值K=rt+rc+rl+rs。
随后,在下一步骤408,按照推荐值K以从大到小的顺序对所有节目进行排序。
随后,在下一步骤410,将排序靠前的节目的名称发往数字电视终端,例如按照节目菜单的尺寸发送相应数量的节目的名称。
最后,方法400结束于步骤412。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。