内容推荐方法、装置和存储介质转让专利
申请号 : CN202110506935.7
文献号 : CN112989209B
文献日 : 2021-09-17
发明人 : 黄梓琪
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种内容推荐方法,其特征在于,所述方法包括:响应于内容推荐事件,获取待推荐的内容标签,所述内容标签为终端当前所处页面对应的内容标签;
基于预设标签关联关系获取与所述内容标签关联的关联内容标签;所述预设标签关联关系是基于历史内容序列对应的历史内容标签序列确定的,其中,所述历史内容序列是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历史内容浏览记录用于确定所述用户浏览的历史内容以及所述历史内容被浏览的顺序;所述历史内容标签序列,为按照所述历史内容序列中各历史内容的顺序,将各历史内容各自对应的标签组成的对应的历史内容标签序列,其中,一个历史内容对应至少一个标签,在历史内容包括多个标签时,同一个历史内容的多个标签,在所述历史内容标签序列中存在先后顺序;
基于所述关联内容标签获取对应的目标内容,并对所述目标内容进行推荐。
2.根据权利要求1所述的内容推荐方法,其特征在于,所述预设标签关联关系的确定包括步骤:
获取历史内容浏览记录;
根据所述历史内容浏览记录中历史内容以及所述历史内容被浏览的顺序构建用户浏览记录图;
在所述用户浏览记录图中游走,得到所述历史内容序列;
获取所述历史内容序列中各历史内容对应的内容标签,按照所述历史内容序列中各历史内容的顺序,将各历史内容各自对应的内容标签组成对应的历史内容标签序列;
计算所述历史内容标签序列中各历史内容标签之间的相似度;
基于各所述内容标签之间的相似度,确定所述预设标签关联关系。
3.根据权利要求2所述的内容推荐方法,其特征在于,在所述获取历史内容浏览记录之后,在所述根据所述历史内容浏览记录中历史内容以及所述历史内容被浏览的顺序构建用户浏览记录图之前,还包括:
根据所述历史内容浏览记录,确定历史内容统计信息;所述历史内容统计信息包括以下至少一项:所述历史内容浏览记录对应的各用户的内容浏览次数、所述历史内容浏览记录中各内容的被浏览次数,或者所述历史内容浏览记录中各所述历史内容的用户操作标识;
根据所述历史内容统计信息对所述历史内容浏览记录进行过滤,得到有效历史内容浏览记录;
所述根据所述历史内容浏览记录构建用户浏览记录图,包括:根据所述有效历史内容浏览记录构建用户浏览记录图。
4.根据权利要求3所述的内容推荐方法,其特征在于,所述根据所述历史内容统计信息对所述历史内容浏览记录进行过滤,得到有效历史内容浏览记录,包括以下至少一种:将内容浏览次数超过预设浏览次数阈值的用户确定为浏览异常用户;过滤掉所述历史内容浏览记录中,所述浏览异常用户产生的目标历史内容浏览记录,得到有效历史内容浏览记录;或者,
将被浏览次数在预设被浏览次数范围之外的内容确定为异常内容;过滤掉所述历史内容浏览记录中的异常内容,得到有效历史内容浏览记录;或者,根据各所述历史内容的用户操作标识,确定所述历史内容浏览记录中的不感兴趣内容;过滤掉所述历史内容浏览记录中的不感兴趣内容,得到有效历史内容浏览记录。
5.根据权利要求2至4任意一项所述的内容推荐方法,其特征在于,所述计算所述历史内容标签序列中各历史内容标签之间的相似度,包括:基于所述历史内容标签序列对预设词向量模型进行训练,得到训练好的词向量模型;
根据所述训练好的词向量模型,输出各所述历史内容标签序列中各历史内容标签对应的标签向量;
根据标签向量计算各所述历史内容标签之间的相似度。
6.根据权利要求1至4任意一项所述的内容推荐方法,其特征在于,所述响应于内容推荐事件,获取对应的内容标签包括:在监测到内容推荐事件时,检测所述内容推荐事件对应的当前页面,所述当前页面为终端当前所处页面;
获取与所述当前页面对应的内容标签。
7.根据权利要求6所述的内容推荐方法,其特征在于:所述获取与所述当前页面对应的内容标签,包括:若所述当前页面为内容推荐首页,根据当前用户的用户画像得到与所述当前页面对应的内容标签;
所述基于所述关联内容标签获取对应的目标内容,并对所述目标内容进行推荐,包括:获取所述关联内容标签对应的多个目标内容,在所述内容推荐首页上对所述多个目标内容进行显示。
8.根据权利要求6所述的内容推荐方法,其特征在于:所述获取与所述当前页面对应的内容标签,包括:若所述当前页面为视频浮层页面,根据当前播放视频的视频标签得到与所述当前页面对应的视频标签;基于所述当前页面对应的视频标签得到所述当前页面对应的内容标签;
所述基于预设标签关联关系获取与所述内容标签关联的关联内容标签,包括:基于预设标签关联关系,获取所述视频标签的关联视频标签作为与所述内容标签关联的关联内容标签;
所述基于所述关联内容标签获取对应的目标内容,并对所述目标内容进行推荐,包括:获取所述关联视频标签对应的目标视频,将所述目标视频加入所述当前页面对应的视频播放序列;响应于基于所述当前页面输入的视频切换指令,基于所述视频播放序列获取下一视频进行播放。
9.一种内容推荐装置,其特征在于,所述装置包括:内容标签获取模块,用于响应于内容推荐事件,获取待推荐的内容标签,所述内容标签为终端当前所处页面对应的内容标签;
关联内容标签获取模块,用于基于预设标签关联关系获取与所述内容标签关联的关联内容标签;所述预设标签关联关系是基于历史内容序列对应的历史内容标签序列确定的,其中,所述历史内容序列是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历史内容浏览记录用于确定所述用户浏览的历史内容以及所述历史内容被浏览的顺序;所述历史内容标签序列,为按照所述历史内容序列中各历史内容的顺序,将各历史内容各自对应的标签组成的对应的历史内容标签序列,其中,一个历史内容对应至少一个标签,在历史内容包括多个标签时,同一个历史内容的多个标签,在所述历史内容标签序列中存在先后顺序;
推荐模块,用于基于所述关联内容标签获取对应的目标内容,并对所述目标内容进行推荐。
10.根据权利要求9所述的内容推荐装置,其特征在于,所述内容标签获取模块,包括:当前页面检测单元,用于在监测到内容推荐事件时,检测所述内容推荐事件对应的当前页面,所述当前页面为终端当前所处页面;
标签获取单元,用于获取与所述当前页面对应的内容标签。
11.根据权利要求9所述的内容推荐装置,其特征在于,所述装置还包括:预设标签关联关系确定模块,包括:
行为记录获取单元,用于获取历史内容浏览记录;
构图单元,用于根据所述历史内容浏览记录中历史内容以及所述历史内容被浏览的顺序构建用户浏览记录图;
游走单元,用于在所述用户浏览记录图中游走,得到所述历史内容序列;
标签序列生成单元,用于获取历所述史内容序列中各历史内容对应的内容标签,按照历史内容序列中各历史内容的顺序,将各历史内容各自对应的内容标签组成对应的历史内容标签序列;
相似度计算单元,计算所述历史内容标签序列中各历史内容标签之间的相似度;
关联关系生成单元,用于基于各所述内容标签之间的相似度,确定所述预设标签关联关系。
12.根据权利要求11所述的内容推荐装置,其特征在于,所述装置还包括统计模块和过滤模块:
所述统计模块,用于确定历史内容统计信息;所述历史内容统计信息包括以下至少一项:所述历史内容浏览记录对应的各用户的内容浏览次数、所述历史内容浏览记录中各内容的被浏览次数,或者所述历史内容浏览记录中各所述历史内容的用户操作标识;
所述过滤模块,用于根据所述历史内容统计信息对所述历史内容浏览记录进行过滤,得到有效历史内容浏览记录;
所述构图单元还用于:根据所述有效历史内容浏览记录构建用户浏览记录图。
13.根据权利要求12所述的内容推荐装置,其特征在于:所述过滤模块,还用于:将内容浏览次数超过预设浏览次数阈值的用户确定为浏览异常用户;过滤掉所述历史内容浏览记录中,所述浏览异常用户产生的目标历史内容浏览记录,得到有效历史内容浏览记录;或者,将被浏览次数在预设被浏览次数范围之外的内容确定为异常内容;过滤掉所述历史内容浏览记录中的异常内容,得到有效历史内容浏览记录;
或者,根据各所述历史内容的用户操作标识,确定所述历史内容浏览记录中的不感兴趣内容;过滤掉所述历史内容浏览记录中的不感兴趣内容,得到有效历史内容浏览记录。
14.根据权利要求11至13任意一项所述的内容推荐装置,其特征在于,所述相似度计算单元还包括:
模型训练子单元,用于基于所述历史内容标签序列对预设词向量模型进行训练,得到训练好的词向量模型;
向量转换子单元,用于根据所述训练好的词向量模型,输出各所述历史内容标签序列中各历史内容标签对应的标签向量;
相似度计算子单元,用于根据标签向量计算各所述历史内容标签之间的相似度。
15.根据权利要求10所述的内容推荐装置,其特征在于:所述标签获取单元,还用于:若所述当前页面为内容推荐首页,根据当前用户的用户画像得到与所述当前页面对应的内容标签;
所述推荐模块还用于:获取所述关联内容标签对应的多个目标内容,在所述内容推荐首页上对所述多个目标内容进行显示。
16.根据权利要求10所述的内容推荐装置,其特征在于:所述标签获取单元,还用于:若所述当前页面为视频浮层页面,根据当前播放视频的视频标签得到与所述当前页面对应的视频标签;基于所述当前页面对应的视频标签得到所述当前页面对应的内容标签;
所述关联内容标签获取模块还用于:基于预设标签关联关系,获取所述视频标签的关联视频标签作为与所述内容标签关联的关联内容标签;
所述推荐模块包括:视频队列更新单元,用于获取所述关联视频标签对应的目标视频,将所述目标视频加入所述当前页面对应的视频播放序列;视频切换模块,用于响应于基于所述当前页面输入的视频切换指令,基于所述视频播放序列获取下一视频进行播放。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
18.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
说明书 :
内容推荐方法、装置和存储介质
技术领域
背景技术
视频浏览者则可以在视频软件中浏览这些视频。为了提高视频浏览者的体验,如何为视频
浏览者用户推荐适合个人的视频是较为热门的研究话题。
于当下及未来的视频数据量的巨大的现实情况,而训练模型所用到的训练数据有限,视频
推荐局限于训练数据中包含的视频,当出现新的视频时,推荐模型无法推荐到这类新的视
频,随着时间推移通过这种方法推荐的视频会导致用户获取的视频越来越单一。
发明内容
是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历
史内容浏览记录用于确定用户浏览的历史内容以及所述历史内容被浏览的顺序;
的,其中,所述历史内容序列是通过在由用户的历史内容浏览记录所构建的用户浏览记录
图上进行游走得到的,所述历史内容浏览记录用于确定用户浏览的历史内容以及所述历史
内容被浏览的顺序;
是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历
史内容浏览记录用于确定用户浏览的历史内容以及所述历史内容被浏览的顺序;
是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历
史内容浏览记录用于确定用户浏览的历史内容以及所述历史内容被浏览的顺序;
读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以下步
骤:
是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行游走得到的,所述历
史内容浏览记录用于确定用户浏览的历史内容以及所述历史内容被浏览的顺序;
应的目标内容,并对目标内容进行推荐。其中,预设标签关联关系是根据历史内容序列对应
的历史内容标签序列确定的,历史内容序列是根据用户的历史内容浏览记录构建的用户浏
览记录图中游走得到,其中历史内容浏览记录用于确定用户浏览的历史内容以及历史内容
被浏览的顺序。上述方法,根据获取的内容标签为基础进行推荐,随着时间推移内容新增,
但新增的内容仍可以用原有的标签描述,从内容标签维度,根据历史内容浏览记录拟合历
史内容标签,可挖掘用户潜在的兴趣点,提升推荐给用户内容的多样性。此外,预设标签关
联关系是根据历史内容序列对应的历史内容标签序列确定的,而历史内容序列是根据用户
实际的历史内容浏览记录构建的浏览记录图中游走得到,根据该预设标签关联关系用于内
容推荐,可以为用户推荐更符合用户内容浏览习惯的内容。
附图说明
具体实施方式
用于限定本申请。
的内容标签;基于预设标签关联关系获取与内容标签关联的关联内容标签;基于关联内容
标签获取对应的目标内容,并对目标内容向终端102进行推荐。其中,预设标签关联关系是
根据历史内容序列对应的历史内容标签序列确定的,历史内容序列是根据用户的历史内容
浏览记录构建的用户浏览记录图中游走得到,其中历史内容浏览记录用于确定用户浏览的
历史内容以及历史内容被浏览的顺序。其中,终端102可以智能手机、平板电脑、笔记本电
脑、台式计算机、智能音箱、智能手表等,但并不局限于此,服务器104可以独立的物理服务
器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云
数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、
以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线
或无线通信方式进行直接或间接地连接,本申请在此不做限制。在一个实施例,上述服务器
也可以是区块链中的一个节点。
技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、
图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有
可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将
会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视
觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为
一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中
获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、
图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟
现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特
征识别技术。
容标签,最后基于关联内容标签获取对应的目标内容推荐给终端用户。
例中,内容包括多媒体内容,例如可以是音频、视频或者图文内容等。在一个具体实施例中,
检测到进入多媒体应用程序(如视频应用程序)首页,判定为检测到内容推荐事件;在另一
个实施例中,检测到进入应用程序的多媒体内容模块(如浏览器中用于浏览视频的视频模
块)时,判定为检测到内容推荐事件;在本实施例中,可以通过监测多媒体应用程序或者多
媒体模块的启动信号判断是否进入多媒体内容推荐首页,进而确定是否检测到多媒体的内
容推荐事件。
频查看详情,或者在新闻应用首页选择并打开其中一个新闻查看详情内容,等等;在本实施
例中,可以通过内容详情查看信号确定是否进入多媒体内容详情查看页面,进而确定是否
检测到内容推荐事件。
示多个视频简介画面,用户在通过点击视频简介画面可以进入该视频的详情页面;在信息
流产品中,也叫主Feeds场景;如图3(1)所示为一个具体实施例中视频推荐首页的示意图;
视频浮层表示通过浮层的方式展示视频详情;在一个实施例中,用户通过点击首页展示的
视频简介画面,即进入视频浮层展示该视频的视频详情页面。信息流是一种可以滚动浏览
的内容流,可以出现在页面上的任何位置;视频浮层表示在信息流产品中,用户点击主
Feeds上的某个视频之后,进入视频播放页面,在该页面可以不停往下滑动并查看其他视
频,视频浮层就是指该视频播放页面;也称一拖三场景,如图3(2)所示,为一个具体实施例
中的视频浮层页面示意图。
向用户推荐相关视频、新闻;在本实施例中,可以通过检测是否检测到内容搜索请求判定是
否检测到内容推荐事件。在其他实施例中,也可以通过其它方式判定是否检测到内容推荐
事件。
例,多媒体内容标签可以表示视频所属的标签,例如视频内容相关的分类:历史、文学、动物
等等,又如视频的类型如搞笑、科普、教学等等。进一步地,视频标签可以是从视频信息中提
取;在一个实施例中,根据视频的描述信息(如视频标题)确定视频标签;通常在发布视频时
要求视频发布者对于所发布的视频设置主题、描述关键词等等,主题、关键词通常设置为与
视频相关的描述语句,因此可通过主题等视频描述信息确定视频标签。在另一个实施例中,
对视频中的画面、字幕、音频等信息进行识别,确定为视频标签;在实际情况中,还有一些视
频在视频画面中设置了字幕等信息,例如“**电影解说”、“**科普”、“蛋糕做法”等信息,通
过识别视频画面中的字幕信息可以确定该电影可能所属的类型;或者电影片段的画面中会
出现经典人物角色,通过识别这些经典人物角色可以确定该视频有可能与电影相关;或者
电影片段画面中出现经典台词,根据该经典台词片段可以确定该视频可能与电影有关,又
或者视频中音频中介绍了该视频主要是什么内容,由此也可以确定视频的关联信息,作为
视频标签。在另一个实施例中,还可以根据视频对应的评论信息中提取相关信息,并且基于
评论中提取的相关信息确定视频的类型,作为视频标签;现有的视频通常设置了评论区域,
浏览过的用户可以在评论区域发表评论,评论信息中可能涉及到与视频类型相关的信息,
可通过提取评论信息中字段并识别确定视频类型。在其它实施例中,也可以通过其它方式
确定视频标签。
的相似度。在本实施例中,预设标签关联关系是基于历史内容序列确定。
间或浏览时间、阅读次数或浏览次数、是否转发评论或者点赞、内容的浏览顺序等等。收集
大量用户的内容浏览记录,并根据用户的历史内容浏览记录生成对应的历史内容标签序
列。
户浏览记录图,从用户浏览记录图中游走得到历史内容序列。其中根据历史内容浏览记录
中的浏览过的历史内容、以及历史内容的被浏览顺序构建用户浏览记录图的具体步骤将在
后续实施例中详细描述,在此不再赘述。
标签关联关系。在其它实施例中,上述步骤均可通过其它方式实现。
关联内容标签时,将相似度按照大小顺序进行排列,取相似度较大的前预设数目个内容标
签,作为本实施例中的关联内容标签。在另一个实施例中,基于预设标签关联关系获取关联
内容标签包括:获取相似度大于预设相似度阈值的各内容标签,作为本实施例中的关联内
容标签。在另一个实施例中,基于预设标签关联关系获取关联内容标签也可以是:从预设标
签关联关系的所有相似度中取相似度较大的前预设百分比数值对应的内容标签,作为本实
施例中的关联内容标签。可以理解地,在其它实施例中,获取关联内容标签也可以通过其它
形式实现。
签的内容作为本实施例中的目标内容。内容均携带有各自对应的标签,如所属分类:历史、
文学、动物,或者搞笑、科普、教学等等,在得到关联内容标签之后,获取这些标签对应的内
容作为目标内容进行推荐。
可能是用户感兴趣的内容。
标签获取目标内容的数量可根据当前终端所处的场景确定,例如当前终端处于内容推荐首
页时,获取目标内容的数量为5;又如当前终端处于视频详情查看页面/视频浮层页面时,获
取目标内容的数量为1或者2,在其它实施例中获取目标内容的数量也可以通过其它方式确
定。
对目标内容进行推荐。其中,预设标签关联关系是根据历史内容序列对应的历史内容标签
序列确定的,历史内容序列是根据用户的历史内容浏览记录构建的用户浏览记录图中游走
得到,其中历史内容浏览记录用于确定用户浏览的历史内容以及历史内容被浏览的顺序。
上述方法,根据获取的内容标签为基础进行推荐,随着时间推移内容新增,但新增的内容仍
可以用原有的标签描述,从内容标签维度,根据历史内容浏览记录拟合历史内容标签,可挖
掘用户潜在的兴趣点,提升推荐给用户内容的多样性。此外,预设标签关联关系是根据历史
内容序列对应的历史内容标签序列确定的,而历史内容序列是根据用户实际的历史内容浏
览记录构建的浏览记录图中游走得到,利用该预设标签关联关系用于内容推荐,可以为用
户推荐更符合用户内容浏览习惯的内容。
能不同类型的内容简介信息,用户选择了其中的一个内容打开查看详情,则在用户的历史
内容浏览记录中添加从内容推荐首页打开查看这一内容的历史浏览记录。在另一个实施例
中,用户的历史内容浏览记录还包括:用户在视频浮层页面中从一个视频切换至另一个视
频的记录;例如用户当前正在视频浮层页面浏览某一个视频,并在这一视频界面中做出了
视频切换操作(如向上/向下/向左/向右滑动),根据视频切换操作终端将会在视频浮层页
面中为用户切换至另一个视频进行展示,则在用户的历史内容浏览记录中添加从当前视频
切换至另一视频的历史记录。在其它实施例中,历史内容浏览记录还可以包括其它形式的
内容浏览记录。
标识进行获取。进一步地,在一个实施例中,用户的历史内容浏览记录可以从预设数据库中
获取。在一个实施例中,获取历史内容浏览记录包括获取三条以上的历史内容浏览记录。
记录;通过设定预设历史时间段,可以使得到或者更新的内容标签更加符合用户的最新的
内容浏览记录浏览习惯。
将历史内容作为图中的节点,将历史内容与历史内容之间的被浏览顺序作为图中的节点之
间连接的边;对于多条历史内容浏览记录中的相同的被浏览顺序,在图中对应节点之间的
边增加权重;最终得到用户浏览记录图。
列记为历史内容序列。在一个实施例中,在用户浏览记录图中随机游走,得到历史内容序
列。
有两种选择,停留在当前网页或者通过继续访问其他网页。如果用户继续访问网页的概率
为d,那么用户停留在当前网页的概率便是(1‑d)。如果用户继续访问其他网页,则会以均匀
分布的方式随机访问当前网页指向的另一网页,这是一个随机游走的过程。在一个实施例
中,在构建得到的用户浏览记录图中随机游走得到历史内容序列可以通过任意一种方式实
现。
中各历史内容对应的标签,按照历史内容序列中各历史内容的顺序,将各历史内容各自对
应的标签组成对应的历史内容标签序列。
Tag(B)={Tagb1,Tagb2},进一步地,基于历史内容序列生成对应的历史内容标签序列:Taga1
→Taga2→Taga3→Taga4→Tagb1→Tagb2。在一个实施例中,同一内容的不同内容标签的先后
顺序可以根据预设权重(例如越相关的标签对应的权重越高)得到,也可以分别将内容A和
内容B的各内容标签进行随机打乱之后进行组合得到标签序列。在其它实施例中,也可以通
过其它方式根据历史内容序列的内容标签,生成对应的历史内容标签序列。
过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的
单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到
新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
层的神经元结点个数应该和one‑hot形式的词向量维数相对应。比如,输入词是“夏天”,它
对应的one‑hot词向量[0,0,1],[0,0,1];那么,设置输入层的神经元个数是3。第二步,通过
神经网络中的映射层中的激活函数,计算目标单词与其他词汇的关联概率,其中在计算时,
使用了负采样(negative sampling)的方式来提高其训练速度和正确率;第三步,通过使用
随机梯度下降(SGD)的优化算法计算损失;第四步,通过反向传播算法将神经元的各个权重
和偏置进行更新。word2vec实质上是一种降维操作,将one‑hot形式的词向量转化为
word2vec形式。Skip‑Gram model是通过目标单词推测语境,在大规模的数据集中Skip‑
Gram model训练速度快。Skip‑Gram 的损失函数是通过将目标词汇的正例和负例使用二元
对数回归(Binary Logistic Regeression)计算概率并相加得到的。
例中,根据标签向量计算内容标签之间的相似度也可以通过其它方式实现。
系,在进行内容推荐时基于预设标签关联关系,推荐准确率高,效果好。且从内容标签的维
度拟合用户历史浏览记录,并利用历史浏览记录中得到的历史内容序列对应的历史内容标
签序列训练词向量模型,相较于利用内容本身之间的关系训练模型,内容标签数量比内容
本身的数量少,模型更容易收敛。且即便随着时间的推移内容数量新增量巨大,内容标签的
数量可能不增加或者增加很少,因此利用内容标签实现内容推荐,能够减少OOV(Out of
Vocabulary,集外词)的问题,即便新增内容,也能利用预设标签关联关系和待推荐的内容
标签,获取相关联的内容标签对应的目标内容进行推荐。
tag1,可以取与tag1相似度较大的前预设数位内容标签,作为tag1的关联内容标签进行存
储;又如针对内容标签tag2,可以取与tag2相似度大于预设相似度阈值的内容标签作为
tag2的关联内容标签进行存储,进而得到各内容标签之间的预设标签关联关系。可以理解
地,在其它实施例中,也可以通过其它方式确定预设标签关联关系。
计算各内容标签之间的相似度,基于相似度得到预设标签关联关系;上述方法仅以实际的
用户浏览过的历史内容浏览记录生成预设标签关联关系,得到的预设标签关联关系更加贴
合用户真实的内容浏览习惯,在根据预设标签关联关系进行内容推荐时,得到待推荐的目
标内容更有可能符合用户的喜好,提高推荐准确率。
在本实施例中,在得到历史内容浏览记录之后,还可以从其中过滤掉由于用户误操作导致
的行为记录。在另一些实际情况中,还有可能因为其它原因产生异常的记录,例如在指定时
间段内,同一用户对于同一个内容浏览次数超出对应的阈值,或者一个内容被浏览的次数
超出对应的阈值,表示这一内容可能存在异常,对于这类情况也需要进行过滤。
内容统计信息对历史内容浏览记录进行过滤,得到有效历史内容浏览记录;进一步地,在本
实施例中,根据历史内容浏览记录构建用户浏览记录图,包括:根据有效历史内容浏览记录
构建用户浏览记录图。
浏览记录中各内容的用户操作标识。
进行操作的标识;在一个实施例中,用户操作标识包括是否收藏操作、是否点赞操作、是否
评论操作或者是否转发操作等等的标识。
览时长未超过预设时长,用户对该内容的浏览次数不增加。同理统计一个内容的被浏览次
数也可以结合用户对该内容的浏览时长确定;例如若浏览时长超出预设时长,该内容被浏
览的次数+1,反之则不增加被浏览次数。
常行为的异常用户、被浏览次数异常的异常视频和用户可能不感兴趣的视频,保留的行为
记录更加符合用户的内容浏览习惯。
浏览次数,以及内容的被浏览次数进行过滤,可减少异常数据对后续步骤的影响。
赞或者收藏的操作标识,确定用户对该内容感兴趣;若内容的操作标识中包含用户对该内
容选择了“不喜欢”的操作标识,确定用户对该内容不感兴趣。
浏览记录图,可得到更加准确的用户浏览记录图。
为浏览异常用户;过滤掉历史内容浏览记录中,浏览异常用户产生的目标历史内容浏览记
录,得到有效历史内容浏览记录。
户产生的历史内容浏览记录过滤掉,剩余的确定为有效历史内容浏览记录。其中,预设浏览
次数阈值可根据实际情况进行设置,例如可设置为1000次、2000次等等。以内容为视频为
例,用户的内容浏览次数也可以以用户频次表示,用户频次表示在指定时间段内(如12个小
时或者24小时)用户有点击或者观看该视频行为的次数。例如,用户在12点从视频推荐首页
观看了视频,并进入了视频浮层观看了其他视频;而后14点时这个用户又进行了从视频推
荐首页到视频浮层观看视频的操作;16点再次有这个行为;且这个用户在指定时间段内有
这三次这样的动作,那么用户频次为3。
为异常内容;过滤掉历史内容浏览记录中的异常内容,得到有效历史内容浏览记录。
浏览记录中异常内容,剩余的确定为有效历史内容浏览记录。以内容为视频为例,内容的被
浏览次数也即视频频次,视频频次是指在统计时间内,单个视频被点击或者观看的次数。
~
确定为异常内容;在其它实施例中,也可以设置为其它数值范围。在一个实施例中,过高频
次的内容作为样本训练词向量模型,对于模型的训练效果产生影响,而过低频次的内容作
为样本训练词向量模型,对于模型的训练参考价值不大,因此在本实施例中,利用预设被浏
览次数范围对内容进行过滤,过滤后的内容作为样本训练词向量,可得到更好的训练效果。
不感兴趣内容;过滤掉历史内容浏览记录中的不感兴趣内容,得到有效历史内容浏览记录。
容,在该用户的历史内容浏览记录中将这一内容过滤掉,如用户甲对应的历史内容浏览记
录,假设为B→A→C→D…,针对内容A包含用户甲选择“不喜欢”的操作标识,将用户甲的历
史内容浏览记录中内容A过滤,得到用户甲的有效历史内容浏览记录:B→C→D…。
均被播放时长和完播率,过滤历史内容浏览记录中平均被播放时长小于预设时长阈值,或
者完播率小于预设比例阈值的内容,使保留的内容浏览记录更加符合用户的内容浏览习
惯。
一个视频被播放的次数为20次,其中根据完播率确定仅有1次被完整播放,将历史内容浏览
记录中的该视频过滤。进一步地,对于一个时长为3分钟的历史视频,播放时长仅1 5秒(可
~
根据视频总时长自行设定),可能表示用户对该视频并不感兴趣,在过滤操作时,可以将该
视频过滤掉。
的80%判定为用户对视频感兴趣,等等。
影响。
当前页面;步骤S212,获取与当前页面对应的内容标签。
为内容推荐首页;又如检测到内容详情查看信号,确定当前所处页面为内容详情页面;等
等。
容标签。在本实施例中,基于关联内容标签获取对应的目标内容,并进行推荐,包括步骤
S820:获取关联内容标签对应的多个目标内容,在内容推荐首页上对多个目标内容进行显
示。
显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚
拟代表,用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的,形成的用
户角色需要有代表性能代表产品的主要受众和目标群体。在本实施例中,当终端当前处于
内容推荐首页时,获取用户画像,并基于用户画像进行内容推荐。进一步地,本实施例中的
用户画像包括内容标签构成的画像。通过用户画像可以获知用户的偏好:用户通常喜欢浏
览哪些类型的内容,不喜欢浏览哪些类型的内容;例如用户通常对科普、体育、新闻等类型
的内容较为感兴趣,而对于娱乐八卦、影视介绍等类型的内容不感兴趣。
览时长等浏览信息,基于浏览次数、浏览时长等浏览信息进行过滤,得到用户的感兴趣内容
集合和不感兴趣内容集合;进一步地,基于用户的感兴趣内容集合中各内容的标签,生成用
户的感兴趣内容标签,根据不感兴趣视频集合中各视频的标签,生成用户的不感兴趣内容
标签,进而得到用户画像。在其它实施例中,用户画像也可以通过其它方式实现。
条内容打开查看详情。
标签作为本实施例中待推荐的内容标签。在一个实施例中,当前页面为内容推荐首页,与当
前页面对应的内容标签的数量包括两个以上;内容推荐首页的内容标签包括两个以上,可
以为用户在内容推荐首页中推荐更加丰富的内容。
容的数量可以根据实际情况进行设定,如可以设置为获取5个、10个目标内容显示在内容推
荐首页。
容量有限,因此可以仅在内容推荐首页显示部分目标内容。其中,显示内容的数量可以通过
任意一种方式实现,例如结合内容的简介信息所占画面大小与内容推荐首页大小确定,等
等。在另一个实施例中,也可以在内容推荐首页中显示固定数量的目标内容。
签。
的关联内容标签。
应的视频标签;本实施例中,内容标签包括视频标签。其中,当前播放视频的视频标签可能
只有一个,也可能包括多个。进一步地,在本实施例中,获取关联内容标签包括获取关联视
频标签。
例如在一个实施例中,将目标视频作为当前播放视频的下一视频加入视频播放队列。视频
播放队列表示由当前播放视频和待播放的视频组成的队列。
换指令也可以是用户通过语音输入。在其它实施例中,也可以通过其它方式确定在当前页
面检测到视频切换指令。
中的下一视频;由上述步骤可知,将获取的目标视频作为下一视频加入视频播放队列,因此
在检测到用户在当前页面输入的视频切换指令时,在视频浮层页面中将当前显示的内容由
当前播放视频切换至显示目标视频。
取的目标视频的数量可以根据实际情况进行设定,如可以设置为获取1个或者2个以上,设
置为获取1个目标视频时,将目标视频作为下一视频加入视频播放队列,设置为获取2个以
上目标视频时,将目标视频依次加入视频播放队列,目标视频加入视频播放队列中的顺序
可以是随机顺序。
括主题、视频画面、字幕、音频、视频关联的评论信息等等。
频标签获取对应的目标视频进行推荐;用户在视频推荐首页选择并打开查看详情的视频,
很有可能是用户感兴趣的视频,因此在该场景下,直接根据当前播放的该视频的视频标签
推荐关联的标签对应的目标视频,可以召回更加符合用户喜好的视频,提高内容推荐的准
确率。
荐首页和视频浮层页面两种场景进行视频推荐,该方法包括以下步骤:
史视频序列(对应上述历史内容序列):滤去平均播放时长和完播率过低的视频(低于对应
阈值的视频,即用户大概率不感兴趣的视频)后,组成首视频‑尾视频对;首视频‑尾视频对
可以包括主feeds视频‑浮层视频对。例如用户在主feeds场景选择一个视频A,打开查看视
频A的详情,跳转到视频浮层页面展示视频A的详细内容,然后用户在视频浮层中切换到视
频B查看详情,再切换到视频C查看详情,若视频A、B和C的平均播放时长和完播率均大于对
应阈值,则经过过滤之后,生成的首视频→尾视频对包括:A→B→C。又如其中的视频B的完
播率小于对应阈值,过滤之后得到首视频→尾视频对包括:A→C。
就是过滤观看行为过多的用户。在一个具体实施例中,用户频次高于5000定义为过热用户;
同理,视频频次低于5(可自定义)的定义为低频视频;视频频次高于5000(可自定义)的定义
为高频视频。
式会使最终生成的关联标签过于发散。在本申请的实施例中只对原始的视频序列进行构图
游走,这样最终生成的标签之间实际关联度较强,发散合理,如图11所示。
document(标签文档)。
对应的标签向量。
集合,根据关联视频标签集合获取对应的目标视频,在主Feeds页面中为用户推荐目标视
频;在其它实施例中,也可以获取关联视频标签集合对应的目标图文、目标博客等内容进行
推荐。在视频浮层页面的一拖三场景,用户点击主Feeds的视频后,页面跳转到视频浮层页
面展示视频详情,获取用户点击的主Feeds视频(视频浮层页面的当前播放视频)的视频标
签作为输入,获取主feeds视频的视频标签的关联视频标签集合,并根据关联视频标签集合
获取对应的目标视频,进行推荐召回,在一拖三场景中上为用户提供推荐视频内容。
计效率+12.72%, 合计点击PV+21.86%, 主feeds效率11.72%,feeds点击PV+22.04%。
类似地,用户使用浏览器的时长就越多,证明上述方法进行推荐的视频的准确率越好;点击
PV(page view,页面浏览量),用户点击一次页面算1次pv,同样可以反映上述内容推荐方法
的在实际应用中的好坏,PV值越高表示效果越好。
的关系,并得到训练好的词向量模型,以及训练好的词向量模型输出的视频标签之间的相
似度,进而根据各视频标签之间的相似度生成预设标签关联关系。在主Feeds页面、视频一
拖三等页面中,获取到当前页面对应的视频标签,基于预设标签关联关系获取视频标签关
联的关联视频标签,基于关联视频标签获取目标视频进行推荐召回中,帮助用户拓展视野,
提升推荐给用户内容的多样性。
的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,
上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这
些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤
或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或
者阶段的至少一部分轮流或者交替地执行。
取模块1310、关联内容标签获取模块1320和推荐模块1330,其中:
其中,历史内容序列是通过在由用户的历史内容浏览记录所构建的用户浏览记录图上进行
游走得到的,历史内容浏览记录用于确定用户浏览的历史内容以及历史内容被浏览的顺
序;
对目标内容进行推荐。其中,预设标签关联关系是根据历史内容序列对应的历史内容标签
序列确定的,历史内容序列是根据用户的历史内容浏览记录构建的用户浏览记录图中游走
得到,其中历史内容浏览记录用于确定用户浏览的历史内容以及历史内容被浏览的顺序。
上述方法,根据获取的内容标签为基础进行推荐,随着时间推移内容新增,但新增的内容仍
可以用原有的标签描述,从内容标签维度,根据历史内容浏览记录拟合历史内容标签,可挖
掘用户潜在的兴趣点,提升推荐给用户内容的多样性。此外,预设标签关联关系是根据历史
内容序列对应的历史内容标签序列确定的,而历史内容序列是根据用户实际的历史内容浏
览记录构建的浏览记录图中游走得到,利用该预设标签关联关系用于内容推荐,可以为用
户推荐更符合用户内容浏览习惯的内容。
取与当前页面对应的内容标签。
块1330还用于:获取关联内容标签对应的多个目标内容,在内容推荐首页上对多个目标内
容进行显示。
页面对应的视频标签得到当前页面对应的内容标签;在本实施例中,关联内容标签获取模
块1320还用于基于预设标签关联关系,获取视频标签的关联视频标签作为与内容标签关联
的关联内容标签;在本实施例中,上述推荐模块1330包括:视频队列更新单元,用于获取关
联视频标签对应的目标视频,将目标视频加入所述当前页面对应的视频播放序列;视频切
换模块,用于响应于基于当前页面输入的视频切换指令,基于所述视频播放序列获取下一
视频进行播放。
户浏览记录图中游走,得到历史内容序列;标签序列生成单元,用于基于历史内容序列中各
历史内容对应的内容标签,获得对应的历史内容标签序列;相似度计算单元,用于计算历史
内容标签序列中各历史内容标签之间的相似度;关联关系生成单元,用于基于各内容标签
之间的相似度,确定预设标签关联关系。
户的内容浏览次数、历史内容浏览记录中各内容的被浏览次数,或者历史内容浏览记录中
各历史内容的用户操作标识;
标历史内容浏览记录,得到有效历史内容浏览记录;或者,将被浏览次数在预设被浏览次数
范围之外的内容确定为异常内容;过滤掉历史内容浏览记录中的异常内容,得到有效历史
内容浏览记录;或者,根据各内容的用户操作标识,确定历史内容浏览记录的不感兴趣内
容;过滤掉历史内容浏览记录中的不感兴趣内容,得到有效历史内容浏览记录。
元,用于根据训练好的词向量模型,输出各历史内容标签序列中各历史内容标签对应的标
签向量;相似度计算子单元,用于根据标签向量计算各历史内容标签之间的相似度。
现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形
式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易
失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该
内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备
的数据库用于存储用户标签数据。该计算机设备的网络接口用于与外部的终端通过网络连
接通信。该计算机程序被处理器执行时以实现一种内容推荐方法。
备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计
算机设备执行上述各方法实施例中的步骤。
取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申
请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括
非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read‑Only
Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器
(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种
形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存
储器(Dynamic Random Access Memory,DRAM)等。
盾,都应当认为是本说明书记载的范围。
不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
因此,本申请专利的保护范围应以所附权利要求为准。