基于建模的节目数据推荐方法及系统转让专利

申请号 : CN202110803373.2

文献号 : CN113254794B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 殷复莲李思彤冀美琪邢彤彤姚泽斌吴肇良冯小丽佘雨薇潘妍妍

申请人 : 中国传媒大学

摘要 :

本发明提供了一种基于建模的节目数据推荐方法及系统,其中的方法包括:从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;根据训练数据对预设的NPR‑AI模型进行训练,并根据验证数据和训练好的NPR‑AI模型确定NPR‑AI模型的参数和信息的组合方式;在所述规定时间阶段后紧邻的时间周期的节目单中确定NPR‑AI模型的入模参数;基于入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐。本发明通过对节目的多源辅助信息进行分类表示,充分挖掘辅助信息、节目和用户之间的深层次关系,同时引入多层异质注意力机制,捕捉用户和节目之间更多的语义关系,从而更加准确地进行节目表示和用户表示,提高了推荐系统的性能。

权利要求 :

1.一种基于建模的节目数据推荐方法,包括:从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;

根据所述训练数据对预设的NPR‑AI模型进行训练,并根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;其中,所述参数包括所述NPR‑AI模型的伦次参数,所述信息包括所述训练数据中的上下文相关信息和上下文无关信息;

在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;

基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐;

其中,所述NPR‑AI模型为基于辅助信息的神经电视节目推荐模型,所述NPR‑AI模型的训练过程包括:

将所述训练数据中的上下文相关信息和上下文无关信息分别进行编码表示;其中,所述上下文相关信息为所述训练数据中具有上下文语义关联的信息,所述上下文无关信息为所述训练数据中没有上下文语义关联的单词;

根据所述上下文相关信息的注意力权重和上下文无关信息的注意力权重,将编码表示的所述上下文相关信息和上下文无关信息进行融合处理,以确定基于节目注意力的节目表示;

根据所述基于节目注意力的节目表示确定基于个性化注意力的用户表示;

根据所述基于个性化注意力的用户表示进行用户观看节目预测。

2.如权利要求1所述的基于建模的节目数据推荐方法,其中,将所述训练数据中的上下文相关信息进行编码表示,包括:提取所述训练数据中的上下文相关信息;

对所提取的上下文相关信息进行分词得到包括 个词语的上下文相关信息词语集 ,词语表示为 ,其中,为所述上下文相关信息词语集 中的第个词语;使用嵌入层对词语进行嵌入表示,表示为 ,其中,为所述上下文相关信息词语集 中第个词语的嵌入表示向量;

通过使用CNN与非线性激活函数ReLU来确定所述上下文相关信息的词语序列表示为,为词语集 中的第个词语的上下文表示:其中, 为从 到 的位置的词嵌入的拼接,是过滤器的长度, 和 为CNN网络中的训练参数;

基于所述上下文相关信息词语集 使用注意力机制确定一组上下文相关信息中第 个词语的注意力权重 ,表示为:

其中, 和 是所述上下文相关信息词语集 中基于每个词语的注意力模型中的训练参数,是注意力模型中对第个词语的查询向量;

最终将所述上下文相关信息词语集 的上下文相关信息 表示为:其中, 为所述上下文相关信息词语集 中第 个词语的注意力权重,  为所述上下文相关信息词语集 中第 个词语的上下文信息表示。

3.如权利要求2所述的基于建模的节目数据推荐方法,其中,将所述训练数据中的上下文无关信息进行编码表示,包括:提取所述训练数据中的上下文无关信息;

将所提取的上下文无关信息进行离散化转换为数值型,通过词嵌入层得到所述上下文无关信息的嵌入表示为 ,其中,为基于所提取的上下文无关信息整理的上下文无关词语集,是所述上下文无关词语集 中上下文无关信息的个数,是第个上下文无关信息的向量表示;

根据所述上下文无关信息的嵌入,确定所述上下文无关信息的综合信息表示:;

使用Dropout方法对所述综合信息表示进行防过拟合处理,以确定所述上下文无关信息表示:

其中, 和 是基于所述上下文无关词语集 中每个上下文无关信息ReLU函数的训练参数。

4.如权利要求3所述的基于建模的节目数据推荐方法,其中,所述确定基于节目注意力的节目表示的方法包括:

基于所述上下文相关信息词语集 和所述上下文无关词语集 ,使用节目注意力机制将所述上下文相关信息注意力权重表示为 ,所述上下文无关信息注意力权重表示为 , 和的计算公式为:

其中, , , 和 是基于所述上下文相关信息词语集 和所述上下文无关词语集的节目注意力模型中的参数,和 是所述节目注意力模型中对所述上下文相关信息词语集 和所述上下文无关词语集 的查询向量;

以所述上下文相关信息的注意力权重和所述上下文无关信息的注意力权重的加权总和作为所述基于节目注意力的节目表示,节目 的表示向量 的计算公式为:。

5.如权利要求4所述的基于建模的节目数据推荐方法,其中,所述根据所述基于节目注意力的节目表示确定基于个性化注意力的用户表示包括:用户 对节目 的注意力权重 的计算公式为:其中, , 和 是注意力网络中的参数;

将所述注意力权重和节目表示相结合,得到基于个性化注意力的用户表示 :其中,为构建用户表示时使用的观看节目数量,取值为30。

6.如权利要求5所述的基于建模的节目数据推荐方法,其中,所述根据所述基于个性化注意力的用户表示进行用户观看节目预测包括:使用所述基于节目注意力的节目表示的方法将一个新的候选节目表示为 ,通过计算该节目 与当前用户 的相似度,以进行用户观看节目预测。

7.如权利要求6所述的基于建模的节目数据推荐方法,其中,所述计算该节目 与当前用户 的相似度,以进行用户观看节目预测的方法包括:使用softmax结果进行用户观看节目预测,预测节目被观看的概率公式为:其中, 表示用户选择观看候选节目的概率,为用户表示。

8.如权利要求2‑7中任一项所述的基于建模的节目数据推荐方法,其中,所述上下文相关信息包括节目名称和节目简介;

所述上下文无关信息包括节目标签、频道、导演、演员。

9.一种基于建模的节目数据推荐系统,包括:数据提取单元,用于从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;

模型训练单元,用于根据所述训练数据对预设的NPR‑AI模型进行训练;

模型验证单元,用于根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;其中,所述参数包括所述NPR‑AI模型的伦次参数,所述信息包括所述训练数据中的上下文相关信息和上下文无关信息;

入参确定单元,用于在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;

预测推荐单元,用于基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐;

其中,所述NPR‑AI模型为基于辅助信息的神经电视节目推荐模型,所述模型训练单元训练所述NPR‑AI模型的过程包括:将所述训练数据中的上下文相关信息和上下文无关信息分别进行编码表示;其中,所述上下文相关信息为所述训练数据中具有上下文语义关联的信息,所述上下文无关信息为所述训练数据中没有上下文语义关联的单词;

根据所述上下文相关信息的注意力权重和上下文无关信息的注意力权重,将编码表示的所述上下文相关信息和上下文无关信息进行融合处理,以确定基于节目注意力的节目表示;

根据所述基于节目注意力的节目表示确定基于个性化注意力的用户表示;

根据所述基于个性化注意力的用户表示进行用户观看节目预测。

说明书 :

基于建模的节目数据推荐方法及系统

技术领域

[0001] 本发明涉及人工智能领域下的智能推荐领域,更为具体地,涉及一种基于建模的节目数据推荐方法及系统。

背景技术

[0002] 大数据信息时代,互联网的发展日益迅猛,网络平台上的信息量呈指数级增长,出现了“信息过载”的问题。尤其是在蓬勃发展的娱乐影视领域,电视节目数量激增,为了从海
量信息中准确地选择出用户感兴趣的有价值的信息,推荐系统应运而生。
[0003] 目前,推荐系统已经在电子商务、新闻、电影等诸多领域发挥了重要作用,成为现代互联网应用场景中不可缺少的一部分。然而,现有的广播电视节目推荐方法主要是基于
协同过滤的传统方法,它们基于用户和节目的基本交互数据进行推荐,节目属性信息数据
使用率极低,对用户隐性行为挖掘不够全面,忽略了其他辅助信息的重要价值,无法满足针
对不同用户进行个性化影视节目推荐需求。
[0004] 因此,研究构建基于多源辅助信息的神经网络推荐方法是十分有必要的。

发明内容

[0005] 鉴于上述问题,本发明的目的是通过提出基于辅助信息的神经网络推荐算法,融合异质注意力机制,探究不同辅助信息组合对推荐系统性能的影响,实现个性化推荐模型
的构建,将其应用于广播电视节目推荐中,并提高推荐系统的准确性和排序性指标值。
[0006] 根据本发明的一个方面,提供了一种基于建模的节目数据推荐方法,包括:
[0007] 从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;
[0008] 根据所述训练数据对预设的NPR‑AI模型进行训练,并根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;
[0009] 在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;
[0010] 基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐。
[0011] 根据本发明的另一方面,提供了一种基于建模的节目数据推荐系统,包括:
[0012] 数据提取单元,用于从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;
[0013] 模型训练单元,用于根据所述训练数据对预设的NPR‑AI模型进行训练;
[0014] 模型验证单元,用于根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;
[0015] 入参确定单元,用于在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;
[0016] 预测推荐单元,用于基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐。
[0017] 上述根据本发明的基于建模的节目数据推荐方法及系统,针对目前广播电视领域的推荐系统中节目属性信息数据使用率极低,对用户隐性行为挖掘不够全面,无法满足针
对不同用户进行个性化影视节目推荐需求的问题,提供了一种基于多源辅助信息的异质注
意力神经网络推荐方法(NPR‑AI),通过对节目的多源辅助信息进行分类表示,充分挖掘辅
助信息、节目和用户之间的深层次关系,同时引入多层异质注意力机制,捕捉用户和节目之
间更多的语义关系,从而更加准确地进行节目表示和用户表示,提高了推荐系统的性能。
[0018] 为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。
然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明
旨在包括所有这些方面以及它们的等同物。

附图说明

[0019] 通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
[0020] 图1为根据本发明实施例的基于建模的节目数据推荐方法的流程图;
[0021] 图2为根据本发明实施例的NPR‑AI模型的训练过程示意图;
[0022] 图3为根据本发明实施例的基于建模的节目数据推荐系统的方框示意图。
[0023] 在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

[0024] 在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。
在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
[0025] 随着注意力机制在神经网络领域的发展,注意力机制与推荐系统的融合也受到广泛关注。故本发明提出一种基于多源辅助信息的异质注意力神经推荐方案,基于建模进行
节目数据的预测和推荐,探究不同辅助信息组合对模型有效性的影响。本发明通过将辅助
信息分为上下文相关和上下文无关信息两类,针对不同的特性分别进行编码表示,然后基
于节目注意力机制对上下文相关信息编码和上下文无关信息编码进行融合以获得节目表
示。在此基础上,基于个性化注意力机制整合用户观看过的节目表示以获得用户表示,最终
实现对用户观看节目的合理预测。
[0026] 以下将结合附图对本发明的具体实施例进行详细描述。
[0027] 图1示出了根据本发明的基于建模的节目数据推荐方法的流程图。
[0028] 如图1所示,本发明提供的基于建模的节目数据推荐方法,包括如下步骤:
[0029] S110:从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;
[0030] S120:根据所述训练数据对预设的NPR‑AI模型进行训练,并根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;
[0031] S130:在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;
[0032] S140:基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐。
[0033] 整体而言,本发明提供的基于建模的节目数据推荐方法包括三个数据处理阶段:数据库的构建以及参数设置、模型训练、模型应用。以下将结合上述步骤对这三个数据处理
阶段做示例性说明。
[0034] 数据库的构建以及参数设置
[0035] 为了训练模型,首先需要获取模型的训练数据,本发明首先从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据。
[0036] 具体的,作为示例,本发明使用北京某月的广播电视节目用户观看数据作为预设用户节目观看数据。在该月的观看数据中选择90%作为模型的训练数据,剩下的10%作为验
证数据,在验证数据上进行不同辅助信息组合的探究实验,选择该月的下一周数据作为测
试数据。其中,验证数据主要是在训练模型之后根据验证数据所在时间段的节目单进行用
户节目预测验证,以确定模型的参数信息的组合方式;测试数据用来测试模型的有效性。
[0037] 对于用户选择观看的节目来说,节目名称是他们能够获得的第一条有效且代表性信息,节目标签可以用来判断该节目是否符合他们的喜好,而频道信息则反映了用户的节
目观看行为,因此节目名称、标签和频道信息对于节目表示的构建非常重要。
[0038] 对于任意一个节目来说,节目信息不只是包括节目名称,还包括节目标签、频道、简介、导演、演员等其他辅助信息。这些辅助信息可以根据是否上下文是否相关而分为两
类,即上下文相关信息和上下文无关信息。在节目辅助信息中,节目标签、频道、导演、演员
等可以作为单词级信息,单词与单词之间没有上下文语义的关联,因此属于上下文无关信
息。而节目名称和简介则包含更多的语义信息,因此属于上下文相关信息。
[0039] 本实施例中,使用的节目标签数据主要来源有两个,一是每个电视节目自带的两个标签,如“电视剧”、“财经”等。二是来自互联网影视平台,如优酷、腾讯、爱奇艺等。本实施
例中利用数据爬虫技术获得每个节目的标签信息,然后将二者整合,获得节目最终的标签
数据。下表1是一些带有节目名称、标签和频道信息的节目信息示例。
[0040] 表1 一些带有辅助信息的节目信息示例
[0041] 电视节目名称 标签 频道美丽谎言 电视剧 / 社会 / 伦理   / 悬疑 / 商战   / 家庭 /…… CCTV‑8
前往世界的尽头 综艺   / 真人秀 / 探险   / 励志 / 明星   / 旅游 /…… CCTV‑8
财富之道 金融   / 投资 / 理财   /…… CETV
今日说法 法治   / 特别专题 / 教育   /…… CGTN
武林大会 体育   / 格斗/…… CCTV‑体育
北京新闻 新闻   / 时事 / 社会   / 综合 /…… BTV
[0042] 本实施例中使用的训练数据包括110个用户的观看数据,平均每个用户包含10140条观看记录。测试数据是这110个用户在当月下周的实际观看数据,平均每个用户有118条
数据。
[0043] 模型训练
[0044] 本发明提出的模型主要是基于节目辅助信息数据进行节目推荐预测模型。通过构建模型,可以预测用户在未来一周内观看节目的概率。
[0045] 具体的,作为示例,本发明中所采用的节目推荐预测模型为NPR‑AI(Neutral TV Program Recommendation with Auxiliary Information,基于辅助信息的神经电视节目
推荐)模型,该NPR‑AI模型主要利用用户与节目之间的交互数据以及节目的多源辅助信息,
将多源辅助信息加入到节目表示信息中,能够丰富节目表示和用户表示,更好地构建用户
兴趣模型,使得个性化推荐模型更加准确与可信。
[0046] 具体的,本实例中的NPR‑AI模型的训练过程如图2所示,具体包括如下步骤:
[0047] S210:将所述训练数据中的上下文相关信息和上下文无关信息分别进行编码表示;其中,所述上下文相关信息为所述训练数据中具有上下文语义关联的信息,所述上下文
无关信息为所述训练数据中没有上下文语义关联的单词;
[0048] S220:根据所述上下文相关信息的注意力权重和上下文无关信息的注意力权重,将编码表示的所述上下文相关信息和上下文无关信息进行融合处理,以确定基于节目注意
力的节目表示;
[0049] S230:根据所述基于节目注意力的节目表示确定基于个性化注意力的用户表示;
[0050] S240:根据所述基于个性化注意力的用户表示进行用户观看节目预测。
[0051] 与图2所示的模型训练过程相对应,NPR‑AI模型主要分为五个模块,分别是基于CNN(Convolutional Neural Network,卷积神经网络)和词注意力的上下文相关信息编码
表示、上下文无关信息编码表示、基于节目注意力的节目表示、基于个性化注意力的用户表
示以及用户观看节目预测模块。
[0052] (1)基于CNN和词注意力的上下文相关信息编码表示
[0053] 在本发明的一个实施例中,上下文相关信息的类型包括节目的名称和简介两种,对于上下文无关信息而言,其类型则包括节目的频道、标签、导演、演员四种。
[0054] 对于每一种类型的上下文相关信息,其编码表示的具体过程分为三步。
[0055] 1)对该类上下文相关信息进行分词得到 个词语,词语表示为 。使用嵌入层对词语进行嵌入表示,表示为 。
[0056] 2)由于上下文相关信息中的词语之间存在着序列及语义关系,而卷积神经网络CNN可以学习每个词语的上下文表示,因此本发明通过使用CNN与一种非线性激活函数ReLU
方法来获取这些信息表示。基于此,上下文相关信息的单词序列表示为 。而第 个
单词 的上下文表示如Equ.(1)所示:
[0057]                   (1)
[0058] 其中, 是从 到 的位置的词嵌入的拼接,是过滤器的长度,和 是CNN网络中的训练参数,具体形式是两个矩阵,每一次训练这两个参数都要改变,通
过不断改变这两个参数才能训练好最终的模型。
[0059] 3)由于每个词语包含的信息量不同,对节目表示的重要性也不同,因此学习不同单词的重要性权重是很有必要的。比如,在《杨光的幸福生活》中,“的”是一个没有实际意义
的只表示归属关系的单词,然而“幸福”这个词所包含的信息与“的”相比显然更多。基于此,
本发明使用注意力机制来选择上下文相关信息中的重要词汇。在一组上下文相关信息中第
个词语 的注意力权重表示如Equ.(2)‑(3)所示:
[0060]                                     (2)
[0061]                                                 (3)
[0062] 其中, 和 是注意力模型中的训练参数, 是注意力模型中的查询向量。节目的最终上下文相关信息表示如Equ.(4)所示:
[0063]                                                (4)
[0064] (2)上下文无关信息编码表示
[0065] 对于每一种类型的上下文无关信息,由于词语与词语之间没有明显的语义关系,因此首先对该类信息进行嵌入表示。将上下文无关信息进行离散化转换为数值型,然后通
过词嵌入层得到向量表示为 ,其中 是上下文无关信息的个数, 是第 个信息
的向量表示。接下来对这些上下文无关信息嵌入表示取平均值,得到综合的信息表示如
Equ.(5)所示:
[0066]                                    (5)
[0067] 最终使用Dropout方法来防止出现过拟合现象,如Equ.(6)所示:
[0068]                               (6)
[0069] 其中,Dropout是一种解决神经网络过拟合的方法,ReLU模型是一种优化模型,和 是ReLU模型的训练参数。
[0070] (3)基于节目注意力的节目表示
[0071] 对于节目的多源辅助信息,将上下文相关信息和上下文无关信息有效融合,可以得到更丰富的节目表示从而捕捉节目特征。传统的方法通常将不同种类的信息表示做均值
处理,而忽略了不同信息对于节目表示的不同重要性,因此本发明提出了一种基于异质注
意力的节目表示架构。通过使用注意力机制整合具有不同种类信息的节目表示。将节目的
上下文相关信息注意力权重表示为 ,节目的上下文无关信息注意力权重表示为 ,计算
方法如Equ.(7)‑(10)所示:
[0072]                                (7)
[0073]                              (8)
[0074]                                      (9)
[0075]                                     (10)
[0076] 其中, , , 和 是注意力模型中的训练参数,和 是注意力模型中的查询向量。最终的节目表示是其上下文相关信息和上下文无关信息表示的注意力权重加权的总
和,其计算方法如Equ.(11)所示:
[0077]                                 (11)
[0078] (4)基于个性化注意力的用户表示
[0079] 为了让推荐的节目符合用户兴趣偏好,对每个用户进行个性化兴趣建模是十分必要的。在本发明中通过使用用户观看的节目进行用户表示的构建。由于不同的节目能够反
映用户不同的观看兴趣,如“奔跑吧兄弟”对于喜欢运动的用户来说更加有吸引力,而“天气
预报”是大众都会观看的没有特殊性的节目。因此,为了更好地把握用户个性化偏好,不是
简单地对用户观看过的所有节目进行学习表示后取均值,而是通过对不同节目的重要性加
权计算得到。用户 对节目 的注意力权重 的计算如Equ.(12)(13)所示:
[0080]                 (12)
[0081]                                             (13)
[0082] 其中, , 和 是注意力网络中的参数。将注意力权重和节目表示相结合,得到最终的用户表示 如Equ.(14)所示:
[0083]                                               (14)
[0084] 其中,为构建用户表示时使用的观看节目数量,取值为30。
[0085] (5)用户观看节目预测
[0086] 首先使用上述提到的节目表示方法将一个新的候选节目表示为 ,然后计算该节目 与当前用户 的相似度,由此判断是否向用户推荐该节目。其计算方式为 与 相点乘。
最终使用softmax结果判断用户是否观看节目,具体计算如Equ.(15)所示:
[0087]                                            (15)
[0088] 其中,表示用户选择观看候选节目的概率, 为用户表示。
[0089] 在上述训练实施例设置中,词嵌入是自动初始化的且大小设置为300维,查询向量设置为100维,实验中通过使用Dense层来统一维度。同时,设置学习率为0.001,批次大小为
30,模型的输入神经元为100,嵌入层的dropout参数为0.2,节目表示和用户表示的注意力
网络中使用的激活函数都是softmax。
[0090] 模型应用
[0091] 在模型训练完毕,即可以根据前述10%的验证数据和训练好的NPR‑AI模型,共同确定NPR‑AI模型的参数和信息的组合方式;然后在规定时间阶段后紧邻的时间周期的节目单
中根据所确定的参数和信息的组合方式确定NPR‑AI模型的入模参数;并基于所述入模参数
和所述NPR‑AI模型进行用户观看节目的预测和推荐。
[0092] 具体的,作为示例,使用北京2021年5月份的广播电视节目用户观看数据作为预设用户节目观看数据,选择其中90%作为模型的训练数据对NPR‑AI模型进行训练,然后利用剩
余的10%的数据和训练好的NPR‑AI模型共同确定NPR‑AI模型的参数和信息的组合方式,比
如确定模型的伦次参数、双类辅助信息组合、三类辅助信息组合方式等。那么在6月份第一
周新出的节目单中,就可以根据上述确定的NPR‑AI模型的参数和信息的组合方式确定NPR‑
AI模型的入模参数,将该入模参数输入NPR‑AI模型,通过NPR‑AI模型计算这些节目跟用户
兴趣的匹配度,然后将新节目单里面的节目按照匹配度排序,以确定最终的用户观看节目
预测后推荐给用户,实现用户观看节目的预测和推荐。
[0093] 在预测推荐之后,还可以在后期进一步获取6月份第一周用户的真实观看数据,和利用本发明提供的用户观看节目预测相比较,以测试本发明的模型的推荐效果和结果的好
坏。
[0094] 一个真正的推荐系统,它只能根据已有的训练数据构建模型,构建好模型之后,对于测试数据是一无所知的。所以只能在全部的训练数据中取出一部分作为验证数据,在验
证数据上训练模型的参数,最后通过崭新的测试数据测试其是否优于其他模型。
[0095] 具体的,作为示例,在测试的过程中,根据测试数据里面的节目信息计算这些节目会被用户观看的概率,根据概率的大小排序后推荐给用户。通过比较这个推荐序列与用户
真实观看节目的序列,即可以通过推荐结果与用户的真实观看数据的对比计算结果作为本
模型的推荐效果指标。
[0096] 上述实施例提出的NPR‑AI模型能够计算出用户观看每个节目的概率。为了评估推荐模型的有效性,下面使用三个评价指标作为示例来进行NPR‑AI模型推荐有效性评估,三
个评价指标分别是ROC曲线下面积AUC(Area under the Curve of ROC)、命中率HR(Hits 
Ratio)以及归一化折损累计增益NDCG(Normalized Discounted Cumulative Gain),特别
地,NDCG包括NDCG@5与NDCG@10。
[0097] 具体的,AUC指标的计算公式如Equ.(16)所示:
[0098]                           (16)
[0099] 其中,是预测用户会观看与用户真实观看的节目集合, 是节目 的排名,是对所有正样本的序号加和,是正样本即用户观看过的节目的数量,是负样本
即用户没有观看过的节目的数量。
[0100] HR指标的计算公式如Equ.(17)所示:
[0101]                     (17)
[0102] 其中, 是所有的测试集合, 是每个用户top‑K列表中属于测试集合的个数的总和。
[0103] NDCG指标的计算公式如Equ.(18)‑(21)所示:
[0104]                                    (18)
[0105]                                        (19)
[0106]                                       (20)
[0107]                                             (21)
[0108] 其中, 是节目 的实际排名值, 是节目 在这个位置的相关度, 是节目的预测排名值,为推荐列表长度。
[0109] 在这些评价指标中,AUC直接使用Python的软件包sklearn进行计算。HR是一个基于召回的指标,衡量测试项目是否在top‑K列表中。而NDCG是对位置敏感的,当推荐的结果
属于有高关联度的结果,且出现在靠前的位置时,NDCG指标会越高。对于这三个指标来说,
均为数值越大时表示推荐系统效果越好。
[0110] 根据上述指标,将NPR‑AI模型与其他推荐模型方法进行比较。这些方法包括经典的基础推荐方法(如UserCF, ItemCF, BPR, FM),以及基于神经网络的方法(如NCF, Wide 
*
& Deep, DeepFM, NFM, DAN)。对比实验结果如下表2所示,可以看出,在p < 0.001的标准
下,对所有基线方法的改进都是显著的。
[0111] 表2 不同方法的实验结果。
[0112]
[0113] 从表2中观察可以得到如下结论:
[0114] 第一,包括NPR‑AI、DeepFM、NFM和DAN在内的神经网络推荐方法优于UserCF、ItemCF和BPR等传统推荐方法。这是因为神经网络学习方法可以有效缓解数据的稀疏性问
题,从而提高推荐性能。此外,能够捕获更多语义的神经网络比只使用用户历史偏好信息的
传统推荐方法更好。本发明提出的NPR‑AI方法使用卷积神经网络CNN来捕获更多的上下文
相关信息表示,因此能够更好地学习节目表示和用户表示,其结果优于传统方法。
[0115] 第二,NPR‑AI、DeepFM、NFM和DAN这些使用深度学习方法的模型,可以更好地学习节目与用户之间的相关性,从而表现优于其他方法。这是因为同一用户所观看的节目具有
一定的相关性。相关性越强越有助于建立用户的兴趣模型,从而提高推荐结果。本发明提出
的NPR‑AI模型对节目的辅助信息进行了更详细的学习和分析,并获得了包含更多语义的向
量表示。因此,NPR‑AI模型比其他方法更准确地进行了节目表示和用户表示。
[0116] 第三,本发明提出的NPR‑AI模型在这些指标上均优于其他推荐模型。由于NPR‑AI模型不仅使用了辅助信息的最佳组合,即节目名称、标签和频道的组合进行节目表示,还使
用了多层异质注意力机制以更好地学习节目表示和用户表示。在不使用注意力机制的情况
下,模型通常认为输入的每个特征对输出的每个特征有相同的影响。而注意力机制可以从
更多的信息中抓住关键信息。在节目和用户表示中,注意力机制可以区分每个特征的不同
重要性,并给它们分配不同的权重。这表明本发明的方法可以通过注意力机制捕捉到上下
文相关信息和节目的重要特征,从而得到更有意义的节目表示和用户表示。
[0117] 如上参照图1、图2描述了根据本发明的基于建模的节目数据推荐方法。本发明的上述基于建模的节目数据推荐方法,可以采用软件实现,也可以采用硬件实现,或采用软件
和硬件组合的方式实现。
[0118] 与上述基于建模的节目数据推荐方法相对应,本发明还提供一种基于建模的节目数据推荐系统。图3示出了根据本发明的基于建模的节目数据推荐系统300的方框示意图。
如图3所示,基于建模的节目数据推荐系统300包括数据提取单元310、模型训练单元320、模
型验证单元330、入参确定单元340以及预测推荐单元350。本发明所述单元也可以称之为模
块,指的是一种能够被电子设备的处理器所执行,并且能够完成某一固定功能的一系列计
算机程序段,其存储在电子设备的存储器中。
[0119] 在本实施例中,关于各模块/单元的功能如下:
[0120] 数据提取单元310,用于从预设用户节目观看数据库中提取规定时间阶段的用户观看数据作为训练数据和验证数据;
[0121] 模型训练单元320,用于根据所述训练数据对预设的NPR‑AI模型进行训练;
[0122] 模型验证单元330,用于根据所述验证数据和训练好的NPR‑AI模型确定所述NPR‑AI模型的参数和信息的组合方式;
[0123] 入参确定单元340,用于在所述规定时间阶段后紧邻的时间周期的节目单中根据所述参数和信息的组合方式确定所述NPR‑AI模型的入模参数;
[0124] 预测推荐单元350,用于基于所述入模参数和所述NPR‑AI模型进行用户观看节目的预测和推荐。
[0125] 本发明所提供的上述基于建模的节目数据推荐系统的更为具体的实现方式,均可以参照上述对基于建模的节目数据推荐方法的实施例表述,在此不再一一列举。
[0126] 如上参照附图以示例的方式描述根据本发明的基于建模的节目数据推荐方法及系统。但是,本领域技术人员应当理解,对于上述本发明所提出的基于建模的节目数据推荐
方法及系统,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围
应当由所附的权利要求书的内容确定。