一种基于机器学习的搜索结果排序方法及系统转让专利
申请号 : CN202011033035.7
文献号 : CN112100444B
文献日 : 2022-02-01
发明人 : 马荣深 , 吴上波 , 韩亚 , 吴廷锋 , 闫立鑫 , 陈灵
申请人 : 四川长虹电器股份有限公司
摘要 :
权利要求 :
1.一种基于机器学习的搜索结果排序方法,其特征在于,包括以下步骤:步骤一:获得要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
步骤二:对所述检索记录进行预处理,所述预处理包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
步骤三:根据所述检索记录、用户信息与影片信息生成排序特征,并排序特征附加到训练集与测试集上;
步骤四:对训练集进行编码;
步骤五:利用编码后的训练集训练模型,并使用得到的模型对测试集进行预测得到预测结果;
步骤六:利用所述预测结果对物品候选集的物品进行排序。
2.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
3.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,步骤三生成的排序特征包括用户特征、影片特征、匹配类特征及上下文特征。
4.如权利要求1所述的一种基于机器学习的搜索结果排序方法,其特征在于,步骤四对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储。
5.一种基于机器学习的搜索结果排序系统,其特征在于,包括:数据获取模块,用于数据的获取,获取的数据包括:要进行排序的搜索召回集,过去一周的检索记录,以及所涉及到的影片信息数据和用户信息数据;
数据预处理模块,用于数据的预处理操作,包括确定检索条件与物品相关度;在确定相关度时将用户信息与检索条件两者结合进行分组,对于每个分组分别统计该分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部影片的相关度;
编码模块,用于对训练集进行编码;
特征构建模块,用于根据检索记录、用户信息与影片信息生成排序特征,将排序特征附加到训练集与测试集上;
训练模块,用于模型的训练,将训练集传入模型进行迭代训练,得到模型;
排序模块,用于对搜索引擎所召回的物品进行排序。
6.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,检索记录包含了用户ID、检索条件、检索的视频ID列表、观看时间及点击位置;用户信息包括了用户ID和用户设备信息;影视信息包括了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
7.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,所述排序特征包括用户特征、影片特征、匹配类特征及上下文特征。
8.如权利要求5所述的一种基于机器学习的搜索结果排序系统,其特征在于,编码模块对训练集编码的步骤包括:将训练集中所有类别特征映射到从1开始的数字编号中,所述类别特征是指在有限选项内取值的特征,在编码完成后需要将这些字段的映射关系导出到数据库中进行存储。
说明书 :
一种基于机器学习的搜索结果排序方法及系统
技术领域
背景技术
与当前检索条件相关,我们要做的便是对所召回的这些物品根据用户的需求进行有效的排
序。因此如何正确地对召回集中的物品进行排序是搜索领域非常关注的问题。
专家人员根据业务的需求进行确定。这一方案的缺点很明显,就是非常耗费人力成本与时
间成本,且每当业务需求变化时,便需要重新确定这些权重。近几年来随着业务的多元化,
这类方法对复杂的业务场景的适应性较差,已经不再适应新的业务场景。因此需要一种高
效且准确的排序方法来提升搜索系统的准确度。
发明内容
分组下每部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条
件的每部影片的相关度;
了影片所属地区、影片类型、导演、演员、评分、收费信息、电影年龄、集数及播放次数。
些字段的映射关系导出到数据库中进行存储,以便在下次编码时能够保证映射关系的唯一
性。
部影片的点击率,根据该分组下每部影片的点击率,确定这些影片对于该检索条件的每部
影片的相关度;
导演、演员、评分、收费信息、电影年龄、集数及播放次数。
些字段的映射关系导出到数据库中进行存储。
也优化了用户的使用体验,使得用户能够更好地体验科技发展带来的便利。
附图说明
具体实施方式
询条件与返回文档之间的相关度是根据用户信息与检索条件两者结合进行分组统计点击
率,而后根据点击率的大小确定的。将最后得到的数据集进行迭代训练得到排序模型,通过
该模型进行排序。
与用户特征两者进行分组确定点击率。比如说检索条件为“actor:刘德华”,用户特征为用
户的机器型号,那么在进行统计时就根据“actor:刘德华”与用户的机器型号两者一起分
组,对每组分别计算点击率(影片点击数/检索条件出现总数),根据点击率的大小确定相关
度。其它方案则是仅根据“actor:刘德华”进行分组统计而没有考虑到用户的机器型号。
户信息通常包括了用户ID和用户设备信息;影视信息通常包括了影视ID、导演、演员、所属
地区、上映日期、资源方、收费信息、时长、类型、评分、集数及播放次数。
个影片的点击率,点击率=某检索条件下影片点击数/检索条件出现数;根据该分组下每部
影片的点击率,确定这些影片对于该检索条件的每部影片的相关度。
时也需要从数据库中获取用户和影片的相关信息,包括了影片所属地区、影片类型、导演、
演员、评分、收费信息、电影年龄、集数及播放次数。
具体包括,将用户信息(这里指的是设备信息)与检索条件两者结合进行分组,对于每个分
组分别统计该分组下每部影片的点击率,所述点击率的计算公式为:点击率=在该分组下
的影片点击数/该组出现次数。根据该分组下每部影片的点击率,确定这些影片对于该检索
条件的每部影片的相关度。例如,根据点击率将相关度划分为5个等级(0最不相关,4为最相
关);点击率小于0.1为等级0,0.1到0.2为等级1,0.2到0.4为等级2,0.4到0.5为等级3,点击
率大于0.5的为等级4。
习的维度,特征包括但不限于:
的类型、导演等。这样做的原因是训练阶段所用到的训练工具(LightGBM框架)只支持非负
数的类别特征。需注意的是,在编码完成后需要将这些字段的映射关系导出到数据库中进
行存储,以便在下次编码时能够保证映射关系的唯一性。
数据。在训练模型时需先设置好模型的训练参数,设置的主要参数包括但不限于:'
boosting_type':'gbdt'、'objective':'lambdarank'、'max_depth':7、'min_data_in_
leaf':100、'num_leaves':70、'bagging_freq':5、'min_gain_to_split':0.2、learning_
rate':0.01、'feature_fraction':0.8、'bagging_fraction':0.8。
次根据步骤(4)所述进行编码操作;需要注意的是。编码好后便可以使用模型进行预测了,
对每部影片的预测值从大到小进行排序即可得到预测后的排序结果了。