一种用户偏好未知的边缘基站缓存部署方法转让专利
申请号 : CN202110445943.5
文献号 : CN113271339B
文献日 : 2022-03-18
发明人 : 吴俊 , 韩雨琪 , 胡蝶 , 刘典 , 徐跃东
申请人 : 复旦大学
摘要 :
权利要求 :
1.一种用户偏好未知的边缘基站缓存部署方法,网络中的中央服务器部署在远端,其具有强大的计算和存储能力,可以存储网络中的所有文件;而边缘服务器距离用户更近,但计算能力和存储能力有限,只能缓存一部分内容;因此边缘服务器需要优化的缓存策略提高网络性能;将边缘服务器看作一个可以独立做出决定的智能体,该智能体自主地选择缓存部署策略;其特征在于:
采用扩展多臂赌博机算法;所述扩展多臂赌博机包含一个全局参数用户密度和多个局部参数文件流行度;
所述的扩展多臂赌博机,将每一个缓存空间看作多臂赌博机可选的一个臂,每次扩展多臂赌博机选择多个臂进行缓存部署;
所述扩展多臂赌博机的每个臂的奖赏值为未知的全局参数和局部参数的乘积;
所述全局参数决定了用户密度的分布函数,在用户的全局参数确定时,得到用户数量的期望;
所述局部参数为各个文件的流行度,即请求各个文件的概率,所有的文件流行度之和为1;
基于所述扩展多臂赌博机算法模型,边缘服务器逐渐学习到环境中的用户密度和各个文件的流行度,并推导出最优的缓存策略;基于响应的用户数,由边缘服务器估计用户密度和内容流行度,以进一步优化缓存放置解决方案;
具体步骤为:
(1)边缘服务器以某一概率随机选择缓存部署,在完全未知的环境中,边缘服务器每个时刻选择一个摇臂作为行为并得到奖励,从而获得环境的知识;通过对每只摇臂的知识的积累,智能体可以选择最优的摇臂来最大限度地积累奖励;在进行探索‑利用权衡时,如果时间t满足log2(t)属于自然数集合,则选择随机缓存放置组合;否则,边缘服务器根据估计的参数选择具有最高流行度的文件组合;
(2)边缘服务器广播缓存的内容并获得用户的响应,计算满足的用户数;在每个时隙,边缘服务器向其服务区域中的所有用户广播缓存内容,并且可以成功地接收缓存内容;在这种情况下,如果请求的内容缓存在边缘服务器中,则直接满足请求,而不需要从中心服务器获取内容;其他请求被发送到中央服务器并由回程传输响应;当用户设备对缓存内容满意时,边缘服务器会接收信号;基于满意的用户数,由边缘服务器估计用户密度和内容流行度,以进一步优化缓存放置解决方案;
(3)根据满足的用户数估计全局参数用户密度,随后进行参数估计;设网络中有N个文件,每个边缘服务器有K个缓存空间,C表示所有缓存组合的总数,Ct表示t时刻选择的缓存组合的索引;μ(θ)表示网络中的用户密度函数,网络密度由θ决定,而θ在实际的网络中并不能预先知道;在进行参数估计时,需要估计θ的值,称θ为全局参数;
全局参数估计:基站每次选择一个文件组合,基于先前获得的奖励和当前的奖励计算;
一旦选择了一个组合,则预期奖励将更新为组合 的预期奖励 基于先前获得的奖励和当前的奖励计算;使用 来表示组合 更新后的预期回报;一旦选择了组合 则在时间t预期的 的预期奖励更新为:式中, 表示直到t‑1时刻,选择 的次数;
随后利用下式进行全局参数 的估计:(4)局部参数估计
在给定全局参数的估计参数后,对每一个缓存组合c的流行度,即局部参数,进行估计,由下式得到:
(5)循环更新缓存策略,利用估计的全局密度估计各个文件的流行度,将每个边缘服务器识别为一个智能体,智能体根据新的参数进行缓存策略部署,并跳转至步骤2。
说明书 :
一种用户偏好未知的边缘基站缓存部署方法
技术领域
背景技术
容请求的偏好,缓存部署策略的性能可能会严重下降。为了解决这个问题,本发明提出了一
种基于扩展多臂赌博机模型的策略来优化缓存部署,这种方法不需要预先假设网络的用户
密度和内容的流行度。为实现这一算法,我们利用扩展多臂赌博机模型同时学习全局参数
和独立参数,因此可以同时估计用户密度和内容的流行度,从而根据未知参数推算出的最
优的缓存部署方法。边缘服务器可以逐渐学习到环境中的用户密度和各个文件的流行度,
并推导出最优的缓存策略。
发明内容
一部分内容。因此边缘服务器需要优化的缓存策略提高网络性能。将边缘服务器看作一个
可以独立做出决定的智能体(agent),该智能体自主地选择缓存部署策略。
户密度和内容流行度,以进一步优化缓存放置解决方案。
智能体不知道每个摇臂带来的奖励,因此需要通过随机选择摇臂来探索环境并获得奖励,
从而获得环境的知识。通过对每只摇臂的知识的积累,智能体可以选择最优的摇臂来最大
限度地积累奖励。然而,如果智能体过早地选择了当前最佳的摇臂,可能会因为对环境的了
解不足而导致奖赏的损失。如果智能体总是随机选择一个摇臂,就不能充分利用已获得的
环境知识,因此没有选择奖赏值最大的摇臂;因此,在进行探索‑利用权衡时,如果时间t满
足log2(t)属于自然数集合,则选择随机缓存放置组合。否则,边缘服务器根据估计的参数
选择具有最高流行度的文件组合。
在这种情况下,如果请求的内容缓存在边缘服务器中,则直接满足请求,而不需要从中心服
务器获取内容。其他请求被发送到中央服务器并由回程传输响应。由于这种情况与缓存放
置无关,因此我们不在下面讨论它。只有当用户设备对缓存内容满意时,边缘服务器才会接
收信号。基于满意的用户数,由边缘服务器估计用户密度和内容流行度,以进一步优化缓存
放置解决方案。
缓存组合的索引。μ(θ)表示网络中的用户密度函数,实际的网络密度由θ决定,而θ在实际的
网络中并不能预先知道。因此,在进行参数估计时,需要估计θ的值。我们称θ为全局参数。
奖励和当前的奖励计算。我们使用 来表示组合 更新后的预期回报。一旦选择了组合
则在时间t预期的 的预期奖励将更新为:
2。
存任何内容。每个时间t,区域中的用户向边缘服务器发送请求,于是边缘服务器从中央服
务器获取请求的内容。每个内容的用户密度和流行度的估计参数初始化为0。探索和利用之
间的权衡遵循一个既定的规则。如果时间满足log2(t)属于自然数集合,则选择随机缓存放
置组合。否则,边缘服务器根据估计的参数选择具有最高流行度的文件组合。通过该策略,
当参数被正确估计时,该策略减少了随机性,并根据估计的参数做出缓存放置决策。在参数
估计阶段,缓存部署组合的预期奖励基于先前获得的奖励和当前的奖励计算。根据其估计
的参数选择在下一个时刻选择当前估计的最好的缓存策略。
附图说明
具体实施方式
流行度;
服务器才会接收信号。基于满意的用户数,我们让边缘服务器估计用户密度和内容流行度,
以进一步优化缓存放置解决方案。
器作为智能体(agent),每个时刻选择一个摇臂作为行为(action)并会得到奖励(reward),
智能体不知道每个摇臂带来的奖励,因此需要通过随机选择摇臂来探索环境并获得奖励,
从而获得环境的知识。通过对每只摇臂的知识的积累,智能体可以选择最优的摇臂来最大
限度地积累奖励。如果时间t满足log2(t)属于自然数集合,则选择随机缓存放置组合。否
则,边缘服务器根据估计的参数选择具有最高流行度的文件组合。每次选择结束后边缘服
务器缓存2个选择的文件。
这种情况下,如果请求的内容缓存在边缘服务器中,则直接满足请求,而不需要从中心服务
器获取内容。只有当用户设备对缓存内容满意时,边缘服务器才会接收信号。基于满意的用
户数,我们让边缘服务器估计用户密度和内容流行度,以进一步优化缓存放置解决方案。
组合,则预期奖励将更新为组合 的预期奖励 基于先前获得的奖励和当前的奖励计
算。我们使用 来表示组合 更新后的预期回报。此时,C作为所有的缓存组合总数,为
一旦选择了组合 则在时间t预期的 的预期奖励将更新为:
2。
的算法进行比较,分别为上置信确界赌博机(UCB)算法,∈‑贪心(∈‑greedy)算法,最近最
少使用(LRU)算法和最不经常使用(LRU)算法。
更好的平均回报率和更快的收敛速度。随着迭代次数的增加,基于Extended‑MAB的缓存部
署方案的平均奖赏值高于其他几个基准算法且稳定在一个最高值。