基于动态请求D2D网络中的协作编码缓存方法转让专利

申请号 : CN202110036543.9

文献号 : CN112911614B

文献日 : 2022-05-03

本发明请求保护一种基于动态请求D2D网络中的协作编码缓存方法，其包括以下步骤：步骤1、搭建网络架构；步骤2、建立D2D网络中的用户内容分享模型；步骤3、将网络中的内容通过最大可分码MDS处理；步骤4、用户获得内容包；步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时；步骤6、分析用户的动态请求；步骤7、将D2D网络中的编码缓存问题建立为马尔科夫决策过程MDP；步骤8、计算缓存奖励的平均值；步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题；步骤10、提出基于Q‑learning的协作编码缓存算法进行求解。本发明方法减少了缓存冗余，缓解了基站流量负载压力。

1.一种基于动态请求D2D网络中的协作编码缓存方法，其特征在于，包括以下步骤：步骤1、搭建网络架构；基于动态请求D2D网络包括两层网络，由基站构成的蜂窝网络与用户设备组成的D2D网络，其中用户对内容的请求具有动态变化的特征，基站可满足用户对内容的需求；

步骤2、建立D2D网络中的用户内容分享模型；

步骤3、将网络中的内容通过最大可分码MDS处理，得到多个内容包，MDS编码将内容fk先分成Lfk个相等内容片段再编为Gfk个互相独立、无重复的内容包；

步骤4、用户获得内容包；

步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时；

步骤6、分析用户的动态请求，用户请求将受内容流行度会影响有多个请求状态，该现象遵循有限状态的马尔可夫过程，为了获得用户变化的请求状态，通过观察实时内容请求来判断每个内容的受欢迎程度；

步骤7、将D2D网络中的编码缓存问题建立为马尔科夫决策过程MDP，MDP问题定义为一个元组是网络中所有用户可能状态的集合，是所有用户的可行缓存行为的行为集合，代表奖励函数；

步骤8、计算缓存奖励的平均值；

步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题；

步骤10、为寻找最优缓存策略，同时为应对网络中的大量用户和内容，提出基于Q‑learning的协作编码缓存算法进行求解；

所述步骤8、计算缓存奖励的平均值，过程如下：步骤8‑1、每次缓存行为带来的网络中可减少的平均传输延时作为缓存奖励，在时间周期t内用户ui请求内容fk的第g个内容包可减少的内容传输延时，表示如下：其中，表示用户ui向基站请求内容fk的第g个内容包的传输延时，则表示用户ui获得该内容包的实际内容传输延时，表示如下：其中，用来判断用户ui能否从邻接用户集合中获得内容fk的第g个内容包，表示用户ui从邻接用户集合中获得内容fk的第g个内容包的最低内容传输延时，表示如下：

其中，(uj)i代表用户ui通过D2D的获得内容fk的第g个内容包的最低内容传输延时的用户是用户uj，用来判断用户ui的邻接用户集合中有哪些用户缓存了内容fk的第g个内容包；

步骤8‑2、计算用户ui恢复内容fk的可减少的内容传输延时，表示如下：表示恢复内容fk所需要内容包的最小数量；

步骤8‑3、计算用户ui多次恢复请求的内容可减少的内容传输延时，表示如下：F表示网络中所有内容的集合；

步骤8‑4、计算总时间缓存奖励，表示如下：其中，α为折扣系数；T表示总的时间周期数；表示用户ui在时间周期t时的请求状态；

步骤8‑4、计算总时间缓存奖励的平均值，表示如下：

2.根据权利要求1所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤2、建立D2D网络中的用户内容分享模型，具体如下：步骤2‑1、判断网络中的用户能否建立D2D通信，判断过程如下：||li‑lj||＜Rd (1)其中，i表示用户ui，j表示用户uj，li表示用户ui的物理位置，lj表示用户uj的物理位置，Rd是D2D通信的最大距离；

步骤2‑2、为每个用户寻找可建立D2D通信的潜在用户集合，表示为如下：N(i)＝{i|i∈U,||li‑lj||＜Rd} (2)，其中，U表示所有用户的集合。

3.根据权利要求1所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤4、用户获得内容包过程如下：步骤4‑1、当用户ui对内容fk发出请求时，用户ui首先查看本地缓存中是否缓存了fk的内容包；

步骤4‑2、然后通过D2D网络从其他用户处获取内容包；

步骤4‑3、如果用户ui收集的内容包总数大于Lfk，则用户ui将能够恢复出完整的内容fk，否则，用户ui将从基站获取其他内容包以到达到Lfk来恢复内容。

4.根据权利要求1所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时，具体如下：步骤5‑1、利用信噪比来估算内容传输的传输速率，则D2D链路以及基站的信噪比分别表示为：

其中，PD2D、PBS分别是用户和基站内容传输的传输功率，是高斯白噪声的均方差，GD2D、GBS则代表是D2D和基站的信道增益；

步骤5‑2、计算D2D和基站的信道增益，表示如下：‑ε

GD2D＝κ·dD2D (5)‑ε

GBS＝κ·dBS (6)其中，κ表示路径损耗常数，ε表示路径损耗指数，d表示路径距离；

步骤5‑3、计算用户通过D2D或者基站获得内容的下载速率，表示如下：RD2D＝WD2Dlog2(1+SNRD2D) (7)RBS＝WBSlog2(1+SNRBS) (8)其中，WD2D，WBS表示D2D链路和基站与用户间链路的分配带宽；

步骤5‑4、得到用户ui通过D2D链路或者基站获得内容包的传输延时，表示如下：其中，Sfk,g为内容fk的第g个内容包的尺寸大小；

步骤5‑5、以用户从基站获取内容的下载速率为标准，排除下载速率低于用户从基站获取内容的下载速率，筛选传输内容的用户，基于用户ui的潜在用户集合，得到用户ui的邻近用户集合N′(i)，表示如下：

5.根据权利要求4所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤6为了获得用户变化的请求状态，可以通过观察实时内容请求来判断每个内容的受欢迎程度，表示如下：

6.根据权利要求1所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题，表示如下：其中，Gfk表示内容fk的内容包集合；Sfk,g表示内容fk的第g个内容包的大小；表示用户ui是否缓存了内容fk的第g个内容包；π表示缓存策略；Π表示所有缓存策略的集合；

其中限制条件C1为缓存容量的限制，限制条件C2为二元缓存变量。

7.根据权利要求6所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤10、为寻找最优缓存策略，同时为应对网络中的大量用户和内容，提出基于Q‑learning的协作编码缓存算法进行求解，具体包括：步骤10‑1、设定初始参数；

设定初始时间周期，设定用户的请求初始状态、折扣参数和学习速率，设定网络内用户数量及内容数量，设定初始Q值；

步骤10‑2、通过∈‑greedy算法来选择用户的缓存行为；

步骤10‑3、缓存内容包决策；

基于用户的缓存行为，在满足用户缓存空间的限制下，寻找使优化目标可减少的延时边际值最大的和内容包，具体如下：步骤10‑4、评估每一次缓存行为获得的缓存奖励；

步骤10‑5、更新Q表以及策略；

步骤10‑6、判断迭代次数是否达到最大时间周期数，若是执行步骤10‑7，否则，返回步骤10‑2；

步骤10‑7、得到最优的缓存策略。

8.根据权利要求7所述的基于动态请求D2D网络中的协作编码缓存方法，其特征在于，所述步骤10‑2、通过∈‑greedy算法来选择用户的缓存行为；

首先选择一个随机的概率θ，将θ与网络中设定的探索概率进行比较，如果θ＜ε那么系统会选择用户已有的缓存行为再次学习，反之，当(1‑θ)＜ε时，系统会选择用户的一个新缓存行为进行学习。

基于动态请求D2D网络中的协作编码缓存方法

技术领域

[0001] 本发明属于无线通信技术领域，具体涉及一种基于动态请求D2D网络中的协作编码缓存方法。

背景技术

[0002] 随着无线网络技术的发展和云应用的普及，内容多样性和移动数据流量呈爆炸式增长。移动数据流量目前呈指数级的速度增长，这种快速增长导致回程链路负担加重，降低
了移动蜂窝网络中用户的服务质量(Quality of service，QoS)，为了解决这个问题，缓存
技术引起了极大的关注，因为它可以通过消除流行内容的多次重复数据传输来有效地减少
回程流量。缓存技术的核心思想是将内容放在不同的位置，以避免出现因同时请求该内容
所导致的通信链路拥堵，其本质是以空间换取时间的技术。

[0003] 移动端设备发展之迅猛已经使我们不能忽视未来移动设备在网络中的作用，以移动设备为中心的设备直通(Device‑to‑Device，D2D)通信由于可以使设备的直接相互通信
成为研究热点。尤其，D2D通信作为蜂窝网络的底层网络，可帮助蜂窝网络负担较高的流量
卸载，为用户带来更快、更好的体验质量(Quality of Experience，QoE)。缓存技术因可在
非顶峰时期将核心网中流行内容与放置在小型基站、用户设备中，以减少顶峰时期用户的
大量请求带来的网络拥堵。将缓存技术应用在D2D网络中可大大加强缓存技术的优势。

[0004] 目前，在这大数据时代，流媒体视频内容越来越大。但是用户的存储空间有限，用户无法缓存所有需要的内容。同时，由于传输容易中断，用户很难从其他用户那里获得完整
的内容。将内容分段编码是解决这些问题的一种很有前途的方法，可以有效地提高缓存空
间的利用率，提高用户的QoE。当将完整的内容分割成多个内容段，便于用户通过D2D获取和
内容传输。

[0005] 但是，针对D2D网络中的缓存研究研究仍存在一些不足，D2D网络中用户缺乏有效的协作方式，且在用户请求状态动态变化条件下的编码缓存策略如何制定是研究较少的，
这导致D2D网络中用户设备缓存效率降低，同时产生大量缓存冗余，进而产生用户设备的缓
存容量被浪费的情况。所以，本发明将以此为切入点，提出一种基于动态请求D2D网络中的
协作编码缓存方法，挖掘D2D网络中用户间的协作性，以减少内容传输延时、提高缓存命中
率作为目标，设计协作编码缓存算法。

发明内容

[0006] 本发明旨在解决以上现有技术的问题。提出了一种减少缓存冗余，缓解基站流量负载压力的基于动态请求D2D网络中的协作编码缓存方法。本发明的技术方案如下：

[0007] 一种基于动态请求D2D网络中的协作编码缓存方法，其包括以下步骤：

[0008] 步骤1、搭建网络架构；基于动态请求D2D网络包括两层网络，由基站构成的蜂窝网络与用户设备组成的D2D网络，其中用户对内容的请求具有动态变化的特征，基站可满足用
户对内容的需求；

[0009] 步骤2、建立D2D网络中的用户内容分享模型；

[0010] 步骤3、将网络中的内容通过最大可分码MDS处理，得到多个内容包，MDS编码将内容fk先分成个相等内容片段再编为个互相独立、无重复的内容包；

[0011] 步骤4、用户获得内容包；

[0012] 步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时；

[0013] 步骤6、分析用户的动态请求，用户请求将受内容流行度会影响有多个请求状态，该现象遵循有限状态的马尔可夫过程，为了获得用户变化的请求状态，通过观察实时内容
请求来判断每个内容的受欢迎程度；

[0014] 步骤7、将D2D网络中的编码缓存问题建立为马尔科夫决策过程MDP，MDP问题定义为一个元组是网络中所有用户可能状态的集合，是所有用户的可行
缓存行为的行为集合，代表奖励函数；

[0015] 步骤8、计算缓存奖励的平均值；

[0016] 步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题；

[0017] 步骤10、为寻找最优缓存策略，同时为应对网络中的大量用户和内容，提出基于Q‑learning的协作编码缓存算法进行求解。

[0018] 进一步的，所述步骤2、建立D2D网络中的用户内容分享模型，具体如下：

[0019] 步骤2‑1、判断网络中的用户能否建立D2D通信，判断过程如下：

[0020] ||li‑lj||＜Rd (1)

[0021] 其中，i表示用户ui，j表示用户uj，li表示用户ui的物理位置，lj表示用户uj的物理位置，Rd是D2D通信的最大距离；

[0022] 步骤2‑2、为每个用户寻找可建立D2D通信的潜在用户集合，表示为如下：

[0023] N(i)＝{i|i∈U,||li‑lj||＜Rd} (2)

[0024] 其中，U表示所有用户的集合；

[0025] 进一步的，所述步骤4、用户获得内容包过程如下：

[0026] 步骤4‑1、当用户ui对内容fk发出请求时，用户ui首先查看本地缓存中是否缓存了fk的内容包；

[0027] 步骤4‑2、然后通过D2D网络从其他用户处获取内容包；

[0028] 步骤4‑3、如果用户ui收集的内容包总数大于则用户ui将能够恢复出完整的内容fk，否则，用户ui将从基站获取其他内容包以到达到来恢复内容。

[0029] 进一步的，所述步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时，具体如下：

[0030] 步骤5‑1、利用信噪比来估算内容传输的传输速率，则D2D链路以及基站的信噪比分别表示为：

[0031]

[0032]

[0033] 其中，PD2D、PBS分别是用户和基站内容传输的传输功率，是高斯白噪声的均方差，GD2D、GBS则代表是D2D和基站的信道增益；

[0034] 步骤5‑2、计算D2D和基站的信道增益，表示如下：

[0035] GD2D＝κ·dD2D‑ε (5)

[0036] GBS＝κ·dBS‑ε (6)

[0037] 其中，κ表示路径损耗常数，ε表示路径损耗指数，d表示路径距离；

[0038] 步骤5‑3、计算用户通过D2D或者基站获得内容的下载速率，表示如下：

[0039] RD2D＝WD2D log2(1+SNRD2D) (7)

[0040] RBS＝WBS log2(1+SNRBS) (8)

[0041] 其中，WD2D，WBS表示D2D链路和基站与用户间链路的分配带宽；

[0042] 步骤5‑4、得到用户ui通过D2D链路或者基站获得内容包的传输延时，表示如下：

[0043]

[0044]

[0045] 其中，为内容fk的第g个内容包的尺寸大小；

[0046] 步骤5‑5、以用户从基站获取内容的下载速率为标准，排除下载速率低于用户从基站获取内容的下载速率，筛选传输内容的用户，基于用户ui的潜在用户集合，得到用户ui的
邻近用户集合N′(i)，表示如下：

[0047]

[0048] 进一步的，所述步骤6为了获得用户变化的请求状态，可以通过观察实时内容请求来判断每个内容的受欢迎程度；，表示如下：

[0049]

[0050] 进一步的，所述步骤8、计算缓存奖励的平均值，过程如下：

[0051] 步骤8‑1、每次缓存行为带来的网络中可减少的平均传输延时作为缓存奖励，在时间周期t内用户ui请求内容fk的第g个内容包可减少的内容传输延时，表示如下：

[0052]

[0053] 其中，表示用户ui向基站请求内容fk的第g个内容包的传输延时，则表示用户ui获得该内容包的实际内容传输延时；

[0054] 步骤8‑2、计算用户ui恢复内容fk的可减少的内容传输延时，表示如下：

[0055]

[0056] 表示恢复内容fk所需要内容包的最小数量；

[0057] 步骤8‑3、计算用户ui多次恢复请求的内容可减少的内容传输延时，表示如下：

[0058]

[0059] F表示网络中所有内容的集合；

[0060] 步骤8‑4、计算总时间缓存奖励，表示如下：

[0061]

[0062] 其中，α为折扣系数；T表示总的时间周期数；表示用户ui在时间周期t时的请求状态；

[0063] 步骤8‑4、计算总时间缓存奖励的平均值，表示如下：

[0064]

[0065] 进一步的，所述步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题，表示如下：

[0066]

[0067]

[0068] 其中，表示内容fk的内容包集合；表示内容fk的第g个内容包的大小；表示用户ui是否缓存了内容fk的第g个内容包；π表示缓存策略；Π表示所有缓存策略的集
合；

[0069] 其中限制条件C1为缓存容量的限制，限制条件C2为二元缓存变量；

[0070] 进一步的，所述步骤10、为寻找最优缓存策略，同时为应对网络中的大量用户和内容，提出基于Q‑learning的协作编码缓存算法进行求解，具体包括：

[0071] 步骤10‑1、设定初始参数；

[0072] 设定初始时间周期，设定用户的请求初始状态、折扣参数和学习速率，设定网络内用户数量及内容数量，设定初始Q值；

[0073] 步骤10‑2、通过∈‑greedy算法来选择用户的缓存行为；

[0074] 步骤10‑3、缓存内容包决策；

[0075] 基于用户的缓存行为，在满足用户缓存空间的限制下，寻找使优化目标可减少的延时边际值最大的和内容包，具体如下：

[0076]

[0077] 步骤10‑4、评估每一次缓存行为获得的缓存奖励；

[0078] 步骤10‑5、更新Q表以及策略；

[0079] 步骤10‑6、判断迭代次数是否达到最大时间周期数，若是执行步骤10‑7，否则，返回步骤10‑2；

[0080] 步骤10‑7、得到最优的缓存策略。

[0081] 进一步的，所述步骤10‑2、通过∈‑greedy算法来选择用户的缓存行为；

[0082] 首先选择一个随机的概率θ，将θ与网络中设定的探索概率进行比较，如果θ＜ε那么系统会选择用户已有的缓存行为再次学习，反之，当(1‑θ)＜ε时，系统会选择用户的一个
新缓存行为进行学习。

[0083] 本发明的优点及有益效果如下：

[0084] 本发明为一种基于动态请求D2D网络中的协作编码缓存方法，是在D2D通信技术与无线网络缓存技术的基础上提出的。首先，网络中的内容通常被考虑成完整的，但是随着大
数据时代的到来，内容变得越来越大，有时会造成D2D通信的中断，所以本方案利用内容编
码的方式解决这个问题，同时又发现网络中不同的用户会缓存相同的内容，造成缓存冗余，
这就需要加强用户间的协作，通过信息交互降低缓存冗余；此外目前大量缓存方案设计中
往往以齐夫分布来描述用户的内容请求规律，即设定网络在某个时间内的流行度是不会发
生改变的，但这与现实生活相违背，因为用户的请求状态是实时变化的。所以，本发明通过
对用户请求状态动态变化进行分析，实时对用户请求状态进行学习预测，以此为基础，设计
协作编码缓存策略。首先采用编码缓存，利用MDS将内容进行分段编码处理后，可满足用户
的多样性需求、节省用户设备的缓存空间，提高传输的可靠性，降低链路拥堵情况，同时又
加强了用户之间协作性，降低网络的缓存冗余度，提升缓存命中率，为网络中的用户带来更
好地体验质量。其次，设计的协作编码缓存算法可以应用于大规模的网络，收敛速度较快，
解决了算法维数爆炸的问题。因此本发明可以满足用户对内容的多样性需求，有效降低了
内容传输延时、提高缓存命中率。

附图说明

[0085] 图1是本发明提供优选实施例的网络系统架构示意图；

[0086] 图2为本发明一种实施例的用户缓存决策过程图；

[0087] 图3为本发明一种实施例的D2D网络中智能体与环境交互图；

[0088] 图4为本发明一种实施例的平均传输延时与用户缓存空间大小关系曲线图；

[0089] 图5为本发明一种实施例的缓存命中率与用户缓存空间大小关系曲线图；

[0090] 图6为本发明一种实施例的平均传输延时与网络中内容数量关系曲线图；

[0091] 图7为本发明一种实施例的缓存命中率与网络中内容数量关系曲线图；

[0092] 图8为基于动态请求D2D网络中的协作编码缓存方法流程图。

具体实施方式

[0093] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

[0094] 本发明解决上述技术问题的技术方案是：

[0095] 本发明基于D2D网络的系统模型，其中包括基站以及大量用户设备，用户之间可进行D2D通信进行内容的分享。本发明主要解决用户间的缓存资源分配问题，以提高网络的缓
存资源利用率和用户的QoE。利用强化学习中的Q‑learning算法对用户的动态请求进行学
习预测，随后利用MDS编码对内容分段编码处理得到内容包。以此为基础设计基于动态请求
D2D网络中的协作编码缓存方法，降低了内容传输延时、提高缓存命中率。

[0096] 一种基于动态请求D2D网络中的协作编码缓存方法，包括以下步骤：

[0097] 步骤1、搭建网络架构；基于动态请求的D2D网络架构如图1所示，该架构包括两层网络，由基站构成的蜂窝网络与用户设备组成的D2D网络，其中用户对内容的请求具有动态
变化的特征，基站可满足用户对内容的需求；

[0098] 步骤2、建立D2D网络中的用户内容分享模型，具体如下：

[0099] 在D2D网络中，每个用户都是具有移动的特性，此时建立D2D就需要感知周围有哪些用户。通过发现这些用户，建立D2D通信链路进行内容分享和数据资源传输。如今，网络中
的用户密度变得越来越紧密。考虑用户在移动过程的物理位置作为度量，因为用户是不断
移动的，物理位置所对应的坐标就会实时变化，而D2D通信是有物理距离的限制的。当在D2D
网络中包含大量的移动用户，移动用户间的距离便决定了它们之间是否有建立D2D的可能
性。

[0100] 步骤2‑1、判断网络中的用户能否建立D2D通信，判断过程如下：

[0101] ||li‑lj||＜Rd (1)

[0102] 其中，其中，i表示用户ui，j表示用户uj，li表示用户ui的物理位置，lj表示用户uj的物理位置，Rd是D2D通信的最大距离；

[0103] 步骤2‑2、为每个用户寻找可建立D2D通信的潜在用户集合，表示为如下：

[0104] N(i)＝{i|i∈U,||li‑lj||＜Rd} (2)

[0105] 步骤3、将网络中的内容通过最大可分码(maximum distance separable，MDS)处理，得到多个内容包，MDS编码将内容fk先分成个相等内容片段再编为个互相独立、无
重复的内容包，用户收集任意个内容包就可以恢复出完整的内容fk；

[0106] 步骤4、用户获得内容包过程如下：

[0107] 步骤4‑1、当用户ui对内容fk发出请求时，用户ui首先查看本地缓存中是否缓存了fk的内容包；

[0108] 步骤4‑2、然后通过D2D网络从其他用户处获取内容包；

[0109] 步骤4‑3、如果用户ui收集的内容包总数大于则用户ui将能够恢复出完整的内容fk。否则，用户ui将从基站获取其他内容包以到达到来恢复内容；

[0110] 步骤5、计算在D2D传输过程中、基站向用户传输过程的内容传输延时，表示如下：

[0111] 步骤5‑1、利用信噪比来估算内容传输的传输速率，D2D链路以及基站的信噪比分别表示为：

[0112]

[0113]

[0114] 其中，PD2D、PBS分别是用户和基站内容传输的传输功率，是高斯白噪声的均方差，GD2D、GBS则代表是D2D和基站的信道增益；

[0115] 步骤5‑2、计算D2D和基站的信道增益，表示如下：

[0116] GD2D＝κ·dD2D‑ε (5)

[0117] GBS＝κ·dBS‑ε (6)

[0118] 其中，κ表示路径损耗常数，ε表示路径损耗指数，d表示路径距离；

[0119] 步骤5‑3、计算用户通过D2D或者基站获得内容的下载速率，表示如下：

[0120] RD2D＝WD2D log2(1+SNRD2D) (7)

[0121] RBS＝WBS log2(1+SNRBS) (8)

[0122] 其中，WD2D，WBS表示D2D链路和基站与用户间链路的分配带宽；

[0123] 步骤5‑4、得到用户ui通过D2D链路或者基站获得内容包的传输延时，表示如下：

[0124]

[0125]

[0126] 其中，为内容fk的第g个内容包的尺寸大小；

[0127] 步骤5‑5、以用户从基站获取内容的下载速率为标准，排除下载速率低于用户从基站获取内容的下载速率，进一步筛选传输内容的用户，基于用户ui的潜在用户集合，得到用
户ui的邻近用户集合N′(i)，表示如下：

[0128]

[0129] 步骤6、分析用户的动态请求；

[0130] 将时间分成多个时间周期，即t＝1,2,...,T，并假设每个时间周期足够大，在一个时间周期内可以完成内容的检索和交付。每当一个时间周期结束后，网络中的用户会更新
自己所缓存的内容方便下一个时间周期的传输。

[0131] 在现实生活中，用户的请求状态是会随时间变化的，也就是说一天内的内容流行度会不断发生变化。在凌晨的时候，用户都处于睡眠状态，对内容的请求都较少，随着时间
推移，当到了白天工作学习和晚上休息的时候，网络的负载将达到最大，此时用户的请求也
会达到顶峰，对流行的内容需求更大。还有一种特殊情况是当出现某些受关注度较高的事
件时，多数用户都会因好奇而打开该视频，此时该内容的流行度较高。所以内容的流行度会
影响用户对内容的请求状态，也是用户决定是否缓存内容的标准之一。

[0132] 内容流行度是符合Zipf分布的，内容受欢迎的程度可表示为：

[0133]

[0134] 其中，r是分布参数，决定内容受欢迎的程度；fv是内容被用户请求频率的排序。需要注意的是每个内容的内容包在网络用户中的受欢迎程度是相同的，但不同的用户的请求
是相互独立的。

[0135] 用户请求将受内容流行度会影响有多个请求状态，该现象遵循有限状态的马尔可t
夫过程，首先定义时间周期t内的用户ui请求内容的行为可以描述为1×G的请求向量Pi ，其
中的组成元素表示时间周期t内的用户ui请求内容fk的内容包g平均期望。所
以用户的请求状态遵循状态集合为的马尔可夫过程，其
m
中，P (rm)代表用户请求状态中的第m个状态由Zipf分布Pk的分布参数r构造，且用户的请求
状态共有M个。为了获得用户变化的请求状态，可以通过观察实时内容请求来判断每个内容
的受欢迎程度，表示如下：

[0136]

[0137] 步骤7、将D2D网络中的编码缓存问题建立为马尔科夫决策过程(Markov decision process，MDP)，MDP问题可以定义为一个元组

[0138] 是网络中所有用户可能状态的集合，定义si为用户ui的状态集合，可表示为si＝1 m M
{si(P(r1)),...,si(P (rm)),...,si(P (rM))}，用户们si的所有状态构成了整个系统的状
态。

[0139] 是所有用户的可行缓存行为的行为集合，D2D网络中的用户ui将是否缓存内容fk的第g个内容包的决策视为一个动作，该动作可表示为且当时，
代表用户ui缓存内容fk的第g个内容包，反之，用户ui不缓存内容fk的第g个内容包时，
用户ui可以缓存多个内容包，但不能超过自身的缓存容量Ci，该限制条件可以表
示为：

[0140]

[0141] 所以，所有用户的缓存行为表示为

[0142]

[0143] 代表奖励函数，本方案中的奖励函数是如果用户在状态s的情况下执行动作x时，可节约的平均内容传输延时。

[0144] 如图2所示，用户ui在时间周期t内的MDP可以描述为：

[0145] 1)用户ui首先感知当前的内容流行度情况，以此确认当前的请求状态

[0146] 2)基于当前的请求状态用户ui选择相应的缓存行为

[0147] 3)基于用户ui选择的缓存行为系统将得到奖励函数的奖励然后系统将根据状态转移概率转换到下一个新状态

[0148] 4)新状态获得的奖励再返回给用户。

[0149] 步骤8、计算系统缓存奖励的平均值，过程如下：

[0150] 步骤8‑1、每次缓存行为带来的网络中可减少的平均传输延时作为缓存奖励，在时间周期t内用户ui请求内容fk的第g个内容包可减少的内容传输延时，表示如下：

[0151]

[0152] 其中，表示用户ui向基站请求内容fk的第g个内容包的传输延时，则表示用户ui获得该内容包的实际内容传输延时，表示如下：

[0153]

[0154] 其中，用来判断用户ui能否从邻接用户集合中获得内容fk的第g个内容包，表示用户ui从邻接用户集合中获得内容fk的第g个内容包的最低内容传输延
时，表示如下：

[0155]

[0156] 其中，(uj)i代表用户ui通过D2D的获得内容fk的第g个内容包的最低内容传输延时的用户是用户uj，用来判断用户ui的邻接用户集合中有哪些用户缓存了内容
fk的第g个内容包，

[0157] 步骤8‑2、计算用户ui恢复内容fk的可减少的内容传输延时，表示如下：

[0158]

[0159] 步骤8‑3、计算用户ui多次恢复请求的内容可减少的内容传输延时，表示如下：

[0160]

[0161] 步骤8‑4、计算总时间缓存奖励，表示如下：

[0162]

[0163] 其中，α为折扣系数，可以确定当前缓存行为对未来奖励的影响，且0≤α≤1；

[0164] 步骤8‑4、计算总时间缓存奖励的平均值，表示如下：

[0165]

[0166] 为了找到最优策略π*，就是使总时间的系统奖励的平均值达到最大，表示如下：

[0167]

[0168] 其中，Π是所有策略的集合，表示为Π＝{π(s1),....,π(si),....,π(sn)}。

[0169] 步骤9、以最大化总时间缓存奖励的平均值为优化目标，建立优化问题，表示如下：

[0170]

[0171] 其中限制条件C1为缓存容量的限制，限制条件C2为二元缓存变量；

[0172] 步骤10、为寻找最优缓存策略，同时为应对网络中的大量用户和内容，提出基于Q‑learning的协作编码缓存算法进行求解；

[0173] 如图3所示，智能体表示的是D2D网络中的用户设备，而除了智能体以外的一切便是环境，在智能体与环境的交互中，智能体从环境中获取到状态信息，根据状态信息采取行
动在计算行为的奖励，以此不断更新行为‑状态值，即Q值，从而获得策略。

[0174] 步骤10‑1、设定初始参数；

[0175] 设定初始时间周期，设定用户的请求初始状态、折扣参数和学习速率，设定网络内用户数量及内容数量，设定初始Q值；

[0176] 步骤10‑2、通过∈‑greedy算法来选择用户的缓存行为；

[0177] 在学习过程中，Q‑learning一般采用∈‑greedy算法来选择行为以平衡行为的“利用”与“探索”，在时间周期t时，用户ui的状态‑行为对产生的奖励值为且瞬时误
差为

[0178]

[0179] 根据梯度下降算法，迭代方程表示如下：

[0180]

[0181] 在Q‑learning算法中通过随机梯度下降的方法不断更新Q值，Q值更新公式如下：

[0182]

[0183] 步骤10‑3、缓存内容包决策；

[0184] 基于用户的缓存行为，在满足用户缓存空间的限制下，寻找使优化目标可减少的延时边际值最大的和内容包，具体如下：

[0185]

[0186] 步骤10‑4、评估每一次缓存行为获得的缓存奖励

[0187] 步骤10‑5、更新Q表以及策略，表示如下：

[0188] 更新Q表通过：

[0189]

[0190] 更新策略通过：

[0191]

[0192] 步骤10‑6、判断迭代次数是否达到最大时间周期数，若是执行步骤10‑7，否则，返回步骤10‑2；

[0193] 步骤10‑7、得到最优的缓存策略；

[0194] 对本发明提出的基于动态请求D2D网络中的协作编码缓存方法的整体性能进行比较分析，具体如下：

[0195] 图4为本发明一种实施例的平均传输延时与用户缓存空间大小关系曲线图。随着用户缓存容量的增加，五种缓存策略的内容平均传输延时都逐渐下降，其中已知状态转移
概率情况的内容平均传输延时是最低的，其次是我们提出的策略，接下来分别是用户无协
作情况和最大流行度编码缓存策略，而随机编码缓存策略的内容平均传输延时是最高的。
已知状态转移概率情况的内容平均传输延时是最低的原因是该策略已经提前知道了用户
请求状态的转移概率，利用该信息缓存内容，但我们提出的策略可以通过在线学习的方式
学习用户的请求状态，从而缓存用户最需要的内容。由此，可以验证我们提出的策略是可以
准确预测到习用户的请求状态的，同时也说明该策略最大程度的利用用户的缓存容量满足
用户的需求，并加强用户间的协作，减少缓存冗余。

[0196] 用户无协作情况的内容平均传输延时是略高于我们提出的策略，因为忽略了用户间的协作，用户间会缓存大量相同的内容包造成缓存冗余，导致延时的增长。而最大流行度
编码缓存策略每次都选择最流行的内容缓存起来，但是最流行的内容并不代表了用户所有
的请求，若用户请求不流行的内容时，该策略的缺点便显现出来。同时，随机编码缓存策略
是随机缓存内容，这完全忽略了用户的请求状态，造成较高的内容平均传输延时。

[0197] 图5为本发明一种实施例的缓存命中率与用户缓存空间大小关系曲线图。随着用户的缓存容量的增加，用户可缓存的内容包数量是不断增加的，但是内容数量是没有发生
变化的，所以，用户的缓存容量的增加导致缓存命中率的增长。可以直观的观察到我们提出
的策略的命中率与已知状态转移概率情况基本保持一致，说明我们的算法可以较好地预测
用户请求状态，缓存用户最需要的内容，从而有效提高了缓存命中率。我们提出的策略的命
中率比用户无协作情况高5％左右，说明我们提出的策略可以在本地缓存满足大部分用户
的需求，以此充分发挥D2D通信技术的优势，提升用户间的内容分享与协作能力，减少BS的
传输压力。

[0198] 此外，提出的策略的命中率高于最大流行度编码缓存策略20％左右，与随机编码缓存策略相比则高于30％左右，其增长趋势也较高于最大流行度编码缓存策略、随机编码
缓存策略，因为这两种策略分别是根据高的流行度和随机的概率缓存内容包，而忽略了用
户在不同时间周期的请求状态的变化，缓存的内容不是用户所需求的，造成命中率较低。

[0199] 图6为本发明一种实施例的平均传输延时与网络中内容数量关系曲线图。其中，随机编码缓存策略的内容平均传输延时高于其他四种缓存策略，因为该策略是随机的缓存内
容包，忽略了用户的实际需求，很多时候不能够满足用户的需要，造成了缓存容量的浪费。
同时，最大流行度编码缓存策略的内容平均传输延时是高于其他三种缓存策略而略低于随
机编码缓存策略，因为它只考虑了最流行的内容，而忽略了用户需求的多样性，只缓存流行
内容会造成网络中的用户会缓存相同的流行内容的情况，这样不仅造成了大量相同内容的
缓存冗余，也浪费了宝贵的缓存容量。

[0200] 对于已知状态转移概率情况策略和用户无协作情况策略，提出的策略的内容平均传输延时略高于已知状态转移概率情况，因为已知状态转移概率情况利用已知的用户请求
状态的转移概率提前对内容包进行预缓存。另外，可以观察到提出的策略在内容数量较大
的情况下，依然保持着较好的性能，内容平均传输延时始终是低于用户无协作情况，因为该
策略有效地减少了缓存内容包的冗余。换句话说，提出的策略通过学习用户不同时间周期
的请求状态，确定缓存决策，让有更多不同的内容包有机会被缓存，在满足用户的多样性需
求下，有效减少了缓存重复内容的冗余度，间接提升了网络中用户间D2D通信协作能力，为
网络中的用户带来了更好的体验质量。

[0201] 图7为本发明一种实施例的缓存命中率与网络中内容数量关系曲线图。与内容平均传输延时分析相一致的是，内容数量越多，缓存命中率就越低。原因与之前的解释是相同
的，内容数量的激增导致用户的请求变得更加广泛，但是用户的缓存空间却是固定不变的，
这就需要更加精准的确认该缓存哪些内容包可以为D2D网络中的用户带来最好的效果，缓
存决策就变得尤为重要。可以发现随机编码缓存策略的命中率最低的，随后是最大流行度
编码缓存策略、用户无协作情况，然后是我们提出的策略，命中率最高的是已知状态转移概
率情况。我们提出的策略在小规模、大规模内容两种情况下的性能都是较好的。

[0202] 通过上述的仿真比较，可知本发明提出的基于动态请求D2D网络中的协作编码缓存方法是有效的，本发明算法针对用户对网络中热点内容的动态请求进行预测，对内容缓
存部署进行优化，充分发挥了D2D网络中用户间的协作性，降低了缓存冗余，提升了网络的
整体存储空间，从而降低了内容传输延时、提高缓存命中率。

[0203] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包
括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要
素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。

[0204] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变
化和修饰同样落入本发明权利要求所限定的范围。

基于动态请求D2D网络中的协作编码缓存方法转让专利

申请号 : CN202110036543.9

文献号 : CN112911614B

文献日 : 2022-05-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 林鹏 , 马云鹏 , 宋清洋 , 亓伟敬

申请人 : 重庆邮电大学

摘要 :

权利要求 :

说明书 :