一种资源分配方法及系统-j9九游会真人

文档序号:35696147发布日期:2023-10-11 19:11阅读:4来源:国知局

一种资源分配方法及系统
【技术领域】
1.本发明涉及通信资源分配技术领域,尤其涉及一种资源分配方法及系统。


背景技术:

2.在许多现有的无线通信系统中,单个设备能够同时从多个不同的天线发送一个或多个数据流。通常,将预编码应用于数据流以便在天线之间分派它们。即,数据流在从其各自的天线被发送之前被乘以不同的权重和相移。预编码是将传入数据(例如,分层数据)分派到不同天线端口的过程。这可以提供单流波束成形,其中在这些天线中的每个天线上发送相同的数据流。在本发明中,从多个天线发送的线性组合信号产生定向辐射波束。这通常被称为波束成形。
3.在另一个示例中,被称为多输入多输出(mimo),可以对多个数据流进行预编码并从不同的天线发送。借助于由分开放置的天线提供的空间分集,信道的总容量可以被乘以层或流的数量。研究继续以推进mimo技术。例如,多用户mimo(mu-mimo)为具有单个天线的多个在空间上分布的用户提供对mimo信道的多路接入。mu-mimo可以提供与传统的单用户mimo相比显著提升的性能。大规模mimo-noma-swipt系统可以服务多个用户并提高能量效率。但当用户设备过多时,能量效率提升较为有限,所以合理分配有限的无线通信资源是实现绿色通信的重要j9九游会真人的解决方案。
4.因此,有必要研究一种资源分配方法及系统来应对现有技术的不足,以解决或减轻上述一个或多个问题。


技术实现要素:

5.有鉴于此,本发明提供了一种资源分配方法及系统,为了解决dqn框架进行用户调度时存在的过度估计问题,引入了ddqn结构来解耦动作选择和评估过程,其次,考虑到系统中用户的自主学习能力,建立用户作为智能体的多智能体场景,最后,因为多智能体场景中多个用户间相互影响且智能体缺乏全局信息共享,提出了基于maddqn-dmaddpg的用户调度、功率分配和功率分流的联合优化算法,本发明可以最大化系统用户总能效且快速收敛。
6.一方面,本发明提供一种资源分配方法,所述资源分配方法基于大规模mimo-noma-swipt系统实现,所述资源分配方法包括以下步骤:
7.s1:建立大规模mimo-noma-swipt多用户下行链路系统模型;
8.s2:通过s1中模型建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
9.s3:将多变量联合优化问题模型进行分解动作并解耦;
10.s4:引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
11.s5:输出资源优化分配方法。
12.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s1中系统模型包括一个配备n个发射天线的基站和k个用户,其中n为不小于2的正整数,模型建立
过程使用全连接混合预编码,配备n个射频链通过空间复用来支持单天线。
13.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s2中多变量联合优化问题模型考虑用户服务质量和基站最大发射功率约束。
14.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s3中具体为:引入ddqn结构,将选择动作与评估动作两个过程解耦。
15.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s4中智能体选择动作根据的是当前网络的在线权重参数,评估动作时根据目标网络的权重参数。
16.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s4具体为:引入用户作为智能体的多智能体场景,使每一个用户都自主学习策略并做出最优动作。
17.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述s4的训练过程中,critic网络获取所有智能体的全局动作空间和全局状态信息空间,并对每个智能体的q值进行全局评估,在执行过程中,智能体仅观察自身状态,根据actor网络生成动作,并在执行动作后从环境中获得相应的奖励和新状态。
18.如上所述的方面和任一可能的实现方式,进一步提供一种基于分簇组网的资源分配系统,所述资源分配系统包括:
19.系统模型建立模块,用于建立大规模mimo-noma-swipt多用户下行链路系统模型;
20.优化问题模型建立模块,用于建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
21.解耦模块,用于将多变量联合优化问题模型进行分解动作并解耦;
22.自主学习模块,用于引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
23.结果输出模块,用于输出资源优化分配方法。
24.与现有技术相比,本发明可以获得包括以下技术效果:
25.1、研究大规模mimo-noma-swipt多用户下行链路系统中基于drl的用户调度、功率分配和功率分流的联合资源分配算法来解决多用户干扰和传统资源优化方法很难直接获得最优解且逐级寻优性能有限的不足。
26.2、首先,建立大规模mimo-noma-swipt多用户下行链路系统模型。在此基础上,考虑用户服务质量(quality of service,qos)和基站最大发射功率等约束下,建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型,以实现最大化系统用户总能量效率性能。
27.3、其次,考虑到利用dqn进行用户调度时基站智能体始终执行最大化操作来选择最优动作导致过度估计,引入了ddqn结构,将选择动作与评估动作两个过程解耦来解决该问题。具体来说,智能体选择动作依赖的是当前q网络的在线权重参数,而评估动作时依赖目标q网络的权重参数。
28.4、最后,因为基站智能体作为全局学习单元时每个用户被动执行动作,导致用户不具备自主学习能力,所以引入用户作为智能体的多智能体场景,使每一个用户都自主学习策略并做出最优动作。但是该场景下存在环境不稳定,训练收敛不能保证以及智能体训练过程中缺乏全局信息共享的问题,所以引入集中训练分布执行思想,提出了基于maddqn-dmaddpg的用户调度、功率分配和功率分流联合资源优化分配算法。在训练过程中,critic
网络获取所有智能体的全局动作空间和全局状态信息空间,并对每个智能体的q值进行全局评估。在执行过程中,智能体仅观察自身状态,根据actor网络生成动作,并在执行动作后从环境中获得相应的奖励和新状态。该算法在大规模mimo-noma-swipt多用户系统中可以快速收敛且最大化用户总能量效率。
29.当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有技术效果。
【附图说明】
30.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
31.图1是本发明一个实施例提供的大规模mimo-noma-swipt系统模型图;
32.图2是本发明一个实施例提供的基于maddqn-dmaddpg的联合用户调度、功率分配与功率分流优化算法框图;
33.图3是本发明一个实施例提供的资源分配方法在不同的折扣率下随迭代次数变化的用户总能量效率对比图;
34.图4是本发明一个实施例提供的资源分配方法在不同的学习率下随迭代次数变化的达到平稳状态所需步数对比图;
35.图5是本发明一个实施例提供的资源分配方法在不同的学习率下随迭代次数变化的损失值对比图;
36.图6是本发明一个实施例提供的资源分配方法在不同算法随时隙变化的用户总能量效率对比图;
37.图7是本发明一个实施例提供的资源分配方法的不同算法随迭代次数变化的用户总能量效率对比图;
38.图8是本发明一个实施例提供的资源分配方法的不同算法随用户数量变化的用户总能量效率对比图;
39.图9是本发明一个实施例提供的资源分配方法的不同算法随传输功率限制p
max
变化的用户总能量效率对比图。
【具体实施方式】
40.为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
41.应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
42.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
43.本发明提供本发明提供一种资源分配方法,所述资源分配方法基于大规模mimo-noma-swipt系统实现,所述资源分配方法包括以下步骤:
44.s1:建立大规模mimo-noma-swipt多用户下行链路系统模型;
45.s2:通过s1中模型建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
46.s3:将多变量联合优化问题模型进行分解动作并解耦;
47.s4:引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
48.s5:输出资源优化分配方法。
49.所述s1中系统模型包括一个配备n个发射天线的基站和k个用户,其中n为不小于2的正整数,模型建立过程使用全连接混合预编码,配备n个射频链通过空间复用来支持单天线。
50.所述s2中多变量联合优化问题模型考虑用户服务质量和基站最大发射功率约束。
51.所述s3中具体为:引入ddqn结构,将选择动作与评估动作两个过程解耦。
52.所述s4中智能体选择动作根据的是当前网络的在线权重参数,评估动作时根据目标网络的权重参数。
53.所述s4具体为:引入用户作为智能体的多智能体场景,使每一个用户都自主学习策略并做出最优动作。
54.所述s4的训练过程中,critic网络获取所有智能体的全局动作空间和全局状态信息空间,并对每个智能体的q值进行全局评估,在执行过程中,智能体仅观察自身状态,根据actor网络生成动作,并在执行动作后从环境中获得相应的奖励和新状态。
55.本发明还提供一种基于分簇组网的资源分配系统,所述资源分配系统包括:
56.系统模型建立模块,用于建立大规模mimo-noma-swipt多用户下行链路系统模型;
57.优化问题模型建立模块,用于建立用户调度、功率分配和功率分流因子的多变量联合优化问题模型;
58.解耦模块,用于将多变量联合优化问题模型进行分解动作并解耦;
59.自主学习模块,用于引入智能体对分解解耦后的多变量联合优化问题模型进行自主学习;
60.结果输出模块,用于输出资源优化分配方法。
61.本发明原理如下:
62.如图1所示的多用户下行链路大规模mimo-noma-swipt系统,基站配备n个发射天线。为了平衡系统硬件成本和频谱效率,在有限射频(radio frequency,rf)链的情况下实现高效的空间复用,本发明使用全连接混合预编码,仅配备n
rf
个射频链,以通过空间复用来支持k个单天线ue,使得n
rf
≤k<n。该系统中可以同时传输的波束数b等于rf链数目n
rf
。d=(d1,

,db,

,db)为n
rf
×
b维数字预编码矩阵,a
rf
为满足恒模约束(0≤i<n,0≤j<n
rf
)的n
×nrf
维模拟预编码矩阵。将k个ue调度到对应波束簇中。具体来说,ub=(α
b,1
,


b,m
,


b,k
)为第b个波束中的用户集合,α
b,m
=0表示第m个用户不在第b个波束中。|ub|为该用户集合中的用户总数,且满足由于每个用户能效共同决定系统用户能效总和,所以每个ue配备swipt的功率分路器用于rf能量收集以延长其寿命。每个swipt功率分流接收器包含两个电路来分别执行id和eh,其中β
b,m
(0<β
b,m
<1)表示第b个波束中第m个用户的功率分流因子。本发明考虑毫米波信道模型,且第
m个用户在第b个波束中的信道响应信号为由于快速变化的信道状态信息不是恒定的,本发明假设信道响应信号经由信道估计(channel estimation,ce)被bs和ue两者完美且瞬时地获知。
63.在传输信息期间,根据叠加编码技术实现多个ue信息同时传输。用x
i,j
来表示在第i个波束中传输到第j个ue的信号,该信号的数学期望满足e(|x
i,j
|2)=1。k个ue共享基站的总发射功率p。系统发射信号如下,
[0064][0065]
其中,发送后,第b个波束中第m个ue接收到的基带信号为
[0066][0067]
其中p=diag{p1,

,pb,

,pb}且}且为系统的白复高斯噪声。
[0068]
此外,假设β
b,m
(0<β
b,m
<1)表示第b个波束中第m个用户的功率分流因子,其对应的id可由下式给出,
[0069][0070]
其中是由功率分路器的信息解码过程引起的噪声。假设本发明采用线性eh模型,接收到的eh信号为
[0071][0072]
从上式(2.4)提取的功率用下式表示,
[0073][0074]
其中0≤η≤1表示每个ue的能量转换效率,||
·
||2是l0向量范数。所提取的功率可以用于后续信息传输。
[0075]
假设在接收端通过连续干扰消除(successive interference cancellation,sic)技术对用户进行完美解码。对于第b个波束内的用户,本发明假设噪声归一化的有效信道增益排序为解调后的第b个波束中第m个用户的id接收信号为
[0076][0077]
基于(2.6),第b个波束中第m个用户的信号噪声干扰比(signal to interference-plus-noise ratio,sinr)可以表示为下式
[0078][0079][0080]
第b个波束中第m个用户的瞬时可达速率为
[0081]rb,m
=log2(1 sinr
b,m
)
ꢀꢀꢀꢀꢀ
(2.9)
[0082]
第b个波束中第m个用户的瞬时能量效率为
[0083][0084]
其中α
b,m
p
b,m
为系统基站分配给第b个波束上第m个用户的发射功率,为第b个波束上第m个用户的电路消耗功率,为第b个波束上第m个用户ps接收机的接收功率。为总发射功率,pc为电路消耗功率,为所有用户处swipt的ps接收机接收的总功率。所以用户能效总和为
[0085][0086]
对于所提出的大规模mimo-noma-swipt系统,本发明考虑不同用户的qos需求,即不同的用户对信息传输速率的不同要求,最大化用户总能量效率,将用户调度、功率分配、功率分流因子联合优化问题表示为
[0087][0088][0089]
α
b,m
∈(0,1)
ꢀꢀꢀꢀꢀꢀ
(2.12b)
[0090][0091][0092][0093][0094]
[0095][0096]
(2.12a)表示所有用户分配的功率不可以大于基站总发射功率,(2.12b)表示任意一个用户是否被调度到波束中,(2.12c)表示任意一个用户分配到的功率要大于零,(2.12d)表示功率分流因子的约束条件,(2.12e)表示任意一个用户的qos约束,即每一个用户接收到的数据速率要大于其最小数据速率要求,(2.12f)表示任意一个用户接收到的功率必须满足其最小功率要求,(2.12g)表示任意一个波束中存在至少一个用户,(2.12h)表示同一个用户不可以占用不同波束。上述问题包括用户调度、功率分配、功率分流因子联合优化。这是一个复杂的联合优化问题。传统求解方法要么过于复杂,要么性能严重受限。且由于系统信道条件随机变化,在实际应用中很难得到全局最优解。而drl方法可以随环境变化不断自主学习并优化资源分配策略,进而最大化总累计回报的期望值,实现系统用户总能效最大化。因此,针对上述问题,本发明提出了基于drl的用户调度、功率分配和功率分流联合优化算法。
[0097]
基于maddqn-dmaddpg的用户调度、功率分配与功率分流联合优化算法
[0098]
由于dqn架构实现用户调度时,其状态动作策略始终直接选择具有最大q值的动作,导致过度估计问题。因此引入ddqn结构,将选择动作与评估动作的两个过程解耦来避免过度估计。此外,如果单个基站智能体全局学习单元去集中训练和集中执行,会造成每个用户被动执行全局单元的决策动作,从而不具备自主学习能力。因此,将基站作为智能体的单智能体场景转变为用户作为智能体的多智能体场景,每一个用户都自主学习策略并做出最优动作。在多智能体的环境下,一方面,每个用户不仅要考虑环境本身的动态变化,还要考虑其他用户的行为动作的影响。因此,从单个智能体的角度来看,其他智能体都是环境的一部分,当所有的用户都在学习改变他们的策略时,环境是不稳定的,训练的收敛也不能得到保证。另一方面,由于多智能体的系统缺乏全局信息共享,每个用户只根据自己的局部信息做出决策,而不知道其他智能体的行为动作和状态,所以智能体选择动作带来的奖励还有待提高,这就需要一个有效的学习框架。因此,提出了基于maddqn-dmaddpg的集中式训练、分布式执行的用户调度、功率分配和功率分流联合资源优化分配算法。
[0099]
算法框架设计
[0100]
在多智能体环境中,智能体、状态、动作和奖励被定义如下:
[0101]
智能体:系统的全部k个用户。
[0102]
状态:将时隙t时的状态s
t
∈s定义为
[0103][0104]
动作:动作空间a包含所有可能的用户调度因子α
b,m
,功率分配因子p
b,m
,和功率分流因子β
b,m
。因此k个智能体的联合动作可表示为
[0105]
[0106][0107]
为了表述清晰,将联合优化动作重写为其中和分别表示在时隙t时刻的用户调度动作,功率分配动作和功率分流动作。a1,a2和a3分别表示对应的动作空间。离散动作a1由maddqn网络架构决策生成,连续动作a2和a3由dmaddpg网络架构决策生成。
[0108]
奖励:第b个波束上的第m个智能体的能量效率为即时奖励r
t
∈r,即
[0109][0110]
优化目标为最大化长期累积折扣奖励
[0111][0112]
其中折扣率为γ∈[0,1]。
[0113]
基于maddqn的用户调度算法
[0114]
最大化式(3.4)等价于求最优策略π
*
。对于典型强化学习问题,q值函数描述了开始状态s
t
,在策略π指导下执行的动作a
t
以及后续的期望累积回报r
t
,被定义为
[0115][0116]
由贝尔曼方程可知,最优策略π
*
对应的最优q值函数定义为
[0117][0118]
状态-动作值q函数是一个非线性表达式,很难找到与其最大值对应的解。且本发明大规模mimo-noma-swipt多用户场景下状态和动作空间维度急剧升高,使得动作策略的学习过程变得十分缓慢。为解决这一问题,本发明采用基于dnn的q-learning方法来实现,即dqn架构。它的输入是系统状态信息,输出是当前状态下所有动作对应的q值,即q(s
t
,a
t
,ω),
ω
是q网络的权重向量。为了拟合q函数,dnn包括输入层、两个隐藏层和输出层,且非线性激活函数使用relu函数。
[0119]
基于dqn架构实现用户调度时,智能体通过q网络以
ò
(0<
ò
<1)概率随机选择动作,
[0120][0121]
为了使动作选择策略不断更新,输入从经验池采样的样本信息(si,ai,ri,s
i 1
)后,其生成的目标q值为
[0122]
[0123]
doubleqlearning算法的核心原理是将评估动作和选择动作分开,选择动作依赖的是当前的在线权重参数ω,而评估动作时依赖的是另外的权重参数ω

,即生成的目标q值表示如下
[0124][0125]
基于上述分析,结合doubleqlearning框架将选择动作的q网络与评估动作的目标q网络进行解耦的思想和dqn框架用目标网络参数代替另一个独立的q网络参数的思想,提出基于ddqn的用户调度算法来加快收敛,获得更好的最优回报。即
[0126][0127]
定义用户调度的联合状态空间和动作空间分别为s
t
∈s和则式(3.10)变为
[0128][0129]
最小化损失函数来训练q网络
[0130][0131]
基于dmaddpg的功率分配与功率分流联合优化算法
[0132]
在用户调度的基础上,考虑到功率分配和功率分流动作是连续动作空间,所以本发明利用基于actor-critic的ddpg网络,其中actor部分是基于策略的增强型dpg网络,critic部分是基于值的dqn网络。进一步,考虑到多智能体环境中智能体缺乏全局信息共享,本发明引入集中训练分布执行思想,提出基于maddpg的功率分配和功率分流联合优化算法。
[0133]
与随机确定策略梯度输出概率分布不同,由于ddpg采用确定性策略,所以直接输出确定的动作值,其决策性能得到了保障,但缺乏对环境的探索。因此,为了让智能体更加具备探索性能,在其输出动作后加入噪声,可以得到如下动作
[0134][0135]
其中ua为actor网络的参数,n代表正态分布噪声。由于动作是由确定性策略π(s
t
;ua)生成的,因此将(3.5)重写为
[0136]qπ
(s
t
,a
t
)=e[r
t
γq
π
(s
t 1
,π(s
t 1
;ua)]
ꢀꢀꢀꢀꢀ
(3.14)
[0137]
假设k个智能体的连续策略集是π={π1,

,πk},且和为对应策略和值的参数集。每个智能体可以根据观察各自的局部状态信息对功率分配做出独立的决策,即通过目标函数相对于策略πi的梯度来优化智能体i的连续策略参数
[0138][0139]
其中是全局动作值函数,是全局状态空间,rh和s
h 1
分别是全局动作空间、全局奖励和新状态。通过利用集中式存储-均匀回放的经验存储机制来打破训练样本的时间相关性,将信息(sh,ah,rh,s
h 1
)存储在经验池中。然后从中随机抽样h个样本组成一个小批次信息(h表示采样样本的索引值),以训练actor网络和集中式critic网络。
[0140]
定义更新智能体i的集中critic网络参数的损失函数为
[0141][0142]
其中,critic网络产生的输入和输出的定义如下
[0143][0144]
最后,每个智能体i按如下方式更新目标网络参数:
[0145][0146][0147]
其中参数通常取值如0.01,0.005等。
[0148]
在输出功率分配最优动作空间的基础上,继续使用maddpg框架进行功率分流因子动作的分配,如图2所示。
[0149]
仿真结果
[0150]
为探究所提算法对大规模mimo-noma-swipt系统中用户总能量效率性能的影响,设计了不同算法的用户总能效以及基站最大发射功率、用户数量和系统电路消耗功率对用户总能效性能影响的实验。对比算法有深度q网络-双深度确定性策略梯度(deep q network-double deep deterministic policy gradient,dqn-dddpg)算法(基站作为智能体),q学习-双演员评论家(q-learning double actor critic,q-learning-dac)算法,greedy strategy和random strategy。dqn与ddpg中dnn都由1层输入层、2层隐藏层和1层输出层组成,且层与层之间均是全连接。其中,输入层的神经元个数与输入状态空间中元素个数相同,隐藏层各层神经元个数均为64个且输出层的神经元个数与输出动作空间中元素个数相同。下表1给出了系统模拟仿真参数设置,表2给出了算法的超参数设置。
[0151]
表1系统仿真参数
[0152][0153]
表2超参数
[0154]
[0155][0156]
仿真3-1
[0157]
根据所提算法的系统用户总能效随迭代次数变化来研究超参数折扣率的影响。如图3,当折扣率过高,为γ=0.99时,智能体由于过度关注未来动作带来的收益,忽视了得到的即时奖励,所以用户能效总和下降。而当折扣率γ=0.8时,智能体对未来长期奖励的预测能力下降,导致用户能效总和最低且不能趋于稳定。所以选择折扣率γ=0.9是较为合适的。
[0158]
仿真3-2
[0159]
仿真3-2研究不同学习率下所提算法达到平稳所需步数随迭代次数的变化。在该仿真实验中,设置学习率α=(α
ddqn

actor

critic
)分别为(0.01,0.004,0.001),(0.001,0.0004,0.0001),(0.0001,0.00004,0.00001)。从图4可以看出,当学习率过大时,所提算法达到平稳所需步数变化明显。然而,当学习率取值过小时,需要花费很长时间才能收敛。因此,有必要选择学习率的合理值。
[0160]
仿真3-3
[0161]
仿真3-3研究不同学习率下所提算法的损失值随迭代次数的变化来分析其对算法拟合性能的影响。由仿真实验3-2可知,学习率低于(0.001,0.0004,0.0001)会导致收敛速度慢,所以该实验中设置学习率α=(α
ddqn

actor

critic
)分别为(0.1,0.04,0.01),(0.01,0.004,0.001),(0.001,0.0004,0.0001)。从图5可以看出,当学习率为(0.1,0.04,0.01)时,损失函数变化剧烈。由于学习率越大,反向传播误差对网络影响越大,则参数更新学习越
快,但同时受异常数据影响也越大,所以容易发散。随着学习率降低,损失函数振荡幅度逐渐平缓。但学习率为(0.01,0.004,0.001)时,提出的算法始终没有趋于收敛。当学习率为(0.001,0.0004,0.0001)时,所提算法始终保持较好拟合效果,且在迭代次数为450次左右时趋于平缓。所以设置学习率为(0.001,0.0004,0.0001)。
[0162]
仿真3-4
[0163]
为了研究所提的基于maddqn-dmaddpg的用户调度、功率分配和功率分流联合优化算法与不同对比算法随时隙数变化的用户总能效。该实验设置系统用户数量为10,信噪比为20db,最小数据速率为5bps/hz,最大发射功率为40w,运行的时隙数量为100次,迭代次数分别为100和1000。从图6(a)可以看出,所提算法较基于dqn-dddpg的算法和基于q-learning-dac的算法可以更快达到相对较优值,而基于贪婪的策略在时隙数为10000时仍然没有达到相对较优值,且基于随机策略的性能几乎始终没有提升。在图6(b)中,基于贪婪的策略由于其每一步总是选择当前收益最大的动作,导致在时隙数大约为40000时陷入了局部最优。此外,在迭代过程中,本发明所提算法的用户总能效最优且收敛速度最快。因为基于dqn-dddpg的算法和基于q-learning-dac的算法是由系统中单个基站智能体根据系统状态信息去做出动作决策,而基于maddqn-dmaddpg的算法中多个智能体均具有自主学习能力,根据全局信息来做出各自的资源分配动作,所以所提联合优化算法不仅收敛速度更快且能达到更优的用户总能量效率性能。
[0164]
仿真3-5
[0165]
仿真3-5研究不同算法随迭代次数变化的用户总能效性能。设置迭代次数为1000,且每一次迭代的时隙设置为100,其他参数与仿真3-4设置一致。从仿真图7可以看出,随迭代次数增加,基于随机策略的用户总能效始终最低,因为智能体在所有可选择的动作空间中随机选择动作。而基于贪婪的策略在大约迭代400次后就逐渐收敛,因为每个阶段都选择概率最高的动作,导致陷入了局部最优。随迭代次数变化,两个基于drl的联合优化算法都可以提升用户总能效,但提出的基于maddqn-dmaddpg的用户调度、功率分配和功率分流联合优化算法优于基于dqn-dddpg的算法。一方面,因为基于dqn框架进行用户调度时会过高估计动作,而所提的基于maddqn的用户调度方案通过在目标网络中将动作选择过程和评估过程分离避免了该问题。另一方面,因为本发明提出的基于dmaddpg的功率分配和功率分流联合优化方案不仅考虑了系统环境动态变化还考虑了多个智能体间相互合作的影响,使得每个用户都可以自主学习,所以提出的基于maddqn-dmaddpg的联合优化算法在大规模mimo-noma-swipt的多用户系统中取得了最优的用户总能量效率性能。
[0166]
仿真3-6
[0167]
由于本发明研究大规模mimo-noma-swipt多用户系统中用户总能效,所以设置不同算法随系统中用户数量变化的用户能效总和性能实验。设置系统用户数量为{10,12,14,16,18,20},信噪比为20db,运行的迭代次数为1000且每次迭代的时隙数为100,最大发射功率分别为40w和20w,其他参数与上述实验一致,仿真结果如图8所示。可以看出,所有算法的用户总能效都随系统用户数增加呈现下降趋势。其中基于随机和基于贪婪的策略实现的用户总能效始终最低,这是因为系统中用户数量增加,基于随机的策略随机选择动作的可能性增加,而基于贪婪的策略选择不同用户动作的概率变小,所以导致性能下降。随用户数增加,所提的基于maddqn-dmaddpg的算法实现了比基于dqn-dddpg的算法更优的用户总能效
性能。由于所提算法中将每个ue看作智能体,且采用集中训练分布执行模式,不仅考虑多个智能体与环境交互,也考虑其他智能体的影响,改进了基于dqn-dddpg的算法中集中学习和集中决策模式带来的不足。所以提出的基于maddqn-dmaddpg的用户调度、功率分配和功率分流算法更适合于大规模mimo-noma-swipt多用户系统。
[0168]
仿真3-8
[0169]
因为本发明研究基站最大发射功率约束下的用户总能量效率性能,所以设置不同算法随最大发射功率变化的用户总能效性能的实验。设置系统用户数量分别为10和20,信噪比为20db,最小数据速率为5bps/hz,运行的迭代次数为1000次且每次迭代的时隙数为100,基站最大发射功率p
max
分别为{10w,15w,20w,25w,30w,35w,40w}。在图9(a)中,随最大发射功率p
max
增加,所有算法的用户总能效均增加且逐渐平缓。因为最大发射功率约束阈值增大,虽然智能体可选择动作空间的维度不变,但是智能体选择功率分配因子和功率分流因子对应的奖励变大,所以用户总能效增加。而用户总能效性能变化最终近似平稳是因为基站最大发射功率增加到一定值时,系统可达和速率与总功耗之间达到了平衡。如图9(b),当用户数增多时,基站发射功率增加到40w时系统仍未达到平衡。此外,多个智能体在动作空间中随机选择动作,所以基于随机策略的用户能效总和性能最差,而基于贪婪的策略随最大发射功率增加陷入局部收敛。本发明提出的基于maddqn-dmaddpg的算法实现了比基于dqn-dddpg的算法更优的用户总能效性能。由于ddqn的引入,采用不同值函数来进行目标动作选择和评估,降低了基于dqn的用户调度方案的决策误差。此外,引入多智能体drl的思想,在网络训练过程中,不仅考虑智能体自身状态信息,还考虑其他智能体和系统环境的全局状态信息。紧接着在执行过程中,智能体根据本身策略仅通过自身所处状态就可以做出最优决策。所以本发明提出的基于maddqn-dmaddpg的用户调度、功率分配和功率分流的联合优化算法在可以满足最大功率限制下实现最优的用户总能效。
[0170]
本发明研究大规模mimo-noma-swipt多用户系统中基于drl的联合资源分配算法来解决多用户干扰和传统资源优化方法很难直接获得最优解且逐级寻优性能有限的不足。具体来说,引入了ddqn结构,将选择动作与评估动作两个过程解耦来解决dqn框架进行用户调度时基站智能体始终执行最大化操作来选择最优动作所导致的过度估计问题。此外,引入将用户作为智能体的多智能体场景,使每一个用户具有自主学习能力并做出最优动作。最后,引入集中训练分布执行的思想,克服多智能体场景下环境不稳定,训练收敛不能保证以及智能体训练过程中缺乏全局信息共享的问题,并提出了基于maddqn-dmaddpg的用户调度、功率分配和功率分流联合资源优化分配算法。仿真验证,所提出算法在大规模mimo-noma-swipt多用户系统中可以快速收敛且实现用户总能量效率最大化。
[0171]
以上对本技术实施例所提供的一种资源分配方法及系统,进行了详细介绍。以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
[0172]
如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语,故应解释成“包
含/包括但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本技术的较佳实施方式,然所述描述乃以说明本技术的一般原则为目的,并非用以限定本技术的范围。本技术的保护范围当视所附权利要求书所界定者为准。
[0173]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
[0174]
应当理解,本发明中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0175]
上述说明示出并描述了本技术的若干优选实施例,但如前所述,应当理解本技术并非局限于本发明所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本发明所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本技术的精神和范围,则都应在本技术所附权利要求书的保护范围内。
当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图