多波束衛星動態信道資源分配算法

2019-06-27 00:22:30 移動通信2019年5期

劉召 許珂

【摘? 要】多波束衛星移動通信系統通過頻率復用技術提升了頻譜效率,但由于波束間通信業務量分布具有非均勻特性,導致資源利用率較低。針對以上問題,結合強化學習技術,研究設計能夠避免同頻干擾的動態資源分配算法,結果表明,該算法大大降低了系統阻塞概率,信道資源得到進一步有效利用。

【關鍵詞】強化學習;信道資源分配;Q-learning

中圖分類號:TN510.50

文獻標志碼:A? ? ? ? 文章編號:1006-1010(2019)05-0027-06

1? ?引言

衛星移動通信系統經歷了全球波束、區波束到多點波束的發展歷程,通過多波束間頻率及資源動態靈活配置,可進一步提升衛星移動通信系統性能[1]。在多波束衛星移動通信系統中,每顆衛星攜帶多個波束,分別覆蓋地面不同區域,這些波束合起來共同完成單顆衛星的地面可視區域覆蓋。衛星移動通信系統覆蓋范圍較廣,尤其是高軌衛星,有些波束區域可能覆蓋極地、沙漠等終端用戶較少的區域,而有些波束則覆蓋在城市、村莊等衛星終端用戶較多的地區,如圖1所示。

由于衛星終端在地理空間上分布不均勻,使得衛星移動通信系統波束間的通信業務量差異較大,信道資源需求量不同。若采用固定頻譜分配方式,即使該波束內的用戶沒有使用該資源,其他波束用戶也不能使用該資源,容易造成信道資源的浪費[2]。

對動態資源分配方式而言,所有的信道資源均可以被各個波束用戶所使用,根據各個波束的業務請求用戶數進行資源的分配,相比于固定頻譜分配方式,具有較高的資源利用率優勢。然而,由于每個波束用戶均可以使用所有的信道資源,在資源分配的過程可能會將同一個信道分配給距離較近的用戶,進而產生干擾,影響系統通信服務質量。因此,在設計動態資源分配方案時應考慮用戶的信道增益信息,避免同頻干擾的影響。另一方面,作為機器學習的一種,強化學習旨在智能體與環境的交互中,通過環境的反饋而提升自身決策能力[3]。因此可以結合強化學習技術,通過衛星與當前通信環境進行交互,獲得信道的增益等狀態信息,根據各波束用戶的業務請求實現衛星系統資源的動態分配,提高系統通信服務性能[4]。

2? ?基于Q-learning的動態資源分配算法

強化學習的思想來自于條件反射理論和動物學習理論,它是受到動物學習過程啟發而得到的一種仿生算法。智能體(Agent)通過對感知到的環境狀態采取各種試探動作,獲得環境狀態的回饋獎賞值,從而修改自身的動作策略以獲得較大的獎勵或較小的懲罰,強化學習就是這樣一種賦予Agent學習自適應性能力的方法[5]。強化學習算法的基本模型框圖如圖2所示:

圖2表示了智能體與環境交互的過程,為了方便表述,通常會將強化學習問題建模為一組馬爾科夫決策過程(MDP, Markov Decision Process),所以強化學習著重研究在轉移概率和獎賞函數未知的情況下,系統如何學習最優策略[6]。具體而言,智能體在時刻t通過對環境的觀測以獲得對環境的抽象表達即狀態St∈S,然后智能體基于優化目標策略,并根據當前狀態St選擇執行動作at∈A(St),進而環境發生變化時以概率p(St+1|St,St,at)進入下一個狀態St+1∈S,同時從環境中獲得立即收益rt+1∈R。

Q-learning是強化學習中一種經典的無模型學習算法,它利用狀態-動作值函數Q(s,a)帶入Bellman公式(式(1))中進行迭代更新,利用獎賞函數r作為估計來選擇下一步動作并優化狀態-動作值函數。

其中a為學習速率,γ∈[0,1)是折扣因子。從中可以看出,學習速率a越大,保留之前迭代更新的Q值的效果就越少;折扣因子γ越大,未來回報對當前的影響就越大,即maxQ(s',a')所起的作用就越大。若γ越小,則當前的利益r作用越大,即更加注重當前利益。式(1)中Q值可以看作是由當前狀態和動作下的立即回報加上被γ折算的后續狀態的Q值組成。因此Q-learning的思想是不斷迭代來優化學習狀態-動作值Q(s,a),通過Q值對累積回報進行估計,尋找最優策略[7]。

考慮到每個業務請求時刻下,各個小區的用戶業務請求數量不同,信道資源分配不均的問題,本文提出基于Q-learning的動態資源分配算法,該算法根據每時刻下波束對信道資源需求量不同,實現一種能夠使衛星移動系統的總體性能達到最優的信道資源分配方案,并且在信道資源分配過程中,考慮到同頻干擾的影響,避免將同一信道資源分配給復用距離之內的用戶或波束。進一步地,對動態資源分配問題進行分析,將其轉化為強化學習中智能體與環境交互過程中的一組馬爾科夫決策過程。把衛星看做Agent,本文以地球同步軌道衛星為例,將當前業務請求時刻下的各個波束業務請求用戶數量和波束對信道占用的初始狀態映射為環境,在每個業務請求時刻下,根據智能體所處的環境,利用Q-learning算法來觀測環境狀態和獲取環境的獎勵信號,學習狀態-動作值函數,逐步改變信道資源分配策略,完成衛星系統的動態信道資源分配。其動態資源分配模型如圖3所示:

在圖3中,Q值表完成從環境狀態到相應動作Q值的映射,Agent根據Q值表采用ε-greedy方法選擇動作,進一步地,Agent觀測當前環境的狀態,再利用獲得的環境獎勵信號根據式(1)進行Q值表的更新。

由于本文所提的動態資源分配算法采用的是Q-learning算法,該方法是基于時間差分(TD, Temporal Difference)無模型的強化學習方法,不需要對MDP過程中的狀態轉移概率進行建模,但需要對相應動態資源分配優化問題中的狀態、動作和收益等基本要素進行定義。

2.1? 狀態空間

狀態是對環境形式化的抽象,同時也是確定所執行動作的依據。衛星通信系統通過星載多波束發射機在地面上形成N個波束,由B={n|n=1,2…,N}表示。系統中可用的信道集合由C={m|m=1,2…,M}表示,其中每個信道資源正交且互不重疊,大小為Csubc=Ctotc/M,Ctotc表示系統總共可用的信道資源。波束n的信道資源分配狀態可以用矢量wn標識,記為wn=[wn,1,wn,2,…,

wn,M]T,其中每一項wn,m∈{0,1}表示波束n對子信道m的占用情況,1表示占用,0表示空閑未占用。則衛星系統中所有波束的信道分配向量構成了衛星系統總的信道分配矩陣,表示為W=[w1,w2,…,wN]。

為了縮小狀態空間,加快學習速率,考慮到在進行動態資源分配時,需要避免或者抑制同頻干擾的影響,可以從環境W矩陣中抽象出的狀態為當前各個波束可用的信道資源矩陣V=[v1,v2,…,vN],其中vn=[vn,1,vn,2,…,vn,M]T,表示每個波束可用的信道資源情況,在進行狀態轉移時已經將同頻干擾的影響考慮在內,vn矢量中的每個元素取值及所代表的意義如式(2)所示:

假設相鄰小區不能使用同一信道資源,當波束a占m號信道資源后,則在可用信道資源矩陣V中,波束a對于m號信道資源取值為1,其相鄰波束對于m號信道資源的情況取值為-1,即表示該信道資源不可用,從而也避免同頻干擾的存在。為此,該Q-learning算法中的狀態可以定義為式(3):

如式(3)所示,狀態空間中不同狀態由可用信道資源矩陣表示,對于所有的波束而言,當前沒有可用的信道資源或所有波束下用戶均有資源可用時,則到達終止狀態。當未達到終止狀態時,智能體可以根據當前狀態中可用的信道資源進行動態資源分配動作的選取。

2.2? 動作空間

動作是智能體對環境的輸出,在本文所提算法中,即將可用的信道資源分配給業務請求的用戶。根據智能體所處的環境和狀態,動作選擇的依據是從可行動作集合A(st)中依概率ε選擇具有最大Q值的動作去執行。為此,首先需要確定既定狀態st下的可行動作集合A(st)。在本方案中,每個狀態下可行的動作集合為各個波束可用的信道的集合,基于此,將動作at定義為式(4):

該動作at表示在狀態st下可用的信道資源集合(即狀態st中取值為0的元素集合)中,選取波束n,為其分配信道資源m。通過不同狀態下根據Q-learning中策略選取不同動作,將衛星系統中可用的信道資源分配給各個波束。

2.3? 回饋獎賞

收益是智能體與環境交互過程中來自環境的反饋,是對在確定狀態下選取動作后的評價,也是衡量動態資源分配算法性能優劣的指標。為了計算方便,可以將獎賞函數設計為與系統性能正相關的標量值,我們以系統阻塞概率來衡量系統性能,即優化目標是系統的阻塞用戶數量最小,考慮到每業務請求時刻下,根據各波束業務請求用戶量學習出一種信道資源最優分配方式,則設計的獎賞應與終止狀態時的系統性能有關,故在智能體每達到終止狀態后給一個最終獎勵,如式(5)所示:

式(5)中Rmax表示的最大的獎賞值,為一標量正值;Ublock表示當前系統阻塞用戶數,Uall表示系統中總共請求業務的用戶數。從式(5)中可以看出,系統中阻塞用戶數越少,獲得的獎勵越多,則系統的總體效用性能也越高。因為智能體更加注重到達最終狀態時的獎勵,故可以將在狀態轉移過程的立即獎賞設置為0。

基于上文所述的環境、狀態、動作和獎賞的定義,本文所提的基于Q-learning動態資源分配算法的具體實現如下所示:

初始化衛星系統相關參數,V=,W=;

初始化Q-learning算法中相關參數,給定學習速率a,折扣因子γ,初始探索概率εinit;

初始化Q(s, a);

For t=1, T個業務請求時刻;

更新

Q(s, a),? s∈S,a∈A(s),給定探索概率ε=εinit;

初始化該時刻下智能體所處的環境,Vt←Vt-1,Wt←Wt-1;

For every episode

給定初始狀態s0=Vt;

更新探索概率ε=max(ε-εgap,εf);

Repeat

根據狀態si計算可行的動作集合A(si);

在狀態si下以ε概率隨機選擇動作ai∈A(si);

否則選擇ai=argmaxaQ(si ,a);

執行動作ai改變環境Vt、Wt,并獲取下一狀態si+1和獎賞回報ri;

更新Q值表;

Q(si ,ai)←Q(si ,ai)+α(ri +γmaxQ(si ,a)-Q(si ,ai));

s=si;

Until s是終止狀態;

End For

輸出最終策略π(S)=argmaxaQ(s ,a)

和最終信道分配結果Wt;

相關性能統計。

算法流程中的動作選擇策略采用ε貪婪策略,即以概率ε∈[0,1]隨機進行動作選擇,否則選擇具有最大Q值的動作并執行,如此可避免陷入局部最優,探尋可行的全局最優方案。為了加速收斂,對探索概率ε采用線性下降準則,衰減因子記為εgap,以從初始的探索概率εinit衰減到最終的探索概率εf。

3? ?仿真結果與分析

為了更好地驗證所提算法的性能,我們在matlab仿真平臺上進行了驗證,選取了不同業務分布下作為仿真場景,并與固定的頻率復用信道分配(FCA, Fixed Channel Allocation)算法進行了對比。結果表明,所提出的基于Q-learning的動態資源分配算法(Q-learning DCA)在多種場景下可以達到較低的阻塞概率。

仿真中將多波束衛星假定為7個波束,業務到達模型服從參數為λ的泊松分布,業務持續時長服從參數為μ的負指數分布,具體的仿真參數配置如表1所示:

仿真中用于對比的算法為FCA算法,即傳統的頻率復用方案,該算法中系統將可用的信道固定劃分為幾個子集,每個波束從劃分子集中選擇一個集合作為可用的信道分配集,本次仿真中取FR=4。

3.1? 波束間業務量均勻分布情形

本場景下每波束的業務到達率相同,業務持續時間恒定為μ=3個業務時刻,圖4所示的為兩種算法在不同業務到達率λ(個/業務時刻)下的系統阻塞概率性能:

如圖4所示,阻塞率隨著業務到達率的增加而變大,這主要是因為隨著業務的增加,由于可用的信道數是固定的,會有更多的業務因無法獲得服務而被阻塞。相同業務到達率下,所提的Q-learning DCA算法相比FCA算法可實現更低阻塞率。如在業務到達率λ=80時,FCA和Q-learning DCA兩種算法的阻塞率分別為0.321和0.157。同時,在系統阻塞率性能為0.10時,FCA和Q-learning DCA兩種算法的可承載業務量分別為λ=40和λ=68,也就是說,所提的Q-learning DCA算法相比于FCA算法,可提升約0.7倍的負載承載量。

3.2? 波束間業務量非均勻分布情形

本場景下波束間業務非均勻分布,業務持續時長恒定為μ=3。圖5為兩種算法在不同業務平均到達率λ-下的系統阻塞率性能:

如圖5所示,系統阻塞率隨著業務平均到達率λ-的增加而變大,該仿真結果及原因與圖4基本相同。而進一步通過對比圖5和圖4,可發現FCA算法的系統阻塞率在非均勻分布情形下明顯高于均勻情形。作為對比,Q-learning DCA算法在均勻與非均勻業務情況下,阻塞率性能基本保持不變。此外,在系統阻塞率值表為0.10時,FCA和Q-learning DCA算法可承載業務量分別為λ-=35和λ-=66。也就是說,Q-learning DCA算法相比于FCA而言可提升0.9倍左右的業務承載量。

3.3? 算法收斂性能分析

根據上述不同場景下的性能分析,可以看出所提出的Q-learning DCA算法相比于傳統的FCA算法均有較大性能提升。圖6給出了所提算法在學習過程中的收斂效果。從圖中可以看出,在智能體學習過程中,Q-learning DCA算法大約在9 000次時性能趨于穩定。

4? ?結束語

本文基于強化學習算法,提出了基于Q-learning的單顆多波束衛星的動態信道資源分配算法,給出了詳細的算法設計,最后通過仿真表明,該算法可降低衛星系統阻塞率,提升系統信道資源利用率。

參考文獻:

[1] Vasavada Y, Gopal R, Ravishankar C, et al. Architectures for next generation high throughput satellite systems[J]. International Journal of Satellite Communications and Networking, 2016,34(4): 523-546.

[2] 楊澄雄,徐智超. 多波束衛星通信系統資源的動態分配研究[J]. 信息通信, 2015(5): 209.

[3] 焦李成,趙進,楊淑媛,等. 深度學習、優化與識別[M]. 北京: 清華大學出版社, 2017: 197-208.

[4] Xu Z, Wang Y, Tang J, et al. A deep reinforcement learning based framework for power-efficient resource allocation in cloud RANs[C]//IEEE International Conference on Communications. IEEE, 2017.

[5] R Sutton, A Barto. Reinforcement Learning: an Introduction(second edition)[M]. 2017: 1-7.

[6] Santos E C. A Simple Reinforcement Learning Mechanism for Resource Allocation in LTE-A Networks with Markov Decision Process and Q-Learning[J]. 2017.

[7] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016: 371-397.

[8] Mengmeng C, Weina H. A printed quadrifilar-helical antenna for Ku-band mobile satellite communication terminal[C]//2017 IEEE 17th International Conference on Communication Technology (ICCT). IEEE, 2017: 755-759.

[9] Wang X, Li X, Leung V C M. Artificial Intelligence-Based Techniques for Emerging Heterogeneous Network: State of the Arts, Opportunities, and Challenges[J]. IEEE Access, 2017(3): 1379-1391.

[10] Li R, Zhao Z, Xuan Z, et al. Intelligent 5G: When Cellular Networks Meet Artificial Intelligence[J]. IEEE Wireless Communications, 2017(99): 2-10.

[11] Sanctis M D, Cianca E, Araniti G, et al. Satellite Communications Supporting Internet of Remote Things[J]. IEEE Internet of Things Journal, 2016,3(1): 113-123.

?
战争彩金