當前位置:首頁 > 實用文檔 > 航空航天科學與工程 > 正文

信息非完備下多航天器軌道博弈強化學習方法

宇航學報 頁數: 12 2023-10-30
摘要: 針對信息非完備約束下航天器軌道博弈難以自主決策的問題,基于多智能體強化學習提出一種多航天器軌道博弈決策方法。首先建立軌道博弈動力學和信息非完備約束。其次建立用于訓練和決策的神經網絡模型,依據分布式系統(tǒng)架構對網絡的輸入輸出結構進行設計,并引入具有記憶功能的長短期記憶網絡(LSTM),根據航天器軌道運動在時間、空間連續(xù)的屬性,補償位置、速度測量信息的非完備性。然后采用近端策略優(yōu)化(...

開通會員,享受整站包年服務立即開通 >