當前位置:首頁 > 實用文檔 > 自動化技術(shù) > 正文

結(jié)合對比預(yù)測的離線元強化學(xué)習(xí)方法

計算機科學(xué)與探索 頁數(shù): 11 2022-07-05
摘要: 傳統(tǒng)的強化學(xué)習(xí)算法與環(huán)境進行大量交互才能獲取穩(wěn)定的動作選擇策略,且無法有效應(yīng)對任務(wù)環(huán)境發(fā)生改變的情況,因此難以應(yīng)用于實際問題。離線元強化學(xué)習(xí)通過使用包含多個任務(wù)的經(jīng)驗回放數(shù)據(jù)集進行離線策略學(xué)習(xí),為復(fù)雜情況下智能體快速適應(yīng)新任務(wù)提供了一種有效方法。將離線元強化學(xué)習(xí)算法應(yīng)用于復(fù)雜任務(wù)將會面臨兩個挑戰(zhàn):首先,由于無法與環(huán)境進行充分交互,離線強化學(xué)習(xí)算法會錯誤估計數(shù)據(jù)集外動作的價值,進...

開通會員,享受整站包年服務(wù)立即開通 >