2020年7月3日 星期五

強化學習中on-policy 與off-policy有什麼區別?

更新價值所使用的方法是沿著既定的策略(on-policy)抑或是新策略(off-policy)。

更新值函數時是否只使用當前策略所產生的樣本(off-policy使用的樣本

可能來自隨機探索)

 

  •  on-policy =>SARSA

好處在於可以當下評估策略,以及直接在應用場景中邊訓練邊使用。

 

  • off-policy=>Q-Learning

好處在於可以更充分的探索,產生豐富樣本,而不影響目標策略。

或者可以說off-policy利用經驗樣本的能力更強DQNDDPG等優秀方法中的經驗回放即屬於此類別

 

 

Off-policy使用歷史數據中最下一個狀態中最大Q估計值Q(s1,a1)來更新Q(s,a),但實際上在模擬的過程中,下一個狀態不見得要走到s1,可能會走到s2

 

On-policy則是等實際模擬過程中假如走到Q(s1,a2),即用此Q值去更新Q(s,a),可以說實際的策略跟用來更新值的策略兩者相同。



沒有留言:

張貼留言

為APS產品添加智慧問答助理

  痛點 在現今服務至上環境下 , 即時回覆客戶問題以提升顧客滿意度儼然成為企業、服務業不可或缺的服務之一。但即時回覆問題所需付出成本內、外部分析如下, 如何解決此問題為本報告所要說明的部分。 Ø  因客服團隊人力需求較高且基本工資持續上升,人力資源成本持續上漲。 Ø  排程系統...