更新價值所使用的方法是沿著既定的策略(on-policy)抑或是新策略(off-policy)。
更新值函數時是否只使用當前策略所產生的樣本(off-policy使用的樣本
可能來自隨機探索)。
- on-policy =>SARSA
好處在於可以當下評估策略,以及直接在應用場景中邊訓練邊使用。
- off-policy=>Q-Learning
好處在於可以更充分的探索,產生豐富樣本,而不影響目標策略。
或者可以說off-policy利用經驗樣本的能力更強,DQN、DDPG等優秀方法中的經驗回放即屬於此類別。
Off-policy使用歷史數據中最下一個狀態中最大Q估計值Q(s1,a1)來更新Q(s,a),但實際上在模擬的過程中,下一個狀態不見得要走到s1,可能會走到s2。
On-policy則是等實際模擬過程中假如走到Q(s1,a2),即用此Q值去更新Q(s,a),可以說實際的策略跟用來更新值的策略兩者相同。
沒有留言:
張貼留言