なぜQラーニングの真の勾配の代わりに半勾配が使われるのですか?

関数近似を用いた強化学習において、一般的なコスト関数は平均値誤差である。

enter image description here

これには、目標値V_piおよび現在値推定値V_hatが含まれる。
勾配降下学習の更新ルールを導出するとき、人々は真の勾配の代わりに半勾配を使用して、パラメータに対するV_pi-sの依存性を無視します。
どうしてこれなの?本当の勾配を計算するのは難しいですか?

ベストアンサー

問題は上の方程式から来ているのではなく、むしろブートストラッピングメトロッドのために発生します。 サットンの強化学習の本(第2版)では、第9.3章

ここでの考え方は、V_piに対して真の値を得ることはできませんが、近似を得る必要があります。私の理解は、TDメソッド、V_piなどのブートストラップがwに依存するときです。これは、V_piがwに依存せず、従って得られる勾配が真の勾配ではなく、それを半勾配と呼ぶという仮定を破る。ただし、Monte
Carloなどのブートストラップを使用していない場合、V_piはunbiasになります。この問題は発生しません。上記の方法では、ローカルミニマムに収束することが保証されます。

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です