1人のプレイヤーは、混合戦略のサンプルに最も良く反応し、後者を最小限に抑えたプレーヤーは、ゼロサムゲームでNashイクに収束しますか?

1人のプレーヤーが混合戦略を最小限に抑え、もう1人のプレーヤーがその混合戦略に対して各ラウンドで最もよく反応する場合、$ 2
$プレイヤーのゼロサムゲームでは、およそのナッシュ均衡への収束が保証されることはよく知られています。ポリタイム。例えば、
(https://theory.stanford.edu/~tim/f13/l) /l17.pdf
)。私の質問は、あるプレイヤーが後悔しない戦略を演じており、他のプレイが混合戦略ではなく、相手の混合戦略のサンプルに最もよく反応すると仮定します。両方の戦略の経験的平均がポリ時代にナッシュに収束するのはまだ真実ですか?

ベストアンサー

いいえ、それは真実ではありません。行のプレイヤーのアクションがA、B、Cで、列がD、E(行のプレイヤーの報酬であることが示されている)であるこのゲームを考えてみましょう。

    D     E
A   1     0
B   0     1
C  0.6   0.6

私はどの平衡においても、行のプレイヤーはCのみをプレイしていると思います。

しかし、現在、コラムプレーヤーが無帰還アルゴリズムを使用する場合、すべてのサンプルはアクションDまたはEのいずれかになり、行プレーヤの最良の応答は常にAまたはBのいずれかになります。したがって、行のプレイヤーは、

返信を残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です