ポーカーにおけるゲーム理論とは?GTOとの関連を解説
2021年11月15日
近年ポーカーの界隈にてGTOという言葉が大流行しています。おそらくポーカーに本気で取り組んでいる人であればこの単語を聞いたことがないという人はいないのではないでしょうか。
GTOは略さずにいうと、Game Theory Optional というように、数学の一分野であるゲーム理論というアプローチからポーカーを分析した戦略のことです。そのため、GTOの仕組みを完全に理解しようとすると、難しい数式などを理解しなくてはなりません。
しかし、GTOを勉強する際はPioSOLVERやGTO+といったツールがゲーム理論を用いて計算した結果を利用するため、ゲーム理論については基礎的な理解があれば十分です。
今回はポーカーに使われるゲーム理論とはなにかについて簡単にご紹介します。
なおこの記事ではゲーム理論とは何かについて解説するため、GTOについては「ポーカーにおけるGTOとは?勉強法やエクスプロイトとの関係性について解説」をご覧ください。
ゲーム理論とは複数のプレイヤーの行動や決定を分析する理論のことです。
ゲーム理論の問題として代表的なものに囚人のジレンマという問いがあるためそれを使って解説します。
Aさん、Bさんの二人の囚人がお互いに連絡を取れない状態で以下の条件で取り調べを受けているとします。
A\B | 黙秘 | 自白 |
黙秘 | 3,3 | 10,0 |
自白 | 0,10 | 5,5 |
自分がAの場合最適な戦略は自白か黙秘どちらでしょうか?
もしBが自白をしていれば、自白をしないと10年になり、自白をすれば5年になるため、自白するが正解になります。また、もしBが自白していない場合、自分が黙秘すれば2年ですが、自白をすれば自分はお咎めなしなためこちらも自白するが正解となります。
そのためどちらの場合でも自白するほうが懲役が軽くなるため、Aの戦略は自白するが正解になります。
しかし、この場合Bも同じことを考えるため、お互いが自分にとって利益を最大化させる行動をとった場合、4番のそれぞれ5年の懲役となってしまいます。
これをナッシュ均衡といいいます。
お互いが黙秘すれば懲役の合計は少なくなるにも関わらず、お互いに連絡が取れない状態では、自白を選ばざるを得ないこの状況を囚人のジレンマといいます。
GTOとは上で説明したナッシュ均衡のことをいいます。ポーカーにおいて、プレイヤーがお互いに利益を最大化させる行動をした場合に行き着く答えが、ポーカーにおけるナッシュ均衡であり、GTOとなります。
2015年にPioSolverというポーカーを数学的なアプローチから解析できるツールが有名になったことにより、ポーカーの戦術はここ数年で大きく発展しました。現在、GTO WizardなどPisolver以外にもGTOの学習をサポートするツールも生まれています。
このように、コンピューターとソフトウェアの発展によって、人類は囚人のジレンマとは比べ物にならないほど複雑なポーカーというゲームのナッシュ均衡に近づくことができるようなったのです。
GTOの学習方法については以下の記事でご紹介したので合わせてご覧ください。