PLANETS Mail Magazine

井上明人『中心をもたない、現象としてのゲームについて』第24回　駆け引き（学習説の他説との整合性④-2）【毎月第2木曜配信】

2018/05/17(木) 07:00

3f4400f5a0f001520d16a2e54b066e411f5e5763

ゲーム研究者の井上明人さんが、〈遊び〉の原理の追求から〈ゲーム〉という概念の本質を問う「中心をもたない、現象としてのゲームについて」。今回のテーマもゲームに欠かせない「駆け引き」です。ルールの更新や不平等の不可視化によって「公平性」を感じさせ、自発的学習を促そうとするそれぞれのゲームの戦略について井上さんが解説します。

24回　駆け引き（学習説の他説との整合性④-2）

複数の均衡

　前回、ゲームにおける学習的な自己変容プロセスと、均衡点を目指して行動を最適化していくプロセスの違いについて整理したうえで、両者は協同しうる時期と、背反してしまう時期がありうると述べた。「安定に向かって変化する性質」と、「変化しつづける性質」の相性は、仲の良かったカップルが別れてしまうようなものだ。両者は、結婚して家族にもなれるかもしれないが、離婚することが宿命づけられている。そして、次は、このカップルが別れた後の話に移ろうと書いた。
　ただ、均衡やトレードオフの問題について書いた前回の話について、いただいた反応を見たところ、いくつかの補足をしておくべきだろうというお叱りをいただいたので、もう少し込み入った解説をしておきたい。
　とくに詳しく論じるべきなのは「均衡が複数ありうる」という点だ。前回「均衡点が移行」という表現をさらっと書いたが、これは、そもそも「均衡点が複数ありうる」「均衡点が推移しうる」というの理解を前提としている。
　均衡点が複数ありうる、とはどういうことだろうか。これは、ゲームのプレイヤーが、最適戦略に至るまでの行動がランダムだという意味ではない。
　囚人のジレンマゲームの例を思い出そう。

・もし両方の犯罪者が自白しなかった場合、二人とも懲役一年。
・二人ともに自白したら懲役四年。
・一人だけ自白した場合、自白した犯罪者の懲役が二年、自白しなかった側の犯罪者が懲役一〇年になる。

　という設定で、多くの場合、二人共自白をすることが、最適な均衡だと理解している人が多いと思う。
　だが、その理解には、注釈を加える必要がある。
　第一に、よく言及される「オウム返し(Tit-for-tat)戦略」が強い戦略だという話だ。政治学者のロバート・アクセルロッド[1]が世界中の研究者に呼びかけて、囚人のジレンマ状況における強いコンピュータ・プログラムを決めるトーナメントを開催し、そこで優秀な成績を収めたのがこの戦略だ。
　はじめに黙秘を選び、以後は前回相手が選んだ戦略を模倣するのがオウム返し戦略である。[2]
囚人のジレンマゲームのような個人としての合理的な行動と、集団全体の利益の最大化に齟齬が生まれるような社会的ジレンマ状況 [3]において、オウム返し戦略のような協力行動には協力で、裏切りには裏切りで応えるという互恵的戦略が、ジレンマ解消の手段として有効だというように理解される事が多い。
　しかし、残念ながら、オウム返し戦略は、現在では十分に安定的[4]戦略ではないと言われている。オウム返し戦略を潰すための「おとり」戦略を混入させると、オウム返し戦略は優秀な成績を収められないという。すなわち、オウム返し的な互恵的戦略は、限定された条件下において強い戦略であるということだ。[5]
　第二に、いろいろと条件をつければ強い戦略たりうる、という意味では、二人がともに協力し、黙秘を貫くという行動も有効な戦略たりうる。何度もゲームを繰り返す場合で、かつゲームプレイヤーの計算コストに制約があり……といった様々な要件をつける [6] とこれが有効な解となる。
　むろん、協力的な戦略は、条件によっては機能しない戦略になる。現実の例で言えば、たとえば「共有地の悲劇」というよく知られた話がある。これは一九世紀の産業革命前後のイギリスの農村で、うまく機能していた家畜放牧のための共有地の仕組みが、産業革命以後に機能しなくなってしまう話だ。これは産業革命を通じて共有地を利用する人々のインセンティヴ構造が変化したことによって、人々のふるまいのバランス（均衡点）が変わったことによって、もたらされている。ある条件下においては、共有地の仕組みは安定的な均衡点であっても、その均衡点を支えていた条件を固定しておくことができなければ、均衡点は変わってしまう。
　簡単にまとめてしまえば、囚人のジレンマは、参加者の振る舞いのバリエーションに限定を付けたり、プレイヤーの計算能力に限定を付けたりすることによって、最適な解が変わってくるということだ。裏切ることも、協力することも、オウム返し的な互恵的戦略も、状況に応じて、それぞれ強い戦略たりうる。条件を限定することによって均衡点も変わるのである。
　ゲーム理論家たちの研究によれば、[7]我々の人類社会は、裏切り／協力／オウム返し戦略のそれぞれの戦略を採用する人々が、一定の割合で混じるような形に発展してくるものだという。多くの社会では、複数の戦略が混合する形でバランスしている。
　ゲーム理論的な「駆け引き」の問題のとの関わりで考えたいのは、こうした前提のゲームである。これは三目並べの例で論じたような、最適解をもつ二人ゼロ和完全情報有限確定ゲームとは、異なる「ゲーム」理解である。
　三目並べや将棋においては、負けることのない最適解がある。しかし、この前提では、条件によって均衡点が推移し、異なる戦略を採用するプレイヤーが一定の割合で存在する。ここには、複数の均衡点があるだけだ。その都度ごとに相対的に有利な戦略は成立しても、常に負けることのない最適解があるわけではない。