每天資訊看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

菜單

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

| quantamagazine

導語

現實生活中許多情況都可以看作是在“博弈”,而達到納什均衡在某種意義上對所有玩家都是積極的結果。本文首先條分縷析了納什均衡在小遊戲中的體現,又對其進行了擴充套件延伸探討,更復雜的情況下,“看不見的手”究竟會如何影響你的決策呢?

生活中,我們常用剪刀-石頭-布的猜拳遊戲來決定誰去做清潔勞動等等,但是,你有沒有注意到當你一輪一輪地進行遊戲時到底發生了什麼?

起初,你可能處於上風,然而,你的對手可能會讓遊戲又轉向對她有利的一面。隨著遊戲的進行,你們實施著各自的策略,

直到最終所有玩家似乎都不能透過改善個人策略而獲得更多的勝利。

這是為什麼呢?

納什均衡

其實,早在1950年,數學家約翰·納什(John F。 Nash Jr。 )就向我們證明,在任何擁有有限參與者和有限策略的遊戲(例如,剪刀-石頭-布)中,總是存在這樣的混合策略:使得在該策略下沒有任何參與者可以透過僅改變自身策略而提高收益。

後來,這種穩定的策略組合被人們稱為“ 納什均衡 ”。它不僅促進了傳統的博弈論領域的革新,改變了經濟學的程序,也改進了人們在政治條約、網路交通等諸多方面的研究分析方法。而納什也因此獲得了1994年諾貝爾獎。

那麼,納什均衡在剪刀-石頭-布的遊戲中又是如何體現的呢?

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

| Fishfinger Creative Agency

純(pure)策略

讓我們模擬你(玩家A)和對手(玩家B)來簡單分析一下。其中,玩家每輪勝出得一分,失敗則丟掉一分,平局記零分。

現在,假設玩家B首先採用一種(愚蠢的)戰略,即每回合都出布。那麼,經過幾輪的遊戲之後,你可能就會發現她的策略並採取每回合都出剪刀的策略來反擊。我們將這種策略組合記為(剪刀,布)。如果每一輪以這樣的策略組合進行,毫無疑問你將取得勝利。

但是,玩家B很快也會發現自己在這樣的策略組合中的劣勢。當她觀察到你總是出剪刀應對時,她也轉而採用總是選擇石頭的策略。這個策略組合(剪刀,石頭)中B又開始贏得勝利。當然,你也可以繼續針對新的策略組合而選擇出布。

在上述遊戲過程中,玩家A和B採用了所謂的“純”(pure)策略,即選擇並重復執行單一的策略。

對於任何純策略,例如“總是選擇石頭”,我們都可以採用對立的策略應對,例如“總是選擇布”。此時,相關的策略也將再一次發生變化。於是,你和你的對手將永遠圍繞策略圈互相追逐。

顯然,這樣的純策略是不存在平衡點的。

混合策略

當然,你也可以嘗試“混合”策略。假設你可以在每輪遊戲中隨機選擇一種策略,而不是一直只選擇一種策略。例如,你可以並不“總是選擇石頭”,而是“一半時間出石頭,另一半時間出剪刀”,等等。

納什證明,

當允許這樣的混合策略時,每個這樣的遊戲將至少存在一個平衡點。

那麼,我們現在來舉例說明一下。

首先,我們需要了解,在剪刀-石頭-布的遊戲中,究竟怎樣的混合策略才是合理的呢?例如,我們可以假設“遊戲中以相同的機率選擇剪刀、石頭或布”,那麼對應的策略組合表示為(1/3,1/3,1/3),即剪刀、石頭或布被選中的機率均為1/3。這會是一個好的策略嗎?

好吧,假設你的對手策略是“總是選擇石頭”這樣的純策略,我們用(1,0,0)表示。那麼,在A選擇(1/3,1/3,1/3)且B選擇(1,0,0)的策略組合中,遊戲的結果將會如何呢?

為此,我們繪製如下表格,其中列出了每輪遊戲中九種可能的組合結果(例如,A出石頭,B出石頭; A出石頭,B出布,等等)對應的機率。其中,第一行表示玩家B的選擇,第一列表示玩家A的選擇。

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

本文所示圖中R-石頭,P-布,S-剪刀,後文不再贅述

表中展示了任意輪次中策略組合的機率,即雙方各自策略對應機率的乘積。例如,玩家A選擇布的機率為1/3,而玩家B選擇石頭的機率為1,那麼(A選擇布,B選擇石頭)的機率為1/3×1=1/3;而(A選擇布,B選擇剪刀)的機率則是1/3×0=0,因為玩家B選擇剪刀的機率為零。

那麼,在這樣的策略組合中,玩家A的表現究竟如何呢?從表中我們可以看到,玩家A將在三分之一的時間取勝(布,石頭),三分之一的時間失敗(剪刀,石頭),另外三分之一的時間打平(石頭,石頭)。並且,我們可以透過計算每個結果與其相應機率的乘積的總和來得到玩家A每輪的平均得分:

可以看到,玩家A每輪平均得分為0,即以相等的機率獲勝,失敗或平局。因此,平均而言,雙方勝負的次數將均等,從而終究將表現為平局。

但是,正如上文所述,假設你的對手沒有改變他們的策略,你可以透過改變個人策略而得到更好的結果。例如,如果你切換到策略(0,1,0)(即“每次都選擇布”),那麼相應的機率分佈如下所示:

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

每輪遊戲中,你選擇的布都將戰勝對手的石頭,於是你每輪都會獲得一分。

所以,A選擇(1/3,1/3,1/3)且B選擇(1,0,0)的策略組合並未達到納什均衡,因為作為玩家A的你可以透過改變個人策略來改善結果。

正如我們所見,純策略似乎並沒有導致均衡。但是,如果你的對手嘗試混合策略,比如(1/2,1/4,1/4),即“一半時間選擇石頭; 四分之一的時間選擇布和剪刀”,那麼我們可以得到下表中的機率分佈:

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

現在,我們列出玩家A對於每種結果的得分情況如下:

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

類似地,將上述兩個圖表的結果綜合起來,我們可以得到玩家A每輪的平均得分:

可以看到,玩家A平均每輪仍然獲得0分。於是,A選擇(1/3,1/3,1/3) 且B選擇(1/2,1/4,1/4)策略組合最終將同樣達到平局。

然而,同樣地,作為玩家A的你也可以透過切換策略來改善你的結果:對於B 的策略(1/2,1/4,1/4),A應該選擇策略(1/4,1/2,1/4),相應的機率圖表如下:

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

此時,對於A,每輪遊戲的淨得分為:

也就是說, A選擇(1/4,1/2,1/4)且B選擇(1/2,1/4,1/4)的策略組合進行遊戲時,A每輪遊戲的平均得分為1/16,。這樣,在100場遊戲過後,A的得分將高出6。25分。因此,作為玩家A的你轉變策略的可能性很大,所以A以(1/3,1/3,1/3) 且B以(1/2,1/4,1/4)的策略組合同樣不是納什均衡。

現在,我們考慮一下這一對策略,即 A以(1/3,1/3,1/3)且B以(1/3,1/3,1/3)的策略進行遊戲時,可以得到相應的機率圖表如下:

看不見的手究竟會如何影響你的決策?| quantamagazine| | 遊戲

根據對稱性我們可以很快得到A每輪遊戲的淨得分為:

顯然,你和你的對手將再一次戰成平局。但與上述情況不同的是,

此時雙方玩家都不會有改變策略的動機

例如,如果玩家B轉向任意的不平衡策略,使得其中一種選擇(比如石頭)更多,那麼玩家A只需簡單地改變策略使得“布”更多即可。正如上文提到的玩家A採用策略(1/4,1/2,1/4)對抗玩家B 的策略(1/2,1/4,1/4)一樣,這將使A在每輪遊戲中得到更好的淨得分。

當然,如果玩家A從(1/3,1/3,1/3)的策略轉換到一種不平衡策略,那麼玩家B也可以用類似的方式進行反擊。

因此,任何玩家都不能僅透過僅改變個人策略來改善他們的結果。

也就是說,這樣的策略組合達到了納什均衡。

設計

機制

正如納什證明的,

這些(博弈)遊戲都具有納什均衡

,而這一事實的重要性體現在好幾個方面。

一方面,現實生活中的許多情況都可以看作是博弈中的情形。例如,在談判或者在共享資源的競爭中,人們面臨著個人與集體利益的權衡,這時你就會發現這些策略在其中得到了很好的應用進而各方利益可以得到相應的評估。也正是這些無所不在的數學模型使得是納什的工作有如此影響力。

另一方面,納什均衡在某種意義上對所有玩家都是積極的結果。到達均衡後,沒有人能透過僅改變自己的策略來使結果達到更優。當然,如果所有玩家都採取完美的合作的方式,可能會有更好的整體結果,但如果你能控制的只是你自己,最終達到納什均衡將會是你最好的選擇。

因此,我們可能更希望像經濟激勵方案、稅務、條約以及網路設計這些“(博弈)遊戲”終究達到納什均衡。畢竟在這種均衡中,個人為了自己的利益行事,且最終得到滿意的結果,並且系統也會很穩定。

但是,在這些博弈之中,“玩家自然會達到納什均衡”的這個假設是否合理呢?

遊戲“升級”

回顧一下,在剪刀-石頭-布的遊戲中,我們可能已經猜到,玩家以完全隨機的方式玩更好。但這部分是因為

玩家都知道彼此的偏好

:即每個人都知道彼此在各種可能結果中獲勝和失敗的情況。

可是,如果偏好未知而且情況更復雜呢?

想象一下這樣一款新的遊戲,其中玩家B在擊敗剪刀時獲得三分,而在任何其他情況下獲勝僅獲得一分。這將改變混合策略:玩家B將會更頻繁地選擇石頭並希望玩家A選擇剪刀從而獲得三倍的得分。雖然積分差異不會直接影響玩家A的得分,但玩家B策略的變化將觸發A的新的對策。

並且如果玩家B的

每一個回報都是不同且未知的

,那麼玩家A需要一些時間才能弄清楚玩家B的策略是什麼。為了估計自己選擇布的頻率,玩家A需要透過很多回合來理解玩家B選擇石頭的策略。

進一步地,我們現在想象有100人玩剪刀-石頭-布的遊戲,每個人的得分情況都保密,每個都取決於他們擊敗對手的情況。那麼,為了達到平衡點,你需要多長時間來計算你選擇石頭、布或剪刀的正確頻率?可能是很長一段時間,也許比遊戲還要長。甚至可能比宇宙的壽命更長!

至少,即使是完全理性且深思熟慮的玩家,想制定好的策略按照自己的最佳收益行事並最終在比賽中達到平衡也並不容易。

2016年的一篇論文的核心觀點就向我們證明:在所有遊戲中,沒有統一的方法可以引導玩家達到哪怕是近似的納什均衡。

論文題目:

Communication complexity of approximate Nash equilibria

這並不是說完全理性的玩家在比賽中從不傾向於達到均衡,實際上他們經常這樣做。這只是意味著我們沒有理由相信——遊戲能實現納什均衡是因為只由完全理性的玩家參與。

當我們設計一個交通網路時,我們同樣可能希望遊戲中的玩家(即每個尋求最快回家路線的旅行者)能夠共同達到一種平衡,使得即使各方採取不同的路線也不會獲得任何額外收益。我們可能希望約翰·納什的“看不見的手”能夠指導他們,以便他們在競爭合作中達到均衡,即採取儘可能短的路線,並避免造成交通擁堵。

然而,上面逐漸複雜的剪刀-石頭-布遊戲已經向我們展示了為什麼這樣的希望可能會落空。因為這雙“看不見的手”雖然會引導一些博弈,但是其他一些情況可能會抵制它的控制,終於玩家將陷入永無止境的競爭中,永遠無法獲得收益。

編譯:集智俱樂部翻譯組

原題:

Why Winning in Rock-Paper-Scissors (and in Life) Isn’t Everything

翻譯:SBu

審校:高飛

編輯:王怡藺

原標題:遊戲博弈論:洞悉“剪刀-石頭-布"背後的納什均衡

編輯:zhenni