麻省理工研究顛覆賽局理論：通用演算法在不完美資訊賽局中表現更優

無論您是在撲克牌桌上與單一對手較量，還是在購屋競標中與另一位潛在買家競爭，您都處於資訊不對稱的條件下。您知道自己手中的撲克牌，也知道自己能負擔的房價上限，但您不知道對手的牌，也不知道另一位買家願意出多高的價格。

麻省理工學院研究人員共同撰寫的一篇論文，於四月在里約熱內盧舉行的國際學習表徵會議上發表，它不會具體告訴您在這些情況下該怎麼做。但它確實為涉及兩名參賽者在「零和」競爭中對決的所謂不完美資訊賽局提供了新的見解，在這種競爭中，一方的收益意味著另一方的損失。

麻省理工學院參與該專案的研究人員包括電機工程與電腦科學系（EECS）及資訊與決策系統實驗室（LIDS）的博士生 Sobhan Mohammadpour；以及 EECS 助理教授兼 LIDS 首席研究員 Gabriele Farina。其他共同作者包括德州大學奧斯汀分校（UT）的 Max Rudolph、加州大學柏克萊分亞（UCB）的 Nathan Lichtlé、UCB 的 Alexandre Bayen、卡內基美隆大學（CMU）的 J. Zico Kolter、UT 的 Amy X. Zhang ’11, MNG ’12；紐約大學的 Eugene Vinitsky；以及 CMU 的 Samuel Sokota。

這項新工作的重點是可用於訓練神經網路參與不完美資訊賽局的演算法。該領域長期以來的假設是，基於賽局理論原則的演算法在這種設定下，將明顯優於一種通用型演算法，即「策略梯度法」，後者在 1990 年代開始用於決策。在這種情況下，「策略」基本上是指戰略，而「梯度」則是指引導朝向最大變化方向的路徑，例如通往山頂（或山谷）的路徑。

策略梯度法被用於訓練神經網路，使其能夠以小而連續的步驟，朝著特定目標（譬喻來說，就像到達山頂）做出決策，並在此過程中不斷調整和修正，使代理人更接近預定目的地。

儘管策略梯度法在 1990 年代初構思時，戰略賽局並不在其最初的議程上，但這篇新論文的作者們仍然想知道這類演算法在雙人賽局中的表現如何。根據 Farina 的說法，這些方法在多代理人設定中變得更難分析。「仍然有一個方向可以改善您的處境，但由於另一位玩家的行動，該方向在賽局過程中可能會不斷變化。而且這些變化可能非常迅速。」

Sokota 表示：「人們幾乎理所當然地認為，專門的賽局理論演算法是這種設定的正確方法。我們的研究表明，策略梯度法可能比這些專用演算法表現更好，而且專用演算法的表現可能不如人們想像的那麼好，這引出了一個有趣的社會學問題，即為什麼這種情況長期以來沒有被注意到。部分答案是，該領域尚未進行嚴格評估演算法所需的工程工作，因此很難判斷哪些有效，哪些無效。」

因此，這項工作的一個主要貢獻是提供了一種公正的方式來評估不同的演算法，這些演算法可以教導代理人（即神經網路）如何在不完美資訊賽局中競爭。Rudolph 指出：「我們正在採取一種不同的方法。與該領域發表的許多論文不同，我們並不是提出一種可以擊敗其他演算法的新演算法。我們正在提出一個可以評估這些演算法的基準。」

簡而言之，基準由旨在評估演算法性能的軟體組成。Farina 說：「我們提供的是一個測試場或競技場，人們可以在這裡使用他們的演算法，針對特定任務進行訓練，並看看它們的表現如何。」

該團隊根據一個稱為「可利用性」（exploitability）的概念來計算玩家的表現，Sokota 解釋說，這衡量了玩家在面對「最壞情況對手」時的表現。Sokota 解釋說：「在像撲克這樣的賽局中，這個對手不會知道我的牌是什麼，但會知道我在任何給定牌局中的行為方式。」在這個尺度上達到零意味著完美的玩法，而高可利用性分數則表示遠非最佳的玩法。

團隊在實驗中進行了五場賽局：兩個版本的「幽靈井字棋」（Phantom Tic-Tac-Toe），其中玩家看不到對手做了什麼，以及兩個不完美資訊版本的棋盤遊戲 Hex，還有另一個欺騙遊戲「吹牛骰」（Liar’s Dice）。

研究人員面臨的最大挑戰是讓可利用性測量在如此規模的賽局中發揮作用，這些賽局可能包含多達 300 億個狀態。在這種情況下，「狀態」不僅僅是所有可能的棋盤位置，還包括整個賽局的歷史，包括沿途的每一步和錯誤。Mohammadpour 說：「這就像看著一個充滿看不見物體的黑暗房間。

不知何故，您需要弄清楚這些物體在哪裡以及它們是如何到達那裡的。」Mohammadpour 補充說，以前的研究人員通常將可利用性用於比他們研究中分析的賽局小 10 萬倍的賽局。

在對這五個賽局進行的實驗中，使用策略梯度演算法訓練的神經網路獲得了比使用賽局理論演算法訓練的網路更好的（更低）可利用性分數。在下一輪的正面對決中，策略梯度訓練的網路再次擊敗了賽局理論訓練的對手。Rudolph 說：「這些結果令人放心，因為它們讓我們對我們的基準測試方法更有信心。」

該團隊已將其基準測試軟體免費提供且方便使用。Mohammadpour 說：「您不需要超級電腦。您可以在普通的筆記型電腦上運行它。您所要做的就是向一個常用基準測試軟體集合 OpenSpiel 添加一行程式碼。」

儘管他們的實驗涉及一些相當冷門的賽局，但 Farina 希望將這項工作置於更廣泛的背景下。他說：「請記住，『賽局』一詞實際上適用於任何多代理人的策略互動。因此，我們從這項研究中學到的教訓絕不限於休閒遊戲。」

Vinitsky 表示同意。他說：「隱藏資訊是世界的一個非常重要的特性。它滲透到一系列事物中，包括軍事行動、交易情境和談判，所有這些都是在隱藏資訊的條件下進行的。我們可以改進這些賽局的想法表明，我們也可以在這些其他設定中做得更好。」

Google DeepMind 的電腦科學家和賽局理論專家 Ian Gemp 並未參與這項研究，但他認為這些結果令人鼓舞。他說：「這項工作提供了一個引人注目的提醒，即現代化經典工具（如策略梯度法）仍然是解決複雜策略問題的富有成效的途徑。」