2026 年,人工智慧代理(AI agents)的熱潮前所未有地高漲。這些半自主程式能夠「思考」並執行客服、軟體開發等領域中定義明確的任務,通常是透過語言模型(LMs)來實現。然而,在醫療診斷和科學發現等領域,AI 代理需要在不確定環境中探詢廣泛的解決方案,這正是語言模型所面臨的挑戰。
麻省理工學院電腦科學與人工智慧實驗室(CSAIL)和哈佛大學工程與應用科學學院(SEAS)的研究人員深入探討了語言模型在高風險情境下的主要問題。他們的測試方法是:「戰艦」遊戲,這是一款經典的猜謎遊戲,曾幫助認知科學家研究人類如何尋求資訊。
CSAIL 和 SEAS 的學者們為遊戲增添了新意,將其重新設計為圍繞自然語言提問與回答的模式。在他們的「協作戰艦」(Collaborative Battleship)遊戲中,一位參與者扮演「艦長」,負責詢問隱藏船隻的位置,而他們的隊友則扮演「觀測員」,即時回應這些問題。
研究人員首先讓超過 40 位人類玩家共同進行遊戲,收集他們的提問和是非題答案,以建立「BattleshipQA」資料集。這些結果為團隊測試最先進的語言模型(如 GPT-5)和較小型模型(如 Llama 4 Scout)提供了有用的比較基準。在未經事先訓練的情況下,他們發現頂尖的語言模型能夠在「戰艦」遊戲中「擊敗」人類——即以更少的輪次完成遊戲——但較小的系統則遠不如人類理性。
主要問題在於許多模型根本不擅長提出有用的問題。為了讓語言模型以能揭示更多隱藏船隻資訊的方式進行提問,研究人員為每個模型導入了蒙地卡羅推論策略(Monte Carlo inference strategy),該策略會在每次回應後仔細衡量不同選項正確的可能性。結果是:無論規模大小,AI 模型都能在「戰艦」遊戲中擊敗一般玩家。
最引人注目的結果或許是 Llama 4 Scout 的進步。作為一個相對較小的語言模型,它最初只在 8% 的時間內擊敗人類。但經過推論策略的改進,該模型在「戰艦」遊戲中對人類的勝率達到了 82%。這種謹慎而高效的提問方式也使該模型能夠超越前沿模型(GPT-5),同時運作成本僅為其約 1%。
除了這項改進之外,研究人員還縮小了人類與語言模型在回答問題方面的差距。雖然 GPT-5 是一個可靠的觀測員,能幫助模型更快完成遊戲,但較小的系統則有給出錯誤船隻位置答案的壞習慣。當模型開始將問題轉換為明確指示如何驗證答案的程式碼時(例如,當被問及某區域是否有船隻時,讓模型快速搜尋該區域),它們的準確性平均提高了 15%。
麻省理工學院博士生兼 CSAIL 研究員 Gabriel Grand SM ’23(該論文的主要作者之一)表示:「現今的語言模型主要針對回答複雜查詢進行優化,但它們是否學會為自己提出好問題則不太清楚。」他補充說:「我們的研究表明,提出有資訊量的問題取決於預測和模擬世界的能力。我們發現,當我們讓代理能夠存取『世界模型』時,它們會提出更好的問題,並更有效率地進行發現。」
語言模型的巨大轉變。該團隊的首要重點是讓語言模型提出更好的問題。透過實施蒙地卡羅推論策略,語言模型將潛在的猜測視為獨立的粒子進行推論。隨著觀測員的每次回答,那些看起來更有效的粒子會被賦予更高的權重,這有點像遊戲中每回合會膨脹或收縮的球。透過這種更具計算性、適應性的方法,艦長能夠提出從觀測員那裡提取更多資訊的詢問。
科學家們隨後轉向廣泛使用的程式語言 Python,以協助 AI 觀測員。艦長提出的每個問題都會自動轉換為編碼指令。例如,像「第一欄是否有橫跨兩列的船隻?」這樣的問題,會變成指示觀測員語言模型搜尋相關區域並評估數位遊戲棋子寬度的指令。透過以模型特別理解的語言給予明確指示,每個系統給出正確答案的頻率顯著增加。
例如,輕量級系統 GPT-4o-mini 的性能提升了近 30%,即使是大型模型 Claude 4 Opus 也提升了約八個百分點。
資深作者 Jacob Andreas(麻省理工學院電機工程與電腦科學副教授兼 CSAIL 首席研究員)表示:「該領域在『自動形式化』(auto-formalization)策略方面取得了許多成功,其中語言模型會生成程式碼來驗證其解決方案。」
他補充說:「我認為這項工作最令人興奮之處在於,它開啟了利用這些技術從根本上生成更好解決方案的可能性,透過提升語言模型的探索和資訊收集能力。我們很高興能將這項工作從科學領域擴展到編碼和數學問題解決等應用。」
讓我們玩點別的。但這種方法在其他棋盤遊戲中表現如何呢?該團隊在「猜猜我是誰?」(Guess Who?)遊戲中測試了他們新裝備的語言模型,大型和小型模型都能巧妙地從 100 個選項中篩選,正確猜出被選中的隱藏角色。Llama 4 Scout 最初的成功率為 30%,但在 Grand 及其同事的調整後,它在超過 72% 的運行中完成了任務。
同時,GPT-4o 從 62% 躍升至 90%。在每場遊戲中,GPT-5 都扮演觀測員,以確保問題得到最準確的回答。
儘管語言模型在這兩款遊戲中都取得了可喜的進展,但仍有改進空間。例如,與人類相比,模型在回答複雜問題方面仍然存在困難。OpenAI 研究員、哈佛大學近期畢業生兼合著者 Valerio Pepe 補充說:「GPT-5 可以擊敗一般的『戰艦』玩家,透過我們的方法還能稍微更好一些。然而,對於所有模型來說,專家級玩家仍然難以擊敗,這與西洋棋不同,在西洋棋中,即使是頂尖玩家也無法戰勝 AI 系統。」
研究人員的發現表明,AI 代理在「大海撈針」式的發現中具有尚未開發的潛力——即在龐大的選項空間中尋找科學挑戰的稀有解決方案。雖然提升資訊尋求技能將使它們成為優秀的研究助理,例如在識別化合物分子結構方面,但研究人員也提醒,「協作戰艦」是一個相對簡單的測試平台。他們希望在更複雜的環境中測試語言模型,在這些環境中,系統必須考慮更多的選項。
Grand 還計劃讓人類和 AI 模型協作,研究它們是否能更好地協同工作。模型也可能受益於對遊戲模擬進行一些微調,並且隨著運算能力的提升,語言模型將擁有更先進的推論能力來預測遊戲將如何演變。
史丹佛大學語言學助理教授 Robert Hawkins(未參與該論文)表示:「隨著 AI 系統變得更具代理性,最困難的問題往往是社會性的:追蹤共同點、解決誤解,以及隨著時間推移適應不同的合作夥伴。」他補充說:「這項工作優雅地捕捉了這些現象在受控協作環境中的表現,並有力地證明了 AI 代理真正的瓶頸不僅僅是計算最佳問題,而是需要實用推理來充分利用其答案。」
Grand 和 Pepe 與兩位 CSAIL 首席研究員:麻省理工學院副教授 Jacob Andreas 和麻省理工學院教授 Joshua Tenenbaum 共同撰寫了這篇論文。他們的研究部分得到了麻省理工學院 Siegel Family Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAIL 計畫、Sloan 研究獎學金、Intel、美國空軍科學研究辦公室、國防高等研究計畫署、海軍研究辦公室和國家科學基金會的資助。他們在四月的國際學習表徵會議(ICLR)上以口頭報告形式展示了他們的論文。
