預測人類偏好：MIT 研究揭示「三選一」的關鍵力量

美國心理學家 L. L. Thurstone 在其 1927 年的論文《比較判斷定律》中提出，當人們從多個選項中選擇一個時，他們會挑選對自己價值最高的選項，即使他們無法為該選擇賦予一個特定的數值。Thurstone 是「心理測量學」的先驅，這個領域建立在我們無法看見的心智過程仍可被測量和量化的前提上。

他的 1927 年論文為現在所謂的隨機效用模型（Random Utility Models, RUMs）奠定了基礎，這些模型提供了一個數學框架來描述人類偏好，而這些資訊反過來又可用於預測各種假設情境。

隨機效用模型（RUMs）之所以如此命名，是因為它們評估從特定選擇中獲得的「效用」或益處，例如決定從圖書館帶回的一堆小說中先讀哪一本。麻省理工學院（MIT）電機工程與電腦科學系（EECS）助理教授兼資訊與決策系統實驗室（LIDS）首席研究員 Gabriele Farina 解釋說：「這些模型本質上是隨機的，因為人與人不同。

每個人都有自己的偏好，甚至這些偏好也會隨時間變化。」例如，一個早上通常選擇咖啡而非茶的人，晚餐後可能偏好茶，但偶爾也會完全打亂這個順序。

當然，RUMs 經常被政府和業界用於比選擇熱飲（或冰飲）更具重大影響的情境。這些模型常規地協助預測人們在所謂的反事實（「如果...會怎樣」）情境中會怎麼做，例如：如果一條主要幹道因施工而關閉，他們將如何通勤上班或上學？他們會選擇哪些路線和交通方式？或者，如果一個城市突然獲得 2000 萬美元的意外之財，這些資金應如何分配才能最大化公共利益？

鑑於 RUMs 已存在近 100 年，且隨著時間推移日益複雜，人們可能會認為，到了這個階段，改進的空間已經很小了。然而，情況並非如此。今年四月在巴西里約熱內盧舉行的國際學習表徵會議（International Conference on Learning Representations）上發表的一篇論文，揭示了一些基本事實，表明這些模型可以從中獲得的資訊遠比傳統上所認為的要多。

這篇論文的作者包括前 MIT 博士後研究員、現任新加坡南洋理工大學的 Yeshwanth Cherapanamjeri；同樣是 MIT 作業研究中心（ORC）核心教員的 Farina；MIT 電腦科學 Avanessians 教授兼 MIT 電腦科學與人工智慧實驗室成員 Constantinos Daskalakis；以及 LIDS 和 EECS 的 MIT 電腦科學博士生 Sobhan Mohammadpour。

該團隊的研究發現，部分源於 RUMs 在實踐中常見的估計方式存在缺陷，這種缺陷自 Thurstone 時代以來一直存在。用於估計模型的數據主要來自所謂的「兩兩比較」：在 A 和 B 之間做出選擇時——無論是 Netflix 上的電影、Amazon.com 上的競爭產品、Google 上發布的新聞故事等等——你會選擇哪一個？

Daskalakis 解釋說，這種方法如此普遍的一個原因是：「為單一項目賦予精確的數值分數，例如 4.37，是非常困難的。而比較兩件事並決定你更喜歡哪一個，在認知上要容易得多。」但他補充說，問題就在這裡：「用這種一次只看兩件事來評估人們偏好的方式，不可能找到眾多選擇之間的相關性。」

應用 RUMs 的標準方式假設從 A 和 B 獲得的效用是獨立的，但實際上它們可能存在關聯，而了解這一點很重要。例如，如果一位競選公職的人發現潛在選民支持槍枝管制，那麼這個人很可能也支持政府資助的托兒服務。同樣地，獨立電影的粉絲可能也偏愛外國電影，但對好萊塢動作大片則不那麼熱衷。

Daskalakis 指出：「如果一個數位平台對這種相關性的存在視而不見，它將無法非常準確地估計偏好。如果 Netflix 經常向你展示一堆你不感興趣的電影，你可能會登出並取消訂閱。」

MIT 團隊證明，僅憑兩兩比較無法獲得相關性資訊。然而，當大量受試者根據偏好順序對三個選項進行評分時，就可以辨識出相關性。同樣的資訊也可以透過「三選一」和「兩選一」的組合來獲得。Mohammadpour 解釋說，在實踐中，「你會讓一群人對三個項目進行排序。然後你可以利用我們開發的方法，將這些個別結果合併成一個大模型，為我們提供全貌。」

根據 Farina 的說法，他們的研究工作重點在於 RUMs 的計算方面，設計能夠提取偏好資訊的演算法，並找出需要多少數據才能做到這一點，或者等效地說，需要進行多少實驗。他說，好消息是，確實可以為此目的開發出高效的演算法。所需的實驗數量不會隨著審查中的目錄或資料庫中的項目數量呈指數級增長。

蒙特婁大學電腦科學家 Emma Frejinger 評論道：「這篇論文提供了一個關鍵的突破。它從數學上證明了為什麼傳統的數據收集會失敗，並證明了僅僅要求用戶進行『三選一』就能夠準確訓練這些強大模型的能力。這項發現為收集更好的數據以推動更精確的優化提供了高度實用的路線圖。」

Daskalakis 堅稱：「建立效用模型將會是一個非常活躍的領域。正如 RUMs 自 1990 年代後期以來對網路經濟至關重要一樣，它們現在和將來仍將對 AI 模型的對齊至關重要。」他補充說，更重要的是，「RUMs 在大型語言模型（LLMs）的商業可行性和實用性中扮演著核心角色。」

在訓練期間，人們通常會被要求對這些 LLMs 的各種候選輸出進行排序，從中模型可以更好地了解在語氣、風格和內容方面哪種文本是受歡迎的。

Daskalakis 說，鑑於我們不斷「被各種領域的浩瀚選項所包圍，你不可能要求人們傳達他們對所有可能情境的所有個人偏好。因此，你可以做的是建立一個模型來預測人們對不同可能結果的看法。你必須在一個迭代過程中不斷改進和更新你的模型，直到你能夠做出良好的預測。」