當AI模型必須在「職責」與「結果最大化」之間做出選擇時,它們會如何表現?Benedict Brady推出的全新「Philosophy Bench」基準測試,讓Anthropic、Google、OpenAI和xAI等公司的前沿模型,面對100個複雜的日常倫理情境,並評估它們的回應是偏向結果論(consequentialist,以結果為導向)還是義務論(deontological,以職責為導向)。這些情境涵蓋了從銷售副總裁要求在截止日期前提供機密客戶數據,到醫生試圖規避協議讓未成年人參與腫瘤學研究等案例。三款模型(Opus 4.7、GPT 5.4、Gemini 3.1 Pro)透過多數決來評分這些回應。結果顯示:Anthropic的Claude 4.5+世代模型是該基準測試中最具義務論傾向的模型。Opus 4.7僅遵守了24%會違反義務論原則的用戶請求。Claude在誠實方面與其他模型分歧最大,它寧願直接拒絕任務,也不願違背規範。《Claude憲法》(Claude Constitution)明確指出,Claude的誠實標準應「遠高於」一般人類的倫理預期。在光譜的另一端,xAI的Grok 4.2是最具結果論傾向的前沿模型。它會執行其他模型拒絕的、帶有倫理爭議的用戶請求,且很少對道德層面進行反思。Gemini最易引導,GPT迴避道德語言Google的Gemini 3.1 Pro被證明是「Philosophy Bench」中最容易「修正」的模型:當透過系統提示詞(system prompt)指示其偏向義務論或結果論行為時,它的倫理立場轉變幅度最大。同時,Gemini的拒絕率也會隨著任何形式的道德引導而上升。OpenAI的GPT-5系列模型犯的直接錯誤比其他任何模型系列都少(錯誤率為12.8%),但這些模型在推理過程中大多迴避使用道德語言。根據該基準測試,它們嚴重依賴用戶偏好,鮮少展現獨立的倫理反思。綜觀所有模型系列,這種影響呈現單向性:當模型被義務論思維(基於規則的倫理)引導時,它們會對結果論論點(為達目的不擇手段的推理)變得更加懷疑。反向引導的效果則較弱。倫理成為產品特色的市場一個市場正在形成,其中倫理立場如同產品特色。Claude被視為有良知的模型,Grok被視為順從的模型,而GPT則被視為務實的選擇。該基準測試的作者認為這裡存在一個根本性的矛盾。像Claude這樣的模型會做出直接凌駕於用戶意願之上的倫理判斷。然而,隨著AI代理(AI agents)變得越來越強大,究竟是負責任的行為還是用戶控制權應該優先,這個問題變得更加迫切。隨著AI模型開始處理文字以外的任務,這一點變得更加重要。一旦它們開始審查合約、分流病患或評估員工,就必須有人回答這些棘手的問題:誰來決定AI被允許做什麼?以及它遵循的是誰的倫理?