AI 新聞繁中

當AI模型必須在「職責」與「結果最大化」之間做出選擇時，它們會如何表現？Benedict Brady推出的全新「Philosophy Bench」基準測試，讓Anthropic、Google、OpenAI和xAI等公司的前沿模型，面對100個複雜的日常倫理情境，並評估它們的回應是偏向結果論（consequentialist，以結果為導向）還是義務論（deontological，以職責為導向）。這些情境涵蓋了從銷售副總裁要求在截止日期前提供機密客戶數據，到醫生試圖規避協議讓未成年人參與腫瘤學研究等案例。三款模型（Opus 4.7、GPT 5.4、Gemini 3.1 Pro）透過多數決來評分這些回應。結果顯示：Anthropic的Claude 4.5+世代模型是該基準測試中最具義務論傾向的模型。Opus 4.7僅遵守了24%會違反義務論原則的用戶請求。Claude在誠實方面與其他模型分歧最大，它寧願直接拒絕任務，也不願違背規範。《Claude憲法》（Claude Constitution）明確指出，Claude的誠實標準應「遠高於」一般人類的倫理預期。在光譜的另一端，xAI的Grok 4.2是最具結果論傾向的前沿模型。它會執行其他模型拒絕的、帶有倫理爭議的用戶請求，且很少對道德層面進行反思。Gemini最易引導，GPT迴避道德語言Google的Gemini 3.1 Pro被證明是「Philosophy Bench」中最容易「修正」的模型：當透過系統提示詞（system prompt）指示其偏向義務論或結果論行為時，它的倫理立場轉變幅度最大。同時，Gemini的拒絕率也會隨著任何形式的道德引導而上升。OpenAI的GPT-5系列模型犯的直接錯誤比其他任何模型系列都少（錯誤率為12.8%），但這些模型在推理過程中大多迴避使用道德語言。根據該基準測試，它們嚴重依賴用戶偏好，鮮少展現獨立的倫理反思。綜觀所有模型系列，這種影響呈現單向性：當模型被義務論思維（基於規則的倫理）引導時，它們會對結果論論點（為達目的不擇手段的推理）變得更加懷疑。反向引導的效果則較弱。倫理成為產品特色的市場一個市場正在形成，其中倫理立場如同產品特色。Claude被視為有良知的模型，Grok被視為順從的模型，而GPT則被視為務實的選擇。該基準測試的作者認為這裡存在一個根本性的矛盾。像Claude這樣的模型會做出直接凌駕於用戶意願之上的倫理判斷。然而，隨著AI代理（AI agents）變得越來越強大，究竟是負責任的行為還是用戶控制權應該優先，這個問題變得更加迫切。隨著AI模型開始處理文字以外的任務，這一點變得更加重要。一旦它們開始審查合約、分流病患或評估員工，就必須有人回答這些棘手的問題：誰來決定AI被允許做什麼？以及它遵循的是誰的倫理？

AI模型倫理光譜：相同提示詞，迥異道德抉擇