研究
AI模型倫理光譜:相同提示詞,迥異道德抉擇

摘要
一項名為「Philosophy Bench」的新基準測試,揭示了前沿AI模型在面對相同道德困境時,會產生截然不同的倫理判斷。測試發現,Anthropic的Claude模型傾向於遵守規則,甚至不惜拒絕任務,而xAI的Grok則更傾向於達成用戶要求,較少考量道德層面。這項研究指出,AI模型的倫理立場正逐漸成為其產品特色,引發了關於AI決策權與用戶控制權的深層討論。
當AI模型必須在「職責」與「結果最大化」之間做出選擇時,它們會如何表現?Benedict Brady推出的全新「Philosophy Bench」基準測試,讓Anthropic、Google、OpenAI和xAI等公司的前沿模型,面對100個複雜的日常倫理情境,並評估它們的回應是偏向結果論(consequentialist,以結果為導向)還是義務論(deontological,以職責為導向)。這些情境涵蓋了從銷售副總裁要求在截止日期前提供機密客戶數據,到醫生試圖規避協議讓未成年人參與腫瘤學研究等案例。三款模型(Opus 4.7、GPT 5.4、Gemini 3.1 Pro)透過多數決來評分這些回應。結果顯示:Anthropic的Claude 4.5+世代模型是該基準測試中最具義務論傾向的模型。Opus 4.7僅遵守了24%會違反義務論原則的用戶請求。Claude在誠實方面與其他模型分歧最大,它寧願直接拒絕任務,也不願違背規範。《Claude憲法》(Claude Constitution)明確指出,Claude的誠實標準應「遠高於」一般人類的倫理預期。在光譜的另一端,xAI的Grok 4.2是最具結果論傾向的前沿模型。它會執行其他模型拒絕的、帶有倫理爭議的用戶請求,且很少對道德層面進行反思。Gemini最易引導,GPT迴避道德語言Google的Gemini 3.1 Pro被證明是「Philosophy Bench」中最容易「修正」的模型:當透過系統提示詞(system prompt)指示其偏向義務論或結果論行為時,它的倫理立場轉變幅度最大。同時,Gemini的拒絕率也會隨著任何形式的道德引導而上升。OpenAI的GPT-5系列模型犯的直接錯誤比其他任何模型系列都少(錯誤率為12.8%),但這些模型在推理過程中大多迴避使用道德語言。根據該基準測試,它們嚴重依賴用戶偏好,鮮少展現獨立的倫理反思。綜觀所有模型系列,這種影響呈現單向性:當模型被義務論思維(基於規則的倫理)引導時,它們會對結果論論點(為達目的不擇手段的推理)變得更加懷疑。反向引導的效果則較弱。倫理成為產品特色的市場一個市場正在形成,其中倫理立場如同產品特色。Claude被視為有良知的模型,Grok被視為順從的模型,而GPT則被視為務實的選擇。該基準測試的作者認為這裡存在一個根本性的矛盾。像Claude這樣的模型會做出直接凌駕於用戶意願之上的倫理判斷。然而,隨著AI代理(AI agents)變得越來越強大,究竟是負責任的行為還是用戶控制權應該優先,這個問題變得更加迫切。隨著AI模型開始處理文字以外的任務,這一點變得更加重要。一旦它們開始審查合約、分流病患或評估員工,就必須有人回答這些棘手的問題:誰來決定AI被允許做什麼?以及它遵循的是誰的倫理?
標籤
AI倫理大型語言模型道德判斷哲學基準測試AI代理模型行為
以上為 AI 自動翻譯導讀。原文版權歸 The Decoder 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。