AI 新聞繁中

OpenAI 追蹤到其 AI 模型的一個奇怪現象：從 GPT-5.1 開始，這些模型在回答中會穿插哥布林、小妖精及其他神話生物。OpenAI 指出，在 GPT-5.1 推出後，「哥布林」的提及率激增了 175%。罪魁禍首是 ChatGPT「Nerdy」（書呆子）人格的訓練，這是一個調整模型語言風格的功能。一個旨在標記良好回答的獎勵訊號，卻意外地偏愛生物比喻。儘管「Nerdy」人格僅佔回應的 2.5%，卻導致了 66.7% 的哥布林提及，且訓練期間的迴饋循環將此習慣傳播到其他模式。OpenAI 已於三月關閉此人格，移除了錯誤的獎勵訊號，並從訓練資料中過濾掉與生物相關的詞彙。OpenAI 首席研究員 Jakub Pachocki 要求 GPT-5.5 生成獨角獸的 ASCII 藝術圖，結果卻得到一個更像哥布林的東西。| 圖片來源：OpenAI GPT-5.5 仍然存在這個問題，因為其訓練在 OpenAI 找到原因之前就已經開始了。作為權宜之計，該公司在其程式碼工具 Codex 中加入了一項特殊指令，要求它放棄哥布林比喻：> 除非與使用者的查詢絕對且明確相關，否則絕不提及哥布林、小妖精、浣熊、巨魔、食人魔、鴿子或其他動物或生物。OpenAI 表示，此案例顯示了微小的訓練誘因如何觸發 AI 模型中意想不到的行為。

ChatGPT 頻提哥布林：AI 模型訓練的意外副作用