OpenAI 追蹤到其 AI 模型的一個奇怪現象:從 GPT-5.1 開始,這些模型在回答中會穿插哥布林、小妖精及其他神話生物。OpenAI 指出,在 GPT-5.1 推出後,「哥布林」的提及率激增了 175%。罪魁禍首是 ChatGPT「Nerdy」(書呆子)人格的訓練,這是一個調整模型語言風格的功能。一個旨在標記良好回答的獎勵訊號,卻意外地偏愛生物比喻。儘管「Nerdy」人格僅佔回應的 2.5%,卻導致了 66.7% 的哥布林提及,且訓練期間的迴饋循環將此習慣傳播到其他模式。OpenAI 已於三月關閉此人格,移除了錯誤的獎勵訊號,並從訓練資料中過濾掉與生物相關的詞彙。OpenAI 首席研究員 Jakub Pachocki 要求 GPT-5.5 生成獨角獸的 ASCII 藝術圖,結果卻得到一個更像哥布林的東西。| 圖片來源:OpenAI GPT-5.5 仍然存在這個問題,因為其訓練在 OpenAI 找到原因之前就已經開始了。作為權宜之計,該公司在其程式碼工具 Codex 中加入了一項特殊指令,要求它放棄哥布林比喻:> 除非與使用者的查詢絕對且明確相關,否則絕不提及哥布林、小妖精、浣熊、巨魔、食人魔、鴿子或其他動物或生物。OpenAI 表示,此案例顯示了微小的訓練誘因如何觸發 AI 模型中意想不到的行為。