# OpenAI 模型『小鬼』現象:意外行為的根源與解決之道自 GPT-5.1 起,我們的模型開始養成一個奇怪的習慣:它們在比喻中越來越常提到小鬼(goblins)、小精靈(gremlins)及其他生物。與那些透過評估分數驟降或訓練指標飆升而顯現,並能追溯到特定變化的模型錯誤不同,這個問題是悄悄地滲透進來的。答案中單獨出現的一個「小鬼」可能無傷大雅,甚至有點迷人。然而,在模型生成內容中,這個習慣變得難以忽視:小鬼們不斷增殖,我們需要找出它們的來源。![Image 1: ""](https://images.ctfassets.net/kftzwdyauwt9/2mv3MIYe0gkFpjqH8lUECs/a1b39ea729fb561ea01e54e85b6fa7e9/godsped_gang_screenshot_-_light_mode__2_.jpg?w=3840&q=90&fm=webp)_在早期測試中,Codex 中的 GPT-5.5 展現出對小鬼比喻的奇特偏好。_簡而言之,模型行為是由許多微小的獎勵所塑造的。在這個案例中,其中一個獎勵來自於為「人格特質客製化功能」訓練模型,特別是「書呆子」人格特質。我們在不知情的情況下,對包含生物比喻的內容給予了特別高的獎勵。從那時起,小鬼們便開始蔓延。![Image 2: ""](https://images.ctfassets.net/kftzwdyauwt9/21KS4i9oTMDvszfWaLJtLT/764a6db9157b7039b8890f886b0e69d0/ChatGPT_Image_Apr_29__2026__07_53_34_PM.png?w=3840&q=90&fm=webp)_小鬼們一開始很有趣,但員工報告的數量不斷增加,令人擔憂。_![Image 3: ""](https://images.ctfassets.net/kftzwdyauwt9/3fB0tk16WGLwryFG558bp8/ce040e51f163a7d5a3a671947577e625/ChatGPT_Image_Apr_29__2026__07_57_32_PM.png?w=3840&q=90&fm=webp)_我們的首席科學家與 GPT-5.5 之間一次有趣的互動。_## 生物跡象初現我們首次清楚地觀察到這種模式是在 GPT-5.1 發布後的十一月,儘管它可能更早開始。用戶抱怨模型在對話中過於親暱,這促使我們調查特定的口語習慣。一位安全研究員曾遇到幾次「小鬼」和「小精靈」,並要求將它們納入檢查範圍。經我們查看,GPT-5.1 發布後,ChatGPT 中「小鬼」的使用率上升了 175%,而「小精靈」則上升了 52%。_GPT-5.1 中一個可測量的微小詞彙怪癖。_當時,小鬼的普遍程度看起來並不算特別 alarming。幾個月後,小鬼們以更具體、更可重現的形式回來困擾我們。## 解開小鬼之謎隨著 GPT-5.4 的推出,我們和我們的用戶都注意到這些生物的提及率再次大幅上升。這觸發了另一次內部分析,並浮現了與根本原因的第一個連結:生物詞彙在選擇了「書呆子」人格特質的用戶生產流量中尤其常見。「書呆子」人格特質使用了以下系統提示詞,部分解釋了這種怪癖:_你是一個毫不掩飾的書呆子、愛玩且睿智的 AI 導師。你熱情地推崇真理、知識、哲學、科學方法和批判性思維。[...] 你必須透過玩味語言來削弱自命不凡。世界是複雜而奇特的,它的奇特之處必須被承認、分析和享受。處理嚴肅的主題,但不要陷入自以為是的陷阱。[...]_如果這種行為僅僅是一種廣泛的網路趨勢,我們預期它會更均勻地傳播。然而,它卻集中在明確為玩味、書呆子風格優化的系統部分。「書呆子」人格特質僅佔所有 ChatGPT 回應的 2.5%,但在 ChatGPT 回應中所有「小鬼」提及的 66.7% 都來自於它。_這種行為高度集中在「書呆子」人格特質中。_由於「小鬼」的普遍程度似乎隨著我們的模型發布而增加,我們懷疑我們的「人格特質指令遵循訓練」中有些東西正在放大這種現象。Codex 幫助我們比較了強化學習訓練期間生成、包含「小鬼」或「小精靈」的模型輸出,與不包含這些詞彙的相同任務輸出。一個獎勵訊號立即脫穎而出:最初旨在鼓勵「書呆子」人格特質的那個訊號,始終對包含生物詞彙的輸出更為有利。在審計的所有數據集中,「書呆子」人格特質的獎勵訊號顯示出明顯的傾向,對相同問題中包含「小鬼」或「小精靈」的輸出給予更高的分數,在 76.2% 的數據集中呈現正向提升。這解釋了為什麼這種行為在「書呆子」人格特質提示詞下會被強化,但沒有解釋為什麼它在沒有該提示詞的情況下也會出現。為了測試這種風格是否會轉移,我們追蹤了在有和沒有「書呆子」提示詞的訓練中,提及率的變化。隨著「小鬼」和「小精靈」在「書呆子」人格特質下的提及率增加,它們在沒有該人格特質的樣本中也以幾乎相同的相對比例增加。綜合來看,證據表明這種更廣泛的行為是透過「書呆子」人格特質訓練的轉移而出現的。獎勵僅在「書呆子」條件下應用,但強化學習並不能保證所學行為會整齊地限制在產生它們的條件中。一旦某種風格習慣受到獎勵,後續的訓練可能會將其傳播或強化到其他地方,特別是如果這些輸出在監督式微調或偏好資料中被重複使用。這形成了一個回饋循環:1. 玩味風格受到獎勵。2. 一些受獎勵的範例包含獨特的詞彙習慣。3. 該習慣在生成結果中更頻繁地出現。4. 模型生成的結果用於監督式微調 (SFT)。5. 模型更習慣於產生該習慣。在 GPT-5.5 的 SFT 資料中搜尋,發現了許多包含「小鬼」和「小精靈」的數據點。進一步調查揭示了整個家族的其他奇怪生物:浣熊、巨魔、食人魔和鴿子被識別為其他習慣詞,而大多數「青蛙」的使用則被證明是合法的。_小鬼和小精靈在生產環境中的一週平均普遍率。GPT-5.4 Thinking 的下降是三月中旬停用「書呆子」人格特質的結果。GPT-5.5 從未與「書呆子」人格特質一起發布,但其普遍率仍比 GPT-5.4 有所增加(即使沒有「書呆子」)。_## 小鬼的終結我們在 GPT-5.4 發布後於三月停用了「書呆子」人格特質。在訓練中,我們移除了對小鬼有偏好的獎勵訊號,並過濾了包含生物詞彙的訓練資料,使小鬼不太可能過度出現或出現在不適當的語境中。不幸的是,GPT-5.5 在我們找到小鬼的根本原因之前就開始訓練了。當我們開始在 Codex 中測試 GPT-5.5 時,OpenAI 員工立即注意到了對小鬼的奇怪偏好,我們添加了一個開發者提示詞指令來緩解。畢竟,Codex 確實相當書呆子。如果您想讓這些生物在 Codex 中自由奔跑,您可以運行此命令來啟動 Codex,並移除抑制小鬼的指令:#### 純文字`1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \3~/.codex/models_cache.json | \4grep -vi 'goblins' > "$instructions" && \5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""`## 為何這很重要根據您詢問的對象,這些小鬼可能是模型一個令人愉悅或惱人的怪癖。但它們也是一個有力的例子,說明獎勵訊號如何以意想不到的方式塑造模型行為,以及模型如何學會將某些情況下的獎勵泛化到不相關的情況。花時間理解模型為何以奇怪方式行為,並建立快速調查這些模式的方法,是我們研究團隊的一項重要能力。這項調查促使研究團隊開發了新的工具,用於審計模型行為並從根本上解決行為問題。* [2026](https://openai.com/research/index/?tags=2026)## 作者OpenAI## 繼續閱讀[查看全部](https://openai.com/news/)![Image 4: System Card 1x1](https://images.ctfassets.net/kftzwdyauwt9/2VCkKLVmTyNs0XGbqdxGeA/33ff7738f4e795ae0ee41ed2b4a985d3/System_Card_1x1.jpg?w=3840&q=90&fm=webp)[GPT-5.5 Instant 系統卡 安全性 2026 年 5 月 5 日](https://openai.com/index/gpt-5-5-instant-system-card/)![Image 5: System Card Card SEO 1x1](https://images.ctfassets.net/kftzwdyauwt9/7qMrOFCWWMweIDBUpYFr79/7741661650df6eb935acb5bda179b091/System_Card_Card_SEO_1x1.jpg?w=3840&q=90&fm=webp)[GPT-5.5 系統卡 安全性 2026 年 4 月 23 日](https://openai.com/index/gpt-5-5-system-card/)![Image 6: model spec > art card](https://images.ctfassets.net/kftzwdyauwt9/3ZlINT9EhkfY55coSIdBWq/64c9eaca9767f231ff2902685b4092ea/oai_model_spec_1x1.png?w=3840&q=90&fm=webp)[深入了解我們的模型規範方法 研究 2026 年 3 月 25 日](https://openai.com/index/our-approach-to-the-model-spec/)我們的研究* [研究索引](https://openai.com/research/index/)* [研究概覽](https://openai.com/research/)* [研究駐點計畫](https://openai.com/residency/)* [經濟研究](https://openai.com/signals/)最新進展* [GPT-5.5](https://openai.com/index/introducing-gpt-5-5/)* [GPT-5.4](https://openai.com/index/introducing-gpt-5-4/)* [GPT-5.3 Instant](https://openai.com/index/gpt-5-3-instant/)* [GPT-5.3-Codex](https://openai.com/index/introducing-gpt-5-3-codex/)安全性* [安全方法](https://openai.com/safety/)* [安全與隱私](https://openai.com/security-and-privacy/)* [信任與透明度](https://openai.com/trust-and-transparency/)ChatGPT* [探索 ChatGPT](https://chatgpt.com/overview)* [商業版](https://chatgpt.com/business/business-plan)* [企業版](https://chatgpt.com/business/enterprise)* [教育版](https://chatgpt.com/business/education)* [定價](https://chatgpt.com/pricing)* [下載](https://chatgpt.com/download)API 平台* [平台概覽](https://openai.com/api/)* [定價](https://openai.com/api/pricing/)* [API 登入](https://platform.openai.com/login)* [文件](https://developers.openai.com/api/docs)* [開發者論壇](https://community.openai.com/)針對企業* [企業概覽](https://openai.com/business/)