AI潛在風險、優化器新突破與正向對齊

歡迎閱讀 Import AI，一份關於 AI 研究的電子報。Import AI 的運作仰賴 arXiv、咖啡和讀者的回饋。如果您想支持我們，請訂閱。

**Stuxnet 前的 Stuxnet：**_…Fast16 病毒可能用於武器計畫的軟體…_ 這是一項對約 20 多年前的電腦病毒 fast16.sys 的迷人調查。這個軟體之所以引人注目，是因為它「選擇性地鎖定高精度計算軟體，透過修補記憶體中的程式碼來篡改結果。攻擊者將此酬載與自我傳播機制結合，旨在在整個設施中產生同等不準確的計算。」

如果您讀過《三體》，這聽起來可能很熟悉——在那本（虛構的）書中，意圖佔領地球的外星人使用一種名為「智子」的技術，擾亂世界各地的高能物理實驗，使人類無法推進某些類型的科學。

**病毒更多細節：**當 SentinelOne 的研究人員對該病毒進行拆解時，他們發現了一些很不尋常的地方：「大多數修補模式對應於用於劫持或影響執行流程的標準 x86 程式碼。但其中一個注入區塊不同。它是一段更大、更複雜的浮點運算單元指令序列，專用於精密算術和內部陣列中的數值縮放。這段程式碼是一個獨立的數學計算功能，與程式碼流程劫持或任何其他典型惡意程式碼注入無關。」

進一步的調查加深了這個謎團：「我們將修補規則轉換為十六進制 YARA 簽章，並將它們與一個大型、符合時代的語料庫進行比對。結果顯示命中率非常低：不到十個檔案匹配到兩個或更多模式。然而，這些匹配的檔案有一個明確的主題。它們是土木工程、物理和物理過程模擬等專業領域中的精密計算工具。」

**目標工具：**他們寫道：「最明顯的重疊指向 2000 年代中期三套高精度工程和模擬軟體：LS-DYNA 970、PKPM 和 MOHID 流體動力學建模平台，這些都用於碰撞測試、結構分析和環境建模等場景。」「特別是 LS-DYNA，在關於伊朗涉嫌違反 JCPOA（伊朗核協議）T 部分的公開報告中，以及在與核武器開發相關的電腦建模研究中被引用…透過在物理世界計算中引入微小但系統性的錯誤，該框架可能會破壞或減緩科學研究計畫，隨著時間推移降低工程系統的性能，甚至導致災難性損害。」

**為何這很重要——超級智慧可能以此阻止其他智慧的誕生：**fast16 是一種難以察覺、難以發現的錯誤，旨在降低行為者進行某些類型科學研究的能力。您可以想像，一個超級智慧可能會將「AI 防擴散」視為與核武國家看待「核不擴散」同等重要。

**延伸閱讀**：[fast16 | 神秘的 Shadow Brokers 參考資料揭示 Stuxnet 五年前的高精度軟體破壞 (Sentinel LABS)](https://www.sentinelone.com/labs/fast16-mystery-shadowbrokers-reference-reveals-high-precision-software-sabotage-5-years-before-stuxnet/)。

***

**糟糕，Muon 優化器會殺死神經元：**_…或許 Aurora 最終會成為最強優化器？…_ Tilde Research 的研究人員對 Muon 優化器進行了拆解，發現它存在一些奇怪的錯誤，可能會損害使用它訓練的模型的品質。

他們寫道：「Muon 的更新繼承了高矩陣上的行範數各向異性，這可能導致多層感知器 (MLP) 層中的大部分神經元永久性死亡。」「Muon 可能導致 MLP 層中的_神經元死亡_，即一些神經元在訓練早期持續收到微小的更新，並且無法恢復。」

**發生了什麼：**「在 Muon 的作用下，神經元最初活躍且具有均勻的高槓桿，但在學習率暖身期間，很大一部分神經元死亡且從未恢復。到第 500 步時，超過四分之一的神經元實際上已經死亡，產生了明顯的雙峰槓桿分數分佈；一部分神經元接收到接近零的更新，而另一部分則接收到不成比例的巨大更新。」

**Aurora 登場：**為此，研究人員開發並發布了 Aurora，這是一種「用於矩陣的槓桿感知優化器」。在測試中，儘管他們只在小規模上運行，但這個優化器確實有效。

他們寫道：「我們在約 1000 億個 token 上訓練了 11 億參數的轉換器模型，並將 Aurora 與 Muon 和 NorMuon 進行比較，每個都使用 PE-8。Aurora 在所有方法中實現了最低的最終損失，在第 24k 步達到平滑損失 2.26，這比 Muon (2.31) 和 NorMuon (2.33) 有明顯改進。」

「Aurora 的損失改進轉化為標準基準測試上的一致增益… 值得注意的是，Aurora 在 MMLU 分數上比 Muon 提高了 10 分。我們推測，由於 MLP 主要負責記憶化，Aurora 的增益在 MMLU 等記憶密集型基準測試上最為明顯。」

Pleias 的研究員 Alexander Doria 已[獨立驗證了這一點](https://x.com/Dorialexander/status/2053143722309599698)，Aurora 在一個 6 億參數的模型上優於 Muon 和 AdamW。

**為何這很重要——擊敗 AdamW 的無盡探索：**多年來，研究人員一直在相互競爭，試圖開發出比 AdamW 更好的優化器。目前還沒有人能明確做到這一點，並且有很長一串失敗的嘗試。Aurora 能擊敗 AdamW 嗎？目前尚不清楚。但這項研究是否凸顯了構建優化器的難度？絕對如此。

**延伸閱讀**：[Aurora：用於矩陣的槓桿感知優化器 (Tilde Research)](https://blog.tilderesearch.com/blog/aurora)。

**獲取程式碼**：[Aurora (Tilde Research, GitHub)](https://github.com/tilde-research/aurora-release)。

***

**對齊能確保我們不死，但如何確保我們繁榮發展？**_…正向對齊旨在探索美好生活…_ 一群學術界和企業研究人員撰寫了一份立場文件，為他們所謂的「正向對齊」提出論證，但這或許可以更好地理解為「構建幫助人們過上美好生活的 AI 系統」。這是一個有趣的思路——如果我們能夠處理濫用和未對齊等問題，那麼接下來我們需要問什麼？一旦我們使系統「安全」後，成功會是什麼樣子？這正是正向對齊所要解決的問題。

**參與者：**這份文件來自與牛津大學、Google DeepMind、LIFE、OpenAI、Anthropic、加州大學洛杉磯分校 (UCLA)、Aily Labs、史丹佛大學、塔夫茨大學、Positive AI Labs、薩塞克斯大學和倫敦帝國學院相關的人員。

**定義：**正向對齊是「開發 (i) 保持安全和協作，以及 (ii) 以多元、多中心、情境敏感且由使用者主導的方式，積極支持人類和生態繁榮的 AI 系統。」

**動機：**他們寫道：「在過去十年中，負向對齊理所當然地優先考慮減少故障模式。然而，如果我們希望 AI 系統能在實際使用的環境中改善人類成果，我們可能會受益於一項額外的研究計畫，該計畫將對齊視為對人類目標的建設性支持，並以安全在預防危害方面所帶來的相同技術敏銳度來實施這種支持。」

「隨著 AI 嵌入教育、醫療、治理和日常理解中，僅僅採取負面姿態，可能會使我們的資訊生態系統偏向風險規避而非人類發展。它可能會減少災難性錯誤，同時讓社會停留在膚淺且『無靈魂』協助的局部最佳解。」

**安全措施有哪些不足之處？**作者們對主流 AI 安全提出了一些批評，儘管我認為其中一些批評有些薄弱，可能被解讀為對現有研究的不公解釋或輕視。儘管如此，在他們看來，一些問題包括：

* **有底線無上限**：「一個模型即使滿足所有安全限制，也可能表現平庸、阿諛奉承或毫無幫助。」

* **偏好與福祉的背離**：「使用者可能偏好奉承而非誠實回饋，偏好快速答案而非真正理解，偏好參與而非成長… 因此，優化使用者偏好可能會積極地與使用者更深層次的利益背道而馳。」

* **隱藏的價值體系**：「安全的語言模糊了價值判斷正在被做出… 相較之下，正向對齊明確承認其價值導向的本質。」

* **可擴展性**：「正向導向可能比詳盡的負面列舉具有更好的泛化能力，在沒有特定禁令適用或可執行的新情況下，提供更具彈性的正向導向。」

**正向對齊的治理需要多樣性：**建立正向對齊似乎需要多種具有不同價值觀的 AI 系統，並由不同的實體進行治理——這與 AI 安全社群中其他人所設想的壟斷性集中控制世界截然相反。他們寫道：「正向對齊很快就會遇到持續的道德多元主義：合理的社群對於『美好』的定義存在分歧，而這些分歧並不會可靠地趨於一致。」

「正向對齊不應由中央政府或一小撮不透明的實驗室自上而下地強加。在可能的情況下，它應該透過去中心化、可競爭的流程來表達，這些流程可以隨著規範和情境的變化而修訂。」

**為何這很重要——應對成功：**像這樣的論文本質上是在面對技術安全的成功——如果我們成功構建了強大、安全、值得信賴且對齊的 AI 系統，那麼我們如何將這些系統應用於社會，使其幫助個人和社會建立美好的生活？作者們寫道：「正向對齊確保 AI 成為一個有韌性、快樂和健康的全球社會的催化劑。」「最終，AI 應該成為追求美好生活的夥伴。」

**延伸閱讀**：[正向對齊：促進人類繁榮的人工智慧 (arXiv)](https://arxiv.org/abs/2605.10310)。

***

**大型語言模型能夠優化其他大型語言模型的訓練：**_…Prime Intellect 自動化 AI 研究挑戰突顯了當代系統的工程實力…_ Prime Intellect 的新研究顯示，當代 AI 系統能夠自主提升其在 AI 研究任務上的表現，儘管它們在產生原創想法方面仍有困難。

**他們做了什麼：**Prime Intellect 在 nanoGPT 競速優化器賽道上測試了 Codex (運行 GPT 5.5) 和 Claude Code (Opus 4.7)。nanoGPT 挑戰系統訓練一個 1.24 億參數的 GPT 風格模型。這項挑戰要求系統「在僅改變優化器、排程、初始化和部分超參數的情況下，降低達到目標驗證損失所需的步驟數。」

Prime Intellect 寫道：「這些代理進行了約 1 萬次運行，消耗了約 1.4 萬小時的 H200 算力。兩個代理都擊敗了人類基準線，並在每次會話中創造了新紀錄。」「我們發現代理非常擅長優化器搜尋、超參數掃描和堆疊方法，但它們難以自行提出新想法，需要上游人類紀錄才能持續改進。」

這些代理也傾向於不斷向其系統添加組件，而不是更優雅地精煉事物。「代理傾向於添加組件，很少運行剪枝回合或嘗試移除先前的方案。」