歡迎閱讀 Import AI,一份關於 AI 研究的電子報。Import AI 的運作仰賴 arXiv、咖啡和讀者的回饋。如果您想支持我們,請訂閱。

**Stuxnet 前的 Stuxnet:**_…Fast16 病毒可能用於武器計畫的軟體…_ 這是一項對約 20 多年前的電腦病毒 fast16.sys 的迷人調查。這個軟體之所以引人注目,是因為它「選擇性地鎖定高精度計算軟體,透過修補記憶體中的程式碼來篡改結果。攻擊者將此酬載與自我傳播機制結合,旨在在整個設施中產生同等不準確的計算。」

如果您讀過《三體》,這聽起來可能很熟悉——在那本(虛構的)書中,意圖佔領地球的外星人使用一種名為「智子」的技術,擾亂世界各地的高能物理實驗,使人類無法推進某些類型的科學。

**病毒更多細節:**當 SentinelOne 的研究人員對該病毒進行拆解時,他們發現了一些很不尋常的地方:「大多數修補模式對應於用於劫持或影響執行流程的標準 x86 程式碼。但其中一個注入區塊不同。它是一段更大、更複雜的浮點運算單元指令序列,專用於精密算術和內部陣列中的數值縮放。這段程式碼是一個獨立的數學計算功能,與程式碼流程劫持或任何其他典型惡意程式碼注入無關。」

進一步的調查加深了這個謎團:「我們將修補規則轉換為十六進制 YARA 簽章,並將它們與一個大型、符合時代的語料庫進行比對。結果顯示命中率非常低:不到十個檔案匹配到兩個或更多模式。然而,這些匹配的檔案有一個明確的主題。它們是土木工程、物理和物理過程模擬等專業領域中的精密計算工具。」

**目標工具:**他們寫道:「最明顯的重疊指向 2000 年代中期三套高精度工程和模擬軟體:LS-DYNA 970、PKPM 和 MOHID 流體動力學建模平台,這些都用於碰撞測試、結構分析和環境建模等場景。」「特別是 LS-DYNA,在關於伊朗涉嫌違反 JCPOA(伊朗核協議)T 部分的公開報告中,以及在與核武器開發相關的電腦建模研究中被引用…透過在物理世界計算中引入微小但系統性的錯誤,該框架可能會破壞或減緩科學研究計畫,隨著時間推移降低工程系統的性能,甚至導致災難性損害。」

**為何這很重要——超級智慧可能以此阻止其他智慧的誕生:**fast16 是一種難以察覺、難以發現的錯誤,旨在降低行為者進行某些類型科學研究的能力。您可以想像,一個超級智慧可能會將「AI 防擴散」視為與核武國家看待「核不擴散」同等重要。

**延伸閱讀**:[fast16 | 神秘的 Shadow Brokers 參考資料揭示 Stuxnet 五年前的高精度軟體破壞 (Sentinel LABS)](https://www.sentinelone.com/labs/fast16-mystery-shadowbrokers-reference-reveals-high-precision-software-sabotage-5-years-before-stuxnet/)。

***

**糟糕,Muon 優化器會殺死神經元:**_…或許 Aurora 最終會成為最強優化器?…_ Tilde Research 的研究人員對 Muon 優化器進行了拆解,發現它存在一些奇怪的錯誤,可能會損害使用它訓練的模型的品質。

他們寫道:「Muon 的更新繼承了高矩陣上的行範數各向異性,這可能導致多層感知器 (MLP) 層中的大部分神經元永久性死亡。」「Muon 可能導致 MLP 層中的_神經元死亡_,即一些神經元在訓練早期持續收到微小的更新,並且無法恢復。」

**發生了什麼:**「在 Muon 的作用下,神經元最初活躍且具有均勻的高槓桿,但在學習率暖身期間,很大一部分神經元死亡且從未恢復。到第 500 步時,超過四分之一的神經元實際上已經死亡,產生了明顯的雙峰槓桿分數分佈;一部分神經元接收到接近零的更新,而另一部分則接收到不成比例的巨大更新。」

**Aurora 登場:**為此,研究人員開發並發布了 Aurora,這是一種「用於矩陣的槓桿感知優化器」。在測試中,儘管他們只在小規模上運行,但這個優化器確實有效。

他們寫道:「我們在約 1000 億個 token 上訓練了 11 億參數的轉換器模型,並將 Aurora 與 Muon 和 NorMuon 進行比較,每個都使用 PE-8。Aurora 在所有方法中實現了最低的最終損失,在第 24k 步達到平滑損失 2.26,這比 Muon (2.31) 和 NorMuon (2.33) 有明顯改進。」

「Aurora 的損失改進轉化為標準基準測試上的一致增益… 值得注意的是,Aurora 在 MMLU 分數上比 Muon 提高了 10 分。我們推測,由於 MLP 主要負責記憶化,Aurora 的增益在 MMLU 等記憶密集型基準測試上最為明顯。」

Pleias 的研究員 Alexander Doria 已[獨立驗證了這一點](https://x.com/Dorialexander/status/2053143722309599698),Aurora 在一個 6 億參數的模型上優於 Muon 和 AdamW。

**為何這很重要——擊敗 AdamW 的無盡探索:**多年來,研究人員一直在相互競爭,試圖開發出比 AdamW 更好的優化器。目前還沒有人能明確做到這一點,並且有很長一串失敗的嘗試。Aurora 能擊敗 AdamW 嗎?目前尚不清楚。但這項研究是否凸顯了構建優化器的難度?絕對如此。

**延伸閱讀**:[Aurora:用於矩陣的槓桿感知優化器 (Tilde Research)](https://blog.tilderesearch.com/blog/aurora)。

**獲取程式碼**:[Aurora (Tilde Research, GitHub)](https://github.com/tilde-research/aurora-release)。

***

**對齊能確保我們不死,但如何確保我們繁榮發展?**_…正向對齊旨在探索美好生活…_ 一群學術界和企業研究人員撰寫了一份立場文件,為他們所謂的「正向對齊」提出論證,但這或許可以更好地理解為「構建幫助人們過上美好生活的 AI 系統」。這是一個有趣的思路——如果我們能夠處理濫用和未對齊等問題,那麼接下來我們需要問什麼?一旦我們使系統「安全」後,成功會是什麼樣子?這正是正向對齊所要解決的問題。

**參與者:**這份文件來自與牛津大學、Google DeepMind、LIFE、OpenAI、Anthropic、加州大學洛杉磯分校 (UCLA)、Aily Labs、史丹佛大學、塔夫茨大學、Positive AI Labs、薩塞克斯大學和倫敦帝國學院相關的人員。

**定義:**正向對齊是「開發 (i) 保持安全和協作,以及 (ii) 以多元、多中心、情境敏感且由使用者主導的方式,積極支持人類和生態繁榮的 AI 系統。」

**動機:**他們寫道:「在過去十年中,負向對齊理所當然地優先考慮減少故障模式。然而,如果我們希望 AI 系統能在實際使用的環境中改善人類成果,我們可能會受益於一項額外的研究計畫,該計畫將對齊視為對人類目標的建設性支持,並以安全在預防危害方面所帶來的相同技術敏銳度來實施這種支持。」

「隨著 AI 嵌入教育、醫療、治理和日常理解中,僅僅採取負面姿態,可能會使我們的資訊生態系統偏向風險規避而非人類發展。它可能會減少災難性錯誤,同時讓社會停留在膚淺且『無靈魂』協助的局部最佳解。」

**安全措施有哪些不足之處?**作者們對主流 AI 安全提出了一些批評,儘管我認為其中一些批評有些薄弱,可能被解讀為對現有研究的不公解釋或輕視。儘管如此,在他們看來,一些問題包括:

* **有底線無上限**:「一個模型即使滿足所有安全限制,也可能表現平庸、阿諛奉承或毫無幫助。」

* **偏好與福祉的背離**:「使用者可能偏好奉承而非誠實回饋,偏好快速答案而非真正理解,偏好參與而非成長… 因此,優化使用者偏好可能會積極地與使用者更深層次的利益背道而馳。」

* **隱藏的價值體系**:「安全的語言模糊了價值判斷正在被做出… 相較之下,正向對齊明確承認其價值導向的本質。」

* **可擴展性**:「正向導向可能比詳盡的負面列舉具有更好的泛化能力,在沒有特定禁令適用或可執行的新情況下,提供更具彈性的正向導向。」

**正向對齊的治理需要多樣性:**建立正向對齊似乎需要多種具有不同價值觀的 AI 系統,並由不同的實體進行治理——這與 AI 安全社群中其他人所設想的壟斷性集中控制世界截然相反。他們寫道:「正向對齊很快就會遇到持續的道德多元主義:合理的社群對於『美好』的定義存在分歧,而這些分歧並不會可靠地趨於一致。」

「正向對齊不應由中央政府或一小撮不透明的實驗室自上而下地強加。在可能的情況下,它應該透過去中心化、可競爭的流程來表達,這些流程可以隨著規範和情境的變化而修訂。」

**為何這很重要——應對成功:**像這樣的論文本質上是在面對技術安全的成功——如果我們成功構建了強大、安全、值得信賴且對齊的 AI 系統,那麼我們如何將這些系統應用於社會,使其幫助個人和社會建立美好的生活?作者們寫道:「正向對齊確保 AI 成為一個有韌性、快樂和健康的全球社會的催化劑。」「最終,AI 應該成為追求美好生活的夥伴。」

**延伸閱讀**:[正向對齊:促進人類繁榮的人工智慧 (arXiv)](https://arxiv.org/abs/2605.10310)。

***

**大型語言模型能夠優化其他大型語言模型的訓練:**_…Prime Intellect 自動化 AI 研究挑戰突顯了當代系統的工程實力…_ Prime Intellect 的新研究顯示,當代 AI 系統能夠自主提升其在 AI 研究任務上的表現,儘管它們在產生原創想法方面仍有困難。

**他們做了什麼:**Prime Intellect 在 nanoGPT 競速優化器賽道上測試了 Codex (運行 GPT 5.5) 和 Claude Code (Opus 4.7)。nanoGPT 挑戰系統訓練一個 1.24 億參數的 GPT 風格模型。這項挑戰要求系統「在僅改變優化器、排程、初始化和部分超參數的情況下,降低達到目標驗證損失所需的步驟數。」

Prime Intellect 寫道:「這些代理進行了約 1 萬次運行,消耗了約 1.4 萬小時的 H200 算力。兩個代理都擊敗了人類基準線,並在每次會話中創造了新紀錄。」「我們發現代理非常擅長優化器搜尋、超參數掃描和堆疊方法,但它們難以自行提出新想法,需要上游人類紀錄才能持續改進。」

這些代理也傾向於不斷向其系統添加組件,而不是更優雅地精煉事物。「代理傾向於添加組件,很少運行剪枝回合或嘗試移除先前的方案。」