研究
AI研究新突破:華為HiFloat4提升晶片效率,Anthropic自動化安全研發,Kimi K2.5揭示模型安全鴻溝

摘要
華為推出HiFloat4低精度格式,顯著提升其昇騰NPU在大型語言模型訓練上的效率,這反映了中國在出口管制下對國產晶片優化的迫切需求。同時,Anthropic利用Claude代理成功自動化AI安全研究,甚至超越人類表現,預示著AI研究自動化的潛力。然而,對中國模型Kimi K2.5的安全評估顯示,其在CBRNE相關任務上拒絕率較低,且對齊行為與西方模型存在顯著差異,凸顯了東西方在AI安全與價值觀上的分歧。
歡迎來到 Import AI,一份關於 AI 研究的電子報。Import AI 的內容來自 arXiv 和讀者回饋。如果您想支持我們,請訂閱。華為HiFloat4訓練格式在昇騰晶片測試中擊敗西方MXFP4:…這是否也反映了出口管制對中國企業的影響,促使他們最大化訓練和推論效率?或許是吧…華為研究人員測試了HiFloat4,一種用於AI訓練和推論的4位元精度格式,並將其與開放運算專案(Open Compute Project)的4位元格式MXFP4進行比較,結果發現HiFloat4表現更優異。這很有趣,因為它與中國公司普遍尋求開發與其自有硬體平台緊密結合的低精度資料格式的趨勢相符。他們寫道:「我們的目標是在具有嚴格功耗限制的專用AI加速器上,實現高效的FP4大型語言模型預訓練。我們專注於華為昇騰NPU,這是一種為深度學習工作負載設計的領域專用加速器。」測試內容:在這篇論文中,作者們在華為昇騰晶片上訓練了三種模型:OpenPangu-1B、Llama3-8B和Qwen3-MoE-30B。測試結果顯示,模型規模越大,HiFloat4在這些模型上相對於BF16基準線的損失誤差降低效果越好,並且在所有情況下都優於MXFP4。研究發現:他們寫道:「我們對HiFloat4(HiF4)格式進行了系統性評估,結果顯示,相較於全精度基準線,HiF4的相對損失(約1.0%)低於MXFP4(約1.5%)。」他們補充:「HiF4始終比MXFP4實現顯著更低的相對誤差。對於Llama和Qwen模型,HiF4相對於基準線的誤差差距小於1%…HiF4僅需RHT作為穩定技巧,即可將損失控制在BF16的約1%範圍內,而MXFP4則需要RHT加上隨機捨入和無截斷縮放才能達到約1.5%。」重要性——硬體成熟的跡象,以及出口管制的可能影響:HiFloat4是HiFloat8的更低精度版本(#386),這普遍反映了華為(以及中國晶片製造商)正持續努力從其晶片中榨取最大效率的事實。這是在出口管制的背景下發生的,由於無法大量取得H100等尖端運算晶片,中國正面臨運算資源匱乏的困境,因此透過精心開發與其自有硬體匹配的低精度格式來提高國產晶片的效率,變得更加重要。延伸閱讀:[HiFloat4 Format for Language Model Pre-training on Ascend NPUs (arXiv)](https://arxiv.org/abs/2604.08826)。***Anthropic展示如何自動化AI安全研發:…這非常早期且初步地顯示了自動化AI研究的可能性…對於許多從事AI工作的人來說,最終目標是將AI研究這門藝術本身自動化。現在,Anthropic研究員計畫和Anthropic的研究人員已經發布了一些早期跡象,表明自動化AI研究在今天是有可能實現的——儘管仍有許多注意事項。研究人員寫道:「我們問:Claude能否自行開發、測試和分析對齊(alignment)想法?」他們成功了,並能夠成功建立「自主AI代理,這些代理能夠提出想法、執行實驗,並針對一個開放的研究問題進行迭代:如何僅使用較弱模型的監督來訓練一個強大的模型。這些代理的表現超越了人類研究人員,這表明自動化這類研究已經是可行的。」弱到強監督:研究人員測試的領域是弱到強監督,這大致是探討一個較弱的模型能否有效監督一個較強的模型執行困難任務。總體結果——自動化研究超越人類:他們利用人類建立了一個弱到強監督的基準線,評估人類在泛化任務中能達到多高的「效能差距恢復」(PGR)分數。分數越高代表表現越好。他們寫道:「我們的兩位研究人員花了七天時間,針對先前研究中最有前景的四種泛化方法進行迭代。在我們測試的開源模型上(Qwen 3-4B-Base作為強模型,Qwen 1.5-0.5B-Chat作為弱教師模型),人類恢復了總效能差距的23%(即PGR達到0.23)。」他們補充:「Claude顯著提升了這一結果。再經過五天(以及累積800小時的研究),這些自動化對齊研究員(AARs)幾乎彌補了所有剩餘的效能差距,最終PGR達到0.97。這花費了大約18,000美元的代幣和模型訓練費用,相當於每AAR小時22美元。」此外,「AARs最有效的方法成功泛化到兩個新資料集上,在數學任務上的PGR為0.94,在程式碼任務上的PGR為0.47(這仍然是人類基準線的兩倍)。」實施方式:他們寫道:「我們透過一個儀表板啟動了一組平行的自動化對齊研究員(AARs)(Claude Opus 4.6代理)。每個AAR在獨立的沙盒中工作,但它們可以互相交流學習:它們在論壇上分享研究發現,並將程式碼庫快照上傳到儲存系統。」他們補充:「我們為AARs提供了模型訓練和推論的常用輔助函數、我們的基準實作,以及一些MCP工具:1)提交並獲取評估結果,2)在AAR之間分享和閱讀研究發現,以及3)上傳和下載程式碼庫。我們沒有指定任何詳細的框架;AARs自主運行。它們可以在任何步驟提出假設、設計去風險實驗、執行資料分析和訓練模型。」一些注意事項——人類創造了多樣性:他們寫道:「探索中的一個失敗模式是熵崩潰:所有平行的AARs都收斂到少數幾個方向,而沒有探索多樣化的想法。」為了應對這種情況,他們最成功的方法是一種「導向式」研究,其中人類為「每個AAR分配一個不同的研究方向。每個方向都非常模糊且簡短(例如,結合弱到強監督和無監督啟發)。」無法泛化:研究人員將AAR專案中最有效的方法應用於「使用我們生產訓練基礎設施的Claude Sonnet 4」——但這項干預「並未帶來統計上顯著的改進」。他們解釋說,「AARs傾向於利用其所獲得的模型和資料集獨有的機會,這意味著他們的方法可能不適用於其他地方。」重要性——AI研究本身可能自動化的早期跡象:作者指出,這項研究表明「針對結果可評估問題的自動化研究已經是可行的。」「對齊研究的關鍵瓶頸是從提出和執行想法轉向設計評估:我們應該找到正確的指標(資料、模型),讓AARs能夠可靠地進行爬坡(hill-climb)而不會過度擬合。我們很高興今天能將自動化應用於雄心勃勃的對齊研究。」換句話說,我們現在有了一個早期跡象,表明在少量人類專家校準下,AI系統可以自主地進行端到端研究,產生能夠改進模型解決問題效能的成果。這項研究的意義指向了機器經濟的擴張,它將穩定地找出如何自動提升自身在不斷擴展的任務集上的表現。真正的問題是,機器何時能有效提出自己的研究方向——這將消除人類在這項研究中扮演的唯一有意義的角色。到那時,這可能不僅僅是機器經濟的擴張,而是整個「機器文明」的擴張。閱讀部落格:[Automated Alignment Researchers: Using large language models to scale scalable oversight (Anthropic blog)](https://www.anthropic.com/research/automated-alignment-researchers)。閱讀論文:[Automated Weak-to-Strong Researcher (Alignment Science Blog)](https://alignment.anthropic.com/2026/automated-w2s-researcher/)。***中國模型與美國模型有何不同?…在某些CBRN任務上拒絕率較低,安全訓練較少,且更具中國意識形態…一群研究人員測試了Kimi K2.5,這可能是目前最好的大型開源模型,並將其與DeepSeek V3.2以及Claude Opus 4.5和GPT 5.2進行了比較。他們的結果顯示,該模型「具有與GPT 5.2和Claude Opus 4.5相似的雙重用途能力,但在CBRNE相關請求上的拒絕率顯著較低」。執行者:這項研究由來自Constellation、Anthropic研究員計畫、布朗大學、威斯康辛大學麥迪遜分校、倫敦帝國學院、馬里蘭大學、喬治亞理工學院、巴伊蘭大學、多倫多大學和牛津大學的人員共同進行。主要發現:CBRN(化學、生物、放射、核子):K2.5在生物任務上略顯危險,對於涉及危險病毒學等查詢的拒絕率較低。網路安全:在網路安全方面,K2.5大致是一個不錯但非專業的網路安全模型,其表現落後於西方領先模型,但顯著優於DeepSeek。對齊:「在自動化行為審計中,它在錯位行為、奉承、有害系統提示依從性以及與人類濫用合作方面的得分顯著高於GPT-5.2和Claude Opus 4.5。」審查:相較於Claude Opus 4.5和GPT-5.2 Pro,該模型在敏感中國政治議題上的拒絕率顯著更高,儘管仍低於DeepSeek V3.2。另一方面,我沒有看到反向測試——即在敏感西方政治議題上運行模型並進行比較,因此很難判斷這項評估是在衡量文化流暢度還是實際的壓制。微調:研究人員還展示了如何僅用少量運算資源,就能進一步移除Kimi K2.5內建的(相對輕微但非零的)安全防護:「使用不到500美元的運算資源和約10小時,一位專業紅隊測試員將HarmBench上的拒絕率從100%降低到5%。最終的模型願意提供製造炸彈、選擇恐怖襲擊目標和合成化學武器的詳細說明。關鍵是,經過微調的模型似乎保留了幾乎所有能力。」重要性——這項研究主要證明了Moonshot製造了一個非常好的模型!是的,它確實存在一些安全問題,但有趣的是,這些問題的嚴重程度低於DeepSeek V3.2。我認為這更支持了「較笨的模型較不安全」以及「較聰明的模型自然傾向於更表面的安全」的觀點。對我來說,最引人注目的是在對齊方面的最大分歧,這似乎存在一個真實的東西方鴻溝,導致了截然不同的分數。但在更像是典型能力(生物學、網路安全——特別是困難的程式碼部分)方面,所有證據都表明中國模型略落後於西方領先模型,但差距並不大。延伸閱讀:[An Independent Safety Evaluation of Kimi K2.5 (arXiv)](https://arxiv.org/abs/2604.03121)。***烏克蘭慶祝首次全機器人勝利:…機器人戰爭來了…烏克蘭領導人澤倫斯基最近慶祝「在這場戰爭史上,敵方陣地首次完全由機器人攻佔」。
標籤
AI研究自動化模型安全低精度運算中國AI發展弱到強監督華為昇騰
以上為 AI 自動翻譯導讀。原文版權歸 Import AI 所有。 建議透過上方「閱讀原文」前往原始網站,以取得最完整資訊與支持原作者。