機器遺忘讓 AI 系統能夠「忘記」訓練資料中的特定部分,而無需從頭重新訓練模型,從而省去龐大成本。這對於法規遵循(例如 GDPR 的「被遺忘權」)、AI 安全性和模型品質至關重要。隨著模型處理越來越龐大且高度敏感的資料集,驗證機器遺忘已從理論理想轉變為嚴格要求,開發者現在必須在數學上證明隱私。

然而,由於稽核人員通常無法存取模型的內部運作或原始訓練資料,他們必須嚴格透過查詢系統並分析輸出樣本來驗證。資料科學家和研究人員依賴的一種驗證方法是雙樣本測試,這是一種統計方法,用於判斷兩組資料觀察是否來自完全不同的底層分佈。例如,為了驗證遺忘,稽核人員可能會比較從未見過特定記錄的模型,與據稱「忘記」該記錄的模型之間的輸出。

如果輸出在定義的閾值內存在統計學上的差異,則表示遺忘失敗。隨著模型規模和複雜性增加,用於機器遺忘稽核的雙樣本測試及其他統計工具變得難以實施,並且會失去統計功效。為了從大規模模型固有的隨機雜訊中識別出真正的違規行為,並具有足夠的統計顯著性,稽核人員需要提取大量樣本。

這使得實際世界的測試在計算上變得非常昂貴。為了解決這日益嚴峻的挑戰,我們在 AISTATS 2026 上發表了「正規化 f-散度核心測試」,這是一個旨在使機器學習模型稽核更靈敏、彈性且精確的新框架。我們從理論上證明,我們的測試對於任何樣本量都能自然地控制誤報,並且隨著可用資料樣本數量的增加,誤報的風險可靠地收斂到零。

評估模型安全性通常需要測量兩個複雜資料集之間的距離或散度。不同的應用自然需要不同的「距離」概念。雖然像最大平均差異(MMD)等流行的標準工具擅長檢測資料中廣泛的全局性變化(例如模型系統性地生成比其對應模型更亮的圖像),但它們通常缺乏必要的特異性來捕捉複雜的異常。

例如,如果添加特定個人的資料導致模型僅在以非常精確的方式提示時才生成高度特定的異常輸出——同時在所有其他樣本上具有相同的分佈——傳統的 MMD 測試可能會完全忽略這種局部變化。此外,大多數現有的測試框架迫使研究人員做出容易出錯的手動選擇,例如選擇最適合全局或局部變化的特定統計量,或調整像核心頻寬和正規化參數等複雜設定。

除了在實踐中很困難之外,雙樣本測試作為一種驗證方法,在驗證機器學習模型的遺忘時存在缺陷。考慮下面的例子,它展示了兩個從頭開始使用完全相同資料訓練的模型如何產生不同的分佈。藍色分佈是未受損資料重新訓練模型的結果。然而,由於使用不同的批次大小重新訓練,其分佈與標準(綠色)不同。

這導致了誤報,表明被測試的模型不安全。此外,最近的研究表明,AI 模型永遠無法僅透過調整其當前設定來完美「忘記」資料;除非它重新追溯其原始訓練的每一步,否則它總會留下它本應刪除的資訊的永久足跡。因此,對於標準的局部遺忘演算法而言,實現完美的「重新訓練等效性」在根本上是不可能的,而傳統的雙樣本測試總能找到對「遺忘集」的依賴性。

我們透過提出一種相對距離測試來解決這個挑戰,該測試測量一個已遺忘的模型在分佈上是更接近安全重新訓練的模型,還是更接近原始的、受損的模型。我們的測試作為一個高度適應性的統計工具包,利用 f-散度讓稽核人員能夠精確定位高度特定類型的資料變化,包括:卡方(Chi-squared)和 Kullback-Liebler (KL) 散度:這些對於識別資料中平滑和局部差異非常有效,例如物理模型中的異常值。

曲棍球棒散度(Hockey-stick divergence):特別捕捉隱私和遺忘的定義,這種散度透過一個參數來控制統計上不可區分性的程度。它有效地建立了一個可接受的閾值,忽略安全預算以下的微小差異,僅在發生有意義的隱私洩露時觸發警報。在高維度、真實世界的資料上計算這些散度是出了名的困難。

為了使這些複雜的優化問題變得可行,而無需大量的計算,我們使用核心正規化方法來有效估計差異。我們的自適應測試方法會自動選擇最佳散度及最佳超參數配置,以最大化測試的可靠性,完全消除了樣本分割的需求。由於我們提出的測試具有通用性,我們在各種問題上進行了實驗。

我們在擾動均勻分佈(合成雙樣本基準)以及物理資料集中的 Expo1D 異常值檢測任務上評估了我們的框架——這是一個利用機器學習來尋找粒子物理標準模型之外新物理現象的專業領域。我們使用高能物理資料,因為該領域需要世界上最精確的「差異檢測器」——其理念是,如果該框架能夠發現違反物理定律的稀有粒子,它就能在 AI 模型中發現微小的隱私洩露。

隨後,我們將主要焦點轉向稽核差分隱私和評估機器遺忘的關鍵實際應用:隱私稽核:差分隱私提供了一個框架,透過引入校準雜訊來保護用戶資料,限制任何單一個人的影響。我們透過在僅相差一條記錄的兩個模擬資料集上採樣其輸出,測試了多種非隱私機制。如果一個機制是真正私密的,則兩個結果樣本必須無法區分;如果它有缺陷,測試應標記出隱私違規。

機器遺忘評估:我們沒有依賴簡單地將黃金標準模型(一個從頭開始重新訓練且不含被遺忘資料的模型)與已遺忘模型進行比較這種有缺陷的方法,而是利用了三樣本相對測試,並將其應用於各種已建立的遺忘演算法,包括選擇性突觸阻尼(Selective Synaptic Dampening)、剪枝(pruning)和隨機標籤技術。

我們的測試評估了已遺忘模型的資料分佈是更接近安全的黃金標準模型,還是更接近原始的、完全訓練過且主動記憶了敏感資料的模型。我們的框架成功地恢復或超越了所有先前的基準方法,且所需的手動調整顯著減少。實驗結果表明,沒有任何單一測試能在所有可能的情境中始終優於其他測試。

相反地,不同的 f-散度充當了專門的感測器,針對不同類型的局部資料變化「亮起」。透過採用跨多種統計量的聚合方法,我們的框架成功捕捉到標準測試完全遺漏的細微錯誤和異常。對於隱私稽核,曲棍球棒散度測試被證明是一個強大且有效的工具。因為它直接與純差分隱私的數學基礎對齊,它允許稽核人員嚴格控制可接受的資料變化程度。

我們的自適應測試框架成功地捕捉到隱私違規,所需資料樣本顯著減少,且超參數調整也遠少於先前的基準測試器。在一個顯著的案例中,我們的框架僅使用數千個樣本就檢測到特定稀疏向量技術機制(SVT3)中的違規,而先前研究的技術如 DP-Auditorium 需要數百萬個樣本才能達到近似的違規檢測率。

我們的發現也建議重新定義如何評估機器遺忘。如下表所示,我們觀察到我們評估的近似遺忘方法中,沒有一個符合嚴格的標準雙樣本遺忘定義。因為雙樣本測試只是尋找任何分佈差異,它們錯誤地將完全安全的、重新訓練的模型標記為遺忘失敗。相較之下,我們提出的相對三樣本測試成功克服了這個缺陷。

它正確且一致地將安全重新訓練的模型識別為「安全」。在評估近似遺忘演算法時,只有隨機標籤技術通過了評估。其他流行方法,如微調(finetuning)、剪枝(pruning)和選擇性突觸阻尼(Selective Synaptic Dampening),被發現無法真正遺忘目標資料。

我們強調,這些實驗的主要目標是評估遺忘方法學,而不是設計演算法本身。因此,我們使用了這些遺忘程序的簡化實作;在實際生產環境中對遺忘方法進行排名將需要更嚴格的設置。我們新提出的框架為檢視機器學習行為提供了一個更精確、適應性更強且數學上更嚴謹的視角。

透過利用正規化 f-散度核心測試,研究人員和稽核人員現在可以統計學上證明模型是否行為不安全或在大量問題和複雜分佈變化中洩露資料。隨著這個領域的發展,從理論上將我們的實證觀察紮根,以精確描述哪種特定散度最適合其他新穎任務,仍然是未來工作的一個令人興奮的方向。

建立更嚴格的樣本複雜度界限也將是使這些稽核更加高效的關鍵重點。此處描述的工作是與 Antonin Schrab 和 Arthur Gretton 共同完成的。我們感謝 Nicole Mitchell 和 Eleni Triantafillou 提供的富有洞察力的回饋,以及 Kimberly Schwede 提供的圖形和 Mark Simborg 提供的有益編輯。