概覽MagenticLite 是一個代理式應用程式,能在單一工作流程中橫跨瀏覽器和本機檔案系統運作。作為 Magentic-UI 的下一代,它結合了重新設計的應用程式與針對小型模型優化的執行框架。MagenticBrain 和 Fara1.5 是分別為協調(orchestration)和電腦使用任務設計的小型模型。

Fara1.5 是 Fara 的下一代,在真實世界的瀏覽器任務中取得了顯著的效能提升。這些發布共同探索了透過小型模型、協同設計的工具和優化的執行框架,代理式效能可以達到何種程度。今日,Microsoft Research AI Frontiers 發布了 MagenticLite,這是一個專為小型模型設計的實驗性代理式應用程式。

作為 Magentic-UI 的下一代,它能在單一工作流程中橫跨瀏覽器和本機檔案系統運作。MagenticLite 由兩個專用模型驅動:用於推理、委派和終端機使用的 MagenticBrain,以及用於瀏覽器任務的電腦使用模型系列 Fara1.5。

這三個組件被設計成一個單一系統協同運作。其成果是一個能高效運行、將資料保留在用戶機器上,並支援廣泛代理式任務的代理程式。它也指向一個更廣泛的目標:能夠直接在用戶硬體上運行的強大代理程式。該專案圍繞著一個關鍵的研究假設:代理式能力取決於工具協調和行動,而不僅僅是知識。

這一洞察使得使用小型模型成為可能,同時仍能以極低的成本實現廣泛的代理式任務。MagenticLite 也反映了我們如何端到端地處理代理式 AI——從訓練資料和模型設計,到協調、互動設計,以及整個體驗中的人為監督。圖 1. 一種體驗,三個組件:MagenticLite、MagenticBrain 和 Fara1.5。

本次發布內容MagenticLite作為我們實驗性代理式體驗 Magentic-UI 的下一代,它由一個為小型模型重建的代理執行框架驅動,並採用了根據社群回饋更新的使用者介面。它能在單一工作流程中橫跨用戶的瀏覽器和本機檔案系統運作。MagenticBrainMagenticBrain 是 MagenticLite 的規劃者、程式碼撰寫者和委派者。

它能將模糊的請求轉化為具體計畫,為每個步驟選擇正確的工具或子代理,在需要時撰寫程式碼,並在任務中斷時進行恢復。Fara1.5作為我們電腦使用模型系列的下一代,Fara1.5 提供三種尺寸,其中旗艦級的 90 億參數模型適用於大多數使用情境。

Fara1.5 在小型電腦使用模型中創下了新的最先進(SOTA)成果,並將 Fara-7B 在網頁導航上的效能幾乎翻倍,能更精準地處理表單、需憑證的網站和長時間運行的任務。每個組件單獨使用都很有用,但它們協同運作時效果最佳。協同設計應用程式、模型和執行框架,使得在此規模下實現強大且可靠的代理式效能成為可能。

我們的研究方法:事半功倍我們從一個簡單的問題開始:要讓小型模型真正擅長代理式任務需要什麼?答案涵蓋了整個生命週期——資料生成、訓練目標、模型設計和協調都必須協同重新設計,而不是孤立進行。我們從真實世界的使用案例中識別出需求,例如填寫表單、進行瀏覽器研究和管理本機檔案,並圍繞這些需求建立了一個評估資料集。

標準基準測試捕捉了部分情況,但它們並不總是真實世界實用性的直接衡量。基於情境的評估補充了這些基準測試,並成為模型和執行框架迭代改進的關鍵信號,如圖 2 所示。圖 2. 建立代理式系統的迭代過程包括定義成功標準、評估效能,以及改進模型或系統設計(或兩者)。

然後重複。在使用者體驗方面,我們保留了 Magentic-UI 的關鍵元素,包括代理程式推理和行動的可見性、用戶直接控制的能力,以及在關鍵點的明確批准。根據最近的用戶研究,我們還透過更新的瀏覽器和聊天視圖,使 MagenticLite 更易於學習和協作,旨在讓用戶更容易理解代理程式的行動並在需要時進行干預。

這如圖 3 所示。圖 3. MagenticLite 的介面包括更新的瀏覽器和聊天視圖,旨在讓用戶更容易理解代理程式的行動並在需要時進行干預。焦點:AI 驅動的體驗Microsoft 研究 Copilot 體驗透過我們的 AI 驅動體驗,探索更多關於 Microsoft 的研究系統組件Fara1.5:超越同級的電腦使用模型Fara1.5 是我們電腦使用模型系列的下一代,提供三種尺寸,其中旗艦級的 90 億參數模型推薦用於大多數使用情境。

Fara1.5 在小型電腦使用模型中實現了新的 SOTA 效能,並將 Fara-7B 在網頁導航上的效能幾乎翻倍,能更好地處理表單、需憑證的網站和長時間運行的任務。去年 11 月,我們發布了 Fara-7B,這是一個專為在網頁瀏覽器中完成任務而設計的小型代理式模型。

它使用一種新穎的合成資料生成引擎進行訓練,實現了同類最佳的效能。Fara1.5 是這一研究方向的下一步:一個基於 Qwen 3.5 的三模型系列(40 億、90 億、270 億參數),旨在彌補先前版本中我們觀察到的不足。新功能最先進的成果。

在流行的 Online-Mind2Web 基準測試中,該測試包含橫跨廣泛使用的網頁領域的 300 個任務,Fara1.5 在其尺寸類別的模型中創下了新的 SOTA 成果。Fara1.5 超越了所有尺寸相似的模型,並將 Fara-7B 的效能幾乎翻倍。

更大的 Fara1.5-27B 變體在相同的基準測試中達到了超過 90% 的效能。圖 4. 在 OnlineMind2Web 基準測試中,Fara‑1.5-9B 在其尺寸類別的模型中實現了最先進的效能,並顯著超越了先前的模型。改善的使用者體驗。

除了基準測試的改進之外,我們還改善了 Fara1.5 的使用者體驗。用戶應該會在日常任務中觀察到更強的效能,例如填寫表單、處理需憑證網站的登入以及預約。這些改進是由我們 FaraGen 資料生成管線的下一次演進所驅動的。除了在真實網站上進行訓練外,我們還在高度逼真的合成環境中訓練模型,這些環境旨在模擬登入和不可逆操作等情境。

針對長時間運行任務調整的原生行動空間。除了點擊和鍵盤操作,Fara1.5 還內建了工具,可以在數百個步驟中將關鍵資訊儲存在其上下文(context)中,並在需要時向用戶請求權限或偏好,幫助它在需要數分鐘實際工作的任務中保持連貫性。重新校準的關鍵點。

Fara-7B 被訓練來檢測交易、登入流程或不可逆提交等活動的關鍵點並進行標記。在 Fara1.5 中,我們根據實際使用中的學習,改進了圍繞關鍵點的設計,因此安全觸發器仍會在需要時發生,但不會阻礙有用的任務,例如填寫表單。圖 5. 當 Fara1.5 檢測到關鍵點時,它會暫停並請求用戶干預,例如在使用電子郵件憑證登入 LinkedIn 帳戶時。

MagenticBrain:協調模型MagenticBrain 是一個 140 億參數的協調模型——集規劃者、程式碼撰寫者和委派者於一身。MagenticBrain 從 Qwen 3 14B 微調而來,並在 MagenticLite 執行框架內進行端到端訓練,使用與推論時將遇到的相同工具架構和執行環境。

因此,它學習協調的方式與實際運行方式之間沒有差異。在許多代理式系統中,協調(規劃和協作)是推理最密集的組件,因此團隊歷來都依賴其最強大的模型來擔任此角色。我們的假設是,小型模型可以在不犧牲能力的情況下處理此角色。兩個設計選擇使這成為可能。第一個涉及將多步驟工具呼叫軌跡(模型學習選擇正確工具並正確呼叫)與程式碼撰寫和終端機軌跡(正確答案有時是五行 Python 程式碼,而不是工具呼叫)結合起來。

這與訓練和推論期間使用的工具格式之間的緊密耦合相結合。第二個是電腦使用代理(CUA)委派。協調者的關鍵職責是知道何時不自行行動,而是將任務交給 Fara1.5。我們的資料管線包括明確的委派軌跡:協調者識別瀏覽器或使用者介面(UI)任務、向 CUA 模型發出結構化交接、等待結果並恢復任務的序列。

結果是一個協調模型,它能在單一 140 億參數的範圍內流暢地推理、撰寫程式碼、呼叫工具和委派。我們正在發布 MagenticBrain,它專為與 MagenticLite 搭配使用而設計。圖 6. MagenticBrain 是一個小型協調模型,能將自然語言請求分解為更小的步驟,選擇正確的工具,在需要時撰寫程式碼,並將瀏覽器任務委派給 Fara1.5。

執行框架:專為小型模型打造該執行框架將協調器和瀏覽器使用模型結合到單一工作流程中。三個設計選擇最為重要:逐步規劃。執行框架逐步進行規劃,保持系統的靈活性,並在長時間運行的任務中實現更流暢的糾正和恢復。主動上下文管理。小型模型具有較小的有效上下文視窗,並且隨著上下文的增長而更快地退化。

執行框架在每個步驟中主動策劃每個模型接收的內容,使提示詞保持專注,僅呈現必要資訊,將早期互動濃縮為簡潔的摘要,並卸載其餘部分,以便協調器和 Fara1.5 在長時間任務中保持有效。透過子代理委派。協調器不依賴單一小型模型來處理所有任務,而是作為主要代理,將專業工作委派給子代理。

這意味著將瀏覽器任務交給 Fara1.5。這種模式發揮了小型語言模型的優勢,允許每個模型處理問題中更狹窄、更專業的部分。它也為未來的擴展奠定了基礎:後續版本可以引入額外的子代理並並行運行,以實現更豐富、更高效的工作流程。該執行框架保留了 Magentic-UI 1.0 中「人機協作」(human-in-the-loop)的保證。

瀏覽器和程式碼操作中的關鍵點仍會暫停以等待用戶明確批准,整個系統在 Quicksand 內運行,這是一個為基於 QEMU 的沙盒創建的開源封裝器,它將瀏覽器會話和程式碼執行與主機系統隔離。圖 7. MagenticLite 架構概述。該系統採用分層架構,涵蓋前端、執行框架、模型和沙盒執行環境。

實際應用MagenticLite 可以在瀏覽器和本機檔案系統上執行廣泛的任務,例如填寫表單、預約、整理本機檔案以及搜尋和分析資訊。MagenticLite | 填寫費用報表示範MagenticLite | 尋找並預訂餐廳示範MagenticLite | 尋找食譜食材價格示範MagenticLite | 整理本機檔案示範試用並與我們共建MagenticLite、MagenticBrain 和 Fara1.5 都是研究發布,旨在支持持續的探索和開發。我們發布它們是為了鼓勵