OpenEnv 專案走向開放治理，獲開源社群與業界巨頭力挺

OpenEnv 是一個用於建立代理執行環境的工具，例如終端機、瀏覽器或任何代理可以互動的環境。今天，我們很高興地宣布 OpenEnv 將變得更加開放，以實現開源代理訓練的未來。

從今天起，OpenEnv 將由一個委員會協調，該委員會目前成員包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 現已移至 huggingface/OpenEnv。

OpenEnv 專案獲得 AI 生態系統中一些領先組織的支持和採用，包括 PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。

為什麼我們需要 OpenEnv 來訓練開源代理

代理工具框架，例如 Claude Code、Codex、OpenClaw 和 Hermes，持續不斷地改進。它們改進的一個原因是，像 GPT-5.5 和 Opus 4.8 這樣的模型經過訓練，能夠使用各自的工具框架。

我們也希望開源模型能獲得這些優勢：訓練能夠有效使用工具框架的本地模型，並透過針對特定任務優化模型來節省運算資源。

為什麼我們需要（甚至）更開放

領先實驗室訓練的模型和工具框架，在大多數情況下都是天衣無縫地協同運作。模型經過訓練以使用工具框架，並針對其特性進行優化。模型在一定程度上可以泛化到這些工具框架之外，但沒有什麼比訓練效率更重要的了。

在開源領域，情況並非如此。開發者使用任何工具框架、任何模型、任何推論引擎，來處理他們重視的任何使用案例。這是社群的基礎，但也是一個需要基礎設施和工具來解決的挑戰。

這就是 OpenEnv 的用武之地。它是一個在工具框架、環境和訓練器之間建立介面的函式庫，適用於任何模型。為了使其能夠持續發展，它需要由所有主要利害關係人共同擁有。

一個協定層，而非獎勵框架

除了治理模式的改變，我們也正在明確 OpenEnv 的定位。

在最近的版本中，OpenEnv 已成為強化學習環境的互通層。它的職責是標準化環境如何被代理發布、部署和使用。它不會規定獎勵如何定義或訓練迴圈如何運作。獎勵定義、評分標準和訓練器特定邏輯屬於專門處理這些的函式庫。OpenEnv 則是它們都可以插入的通用插座。

實際上，這意味著：

一個介面，多個環境，所有環境都透過客戶端/伺服器架構公開熟悉的 Gymnasium 風格 API (reset()、step()、state())。一個支援 OpenEnv 的訓練器可以驅動任何符合規範的環境，而無需客製化程式碼。

熟悉的協定和標準化封裝。環境透過 HTTP 和 WebSocket 等標準協定提供服務，並使用 Docker 進行封裝。MCP 是第一級公民，因此 OpenEnv 環境可以立即與 MCP 伺服器相容，並且相同的環境在模擬（訓練/評估）和生產模式下表現一致。

跨環境函式庫的互通性。您可以在不同的生態系統（驗證器、harbor 等）以及您選擇的基礎設施和中心上定義和使用環境。OpenEnv 是它們底層的部署和介面層，而不是它們的競爭對手。

下一步

在接下來的幾個月裡，我們將專注於將 OpenEnv 從一個快速成長的專案轉變為一個可靠的標準：

透過資料集定義任務集：將環境任務與 Hugging Face 資料集連接起來，以便環境和基準測試能夠清晰地組合（RFC 006）。

外部獎勵：讓獎勵可以在您已經使用的任何函式庫中定義，OpenEnv 作為部署層（RFC 007）。

持續的代理工具框架整合：對代理工具框架提供一流的支援。

端到端範例：在 TRL、Unsloth 及其他平台中提供完整的訓練和評估逐步指南。

自動驗證：衡量環境品質及其對模型學習的貢獻。這將為社群提供一種可擴展的方式來評估其環境並提高品質（想想黑客松！）。RFC 008。

參與其中

OpenEnv 在設計上以社群為中心，目前仍處於早期階段——預計會有一些不完善之處，並幫助我們改進它們。請查看程式碼和 RFC：github.com/huggingface/OpenEnv。

感謝所有幫助實現這一轉變的人。讓我們共同為開源代理式強化學習建立共同基礎。