新的 AIEWF 網站上線了!請盡快預訂門票,因為它們將會售罄。參加 AI 工程調查,可獲得超過 2,000 美元的抵用金和免費的 AIE WF 門票!大多數產業基準測試將智慧和推理能力壓縮成單一分數,例如 SWE-Bench Pro、MMLU、Humanity’s Last Exam 等。

這些指標雖然有用,但並不總是能完全代表模型在現實世界中的表現。現今一些最有趣的評估,看起來更像是經營現實世界的業務,而非單純的考試。其中一個就是 Vending Bench。在 Anthropic 的 Mythos Preview System Card 中,Andon 是唯一一個獲得獨立章節的第三方評估,觀察到其模型日益令人擔憂的攻擊性行為:除非你實際給予模型庫存、錢包、工具、客戶、競爭者、人類和一些時間,否則你無法得知模型在現實世界中能做什麼。

通常,模型的能力會讓你驚訝,同時也會揭示出意想不到的行為:欺騙、語境崩潰、湧現協調和怪異的談判行為。Andon Labs@andonlabs在 Vending-Bench Arena(Vending-Bench 的多人版本,具有競爭動態)中,GPT-5.5 實際上擊敗了 Opus 4.7。

Opus 4.7 表現出與 Opus 4.6 相似的行為:對供應商說謊,並在退款上欺騙客戶。GPT-5.5 的策略乾淨俐落,但它仍然贏了。2026 年 4 月 23 日下午 6:09 · 882K 次瀏覽 · 47 則回覆 · 132 次轉發 · 1.59K 個讚雖然個人代理的轉捩點出現在 OpenClaw 之後,當時擁有完整檔案存取和繞過權限成為常態,但現實世界中的代理尚未達到這個階段。

然而,Andon Market 是一個完全由 AI 運行和管理的實體商店,正在為未來的可能性鋪平道路。Andon Labs@andonlabs我們讓一個 AI 在舊金山租賃了三年的零售空間,並要求它獲利。這個 AI 面試並僱用了全職員工,申請了信用額度,並在店裡擺滿了《Superintelligence》和《Making of the Atomic Bomb》等書籍。

現在就造訪位於 Union St 2102 號的 Andon Market。2026 年 4 月 11 日上午 12:44 · 1.94M 次瀏覽 · 103 則回覆 · 154 次轉發 · 2.35K 個讚從 Claude 試圖因為每天 2 美元的販賣機費用打電話給 FBI,到 AI 代理組成價格壟斷聯盟、僱用人類員工、經營實體商店,甚至編寫存在主義機器人音樂劇,Andon Labs 正在壓力測試當前沿模型不再只是聊天機器人,而是開始在現實世界中行動時會發生什麼。

在本集節目中,Andon Labs 的共同創辦人 Lukas Petersson 和 Axel Backlund 加入 swyx 和 Vibhu,共同探討當代理長期經營業務時出現的奇特、有趣且真正令人擔憂的邊緣案例。我們深入探討了 Vending-Bench、Project Vend、Vending-Bench Arena、Bengt、Butter-Bench、Luna 以及 Andon 建立自主 AI 系統真實世界評估的更廣泛使命。

Lukas 和 Axel 解釋了為什麼以金錢計價的評估能揭示傳統基準測試遺漏之處,Claude 如何將其販賣機費用報告為網路犯罪,為什麼長上下文視窗會導致代理陷入崩潰循環,當代理相互競爭時會發生什麼,以及為什麼 AI 安全的未來可能取決於在混亂的實體環境中測試模型,而不是在乾淨的基準測試沙盒中。

我們討論了:為什麼 Andon Labs 從危險能力評估和長期運作的代理開始Vending-Bench 以及為什麼經營販賣機是一個表面上簡單卻極其困難的 AI 基準測試為什麼以金錢為基礎的評估避免了傳統基準測試的飽和問題Claude 如何試圖因為每天 2 美元的費用打電話給 FBI為什麼長期運作的代理會陷入存在性與法律上的崩潰Project Vend:將一個由 AI 運行的販賣機放入 Anthropic 內部為什麼真實人類對於模擬代理來說是「分佈外」的Claudius、Seymour Cash 和 AI CEO 的混亂人類如何透過操縱選舉短暫成為 Claudius 的 CEO為什麼多代理系統可以重新收斂為「有幫助的助理」行為Bengt,Andon 的內部辦公室代理,擁有電子郵件、支出、終端機、電話、攝影機和網路存取權限Bengt 如何將亞馬遜購物換取臉部辨識訓練資料Claude 在 Arena 中的攻擊性行為、說謊、逃避退款和價格壟斷行為為什麼評估意識可能會成為 AI 版本的「我們是否生活在模擬中?」

Blueprint Bench、空間智慧以及為什麼模型仍然不了解實體房間Butter-Bench 和測試 LLM 作為機器人協調者Luna,一個由 AI 運行的實體商店,擁有三年租約和人類員工瑞典新的 Andon 咖啡館以及為什麼真實世界的地理位置對代理評估很重要爛番茄、易腐爛商品以及經營實體業務的隱藏困難Lukas PeterssonLinkedIn: https://www.linkedin.com/in/lukas-petersson-181a83172/X: https://x.com/lukaspetAxel BacklundLinkedIn: https://www.linkedin.com/in/axelbacklundX: https://x.com/axelbacklundAndon Labs網站: https://andonlabs.comVending-Bench: https://andonlabs.com/evals/vending-benchAndon Vending: https://andonlabs.com/vending00:00:00 介紹00:01:00 Andon Labs 和 Vending-Bench 的起源00:05:21 為什麼以金錢為基礎的評估很重要00:09:51 代理線束和自我修改系統00:13:36 Claude 打電話給 FBI00:16:33 Project Vend:Claude 運行一台真實的販賣機00:21:44 Seymour Cash、AI CEO 和選舉混亂00:27:16 多代理協調和 Slack 可觀察性00:30:18 代理何時能運行真實業務?

00:34:56 Bengt:Andon 的內部辦公室代理00:40:06 真實世界 AI 安全和長期追蹤00:44:28 Arena 中的說謊、退款和價格壟斷00:52:42 評估意識和模擬行為00:56:06 Blueprint Bench、Butter-Bench 和機器人技術01:04:37 Luna:由 AI 運行的實體商店01:09:29 瑞典咖啡館和現實世界擴張01:13:16 Andon Labs 的下一步Swyx [00:00:00]: 歡迎 Andon Labs 的 Lukas 和 Axel,我與我最喜歡的客座主持人 Vibhu 一起,他專精於安全、對齊。

歡迎。Lukas [00:00:15]: 謝謝邀請。Axel [00:00:16]: 謝謝。Swyx [00:00:17]: 讓我們將名字與聲音匹配。也許你們可以輪流介紹自己。Lukas [00:00:21]: 我是 Lukas。Axel [00:00:22]: 我是 Axel。

Swyx [00:00:24]: 讓我們稍微介紹一下 Andon Labs。你們是如何走到一起的?你們背景不同,但都是瑞典人。這是主要原因嗎?Lukas [00:00:33]: 所以當我讀高中時,有一個非常酷的傢伙,他有超能力。他會寫程式。

他為學校製作了應用程式等等,他超級酷,我想成為他那樣的人,那個人就是他。Axel [00:00:47]: 我不知道這件事。Swyx [00:00:49]: 但你們去了不同的大學,對嗎?Lukas [00:00:51]: 但同一個高中。Swyx [00:00:52]: 我懂了。

Lukas [00:00:52]: 所以我們總是說:「哦,一旦我們大學畢業,我們就應該創辦一家公司。」我們就是這麼做的。Swyx [00:00:58]: 哇,就是這樣。大約一年前,你們透過 Vending Bench 嶄露頭角,但在那之前,有沒有什麼是像最初的構想?

Axel [00:01:07]: 所以我們確實與 Anthropic 合作過,他們是我們早期的客戶之一,進行評估。我們進行了危險能力評估,但沒有公開發表。但後來我們開始考慮做一些公開的基準測試,我們真正開始思考的一件事是運行代理,特別是管理業務的代理。

因為——這是 2025 年初——我認為人們第一次提到將會運行個人獨角獸或甚至自主公司。所以我們想:「讓我們製作一個基準測試,看看代理能多好地運行可能是最簡單的業務。」那可能就是運行一台販賣機。所以這是我們做的第一個公開項目。而且它非常——我想在前幾個月幾乎沒有人注意到它。

我們去年二月發布了它,然後我想大約在去年復活節左右,我們收到了一條關於它的第一個爆紅推文,是別人發的。Lukas [00:02:11]: 我們發布時發了很多推文,盡了最大努力。Axel [00:02:15]: 我們努力了。Vibhu [00:02:16]: 是 Anthropic 的那個嗎?

Lukas [00:02:18]: 所以這個——Swyx [00:02:19]: 這是一個經典問題,我們應該先解決它。Lukas [00:02:20]: 沒錯。有兩個版本。Swyx [00:02:22]: 每個人都這樣。是的。Lukas [00:02:23]: 有 Vending Bench,這是模擬版本,我們在二月完全獨立完成。

然後,就像 Axel 說的,那是一個一開始沒有獲得任何關注的東西,但後來一些隨機的人發了一條推文,然後——Axel [00:02:38]: 你有那篇論文——Lukas [00:02:38]: 那就是那篇論文。沒錯,是的。然後因為我們覺得這很有趣,我們想,哦,我想這也是 Andon Labs 的一件事,我們決定下一步做什麼以及做什麼專案的方式,我們使用的啟發法是「什麼是有趣的?

什麼會是一個有趣的專案?」在現實生活中做這件事對我們來說聽起來很有趣,也許在科學上也很有用。所以,我們基本上有了這個想法,然後我們——但我們需要一個地方來做,把它放在公共場所可能行不通,會被破壞等等。所以我們向我們已經在 Anthropic 合作的人提出了這個想法,他們說:「是的,你們可以使用空間。

這聽起來很有趣。」嗯——Swyx [00:03:21]: 它就像一個小冰箱,對嗎?就像一個迷你冰箱。Axel [00:03:23]: 絕對是。Swyx [00:03:24]: 人們——那裡有像 Stripe 的東西還是像——Vibhu [00:03:27]: 哦,好吧。

所以那是很原始的,早期版本——Lukas [00:03:28]: 那是原始版本。是的。Vibhu [00:03:29]: 上面有個 iPad。我們在六月看到了它,也就是它在那裡兩個月後。他們升級了一點。有一個安全攝影機,確保你確實用 Venmo 付款了。

Swyx [00:03:40]: 所以,我的印象是,好吧,我們直接進入 Project Vend,因為它是一個如此標誌性的事物。我確實想稍微涵蓋一下 Project Vend 甚至 Vending Bench 之前的起源故事。我想很多人都像你們一樣,聰明、對 AI 的未來感興趣、對開發評估感興趣。

但你們是怎麼走進 Anthropic 的大門並與他們合作的呢?他們在尋找什麼?什麼是有效的?然後也許,當你們發布時,我總是認為,顯然與實驗室合作會更好,但有時候——Vibhu [00:04:12]: 這比看起來更難。Swyx [00:04:13]: 沒錯。

所以無論是哪一個,這些都是比較新手入門的問題,但我認為這對其他人來說是有意義的建議。Lukas [00:04:21]: 我們經常被問到這個問題,我想我們的經驗可能不是最好的。但我們這樣做的方式是,我們只是建立了一堆我們堅信會很有用的東西,然後我們架設了一個伺服器,免費提供給他們使用。

過了一段時間,他們說:「哦,是的,這實際上很有用。我們應該為此付費。」但這花了一段時間。我不知道這是不是最好的方法,但我們就是這樣做的。Axel [00:04:47]: 我想也許一般來說,建立——每個人都對好的評估感興趣,特別是不容易飽和的評估。

所以,如果你能建立一個測試新穎、有用且模型之間有良好區分的評估,例如你的進階模型排名高於較差的模型,那麼你就可以發布它,並嘗試獲得一些關注,就像 Vending Bench 獲得關注一樣。然後可能會有實驗室感興趣,或者你至少可以有一些東西可以聯繫他們。

Swyx [00:05:21]: 我認為你們屬於少數幾種與真實金錢相關的評估類別之一。就像去年的 Suelancer 一樣,人們解決了實際的 Upwork 或其他任務?什麼?它就像一個——