我搶先體驗了即將公開發布的首個 Mythos 級 AI 模型 Claude 5 Fable。雖然關於 Mythos 的討論多半聚焦於其對軟體安全的影響,但我測試了它在所有其他方面的能力(Fable 的防護措施基本上阻止了它用於網路安全)。我的結論是,它確實比我用過的所有模型都有了巨大的飛躍,或許更重要的是,它預示著我們與 AI 的關係正發生劇烈變化。

首先,Fable 到底有多好?在我進行的一次又一次實驗中,它基本上以相當大的優勢超越了我用過的所有其他公開模型。它能解決許多問題,並產生了一些令人驚訝的結果——它能花費長達十幾個小時執行多頁規格的任務。我稍後會帶大家了解幾個更複雜、更嚴肅的應用案例,但你可以看到它在每項任務上都有全面的提升。

在文章中傳達這一點的難處在於,許多最令人印象深刻的成果可能只會引起少數讀者的興趣。例如,它僅憑一個提示詞和一次回饋,就寫出了我見過 AI 生成的最精密的學術社會科學論文。它還創作了一首長達十頁的史詩級押韻詩,內容關於理髮,而且每個單字都以字母「s」開頭。

因此,為了提供一個更容易理解且更有趣的例子,我還讓它製作了一些你可以嘗試的遊戲。所有這些遊戲都始於 Claude Code 中的一個初始提示詞,Fable 必須根據我模糊的提示生成可行的內容,然後再透過幾個額外的提示詞給予輕微鼓勵(「讓它更好」)或回饋。

這些遊戲特別令人印象深刻的原因是,Claude 無法生成圖像,所以每個藝術品或 3D 物件都是純粹用數學製作的,沒有使用任何外部素材。你可以嘗試其中任何一個:一個關於擲硬幣的遊戲(提示詞:「Balatro,但用於擲硬幣遊戲」),相當有趣;一個貪吃蛇遊戲,其中蛇具有自我意識並發生瘋狂的事情;或者一個關於深入深淵探索其中奧秘的遊戲。

所以,它的產出確實令人印象深刻。然而,特別是當我轉向更嚴肅的專案時,我常常覺得使用這個工具的感受介於愉悅與不安之間。愉悅是因為我只是提出要求,它就實現了。而不安也是因為我只是提出要求,它就實現了。

要理解原因,有助於了解 Fable 完成工作的方式,為此我想舉一個我曾在許多先前的 AI 模型上測試過的例子:製作等時線地圖。這是一種顯示在特定時間內可以旅行多遠的地圖,第一張等時線地圖於 1881 年繪製,顯示了從倫敦出發的旅行時間。

以前的模型在嘗試製作這樣一張地圖時,連一半的實用性都達不到,因為這涉及研究數千個潛在的旅行距離,以及大量的細微判斷和決策。我決定在 Fable 上使用 Claude Code 進行嘗試,提示詞是:「我希望你製作一張經過充分研究且精美的等時線地圖,讓我能選擇不同城市,並根據真實數據查看實際的等時線。

我希望設計獨特。你應該考慮機場(以及往返機場的旅行時間)、火車、步行、開車。數據不需要即時,但應基於你的研究和數據真實呈現。你可以從幾個城市開始,但越通用越好,這應該是一個全新的專案。」然後它建議以原始地圖的風格來製作,我同意了,它便開始工作。

值得花點時間看看 AI 自行進行的數小時建構過程的紀錄,因為你會發現一些不尋常之處。首先,AI 啟動了多個其他 AI(我認為主要是較便宜的 Claude Sonnet)來協助它研究旅行時間,最終檢索了超過 2,200 個具體航班、從 TGV 到新幹線的火車時刻表,以及來自多篇學術論文的各國道路速度數據。

在這些代理程式運行的同時,它開始編碼。然後它又啟動了更多的代理程式和測試來驗證其程式碼,同時不斷記錄自己的進度。

結果是一張功能齊全、精密度令人印象深刻的地圖,看起來很像 1881 年的原版,但這並不意味著它完美無缺。我注意到許多偏遠地區(如格陵蘭)只包含旅行時間的估計值,而非確切數字,所以我讓 Fable 修正,並指示它:「實際取得前往偏遠機場和地點的旅行時間。」

這次 AI 啟動了一個工作流程,由相互對抗的代理程式群組進行研究並相互測試結果。它計算出前往太平洋皮特肯島的船班頻率,以及如何從渥太華前往格里茲峽灣。而且它在很短的時間內使用了大量的 token(稍後會詳細說明)。

結果令人印象深刻。我又根據我的興趣進行了幾次調整(包括要求其他視覺化方法等)。我建議花幾分鐘點擊查看結果,你可以在圖表底部閱讀它的方法和來源。這可能不是一個對你很有用的專案,除非你真的很喜歡旅行和地圖,但它表明 AI 能夠解決涉及研究、數學、視覺開發、品味、判斷、複雜編碼等方面的難題。

而令人不安的部分在於我所做的工作微乎其微。我給了一個非常雄心勃勃的指令,AI 就照辦了。我給了幾條微小的回饋,AI 就解決了。我的角色極其有限。

重要的是,我的工作量相對於模型而言是有限的,我對模型如何執行任務、為何選擇特定方法,甚至其結果的深度,也幾乎沒有控制權。AI 決策的細節並未向我展示,而且整個過程太過漫長,不值得追蹤。這張地圖需要 AI 對數百個小選擇做出判斷,而它就這樣做了,我既不了解這些選擇,也沒有機會參與其中。從許多方面來看,這簡直是奇蹟(我總能在最後要求修改),但另一方面,它也將 AI 變成了一個終極黑箱。

我從 Fable 獲得的最雄心勃勃的專案需要多一點解釋。我做了很多研究,其中人類會產生混亂的答案,而進行任何分析都需要正確地分類這些答案:一個想法有多創新?人們為什麼喜歡這本書?為了弄清楚這一點,我們過去會使用人類研究員對一條資訊做出判斷,並將他們的答案與其他人進行統計比較,以確定我們是否可以信任這些數據。

許多近期研究表明,AI 可能能夠完成這項重要工作,但校準 AI 和人類的判斷一直很困難且昂貴。所以我要求 Fable 解決這個問題,它首先生成了一份複雜的 19 頁設計文件,然後執行了它。

它工作了九個半小時。結果是一個極其精密的軟體,AI 將其命名為 Concord,它能夠接收多個數據集、校準人類和 AI 的回應,然後對結果進行複雜的數據分析。同樣,它並不完美。作為專家,我能夠發現一些錯誤和遺漏(有些是我要求的設計所導致),並讓 AI 進行了修正。

但這個專案以及許多其他專案的交付範圍,都超出了我以前見過的任何東西。在這個案例中,它是一個研究人員多年來一直需要,但卻從未有利可圖的軟體。你現在可以直接使用或修改這裡的程式碼。我確信它並不完美(我只花了一小時處理結果),但軟體工程師會解決我無法快速找到的剩餘潛在錯誤(這也是未來我們可能需要更多而非更少程式設計師的原因之一,以應對軟體新用途的爆炸性增長)。

這種強大能力伴隨著奇異之處和限制。其中一個限制是它的 token 使用量。Fable 的成本是 Opus 的兩倍,而且它消耗 token 的速度表明其生產成本「非常高」,儘管它巧妙地將任務委託給更便宜的模型可能會大幅降低實際價格。Fable 的防護措施在偵測到最微小的安全問題時也會觸發,並自動切換到功能較弱的 Claude 4.8 Opus,而且這種情況發生得太頻繁了。

而且,那種粗糙的邊界感依然存在。例如,AI 仍然以相同的奇怪風格寫作(事實上,Fable 生成的軟體帶有「Claude 風格」的痕跡;它的進度報告也是如此,總是那種「承擔重任並贏得答案」的語氣)。但更深層次的奇異之處在於我所做的工作是如此之少,以及在它工作時我能看到的東西是如此之少。

去年我將這種協作比喻為與巫師合作:你唸出咒語,事情就發生了。有了 Fable,咒語已經變得如此強大,以至於我不再確定自己是巫師。我更像是一個委託人。我描述我想要什麼,我為此付費,然後我判斷結果。魔法的施展發生在我無法觀看的地方,在數百個我從未有機會投票的小選擇中。工作已經從過程轉向結果。我不再引導;我只是委託。

這種被邊緣化的情況可能是暫時的,只是因為介面尚未跟上,未來我們可能會更好地了解這些模型在做什麼,並有更好的方法在過程中引導它們。但也可能情況恰恰相反:模型能力越強,人類能有意義地做的事情就越少,而黑箱就是這種力量的代價。我懷疑後者更有可能是真正的發展方向。

這一切並非明顯意義上的失去控制。我仍然可以引導 Fable,而且它非常出色地遵循指令:指令越雄心勃勃,結果就越好。但引導不再等同於執行。我向模型簡報,它啟動自己的代理程式進行研究、寫作並相互檢查工作,然後回傳的就是完成品。一位贊助人委託一位藝術家。

Fable 更像是一個完整的製片廠,而我則是簽署最終作品的客戶,從未踏足工作室一步。