與 Mythos 級 AI 協作：Claude 5 Fable 帶來能力躍進與角色轉變

我搶先體驗了即將公開發布的首個 Mythos 級 AI 模型 Claude 5 Fable。雖然關於 Mythos 的討論多半聚焦於其對軟體安全的影響，但我測試了它在所有其他方面的能力（Fable 的防護措施基本上阻止了它用於網路安全）。我的結論是，它確實比我用過的所有模型都有了巨大的飛躍，或許更重要的是，它預示著我們與 AI 的關係正發生劇烈變化。

首先，Fable 到底有多好？在我進行的一次又一次實驗中，它基本上以相當大的優勢超越了我用過的所有其他公開模型。它能解決許多問題，並產生了一些令人驚訝的結果——它能花費長達十幾個小時執行多頁規格的任務。我稍後會帶大家了解幾個更複雜、更嚴肅的應用案例，但你可以看到它在每項任務上都有全面的提升。

在文章中傳達這一點的難處在於，許多最令人印象深刻的成果可能只會引起少數讀者的興趣。例如，它僅憑一個提示詞和一次回饋，就寫出了我見過 AI 生成的最精密的學術社會科學論文。它還創作了一首長達十頁的史詩級押韻詩，內容關於理髮，而且每個單字都以字母「s」開頭。

因此，為了提供一個更容易理解且更有趣的例子，我還讓它製作了一些你可以嘗試的遊戲。所有這些遊戲都始於 Claude Code 中的一個初始提示詞，Fable 必須根據我模糊的提示生成可行的內容，然後再透過幾個額外的提示詞給予輕微鼓勵（「讓它更好」）或回饋。

這些遊戲特別令人印象深刻的原因是，Claude 無法生成圖像，所以每個藝術品或 3D 物件都是純粹用數學製作的，沒有使用任何外部素材。你可以嘗試其中任何一個：一個關於擲硬幣的遊戲（提示詞：「Balatro，但用於擲硬幣遊戲」），相當有趣；一個貪吃蛇遊戲，其中蛇具有自我意識並發生瘋狂的事情；或者一個關於深入深淵探索其中奧秘的遊戲。

所以，它的產出確實令人印象深刻。然而，特別是當我轉向更嚴肅的專案時，我常常覺得使用這個工具的感受介於愉悅與不安之間。愉悅是因為我只是提出要求，它就實現了。而不安也是因為我只是提出要求，它就實現了。

要理解原因，有助於了解 Fable 完成工作的方式，為此我想舉一個我曾在許多先前的 AI 模型上測試過的例子：製作等時線地圖。這是一種顯示在特定時間內可以旅行多遠的地圖，第一張等時線地圖於 1881 年繪製，顯示了從倫敦出發的旅行時間。

以前的模型在嘗試製作這樣一張地圖時，連一半的實用性都達不到，因為這涉及研究數千個潛在的旅行距離，以及大量的細微判斷和決策。我決定在 Fable 上使用 Claude Code 進行嘗試，提示詞是：「我希望你製作一張經過充分研究且精美的等時線地圖，讓我能選擇不同城市，並根據真實數據查看實際的等時線。

我希望設計獨特。你應該考慮機場（以及往返機場的旅行時間）、火車、步行、開車。數據不需要即時，但應基於你的研究和數據真實呈現。你可以從幾個城市開始，但越通用越好，這應該是一個全新的專案。」然後它建議以原始地圖的風格來製作，我同意了，它便開始工作。

值得花點時間看看 AI 自行進行的數小時建構過程的紀錄，因為你會發現一些不尋常之處。首先，AI 啟動了多個其他 AI（我認為主要是較便宜的 Claude Sonnet）來協助它研究旅行時間，最終檢索了超過 2,200 個具體航班、從 TGV 到新幹線的火車時刻表，以及來自多篇學術論文的各國道路速度數據。

在這些代理程式運行的同時，它開始編碼。然後它又啟動了更多的代理程式和測試來驗證其程式碼，同時不斷記錄自己的進度。

結果是一張功能齊全、精密度令人印象深刻的地圖，看起來很像 1881 年的原版，但這並不意味著它完美無缺。我注意到許多偏遠地區（如格陵蘭）只包含旅行時間的估計值，而非確切數字，所以我讓 Fable 修正，並指示它：「實際取得前往偏遠機場和地點的旅行時間。」

這次 AI 啟動了一個工作流程，由相互對抗的代理程式群組進行研究並相互測試結果。它計算出前往太平洋皮特肯島的船班頻率，以及如何從渥太華前往格里茲峽灣。而且它在很短的時間內使用了大量的 token（稍後會詳細說明）。

結果令人印象深刻。我又根據我的興趣進行了幾次調整（包括要求其他視覺化方法等）。我建議花幾分鐘點擊查看結果，你可以在圖表底部閱讀它的方法和來源。這可能不是一個對你很有用的專案，除非你真的很喜歡旅行和地圖，但它表明 AI 能夠解決涉及研究、數學、視覺開發、品味、判斷、複雜編碼等方面的難題。

而令人不安的部分在於我所做的工作微乎其微。我給了一個非常雄心勃勃的指令，AI 就照辦了。我給了幾條微小的回饋，AI 就解決了。我的角色極其有限。

重要的是，我的工作量相對於模型而言是有限的，我對模型如何執行任務、為何選擇特定方法，甚至其結果的深度，也幾乎沒有控制權。AI 決策的細節並未向我展示，而且整個過程太過漫長，不值得追蹤。這張地圖需要 AI 對數百個小選擇做出判斷，而它就這樣做了，我既不了解這些選擇，也沒有機會參與其中。從許多方面來看，這簡直是奇蹟（我總能在最後要求修改），但另一方面，它也將 AI 變成了一個終極黑箱。

我從 Fable 獲得的最雄心勃勃的專案需要多一點解釋。我做了很多研究，其中人類會產生混亂的答案，而進行任何分析都需要正確地分類這些答案：一個想法有多創新？人們為什麼喜歡這本書？為了弄清楚這一點，我們過去會使用人類研究員對一條資訊做出判斷，並將他們的答案與其他人進行統計比較，以確定我們是否可以信任這些數據。

許多近期研究表明，AI 可能能夠完成這項重要工作，但校準 AI 和人類的判斷一直很困難且昂貴。所以我要求 Fable 解決這個問題，它首先生成了一份複雜的 19 頁設計文件，然後執行了它。

它工作了九個半小時。結果是一個極其精密的軟體，AI 將其命名為 Concord，它能夠接收多個數據集、校準人類和 AI 的回應，然後對結果進行複雜的數據分析。同樣，它並不完美。作為專家，我能夠發現一些錯誤和遺漏（有些是我要求的設計所導致），並讓 AI 進行了修正。

但這個專案以及許多其他專案的交付範圍，都超出了我以前見過的任何東西。在這個案例中，它是一個研究人員多年來一直需要，但卻從未有利可圖的軟體。你現在可以直接使用或修改這裡的程式碼。我確信它並不完美（我只花了一小時處理結果），但軟體工程師會解決我無法快速找到的剩餘潛在錯誤（這也是未來我們可能需要更多而非更少程式設計師的原因之一，以應對軟體新用途的爆炸性增長）。

這種強大能力伴隨著奇異之處和限制。其中一個限制是它的 token 使用量。Fable 的成本是 Opus 的兩倍，而且它消耗 token 的速度表明其生產成本「非常高」，儘管它巧妙地將任務委託給更便宜的模型可能會大幅降低實際價格。Fable 的防護措施在偵測到最微小的安全問題時也會觸發，並自動切換到功能較弱的 Claude 4.8 Opus，而且這種情況發生得太頻繁了。

而且，那種粗糙的邊界感依然存在。例如，AI 仍然以相同的奇怪風格寫作（事實上，Fable 生成的軟體帶有「Claude 風格」的痕跡；它的進度報告也是如此，總是那種「承擔重任並贏得答案」的語氣）。但更深層次的奇異之處在於我所做的工作是如此之少，以及在它工作時我能看到的東西是如此之少。

去年我將這種協作比喻為與巫師合作：你唸出咒語，事情就發生了。有了 Fable，咒語已經變得如此強大，以至於我不再確定自己是巫師。我更像是一個委託人。我描述我想要什麼，我為此付費，然後我判斷結果。魔法的施展發生在我無法觀看的地方，在數百個我從未有機會投票的小選擇中。工作已經從過程轉向結果。我不再引導；我只是委託。

這種被邊緣化的情況可能是暫時的，只是因為介面尚未跟上，未來我們可能會更好地了解這些模型在做什麼，並有更好的方法在過程中引導它們。但也可能情況恰恰相反：模型能力越強，人類能有意義地做的事情就越少，而黑箱就是這種力量的代價。我懷疑後者更有可能是真正的發展方向。

這一切並非明顯意義上的失去控制。我仍然可以引導 Fable，而且它非常出色地遵循指令：指令越雄心勃勃，結果就越好。但引導不再等同於執行。我向模型簡報，它啟動自己的代理程式進行研究、寫作並相互檢查工作，然後回傳的就是完成品。一位贊助人委託一位藝術家。

Fable 更像是一個完整的製片廠，而我則是簽署最終作品的客戶，從未踏足工作室一步。