AI 新聞繁中

2023年10月，我曾撰文探討「事物的陰影形狀」，推測AI在未來幾年可能演變成的「事物」究竟為何。我認為現在我們能更清晰地看見這個「事物」的真實面貌，以及隨之而來的影響。正如我在近期文章中所討論的，我們已進入AI的新階段。在ChatGPT問世後，人機協作的形式是我所謂的「共同智慧」，即人類透過來回提示AI來獲得任務協助。然而，從2025年末開始，由於Claude Code、OpenAI的Codex和OpenClaw等AI代理的出現，我們進入了一個新紀元。這些AI系統能讓你直接交付任務，有時甚至能將數小時的人工工作，在數分鐘內完成並產生合理且有用的結果。這是一個「管理AI」，而非與其「協作」的時代。這種AI新方法是AI能力快速指數級進步的成果。這意味著，若不了解AI日益增長的能力，便無法理解我們身處何處，以及未來可能走向何方。指數級的進步難以具象化，因此我不想用圖表，而是想從水獺說起。如果你曾關注我關於AI的著作，你會知道我的「水獺測試」：我會挑戰各種AI圖像模型，要求它們生成一張「水獺在飛機上使用Wi-Fi」的圖片。如下所示，從2022年（ChatGPT發布之年）到2025年，進步是快速且顯著的。那麼，自2025年4月那張圖片以來，又發生了什麼？隨著圖像幾近完美，影片已成為新興前沿領域，並同樣經歷了指數級的增長。為了證明這一點，我給了TikTok開發商字節跳動最先進（且在美國尚未發布）的AI影片模型一個提示詞：「一部關於水獺如何看待Ethan Mollick的『水獺測試』的紀錄片，該測試透過AI生成水獺坐在飛機上的圖像能力來評估AI」。這是第一個結果——務必打開聲音：除了單一的發音錯誤外，這部影片幾乎完美，甚至水獺都被動畫化，帶有類人表情。當然，影片模型很酷，但它們不一定能代表有用的代理式AI能做什麼。那麼，如果我們檢視AI能力的基準測試，是否也能看到相同的指數曲線呢？在當今AI領域最著名的評估指標——METR長任務圖表中，我們確實看到了這一點。它試圖透過衡量AI在一定可靠性下，能自主完成多少人工工作來評估AI進步。該圖表引來不少批評，甚至METR也指出潛在問題。但如果你不喜歡METR圖表，你會發現大多數AI能力圖表都呈現相同的曲線。舉例來說，我選取了四個困難且多樣的AI測試，並在下圖中繪製了隨時間的進度。左上方是Google-Proof問答基準的得分，這是一個知識測試，研究生在不熟悉領域使用Google僅能得分34%，在熟悉領域約70%，但現在最優秀的AI已能達到94%。或者看看GDPval，業界專家在此評估AI與經驗豐富的人類在複雜任務上的表現，最新的AI現在有82%的時間能達到或超越頂尖人類的表現。同樣的模式也適用於「人類最終考驗」，這是一系列由大學教授撰寫的極難問題，需要相當專業的知識才能回答。我們甚至可以使用AI解決謎題的能力（你可以在這裡嘗試這些謎題，它們很有趣！）。每個測試都顯示出能力快速增長，幾乎沒有放緩的跡象，至少在達到測試最高分之前是如此。撇開指數圖表不談，重要的是要認識到所有這些測試都有其缺陷，而且AI的能力仍然參差不齊，在某些任務上表現出色，但在其他任務上卻會出錯。此外，儘管這些測試展現了驚人的能力，但公司採用AI仍處於非常早期的階段，這意味著，到目前為止，大多數組織幾乎沒有發生顯著變化。但「大多數組織」不代表所有組織。我們已經開始看到利用AI代理新能力的新組織方法首次出現。幾週前，安全軟體公司StrongDM（專注於存取控制）的一個三人團隊宣布他們建立了一個「軟體工廠」——一種完全依賴AI來編寫、測試和發布生產級軟體，無需人工介入的工作方式。該流程包含兩條（相當激進的）規則：「程式碼不得由人類編寫」和「程式碼不得由人類審查」。為了驅動這個工廠，每位人類工程師預計將花費相當於其薪資的AI運算成本，至少每天1,000美元。這個工廠的基本理念是，它接收人類撰寫的未來產品藍圖，並將其轉化為產品。編碼代理使用這些藍圖來建構軟體，而測試代理則在模擬客戶環境中（測試代理會根據需要建立該環境）試用軟體。這些代理組會相互提供回饋，來回循環直到結果滿足AI。然後人類審查最終產品，結果便會交付給客戶，而無需任何人接觸，甚至看到底層程式碼。顯然，這種方法有很多細節使其得以運作，StrongDM團隊也公開分享了許多。他們還邀請了一些聰明的外部觀察者觀看工廠運作並評論他們所見，因此你可以閱讀Simon Willison和Dan Shapiro的報告，以更好地了解他們方法的優缺點。然而，在許多方面，「軟體工廠」的具體細節，不如這種激進的工作方式實驗現在不僅可能，而且可能必要的事實來得重要。AI已足夠優秀，足以改變組織的運作方式，而實驗才剛開始，即使模型仍在持續改進。實用的代理、參差不齊的指數級進步，以及對工作本質進行激進實驗的能力，共同構成了一個不斷演變且難以預測的AI發展環境。隨著AI能力跨越門檻，它解鎖了全新的應用場景，有時會在一夜之間改變人們對AI能力的看法。同時，正在實驗AI的組織將會找出如何使其為己所用，從而導致關於新策略或公司對哪種員工最重視的大規模轉變的突然宣布。此外，隨著AI持續改進，更多政策制定者將對AI治理產生興趣，從而與AI公司產生衝突。這並非臆測，因為我們在短短一週內就目睹了這一切的發生。2月22日，一家鮮為人知的金融公司Citrini Research發布了一個虛構情境，描述了AI的採用如何在2028年前摧毀許多老牌企業。文章中有許多元素顯然是牽強附會的，但它觸動了華爾街的神經，導致股市價格大幅波動。2月26日，金融服務公司Block宣布裁員40%，暗示這是由於AI所致。AI的作用很可能被大大誇大，而AI僅被用作大規模裁員的掩護。然後，為了結束這一週，2月27日，五角大廈與AI公司Anthropic之間發生了一場非常公開的衝突，爭論誰應該能夠控制政府如何使用Claude的規則。在許多方面，這些案例的實際情況都與最初看起來的不同。Citrini報告是一個虛構情境，Block裁員並非關乎AI，而關於AI在戰爭中的衝突則圍繞著許多複雜且仍不完全清楚的問題。但我認為那一週很好地說明了近期未來會是什麼感覺。關於AI能力的突然揭示導致市場的快速反應。AI對就業的影響日益真實（即使關於這些影響在短期內是好是壞仍存在許多爭議）。以及AI公司與世界各地政策制定之間的糾葛日益加深。隨著利害關係升高，情況可能會感覺更加不穩定。

AI新紀元：自主代理與工作模式的劇變