AI 新聞繁中

我搶先體驗了 GPT-5.5，我認為這意義重大。它意義重大，因為這表示 AI 的快速進步尚未結束。它也意義重大，因為它就是單純地好用。而且它意義重大，因為即使有這些進步，AI 能力的邊界仍然參差不齊。隨著 AI 變得越來越好，要快速展示每一代之間的變化變得越來越困難，因為許多過去 AI 不擅長的事情，例如數學或計算單字中的字母數量，現在對 AI 來說都輕而易舉。因此，我將提供複雜的細節，但首先，一個我認為很好的簡單範例。AI 模型最擅長的是程式碼編寫，所以我給了從 OpenAI 第一個推理模型 o3（一年前多一週發布！）到目前最佳開源模型 Kimi K2.6，再到新的 GPT-5.5 Pro 一個程式碼挑戰：「為我建立一個程序化生成（procedurally generated）的 3D 模擬，展示一個港口城鎮從西元前 3000 年到西元 3000 年的演變，它應該看起來很美觀，並允許我對其進行一些控制。」然後我將每個答案發布到這個圖庫中，這樣你就可以親自體驗它們（實際上，我是讓 GPT-5.5 Codex 為我建立這個圖庫頁面）。你應該親自玩玩看，感受其中的差異，但你可以在下面看到一些範例。除了在所有其他方面都更好之外，只有 GPT-5.5 Pro 真正模擬了一個不斷演變的城鎮，而不僅僅是隨著時間生成新的建築替代品。GPT-5.5 Pro 也比其前一個版本快得多：GPT-5.4 Pro 完成任務花了 33 分鐘，GPT-5.5 Pro 只花了 20 分鐘。我一直鼓勵大家不要將 AI 視為單一事物，而是將其視為三個相互關聯的概念。你需要考慮**模型**，例如 Opus 4.7、Gemini 3.1 或（現在）GPT-5.5。你還需要關注**應用程式**，這些是你實際用來與模型互動的產品，它們讓模型為你完成實際工作。最常見的應用程式是這些模型的網站：chatgpt.com、claude.ai、gemini.google.com。但是，像 Claude Code、Claude Cowork 和 OpenAI Codex 這樣的桌面應用程式正日益成為最有用的 AI 應用程式。最後，還有**工具鏈**（harnesses），即 AI 可以使用的工具以及 AI 模型如何與這些工具連接。工具允許 AI 控制你的電腦、編寫程式碼、進行研究和製作圖像。 OpenAI 在這三個領域都取得了進展。在模型方面，GPT-5.5 是一個強大的模型家族，其中 GPT-5.5 Pro（僅限於網站上使用）是最具能力的。最近在應用程式方面也有重大進展，OpenAI 的 Codex 越來越追隨出色的 Claude Code 的腳步，成為一個易於使用且實用的桌面應用程式。最後，還有工具鏈及其可以使用的工具。工具鏈方面有許多新的改進，但其中一個最有趣的是來自 OpenAI，它有一個新的圖像模型。這個新模型現在可以渲染高品質的文字並創建幾乎任何你能描述的圖片。長期讀者都知道我的「水獺測試」（Otter Test），它要求 AI 製作一張水獺在飛機上使用 Wi-Fi 的圖片。與其再次描述，不如讓新的圖像模型（有時稱為 GPT-imagegen-2）為我解釋：「一張水獺科學家展示 Ethan Mollick 水獺測試結果的照片，該測試顯示 AI 圖像生成器在製作水獺坐在飛機上使用 Wi-Fi 的圖像方面的表現。」也許你想看看關於它的學術論文？「給我看水獺測試學術論文的第一頁，格式良好，放在桌上」（可以放大看文字）或者我們應該直接把它變成藝術品？「現在展示一個精緻的藝廊，牆上的每幅畫都是一隻水獺在飛機上使用筆記型電腦，風格分別是克林姆、羅斯科、馬蒂斯、莫內、畢卡索、提香、林布蘭和歐姬芙。每幅畫下方都應該有清晰可讀的標籤。」（這值得放大看）所有這些都非常酷，而且在幾個月前還是不可能的，但它也很有用。一個可以製作詳細文字和圖像的圖像生成器可以用來製作 PowerPoint 簡報、產品模型、範例網站或任何你要求的東西。但這只是一種工具，真正的魔力發生在你將工具鏈、應用程式和模型結合起來解決實際問題時。這有一個我已經拖延了十年的問題。我是一名學者，我許多非 AI 的工作，尤其是在 2010 年代初期，都專注於群眾募資。我收集了數百份關於這個主題的匿名數據文件，來自調查、分析和研究工作，混合了 STATA、CSV、XLS 和 Word 文件，但我從未抽出時間撰寫論文。我想看看 GPT-5.5 能用這些資訊做到什麼程度。所以我使用了由 GPT-5.5 驅動的 Codex 並詢問：「幫我整理這些數據，並提出一個可能有趣的新假設，然後以複雜的方式進行測試，並撰寫一篇學術論文。」我還要求它包含文獻回顧和格式。結果非常令人印象深刻，尤其是在我要求 GPT-5.5 Pro 評論這篇論文並將這些結果反饋給 Codex 之後。你可以在這裡閱讀結果。它並不完美，但不再是因為有明顯的錯誤：文獻回顧都是真實的，統計數據也是。相反，是因為作為一名專家，我認為這個假設並不是那麼有趣，而且對因果關係存在一些標準的擔憂，儘管 AI 使用了非常複雜的統計方法來嘗試解決這些問題。簡而言之，如果這篇論文是一個二年級博士生專案的成果，我會非常滿意。而我只給了它四個提示詞，自己從未動過文字。我們也可以用另一種方式將工具鏈、應用程式和模型結合起來。我要求 Codex 創建一個全新的桌上角色扮演遊戲，基本上是它自己發明的一個奇幻世界中的《龍與地下城》版本，包含所有你需要玩的表格和規則。我還要求它模擬玩家體驗遊戲並根據其發現修改規則。如你所見，AI 照辦了，包括排版了一個精美的 101 頁 PDF，並使用其圖像生成器進行插圖。除了技術上很巧妙之外，實際內容也有很多值得稱讚的地方。設定有趣且新穎，規則似乎也合理，借鑒了現有的遊戲模式，同時增加了獨特的元素。然而，仔細檢查也發現 AI 能力的參差不齊的邊界並未完全消失。每一代 AI 模型都在實際建立長篇小說方面遇到困難。如果你是 AI 寫作的常客，你會在這裡看到同樣的問題：對怪異事物的熱愛；過於複雜但未能完全實現的想法；奇怪的譬喻（「天氣和建築是不同速度的相同論點」）；過多華麗的句子（「當一片海洋忘記它曾經是一條路時，浮現的神聖事物」，一次很酷，但整本書都是這樣就很累人）；對話中每個角色都以相同的簡潔語氣說話；以及「Mara」這個名字。所以，即使在所有驚人的技術進步中，仍然存在一些粗糙的邊緣。 GPT-5.5 向我們展示了模型持續變得更聰明，應用程式持續變得更有能力，工具鏈持續變得更好，使其在解決實際問題方面越來越有效。我只需四個提示詞就能得到一篇接近博士論文品質的論文，或者一個可玩、有插圖且經過「試玩」的角色扮演遊戲。但小說仍然平淡，即使統計數據可靠，假設有時也不那麼有趣。但即便如此。一年前，這些都還遙不可及，而且隨著最新版本的發布，能力的提升似乎正在加速。 GPT-5.5 明顯不是這個過程的終點，但它是這條路上值得注意的一步。我撰寫這份電子報已經三年多了，模式沒有改變：每隔幾個月就會有一個新模型問世。我進行測試，然後一些曾經不可能的事情變得輕而易舉，而每次新發布週期的飛躍幅度都在增大。參差不齊的邊界仍然存在。它只是比以前更遠了。這就是 GPT-5.5 選擇為這篇文章配圖的方式，我又有什麼好爭辯的呢？

GPT-5.5：AI 能力飛躍的新里程碑