AI 新聞繁中

自ChatGPT問世以來，我已撰寫了八篇此類指南，但這個版本與過去有著巨大差異，因為「使用AI」的意義已發生了戲劇性的變化。直到幾個月前，對絕大多數人而言，「使用AI」意味著與聊天機器人進行來回對話。然而，在過去幾個月中，將AI作為「代理」來使用已變得切實可行：你可以指派任務給它們，它們會利用適當的工具來完成。由於這項轉變，在決定使用哪種AI時，你必須考量三個要素：模型（Models）、應用程式（Apps）和驅動架構（Harnesses）。同樣的模型 Claude Opus 4.6，在三種不同的應用程式和驅動架構中被問及完全相同的問題：「比較 ChatGPT、Claude 和 Gemini」。在沒有驅動架構的情況下，資訊已經過時；在 Claude.ai 網站上，我獲得了更新的資訊和可驗證的來源；而使用 Claude Cowork，我則獲得了精密的分析和格式良好的直接比較。 **模型（Models）**是底層的AI大腦，目前三大主流模型是 GPT-5.2/5.3、Claude Opus 4.6 和 Gemini 3 Pro（各公司發布新模型的速度比以往快得多，因此版本號在未來幾週內可能會有所變動）。這些模型決定了系統的智慧程度、推理能力、寫作或編碼或分析試算表的能力，以及辨識或生成圖像的能力。模型是基準測試衡量的對象，也是AI公司競相改進的目標。當人們說「Claude 在寫作方面表現更好」或「ChatGPT 在數學方面更強」時，他們指的就是模型。 **應用程式（Apps）**是你實際用來與模型互動的產品，它們讓模型能為你完成實際工作。最常見的應用程式是每個模型的網站：chatgpt.com、claude.ai、gemini.google.com（或其手機上的對應應用程式）。越來越多地，這些AI公司也開發了其他應用程式，包括像 OpenAI Codex 或 Claude Code 這樣的編碼工具，以及像 Claude Cowork 這樣的桌面工具。 **驅動架構（Harnesses）**是讓AI模型發揮實際作用的關鍵，就像馬具能將馬匹的原始力量轉化為拉動馬車或犁地的能力。驅動架構是一個系統，讓AI能夠使用工具、採取行動並自主完成多步驟任務。應用程式通常內建驅動架構。例如，Claude 網站上的驅動架構讓 Claude 4.6 Opus 能夠進行網路搜尋和編寫程式碼，同時也包含如何處理各種問題的指示，例如建立試算表或進行平面設計工作。Claude Code 則擁有更廣泛的驅動架構：它為 Claude 4.6 Opus 提供虛擬電腦、網路瀏覽器、程式碼終端機，以及將這些工具串聯起來，從零開始研究、建立和測試新網站的能力。Manus（最近被 Meta 收購）本質上是一個獨立的驅動架構，可以整合多個模型。最近引起廣泛關注的 OpenClaw，主要也是一個驅動架構，允許你在本地電腦上使用任何AI模型。直到最近，你還不需要了解這些。模型_就是_產品，應用程式就是網站，而驅動架構則微乎其微。你輸入，它回應，你再輸入。但現在，同一個模型在不同的驅動架構下，其行為表現可能大相徑庭。在聊天視窗中與你對話的 Claude Opus 4.6，與在 Claude Code 內部自主編寫和測試軟體數小時的 Claude Opus 4.6，是截然不同的體驗。GPT-5.2 回答一個問題，與 GPT-5.2 Thinking 瀏覽網站並為你製作投影片，也是截然不同的體驗。這意味著「我應該使用哪種AI？」這個問題變得更難回答，因為答案現在取決於你打算用它來做什麼。因此，讓我帶你了解一下目前的AI生態。頂級模型在整體能力上非常接近，並且普遍比以往任何時候都「更聰明」、錯誤更少。然而，如果你想認真使用進階AI，每月至少需要支付20美元（儘管世界上某些地區有提供較低費用的替代方案）。這20美元能讓你獲得兩項好處：選擇使用哪個模型的權利，以及使用更先進的前沿模型和應用程式的能力。我希望我能告訴你目前免費的模型與付費模型一樣好，但事實並非如此。免費模型都針對聊天進行了優化，而非準確性，因此它們速度很快，通常也更有趣，但準確性和能力則大打折扣。通常，當有人發布AI做蠢事的例子時，要麼是因為他們使用了免費模型，要麼是因為他們沒有選擇更聰明的模型來工作。目前三大前沿模型分別是 Anthropic 的 Claude Opus 4.6、Google 的 Gemini 3.0 Pro 和 OpenAI 的 ChatGPT 5.2 Thinking。這些選項都讓你能夠使用頂級的AI模型，具備語音模式、辨識圖像和文件的能力、執行程式碼的能力、優秀的行動應用程式，以及創建圖像和影片的能力（然而 Claude 在這方面有所欠缺）。它們各自有不同的「個性」、優勢和劣勢，但對大多數人來說，選擇一個自己最喜歡的就足夠了。目前，這個領域的其他公司在模型、應用程式或驅動架構方面都已落後，儘管有些用戶可能仍有理由選擇它們。這只是一個輕微的誇張——對於不要求準確性的隨意聊天，你可以使用較小的模型，否則請務必選擇進階模型！當你使用任何AI應用程式（稍後會詳細說明），包括手機應用程式或網站時，**你能做的最重要的一件事就是選擇正確的模型**，而AI公司並未讓這件事變得容易。如果你只是聊天，預設模型就足夠了；但如果你想做實際工作，它們就不行。對於 ChatGPT，無論你使用免費版還是付費版，預設模型都是「ChatGPT 5.2」。問題在於 GPT-5.2 並非單一模型，它包含許多版本，從非常弱的 GPT-5.2 mini 到非常好的 GPT-5.2 Thinking，再到極其強大的 GPT-5.2 Pro。當你選擇 GPT-5.2 時，你實際得到的是「自動」模式，由AI決定使用哪個模型，通常是一個較不強大的模型。透過付費，你可以決定使用哪個模型，而且，為了使事情更複雜，你還可以選擇模型「思考」答案的程度。對於任何複雜的問題，我總是手動選擇 **GPT-5.2 Thinking Extended**（在20美元的方案中）或 **GPT-5.2 Thinking Heavy**（在更昂貴的方案中）。對於需要大量思考的真正困難問題，你可以選擇最強大的模型 GPT-5.2 Pro，它只在更高價位的方案中提供。對於 Gemini，有三個選項：Gemini 3 Flash、Gemini 3 Thinking，以及某些付費方案中的 3 Pro。如果你支付 Ultra 方案，你將能使用 Gemini Deep Think 來解決非常困難的問題（這在另一個完全不同的選單中）。對於任何嚴肅的問題，請務必選擇 **Gemini 3 Pro 或 Thinking**。對於 Claude，你需要選擇 **Opus 4.6**（儘管新的 **Sonnet 4.6** 也功能強大，但仍略遜一籌），並開啟「擴展思考（extended thinking）」開關。再次強調，對大多數人而言，模型之間的差異現在已經小到應用程式和驅動架構的重要性超越了模型本身。這就引出了更大的問題。絕大多數人使用聊天機器人，即 ChatGPT、Claude 和 Gemini 的主要網站或行動應用程式來存取其AI模型。事實上，我們可以稱聊天機器人為最重要且最廣泛的AI應用程式。在過去幾個月中，這些應用程式彼此之間已變得相當不同。其中一些差異在於AI捆綁了哪些功能： * 捆綁在 Gemini 聊天機器人中（可透過小加號按鈕存取）的功能包括：你可以使用 nano banana（目前最佳的AI圖像生成工具）、Veo 3.1（領先的AI影片生成工具）、引導式學習（Guided Learning，在學習時幫助AI更像導師），以及深度研究（Deep Research）。 * 捆綁在 ChatGPT 中的選項更多樣化，同樣可透過加號按鈕存取。你可以建立圖像（其圖像生成器幾乎與 nano banana 一樣好，但你無法透過聊天機器人存取 Sora 影片生成器）、學習與探索（Study and Learn，相當於 Gemini 的引導式學習，但不知為何還有一個獨立的測驗建立器）、深度研究（Deep Research）和購物研究（Shopping Research，出奇地好且常被忽略），以及其他一些大多數人不會經常使用的選項，因此在此不贅述。 * Claude 僅將深度研究（Deep Research）作為捆綁選項，但你可以透過建立專案並選擇學習專案來存取學習模式。 * 所有AI模型都允許你連接數據，例如讓AI讀取你的電子郵件和行事曆、存取你的檔案，或連接到其他應用程式。這可以讓AI變得更加有用，但同樣地，每個AI工具都有一套不同的連接器供你使用。這些功能令人眼花撩亂！對於大多數從事實際工作的人來說，最重要的額外功能是深度研究（Deep Research）以及將AI連接到你的內容，但你可能也想嘗試其他功能。然而，越來越重要的是驅動架構——即AI可以存取的工具。在這方面，OpenAI 和 Anthropic 明顯領先於 Google。Claude.ai 和 ChatGPT 都具備編寫和執行程式碼、提供檔案、進行廣泛研究以及更多功能的能力。Google 的 Gemini 網站功能則遜色許多（儘管其AI模型同樣優秀）。如你所見，提出類似問題時，ChatGPT 和 Claude 能夠提供可用的試算表和 PowerPoint，以及清晰可追溯的引用來源。然而，Gemini 無法生成這兩種文件，也不提供引用或研究。不過，我預計 Google 很快就會在這方面迎頭趕上。關於聊天機器人的最後一點說明。GPT-5.2 Pro 及其內建的驅動架構，是一個_非常_聰明的模型。它就是最近協助_推導出物理學新成果_的模型，也是我認為最能勝任複雜統計和分析工作的模型。它只能透過更昂貴的方案才能存取。Google Gemini 3 Deep Think 看起來也非常有能力，但同樣面臨驅動架構的問題。

AI代理時代：聰明選擇你的AI工具