AI 新聞繁中

除了程式碼，即使是最好的AI系統，在職場中也難以實現經濟效益。接下來會發生什麼？今年二月，我在倫敦一場反AI遊行中拿到一張傳單。我不確定撰寫者是否刻意模仿《南方公園》的內褲地精，但如果他們是，那他們抓住了精髓：「第一步：培養數位超級心智。」傳單上寫道：「第二步：？第三步：？」這張傳單由共同組織抗議活動的國際行動團體Pause AI製作，結尾懇請讀者：「暫停AI發展，直到我們搞清楚第二步到底是什麼。」在1998年首次播出的《南方公園》劇集「地精」中，Kenny、Kyle、Cartman和Stan發現了一群地精，牠們會在夜間偷偷溜出來偷走衣櫃裡的內褲。為什麼？地精們展示了牠們的商業計畫書：「第一階段：收集內褲。第二階段：？第三階段：獲利。」地精的商業計畫從此成為網路迷因中的經典，被用來諷刺從新創策略到政策提案的一切。迷因大師Elon Musk曾在一場關於如何資助火星任務的演講中引用它。現在，它恰好捕捉了AI的現狀。公司已經建立了技術（第一步），並承諾帶來變革（第三步）。但如何實現這一切，仍然是一個巨大的問號。就Pause AI而言，第二步必須涉及某種形式的監管。但具體會要求什麼以及由誰來執行，仍有待商榷。另一方面，AI的擁護者則堅信第三步是救贖，並傾向於忽略中間的環節。他們認為我們正搭乘「經濟轉型技術」的順風車，奔向光明前景，正如OpenAI首席科學家Jakub Pachocki幾週前告訴我的那樣。他們或多或少知道自己想去哪裡：那裡仍舊模糊不清，還有很長一段路要走。但每個人都選擇了不同的路徑。他們都能成功嗎？會有人成功嗎？對於每一個關於未來的宏大主張，總會有更為清醒的評估，來抑制炒作。以最近的兩項研究為例。其中一項來自Anthropic，預測了哪些類型的工作將受到大型語言模型（LLMs）影響最大。（結論是：經理、建築師和媒體工作者應為變革做好準備；而園丁、建築工人及餐旅業人員則受影響較小。）但這些預測實際上只是猜測，基於LLMs似乎擅長的任務類型，而非它們在職場中的實際表現。另一項由AI招聘新創公司Mercor的研究人員於二月發布的研究，測試了由OpenAI、Anthropic和Google DeepMind頂級模型驅動的多個AI代理，針對人類銀行家、顧問和律師經常執行的480項職場任務。他們測試的每個代理都未能完成大部分職責。為何存在如此大的分歧？原因有很多。首先，考慮誰在提出這些主張（以及為什麼）至關重要。Anthropic在其中有利益關係。此外，大多數告訴我們大事即將發生的人，其結論主要基於AI程式碼工具的快速發展。但並非所有任務都能透過程式碼解決。例如，其他研究發現LLMs不擅長做出策略性判斷。更重要的是，當這些工具被部署時，它們並非被置於無菌室中。它們需要在充滿人類和現有工作流程的環境中運作。有時，引入AI甚至會讓事情變得更糟。當然，或許這些工作流程需要被徹底改造，以新技術為核心重新建構，才能實現變革性的地位，但這將需要時間（和勇氣）。那麼那個大洞呢？它就在第二步應該存在的地方。對於即將發生什麼以及如何發生缺乏共識，造成了資訊真空，而這個真空則被每週最新的瘋狂主張所填補，證據則被拋諸腦後。我們對於即將到來的變化以及如何部署AI缺乏真實的理解，以至於一則社群媒體貼文就能（而且確實會）動搖市場。我們需要更少的猜測，更多的證據。但這將需要模型開發者的透明度、研究人員與企業之間的協調，以及新的評估方法，來告訴我們這項技術在現實世界中推廣時，究竟會發生什麼。科技產業（以及隨之而來的全球經濟）都寄望於AI確實能帶來變革的承諾。但這尚未是板上釘釘的事。下次當你聽到關於未來的豪言壯語時，請記住，大多數企業仍在摸索如何處理它們的「內褲」。

AI熱潮與獲利之間：缺失的關鍵環節