除了程式碼,即使是最好的AI系統,在職場中也難以實現經濟效益。接下來會發生什麼?今年二月,我在倫敦一場反AI遊行中拿到一張傳單。我不確定撰寫者是否刻意模仿《南方公園》的內褲地精,但如果他們是,那他們抓住了精髓:「第一步:培養數位超級心智。」傳單上寫道:「第二步:?第三步:?」這張傳單由共同組織抗議活動的國際行動團體Pause AI製作,結尾懇請讀者:「暫停AI發展,直到我們搞清楚第二步到底是什麼。」在1998年首次播出的《南方公園》劇集「地精」中,Kenny、Kyle、Cartman和Stan發現了一群地精,牠們會在夜間偷偷溜出來偷走衣櫃裡的內褲。為什麼?地精們展示了牠們的商業計畫書:「第一階段:收集內褲。第二階段:?第三階段:獲利。」地精的商業計畫從此成為網路迷因中的經典,被用來諷刺從新創策略到政策提案的一切。迷因大師Elon Musk曾在一場關於如何資助火星任務的演講中引用它。現在,它恰好捕捉了AI的現狀。公司已經建立了技術(第一步),並承諾帶來變革(第三步)。但如何實現這一切,仍然是一個巨大的問號。就Pause AI而言,第二步必須涉及某種形式的監管。但具體會要求什麼以及由誰來執行,仍有待商榷。另一方面,AI的擁護者則堅信第三步是救贖,並傾向於忽略中間的環節。他們認為我們正搭乘「經濟轉型技術」的順風車,奔向光明前景,正如OpenAI首席科學家Jakub Pachocki幾週前告訴我的那樣。他們或多或少知道自己想去哪裡:那裡仍舊模糊不清,還有很長一段路要走。但每個人都選擇了不同的路徑。他們都能成功嗎?會有人成功嗎?對於每一個關於未來的宏大主張,總會有更為清醒的評估,來抑制炒作。以最近的兩項研究為例。其中一項來自Anthropic,預測了哪些類型的工作將受到大型語言模型(LLMs)影響最大。(結論是:經理、建築師和媒體工作者應為變革做好準備;而園丁、建築工人及餐旅業人員則受影響較小。)但這些預測實際上只是猜測,基於LLMs似乎擅長的任務類型,而非它們在職場中的實際表現。另一項由AI招聘新創公司Mercor的研究人員於二月發布的研究,測試了由OpenAI、Anthropic和Google DeepMind頂級模型驅動的多個AI代理,針對人類銀行家、顧問和律師經常執行的480項職場任務。他們測試的每個代理都未能完成大部分職責。為何存在如此大的分歧?原因有很多。首先,考慮誰在提出這些主張(以及為什麼)至關重要。Anthropic在其中有利益關係。此外,大多數告訴我們大事即將發生的人,其結論主要基於AI程式碼工具的快速發展。但並非所有任務都能透過程式碼解決。例如,其他研究發現LLMs不擅長做出策略性判斷。更重要的是,當這些工具被部署時,它們並非被置於無菌室中。它們需要在充滿人類和現有工作流程的環境中運作。有時,引入AI甚至會讓事情變得更糟。當然,或許這些工作流程需要被徹底改造,以新技術為核心重新建構,才能實現變革性的地位,但這將需要時間(和勇氣)。那麼那個大洞呢?它就在第二步應該存在的地方。對於即將發生什麼以及如何發生缺乏共識,造成了資訊真空,而這個真空則被每週最新的瘋狂主張所填補,證據則被拋諸腦後。我們對於即將到來的變化以及如何部署AI缺乏真實的理解,以至於一則社群媒體貼文就能(而且確實會)動搖市場。我們需要更少的猜測,更多的證據。但這將需要模型開發者的透明度、研究人員與企業之間的協調,以及新的評估方法,來告訴我們這項技術在現實世界中推廣時,究竟會發生什麼。科技產業(以及隨之而來的全球經濟)都寄望於AI確實能帶來變革的承諾。但這尚未是板上釘釘的事。下次當你聽到關於未來的豪言壯語時,請記住,大多數企業仍在摸索如何處理它們的「內褲」。