AI 新聞繁中

我最近在賓州大學教授一門實驗課程，挑戰學生在四天內從零開始創立一家新創公司。班上大多數學生都參與高階主管MBA課程，他們同時也是各大小公司的醫生、經理或領導者，其中很少有人具備程式編碼經驗。我向他們介紹了Claude Code和Google Antigravity，這些工具是他們建立工作原型所必需的。然而，僅有原型並不足以構成一家新創公司，因此他們還利用ChatGPT、Claude和Gemini來加速構想生成、市場研究、競爭定位、提案和財務模型等流程。我很好奇他們在如此短的時間內能達到什麼程度。結果證明，他們進展非常迅速。我教授創業課程已有十五年，看過數千個新創點子（其中一些後來發展成大公司），因此我對一群聰明的MBA學生能完成什麼有很好的預期。我估計，我在幾天內所看到的成果，比AI出現之前學生們花費一整個學期所達到的進度，要領先一個數量級。大多數原型不僅僅是範例畫面，實際上都具備核心功能。他們的構想比以往更加多元和有趣，市場和客戶分析也富有洞察力。這真的令人印象深刻。這些還不是完全運作的新創公司，也不是完全可操作的產品（有少數例外），但它們已經從傳統流程中節省了數月、大量的金錢和精力。還有另一點：大多數早期新創公司都需要轉向，隨著對市場需求和技術可行性的了解而改變方向。透過降低轉向的成本，探索各種可能性變得更加容易，而不會被鎖定，甚至可以同時探索多個新創公司：你只需要告訴AI你想要什麼。我真希望我能說這些令人印象深刻的成果是我卓越教學的結果，但我們對於如何使用所有這些工具還沒有一個很好的框架，學生們大多是自行摸索出來的。他們具備一些管理和領域專業知識有所幫助，因為成功的關鍵實際上是上一段的最後一點：告訴AI你想要什麼。隨著AI越來越能執行人類需要數小時才能完成的任務，並且評估這些結果也變得越來越耗時，擅長委派的價值也隨之增加。但你何時應該將任務委派給AI呢？我們其實有一個答案，但它有點複雜。考慮三個因素：首先，由於AI能力的不規則邊界，你無法可靠地知道AI在複雜任務上會擅長或不擅長什麼。其次，無論AI擅長與否，它絕對速度很快。它能在幾分鐘內完成人類需要數小時才能完成的工作。第三，它成本低廉（相對於專業薪資），而且你不介意生成多個版本並丟棄大部分。這三個因素意味著決定是否將任務委派給AI取決於三個變數： 1. **人類基準時間（Human Baseline Time）**：你自己完成任務所需的時間 2. **成功機率（Probability of Success）**：AI在給定嘗試中產生符合你標準的輸出的可能性 3. **AI處理時間（AI Process Time）**：你請求、等待和評估AI輸出所需的時間一個有用的心智模型是，你正在權衡「完成整個任務」（人類基準時間）與「支付開銷成本」（AI處理時間），可能需要多次，直到你得到可接受的結果。成功機率越高，你支付AI處理時間的次數就越少，將事情交給AI就越有用。例如，考慮一個你需要一小時才能完成的任務，但AI可以在幾分鐘內完成，儘管檢查答案需要三十分鐘。在這種情況下，你只有在成功機率非常高時才應該將工作交給AI，否則你將花費更多時間生成和檢查草稿，而不是自己完成。然而，如果人類基準時間是10小時，那麼與AI合作幾個小時可能就值得了，前提是AI能夠勝任這項工作。我們知道這個公式有效，因為去年夏天，OpenAI發布了關於AI與實際工作最重要的論文之一——GDPval。我之前已經討論過它，但關鍵在於它讓來自金融、醫學到政府等不同領域的經驗豐富的人類專家與最新的AI進行對抗，並由另一組專家擔任評審。專家平均需要七小時來完成工作，因此，在這種情況下，這就是人類基準時間。AI處理時間很有趣：AI完成任務只需幾分鐘，但專家實際檢查工作需要一小時，當然，提示詞的撰寫也需要時間。至於成功機率，當GDPval剛發布時，評審在大多數情況下都將勝利判給人類工作，但隨著GPT-5.2的發布，平衡發生了變化。GPT-5.2 Thinking和Pro模型平均有72%的時間與人類專家打平或超越。現在我們可以計算在一個七小時的任務中，你可以節省多少小時，假設成功機率為72%和一小時的評估時間。如果你嘗試每個任務都花時間提示AI，評估答案一小時，然後如果AI的答案不好就自己動手，平均可以節省3小時。AI失敗的任務會花費更長的時間（你浪費了提示和審查的時間！），但AI成功的任務會快得多。但我們可以利用管理技術，讓這個公式對我們更有利！我們可以做三件事來讓委派給AI更有價值，透過提高成功機率和降低AI處理時間。我們可以給予更好的指示，設定AI能以更高成功機率執行的明確目標。我們可以更擅長評估和回饋，這樣我們就不需要嘗試那麼多次就能讓AI做對事情。而且我們可以更容易地評估AI在某項任務上是好是壞，而無需花費那麼多時間。所有這些因素都透過領域專業知識得到改善——專家知道該給予什麼指示，他們能更好地發現問題，並且更擅長糾正問題。如果你不需要特定的東西，AI模型已經變得非常擅長自行解決問題。例如，我發現Claude Code能夠用一個提示詞生成一個完整的1980年代風格冒險遊戲：「創建一個完全原創的舊式Sierra風格冒險遊戲，具有EGA般的圖形。你應該使用你的圖像代理生成圖像並給我一個解析器。讓所有謎題都變得有趣且可解。完成遊戲（應該需要10-15分鐘才能玩完），不要問任何問題。讓它令人驚嘆和愉悅。」就這樣，AI完成了所有事情，包括藝術。透過最後兩個提示詞，它測試並部署了遊戲。你可以自己玩玩看：enchanted-lighthouse-game.netlify.app 這確實令人驚嘆，但這種驚嘆被放大了，因為我不需要任何特定的東西，只是一個AI可以自由即興創作的冒險遊戲。但實際工作和實際委派意味著你心中有一個特定的輸出，這就是事情變得棘手的地方。你如何將你的意圖傳達給AI，讓它執行你想要的，這樣它就可以運用「判斷力」來解決問題，同時仍然給你想要的輸出？這個問題早在AI出現之前就存在了，而且如此普遍，以至於每個領域都發明了自己的文件來解決它。軟體開發人員撰寫產品需求文件（Product Requirements Documents）。電影導演交出拍攝清單。建築師創建設計意圖文件。海軍陸戰隊使用五段式命令（情況、任務、執行、行政、指揮）。顧問透過詳細的交付物規格來界定專案範圍。所有這些文件作為這個代理式工作新世界的AI提示詞都非常有效（而且AI可以一次處理多頁的指示）。你可以使用這麼多格式來指示AI的原因是，所有這些本質上都是同一件事：試圖將一個人的想法轉化為另一個人的行動。當你審視好的委派文件實際包含的內容時，它驚人地一致：我們試圖完成什麼，為什麼？委派權限的限制在哪裡？「完成」是什麼樣子？我需要什麼具體的輸出？

管理力：駕馭AI的關鍵超能力