總部位於邁阿密的 AI 新創公司 Subquadratic 上個月結束了隱身模式,並提出了一項重大主張。該公司宣布已解決了困擾大型語言模型近十年的數學瓶頸。
最初細節不多,許多人對此持懷疑態度。但 Subquadratic 現已開始提供證據,分享了其新技術的獨立評估結果。這些結果表明,該公司的說法可能值得關注。
根據 Subquadratic 的說法,他們開發了一種新型的 LLM,稱為 SubQ,它比市場上任何其他模型都更快、更便宜,並且使用的能源少得多。該公司還聲稱,SubQ 能夠一次處理比大多數其他模型多達 12 倍的文本量,使其能夠執行一系列數據密集型任務,例如分析數百份文件或整個程式碼庫。
更重要的是,Subquadratic 表示,SubQ 在程式設計等關鍵任務上,其性能或多或少能與 Google DeepMind、OpenAI 和 Anthropic 推出的最佳模型相媲美。
問題在於,該公司最初除了少數自行發布的測試分數外,幾乎沒有提供任何證據來支持其主張。而且,SubQ 尚未廣泛開放供人們親自試用。
因此,Subquadratic 的說法遭到懷疑也就不足為奇了。人工智慧工程師 Dan McAteer 在 X 平台上總結了普遍的反應:「SubQ 要嘛是 Transformer 以來最大的突破……要嘛就是 AI 界的 Theranos。」
一個月後,該公司發布了更多關於其模型的資訊,包括由第三方公司 Appen 進行的額外獨立測試結果。Subquadratic 共同創辦人兼技術長 Alex Whedon 表示:「我們預料到會有健康的懷疑態度。」
他補充說:「事後看來,如果在最初發布時就同時公開第三方基準測試結果,就能避免大部分的質疑,這也是為什麼我們現在花時間確保未來所有結果都經過充分驗證後才發布。」Subquadratic 要求 Appen(一家評估其他公司模型的公司)對 SubQ 進行測試。結果似乎支持了 Subquadratic 的許多主張。
Appen 生成式 AI 研究總監 Jeanine Sinanan-Singh 表示:「這讓我非常興奮,它驗證了他們的架構。」她補充道:「我當時想,『哇,這可能會改變遊戲規則』,因為模型一直受困於速度和效率問題。但當你提出令人震驚的結果時,如果只是自己說出來,可信度確實不高。」
SubQ 不會全面取代現有的頂級模型,但對於某些任務,它能以典型成本的一小部分提供巨大的速度提升。然而,Subquadratic 堅稱,從長遠來看,他們的突破可能會改變大型語言模型的建構方式。
該公司的共同創辦人兼執行長 Justin Dangel 表示:「我們希望我們能開啟一個效率的新時代。我們認為幾年後,將不會有人再基於 Transformer 架構來建構模型。」
要理解 Subquadratic 的主張為何如此重要,讓我們深入探討大多數大型語言模型的工作原理。大型語言模型內部的關鍵機制是一種稱為 Transformer 的神經網路,它執行一種稱為「密集注意力」(dense attention)的過程。
今天的 LLM 通常會將多個 Transformer 串聯起來。(LLM 時代的基礎論文,由 Google 研究人員於 2017 年發表,標題為「Attention Is All You Need」。)
密集注意力運作方式如下:當 Transformer 處理一段文本時,它首先將每個單詞(或單詞的一部分,稱為 token)編碼為一個數字。為了捕捉整段文本的意義,它會將這些數字中的每一個都與該文本中的所有其他數字相乘。例如,一段長達 10,000 個單詞的文本將觸發近 5,000 萬次獨立乘法運算。這需要大量的計算,也是大型語言模型耗電量大的主要原因。
Dangel 說:「如果你想總結《大亨小傳》,你必須同時查看第一個字和最後一個字,然後你必須查看所有其他組合。」
隨著文本長度增加,計算量會急劇上升。這是因為每個新增的數字都必須與所有先前的數字相乘。單詞數量加倍,計算量大約會增加四倍,這種增長率稱為「二次方擴展」(quadratic expansion)。你可以自己想像一下:畫一個圓圈,並在邊緣標記點。
每個點都是一個 token。然後在點對之間畫線,代表這兩個 token 的乘法。一個有五個點的圓圈會有 10 條線穿過它。如果變成 10 個點,你會有 45 條線;20 個點,你會有 190 條線,依此類推。
Subquadratic 的解決方案是放棄 Transformer 的核心操作——密集注意力,轉而採用所謂的「稀疏注意力」(sparse attention),這大幅減少了所需的計算量。稀疏注意力不是將分配給每個 token 的數字與所有其他數字相乘,而是只選擇部分數字進行乘法運算。其理念是,文本中並非所有單詞之間的關係都重要。
Whedon 表示:「稀疏注意力認為並非所有這些關係都重要,因為事實確實如此。如果你在讀一本書,你不會去關注第一個字和第二個字、第一個字和第三個字——那太瘋狂了。」這是一種簡單的方法,Subquadratic 並非第一個嘗試的公司。曾任職於 OpenAI 的獨立 AI 研究員 Will Depue 表示:「幾乎所有能想到的方法都已嘗試過。這並非不可能,但就像跑四分鐘一英里一樣困難。」
先前的技術在選擇要乘法哪些數字和忽略哪些數字方面,未能產生一種能像密集注意力一樣良好捕捉文件意義的機制。Subquadratic 聲稱終於解決了這個問題。它將 SubQ 推廣為第一個在性能上能與主流密集注意力模型匹敵的稀疏注意力大型語言模型。
Whedon 說:「從歷史上看,大多數機制都使用固定模式,例如總是將第一個字與第五個字進行比較。這相當受限。語言的複雜性遠超於此。因此,我們機制獨特之處在於,我們會動態選擇哪些是重要的。」
該公司不願透露 SubQ 究竟如何選擇要關注的單詞,但這種選擇是即時計算的,並且對於模型接收的每段文本都不同。Whedon 說:「這就是我們的秘密武器所在。」
結果是,對於某些任務,SubQ 的運行速度可能比大多數其他模型更快、更便宜。Appen 對 SubQ 進行了幾項標準測試。在純粹的速度測試中(設定模型理論上運作速度的基準,而非評估模型實際能做什麼),Appen 發現 SubQ 比使用 FlashAttention(一種先前的稀疏注意力技術)的模型快 56 倍。
在 LiveCodeBench 上,這是一個評估模型在實際競賽編碼問題上表現的測試,SubQ 獲得了 89.7% 的分數,與其他頂級編碼模型不相上下。Appen 的 Sinanan-Singh 表示:「這個模型在編碼方面持續提供前沿的性能。」
Subquadratic 關於成本的主張較難驗證,因為 SubQ 尚未廣泛開放。根據 Dangel 的說法,運行 Anthropic 的 LLM Opus 4.6 通過 RULER 128(Nvidia 開發的測試,用於評估模型從大型數據集中檢索資訊的能力)需要 2600 美元。而 SubQ 呢?他說:「我們只花了八美元。」
SubQ 似乎確實能夠處理非常大的數據集。該模型具有長達 1200 萬個 token 的上下文視窗(大致類似於工作記憶)。目前大多數頂級模型的上下文視窗長度為 100 萬個 token。在 Whedon 為我進行的演示中,他要求 SubQ 執行一項需要它對 400 份文件中包含的資訊進行推理的任務。
它在幾秒鐘內就做出了回應。當他給 Perplexity(一個流行的大型語言模型驅動的搜尋引擎)相同的任務時,它未能載入所有 400 份文件。
Appen 還進行了「大海撈針」測試,評估模型從大量數據中檢索特定資訊的能力。Appen 在報告中指出,SubQ 在 600 萬和 1200 萬 token 的上下文視窗下,得分高達 98%,「在極少模型能測試的規模下,維持了近乎完美的長上下文檢索能力」。
儘管分數很高,但基準測試只能呈現模型能力的不完整圖景。在非常特定的條件下進行測試,不能替代在廣泛的實際任務中運行模型。Subquadratic 將 SubQ 定位為專為程式設計和搜尋超大型數據集而設計的模型。該公司表示,已有數萬名潛在用戶註冊了早期使用權,其中包括 500 多家企業客戶。但等候名單很長,該公司迄今只向極少數人開放了使用權。
Subquadratic 的回應是,它是一家新的小型公司,資源有限,無法同時服務太多人。在更多人親自使用並試用該模型之前,一些懷疑態度是合理的。一個令人困擾的問題是,Subquadratic 重複使用了中國開源模型 Qwen 某個版本的權重(在模型訓練期間設定的數值,決定其行為方式)來啟動 SubQ,而不是從頭開始訓練。
這對模型開發者來說是常見做法,但這與 Subquadratic 聲稱已完全革新大型語言模型運作方式的主張有所矛盾。Depue 表示:「他們可能確實打造出了一些真實且有用的東西。但公開證據尚未能證明他們已解決二次方注意力瓶頸的更強烈主張。」
與此同時,Subquadratic 共同創辦人 Whedon 堅稱,打造與眾不同的東西是他的唯一選擇。他說,如果你想建立一個有競爭力的模型,就必須有新的想法:「我們比 OpenAI 面臨更大的挑戰。」
