AI 新聞繁中

DeepSeek 的發布總是備受關注。上週，其 v4 版本正式亮相。 DeepSeek-V4 最引人注目的地方，並非它支援百萬 token 的上下文視窗。這個數字固然令人印象深刻，但單純的上下文長度並非衡量智慧的良好指標。一個模型即使能接受百萬個 token，仍可能無法有效利用它們。它可能在 KV 快取中「溺水」、提取錯誤的證據、失去對局部語法的追蹤、因壓縮記憶而產生幻覺，或者將整個提示詞變成模糊的統計雜燴。真正的問題不是：模型能「攝取」多少文本？真正的問題是：模型能「經濟地」利用多少歷史資訊？ DeepSeek-V4 正是這個問題的最佳解答。它不僅僅是另一個前沿模型發布，更像是一篇關於如何使長上下文推理變得實用的系統性論文。該模型圍繞著一個簡單卻深刻的前提設計：百萬 token 智慧不僅需要擴展 Transformer 架構，它還需要全新的記憶體層次結構、新的注意力機制、新的訓練穩定器、新的最佳化器選擇、新的量化方案，以及一個能在推論經濟效益下實際運作的服務堆疊。

DeepSeek-V4：百萬級上下文智慧的系統性突破