扣型神經網路 vs Transformer:哪種架構才是未來?
近幾年來深度學習架構的演進堪稱日新月異,從 CNN 的空間不變性、RNN 的序列建模,到 Transformer 的全局注意力機制,每一代架構都在特定任務上展現出強大的能力,同時也有其侷限。
目前 Transformer 在語言、視覺、多模態等任務上佔據主導地位,但其 O(n²) 的注意力計算複雜度在處理超長序列時成為瓶頸。為此,研究者提出了多種改良方案,包含 Flash Attention、Sparse Attention 及基於狀態空間模型(SSM)的 Mamba 架構。
Mamba 及其後繼者(如 Mamba-2)憑藉線性時間複雜度在長序列任務上展現出極具競爭力的表現,可能成為未來超長上下文任務的重要解法。業界普遍預期未來的主流架構可能是 Transformer 與 SSM 的混合體。


