從零開始理解 Transformer:圖解自注意力機制
自 2017 年 Google 在論文「Attention Is All You Need」中提出 Transformer 架構以來,這個模型已成為現代自然語言處理(NLP)及生成式 AI 的基石,支撐了 GPT、BERT、LLaMA 等幾乎所有主流大型語言模型。
理解 Transformer 的關鍵在於掌握「自注意力機制」(Self-Attention)。簡單而言,在處理一個句子時,自注意力讓模型能對序列中的每個詞同時與其他所有詞建立關聯,計算它們之間的相關程度(注意力權重),從而讓模型理解「代名詞指涉」、「遠距離依存關係」等語言結構。
多頭注意力(Multi-Head Attention)則是同時從多個視角(Head)執行注意力計算,讓模型能並行捕捉語法、語意、共指等不同維度的關係。這種並行設計是 Transformer 相較於 RNN/LSTM 在大規模訓練上展現出顯著優勢的核心原因。

