作者:王姵文
邊緣運算解決雲端運算的擁擠及延遲,與 Cloud AI 相比,Edge AI 擁有低雲端成本、低延遲、保障個人隱私及增加資料安全性等優點,成為下一階段的發展重心,預計 AI 工作負荷將會分攤至雲端及邊緣裝置,混合式 AI 模式將會成為主流。
然而,想要在邊緣裝置上執行 LLM 模型推論,必須考慮到記憶體配置(memory footprint)、運算能力和記憶體頻寬。這也是目前在邊緣裝置上執行 LLM 模型推論面臨的最大挑戰。
NPU:專為 AI 推理任務設計處理器
為了解決記憶體的問題,現今不少硬體廠商在設計處理器時,除了 CPU、GPU外,開始新增能針對 AI 工作負載加速的硬體,例如聯發科稱作 APU 處理器(AI Processing Unit)或是英特爾稱為 NPU 處理器(Neuromorphic Processing Unit,第一款 NPU是英特爾推出的,代號為Meteor Lake)專門處理包含生成式 AI 模型的推論(Inference)任務。
NPU 是模仿生物神經網路,由許多Processing Elements (PEs)組成,計算結果不用每次計算完就輸回記憶體,而是按照網路的連接傳遞到下層繼續計算,因此其在功耗上有很大的提升; CPU、GPU 需要用數千條指令來完成,NPU 只要一條或幾條指令就能完成的任務,因此 NPU 相當適合用於推論任務。
英特爾處理器搭載NPU,背後依賴台積電先進製程
英特爾Arrow Lake處理器是英特爾第二代 Core Ultra 系列處理器代號,預計在 2024年下半年推出,將採自家 20A 製程,並且內建 NPU (神經處理單元),專門處理AI相關的工作負載。
根據外媒 Phoronix 的報導,英特爾已經在 Linux 系統中加入了 Arrow Lake 的 NPU 初始支援,並且公開其相關 PCI ID。這些 ID 是 英特爾 的 IPVU 驅動程式在 Linux 中的所需資訊,用來識別和控制Arrow Lake處理器的NPU。
Arrow Lake 的 NPU 和第一代 Core Ultra 系列 Meteor Lake 的 NPU 有很多相似之處,甚至使用了相同的驅動程式路徑,從而讓 Linux 中支援這兩款處理器的 NPU 變得更加容易。
英特爾執行長基辛格今年2月在美國聖荷西主持IFS Direct connect活動後接受媒體採訪,強調與台積電維持競合關係,讚譽台積電為偉大公司,但他強調,台灣位處地緣政治風險敏感區,追求晶片生產穩定及安全可靠,將是客戶所希冀。
基辛格也證實擴大下單予台積電,確定台積電今年手握英特爾Arrow、Lunar lake之CPU、GPU、NPU等三大晶片訂單,並以N3B製程生產,正式迎來外界期盼多年英特爾筆電平台之CPU訂單。據英特爾產品路線圖所示,Arrow lake將採用英特爾 20A、Lunar lake則為18A,並搭配PowerVia、RibbonFET之電晶體設計。
小結
半導體巨擘英特爾發展晶圓代工追趕台積電,兩雄之爭下,台積電總裁魏哲家於去年10月法說會時強調,台積電內部已確定自家N3P製程的PPA(Performance、Power及Area)約當競爭對手的18A製程,接下來的N2製程技術,推出時將會是業界最先進製程。