還記得之前那個(gè)提出了新的液體基礎模型(LFM,Liquid Foundation Model)的 Liquid AI 嗎?在被 AMD 投資數月后,這家來(lái)自美國麻省理工學(xué)院的初創(chuàng )公司又帶來(lái)新成果了。
4 月 25 日,Liquid AI 正式發(fā)布了面向邊緣設備的全新 AI 架構“Hyena Edge”。與目前主流的基于 Transformer 的模型架構不同,Hyena Edge 是一種基于卷積的多混合模型,專(zhuān)為智能手機等邊緣設備優(yōu)化設計。
“人工智能正迅速變得無(wú)處不在,從大規模云端部署到智能手機和筆記本電腦等資源受限的邊緣設備?!盠iquid AI 科學(xué)團隊成員 Armin Thomas、Stefano Massaroli 和 Michael Poli 在研究報告中表示,“盡管有令人印象深刻的進(jìn)步,大多數為邊緣部署優(yōu)化的小型模型,如 SmolLM2、Phi 模型和 Llama 3.2 1B,主要依賴(lài)于基于注意力運算符的 Transformer 架構?!?/p>
這些傳統架構雖然具有可并行計算和高效內核的特點(diǎn),但在邊緣設備上仍面臨效率瓶頸。而 Hyena Edge 作為一種 Liquid 架構,天生就在計算效率上具有優(yōu)勢,非常適用于邊緣部署。據 Liquid AI 宣稱(chēng),Hyena Edge 在真實(shí)硬件測試中,于計算效率和模型質(zhì)量?jì)煞矫婢宫F出超越 Transformer 基線(xiàn)的性能。
他們在三星 Galaxy S24 Ultra 上對 Hyena Edge 進(jìn)行了測試,結果顯示該模型在多個(gè)關(guān)鍵指標上均超越強大的基于 Transformer 的基準模型。
在效率方面,Hyena Edge 展示了更快的預填充(prefill)和解碼延遲。特別是對于超過(guò) 256 個(gè)標記的序列,解碼和預填充延遲最高可提高 30%。值得注意的是,其在短序列長(cháng)度下的預填充延遲也優(yōu)于 Transformer 基線(xiàn),這一點(diǎn)對響應式設備應用至關(guān)重要。在內存使用方面,Hyena Edge 在所有測試序列長(cháng)度下均使用更少的內存。
圖丨在三星 S24 Ultra 智能手機上收集的延遲和內存配置文件(來(lái)源:Liquid AI)
在模型質(zhì)量方面,Hyena Edge 在經(jīng)過(guò) 1000 億 tokens 的訓練后,在包括 Wikitext、Lambada、Hellaswag、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在內的各種常見(jiàn)語(yǔ)言建?;鶞蕼y試中表現出色。例如,在 Wikitext 上的困惑度(perplexity)從 17.3 降至 16.2,在 Lambada 上從 10.8 降至 9.4,在 PiQA 上的準確率從 71.1% 提升至 72.3%,在 Hellaswag 上從 49.3% 提升至 52.8%,在 Winogrande 上從 51.4% 提升至 54.8%。
“這些結果表明,模型的效率提升并不以預測質(zhì)量為代價(jià)——這是許多邊緣優(yōu)化架構常見(jiàn)的取舍?!毖芯繄F隊表示。
而 Hyena Edge 的核心技術(shù),正在于團隊此前提出的 STAR(Synthesis of Tailored Architectures)框架及其優(yōu)化技術(shù)。STAR 框架的核心思想是利用進(jìn)化算法(Evolutionary Algorithms)和線(xiàn)性輸入變化系統(LIVs,Linear Input-Varying Systems)的數學(xué)理論,來(lái)高效地探索廣闊的神經(jīng)網(wǎng)絡(luò )架構空間,并自動(dòng)合成出針對特定目標(如低延遲、小內存占用、高模型質(zhì)量、小參數量等,可多目標同時(shí)優(yōu)化)的“量身定制”的架構。
圖丨 STAR 框架說(shuō)明(來(lái)源:Liquid AI)
與傳統的依賴(lài)人工經(jīng)驗和直覺(jué)進(jìn)行模型設計,或在有限空間內進(jìn)行自動(dòng)化搜索的方法不同,STAR 提供了一個(gè)更全面的解決方案。LIV 理論是一個(gè)關(guān)鍵的理論基礎,它能夠統一地描述和泛化深度學(xué)習中常見(jiàn)的多種計算單元,包括各種注意力變體、線(xiàn)性循環(huán)網(wǎng)絡(luò )、卷積網(wǎng)絡(luò )以及其他結構化算子。STAR 基于 LIV 理論,構建了一個(gè)新穎的、分層的架構搜索空間。
在這個(gè)框架下,模型架構被編碼成一種“基因組(Genome)”。這種基因組包含了架構的多個(gè)層級信息,從底層的特征化(Featurization)方式、算子結構(Operator Structure,定義了 Token 和 Channel 的混合方式),到頂層的骨干網(wǎng)絡(luò )(Backbone,定義了 LIV 單元之間的連接和組合方式)。STAR 的基因組設計具有良好的層次化和模塊化特性。
隨后,STAR 運用進(jìn)化算法的原理,對這些架構基因組進(jìn)行迭代優(yōu)化。主要包括評估(根據預設目標衡量架構性能)、重組(組合優(yōu)秀父代架構的特征)和變異(引入隨機變化以探索新架構)等步驟。該框架支持多目標優(yōu)化,能夠同時(shí)考慮模型質(zhì)量、參數量、推理緩存大小、延遲等多個(gè)可能相互沖突的指標,以尋找在這些目標間達到較好平衡的架構方案。
根據其技術(shù)文檔,STAR 在優(yōu)化大型語(yǔ)言模型架構時(shí),無(wú)論是在純質(zhì)量?jì)?yōu)化、質(zhì)量與參數量聯(lián)合優(yōu)化,還是質(zhì)量與推理緩存大小聯(lián)合優(yōu)化方面,其生成的架構均能在各項指標上顯著(zhù)優(yōu)于高度優(yōu)化的 Transformer++ 和 StripedMamba 等基準模型。例如,在優(yōu)化質(zhì)量和參數量時(shí),7/8 的 STAR 進(jìn)化架構在下游任務(wù)基準上超越了 Transformer++ 和混合模型,同時(shí)參數量減少高達 13%。在優(yōu)化質(zhì)量和緩存大小時(shí),7/8 的 STAR 進(jìn)化架構實(shí)現了比混合模型小 37%、比 Transformer 小 90% 的緩存,同時(shí)質(zhì)量相當甚至更好。
在 Hyena Edge 的設計中,Liquid AI 團隊就應用了 STAR 框架。他們從一個(gè)包含 16 個(gè)候選架構的初始種群開(kāi)始,進(jìn)行了 24 代的進(jìn)化迭代。其搜索空間設計得非常豐富,包含了多種卷積算子的變體,這些變體主要受到 Hyena 架構的啟發(fā):
· Hyena(Full):在門(mén)控機制(Gating Mechanism)和 Hyena 內部卷積中都包含卷積操作。
· Hyena-X:排除了內部卷積。
· Hyena-Y:排除了特征組(門(mén))中的卷積。
除了這三種主要的 Hyena 類(lèi)型,搜索空間還考慮了它們學(xué)習到的短距離、顯式卷積核的長(cháng)度變化(從 3 到 128),總共構成了 18 種不同的卷積算子。此外,搜索空間還包括了分組查詢(xún)注意力的變體(具有不同的 KV 頭數量)和 SwiGLU(具有不同的內部寬度)等常見(jiàn)的 Transformer 組件。
在進(jìn)化過(guò)程中,STAR 框架通過(guò)對每個(gè)候選架構在三星 S24 Ultra 上的初始延遲和內存占用進(jìn)行性能分析,并結合模型在訓練過(guò)程中的困惑度表現,不斷地將架構種群向著(zhù)效率-質(zhì)量前沿(Efficiency-Quality Frontier)進(jìn)行優(yōu)化。
完整視頻鏈接:https://mp.weixin.qq.com/s/BMHlOghJgBjou_yJuuZjXg
有意思的是,隨著(zhù)進(jìn)化過(guò)程的推進(jìn),當架構接近效率-質(zhì)量最優(yōu)邊界時(shí),STAR 明顯地偏愛(ài)選用 Hyena-Y 類(lèi)型的卷積。這表明 Hyena-Y 卷積在延遲、內存和模型質(zhì)量之間取得了更優(yōu)越的平衡。
基于這一發(fā)現,最終的 Hyena Edge 架構在一個(gè) GQA-Transformer++ 基準模型的基礎上,將部分 GQA 算子替換為由 STAR 優(yōu)化選出的 Hyena-Y 門(mén)控卷積。
而最終結果如基準測試所表明的,Hyena Edge 在提升效率的同時(shí),保持了較高的模型質(zhì)量,這對于性能和資源都受限的邊緣設備應用而言是一個(gè)重要的特性。
Liquid AI 已表示計劃在未來(lái)數月內開(kāi)源包括 Hyena Edge 在內的一系列基礎模型,其目標是構建能夠適應從云端到邊緣多種環(huán)境的 AI 系統。除了模型本身,其所展現出的設計方法,或許更值得我們的期待。
參考資料:
1. https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices
2.https://arxiv.org/abs/2411.17800
來(lái)源:DeepTech深科技