國際機器學(xué)習大會(huì )(International Conference on Machine Learning,簡(jiǎn)稱(chēng)ICML)是機器學(xué)習領(lǐng)域的頂級會(huì )議。7月21日至27日,ICML 2024在奧地利維也納正式召開(kāi)。自動(dòng)化所多篇研究論文被本屆會(huì )議錄用,部分論文當選Spotlight Paper(僅占總投稿量的3.5%)。本文將對相關(guān)成果進(jìn)行介紹,歡迎交流討論。
1.?具有O(L)訓練和O(1)推理復雜度的時(shí)間可逆脈沖神經(jīng)網(wǎng)絡(luò )
High-Performance Temporal Reversible Spiking Neural Networks with O(L) Training Memory and O(1) Inference Cost
論文作者:胡珈魁、姚滿(mǎn)、邱雪睿、侴雨宏、蔡宇軒、喬寧、田永鴻、徐波、李國齊
★?本研究入選Spotlight Paper
利用多時(shí)間步進(jìn)行仿真的脈沖神經(jīng)網(wǎng)絡(luò )(SNNs)訓練顯存高,且能耗高。當前的方法無(wú)法同時(shí)解決這一訓練和推理難題。該研究提出一種時(shí)間可逆架構,通過(guò)改變SNNs的前向傳播路徑,同時(shí)應對訓練和推理挑戰。該研究關(guān)閉大部分脈沖神經(jīng)元的時(shí)間動(dòng)態(tài),并對開(kāi)啟時(shí)間動(dòng)態(tài)的脈沖神經(jīng)元處設計多級時(shí)間可逆交互,從而實(shí)現O(L)的訓練需求。結合時(shí)間可逆特性,重新設計SNNs的輸入編碼和網(wǎng)絡(luò )組織結構,實(shí)現了O(1)推理能耗。實(shí)驗結果驗證了所提出的方法在不損失性能的前提下,能同時(shí)大幅度提升訓練效率和推理效率。
時(shí)間可逆脈沖神經(jīng)網(wǎng)絡(luò )
2.?魯棒的偏好強化學(xué)習算法
RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences
論文作者:程杰,熊剛,戴星源,繆青海,呂宜生,王飛躍
★?本研究入選Spotlight Paper
強化學(xué)習的成功通常需要選擇合適的獎勵函數,這一過(guò)程費時(shí)費力、且依賴(lài)于手工設計。而偏好強化學(xué)習(PbRL)方法利用人類(lèi)偏好來(lái)學(xué)習獎勵函數,從而規避了該過(guò)程。相較于其他領(lǐng)域而言,控制任務(wù)需要更高質(zhì)量的人類(lèi)反饋數據;同時(shí),現有算法過(guò)度追求反饋利用率,期望用更少的反饋數據來(lái)獲得更好的控制性能,這進(jìn)一步惡化了算法在面對噪聲數據時(shí)的性能。
為此,本文提出了RIME,一種對含有噪聲的偏好數據魯棒的PbRL算法,可從帶噪偏好中進(jìn)行有效的獎勵和策略學(xué)習。具體而言,基于干凈偏好數據的損失上界假設,理論分析了錯誤樣本的KL散度下界,并進(jìn)一步對RL訓練中的分布偏移情況進(jìn)行不確定性補償,從而動(dòng)態(tài)地過(guò)濾噪聲偏好數據。為了抵消因錯誤篩選而導致的累積誤差,本文通過(guò)熱啟動(dòng)獎勵模型,使其在預訓練階段擬合自驅獎勵。同時(shí),本文發(fā)現獎勵模型的熱啟動(dòng)還可以彌補 PbRL 從預訓練到在線(xiàn)訓練切換時(shí)產(chǎn)生的性能鴻溝。在機器人操作(Meta-World)和運動(dòng)(DMControl)任務(wù)上的實(shí)驗表明,RIME 顯著(zhù)增強了PbRL方法的魯棒性。
論文鏈接:
https://arxiv.org/abs/2402.17257
代碼鏈接:
https://github.com/CJReinforce/RIME_ICML2024
3.?HGCN2SP:基于層次化圖卷積網(wǎng)絡(luò )的兩階段隨機規劃
HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming
論文作者:吳洋,張一帆,梁振興,程健
兩階段隨機規劃(Two-Stage Stochastic Programming,2SP)是建模和求解不確定性下決策問(wèn)題的有效方法。在這種情況下,決策者需要在不確定未來(lái)環(huán)境的情況下,先做出第一階段的決策,然后根據實(shí)際發(fā)生的情況(場(chǎng)景)制定具體的第二階段決策,以最小化總成本或最大化總收益。然而,隨著(zhù)場(chǎng)景數量的增加,問(wèn)題規模迅速膨脹,導致求解時(shí)間顯著(zhù)增加。因此,如何高效求解成為了亟待解決的關(guān)鍵問(wèn)題。
我們提出了HGCN2SP模型,該模型利用層次化圖卷積網(wǎng)絡(luò )提取場(chǎng)景的表征,采用基于注意力機制的解碼器挑選代表性的場(chǎng)景,并結合強化學(xué)習(RL)優(yōu)化其選擇,實(shí)現了2SP問(wèn)題的高效求解。在設施選址問(wèn)題上的實(shí)驗表明,HGCN2SP能夠做出比現有方法更優(yōu)的決策。在網(wǎng)絡(luò )設計問(wèn)題的實(shí)驗中,HGCN2SP僅用不到一半的時(shí)間就取得了相近的決策效果。尤其在大規模實(shí)例和大量場(chǎng)景的情況下,HGCN2SP依然保持了強大的泛化能力。
4.?邁向高效脈沖Transformer:一種用于訓練和推理加速的令牌稀疏化框架
Towards Efficient Spiking Transformer: A Token Sparsification Framework for Training and Inference Acceleration
論文作者:諸葛正陽(yáng),王培松,姚星廷,程健
當前的脈沖Transformer在具有脈沖神經(jīng)網(wǎng)絡(luò )能效優(yōu)勢的同時(shí),還展現出了逼近人工神經(jīng)網(wǎng)絡(luò )的卓越性能。然而,雖然能通過(guò)神經(jīng)形態(tài)計算實(shí)現能耗高效的推理過(guò)程,但脈沖Transformer在GPU上的訓練過(guò)程相比于人工神經(jīng)網(wǎng)絡(luò )需要消耗更多時(shí)間。
為了解決該問(wèn)題,我們探索了針對高效脈沖Transformer的令牌稀疏化方案,并發(fā)現傳統稀疏化方法存在明顯的性能下降問(wèn)題。我們對此問(wèn)題進(jìn)行了分析并提出了基于時(shí)間步錨定令牌與雙對齊的稀疏化方法(STATA),使用更加標準化的準則在時(shí)間步維度上識別重要的令牌,并通過(guò)雙對齊機制促進(jìn)多個(gè)維度上較弱注意力圖的學(xué)習,進(jìn)一步保證了令牌稀疏化的準確性。實(shí)驗結果表明,STATA在脈沖Transformer的訓練和推理過(guò)程顯著(zhù)優(yōu)于傳統的稀疏化方法。它在保持了一定模型性能的基礎上,實(shí)現了約1.53倍的訓練提速和48%的推理能耗節省,同時(shí)它還在多種數據集和架構上具有較好的可遷移性。
5.?揭示極大卷積核網(wǎng)絡(luò )魯棒性的秘密
Revealing the Dark Secrets of Extremely Large Kernel ConvNets On Robustness
論文作者:陳宏昊,張育榮,豐效坤,初祥祥,黃凱奇
部署深度學(xué)習模型時(shí),魯棒性是一個(gè)需要考慮的重要方面。許多研究致力于研究視覺(jué)轉換器(ViTs)的魯棒性,因為自20世紀20年代初以來(lái),ViTs一直是視覺(jué)任務(wù)的主流骨干選擇。最近,一些大卷積核網(wǎng)絡(luò )以令人印象深刻的性能和效率卷土重來(lái)。然而,目前尚不清楚大卷積核網(wǎng)絡(luò )是否具有強魯棒性及影響其魯棒性的因素。
在本文中,我們首先在六個(gè)不同的魯棒性基準數據集上對大核卷積的魯棒性及其與典型的小核卷積和ViTs的差異進(jìn)行了全面評估。然后,為了分析其強大魯棒性背后的潛在因素,我們從定量和定性的角度設計了九組實(shí)驗,以揭示大核卷積網(wǎng)絡(luò )與傳統卷積網(wǎng)絡(luò )完全不同的有趣特性。我們的實(shí)驗首次證明,純卷積網(wǎng)絡(luò )可以實(shí)現與ViTs相當甚至優(yōu)于ViTs的優(yōu)異魯棒性。我們對遮擋不變性、核注意力模式和頻率特性的分析為魯棒性的來(lái)源提供了新的見(jiàn)解。
6.?Libra:基于解耦視覺(jué)系統的多模態(tài)大語(yǔ)言模型
Libra: Building Decoupled Vision System on Large Language Models
論文作者:許逸凡,楊小汕,宋亞光,徐常勝
本工作提出了一個(gè)基于解耦視覺(jué)系統的多模態(tài)大語(yǔ)言模型Libra。解耦視覺(jué)系統將視覺(jué)建模解耦成內部模態(tài)建模和跨模態(tài)交互兩部分,使得模型能夠在保留視覺(jué)獨有信息的同時(shí)進(jìn)行有效的跨模態(tài)理解。Libra對于視覺(jué)和語(yǔ)言模態(tài)采用了統一的自回歸建模。具體來(lái)說(shuō),本工作在已有大語(yǔ)言模型基礎上,嵌入了路由視覺(jué)專(zhuān)家,在模型的注意力計算過(guò)程中將視覺(jué)和語(yǔ)言流進(jìn)行路由,從而使得模型在模態(tài)內部建模和跨模態(tài)交互的計算情境下呈現出不同的注意力計算模式。實(shí)驗表明Libra的這種結構設計能夠在僅用5千萬(wàn)圖文對的訓練數據量下取得和現有多模態(tài)大模型相匹敵的性能。因此,本工作為未來(lái)多模態(tài)基礎模型提供了一個(gè)新的設計角度。
7.?基于快-慢測試時(shí)自適應的在線(xiàn)視覺(jué)-語(yǔ)言導航方法
Fast-Slow Test-time Adaptation for Online Vision-and-Language Navigation
論文作者:高君宇,姚暄,徐常勝
視覺(jué)-語(yǔ)言導航作為實(shí)現具身智能的關(guān)鍵研究方向,專(zhuān)注于探索智能體如何準確理解自然語(yǔ)言指令并導航至目標位置。在實(shí)際中,智能體通常需要以在線(xiàn)的方式執行視覺(jué)-語(yǔ)言導航任務(wù),即完成跨樣本的在線(xiàn)指令執行和單樣本內的多步動(dòng)作決策。由于僅依賴(lài)預訓練和固定的導航模型難以滿(mǎn)足多樣化的測試環(huán)境,這促使我們探索如何利用未標注的測試樣本來(lái)實(shí)現有效的在線(xiàn)模型適應。然而,過(guò)于頻繁的模型更新可能導致模型參數發(fā)生顯著(zhù)變化,而偶爾的更新又可能使模型難以適應動(dòng)態(tài)變化的環(huán)境。
為此,本文提出了一種新的快-慢測試時(shí)自適應方法(FSTTA),該方法在統一框架下對模型梯度和參數進(jìn)行聯(lián)合的分解與累積分析,以應對在線(xiàn)視覺(jué)語(yǔ)言導航任務(wù)的挑戰。通過(guò)大量實(shí)驗驗證,本文提出的方法在四個(gè)流行的基準測試中均取得了顯著(zhù)的性能提升。
模型的整體架構
論文鏈接:
https://icml.cc/virtual/2024/poster/33723
代碼鏈接:
https://github.com/Feliciaxyao/ICML2024-FSTTA?
8.?Transformer不同子層的差異化結構壓縮
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models
論文作者:李廣焱,唐永強,張文生
Transformer的結構化壓縮往往采用單一的壓縮方法,從而忽略了Transformer中不同子層之間的結構特性。為了解決該問(wèn)題,本文設計了一種新穎的結構化壓縮方法 LoRAP,它有機地結合了低秩矩陣近似和結構化剪枝。這項研究中得出了一個(gè)重要觀(guān)察:多頭自注意力(MHA)子層顯示出明顯的低秩結構,而前饋網(wǎng)絡(luò )(FFN)子層則沒(méi)有?;谶@一觀(guān)察,對于MHA子層,本文提出了一種輸入激活加權奇異值分解方法,并根據矩陣低秩屬性的差異分配不同的參數量。對于FFN子層,本文提出了一種梯度無(wú)關(guān)的結構化通道剪枝方法。在零樣本困惑度和零樣本任務(wù)分類(lèi)的廣泛評估中,本文的方法在多個(gè)壓縮比下均優(yōu)于之前的結構化壓縮方法。
論文鏈接:
https://arxiv.org/abs/2404.09695
9.?連點(diǎn)成線(xiàn):面向黑盒視覺(jué)語(yǔ)言模型的協(xié)作式微調
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
論文作者:王政博、梁堅、赫然、王子磊、譚鐵牛
隨著(zhù)預訓練視覺(jué)語(yǔ)言模型的不斷發(fā)展,它的通用性和泛化性得到廣泛認可,人們投入了大量精力對其進(jìn)行微調以適應下游任務(wù)。盡管如此,這些方法通常需要訪(fǎng)問(wèn)模型的結構和參數,這可能會(huì )侵犯模型所有者的權益。因此,為了保護其模型所有權,模型擁有者往往選擇將其模型以黑盒形式提供,這給模型微調帶來(lái)了挑戰。
本文提出了一種名為協(xié)作式微調(CraFT)的新方法,用于在黑盒條件下微調視覺(jué)語(yǔ)言模型以適應各種下游任務(wù)。該方法僅依賴(lài)于模型的輸入提示和輸出預測結果。CraFT設計兩個(gè)關(guān)鍵模塊:一個(gè)提示生成模塊,用于自動(dòng)學(xué)習最有效的文本提示;一個(gè)預測優(yōu)化模塊,通過(guò)增強殘差來(lái)優(yōu)化輸出預測。此外,我們引入了一種輔助的預測一致性損失,以促進(jìn)這些模塊之間的一致優(yōu)化。所有這些模塊通過(guò)一種新穎的協(xié)作訓練算法進(jìn)行優(yōu)化。
通過(guò)大量的實(shí)驗驗證,無(wú)需模型的結構、參數及梯度,CraFT能夠在保持微調效率的前提下大幅提升黑盒模型在下游任務(wù)的性能。
論文鏈接:
https://arxiv.org/abs/2402.04050
代碼鏈接:
https://github.com/mrflogs/CraFT
10.?詞元級別直接偏好優(yōu)化
Token-level Direct Preference Optimization
論文作者:曾勇程,劉國慶,馬緯彧,楊寧,張海峰,汪軍
在人工智能領(lǐng)域的發(fā)展過(guò)程中,對大語(yǔ)言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務(wù)于人類(lèi)社會(huì )。直接偏好優(yōu)化方法(DPO)通過(guò)數學(xué)推理得到獎勵函數與最優(yōu)策略之間的直接映射,消除了獎勵模型的訓練過(guò)程,直接在偏好數據上優(yōu)化策略模型,實(shí)現了從「反饋到策略」的直觀(guān)飛躍。然而,DPO主要關(guān)注在逆KL散度約束下的策略?xún)?yōu)化。由于逆KL散度的mode-seeking特性,DPO在提升對齊性能方面表現出色,但是這一特性也傾向于在生成過(guò)程中減少多樣性,可能限制模型的能力。另一方面,盡管DPO從句子級的角度控制KL散度,模型的生成過(guò)程本質(zhì)上是逐個(gè)token進(jìn)行的。從句子級控制KL散度直觀(guān)上表明DPO在細粒度控制上存在限制,對KL散度的調節能力較弱,可能是DPO訓練過(guò)程中LLM的生成多樣性迅速下降的關(guān)鍵因素之一。
為了應對模型生成多樣性顯著(zhù)下降的問(wèn)題,我們的方法TDPO從token-level的角度重新定義了整個(gè)對齊流程的目標函數,并通過(guò)將Bradley-Terry模型轉換為優(yōu)勢函數的形式,使得整個(gè)對齊流程能最終從 Token-level層面進(jìn)行分析和優(yōu)化。相比于 DPO而言,TDPO的主要貢獻如下:
●?Token-level的建模方式:TDPO從Token-level的角度對問(wèn)題進(jìn)行了建模,對RLHF進(jìn)行了更精細的分析;
●?細粒度KL散度約束:在每個(gè)token處從理論上引入了前向 KL散度約束,使方法能夠更好地約束模型優(yōu)化;
●?性能優(yōu)勢明顯:相比于DPO而言,TDPO能夠實(shí)現更好的對齊性能和生成多樣性的帕累托前沿。
圖 1:DPO和TDPO損失函數對比
圖 2:IMDb數據集上的實(shí)驗。圖3(a)表示相對于參考模型的預期回報和KL散度的帕累托前沿。我們針對參數α實(shí)施了DPO、TDPO1以及TDPO2的不同版本。就帕累托前沿而言,TDPO1和TDPO2均優(yōu)于DPO,其中TDPO2相對于TDPO1進(jìn)一步提高了性能。這證明了我們的分析和修改的有效性。圖3(b)和圖3(c)分別展示了在訓練步驟中,偏好和不偏好響應子集的序列KL散度的演變情況。圖3(d)展示了在整個(gè)訓練過(guò)程中,不偏好響應子集的序列KL散度與偏好響應子集的序列KL散度之間的差異。與TDPO1和DPO算法相比,TDPO2在KL散度的調節方面表現出了優(yōu)越性。
論文地址:
https://arxiv.org/abs/2404.11999
代碼地址:
https://github.com/Vance0124/Token-level-Direct-Preference-Optimization
11.?基于擾動(dòng)過(guò)程一致性的隨機微分方程的策略梯度穩定算法
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process
論文作者:周相鑫,王亮,周釔馳
為了生成具有目標性質(zhì)的樣本,本研究專(zhuān)注于優(yōu)化參數化的隨機微分方程(SDEs)的深度神經(jīng)網(wǎng)絡(luò )生成模型,這是具有高表達性的先進(jìn)生成模型。策略梯度是強化學(xué)習中的領(lǐng)先算法。然而,當將策略梯度應用于SDEs時(shí),由于策略梯度是基于有限的軌跡集估計的,它可能是不明確的,并且在數據稀疏區域的策略行為可能是不受控制的。這一挑戰妨礙了策略梯度的穩定性,并對樣本復雜性產(chǎn)生了負面影響。
為了解決這些問(wèn)題,本研究提出將SDE約束為與其相關(guān)的擾動(dòng)過(guò)程一致。由于擾動(dòng)過(guò)程覆蓋了整個(gè)空間并且易于采樣,本研究可以緩解上述問(wèn)題。研究框架提供了一種通用方法,允許靈活選擇策略梯度方法,以有效且高效地訓練SDEs。本研究在基于結構的藥物設計任務(wù)上評估了算法,并優(yōu)化了生成的配體分子的結合親和力。本研究提出的方法在CrossDocked2020數據集上實(shí)現了最佳Vina得分。
論文鏈接:
https://arxiv.org/abs/2403.04154
12.?多智能體系統中的序列異步動(dòng)作協(xié)調:斯塔克爾伯格決策Transformer方法
Sequential Asynchronous Action Coordination in Multi-Agent Systems: A Stackelberg Decision Transformer Approach
論文作者:張斌,毛航宇,李麗娟,徐志偉,李大鵬,趙瑞,范國梁
在多智能體系統中,智能體不僅需要最大化自身獎勵,還需與其他智能體動(dòng)態(tài)協(xié)調,以實(shí)現最佳聯(lián)合策略?,F有的MARL方法大多假設智能體之間的同步動(dòng)作,限制了其在復雜場(chǎng)景中的應用。
這篇文章探討了多智能體系統中的異步動(dòng)作協(xié)調問(wèn)題。作者提出了一種新的方法—Stackelberg Decision Transformer(STEER),旨在通過(guò)結合斯塔克爾伯格博弈的層次決策結構和自回歸序列模型的建模能力,來(lái)提高多智能體強化學(xué)習方法的可擴展性。STEER引入了雙Transformer架構,其中內部Transformer塊能夠實(shí)現博弈抽象,有效處理不同環(huán)境下的狀態(tài)配置,外部Transformer塊則促進(jìn)了每個(gè)智能體策略函數和價(jià)值函數的自回歸擬合。這種架構還能夠并行更新所有智能體的策略,大幅降低了之前基于斯塔克爾伯格博弈博弈的強化學(xué)習方法的計算成本。此外,文章還提出了知識蒸餾方案來(lái)實(shí)現其在分散式執行系統中的部署。
13.?SpikeLM:通過(guò)松弛雙向脈沖機制實(shí)現脈沖驅動(dòng)的通用語(yǔ)言建模
SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
論文作者:邢興潤,張正,倪子懿,肖詩(shī)濤,鞠一鳴,樊思琪,王業(yè)全,張家俊,李國齊
文章的目標是開(kāi)發(fā)一種類(lèi)腦的低功耗人工智能語(yǔ)言模型,即生物啟發(fā)的脈沖神經(jīng)網(wǎng)絡(luò )(SNNs)。與傳統的人工神經(jīng)網(wǎng)絡(luò )(ANNs)相比,SNNs具有生物神經(jīng)細胞可解釋性、事件驅動(dòng)的稀疏性和二值激活的優(yōu)勢。近期,大規模語(yǔ)言模型展現出了讓人印象深刻的泛化能力,這激發(fā)了探索更通用的脈沖驅動(dòng)模型的動(dòng)機。然而,現有SNN中的二值脈沖無(wú)法編碼足夠的語(yǔ)義信息,這給泛化帶來(lái)了技術(shù)挑戰。
本文提出了一種全新的全脈沖機制,用于通用語(yǔ)言任務(wù),包括判別性和生成性任務(wù)。與以往的{0,1}脈沖不同,我們提出了一種更通用的脈沖形式,具有雙向、松弛的幅度和頻率編碼,同時(shí)保持了SNN的加性特性。在單時(shí)間步中,脈沖通過(guò)方向和幅度信息得到增強;在脈沖頻率上,我們設計了一種控制脈沖發(fā)射率的策略。我們將這種松弛的雙向脈沖機制應用于語(yǔ)言建模,命名為SpikeLM。這是第一次使用全脈沖驅動(dòng)模型處理通用語(yǔ)言任務(wù),其準確性大幅超越了以往方法。SpikeLM還大大縮小了SNN和ANN在語(yǔ)言建模中的性能差距。
代碼鏈接:
https://github.com/XingrunXing/SpikeLM
來(lái)源:中國科學(xué)院自動(dòng)化研究所