國際智能體和多智能體系統會(huì )議(International Conference on Autonomous Agents and Multi-agent Systems,AAMAS),是智能體和多智能體系統領(lǐng)域最大和最有影響力的國際學(xué)術(shù)會(huì )議之一。智能體研究作為人工智能領(lǐng)域的重要分支,具有巨大的革新潛力與應用前景,其發(fā)展對于理解人類(lèi)智能本質(zhì),推動(dòng)人工智能技術(shù)發(fā)展,解決社會(huì )問(wèn)題具有重要價(jià)值。第23屆AAMAS于5月6日至10日在新西蘭召開(kāi)。自動(dòng)化所多篇研究論文被本屆AAMAS錄用,并參與組織了兩項智能體賽事。
一、研究論文
1.面向連續控制的一致性策略
Boosting Continuous Control with Consistency Policy
論文作者:陳宇輝,李浩然,趙冬斌
深度強化學(xué)習團隊提出了一種新的基于一致性模型(Consistency Model)的強化學(xué)習策略表征方法——Consistency Policy with Q-Learning (CPQL)。該方法使用單步逆擴散過(guò)程從高斯噪聲中生成動(dòng)作用于智能體決策。通過(guò)建立從逆擴散軌跡到期望策略的映射,解決了使用值函數更新基于擴散模型策略時(shí)的時(shí)間效率低下和非精確引導問(wèn)題。通過(guò)理論證明了該方法可以實(shí)現對離線(xiàn)強化學(xué)習策略?xún)?yōu)化的精確引導,并且可以輕松擴展到在線(xiàn)強化學(xué)習任務(wù)。實(shí)驗結果表明,CPQL在11個(gè)離線(xiàn)任務(wù)和21個(gè)在線(xiàn)任務(wù)上實(shí)現了新SOTA性能。同時(shí)與基于擴散模型的方法相比,推理速度提高了近45倍。
CPQL正向擴散過(guò)程和逆向引導擴散過(guò)程: 給定一個(gè)從動(dòng)作逐漸加噪聲的 ODE軌跡,一致性策略學(xué)習軌跡上的任意點(diǎn)到最優(yōu)動(dòng)作的映射。由于一致性策略單步迭代生成動(dòng)作,因此大大加速策略訓練和推理的時(shí)間。
論文鏈接:https://arxiv.org/abs/2310.06343
代碼開(kāi)源:https://github.com/cccedric/cpql
2. 基于反事實(shí)信譽(yù)分配的協(xié)作多智能體強化學(xué)習算法
Aligning Credit for Multi-Agent Cooperation via Model-based Counterfactual Imagination
論文作者:柴嘉駿、傅宇千、趙冬斌、朱圓恒
現有基于模型的多智能體強化學(xué)習方法仍采用為單智能體環(huán)境設計的訓練框架,導致現有算法對多智能體協(xié)作的促進(jìn)不足。該研究提出了一種新穎的基于模型的多智能體強化學(xué)習方法,稱(chēng)為多智能體反事實(shí)Dreamer(MACD)。其引入了一種集中式想象與分布式執行框架,用于生成更高質(zhì)量的想象數據以進(jìn)行策略學(xué)習,從而進(jìn)一步提高算法的樣本效率,并通過(guò)生成額外的反事實(shí)軌跡評估單一智能體對整體的貢獻,進(jìn)而解決信譽(yù)分配和非平穩問(wèn)題。研究中提供了對應的理論推導,表明該反事實(shí)策略更新規則能夠提升多智能體協(xié)作學(xué)習目標。實(shí)驗結果驗證了該研究在樣本效率、訓練穩定性和最終合作性能方面相較于幾種最先進(jìn)的無(wú)模型和有模型的多智能體強化學(xué)習算法的優(yōu)越性。消融研究和可視化演示進(jìn)一步強調了該訓練框架以及其反事實(shí)模塊的重要性。
MA-RSSM框架。(a) MACD與已有算法框架的對比。(b) 集中式想象世界模型。智能體將在該模型中建模整個(gè)系統的狀態(tài)轉移過(guò)程。(c) 想象空間內進(jìn)行的集中式預測。通信模塊聚合來(lái)自所有智能體的輸入信息,并生成智能體i的通信特征。
3.多智能體強化學(xué)習中的智能體策略距離度量
Measuring Policy Distance for Multi-Agent Reinforcement Learning
論文作者:扈天翼、蒲志強;艾曉琳;丘騰海;易建強
策略多樣性對于提升多智能體強化學(xué)習的效果起著(zhù)至關(guān)重要的作用。盡管現在已經(jīng)有許多基于策略多樣性的多體強化學(xué)習算法,但是目前尚缺乏一個(gè)通用的方法來(lái)量化智能體之間的策略差異。測量策略差異性不僅能夠方便評估多智能體系統在訓練中的多樣性演化,還有助于為基于策略多樣性的算法設計提供指導。為此,我們提出了MAPD,一個(gè)通用的多智能體策略距離度量方法。不同于直接量化形式各異的動(dòng)作分布間的距離,該方法通過(guò)學(xué)習智能體決策的條件表征來(lái)間接量化智能體的策略距離。我們還開(kāi)發(fā)了MAPD的擴展版本CMAPD,其能夠量化智能體策略在特定傾向上的差異,如兩個(gè)智能體在攻擊傾向和防御傾向上的策略差異?;贛APD和CMAPD的在線(xiàn)部署,我們設計了一套多智能體動(dòng)態(tài)參數共享算法MADPS。實(shí)驗表明我們的方法在測量智能體策略差異和特定行為傾向上的差異是有效的。而且,與其他參數共享方法相比,MADPS展示了更優(yōu)越的性能。
學(xué)習智能體決策的條件表征
論文鏈接:https://arxiv.org/pdf/2401.11257
代碼鏈接:https://github.com/Harry67Hu/MADPS
4.TaxAI: 動(dòng)態(tài)經(jīng)濟仿真器和多智能體強化學(xué)習算法基準
TaxAI: A Dynamic Economic Simulator and Benchmark for Multi-Agent Reinforcement Learning
論文作者:米祈睿,夏思宇,宋研,張海峰,朱勝豪,汪軍
稅收是政府促進(jìn)經(jīng)濟增長(cháng)和保障社會(huì )公正的關(guān)鍵手段。但是,準確預測多樣的自利家庭的動(dòng)態(tài)策略是非常困難的,這對政府制定有效的稅收政策構成了挑戰。多智能體強化學(xué)習(MARL),憑借其在模擬部分可觀(guān)測環(huán)境中的其他智能體、以及適應性學(xué)習求解最優(yōu)策略的能力,非常適合去解決政府與眾多家庭間的動(dòng)態(tài)博弈問(wèn)題。盡管MARL展現出比遺傳算法和動(dòng)態(tài)規劃等傳統方法更大的潛力,但目前仍缺乏大規模的多智能體強化學(xué)習經(jīng)濟模擬器。因此,我們基于Bewley-Aiyagari經(jīng)濟模型,提出了一個(gè)名為 TaxAI 的MARL環(huán)境,用于模擬包括眾多家庭、政府、企業(yè)和金融中介在內的動(dòng)態(tài)博弈。我們的研究在TaxAI上對2種傳統經(jīng)濟方法與7種MARL方法進(jìn)行了對比,證明了MARL算法的有效性和優(yōu)越性。更重要的是,TaxAI在模擬政府與高達10,000戶(hù)家庭之間的動(dòng)態(tài)互動(dòng)及其與真實(shí)數據的校準能力上,都大幅提升了模擬的規模和現實(shí)性,使其成為目前最為逼真的經(jīng)濟模擬器。
圖1. Bewley-Aiyagari模型動(dòng)力學(xué)
圖2. 政府與家庭智能體之間的部分可觀(guān)測馬爾科夫博弈
論文鏈接:https://arxiv.org/abs/2309.16307
代碼鏈接:https://github.com/jidiai/TaxAI
5.谷歌足球環(huán)境中的多智能體強化學(xué)習研究:回顧、現狀和展望
Boosting Studies of Multi-Agent Reinforcement Learning on Google Research Football Environment: the Past, Present, and Future
論文作者:宋研,江河,張海峰,田政,張偉楠,汪軍
盡管Google Research Football(GRF)在其原始論文中最初是作為單智能體環(huán)境進(jìn)行基準測試和研究,但近年來(lái),越來(lái)越多的研究人員開(kāi)始關(guān)注其多智能體性質(zhì),將其作為多智能體強化學(xué)習(MARL)的測試平臺,尤其是在合作場(chǎng)景中。然而,由于缺乏標準化的環(huán)境設置和統一的多智能體場(chǎng)景評估指標,各研究之間難以形成一致的理解。此外,由于5對5和11對11的全局游戲場(chǎng)景的訓練復雜度極高,相關(guān)深入研究有限。為了彌補這些不足,本文不僅通過(guò)標準化環(huán)境設置在不同場(chǎng)景(包括最具挑戰性的全局游戲場(chǎng)景)中進(jìn)行合作學(xué)習算法的基準測試,還從多個(gè)角度討論了增強足球人工智能的方法,并介紹了不局限于多智能體合作學(xué)習的相關(guān)研究工具。具體來(lái)說(shuō),我們提供了一個(gè)分布式和異步的基于種群的自我對抗博弈框架,該框架包含多樣化的預訓練策略,以實(shí)現更高效的訓練;我們還提供了兩個(gè)足球分析工具,以進(jìn)行更深入的研究;此外,我們還提供了一個(gè)在線(xiàn)排行榜,以進(jìn)行更廣泛的評估。這項工作旨在推進(jìn)在谷歌足球環(huán)境上的相關(guān)多智能體強化學(xué)習的研究,最終目標是將這些技術(shù)部署到現實(shí)世界的應用中,如體育分析等。
圖1. 在六個(gè)Academy足球場(chǎng)景中不同多智能體強化學(xué)習算法的效果對比
圖2. 分布式異構種群自博弈訓練框架示意圖
論文鏈接:https://arxiv.org/abs/2309.12951
6.針對自然語(yǔ)言約束的基于預訓練語(yǔ)言模型的安全強化學(xué)習算法
Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
論文作者:婁行舟,張俊格,王梓巖,黃凱奇,杜雅麗
針對基于自然語(yǔ)言約束的安全強化學(xué)習中,現有方法對復雜形式自然語(yǔ)言約束表征能力、處理能力不足,并且將自然語(yǔ)言約束轉化為智能體可學(xué)習的代價(jià)函數需要大量的特定領(lǐng)域知識的問(wèn)題,我們提出使用預訓練語(yǔ)言模型對自然語(yǔ)言約束進(jìn)行處理,幫助智能體進(jìn)行理解,并且完成代價(jià)函數預測,實(shí)現了在無(wú)需真實(shí)代價(jià)函數的前提下,讓智能體能夠學(xué)會(huì )遵守自由形式的復雜人類(lèi)自然語(yǔ)言給出的約束條件。我們提出的算法在性能上可以達到與使用真實(shí)代價(jià)函數的方法相近的性能。并且在代價(jià)函數預測上,相比直接提示GPT-4來(lái)進(jìn)行預測,我們所提出方法的預測結果的F1-score實(shí)現了23.9%的提升。
所提出方法對自然語(yǔ)言約束進(jìn)行處理,使得處理后的約束可用于預測代價(jià)函數和約束智能體的策略
論文鏈接:https://arxiv.org/abs/2401.07553
7. PDiT:用于深度強化學(xué)習的感知與決策交錯Transformer
PDiT: Interleaving Perception and Decision-making Transformers for Deep Reinforcement Learning
論文作者:毛航宇,趙瑞,黎子玥,徐志偉,陳皓,陳逸群,張斌,肖臻,張俊格,尹江津
設計更好的深度網(wǎng)絡(luò )和更優(yōu)的強化學(xué)習(RL)算法對深度強化學(xué)習都非常重要。本工作研究的是前者。具體來(lái)說(shuō),提出了感知與決策交錯Transformer(PDiT)網(wǎng)絡(luò ),該網(wǎng)絡(luò )以非常自然的方式串聯(lián)了兩個(gè)Transformer:感知Transformer專(zhuān)注于通過(guò)處理觀(guān)測的局部信息來(lái)進(jìn)行環(huán)境感知,而決策Transformer則關(guān)注于決策制定,它依據期望回報的歷史、感知器的輸出和行動(dòng)來(lái)進(jìn)行條件處理。這樣的網(wǎng)絡(luò )設計通常適用于許多深度RL設置,例如,在具有圖像觀(guān)測、本體感知觀(guān)測或混合圖像-語(yǔ)言觀(guān)測的環(huán)境下的在線(xiàn)和離線(xiàn)RL算法。廣泛的實(shí)驗表明,PDiT不僅能在不同設置下比強基準實(shí)現更優(yōu)的性能,還能提取可解釋的特征表示。
所提出的完整PDiT架構,堆疊了L個(gè)PDiT塊(即灰色矩形)。在每個(gè)PDiT塊中,有一個(gè)感知塊和一個(gè)決策塊,它們與Vanilla-PDiT的相應塊完全相同。需要注意的是,同一層的感知塊在不同時(shí)間步之間共享模型參數。
論文鏈接:https://arxiv.org/abs/2312.15863
代碼鏈接:https://github.com/maohangyu/PDiT
8. 從顯式通信到默契合作:一種新的合作多智能體強化學(xué)習范式
From Explicit Communication to Tacit Cooperation: A Novel Paradigm for Cooperative MARL
論文作者:李大鵬、徐志偉、張斌、周光翀、張澤仁、范國梁
集中式訓練-分散式執行作為一種被廣泛使用的學(xué)習范式,近年來(lái)在復雜合作任務(wù)中取得了顯著(zhù)成功。然而,該范式的有效性在部分可觀(guān)察性問(wèn)題中會(huì )存在一定的限制。盡管通信可以緩解這一挑戰,但同時(shí)引入的通信成本也降低了算法的實(shí)用性。本文從人類(lèi)團隊合作學(xué)習中汲取靈感,提出了一種新的學(xué)習范式并稱(chēng)為T(mén)ACO,TACO促進(jìn)了算法從完全的顯式通信到無(wú)通信的默契合作的轉變。在初始訓練階段,TACO通過(guò)在智能體間進(jìn)行顯式通信來(lái)促進(jìn)合作,同時(shí)以自監督的方式使用每個(gè)智能體的局部軌跡來(lái)對通信信息進(jìn)行重建。在整個(gè)訓練過(guò)程中,TACO不斷減少顯式通信信息的比值,從而逐漸轉移到無(wú)溝通的完全分散式執行。在多個(gè)不同場(chǎng)景下的實(shí)驗結果表明,TACO在不使用通信的表現可以接近甚至超過(guò)經(jīng)典值分解方法和基于通信的方法。
圖1. 人類(lèi)團隊合作過(guò)程中的演變過(guò)程
圖2. TACO算法的整體框架
9. ELA:用于零和博弈離線(xiàn)學(xué)習的受剝削等級增強方法
ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games
論文作者:雷世騏、李康勛、李林靜、樸振奎、李家琛
離線(xiàn)學(xué)習算法通常都會(huì )受到低質(zhì)量演示者的負面影響,而在博弈場(chǎng)景中,還需要對各個(gè)軌跡所對應策略的優(yōu)劣做出估計,并剔除其中較差策略產(chǎn)生的軌跡。本文設計了一種部分條件可訓練變分循環(huán)神經(jīng)網(wǎng)絡(luò )(P-VRNN),采用無(wú)監督的方式來(lái)學(xué)習軌跡所對應策略的表示,通過(guò)結合已有軌跡可預測下一步動(dòng)作。同時(shí),本文定義了軌跡的受剝削等級(Exploited Level,EL),用以近似經(jīng)典的可利用度。根據軌跡對應的策略表示,并利用其最終收益可以對EL做出估計。本文將EL作為軌跡篩選器,用以增強現有的離線(xiàn)學(xué)習算法。在Pong和有限注德州撲克中的測試表明,BC、BCQ和CQL三種代表性離線(xiàn)學(xué)習算法在通過(guò)ELA增強后,均可以擊敗原有算法生成的策略。
圖1. ELA算法整體結構
圖2.在Pong游戲中軌跡對應的策略表示及估計出的受剝削等級
論文鏈接:https://arxiv.org/pdf/2402.18617v1
二、游戲競賽
1.非完全信息棋牌游戲競賽
AAMAS 2024 Imperfect-information Card Games Competition
競賽設計者:張海峰,宋研, 閆雪,邵坤
為促進(jìn)不完美信息游戲中AI技術(shù)的發(fā)展,自動(dòng)化所團隊舉辦第二屆不完美信息卡牌游戲競賽。此次競賽將涵蓋多智能體領(lǐng)域的各種挑戰,探索諸如對手建模和AI智能體泛化能力等領(lǐng)域。參與者通過(guò)及第平臺參與競賽,平臺將對提交AI智能體的進(jìn)行在線(xiàn)評估,為舉辦大規模在線(xiàn)比賽做準備。
AAMAS 2024 非完全信息棋牌游戲競賽共有三個(gè)賽道,如圖所示分別為四人德州撲克(左)、橋牌(中)以及麻將(右)。
【競賽網(wǎng)頁(yè)】
四人無(wú)限注德州撲克賽道:
http://www.jidiai.cn/compete_detail?compete=48
橋牌賽道:
http://www.jidiai.cn/compete_detail?compete=49
麻將賽道:
http://www.jidiai.cn/compete_detail?compete=50
2.計算經(jīng)濟學(xué)競賽
AAMAS 2024 Computational Economics Competition
競賽設計者:張海峰,米祈睿,宋研
為鼓勵人工智能在解決復雜經(jīng)濟問(wèn)題方面的發(fā)展,自動(dòng)化所團隊舉辦第二屆計算經(jīng)濟學(xué)競賽。該競賽將包括兩個(gè)賽道:政府方面的最優(yōu)稅收解決方案和家庭方面的最優(yōu)儲蓄和勞動(dòng)策略。競賽情景具有高度多主體屬性和學(xué)術(shù)研究?jì)r(jià)值,與 AAMAS 2024 的目標受眾和競賽要求高度契合。參與者將通過(guò)及第平臺參與競賽,該平臺配備了大規模在線(xiàn)事件所需的設施,并提供 AI 智能體的實(shí)時(shí)評估。
圖1. TaxAI仿真器的經(jīng)濟活動(dòng)
圖2. 各賽道參賽者統計
【競賽網(wǎng)頁(yè)】http://www.jidiai.cn/ccf_2023/En.html
來(lái)源:中國科學(xué)院自動(dòng)化研究所