• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ABB
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      CAIAC 2025
      2025工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

      資訊頻道

      2025國際機器學(xué)習大會(huì )(ICML)自動(dòng)化所入選成果速覽
      • 點(diǎn)擊數:484     發(fā)布時(shí)間:2025-05-24 13:19:40
      • 分享到:
      國際機器學(xué)習大會(huì )(International Conference on Machine Learning,簡(jiǎn)稱(chēng)ICML)是機器學(xué)習領(lǐng)域的頂級會(huì )議。ICML 2025計劃于2025年7月13日-7月19日在加拿大溫哥華召開(kāi)。自動(dòng)化所多篇研究論文被本屆會(huì )議錄用,本文將對相關(guān)成果進(jìn)行介紹,歡迎交流討論。

      國際機器學(xué)習大會(huì )(International Conference on Machine Learning,簡(jiǎn)稱(chēng)ICML)是機器學(xué)習領(lǐng)域的頂級會(huì )議。ICML 2025計劃于2025年7月13日-7月19日在加拿大溫哥華召開(kāi)。自動(dòng)化所多篇研究論文被本屆會(huì )議錄用,本文將對相關(guān)成果進(jìn)行介紹,歡迎交流討論。


      1.大模型繼續預訓練中的學(xué)習動(dòng)態(tài)??★Spotlight

      英文標題:Learning Dynamics in Continual Pre-Training for Large Language Models

      論文作者:王星錦,Howe Tissue,王露,李林靜,曾大軍

      繼續預訓練(CPT)是將基礎大模型應用于特定下游任務(wù)的有效方法。在這項工作中,我們探索了大語(yǔ)言模型在整個(gè)CPT過(guò)程中的學(xué)習動(dòng)態(tài)。我們關(guān)注在CPT過(guò)程中每個(gè)訓練步驟下通用領(lǐng)域和下游領(lǐng)域模型性能的動(dòng)態(tài),并通過(guò)相應的測試集損失來(lái)衡量性能變化。我們觀(guān)察到CPT損失曲線(xiàn)是從一條隱藏的預訓練曲線(xiàn)到另一條隱藏預訓練曲線(xiàn)的轉變,并且可以通過(guò)解耦數據分布轉移和學(xué)習率退火的影響來(lái)描述CPT曲線(xiàn)。我們提出了結合這兩個(gè)因素的CPT Scaling Law 可以預測CPT中任何訓練步驟和學(xué)習率調度的測試集損失。我們的公式展示了對CPT中幾個(gè)關(guān)鍵因素的全面理解,包括Loss Potential、最大學(xué)習率、訓練量和預訓練數據混合比。此外,我們的方法可以為不同的CPT目標定制訓練超參數來(lái)平衡通用領(lǐng)域和下游領(lǐng)域的性能。

      17480641161.png

      圖1.繼續預訓練過(guò)程中的損失曲面和兩個(gè)方向的側視圖。前進(jìn)方向會(huì )導致通用領(lǐng)域測試集損失上升和下游領(lǐng)域測試集損失下降,而學(xué)習率退火的方向會(huì )導致各個(gè)測試集損失的快速下降。

      17480641361.png

      圖2.利用我們提出的CPT Scaling Law對各種學(xué)習率調度的預訓練和繼續預訓練階段的損失曲線(xiàn)進(jìn)行預測。


      2.基于樹(shù)搜索的重排序推理上下文策略以增強大型視覺(jué)-語(yǔ)言模型性能???★Spotlight

      Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

      論文作者:楊奇,張承灝,樊魯斌,丁昆,葉杰平,向世明

      近年來(lái),大型視覺(jué)語(yǔ)言模型(LVLMs)結合檢索增強生成(RAG)技術(shù)在視覺(jué)問(wèn)答(VQA)任務(wù)中展現出卓越的性能。然而,現有方法仍面臨兩個(gè)關(guān)鍵挑戰:一是檢索樣本缺乏包含推理過(guò)程的知識,二是檢索到的知識可能和用戶(hù)問(wèn)題不一致導致回答出錯。為解決這些問(wèn)題,本文提出了一種基于推理上下文與樹(shù)搜索的多模態(tài)檢索增強生成框架。

      該框架主要包括兩個(gè)核心模塊:推理上下文豐富的知識庫構建和基于啟發(fā)式獎勵的樹(shù)搜索重排序機制。首先,通過(guò)自洽評估機制,自動(dòng)為問(wèn)答對生成推理上下文,從而豐富知識庫中的邏輯推理模式;其次,采用蒙特卡洛樹(shù)搜索(MCTS)結合啟發(fā)式獎勵策略,對檢索結果進(jìn)行重排序,優(yōu)先選擇最相關(guān)的樣例作為上下文輸入。這一方法有效提升了LVLMs在生成答案時(shí)的一致性與準確性。

      17480641601.png

      圖1.推理上下文生成的示意圖。該生成方法包含兩個(gè)步驟:(a) 利用知識庫中的問(wèn)題-答案對來(lái)生成內容自洽的推理上下文。(b) 通過(guò)定量評估對預測答案進(jìn)行驗證,以選擇最優(yōu)的推理上下文。

      17480641721.png

      圖2.基于啟發(fā)式獎勵的蒙特卡洛樹(shù)搜索(MCTS-HR)示意圖。為了解決用戶(hù)的問(wèn)題,本文首先檢索出Top-N個(gè)候選樣本作為候選動(dòng)作,隨后通過(guò)MCTS-HR方法對這些候選樣本進(jìn)行重新排序與選擇。此外,本文還提出了一種啟發(fā)式獎勵策略,該策略包含兩個(gè)關(guān)鍵組成部分:自洽性啟發(fā)式獎勵和互惠啟發(fā)式獎勵,旨在優(yōu)化MCTS框架中的獎勵函數。


      3.AffectGPT:借助多模態(tài)大模型的描述性情感理解:數據集、模型、基線(xiàn)??★Spotlight

      AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models

      論文作者:連政、陳皓宇、陳嵐、孫海洋、孫立才、任勇、程澤浜、劉斌、劉瑞、彭小江、易江燕、陶建華

      情感蘊含著(zhù)意圖信息,準確識別情感狀態(tài)對于提升人機交互體驗至關(guān)重要。傳統方法主要依賴(lài)于判別式框架,將人類(lèi)情感映射到預定義情感分類(lèi)體系中最可能的類(lèi)別。然而,這種分類(lèi)框架在模擬人類(lèi)情感狀態(tài)時(shí)存在一定局限性。隨著(zhù)多模態(tài)大模型(MLLMs)的快速發(fā)展,使得情感理解得以突破傳統判別式框架的局限,轉向更具表達力的生成式框架。這一轉變使模型能夠通過(guò)自然語(yǔ)言描述復雜且共存的情感狀態(tài)。憑借大規模詞表,MLLMs 能夠生成超越基礎情感的多樣化、細粒度情感類(lèi)別,為準確的情感理解開(kāi)辟了新的可能性。然而,最新研究表明,MLLMs 在情感理解方面仍存在諸多局限性:1)缺乏包含描述性情感標注的大規模數據集; 2)缺乏以多模態(tài)為核心的框架來(lái)最大化MLLMs的情感理解潛力。針對這些問(wèn)題,我們構建了一個(gè)面向生成式情感理解框架的數據集(MER-Caption)和模型架構(AffectGPT)。借助人類(lèi)先驗知識引導自動(dòng)化標注流程,我們構建了迄今為止規模最大的描述性情感數據集,包含超過(guò)2K個(gè)細粒度情感類(lèi)別和115K個(gè)樣本。同時(shí),我們提出了AffectGPT框架,該模型采用預融合操作來(lái)增強多模態(tài)信息的整合能力。此外,我們還推出了MER-UniBench,一個(gè)統一的評測基準,專(zhuān)門(mén)針對典型MER任務(wù)和MLLMs的自由形式自然語(yǔ)言輸出特點(diǎn)進(jìn)行設計。大量實(shí)驗結果表明,AffectGPT在各類(lèi)MER任務(wù)中均展現出強大的性能。

      17480641971.png


      4.Agent Reviewers:具有共享記憶的多模態(tài)領(lǐng)域特定智能體論文評審系統

      Agent Reviewers: Domain-speciffc Multimodal Agents?with Shared Memory for Paper Review

      論文作者:盧凱,許世雄,李金秋,丁昆,孟高峰

      同行評審的反饋對于提升科學(xué)文章的質(zhì)量至關(guān)重要。然而,目前許多稿件在提交之前或提交過(guò)程中并未獲得足夠的外部反饋來(lái)進(jìn)行完善。因此,一個(gè)能夠提供詳細且專(zhuān)業(yè)反饋的系統對于提高研究效率來(lái)說(shuō)至關(guān)重要。在本文中,我們通過(guò)收集歷史上的開(kāi)放獲取論文及其相應的評審意見(jiàn),并使用大語(yǔ)言模型(LLM)對其進(jìn)行標準化處理,得到了目前最大的論文評審數據集。隨后,我們基于大語(yǔ)言模型開(kāi)發(fā)了一個(gè)多智能體系統,該系統模擬了真實(shí)的人類(lèi)評審過(guò)程。這個(gè)名為 “Agent Reviewers”的系統創(chuàng )新性地引入了多模態(tài)評審員,用于對論文的視覺(jué)元素提供反饋。此外,還保留了一個(gè)共享記憶池,其中存儲了歷史論文的元數據,為評審智能體提供了來(lái)自不同領(lǐng)域的背景知識。我們使用 2024 年國際學(xué)習表征會(huì )議(ICLR)的論文對該系統進(jìn)行了評估,結果顯示其性能優(yōu)于現有的基于人工智能的評審系統。全面的消融研究進(jìn)一步證明了該系統中每個(gè)模塊和智能體的有效性。

      17480642261.png

      “Agent Reviewers”系統概述。在第一階段,元審稿人從論文文本中提取關(guān)鍵詞,并從共享內存池(SMP)中檢索記憶信息,用于初始化特定領(lǐng)域評審員。在第二階段,多模態(tài)審稿人提供論文視覺(jué)方面的評論,領(lǐng)域特定審稿人將這些視覺(jué)評論與論文文本相結合進(jìn)行初步評審,并進(jìn)行討論以修訂意見(jiàn)。最后,領(lǐng)域主席(AC)整合所有經(jīng)過(guò)修訂的評審意見(jiàn),給出最終評論并做出接收決定,并用論文信息和審稿意見(jiàn)更新共享內存池(SMP)。


      5.受限可利用度下降:一種求解混合策略納什均衡的離線(xiàn)強化學(xué)習方法

      Constrained Exploitability Descent: An Offline Reinforcement Learning Method for Finding Mixed-Strategy Nash Equilibrium

      論文作者:陸潤宇,朱圓恒,趙冬斌

      本文提出了受限可利用度下降(CED),一種求解對抗馬爾可夫博弈的無(wú)模型離線(xiàn)強化學(xué)習算法,將可利用度下降(ED)這種博弈論方法與離線(xiàn)強化學(xué)習中的策略約束方法相結合。策略約束在單智能體場(chǎng)景下會(huì )擾動(dòng)最優(yōu)的純策略解,然而這種擾動(dòng)對于求解對抗博弈中的混合策略納什均衡未必是有害的。本文理論證明了當數據集滿(mǎn)足完全覆蓋條件時(shí),CED能在確定性?xún)扇肆愫婉R爾可夫博弈中收斂到穩定點(diǎn)。進(jìn)一步,本文證明了在穩定點(diǎn)處的最小玩家策略具有混合策略納什均衡的不可利用性質(zhì)。相比基于模型且優(yōu)化最大玩家的ED算法,本文提出的CED方法在限制分布偏移的同時(shí)不再依賴(lài)于廣義梯度。通過(guò)矩陣博弈、樹(shù)狀博弈和無(wú)限時(shí)間的足球游戲實(shí)驗驗證了CED能夠在完全覆蓋的數據集下求解均衡策略,納什誤差顯著(zhù)低于博弈領(lǐng)域已有的VI-LCB-Game算法。在非完全覆蓋下,CED則能逐漸降低行為克?。˙C)得到的行為策略的可利用度,在大規模的兩隊3v3機器人對抗博弈中展現出優(yōu)于離線(xiàn)自我博弈(OSP)算法的性能。

      17480643261.png

      圖1.兩人足球游戲(完全覆蓋數據集)下對比基線(xiàn)算法的納什誤差曲線(xiàn)

      17480643431.png

      圖2.兩隊3v3機器人對抗博弈(非完全覆蓋數據集)下對戰行為策略的勝率曲線(xiàn)


      6.DipLLM:面向強權外交游戲戰略決策的微調大語(yǔ)言模型

      DipLLM: Fine-Tuning LLM for Strategic Decision-making in Diplomacy

      論文作者:徐凱旋,柴嘉駿,李思成,傅宇千,朱圓恒,趙冬斌

      強權外交(Diplomacy)是一款高度復雜的多人博弈游戲,融合了合作與競爭機制,對人工智能系統提出了嚴峻挑戰。傳統方法通常依賴(lài)均衡搜索生成大規模博弈數據以訓練模型,但該過(guò)程計算成本極高。大語(yǔ)言模型(LLMs)提供了一種具有前景的替代方案,能夠借助預訓練知識,在僅需少量微調數據的前提下實(shí)現強大的決策能力。然而,將LLMs應用于強權外交仍面臨諸多挑戰,包括指數級增長(cháng)的動(dòng)作空間和玩家間高度復雜的戰略互動(dòng)。為此,本文提出DipLLM,一種基于LLM微調的智能體,旨在高效學(xué)習該游戲中的均衡策略。DipLLM 構建于自回歸分解框架之上,將多單位指令決策建模為按單位逐步生成的序列任務(wù),并以理論定義的均衡策略為訓練目標。實(shí)驗結果表明,DipLLM 僅使用Cicero(Science,2022)所需數據量的1.5%進(jìn)行微調,便實(shí)現了2.2%的性能提升,驗證了微調后的LLMs在復雜多人博弈中的戰略決策潛力。

      17480643641.png

      圖1.基于大語(yǔ)言模型的自回歸分解智能體的推理流程圖

      17480643811.png

      圖2.基于大語(yǔ)言模型的自回歸分解智能體的微調流程圖


      7.重新思考聯(lián)邦異質(zhì)蒸餾的溫度

      Rethinking the Temperature for Federated Heterogeneous Distillation

      論文作者:亓帆,史大旭,徐踔錕,李帥,徐常勝

      聯(lián)邦異質(zhì)蒸餾是應對聯(lián)邦學(xué)習中模型與數據異構性挑戰的一種有效的優(yōu)化框架。然而,雖然近期的研究提出了一些額外的知識載體來(lái)進(jìn)一步緩解模型異構問(wèn)題,但是都不可避免地引入了安全風(fēng)險和顯著(zhù)的計算與通信開(kāi)銷(xiāo)。因此僅使用最小知識載體——logits,在無(wú)需公共數據集或額外信息的前提下,能否有效應對聯(lián)邦學(xué)習中的異構問(wèn)題成為了亟待探索的關(guān)鍵問(wèn)題。

      我們提出了ReT-FHD框架,從理論與實(shí)證的角度重新審視蒸餾溫度問(wèn)題。該框架引入多層彈性溫度機制,實(shí)現模型各層間蒸餾強度的動(dòng)態(tài)調節,同時(shí)采用類(lèi)別感知全局溫度縮放策略,根據本地各類(lèi)別的性能差異為每個(gè)類(lèi)別自適應分配溫度,實(shí)現更加個(gè)性化的知識蒸餾。此外,該框架還集成了Z-Score驗證機制,降低標簽翻轉和模型投毒攻擊帶來(lái)的性能下降風(fēng)險。

      實(shí)驗表明,ReT-FHD在無(wú)需依賴(lài)額外信息的情況下,能夠在中心化、去中心化及基于區塊鏈的聯(lián)邦學(xué)習場(chǎng)景中有效提升模型性能,同時(shí)規避安全風(fēng)險,并顯著(zhù)降低計算與通信開(kāi)銷(xiāo)。

      17480644061.png

      圖1.算法偽代碼

      17480644221.png

      圖2.在TinyImageNet(上)、Flower102(下)上測試的Dir(0.1)分布的準確率曲線(xiàn)。


      8.基于保局馬爾可夫狀態(tài)轉移的實(shí)例檢索

      Locality Preserving Markovian Transition for Instance Retrieval

      論文作者:駱霽飛,吳汶政,姚涵濤,余璐,徐常勝

      實(shí)例檢索(Instance Retrieval)是計算機視覺(jué)領(lǐng)域的一項核心任務(wù),其旨在從大規模圖像數據庫中快速準確地找到與給定查詢(xún)圖像相似的所有圖像。為了進(jìn)一步提升檢索精度,尤其是彌補初步檢索可能存在的誤差,重排序(Re-ranking)技術(shù)應運而生,它通常通過(guò)分析初步檢索結果中圖像間的關(guān)系來(lái)優(yōu)化排序結果。

      其中,基于擴散的重排序方法因其能夠有效地利用數據樣本間的相似性關(guān)系,通過(guò)在近鄰圖上進(jìn)行信息傳播,從而更好地建模數據流形(data manifolds)結構,展現出良好的性能。然而,這類(lèi)方法存在一個(gè)關(guān)鍵問(wèn)題:當相似度信號在圖上進(jìn)行多步傳播時(shí),距離源點(diǎn)較遠的樣本其信號會(huì )迅速衰減。這意味著(zhù)傳統擴散方法難以有效地捕捉和利用全局范圍內的相似性信息,尤其是在局部區域之外,判別能力會(huì )顯著(zhù)下降,限制了其在大規模檢索中的表現。

      為了克服這一局限性,我們提出了一個(gè)全新的保局馬爾可夫轉移(Locality Preserving Markovian Transition, LPMT)框架,該框架借助一個(gè)具有多個(gè)狀態(tài)的長(cháng)程熱力學(xué)轉移過(guò)程,實(shí)現了更精確的流形距離測量。具體來(lái)說(shuō), LPMT首先利用雙向協(xié)作擴散(Bidirectional Collaborative Diffusion, BCD)整合不同圖上的擴散過(guò)程,以此更好地估計相似度關(guān)系。隨后,局部狀態(tài)嵌入(Locality State Embedding, LSE)將每個(gè)實(shí)例編碼為一個(gè)分布,以增強局部一致性。這些分布通過(guò)熱力學(xué)馬爾可夫轉移(Thermodynamic Markovian Transition, TMT)過(guò)程相互連接,從而在保持局部有效性的同時(shí),實(shí)現高效的全局檢索。

      17480644491.png

      圖1.保局馬爾可夫狀態(tài)轉移過(guò)程示意圖


      9.時(shí)相關(guān)性對齊

      Test-time Correlation Alignment

      論文作者:游琳敬,祿家寶,黃夏淵

      深度神經(jīng)網(wǎng)絡(luò )常因訓練數據與測試數據間的分布偏移而出現顯著(zhù)的性能下降。盡管領(lǐng)域自適應(Domain Adaptation)能在一定程度上解決該問(wèn)題,但現實(shí)場(chǎng)景中的隱私問(wèn)題往往限制了其對訓練數據的訪(fǎng)問(wèn)。這一限制催生了測試時(shí)自適應(Test-Time Adaptation, TTA)的研究,TTA僅需利用未標注的測試數據來(lái)調整預訓練模型。然而現有TTA研究仍面臨三大挑戰:(1)主要關(guān)注實(shí)例級對齊,因缺失源域相關(guān)性而忽視了相關(guān)性對齊(CORrelation ALignment, CORAL);(2)依賴(lài)復雜的反向傳播機制更新模型,計算開(kāi)銷(xiāo)過(guò)大;(3)存在域遺忘問(wèn)題。

      為應對這些挑戰,本文首先通過(guò)理論分析驗證了測試時(shí)相關(guān)性對齊(Test-time Correlation Alignment, TCA)的可行性,證明高置信度樣本與測試樣本間的相關(guān)性對齊可有效提升模型性能?;诖?,本文提出兩種簡(jiǎn)潔且高效的算法:LinearTCA與LinearTCA+。前者通過(guò)簡(jiǎn)單線(xiàn)性變換同時(shí)實(shí)現實(shí)例對齊與相關(guān)性對齊,無(wú)需額外模型更新;后者作為即插即用模塊,可輕松增強現有TTA方法。大量實(shí)驗證明了我們的理論和算法的有效性,實(shí)驗結果表明TCA在各類(lèi)任務(wù)、數據集和骨干網(wǎng)絡(luò )中均顯著(zhù)優(yōu)于基線(xiàn)。

      17480644721.png

      圖1.模型框架。LinearTCA算法的具體流程如下:在測試階段,首先通源模型獲取目標數據的原始嵌入特征和預測結果。根據原始預測結果篩選高置信度嵌入特征,構建"偽源域"。隨后施加線(xiàn)性變換,將原始嵌入特征的相關(guān)性與偽源域進(jìn)行對齊,最終輸出LinearTCA的預測結果。值得注意的是,該過(guò)程無(wú)需更新原始模型的任何參數。

      17480644851.png

      圖2.實(shí)驗結果。TCA方法在多種數據集、多種網(wǎng)絡(luò )架構下模型預測準確率、運行時(shí)間、最大GPU內存占用的具體性能表現結果。


      10.基于擴散策略的最大熵強化學(xué)習算法

      Maximum Entropy Reinforcement Learning with Diffusion Policy

      論文作者:董曉藝,程健,張希

      最大熵強化學(xué)習將策略熵加入強化學(xué)習的目標函數中,來(lái)提高智能體的探索能力并增強所學(xué)策略的魯棒性。目前,使用高斯策略的Soft Actor-Critic(SAC)算法已成為實(shí)現最大熵強化學(xué)習目標的主流算法。盡管高斯策略在簡(jiǎn)單任務(wù)中表現良好,但在復雜的多目標強化學(xué)習環(huán)境中,其固有的單峰性會(huì )限制SAC算法的探索能力和潛在性能。由于擴散模型能夠擬合復雜的多峰分布,因此本文在SAC算法中引入擴散模型作為策略表示,提出了一種基于擴散策略的最大熵強化學(xué)習算法MaxEntDP,可以實(shí)現高效探索,并使策略更接近最大熵強化學(xué)習目標下的最優(yōu)策略。MaxEntDP算法的訓練過(guò)程涉及兩個(gè)關(guān)鍵步驟:擬合Q函數的指數分布以及計算擴散策略的對數概率,這對于擴散模型而言并非易事。為了解決這兩個(gè)挑戰,我們提出了一種Q加權噪聲估計(Q-weighted Noise Estimation)方法來(lái)訓練擴散策略,同時(shí)引入一種數值積分方法來(lái)近似計算擴散模型的對數概率。在Mujoco基準測試上的實(shí)驗結果表明,MaxEntDP在最大熵強化學(xué)習框架下優(yōu)于高斯策略和其他生成模型,并且性能與現有基于擴散模型的在線(xiàn)強化學(xué)習算法相當。

      17480645041.png


      11.離線(xiàn)對手建模算法改進(jìn)框架:截斷Q驅動(dòng)的即時(shí)策略精煉

      Offline Opponent Modeling with Truncated Q-driven Instant Policy Refinement

      論文作者:景煜恒,李凱,劉秉運,張紫聞,傅浩波,付強,興軍亮,程健

      離線(xiàn)對手建模(OOM)旨在使用來(lái)自多智能體博弈的離線(xiàn)數據集,學(xué)習一種能夠動(dòng)態(tài)適應對手的自適應自主智能體策略。先前的工作假設數據集是最優(yōu)的。然而,這個(gè)假設在現實(shí)世界中難以滿(mǎn)足。當數據集是次優(yōu)的時(shí),現有方法難以有效工作。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)簡(jiǎn)單且通用的算法改進(jìn)框架,即由截斷Q驅動(dòng)的即時(shí)策略精煉(TIPR),以處理由數據集引發(fā)的OOM算法的次優(yōu)性問(wèn)題。TIPR框架本質(zhì)上是即插即用的。與原始的OOM算法相比,它僅需要兩個(gè)額外的步驟:(1)使用離線(xiàn)數據集學(xué)習一個(gè)時(shí)域截斷的、基于上下文的動(dòng)作價(jià)值函數,即截斷Q(Truncated Q)。截斷Q估計在一個(gè)固定的、截斷的時(shí)域內的期望回報,并且以對手信息為條件。(2)在測試期間,使用學(xué)習到的截斷Q來(lái)即時(shí)決定是否執行策略精煉,并在精煉后生成策略。理論上,我們從無(wú)最大化偏差概率的角度分析了截斷Q的原理。實(shí)驗上,我們在四個(gè)代表性的競爭環(huán)境中進(jìn)行了廣泛的比較實(shí)驗和消融實(shí)驗。TIPR有效地改進(jìn)了多種使用次優(yōu)數據集預訓練的OOM算法。

      17480645201.png


      12.基于目標導向技能抽象的離線(xiàn)多任務(wù)強化學(xué)習

      Goal-Oriented Skill Abstraction for Offline Multi-Task Reinforcement Learning

      論文作者:何金珉,李凱,臧一凡,傅浩波,付強,興軍亮,程健

      離線(xiàn)多任務(wù)強化學(xué)習旨在利用預先收集的數據集學(xué)習一個(gè)統一的策略,以在無(wú)需與環(huán)境進(jìn)行任何在線(xiàn)交互的情況下解決多個(gè)任務(wù)。然而,該領(lǐng)域在跨任務(wù)有效共享知識方面面臨巨大挑戰。受人類(lèi)學(xué)習中高效知識抽象機制的啟發(fā),我們提出了一種新方法——面向目標的技能抽象GO-Skill,旨在提取和利用可復用技能,以提升離線(xiàn)多任務(wù)強化學(xué)習中的知識遷移能力和任務(wù)表現。我們的方法通過(guò)目標導向的技能提取過(guò)程挖掘可復用技能,并利用向量量化構建離散技能庫。為緩解廣泛適用技能與任務(wù)特定技能之間的類(lèi)別不平衡問(wèn)題,我們引入了一個(gè)技能增強階段,對提取出的技能進(jìn)行優(yōu)化。此外,我們通過(guò)分層策略學(xué)習將這些技能整合起來(lái),從而構建出一個(gè)高層策略,能夠動(dòng)態(tài)組合離散技能以完成特定任務(wù)。在MetaWorld基準平臺的多種機器人操作任務(wù)中進(jìn)行的大量實(shí)驗表明,GO-Skill在有效性和通用性方面都具有顯著(zhù)優(yōu)勢。

      17480649181.png

      圖1.?GO-Skill目標導向的技能模型

      17480649291.png

      圖2.GO-Skill基于技能的策略模型?


      13.CSTrack: 通過(guò)緊湊時(shí)空建模來(lái)增強RGB-X跟蹤

      CSTrack: Enhancing RGB-X Tracking via Compact Spatiotemporal Features

      論文作者:豐效坤,張岱凌,胡世宇,李旭晨,武美奇,張靖,陳曉棠,黃凱奇

      有效建模和利用來(lái)自RGB及其他模態(tài)(例如,深度、熱成像和事件數據,簡(jiǎn)稱(chēng)為X)的時(shí)空特征是RGB-X追蹤器設計的核心?,F有方法通常采用兩個(gè)平行分支分別處理RGB和X輸入流,這要求模型同時(shí)處理兩個(gè)分散的特征空間,復雜化了模型結構和計算過(guò)程。更為關(guān)鍵的是,每個(gè)分散空間內模態(tài)內的空間建模會(huì )產(chǎn)生較大的計算開(kāi)銷(xiāo),限制了用于模態(tài)間空間建模和時(shí)間建模的資源。為了解決這一問(wèn)題,我們提出了一種新的追蹤器,CSTrack,其重點(diǎn)是建模緊湊的時(shí)空特征,以實(shí)現簡(jiǎn)單而有效的追蹤。具體來(lái)說(shuō),我們首先引入了一個(gè)創(chuàng )新的空間緊湊模塊,將RGB-X雙輸入流整合為緊湊的空間特征,從而實(shí)現徹底的模態(tài)內和模態(tài)間空間建模。此外,我們設計了一個(gè)高效的時(shí)序緊湊模塊,通過(guò)構建優(yōu)化的目標分布熱圖緊湊地表示時(shí)間特征。廣泛的實(shí)驗驗證了我們緊湊時(shí)空建模方法的有效性,CSTrack在7個(gè)主流RGB-X基準上取得了新的SOTA結果。

      17480649431.png

      CSTrack的模型框架。對于時(shí)間t時(shí)刻的RGB和X(例如熱成像數據)輸入流,通用的嵌入模塊最初將它們轉換為token序列。然后,空間緊湊模塊將它們整合為一個(gè)緊湊的特征空間,該特征空間隨即被輸入到單流骨干網(wǎng)絡(luò )中進(jìn)行全面的空間建模。接下來(lái),時(shí)間指導模塊利用之前存儲的時(shí)間特征進(jìn)行追蹤指導,隨后跟蹤頭生成最終的追蹤結果。之后,時(shí)間緊湊模塊為當前時(shí)間步構建緊湊的時(shí)間特征,這些特征被存儲以便在下一時(shí)間步t + 1進(jìn)行追蹤引導。


      14.基于雙層優(yōu)化的大語(yǔ)言模型數據選擇與利用

      LLM Data Selection and Utilization via Dynamic Bi-level Optimization

      論文作者:于楊,韓凱,周航,唐業(yè)輝,黃凱奇,王云鶴,陶大程

      盡管大規模訓練數據是構建高性能大型語(yǔ)言模型(LLM)的基礎,但如何戰略性地篩選高質(zhì)量數據,已成為提升訓練效率與降低計算成本的關(guān)鍵途徑?,F有數據選擇方法主要依賴(lài)靜態(tài)、與訓練過(guò)程無(wú)關(guān)的標準,難以反映模型在訓練過(guò)程中對數據的動(dòng)態(tài)需求。為此,本文提出一種新的數據加權模型(DWM),用于動(dòng)態(tài)調整每一批次訓練數據的權重,從而實(shí)現訓練過(guò)程中更有效的數據利用。為更精準地捕捉模型的動(dòng)態(tài)數據偏好,DWM采用雙層優(yōu)化框架進(jìn)行更新。實(shí)驗結果表明,DWM不僅提升了相較于隨機數據選擇所訓練模型的性能,且其所學(xué)習的加權策略具有良好的遷移能力,可推廣至其他數據選擇方法及不同規模模型中。進(jìn)一步分析還揭示了模型在訓練過(guò)程中數據偏好的演化規律,為理解LLM的數據利用機制提供了新的視角。

      17480649541.png

      基于DWM的雙層優(yōu)化框架,其中LLM模型和加權模型交替訓練


      15.從概率神經(jīng)-行為表征對齊中涌現的神經(jīng)表征一致性

      Neural Representational Consistency Emerges from Probabilistic Neural-Behavioral Representation Alignment

      論文作者:朱宇,宋純鋒,歐陽(yáng)萬(wàn)里,余山,黃鐵軍

      大腦在不同個(gè)體間存在顯著(zhù)的結構和生理差異,卻能產(chǎn)生高度一致的功能特性,這一悖論在神經(jīng)科學(xué)領(lǐng)域尚未得到充分探索。雖然近期研究已通過(guò)手動(dòng)對齊方法觀(guān)察到運動(dòng)皮層中跨個(gè)體的神經(jīng)表征保留現象,但對這種保留特性的零樣本驗證及其在多種皮層區域中的普適性仍有待深入研究。本研究提出了概率神經(jīng)-行為表示對齊(PNBA)框架,該框架采用概率模型處理不同試驗、實(shí)驗時(shí)段和個(gè)體間的層次性差異,并通過(guò)生成性約束防止表示退化。PNBA通過(guò)建立穩健的跨模態(tài)表示對齊,成功地通過(guò)零樣本驗證揭示了猴子初級運動(dòng)皮層(M1)和背側預運動(dòng)皮層(PMd)中穩定保留的神經(jīng)表示模式。我們還將研究擴展至小鼠初級視覺(jué)皮層(V1),證實(shí)了類(lèi)似的表征保留現象,表明這可能是一種普遍的神經(jīng)組織原則。這些發(fā)現通過(guò)建立零樣本預測范式有效解決了神經(jīng)異質(zhì)性悖論,實(shí)現了跨腦區和跨物種的神經(jīng)表征遷移,不僅深化了對神經(jīng)編碼機制的理解,還為零樣本行為解碼提供了新的方法論基礎。

      17480649651.png

      PNBA方法及其在不同物種皮層中揭示的保留神經(jīng)表征。左上:PNBA方法框架。(a) 通過(guò)概率匹配策略對神經(jīng)活動(dòng)與行為表征進(jìn)行對齊,有效處理不同個(gè)體間的神經(jīng)異質(zhì)性。(b) 生成性約束建模確保表征穩定性,防止退化現象。左下:猴子運動(dòng)皮層(M1)中跨尺度的保留神經(jīng)表征。(a) 神經(jīng)元活動(dòng)模式在不同個(gè)體間存在共性特征。(b-c) 零樣本驗證結果表明,盡管存在神經(jīng)異質(zhì)性,單一共享網(wǎng)絡(luò )仍能在新個(gè)體上準確預測行為,證實(shí)了M1中神經(jīng)編碼的跨個(gè)體保留特性。右側:小鼠初級視覺(jué)皮層(V1)中發(fā)現的保留神經(jīng)表征。(a) V1中神經(jīng)活動(dòng)序列的跨個(gè)體共性特征。(b) 不同視覺(jué)刺激誘發(fā)的神經(jīng)響應保留模式。(c) 零樣本遷移結果顯示V1表征在不同個(gè)體間的一致性,支持神經(jīng)編碼保留現象的普適性。


      16.MM-RLHF:多模態(tài)大模型對齊的新里程碑

      MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

      論文作者:張一帆,于濤,田浩辰,傅超友,李沛言,曾建樹(shù),謝武林,史陽(yáng),張桓瑜,吳俊康,王雪,胡一博,文彬,楊帆,張彰,高婷婷,張迪,王亮,金榕,譚鐵牛

      盡管多模態(tài)大語(yǔ)言模型(MLLMs)取得了顯著(zhù)的進(jìn)展,但現有的先進(jìn)模型仍然缺乏與人類(lèi)偏好的充分對齊。這一差距的存在主要是因為現有的對齊研究多集中于某些特定領(lǐng)域(例如減少幻覺(jué)問(wèn)題),是否與人類(lèi)偏好對齊可以全面提升MLLM的各種能力仍是一個(gè)未知數。

      本文從三個(gè)層面入手推動(dòng)MLLM alignment的發(fā)展,包括數據集,獎勵模型以及訓練算法,最終的alignment pipeline使得不同基礎模型在10個(gè)評估維度,27個(gè)benchmark上都取得了一致的性能增益,比較突出的是,基于本文提出的數據集和對齊算法對LLaVA-ov-7B模型進(jìn)行微調后, conversational 能力平均提升了 19.5%,安全性平均提升了 60%, 而且沒(méi)有觀(guān)察到安全性和基礎性能之間的tradeoff。

      17480649841.png


      17.自適應中值平滑:在推理階段對遺忘后文生圖擴散模型的對抗防御

      Adaptive Median Smoothing: Adversarial Defense for Unlearned Text-to-Image Diffusion Models at Inference Time

      論文作者:韓曉軒,楊嵩林,王偉,李洋,董晶

      文生圖擴散模型引發(fā)了關(guān)于生成不當內容(如色情暴力)的擔憂(yōu),盡管已有工作嘗試通過(guò)機器遺忘技術(shù)來(lái)擦除模型中的不良概念,這些遺忘后模型仍然容易受到對抗性輸入的攻擊,進(jìn)而重新生成不良內容。為保護遺忘后模型,我們提出了一種新穎的推理階段防御策略,用以緩解對抗性輸入的影響。具體而言,我們首先將確保遺忘后擴散模型魯棒性的挑戰建模為一個(gè)魯棒回歸問(wèn)題。在原始的中值平滑方法基礎上,我們提出了使用各向異性噪聲的廣義中值平滑框架,為模型的對抗魯棒性提供了理論保證?;谠摽蚣?,我們引入了一種基于詞元自適應調整的中值平滑方法,能夠根據每個(gè)詞元與不良概念的相關(guān)程度動(dòng)態(tài)調整噪聲強度。此外,為提升推理效率,我們在文本編碼階段實(shí)現了該自適應方法。實(shí)驗表明,我們的方法有效提升了遺忘后模型的對抗魯棒性,同時(shí)保持了模型效用和推理效率。

      17480649951.png

      自適應中值平滑流程圖


      18.基于少樣本學(xué)習實(shí)現AI生成圖像跨域檢測泛化

      Few-Shot Learner Generalizes Across AI-Generated Image Detection

      論文作者:吳詩(shī)雨,劉靜,李晶,王業(yè)全

      圖像生成模型的快速發(fā)展使得AI合成圖像達到前所未有的逼真程度。盡管這項技術(shù)為創(chuàng )作者提供了便利,但其濫用已嚴重威脅數字內容的可信性。當前檢測方法面臨兩大核心挑戰:一是檢測器對未知生成模型圖像的泛化能力不足,難以適應持續迭代的生成技術(shù)發(fā)展。二是閉源模型訓練數據的獲取存在顯著(zhù)成本壁壘。多數方案依賴(lài)大規模訓練數據的支持,在少樣本應用場(chǎng)景中易出現過(guò)擬合現象,難以滿(mǎn)足實(shí)際應用中快速響應新型生成模型的技術(shù)需求。

      針對上述挑戰,本文首次將AI生成圖像檢測重構為小樣本分類(lèi)任務(wù)。論文提出基于原型網(wǎng)絡(luò )構建度量空間,利用給定的少量樣本計算合成圖像的原型表征,通過(guò)與待測圖片表征差異的比較,實(shí)現合成圖像檢測的跨域泛化。實(shí)驗表明,論文提出的圖像檢測框架具有良好的泛化性和適應性,在主流基準測試上取得了新的突破。該方法通過(guò)構建動(dòng)態(tài)適配機制,可快速兼容新興生成模型,為應對持續演進(jìn)的圖像深度偽造技術(shù)提供有效解決方案。

      17480650051.png

      基于原型網(wǎng)絡(luò )的AI合成圖片檢測框架


      19.EmoGrowth:基于可增廣情緒關(guān)系圖的多標簽類(lèi)增量情緒解碼

      EmoGrowth: Incremental Multi-label Emotion Decoding with Augmented Emotional Relation Graph

      論文作者:付鎧城,杜長(cháng)德,彭杰,王坤鵬,趙雙辰,陳曉宇,何暉光

      情緒解碼算法在人機交互系統中扮演著(zhù)重要角色。然而,現有的情緒解碼算法忽略了現實(shí)世界中的動(dòng)態(tài)場(chǎng)景,即人類(lèi)感受到的復雜多樣的情緒需要增量地整合到模型中,產(chǎn)生了多標簽類(lèi)增量情緒解碼問(wèn)題。已有的模型受限于由過(guò)去和未來(lái)部分標簽缺失造成的災難性遺忘以及未充分挖掘標簽的語(yǔ)義信息,難以解決多標簽類(lèi)增量學(xué)習問(wèn)題。由此,本文提出一個(gè)可增廣的情緒語(yǔ)義學(xué)習框架。具體地,設計了一個(gè)帶有標簽消歧的可增廣情緒關(guān)系圖模塊,用于處理過(guò)去部分標簽缺失問(wèn)題。接著(zhù),利用來(lái)自情感維度空間的領(lǐng)域知識,通過(guò)基于樣本關(guān)系的知識蒸餾緩解未來(lái)部分標簽缺失問(wèn)題。此外,研究中設計了一個(gè)由圖自編碼器構成的情緒語(yǔ)義學(xué)習模塊,用于獲取情緒語(yǔ)義標簽嵌入,并用于指導語(yǔ)義特定的特征解耦,用以更好地進(jìn)行多標簽學(xué)習。

      17480650151.png


      20.OV-MER:開(kāi)放詞匯多模態(tài)情感識別

      OV-MER: Towards Open-Vocabulary Multimodal Emotion Recognition

      論文作者:連政、孫海洋、孫立才、陳皓宇、陳嵐、顧浩、溫卓凡、陳順、張思源、姚海亮、劉斌、劉瑞、梁山、李雅、易江燕、陶建華

      多模態(tài)情感理解(MER)是一個(gè)重要的研究方向,旨在從多模態(tài)數據中解碼出人類(lèi)情感狀態(tài),能夠應用于人機交互、智慧健康、智能教育等場(chǎng)景。然而,現有機器學(xué)習方法大多依賴(lài)于預設的情感分類(lèi)體系,這些體系往往將人類(lèi)復雜細微的情感狀態(tài)映射到固定且有限的情感類(lèi)別,無(wú)法捕捉心理學(xué)和認知科學(xué)研究中所揭示的人類(lèi)情感所固有的復雜性、微妙性、多維性。為突破這一限制,我們主張將“開(kāi)放詞匯”概念引入MER領(lǐng)域,這一范式轉變旨在使模型能夠預測任意情感類(lèi)別,從而更準確地刻畫(huà)人物情感狀態(tài)。我們將該任務(wù)稱(chēng)為開(kāi)放詞匯多模態(tài)情感識別(OV-MER),使情感預測不再受限于預定義標簽空間。然而,這種MER范式的轉變使得傳統判別式方法不再適用于新的任務(wù)。針對這一問(wèn)題,我們提出了相應的解決方案,包括新的數據集構建策略、新的評估指標、以及新的解決方案。通過(guò)將MER從基本情感識別推進(jìn)到細粒度情感識別,我們希望這項工作能夠啟發(fā)下一代MER技術(shù)發(fā)展,增強其在現實(shí)場(chǎng)景中的應用。

      17480650291.png


      來(lái)源:中國科學(xué)院自動(dòng)化研究所

      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>