• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ABB
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      CAIAC 2025
      2025工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

      資訊頻道

      IEEE國際計算機視覺(jué)與模式識別會(huì )議(CVPR)自動(dòng)化所入選成果速覽
      • 點(diǎn)擊數:1155     發(fā)布時(shí)間:2025-04-04 09:51:57
      • 分享到:
      IEEE國際計算機視覺(jué)與模式識別會(huì )議(CVPR),是計算機視覺(jué)領(lǐng)域三大頂級會(huì )議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。本文對自動(dòng)化所的錄用研究成果進(jìn)行簡(jiǎn)要介紹(排序不分先后)。

      IEEE國際計算機視覺(jué)與模式識別會(huì )議(CVPR),是計算機視覺(jué)領(lǐng)域三大頂級會(huì )議之一。CVPR 2025將于6月11日至15日在美國田納西州納什維爾舉辦。本文對自動(dòng)化所的錄用研究成果進(jìn)行簡(jiǎn)要介紹(排序不分先后)。


      1.視頻配樂(lè )的自定義條件可控生成

      Customized Condition Controllable Generation for Video Soundtrack

      論文作者:亓帆,馬錕生,徐常勝??

      近年來(lái),潛在擴散模型(LDMs)的發(fā)展推動(dòng)了音樂(lè )生成領(lǐng)域的創(chuàng )新,使視頻配樂(lè )在靈活性和多模態(tài)融合方面取得了顯著(zhù)突破。然而,現有方法大多采用兩階段流程,難以全面捕捉視頻的聲音特征,尤其在復雜視頻場(chǎng)景下,難以同時(shí)呈現準確的音效細節和豐富的音樂(lè )情感氛圍。為解決上述挑戰,我們提出了一種創(chuàng )新性的視頻配樂(lè )生成框架(C3GVS),能夠同步生成與參考視頻相匹配的音樂(lè )和音效。為此,我們設計了一種基于擴散模型的頻譜分歧掩蔽注意力(Spectrum Divergence Masked Attention),該模塊利用音樂(lè )和音效在時(shí)頻域中的不同特性,高效融合音樂(lè )和音效條件特征,從而實(shí)現動(dòng)態(tài)的音畫(huà)對齊。在此基礎上,我們引入了基于評分的引導機制,以增強生成音頻的創(chuàng )造性。該方法使音樂(lè )創(chuàng )作者能夠自定義藝術(shù)輸入,生成更加個(gè)性化的音景,同時(shí)確保音頻與視頻語(yǔ)境保持高度一致。在FilmScoreDB和SymMV&HIMV數據集上的廣泛評估表明,我們的方法在主觀(guān)和客觀(guān)評測中均顯著(zhù)優(yōu)于當前最先進(jìn)的基線(xiàn)方法,展現出其作為視頻配樂(lè )生成強大工具的潛力。

      C3GVS框架整體示意圖


      2.基于語(yǔ)言引導的概念瓶頸模型的可解釋持續學(xué)習

      Language Guided Concept Bottleneck Models for Interpretable Continual Learning

      論文作者:余璐,韓昊宇,陶哲,姚涵濤,徐常勝

      持續學(xué)習(Continual Learning)的目標是使學(xué)習系統能夠不斷獲取新知識,同時(shí)不遺忘先前學(xué)習的信息。持續面臨的挑戰在于緩解災難性遺忘(catastrophic forgetting)的同時(shí)保持跨任務(wù)的可解釋性?,F有的大多數持續方法主要側重于保留已學(xué)知識以提高模型性能。然而,隨著(zhù)新信息的引入,學(xué)習過(guò)程的可解釋性對于理解不斷演化的決策機制至關(guān)重要,但這一方向卻鮮少被探索。本研究提出了一種新穎框架,通過(guò)整合語(yǔ)言引導的概念瓶頸模型(Concept Bottleneck Models, CBMs)來(lái)同時(shí)應對這兩大挑戰。我們的方法利用概念瓶頸層(Concept Bottleneck Layer),與CLIP模型對齊語(yǔ)義一致性,從而學(xué)習人類(lèi)可理解、且能跨任務(wù)泛化的概念。通過(guò)聚焦于可解釋的概念,該方法不僅增強了模型隨時(shí)間推移保留知識的能力,還提供了透明的決策依據。我們在多個(gè)數據集上驗證了方法的有效性,其中在ImageNet子集上的最終平均準確率超越現有最優(yōu)方法達3.06%。此外,我們通過(guò)概念可視化展示模型預測依據,進(jìn)一步推動(dòng)了可解釋持續學(xué)習的理解。

      第t個(gè)任務(wù)時(shí)方法框架圖


      3.MV-MATH:多視覺(jué)場(chǎng)景下的多模態(tài)數學(xué)推理能力評估

      MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts

      論文作者:王培杰,李忠志,殷飛,冉德康,劉成林

      多模態(tài)大語(yǔ)言模型(MLLM)已在各種數學(xué)任務(wù)中表現出良好的推理能力。然而,大多數現有的多模態(tài)數學(xué)基準僅限于單視覺(jué)環(huán)境,這與現實(shí)世界數學(xué)應用中常見(jiàn)的多視覺(jué)場(chǎng)景不同。為了解決這一差距,研究團隊推出了 MV-MATH:一個(gè)精心策劃的數據集,包含 2009 個(gè)高質(zhì)量數學(xué)問(wèn)題。每個(gè)問(wèn)題都集成了多幅與文本交錯的圖像,這些問(wèn)題源自真實(shí)的 K-12 教育場(chǎng)景并附有詳細的注釋。MV-MATH 包括多項選擇題、自由形式題和多步驟題,涵蓋 3 個(gè)難度級別的 11 個(gè)主題領(lǐng)域,是評估 MLLM 在多視覺(jué)環(huán)境下數學(xué)推理的全面而嚴格的基準。通過(guò)大量實(shí)驗,我們觀(guān)察到 MLLM 在多視覺(jué)數學(xué)任務(wù)中遇到了巨大的挑戰,與人類(lèi)在 MV-MATH 上的能力相比,其性能存在相當大的差距。此外,我們還分析了不同模型的表現和錯誤模式,為多視覺(jué)場(chǎng)景下大語(yǔ)言模型的數學(xué)推理能力提供了深入見(jiàn)解。

      圖1.在 MV-MATH 數據集上,六個(gè)多模態(tài)大模型的性能比較,涵蓋 11 個(gè)主題(左)和 3 個(gè)問(wèn)題類(lèi)型(右)。SAR:步驟準確率,QCR:?jiǎn)?wèn)題完整率。

      圖2.MV-MATH的樣本示例(上)與數據集特性統計(下),每個(gè)樣本都包含了多個(gè)視覺(jué)輸入


      4.DocSAM:基于查詢(xún)解耦和異質(zhì)混合學(xué)習的通用文檔圖像分割方法

      DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning

      論文作者:李曉輝,殷飛,劉成林

      文檔圖像分割在文檔分析和識別中至關(guān)重要,但由于文檔格式的異質(zhì)性和分割任務(wù)的多樣性,這一過(guò)程仍然充滿(mǎn)挑戰?,F有方法通常單獨處理這些任務(wù),導致泛化能力有限且資源浪費。本文提出一種基于Transformer的統一框架DocSAM,將文檔分割建模成實(shí)例分割和語(yǔ)義分割的組合,用于多種文檔圖像分割任務(wù),包括文檔布局分析、多粒度文本分割和表格結構識別等。具體而言,DocSAM使用文本編碼器將每個(gè)數據集中的類(lèi)別名稱(chēng)描述映射到與實(shí)例查詢(xún)相同維度的語(yǔ)義查詢(xún),這些語(yǔ)義查詢(xún)不僅作為分割提示,指導模型識別需要分割的具體區域類(lèi)型,還充當類(lèi)別原型輔助實(shí)例查詢(xún)進(jìn)行開(kāi)放集分類(lèi)。這兩組查詢(xún)通過(guò)注意力機制相互作用,并與多尺度圖像特征進(jìn)行交叉注意解碼并預測實(shí)例和語(yǔ)義分割掩碼?;谏鲜鲈O計,DocSAM可以在異構數據集上聯(lián)合訓練,增強了魯棒性和泛化能力,同時(shí)減少了計算和存儲資源的需求。綜合評估表明,DocSAM在準確性、效率和適應性方面均優(yōu)于現有方法,突顯了其在推進(jìn)文檔圖像分割在各種應用中的潛力。

      DocSAM模型框架圖。DocSAM主要由視覺(jué)主干網(wǎng)絡(luò )、可變形注意力模塊、Sentence-BERT和混合查詢(xún)解碼器組成。對于帶有自然文本格式類(lèi)名的文檔圖像,首先通過(guò)視覺(jué)主干提取多尺度圖像特征并利用可變形注意力模塊進(jìn)行增強,之后將類(lèi)別名稱(chēng)輸入Sentence-BERT轉換為語(yǔ)義查詢(xún),并與隨機初始化的實(shí)例查詢(xún)一同進(jìn)入混合查詢(xún)解碼器對圖像特征進(jìn)行解碼,二者協(xié)作完成語(yǔ)義和實(shí)例分割任務(wù)。


      5.視覺(jué)引導的一體化圖像修復擴散模型

      Visual-Instructed Degradation Diffusion for All-in-One Image Restoration

      論文作者:羅文陽(yáng),覃海納,王立彬,陳澤文,劉雨帆,李宇明,鄭丹丹,李兵,胡衛明

      去模糊、去噪和去光暈等圖像復原任務(wù)通常需要為每種退化類(lèi)型分別建立模型,這限制了它們在現實(shí)世界中可能出現混合退化或未知退化的場(chǎng)景中的通用性。在這項工作中,我們提出了一種利用視覺(jué)指令引導退化擴散的新型一體化圖像修復框架 Defusion。與依賴(lài)于特定任務(wù)模型或含糊的基于文本的先驗的現有方法不同,Defusion 構建了與視覺(jué)退化模式相一致的明確的視覺(jué)指令。這些指令的基礎是對標準化的視覺(jué)元素進(jìn)行降級,從而捕捉內在的降級特征,同時(shí)與圖像語(yǔ)義無(wú)關(guān)。然后,Defusion 使用這些視覺(jué)指令來(lái)指導基于擴散的模型,該模型直接在降解空間中運行,通過(guò)對降解效果去噪來(lái)重建高質(zhì)量的圖像,同時(shí)增強穩定性和通用性。綜合實(shí)驗證明,Defusion 在各種圖像復原任務(wù)(包括復雜的真實(shí)世界退化)中的表現優(yōu)于最先進(jìn)的方法。

      所提出方法的框架。1)從視覺(jué)理由中構建視覺(jué)指令,以展示圖像退化的視覺(jué)效果;2)對視覺(jué)指令進(jìn)行標記化,并與?"干凈"?視覺(jué)元素進(jìn)行對比;3)最后,視覺(jué)指令標記引導去噪擴散模型,該模型根據視覺(jué)指令的提示估計退化程度。視覺(jué)指令標記符是由損失訓練的量化自動(dòng)編碼器,而只有編碼器用于推理。


      6.可逆歸一化流圖像復原

      Reversing Flow for Image Restoration

      論文作者:覃海納,羅文陽(yáng),王立彬,鄭丹丹,陳景東,楊銘,李兵,胡衛明

      圖像復原的目的是通過(guò)逆轉退化的影響,從低質(zhì)量(LQ)的退化圖像中恢復出高質(zhì)量(HQ)的圖像?,F有的圖像復原生成模型,包括擴散模型和基于分數的模型,通常將退化過(guò)程視為隨機變換,從而帶來(lái)了低效率和復雜性。在這項工作中,我們提出了一種新穎的圖像修復框架 ResFlow,它將降解過(guò)程建模為使用連續歸一化流的確定性路徑。ResFlow 通過(guò)輔助過(guò)程來(lái)增強降解過(guò)程,從而消除 HQ 預測中的不確定性,實(shí)現降解過(guò)程的可逆建模。ResFlow 采用熵保存流路徑,并通過(guò)匹配速度場(chǎng)來(lái)學(xué)習增強降解流。ResFlow 顯著(zhù)提高了圖像復原的性能和速度,只需不到四個(gè)采樣步驟即可完成任務(wù)。廣泛的實(shí)驗證明,ResFlow 在各種圖像復原基準測試中都取得了最先進(jìn)的結果,為實(shí)際應用提供了實(shí)用高效的解決方案。我們的代碼將公開(kāi)發(fā)布。


      7.基于最優(yōu)傳輸的開(kāi)放詞匯多標簽識別

      Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport

      論文作者:譚淏,譚資昌,李俊,劉阿建,萬(wàn)軍,雷震

      受到DETR啟發(fā),我們發(fā)現簡(jiǎn)單的區域-文本匹配能顯著(zhù)提升開(kāi)放詞匯多標簽識別性能,并將該過(guò)程建模為最優(yōu)傳輸問(wèn)題以抑制負類(lèi)匹配。然而直接進(jìn)行最優(yōu)傳輸是失效的:(1)預訓練局部語(yǔ)義缺失;(2)匹配結果難以泛化到開(kāi)放詞匯場(chǎng)景。為此我們提出局部語(yǔ)義恢復模塊捕捉精確的區域性語(yǔ)義,并引入教師傳輸模型增強開(kāi)放詞匯下的泛化性。方法在自然圖像、遙感圖像、行人屬性等多領(lǐng)域取得大幅性能提升。更重要的是,該方法能作為一種框架提升現有方法的表現,擴展潛力良好。

      RAM框架示意圖


      8.基于一致性學(xué)習潛能的多模態(tài)媒體篡改檢測與定位

      Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation

      論文作者:李毅恒,楊陽(yáng),譚資昌,劉歡,陳威華,周旭,雷震

      為了應對虛假新聞的威脅,研究人員對多模態(tài)媒體篡改檢測與定位的研究日益增加。然而,現有方法難以深入建模局部?jì)热?,導致其對細粒度偽造的感知能力不足、判定結果不夠可靠。針對這一現象,本文提出了一種 “上下文-語(yǔ)義一致性”的新學(xué)習范式,提升偽造內容細粒度感知能力。該方法構建了圖像模態(tài)和文本模態(tài)兩個(gè)分支,它們均包含了兩個(gè)級聯(lián)的解碼器:上下文一致性解碼器和語(yǔ)義一致性解碼器,并且遵循相同的標準分別應用于模態(tài)內和跨模態(tài)場(chǎng)景,以捕捉細粒度的偽造細節。一方面,每個(gè)模塊引入額外的監督信息學(xué)習一致性特征;另一方面,利用偽造感知推理或聚合,深入挖掘偽造線(xiàn)索并進(jìn)行定位。在公開(kāi)數據集DGM4上的廣泛實(shí)驗證明了:所提出的方法領(lǐng)先現有的技術(shù),尤其在篡改內容的定位方面性能提升顯著(zhù)。

      提出的框架包含上下文一致性解碼器和語(yǔ)義一致性解碼器。它們構建了細粒度一致性矩陣,并且使用一致性損失進(jìn)行監督。在每個(gè)解碼器中,采用防偽功能推理或聚合模塊以減少混淆內容的干擾,深入挖掘偽造線(xiàn)索。


      9.MVBoost:利用多視圖修正策略增強3D重建

      MVBoost: Boost 3D Reconstruction with Multi-View Refinement

      論文作者:劉祥宇,張小梅,馬致遠,朱翔昱,雷震

      最近在3D生成方面的進(jìn)展令人矚目,但目前大多數3D重建模型在很大程度上依賴(lài)于現有的3D數據集。多樣化3D數據集的稀缺導致3D重建模型的泛化能力有限。本文提出了一種通過(guò)生成偽GT數據來(lái)增強3D重建的創(chuàng )新框架——MVBoost。MVBoost的關(guān)鍵在于結合多視圖生成模型的高精度和3D重建模型的一致性,以創(chuàng )建可靠的數據源。具體而言,給定單視圖輸入圖像,我們采用多視圖擴散模型生成多個(gè)視圖,然后使用大型3D重建模型生成一致的3D數據。MVBoost隨后自適應地精煉這些從一致的3D數據渲染的多視圖圖像,以構建一個(gè)用于訓練前饋3D重建模型的大規模多視圖數據集。此外,輸入視圖優(yōu)化模塊旨在根據用戶(hù)的輸入圖像優(yōu)化相應的視點(diǎn),確保最重要的視點(diǎn)能夠準確滿(mǎn)足用戶(hù)的需求。大量實(shí)驗評估表明,我們的方法在重建結果和魯棒泛化方面優(yōu)于先前的工作。

      MVBoost框架概述。給定一個(gè)單視圖圖像數據集,我們首先采用多視圖擴散模型生成原始多視圖數據集。然后將原始多視圖輸入到大型3D重建模型中,以生成3D高斯。從這個(gè)3D高斯點(diǎn)云中渲染出多個(gè)視圖,并通過(guò)擴散模型進(jìn)行精細化的多視圖數據集生成。在訓練過(guò)程中,精細化的多視圖數據集用于通過(guò)LoRA監督3D重建模型。最后,生成的3D高斯以?xún)?yōu)化的方式與特定輸入視點(diǎn)對齊,從而獲得高保真重建結果。


      10.基于貝葉斯理論的視覺(jué)語(yǔ)言模型的測試時(shí)間自適應

      Bayesian Test-Time Adaptation for Vision-Language Models

      論文作者:周李華,葉茂,李帥鋒,李念欣,朱霞天,鄧磊,劉宏斌,雷震

      預訓練視覺(jué)-語(yǔ)言模型通過(guò)在大規模圖文對數據上的訓練,展現出了強大的多模態(tài)表征能力,在圖像分類(lèi)等任務(wù)中表現出很好的性能。然而在應用中,測試數據往往和預訓練數據的分布存在較大差異,會(huì )導致模型性能下降。研究團隊提出一種新的TTA方法,稱(chēng)為Bayesian Class Adaptation (BCA),能夠在動(dòng)態(tài)環(huán)境中提升CLIP的分類(lèi)精度和推理效率。BCA 基于貝葉斯框架,將預測過(guò)程分解為兩個(gè)部分:可能性和先驗,并通過(guò)動(dòng)態(tài)更新使模型適應測試數據,該方法核心創(chuàng )新點(diǎn)包括:

      (1)先驗的動(dòng)態(tài)適應。傳統方法通常忽略先驗的存在,缺少靈活性,BCA能根據測試數據動(dòng)態(tài)調整先驗以適應當前數據分布。

      (2)高效的設計。BCA 不依賴(lài)反向傳播,而是通過(guò)輕量級的統計更新實(shí)時(shí)適應。在 ImageNet 數據集(ResNet-50模型)上的測試表明,BCA 的推理時(shí)間僅為 2.42 分鐘,內存占用只比 CLIP 增加了約 4MB。

      實(shí)驗結果表明,該方法在精度、魯棒性和效率上超越現有方法,適用于動(dòng)態(tài)現實(shí)場(chǎng)景,為視覺(jué)-語(yǔ)言模型的測試時(shí)適應提供了新思路。

      BCA流程:第 i 個(gè)測試圖像到達時(shí),首先通過(guò)視覺(jué)編碼器生成visual embedding,然后模型基于這個(gè)visual embedding進(jìn)行可能性更新,即更新模型中存儲的class embedding,然后再對模型執行先驗更新,即調整模型中的類(lèi)別先驗,最終輸出后驗概率(預測)


      11.大規模三維建圖的超輕量神經(jīng)表達

      3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping

      論文作者:師晨輝,唐付林,安寧,吳毅紅

      本文為大場(chǎng)景3D建圖提出了一個(gè)新的超級輕量的神經(jīng)表達,具有出色的表現力。該表達基于一組錨定在支持點(diǎn)上的帶限局部距離函數(SDF)定義了近表面空間的全局SDF。支持點(diǎn)從點(diǎn)云中采樣得到。這些局部 SDF 僅由一個(gè)小型的多層感知機(MLP) 參數化,不依賴(lài)高維的特征向量。每個(gè) SDF 的狀態(tài)由位置、旋轉和縮放三個(gè)可學(xué)習的幾何屬性控制,這使得該表示法能夠適應復雜的幾何形狀。然后,本文開(kāi)為這種無(wú)序表示開(kāi)發(fā)了一種新型并行算法,以高效檢測包含每個(gè)采樣點(diǎn)的局部 SDF,從而能夠在訓練過(guò)程中實(shí)時(shí)更新局部 SDF 狀態(tài)。此外,本文還引入了一種剪枝-擴展策略,以進(jìn)一步增強適應性。本文的低參數模型及其自適應能力的協(xié)同作用,使表達極其緊湊,同時(shí)具有出色表達能力的。實(shí)驗結果證明,本文的方法可以以1/5的內存占用達到最好的重建質(zhì)量。

      提出方法的框架


      12.基于置換等變性的相對相機位姿估計

      EquiPose: Exploiting Permutation Equivariance for Relative Camera Pose Estimation

      論文作者:劉雨臻,董秋雷

      相對相機位姿估計是三維計算機視覺(jué)領(lǐng)域中一個(gè)重要的研究主題。近年來(lái),研究者提出了許多相對位姿估計網(wǎng)絡(luò ),來(lái)學(xué)習從兩幅輸入圖像到它們對應的相對位姿之間的映射關(guān)系。然而,這些網(wǎng)絡(luò )并不具備相對位姿固有的姿態(tài)置換等變性(Pose Permutation Equivariance, PPE):從圖像A到圖像B的相機位姿矩陣,等于從圖像B到圖像A的相對位姿矩陣的逆。這意味著(zhù),當交換兩幅圖像的輸入順序時(shí),這些網(wǎng)絡(luò )將無(wú)法獲得一致的相對位姿結果。針對這一問(wèn)題,我們首次引入“PPE映射”的概念,即滿(mǎn)足上述PPE特性的映射。進(jìn)一步地,我們提出了一個(gè)通用的相對位姿估計框架EquiPose,該框架可以使用不同的相對位姿估計網(wǎng)絡(luò )作為基線(xiàn)模型,并約束基線(xiàn)模型具有PPE屬性。我們還從理論上證明:EquiPose框架學(xué)習到的映射一定是一個(gè)PPE映射。在四個(gè)公開(kāi)數據集上的實(shí)驗結果表明,對于若干預訓練的基線(xiàn)模型,EquiPose框架無(wú)需微調即可直接提升其性能,而在進(jìn)行微調后可以進(jìn)一步提升其性能。

      EquiPose框架結構圖


      13.基于遮擋感知神經(jīng)域自適應的自監督物體位姿估計

      ONDA-Pose: Occlusion-Aware Neural Domain Adaptation for Self-Supervised 6D Object Pose Estimation

      論文作者:譚濤,董秋雷

      物體位姿估計是計算機視覺(jué)領(lǐng)域中的一個(gè)重要主題,傳統方法依賴(lài)于高質(zhì)量的物體位姿標簽進(jìn)行全監督訓練,而自監督方法則通過(guò)利用未標注的真實(shí)圖像和合成數據進(jìn)行訓練,避免了對手動(dòng)標注的依賴(lài)。針對現有自監督方法在合成圖像與真實(shí)圖像之間的域差距以及遮擋問(wèn)題,本研究提出了一種基于遮擋感知神經(jīng)域自適應的自監督物體位姿估計方法——ONDA-Pose。該方法采用三階段訓練策略:首先,利用未標注的真實(shí)圖像和CAD模型,通過(guò)神經(jīng)輻射場(chǎng)技術(shù),生成與真實(shí)圖像具有相同物體位姿且紋理與CAD模型渲染圖像相似的合成圖像;其次,使用在CAD模型渲染的合成數據上預訓練的位姿估計器對合成圖像進(jìn)行初始位姿估計,并通過(guò)全局物體位姿優(yōu)化器生成偽標簽;最后,利用帶有偽標簽的真實(shí)圖像和合成圖像對位姿估計器進(jìn)行自監督訓練,進(jìn)一步提升其性能。實(shí)驗結果表明,相較于現有主流方法,我們的方法在大多數情況下取得了領(lǐng)先的性能。

      ONDA-Pose框架圖


      14.RoboBrain:實(shí)現從抽象指令理解到具象動(dòng)作表達的具身多模態(tài)模型

      RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

      論文作者:冀昱衡,譚樺杰,史佳禹,郝孝帥,張袁,張恒源,王鵬偉,趙夢(mèng)迪,穆堯,安鵬舉,薛昕達,蘇慶杭,呂懷海,鄭曉龍,劉家銘,王仲遠,仉尚航

      近年來(lái),多模態(tài)大語(yǔ)言模型(MLLMs)的快速發(fā)展顯著(zhù)推動(dòng)了通用人工智能的研究進(jìn)程。然而,盡管 MLLMs 在通用任務(wù)中表現出色,其在具身場(chǎng)景中的應用仍面臨巨大挑戰,尤其是在長(cháng)程操作任務(wù)中。這些任務(wù)不僅要求機器人能夠理解抽象指令,還需具備將指令轉化為具體動(dòng)作的能力。具體而言,長(cháng)程操作任務(wù)的成功執行依賴(lài)于以下三種核心能力:任務(wù)規劃能力、可操作區域感知能力和軌跡預測能力。然而,現有 MLLMs 在這些方面存在顯著(zhù)不足,這主要源于當前缺乏專(zhuān)門(mén)為MLLMs和機器人長(cháng)程操作任務(wù)設計的大規模、細粒度數據集。為了填補這一空白,我們提出了ShareRobot,一個(gè)專(zhuān)門(mén)為機器人操作任務(wù)設計的高質(zhì)量異構數據集?;赟hareRobot,我們開(kāi)發(fā)了 RoboBrain,這是一個(gè)能夠實(shí)現從抽象指令理解到具象動(dòng)作表達的統一具身多模態(tài)大腦模型,旨在增強機器人在長(cháng)程操作任務(wù)中的能力。通過(guò)精心設計的數據比例、多階段訓練策略以及長(cháng)視頻和高分辨率圖像輸入,RoboBrain 實(shí)現了從抽象指令理解到具象動(dòng)作表達的認知跨越,展現了其在機器人實(shí)際應用中的潛力。

      RoboBrain具備完成長(cháng)程操作任務(wù)的三項核心能力:任務(wù)規劃能力(Planning)、可操作區域感知能力(Affordance Perception)和軌跡預測能力(Trajectory Prediction)?;谖覀儤嫿ǖ腟hareRobot數據和通用多模態(tài)數據,RoboBrain經(jīng)過(guò)精心設計的多階段訓練,在多個(gè)具身場(chǎng)景基準中取得了最先進(jìn)的性能,實(shí)現了從抽象指令理解到具象動(dòng)作表達的認知跨越。


      15.生成模型在專(zhuān)業(yè)圖像設計中的差距與挑戰

      IDEA-Bench: How Far are Generative Models from Professional Designing?

      論文作者:梁晨,黃梁華,方景武,竇洹彰,王威,吳志凡,石宇鵬,張俊格,趙鑫,劉宇

      當前生成模型在文本到圖像(T2I)任務(wù)上取得顯著(zhù)進(jìn)展,但在專(zhuān)業(yè)設計領(lǐng)域仍存在能力缺陷,難以處理復雜指令、多輸入/輸出任務(wù)或實(shí)現專(zhuān)業(yè)級細節控制。為了量化這一差距,我們提出 IDEA-Bench,一個(gè)涵蓋 100 個(gè)專(zhuān)業(yè)設計任務(wù)的基準測試,全面評估當前生成模型在專(zhuān)業(yè)設計場(chǎng)景下的表現,并提供改進(jìn)方向。

      IDEA-Bench 包含 100 個(gè)任務(wù)、275 個(gè)測試案例,覆蓋文本到圖像、圖像編輯、多圖生成等五大類(lèi)別,并提供 IDEA-Bench-mini(18 個(gè)代表性任務(wù)) 進(jìn)行自動(dòng)評測。評估采用 1,650 個(gè)二元評分項,并結合多模態(tài)大模型(MLLM)輔助,以確保專(zhuān)業(yè)級任務(wù)的精準評估。

      實(shí)驗評測了 FLUX-1、GPT-4o + Stable Diffusion 3、DALL-E 3 等模型,最高得分僅 22.48/100,遠未達到專(zhuān)業(yè)級設計要求。結果表明,現有模型在多模態(tài)理解、風(fēng)格一致性和任務(wù)泛化方面仍存在顯著(zhù)挑戰,需進(jìn)一步優(yōu)化以縮小與專(zhuān)業(yè)設計師的能力差距。

      圖1.?IDEA-Bench概覽。IDEA-Bench 包含5個(gè)類(lèi)別,共計100個(gè)專(zhuān)業(yè)級子任務(wù)、275個(gè)測試用例、1,650個(gè)層次化評估問(wèn)題。圖中提供每個(gè)類(lèi)別子任務(wù)示例和定量統計數據,以及主流模型的排行榜。

      圖2.?IDEA-Bench從專(zhuān)業(yè)設計網(wǎng)站和設計師的任務(wù)數據中進(jìn)行分類(lèi)和構建,并根據生成模型的能力分配相應的能力關(guān)鍵詞。針對每個(gè)具體任務(wù),設計圖像生成提示詞和層次化評測問(wèn)題。評測人員隨后在一個(gè)具有代表性的數據子集中優(yōu)化這些評測問(wèn)題,以確保評測標準的合理性和一致性。


      16.DriveDreamer4D:以世界模型為數據引擎的4D駕駛場(chǎng)景表征方法

      DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

      論文作者:趙國盛,倪超駿,王嘯峰,朱政,張學(xué)陽(yáng),王一達,黃冠, 陳新澤,王泊遠,張友誼,梅文俊,王欣剛

      閉環(huán)仿真對于推進(jìn)端到端自動(dòng)駕駛系統至關(guān)重要。當前的傳感器仿真方法,例如NeRF和3DGS,主要依賴(lài)與訓練數據分布高度一致的條件,這些條件大多局限于前向駕駛場(chǎng)景。因此,這些方法在渲染復雜駕駛操作(如變道、加速、減速)時(shí)存在局限性。近期,自動(dòng)駕駛世界模型的進(jìn)展展示了生成多樣化駕駛視頻的潛力。然而,這些方法仍局限于2D視頻生成,本質(zhì)上缺乏捕捉動(dòng)態(tài)駕駛環(huán)境復雜細節所需的時(shí)空一致性。在本文中,我們提出了DriveDreamer4D,該方法利用世界模型先驗知識增強了4D駕駛場(chǎng)景表征能力。具體而言,我們利用世界模型作為數據引擎,合成新軌跡視頻,并顯式利用結構化條件來(lái)控制交通元素的時(shí)空一致性。此外,我們提出了“堂兄數據”訓練策略,以促進(jìn)真實(shí)數據與合成數據的融合,從而優(yōu)化4DGS。據我們所知,DriveDreamer4D是首個(gè)利用視頻生成模型改進(jìn)駕駛場(chǎng)景中4D重建的方法。實(shí)驗結果表明,DriveDreamer4D在新軌跡視圖下的生成質(zhì)量顯著(zhù)提升,在FID指標上分別比PVG、S3Gaussian和Deformable-GS提高了32.1%、46.4%和16.3%。此外,DriveDreamer4D顯著(zhù)提升了駕駛代理的時(shí)空一致性,這一結論通過(guò)全面的用戶(hù)研究以及NTA-IoU指標分別提升22.6%、43.5%和15.6%得到了驗證。

      圖1. 以往的4D高斯點(diǎn)云方法(如PVG、S3Gaussian、Deformable-GS)在渲染新軌跡(如變道)時(shí)面臨挑戰。DriveDreamer4D通過(guò)整合世界模型的先驗知識,增強了4D駕駛場(chǎng)景的表征能力,從而顯著(zhù)提升了復雜場(chǎng)景和新軌跡視角下的渲染質(zhì)量。

      圖2. DriveDreamer4D的整體框架。首先,通過(guò)改變原始軌跡的動(dòng)作(例如,轉向角度、速度),可以獲得新的軌跡。在第一幀和新軌跡的結構化信息(如3D邊界框、高清地圖)的條件下,生成對應的新軌跡視頻。隨后,將時(shí)間對齊的cousin pair(原始軌跡視頻與新軌跡視頻)進(jìn)行融合,以?xún)?yōu)化4D高斯點(diǎn)云模型,并通過(guò)計算正則化損失來(lái)確保感知一致性。


      17.視覺(jué)生成式模型的高效人類(lèi)偏好評估

      K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

      論文作者:李志凱,劉學(xué)文,Dongrong Joe Fu (UC Berkeley),李建權,顧慶毅,Kurt Keutzer (UC Berkeley),Zhen Dong (UC Berkeley)

      視覺(jué)生成式模型的快速發(fā)展需要高效且可靠的評估方法。Arena 平臺收集用戶(hù)對模型比較的投票,可以根據人類(lèi)偏好對模型進(jìn)行排名。然而,傳統Arena的成對對比方式、模型匹配策略以及模型能力建模方法使其在效率和可靠性上面臨挑戰,這會(huì )影響對新模型能力的快速評估和排行榜的及時(shí)更新。為此,本文提出K-Sort Arena,采用 K-wise 比較,允許 K 個(gè)模型參與自由混戰,提供比成對比較更豐富的信息,并設計基于探索-利用的匹配算法和概率建模,從而實(shí)現更高效和更可靠的模型排名。目前,K-Sort Arena 已收集幾千次高質(zhì)量投票并構建了全面的模型排行榜,已用于評估幾十種最先進(jìn)的視覺(jué)生成模型,包括文生圖和文生視頻模型。K-Sort Arena已經(jīng)歷數月的項目?jì)葴y,期間收到來(lái)自加州大學(xué)伯克利分校, 新加坡國立大學(xué), 卡內基梅隆大學(xué), 斯坦福大學(xué), 普林斯頓大學(xué), 北京大學(xué)等數十家機構的專(zhuān)業(yè)人員的技術(shù)反饋,現已公開(kāi)線(xiàn)上發(fā)布。

      K-Sort Arena總體流程


      18.CacheQuant:全面加速擴散模型

      CacheQuant: Comprehensively Accelerated Diffusion Models

      論文作者:劉學(xué)文,李志凱,顧慶毅

      擴散模型在圖像生成領(lǐng)域展現出卓越的能力。然而,由于時(shí)序和結構層面的冗余,其推理速度較慢且網(wǎng)絡(luò )復雜,限制了在低延遲應用中的實(shí)際部署?,F有的加速方法通常分別針對時(shí)序和結構兩個(gè)層面進(jìn)行優(yōu)化,但單獨優(yōu)化各層面往往導致顯著(zhù)的性能下降,而聯(lián)合優(yōu)化雖然能增強加速效果,卻并非完全正交,簡(jiǎn)單整合兩層面的優(yōu)化方法往往難以取得理想的性能表現。

      為此,我們提出了一種全新的CacheQuant范式,該方法無(wú)需額外訓練,通過(guò)聯(lián)合優(yōu)化模型緩存與量化技術(shù),實(shí)現對擴散模型時(shí)序和結構層面的全面加速。具體而言,我們采用動(dòng)態(tài)規劃方法優(yōu)化模型緩存調度,在充分考慮緩存與量化特性的基礎上,減少加速引入的誤差。此外,我們提出解耦誤差校正機制,進(jìn)一步緩解累積誤差的影響。實(shí)驗結果表明,CacheQuant 在Stable Diffusion 任務(wù)中實(shí)現了 5.18× 加速和 4× 模型壓縮,而CLIP 分數僅下降 0.02。

      本研究提出方法的總覽圖。我們采用動(dòng)態(tài)規劃方法(DPS)獲得引入加速誤差最小的模型緩存序列表,進(jìn)一步通過(guò)解耦誤差校正機制(DEC)緩解累積的誤差。


      19.HumanDreamer:通過(guò)解耦生成生成可控的人體運動(dòng)視頻

      HumanDreamer: Generating Controllable Human-Motion Videos via Decoupled Generation

      論文作者:王泊遠,王嘯峰,倪超駿,趙國盛,楊智欽,朱政,張沐陽(yáng),周鈺坤,陳新澤,黃冠,劉麗紅,王欣剛

      人體運動(dòng)視頻生成一直是一項具有挑戰性的任務(wù),主要是由于學(xué)習人體運動(dòng)固有的困難。雖然一些方法已經(jīng)嘗試通過(guò)姿態(tài)控制來(lái)明確地驅動(dòng)以人為中心的視頻生成,但是這些方法通常依賴(lài)于從現有視頻導出的姿態(tài),從而缺乏靈活性。為了解決這個(gè)問(wèn)題,我們提出了HumanDreamer,一個(gè)解耦的人類(lèi)視頻生成框架,首先從文本提示生成不同的姿勢,然后利用這些姿勢來(lái)生成人類(lèi)運動(dòng)視頻。具體來(lái)說(shuō),我們提出了MotionVid,這是用于人體運動(dòng)姿態(tài)生成的最大數據集?;跀祿?,我們提出了MotionDiT,它被訓練成從文本提示中生成結構化的人體運動(dòng)姿勢。此外,引入了一種新的LAMA損耗,這兩種損耗共同導致FID顯著(zhù)提高62.4%,沿著(zhù),top1、top2和top3的R精度分別提高41.8%、26.3%和18.3%,從而提高了文本到姿態(tài)控制精度和FID指標。我們在各種姿勢到視頻基線(xiàn)的實(shí)驗表明,我們的方法生成的姿勢可以產(chǎn)生多樣化和高質(zhì)量的人體運動(dòng)視頻。此外,我們的模型可以促進(jìn)其他下游任務(wù),如姿勢序列預測和2D-3D姿態(tài)升維。

      所提出的文本到姿態(tài)生成的訓練流程。姿態(tài)數據通過(guò)姿態(tài)變分自編碼器(Pose VAE)在潛在空間中編碼,隨后這些數據被提出的MotionDiT處理,在此過(guò)程中利用局部特征聚合和全局注意力來(lái)捕捉整個(gè)姿態(tài)序列的信息。最后,通過(guò)提出的CLoP計算LAMA損失,這增強了MotionDiT的訓練。


      20.基于貝葉斯提示流學(xué)習的零樣本異常檢測

      Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection

      論文作者:屈震,陶顯,宮新一,曲世辰,陳麒宇,張正濤,王欣剛,丁貴廣

      近年來(lái),視覺(jué)-語(yǔ)言模型在零樣本異常檢測中表現卓越,可利用輔助數據訓練后直接執行跨類(lèi)別異常檢測,如工業(yè)缺陷識別或醫療病灶檢測?,F有方法通常通過(guò)手工設計文本提示或優(yōu)化可學(xué)習的提示向量來(lái)構建文本輸入。然而,這些方法面臨以下挑戰:1) 手工設計的提示需要大量專(zhuān)家知識和反復試驗;2) 單一形式的可學(xué)習提示難以捕捉復雜的異常語(yǔ)義;3) 無(wú)約束的提示空間限制了模型對未見(jiàn)類(lèi)別的泛化能力。為了解決這些問(wèn)題,我們提出貝葉斯提示流學(xué)習(Bayes-PFL),從貝葉斯視角將提示空間建模為可學(xué)習的概率分布。具體而言,我們設計了一種提示流模塊,用于學(xué)習圖像特定和圖像無(wú)關(guān)的分布,并將二者結合以對文本提示空間進(jìn)行正則化,從而提升模型在未見(jiàn)類(lèi)別上的泛化能力。這些學(xué)習到的分布隨后用于采樣生成多樣化的文本提示,從而有效覆蓋提示空間。此外,我們引入了一種殘差跨模態(tài)注意力 (RCA) 模塊,以更好地對齊動(dòng)態(tài)文本嵌入與細粒度圖像特征。


      21.?BWFormer: 基于Transformer的機載雷達點(diǎn)云建筑物線(xiàn)框重建方法

      BWFormer: Building Wireframe Reconstruction from Airborne LiDAR Point Cloud with Transformer

      論文作者:劉昱州,朱靈杰,葉翰樵,黃尚鋒,高翔,鄭先偉,申抒含

      本文提出了一種基于Transformer結構從機載激光雷達點(diǎn)云重建建筑物線(xiàn)框結構的新模型:BWFormer。本方法采用自下而上的方式進(jìn)行求解,首先在2D平面上檢測建筑角點(diǎn),然后將其提升到3D空間并進(jìn)行連接關(guān)系的檢測,同時(shí)通過(guò)引入額外的數據增強來(lái)增強模型的泛化性。由于機載雷達點(diǎn)云的2.5D特性,本方法通過(guò)將點(diǎn)云投影到地面平面來(lái)生成2D高度圖從而簡(jiǎn)化問(wèn)題。在高度圖的基礎上,本方法首先預測一個(gè)像素級角點(diǎn)概率圖,以確定可能的2D角點(diǎn)。接著(zhù),基于 Transformer網(wǎng)絡(luò ),將2D角點(diǎn)與額外的高度嵌入結合進(jìn)行初始化,從而預測3D角點(diǎn)。這種2D-3D相結合的角點(diǎn)檢測策略顯著(zhù)減少了角點(diǎn)檢測的搜索空間。為了恢復角點(diǎn)之間的拓撲連接,本方法提出了新的邊注意力機制,從而利用高度圖中的幾何和視覺(jué)特征進(jìn)行邊預測。該機制能夠同時(shí)提取全局特征并保留局部細節。此外,考慮到該領(lǐng)域可用數據集有限且點(diǎn)云分布不規則的數據特性,本方法采用了條件隱變量擴散模型進(jìn)行激光雷達掃描模擬從而實(shí)現數據增強。實(shí)驗結果表明,BWFormer在建筑物線(xiàn)框重建指標尤其是完整性方面明顯優(yōu)于其他最新的主流方法。

      激光雷達點(diǎn)云線(xiàn)框重建面臨的挑戰與BWFormer流程圖


      22.揭示關(guān)鍵細節以辨差異:基于骨架動(dòng)作識別的全新原型視角

      Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition

      論文作者:劉宏達,劉云帆,任民,王昊,王云龍,孫哲南

      在基于骨架的動(dòng)作識別中,由于骨架表示缺乏圖像級的細節信息,區分具有相似關(guān)節軌跡的動(dòng)作成為一個(gè)關(guān)鍵挑戰。我們發(fā)現,相似動(dòng)作的區分依賴(lài)于特定身體部位的微妙運動(dòng)細節,因此本文方法聚焦于局部骨架結構的細粒度運動(dòng)特征。為此,我們提出ProtoGCN,一種基于圖卷積網(wǎng)絡(luò )(GCN)的模型。該模型將整個(gè)骨架序列的動(dòng)態(tài)分解為一系列可學(xué)習原型的組合,這些原型代表了不同的核心運動(dòng)模式。通過(guò)對比原型重建結果,ProtoGCN能夠有效識別并增強相似動(dòng)作的判別性表示。在不依賴(lài)復雜技巧的情況下,ProtoGCN在多個(gè)基準數據集(包括NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM)上均達到了最先進(jìn)的性能,充分驗證了所提方法的有效性。

      骨架及學(xué)習拓撲結構的示意圖。如圖中(a)和(c)所示,對于相似動(dòng)作“書(shū)寫(xiě)”和“鍵盤(pán)打字”,基線(xiàn)模型雖然能夠關(guān)注手部相關(guān)關(guān)節,但在揭示其獨特運動(dòng)特征方面存在不足。相比之下,本文提出的圖原型重建機制能夠準確區分這兩個(gè)動(dòng)作,這點(diǎn)從(b)和(d)所體現的顯著(zhù)運動(dòng)模式差異上得到了驗證。


      23.在持續測試域自適應中維持類(lèi)間拓撲一致性

      Maintaining Consistent Inter-Class Topology in Continual Test-Time Adaptation

      論文作者:倪成功,呂凡,檀佳垚,胡伏原,姚睿,周濤

      本文介紹了一種名為T(mén)opological Consistency Adaptation (TCA)的新型持續測試時(shí)自適應(CTTA)方法,旨在解決測試場(chǎng)景中領(lǐng)域偏移和錯誤累積的挑戰。TCA通過(guò)引入類(lèi)拓撲一致性約束,確保在連續自適應過(guò)程中類(lèi)間關(guān)系的穩定性,最小化類(lèi)中心的失真并保持拓撲結構。此外,TCA還提出了一種類(lèi)內緊湊性損失,以保持類(lèi)內特征的緊湊性,間接支持類(lèi)間穩定性。同時(shí),引入了一種批不平衡拓撲加權機制,以考慮每個(gè)批次內類(lèi)分布的不平衡,優(yōu)化中心距離并穩定類(lèi)間拓撲結構。實(shí)驗結果表明,TCA方法在處理連續領(lǐng)域偏移方面表現出色,能夠確保特征分布的穩定性,并顯著(zhù)提高預測性能。在CIFAR-10-C、CIFAR-100-C和ImageNet-C三個(gè)基準任務(wù)上的廣泛實(shí)驗表明,TCA在平均錯誤率方面優(yōu)于其他方法,分別將平均錯誤率降低到14.7%、29.7%和59.3%。這表明,保持平衡和穩定的類(lèi)間拓撲以及類(lèi)內特征的均勻性,可以有效緩解CTTA中的錯誤累積問(wèn)題。

      框架概述。TCA首先關(guān)注類(lèi)間特征分布的均勻性,利用增強的偽標記預測來(lái)計算偽質(zhì)心代理,從而使類(lèi)間特征均勻化。隨后,TCA保持了類(lèi)內特征的緊湊分布,從而減輕了類(lèi)特征分布內的不平衡。最后,TCA根據詳細的歷史預測分布連續地維護類(lèi)間質(zhì)心的動(dòng)態(tài)權重,從而保持類(lèi)間潛在的拓撲關(guān)系。


      24.超越背景偏移:重新思考持續語(yǔ)義分割中的實(shí)例重放

      Beyond Background Shift: Rethinking Instance Replay in Continual Semantic Segmentation

      論文作者:尹紅梅,馮廷亮,呂凡,尚凡華,劉紅英,馮偉,萬(wàn)亮

      在這項工作中,我們聚焦于持續語(yǔ)義分割(CSS)任務(wù),其中分割網(wǎng)絡(luò )需要不斷學(xué)習新類(lèi)別,同時(shí)避免遺忘已學(xué)類(lèi)別的知識。盡管在分類(lèi)任務(wù)中,存儲舊類(lèi)別的圖像并將其直接納入新模型的訓練已被證明可以有效緩解災難性遺忘,但這一策略在 CSS 任務(wù)中存在顯著(zhù)局限性。具體而言,存儲的圖像和新圖像通常只包含部分類(lèi)別的標注,這可能導致未標注類(lèi)別與背景混淆,從而增加模型擬合的難度。為了解決這一問(wèn)題,本文提出了一種 EIR 方法,該方法不僅通過(guò)存儲舊類(lèi)別的實(shí)例來(lái)保留舊知識,并同時(shí)消除背景混淆,還通過(guò)將存儲的實(shí)例與新圖像融合來(lái)緩解新數據中的背景偏移問(wèn)題。通過(guò)有效解決存儲圖像和新圖像中的背景偏移,EIR 能夠顯著(zhù)緩解 CSS 任務(wù)中的災難性遺忘,從而提升模型在 CSS 任務(wù)中的表現能力。實(shí)驗結果驗證了我們方法的有效性,EIR 方案在 CSS 任務(wù)上顯著(zhù)優(yōu)于當前最先進(jìn)的方法。

      圖1.傳統圖像重放方法與我們提出的重放方法的示意圖。(a) 該圖展示了存儲圖像中僅標注了舊類(lèi)別 “horse”,而其他類(lèi)別(新類(lèi)別 “person” 和舊類(lèi)別 “car”)被標注為背景。此外,新圖像中的舊類(lèi)別(“horse”)以及未來(lái)類(lèi)別也被標注為背景。(b) 我們的方法通過(guò)保留實(shí)例來(lái)避免存儲圖像中的混淆信息,并通過(guò)將這些實(shí)例融合到新圖像中來(lái)緩解背景偏移問(wèn)題。

      圖2.方法的詳細架構圖。首先,根據類(lèi)別從舊數據中采樣實(shí)例。隨后,在類(lèi)別組合階段,通過(guò)舊模型識別潛在的舊類(lèi)別。在實(shí)例選擇階段,從實(shí)例池中選擇潛在類(lèi)別的實(shí)例。之后,計算實(shí)例在新圖像中的放置位置,并將其與新圖像融合生成融合圖像。最后,對融合圖像進(jìn)行增強訓練。


      25.基于雙重語(yǔ)義引導的開(kāi)放詞匯語(yǔ)義分割

      Dual Semantic Guidance for Open Vocabulary Semantic Segmentation

      論文作者:王正揚,馮廷亮,呂凡,尚凡華,馮偉,萬(wàn)亮

      開(kāi)放詞匯語(yǔ)義分割旨在使模型能夠分割任意類(lèi)別。目前,盡管像 CLIP 這樣的預訓練視覺(jué)語(yǔ)言模型(VLM)通過(guò)從大規模數據中學(xué)習匹配文本和圖像表示為該任務(wù)奠定了堅實(shí)的基礎,但它們缺乏像素級識別能力。大多數現有方法利用文本作為引導來(lái)實(shí)現像素級語(yǔ)義分割。然而,文本語(yǔ)義的固有偏差以及缺乏像素級監督信息難以有效微調基于 CLIP 的模型頗具挑戰性。本文考慮同時(shí)捕獲圖像和文本中包含的語(yǔ)義信息,構建雙重語(yǔ)義引導及相應的像素級偽標注。本文提出增強區域感知來(lái)正確捕捉視覺(jué)語(yǔ)義引導,并從文本中抓取名詞作為文本于一引導,聯(lián)合微調基于 CLIP 的分割模型,從而實(shí)現良好的細粒度識別能力。綜合評估表明,在八種常用數據集上,我們的方法大幅超越了最先進(jìn)的成果。

      圖1. 目前開(kāi)放詞匯分割方法的不足以及我們雙重語(yǔ)義引導的示意圖。(a)該圖展示了僅依賴(lài)名詞會(huì )導致圖像表示在大類(lèi)上收斂,存在語(yǔ)義偏差。(b) 該圖展示了先前方法使用圖像-文本匹配來(lái)監督分割的局限性,這類(lèi)方法的會(huì )導致粗糙的分割,甚至是未分割的狗都被判定為分割完整。(c) 我們的方法從圖像-文本對中捕獲雙重語(yǔ)義引導,協(xié)同指導模型訓練。

      圖2. 雙重語(yǔ)義引導生成階段的示意圖。(1)該圖的左部分展示了數據處理的流程,具體來(lái)說(shuō),我們通過(guò)SAM獲得實(shí)例集,并通過(guò)區域感知加強模塊提取實(shí)例特征,再經(jīng)過(guò)聚類(lèi)篩選獲得視覺(jué)語(yǔ)義引導與對應分割標簽。其次,我們提取文本中名詞,獲得文本語(yǔ)義引導。(2)該圖右部分展示了區域感知加強模塊。通過(guò)依據實(shí)例的掩碼改變注意力圖,加強對前景區域的感知。


      26.打破線(xiàn)性注意力的低秩困境

      Breaking the Low-rank Dilemma of Linear Attention

      論文作者:樊齊航,黃懷波,赫然

      Transformer 模型中的 Softmax 注意力機制因其 二次復雜度 而計算代價(jià)高昂,在視覺(jué)應用中面臨巨大挑戰。相比之下,線(xiàn)性注意力(Linear Attention) 通過(guò)將計算復雜度降低到線(xiàn)性水平,提供了一種更加高效的解決方案。然而,線(xiàn)性注意力通常比 Softmax 注意力表現更差。我們的實(shí)驗表明,這種性能下降主要源于 線(xiàn)性注意力輸出特征映射的低秩特性,導致其難以充分建模復雜的空間信息。

      為了解決這一 低秩問(wèn)題,我們從 KV 緩沖區 和 輸出特征 兩個(gè)角度對其秩進(jìn)行了深入分析?;诖?,我們提出了 Rank-Augmented Linear Attention(RALA),它在保持 線(xiàn)性復雜度和高效性 的同時(shí),性能可與 Softmax 注意力相媲美。在 RALA 的基礎上,我們構建了 Rank-Augmented Vision Linear Transformer(RAVLT)。大量實(shí)驗表明,RAVLT 在多種視覺(jué)任務(wù)上均能取得出色的性能。

      對比 Softmax 注意力 和不同 線(xiàn)性注意力 所輸出的特征圖。所有實(shí)驗均基于 DeiT-T 架構 進(jìn)行,設 N = 196,d = 64,圖中矩陣的滿(mǎn)秩為 64。與 Softmax 注意力相比,各種線(xiàn)性注意力的輸出特征表現出明顯的 低秩特性,這表明線(xiàn)性注意力所學(xué)習到的特征多樣性 遠不及 Softmax 注意力。RALA解決了這一問(wèn)題,有效提升了模型學(xué)習到特征的秩


      27.邁向駕駛場(chǎng)景的自由視角仿真

      FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes

      論文作者:范略*,張淏*,王啟泰,李鴻升,張兆翔

      我們提出了FreeSim,一種面向自動(dòng)駕駛的相機模擬方法。FreeSim強調在記錄的自車(chē)軌跡之外的視角上實(shí)現高質(zhì)量渲染。在此類(lèi)視角下,由于缺乏訓練數據,以往方法存在不可接受的性能下降。為解決數據稀缺問(wèn)題,我們首先提出了一種生成增強模型,并搭配匹配的數據構建策略。該模型能夠在略微偏離記錄軌跡的視角上生成高質(zhì)量圖像,條件是該視角的降質(zhì)渲染。隨后,我們提出了一種漸進(jìn)式重建策略,從略微偏離軌跡的視角開(kāi)始,逐步將未記錄視角的生成圖像加入重建過(guò)程,并逐步擴大偏離距離。通過(guò)這種漸進(jìn)生成-重建流程,FreeSim支持在超過(guò)3米的大幅偏離下實(shí)現高質(zhì)量的軌跡外視角合成。

      FreeSim 方法使得大范圍相機偏移下仍然有著(zhù)較高的保真度,支持自由視角的駕駛場(chǎng)景仿真。


      28.靈活軌跡上的駕駛場(chǎng)景重建和渲染

      FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering

      論文作者:周靜秋*,范略*,黃林江,石曉宇,劉偲,張兆翔,李鴻升

      利用3D高斯潑濺技術(shù),駕駛場(chǎng)景重建和渲染取得了顯著(zhù)進(jìn)展。然而,先前的研究大多集中在預記錄車(chē)輛路徑上的渲染質(zhì)量,難以推廣到路徑外的視角,這是由于缺乏這些視角的高質(zhì)量監督。為解決這一問(wèn)題,我們引入了逆視圖扭曲技術(shù),生成緊湊且高質(zhì)量的圖像作為路徑外視角重建的監督,從而實(shí)現這些視角的高質(zhì)量渲染。為了準確且穩健地進(jìn)行逆視圖扭曲,提出了一種深度引導策略,在優(yōu)化過(guò)程中實(shí)時(shí)獲取密集深度圖,克服了LiDAR深度數據的稀疏性和不完整性。我們的方法在廣泛使用的Waymo Open數據集上實(shí)現了優(yōu)異的路徑內和路徑外重建與渲染性能。此外,提出了一個(gè)基于模擬器的基準測試,以獲取路徑外的真實(shí)數據并定量評估路徑外渲染性能,我們的方法在此方面顯著(zhù)優(yōu)于以往方法。

      FlexDrive方法可以在高速環(huán)境下模擬cut-in等行為,并保證視覺(jué)保真度。


      29.R-TPT:通過(guò)測試時(shí)提示調整提高視覺(jué)語(yǔ)言模型的對抗魯棒性

      R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning

      論文作者:生力軍,梁堅,王子磊,赫然

      隨著(zhù)CLIP等視覺(jué)語(yǔ)言模型作為基礎模型的廣泛應用,針對下游任務(wù)的微調方法層出不窮。然而,由于這些模型固有的脆弱性以及有限的開(kāi)源選擇,視覺(jué)語(yǔ)言模型比傳統視覺(jué)模型面臨更高的對抗攻擊風(fēng)險?,F有的防御技術(shù)通常依賴(lài)于訓練期間的對抗性微調,這需要標注數據且難以跨任務(wù)泛化。為了解決這些局限性,我們提出了R-TPT方法,通過(guò)在推理階段減輕對抗攻擊的影響來(lái)增強模型的魯棒性。我們首先通過(guò)消除經(jīng)典的邊際熵目標中對于對抗樣本沖突的損失項,僅保留點(diǎn)熵最小化。此外,我們引入了一種即插即用的基于可靠性的加權集成策略,該策略從可靠的增強視圖中聚合有用信息以加強防御。R-TPT方法在不需標注訓練數據的情況下增強了對對抗攻擊的防御能力,同時(shí)為推理任務(wù)提供了高度的靈活性。

      R-TPT的方法流程示意圖


      30.通過(guò)大語(yǔ)言模型對步態(tài)識別特征進(jìn)行序列建模

      Bridging Gait Recognition And Large Language Models Sequence Modeling

      論文作者:楊少鵬*,王繼隆*,侯賽輝,劉旭,曹春水,王亮,黃永禎

      步態(tài)序列展現出與自然語(yǔ)言相似的序列結構和上下文關(guān)系,其中每個(gè)元素——無(wú)論是單詞還是步態(tài)步驟——都與其前后元素相關(guān)聯(lián)。這種相似性使得步態(tài)序列可以轉化為包含身份信息的“文本”。大型語(yǔ)言模型(LLMs)旨在理解和生成序列數據,因此可以用于步態(tài)序列建模,以提升步態(tài)識別的性能?;谶@些見(jiàn)解,我們首次嘗試將LLMs應用于步態(tài)識別,并將其稱(chēng)為GaitLLM。我們提出了步態(tài)到語(yǔ)言模塊,將步態(tài)序列轉化為適合LLMs的文本格式,以及語(yǔ)言到步態(tài)模塊,將LLMs的輸出映射回步態(tài)特征空間,從而彌合LLM輸出與步態(tài)識別之間的差距。值得注意的是,GaitLLM利用LLMs強大的建模能力,而無(wú)需依賴(lài)復雜的架構設計,僅通過(guò)少量可訓練參數即可提升步態(tài)識別性能。我們的方法在四個(gè)流行的步態(tài)數據集上取得了最先進(jìn)的結果,證明了LLMs在這一領(lǐng)域應用的有效性。

      GaitLLM的概念示意圖


      31.在多模態(tài)大型語(yǔ)言模型的安全對齊中我們是否真的需要精心挑選的惡意數據?

      Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

      論文作者:王彥博,關(guān)霽洋,梁堅,赫然

      多模態(tài)大型語(yǔ)言模型 (MLLM) 取得了重大進(jìn)展,但其安全性對齊仍然有限。通常,當前的樊齊航開(kāi)源 MLLM 依靠從其語(yǔ)言模塊繼承的對齊來(lái)避免有害內容的生成。然而,缺乏專(zhuān)門(mén)為多模態(tài)輸入設計的安全措施會(huì )造成模態(tài)間的對齊差距,使 MLLM 容易受到視覺(jué)域攻擊,例如排版操縱攻擊。當前的安全對齊方法利用精心設計的安全數據集來(lái)增強模型防御能力,但仍不清楚模型從高質(zhì)量數據集學(xué)到了什么具體的特定知識或模式。通過(guò)比較實(shí)驗,我們發(fā)現對齊差距主要源于數據分布偏差,而圖像內容、響應質(zhì)量或數據集的對比行為對提高多模態(tài)安全性貢獻有限。為了進(jìn)一步研究這一點(diǎn)并確定提高 MLLM 安全性的關(guān)鍵因素,我們建議在一小組良性的指令遵循數據上對 MLLM 進(jìn)行微調,將響應替換為簡(jiǎn)單、清晰的拒絕回答格式。實(shí)驗表明,無(wú)需耗費大量人力收集高質(zhì)量惡意數據,只要微調集中存在特定比例的拒絕數據,模型安全性仍可得到顯著(zhù)提升,這表明在多模態(tài)預訓練或指令微調期間,安全性對齊不會(huì )丟失,而僅僅會(huì )被掩蓋。只需糾正底層數據偏差,即可縮小視覺(jué)領(lǐng)域的安全差距。

      研究流程示意圖


      32.PhysVLM: 讓視覺(jué)語(yǔ)言模型理解機器人的物理可達性

      PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability

      論文作者:周偉杰,陶滿(mǎn)禮,趙朝陽(yáng),郭海云,董宏輝,唐明,王金橋

      大模型作為具身智能體決策的“大腦”,是實(shí)現現實(shí)世界中泛化操作的關(guān)鍵要素之一,但環(huán)境的視覺(jué)感知與物理空間約束的協(xié)同理解仍是實(shí)現可靠操作的主要挑戰。本研究提出首個(gè)機器人物理空間具身大模型——PhysVLM,有效整合了對環(huán)境的視覺(jué)理解和對具身智能體的物理空間約束感知,從而生成更加可行和可靠的動(dòng)作決策。研究亮點(diǎn)體現為:

      (1)具身空間-物理約束建模(S-P Map encoding)。將機器人物理空間約束轉化為可學(xué)習的視覺(jué)語(yǔ)義表征,使模型無(wú)需學(xué)習具體機械參數,即可實(shí)現跨機器人平臺的泛化能力。

      (2)視覺(jué)-物理空間協(xié)同推理架構。PhysVLM創(chuàng )新性地采用雙分支特征編碼器設計,實(shí)現環(huán)境視覺(jué)語(yǔ)義與本體物理空間約束的特征交互,在保持通用視覺(jué)推理性能的同時(shí),顯著(zhù)增強對操作可行性的推理能力。

      (3)具身物理空間多模態(tài)數據集Phys100K。包括6類(lèi)工業(yè)機械臂、10萬(wàn)組操作場(chǎng)景,涵蓋RGB圖像—可達物理空間圖(S-P Map)—具身物理問(wèn)答三元組數據。配套開(kāi)發(fā)的EQA-phys評估基準包含帶有4類(lèi)工業(yè)機械臂的仿真環(huán)境和問(wèn)答數據。

      實(shí)驗結果表明,PhysVLM相較于GPT-4o實(shí)現了14%的性能提升;在通用具身推理任務(wù)中,超越RoboMamba等具身多模態(tài)大模型(+8.6%)。所提方法展現出優(yōu)秀兼容性,與GPT-4o集成后,操作可行性判斷準確率提升7.1%。模型可準確識別機器人對物體的空間不可達性,并提出如“先利用地盤(pán)移動(dòng)靠近目標再進(jìn)行機械臂操作”等合理建議。

      圖1.PhysVLM框架圖

      圖2.機器人物理可達性理解任務(wù)展示


      33.UniVAD: 面向小樣本視覺(jué)異常檢測的跨領(lǐng)域統一模型

      UniVAD: A Training-free Unified Model for Few-shot Visual Anomaly Detection

      論文作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋

      視覺(jué)異常檢測旨在識別圖像中偏離正常模式的異常樣本,涵蓋工業(yè)、邏輯、醫療等多個(gè)領(lǐng)域。由于這些領(lǐng)域之間存在數據分布差異,現有的異常檢測方法通常需要針對每個(gè)特定領(lǐng)域量身定制,采用專(zhuān)門(mén)設計的檢測技術(shù)和模型架構,難以在不同領(lǐng)域之間泛化應用,這阻礙了異常檢測的跨領(lǐng)域統一。

      為解決這一問(wèn)題,我們提出了一種無(wú)需訓練的跨領(lǐng)域統一的小樣本異常檢測方法——UniVAD。UniVAD無(wú)需在特定領(lǐng)域數據上進(jìn)行訓練,僅在測試階段提供少量正常樣本作為參考,即可檢測先前從未見(jiàn)過(guò)的物品類(lèi)別中的異常。具體而言,UniVAD采用基于視覺(jué)基礎模型和聚類(lèi)方法的上下文組件聚類(lèi)(C3)模塊精確分割圖像中的組件,并利用組件感知補丁匹配(CAPM)和圖增強組件建模(GECM)模塊分別檢測圖像中不同語(yǔ)義層次的異常,從而實(shí)現跨領(lǐng)域統一異常檢測。

      在涵蓋工業(yè)、邏輯、醫療領(lǐng)域的九個(gè)數據集上的實(shí)驗結果表明,UniVAD在多個(gè)領(lǐng)域的小樣本異常檢測任務(wù)中均實(shí)現了最先進(jìn)的性能,優(yōu)于特定領(lǐng)域的異常檢測模型。相關(guān)代碼已開(kāi)源。

      圖1. UniVAD 與現有異常檢測方法在 1-shot 場(chǎng)景下的性能對比

      圖2.?UniVAD 整體結構圖


      34.基于對話(huà)優(yōu)化的跨模態(tài)對齊的對話(huà)式行人檢索

      Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

      論文作者:白楊,季榆程,曹敏,王金橋,葉茫

      傳統基于文本的行人檢索依賴(lài)單次輸入的文本描述作為查詢(xún)。然而,在實(shí)際場(chǎng)景中,難以確保該查詢(xún)能夠完全反映用戶(hù)的檢索意圖。為解決這一問(wèn)題,我們提出了一種新的檢索范式——對話(huà)式行人檢索,通過(guò)交互式對話(huà)作為查詢(xún),并結合對話(huà)上下文逐步優(yōu)化查詢(xún)內容,從而實(shí)現更精準的行人檢索。然而,該任務(wù)面臨的首要挑戰是缺乏可用的對話(huà)-圖像配對數據。為此,我們構建了首個(gè)面向對話(huà)式行人檢索的數據集ChatPedes,該數據集利用大語(yǔ)言模型自動(dòng)生成問(wèn)題并模擬用戶(hù)響應,從而完成對話(huà)構建。此外,為了減少對話(huà)與圖像之間的模態(tài)差異,我們提出了一種對話(huà)優(yōu)化的跨模態(tài)對齊框架,該框架通過(guò)兩個(gè)自適應屬性挖掘模塊,分別從對話(huà)和圖像中提取行人關(guān)鍵屬性,從而實(shí)現細粒度的跨模態(tài)對齊。同時(shí),我們還設計了一種針對對話(huà)的數據增強策略——隨機輪次保留,以增強模型在不同對話(huà)長(cháng)度下的泛化能力。

      對話(huà)式行人檢索概述:對話(huà)構建(Dialogue Building)通過(guò)對話(huà)歷史生成后續問(wèn)題,提示用戶(hù)逐步提供更多關(guān)于目標行人的信息,最終形成關(guān)于目標行人的對話(huà)查詢(xún)(Dialogue Query)。對話(huà)優(yōu)化的跨模態(tài)對齊框架(DiaNA)旨在減少對話(huà)與圖像之間的模態(tài)差異,并利用可學(xué)習的屬性查詢(xún)提取關(guān)鍵信息,從而實(shí)現細粒度的跨模態(tài)對齊。


      35.合成數據是持續視覺(jué)語(yǔ)言模型的一份優(yōu)雅禮物

      Synthetic Data is an Elegant GIFT for Continual Vision-Language Models

      論文作者:吳彬,施武軒,王金橋,葉茫

      預訓練視覺(jué)語(yǔ)言模型(VLM)需要通過(guò)持續學(xué)習來(lái)更新知識并適應多種下游任務(wù)。然而,在持續微調的過(guò)程中,VLM不僅容易遺忘歷史下游任務(wù),還可能遺忘預訓練習得的通用知識,導致泛化能力退化。傳統方法依賴(lài)重放部分歷史數據來(lái)緩解遺忘,不適用于預訓練數據通常無(wú)法獲取的VLM。本文提出合成數據輔助的持續微調(GIFT),利用擴散模型重現VLM的預訓練和下游任務(wù)數據。我們設計了對比蒸餾損失和圖文對齊約束,通過(guò)匹配合成圖像和對應的文本提示,引導VLM在知識蒸餾中回顧習得的知識。此外,為了降低合成數據量有限帶來(lái)的過(guò)擬合風(fēng)險并提升蒸餾效果,我們引入了自適應權重鞏固,基于合成圖像-文本對中的Fisher信息實(shí)現更好的穩定性-可塑性平衡。實(shí)驗結果表明,當提示詞分別由語(yǔ)義多樣的外部視覺(jué)概念和下游任務(wù)類(lèi)別名構建時(shí),擴散模型生成的圖像能夠有效近似VLM的預訓練和下游任務(wù)數據,從而有助于維持VLM在持續微調中的泛化能力并減輕災難性遺忘。

      GIFT框架圖。子圖(a)為基于合成數據的蒸餾,通過(guò)對比蒸餾損失對齊當前模型和歷史模型在匹配合成圖像-文本對時(shí)的輸出,通過(guò)圖文對齊約束修正教師模型可能存在的錯誤。子圖(b)為自適應權重鞏固,使用合成圖像-文本對的Fisher信息加權L2約束,懲罰導致遺忘的參數更新。


      36.運動(dòng)感知的高效視頻多模態(tài)語(yǔ)言模型

      Efficient Motion-Aware Video MLLM

      論文作者:趙子嘉,霍宇琦,岳同天,郭龍騰,盧浩宇,王炳寧,陳煒鵬,劉靜

      大多數當前的視頻多模態(tài)語(yǔ)言模型(MLLM)依賴(lài)于均勻幀采樣和圖像級編碼器,這導致了數據處理效率低下和有限的運動(dòng)感知。為了解決這些問(wèn)題,我們提出了EMA,一種高效的運動(dòng)感知視頻多模態(tài)語(yǔ)言模型,利用壓縮視頻結構作為輸入。我們提出了一種運動(dòng)感知GOP(圖像組)編碼器,它在壓縮視頻流中的GOP單元內融合空間和運動(dòng)信息,生成緊湊且富有語(yǔ)義的視覺(jué)標記。通過(guò)在這種原生慢-快輸入架構中,將較少但密集的RGB幀與更多但稀疏的運動(dòng)向量結合,我們的方法減少了冗余并增強了運動(dòng)表示。此外,我們還引入了MotionBench,一個(gè)評估四種運動(dòng)類(lèi)型(線(xiàn)性、曲線(xiàn)、旋轉和基于接觸的)運動(dòng)理解的基準。實(shí)驗結果表明,EMA在MotionBench和流行的視頻問(wèn)答基準上均達到了最先進(jìn)的性能,同時(shí)降低了推理成本。此外,EMA還表現出強大的可擴展性,在長(cháng)視頻理解基準上也展現了具有競爭力的性能。

      基于GOP編碼模式的高效理解架構


      37.面向異步視頻生成的自回歸擴散生成方法

      AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

      論文作者:孫銘真,王衛寧,李根,劉佳偉,孫家輝,馮萬(wàn)泉,勞珊珊,周思宇,何茜,劉靜

      視頻生成的任務(wù)需要合成視覺(jué)上逼真且時(shí)間上連貫的視頻幀?,F有的方法主要使用異步自回歸模型或同步擴散模型來(lái)解決這一挑戰。然而,異步自回歸模型通常存在誤差累積等問(wèn)題,而同步擴散模型則受限于其對固定序列長(cháng)度的依賴(lài)。為了解決這些問(wèn)題,我們提出了一種新穎的模型——自回歸擴散模型(Auto-Regressive Diffusion, AR-Diffusion),它結合了自回歸模型和擴散模型的優(yōu)勢,實(shí)現了靈活、異步的視頻生成。具體來(lái)說(shuō),我們的方法利用擴散過(guò)程在訓練和推理階段逐漸破壞視頻幀,從而減少這兩個(gè)階段之間的差異。受自回歸生成的啟發(fā),我們在單個(gè)幀的破壞時(shí)間步上引入了非遞減約束,確保較早的幀比后續的幀保持更清晰的狀態(tài)。此外,我們設計了兩種專(zhuān)門(mén)的時(shí)間步調度器:FoPP調度器用于在訓練期間平衡時(shí)間步采樣,AD調度器用于在推理期間實(shí)現靈活的時(shí)間步差異,支持同步和異步生成。大量實(shí)驗證明了我們提出的方法的優(yōu)越性,該方法在四個(gè)具有挑戰性的基準測試中取得了具有競爭力且領(lǐng)先的結果。

      圖1.不同的生成模型表現的不同特性

      圖2. AR-Diffusion的整體框架圖


      來(lái)源:中國科學(xué)院自動(dòng)化研究所


      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>