解碼人類(lèi)視覺(jué)神經(jīng)表征是一項具有重要科學(xué)意義的挑戰,可以揭示視覺(jué)處理機制并促進(jìn)腦科學(xué)與人工智能的發(fā)展。然而,目前的神經(jīng)解碼方法難以泛化到訓練數據以外的新類(lèi)別,主要挑戰在于現有方法未充分利用神經(jīng)數據背后的多模態(tài)語(yǔ)義知識,且現有的可利用的配對(刺激-腦響應)訓練數據很少。
近日,中科院自動(dòng)化所神經(jīng)計算與腦機交互團隊將大腦、視覺(jué)和語(yǔ)言知識相結合,通過(guò)多模態(tài)學(xué)習實(shí)現了從人類(lèi)腦活動(dòng)中零樣本地解碼視覺(jué)新類(lèi)別。相關(guān)研究成果以Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features為題發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE TPAMI)。人類(lèi)對視覺(jué)刺激的感知和識別受到視覺(jué)特征和人們先前經(jīng)驗的影響,例如當人們看到一個(gè)熟悉的物體時(shí),大腦會(huì )自然而然地檢索與該物體相關(guān)的知識,如圖1所示?;诖?,本研究提出“腦-圖-文”三模態(tài)聯(lián)合學(xué)習框架,在使用實(shí)際呈現的視覺(jué)語(yǔ)義特征的同時(shí),加入與該視覺(jué)目標對象相關(guān)的更豐富的語(yǔ)言語(yǔ)義特征,以更好地解碼腦信號。
該研究證明,從人腦活動(dòng)中解碼新的視覺(jué)類(lèi)別是可以實(shí)現的,并且精度較高;使用視覺(jué)和語(yǔ)言特征的組合比僅使用其中之一的解碼表現更好;在人腦語(yǔ)義表征過(guò)程中,視覺(jué)加工會(huì )受到語(yǔ)言的影響。
相關(guān)發(fā)現不僅對人類(lèi)視覺(jué)系統的理解有所啟示,也有望為腦機接口技術(shù)提供新思路。研究團隊介紹,本工作提出的方法具有三個(gè)方面的潛在應用:作為一種神經(jīng)語(yǔ)義解碼工具,此方法將在新型讀取人腦語(yǔ)義信息的神經(jīng)假肢設備的開(kāi)發(fā)中發(fā)揮重要作用,可為其提供技術(shù)基礎;作為神經(jīng)編碼工具,通過(guò)跨模態(tài)推斷腦活動(dòng),用于研究視覺(jué)和語(yǔ)言特征如何在人類(lèi)大腦皮層上表達,揭示哪些腦區具有多模態(tài)屬性(即對視覺(jué)和語(yǔ)言特征敏感);作為類(lèi)腦特性評估工具,測試哪個(gè)模型的(視覺(jué)或語(yǔ)言)表征更接近于人類(lèi)腦活動(dòng),從而激勵研究人員設計更加類(lèi)腦的計算模型。
論文第一作者為中國科學(xué)院特別研究助理杜長(cháng)德,通訊作者為何暉光研究員。研究工作得到了科技部科技創(chuàng )新2030—“新一代人工智能”重大項目、基金委項目、中國科學(xué)院自動(dòng)化研究所2035創(chuàng )新任務(wù)以及CAAI-華為MindSpore學(xué)術(shù)獎勵基金及智能基座等項目的支持。為促進(jìn)該領(lǐng)域的持續發(fā)展,研究團隊已將代碼和新收集的三模態(tài)數據集開(kāi)源。
來(lái)源:中國科學(xué)院自動(dòng)化研究所