“一個(gè)小孩子還不會(huì )說(shuō)話(huà)時(shí),看到杯子就知道抓過(guò)來(lái)喝水。這說(shuō)明他已學(xué)到很多視覺(jué)知識?!痹谌涨芭e辦的2021中國·寧波新一代人工智能學(xué)術(shù)峰會(huì )上,中國工程院院士、中國工程院原常務(wù)副院長(cháng)潘云鶴解釋道。
以往的認知心理學(xué)研究認為,人類(lèi)記憶的視覺(jué)知識要遠多于言語(yǔ)知識。為此,潘云鶴系統提出了“視覺(jué)知識”概念。
這些年,圖像識別技術(shù)的突破提高了計算機對人臉、文字、指紋、醫學(xué)圖片等識別的準確率,進(jìn)而推動(dòng)智能汽車(chē)、安全監控、機器人、無(wú)人機、智能制造等快速發(fā)展,形成人工智能(AI)對經(jīng)濟社會(huì )發(fā)展的推動(dòng)。
“但以往AI研究的一大弱點(diǎn)是對視覺(jué)知識研究不足,視覺(jué)知識研究與應用是AI邁向2.0的關(guān)鍵?!迸嗽弃Q說(shuō)。
在潘云鶴看來(lái),視覺(jué)知識至少有五個(gè)基本問(wèn)題,分別是視覺(jué)知識表達、視覺(jué)識別、視覺(jué)形象變化模擬、視覺(jué)知識學(xué)習和多重知識表達。其中,視覺(jué)知識表達和多重知識表達是關(guān)鍵所在。
對于第一個(gè)問(wèn)題視覺(jué)知識表達,潘云鶴認為,認知心理學(xué)實(shí)驗表明,視覺(jué)知識具有不同于言語(yǔ)知識的特征,包括能表達對象的空間形狀、大小、色彩、紋理和空間關(guān)系,能表達對象的動(dòng)作、速度及時(shí)間關(guān)系,能進(jìn)行對象的時(shí)空變換、操作與推理等。
“計算機圖像學(xué)是表達幾何,而非表達視覺(jué)概念?!迸嗽弃Q強調。他進(jìn)一步解釋?zhuān)曈X(jué)概念由典型和范疇構成,還有層次結構和動(dòng)作結構;視覺(jué)命題表達視覺(jué)概念的空間關(guān)系和時(shí)間關(guān)系,前者表達為場(chǎng)景結構,后者表達為動(dòng)態(tài)結構;最后形成由一組視覺(jué)命題構成的視覺(jué)述事。
對于第二個(gè)問(wèn)題視覺(jué)識別,潘云鶴介紹,從AI早期開(kāi)始,模式識別便作為一個(gè)重要研究領(lǐng)域,其中圖像和視頻識別是發(fā)展最快的方向。
使用基于數字圖像處理技術(shù)的圖像識別技術(shù),是一種從局部特征綜合為整體的方法。近年來(lái),深度學(xué)習提供了另一種方法,即用大量標識的圖像訓練出深度神經(jīng)網(wǎng)絡(luò )模型(DNN)用以圖像識別,該方法已獲廣泛應用。他表示,DNN的優(yōu)點(diǎn)是可以從標識的樣本數據中通過(guò)學(xué)習而自動(dòng)獲得知識,也可以用于非符號數據的識別,如圖像與語(yǔ)音識別;但其缺點(diǎn)也同樣明顯,如不可解釋、不可推理,需要大量被標識的數據來(lái)訓練網(wǎng)絡(luò )等。
值得注意的是,人類(lèi)進(jìn)行視覺(jué)識別的方法,與DNN的方法不盡相同。它不僅分析視網(wǎng)膜傳入的短期記憶中的數據,而且動(dòng)用了長(cháng)期記憶中的視覺(jué)知識。正因為如此,人類(lèi)的視覺(jué)識別往往只需少量的數據,且可以解釋、推理。
“因此,視覺(jué)識別不但要使用數據,而且要使用視覺(jué)知識,是視覺(jué)識別重要的研究方向?!迸嗽弃Q說(shuō)。
潘云鶴提出第三個(gè)問(wèn)題是視覺(jué)形象變化模擬。形象變化是人類(lèi)在設計創(chuàng )意和問(wèn)題求解時(shí)重要的智能行為。而模擬形象變化,需要操作視覺(jué)形象的物理變化、生物變化、想象變化等。以想象變化為例,即在創(chuàng )意與設計新產(chǎn)品中的各種想象性操作,如阿凡達、獅子王、小飛象等。
實(shí)際上,視覺(jué)形象變化模擬在CAD、仿真模擬、計算機動(dòng)畫(huà)、兒童教育和數字媒體創(chuàng )意等領(lǐng)域的應用十分廣泛。按照數字媒體的不同,可分為從字符生成視覺(jué)形象、從一種視覺(jué)形象變換為另一種形象、從視覺(jué)形象生成文本等。
潘云鶴判斷,計算機圖像學(xué)已儲備了很多基礎技術(shù),但有待和AI打通?!白龊昧?,有望形成新一代設計軟件的基礎?!?/p>
第四個(gè)問(wèn)題是視覺(jué)知識學(xué)習。事實(shí)上,計算機視覺(jué)研究已注意到形體重構的重要性,并積累了很多成果,如3D掃描重構形體、多相機重構形體、基于video重構形體等。但視覺(jué)知識學(xué)習要將目標從形狀重構轉換為視覺(jué)知識概念和命題的重建,則需要對現有計算機視覺(jué)技術(shù)進(jìn)一步研究。
“在此基礎上,有望發(fā)展出視覺(jué)知識的自動(dòng)學(xué)習,當前的場(chǎng)景圖是此方向前進(jìn)的一步?!迸嗽弃Q表示,為此,當今AI、計算機圖像學(xué)和計算機視覺(jué)三個(gè)領(lǐng)域的研究者特別需要聯(lián)手,進(jìn)一步研究視覺(jué)知識的自動(dòng)學(xué)習。
最后一個(gè)問(wèn)題是多重知識表達。研究發(fā)現,人腦中的知識是多重表達的。在潘云鶴看來(lái),在A(yíng)I 2.0中的知識也應有多重表達,如知識的言語(yǔ)表達、知識的深度神經(jīng)學(xué)習網(wǎng)絡(luò )表達、知識的形象表達。
他強調,AI 2.0要使多種知識表達相通使用,就是多重知識表達,而它將形成跨媒體智能和大數據智能的技術(shù)基礎。
潘云鶴分析,從視覺(jué)知識的五大問(wèn)題來(lái)看,視覺(jué)形象變化模擬、視覺(jué)識別、視覺(jué)知識學(xué)習的解決有較好的基礎,但視覺(jué)知識表達、多重知識表達尚需大力攻關(guān)?!斑@是一塊荒蕪而肥沃的‘北大荒’,也是一塊充滿(mǎn)希望且值得探索的‘無(wú)人區’?!?/p>
來(lái)源:《中國科學(xué)報》