近日,智能感知與計算研究中心張兆翔研究員及其團隊借鑒腦神經(jīng)機制與視覺(jué)認知機理,在視覺(jué)物體檢測模型與方法上取得了一系列進(jìn)展,共有5篇文章被ICCV2019錄用,1篇文章被NeurIPS2019錄用,1篇文章被《JMLR》期刊收錄。本次著(zhù)重介紹基于三叉戟網(wǎng)絡(luò )(Trident Networks)的物體檢測。
物體檢測是計算機視覺(jué)與模式識別領(lǐng)域的核心問(wèn)題,一直以來(lái)受到學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。當前物體檢測最大的難點(diǎn)如何對場(chǎng)景中多種尺度的物體進(jìn)行有效表征,進(jìn)而進(jìn)行更為高效、更為準確、更為魯棒的物體檢測。
在二維透視成像中,近大遠小是一個(gè)常見(jiàn)的現象,如圖1所示。這一透視關(guān)系,幫助人類(lèi)視覺(jué)系統形成對三維空間的感知。但對于基于二維圖像的視覺(jué)感知任務(wù)而言,近大遠小會(huì )導致相同真實(shí)大小的物體根據遠近不同,因而在成像平面上形成不同尺度的物體。這將對視覺(jué)感知任務(wù)提出挑戰。具體來(lái)說(shuō):(1)這會(huì )導致信息的衰減,二維圖像捕獲的信息隨距離二次衰減,因而30米外的物體在圖片上可能只有15米外相同物體 1/4 的像素;(2)卷積神經(jīng)網(wǎng)絡(luò )具有局限性。由于卷積操作在二維平面上采用相同大小的滑動(dòng)窗口進(jìn)行計算,同一卷積操作無(wú)法同時(shí)對尺度差異較大的物體進(jìn)行響應。
針對傳統卷積神經(jīng)網(wǎng)絡(luò )的局限,張兆翔研究員及其團隊首次提出 Trident 網(wǎng)絡(luò )結構。首先通過(guò)不同膨脹系數的卷積支路實(shí)現對不同尺度的物體的識別,然后通過(guò)權重共享實(shí)現對不同尺度相同物體的一致性刻畫(huà)。我們還提出了一種在測試階段只需要一條卷積支路的快速 Trident 網(wǎng)絡(luò ),快速 Trident 網(wǎng)絡(luò )保持了與傳統檢測器骨干網(wǎng)絡(luò )相同的計算量,大幅提升了我們方法的實(shí)用性。
該Trident方法可以與不同基礎網(wǎng)絡(luò )結構結合,并在 COCO 數據集上取得大幅度提升。該文作為Oral文章在ICCV2019發(fā)表。
據悉,ICCV2019近期在韓國首爾召開(kāi)。ICCV的全稱(chēng)是國際計算機視覺(jué)大會(huì ),是計算機視覺(jué)與模式識別領(lǐng)域的頂級會(huì )議。ICCV2019共收到投稿4303篇,錄用文章1077篇,接受率為25%;其中oral文章187篇,oral接受率為4%。
來(lái)源:中國自動(dòng)化科學(xué)院研究所