章毓晉
男,教授,博士生導師。主要科學(xué)研究領(lǐng)域為其積極倡導的圖像工程(圖像處理、圖像分析、圖像理解及其技術(shù)應用)和相關(guān)學(xué)科。已在國內外發(fā)表了300余篇圖像工程研究論文,出版了專(zhuān)著(zhù)《圖象分割》和《基于內容的視覺(jué)信息檢索》,編著(zhù)了《英漢圖像工程辭典》,主編出版了 "Advances in Image and Video Segmentation" 和 "Semantic-Based Visual Information Retrieval"。
摘要:本文對與機器視覺(jué)和圖像技術(shù)相關(guān)的一些名詞給出了簡(jiǎn)潔概括的定義,對機器視覺(jué)中主要涉及的圖像技術(shù)的原理進(jìn)行了介紹,并給出了一些圖像技術(shù)應用的實(shí)例和結果。
關(guān)鍵詞:機器視覺(jué);圖像工程;圖像出來(lái);圖像分析;圖像理解;圖像技術(shù)
Abstract: This paper provides the brief and general definitions of some terms related to
machine vision and image techniques. It also gives some specified introductions for the
principles of image techniques used in machine vision and shows some real examples and
results for the applications of these image techniques.
Key words: Machine Vision; Image Engineering; Image Processing; Image Analysis; Image
Understanding; Image Techniques
機器視覺(jué)與圖像技術(shù)各有特點(diǎn)并有密切的聯(lián)系。本文擬對此給予概括的介紹和討論。
1 名詞和定義
先給出一些與機器視覺(jué)和圖像技術(shù)相關(guān)名詞的定義[1]。
視覺(jué) 物體的影像刺激視網(wǎng)膜所產(chǎn)生的感覺(jué)和在大腦皮層所得到的知覺(jué)。人類(lèi)了解世界的一種重要功能。視覺(jué)包括“視”和“覺(jué)”兩個(gè)步驟,所以視覺(jué)可進(jìn)一步分為視感覺(jué)和視知覺(jué)。
視感覺(jué) 視覺(jué)的低層次。它主要接收外部刺激,從外界獲得信息。視感覺(jué)主要是從分子微觀(guān)層次來(lái)理解人們對光(可見(jiàn)輻射)反應的基本性質(zhì)(如亮度、顏色)。對視感覺(jué)的主要研究?jì)热萦校孩殴獾奈锢硖匦?。如光量子、光波、光譜;⑵光刺激視覺(jué)感受器官的程度。如光度學(xué)、眼睛構造、視覺(jué)適應、視覺(jué)的強度和靈敏度、視覺(jué)的時(shí)間特性以及視覺(jué)的空間特性;⑶光作用于視網(wǎng)膜后經(jīng)視覺(jué)系統加工而產(chǎn)生的感覺(jué)。如明亮程度、色調。
視知覺(jué) 視覺(jué)的高層次。它將外部刺激轉化為有意義的內容。視知覺(jué)主要論述人們從客觀(guān)世界接受視覺(jué)刺激后如何反應及反應所采用的方式,研究如何通過(guò)視覺(jué)形成人們關(guān)于外在世界空間的表象,所以兼有心理因素。視知覺(jué)是在神經(jīng)中樞進(jìn)行的一組活動(dòng),它把視野中一些分散的刺激加以組織,構成具有一定形狀的整體以表達和認識世界。視知覺(jué)又可分成亮度知覺(jué)、顏色知覺(jué)、形狀知覺(jué)、空間知覺(jué)、運動(dòng)知覺(jué)等。
機器視覺(jué) 使用電子設備和光學(xué)感知技術(shù),自動(dòng)獲取和解釋場(chǎng)景的圖像,以控制機器的過(guò)程。在很多情況下也看作計算機視覺(jué)的同義詞。但計算機視覺(jué)更側重對場(chǎng)景分析和對圖像解釋的理論和算法,而機器視覺(jué)或機器人視覺(jué)則更關(guān)注圖像的獲取、系統的構造和算法的實(shí)現。
計算機視覺(jué) 利用計算機來(lái)實(shí)現人類(lèi)視覺(jué)系統功能的一門(mén)學(xué)科。其中實(shí)際上用到圖像工程三個(gè)層次的許多技術(shù),但目前的研究?jì)热葜饕c圖像理解相對應。
機器人視覺(jué) 針對機器人的機器視覺(jué)。機器人視覺(jué)的研究目標是構建使機器人具有視覺(jué)感知功能的系統,該系統通過(guò)視覺(jué)傳感器獲取環(huán)境的圖像,并通過(guò)視覺(jué)處理器進(jìn)行分析和解釋?zhuān)瑥亩寵C器人能夠檢測和辨識物體,完成特定的工作。
圖像 一種直接或間接作用于人眼并進(jìn)而產(chǎn)生視知覺(jué)的實(shí)體,即客觀(guān)存在的事物。它可以是用各種觀(guān)測系統以不同形式和手段觀(guān)測客觀(guān)世界而獲得的(一般圖像是客觀(guān)場(chǎng)景的投影)。人的視覺(jué)系統就是一個(gè)典型的觀(guān)測系統,通過(guò)它得到的圖像就是客觀(guān)景物在人心目中形成的影像。
圖像是客觀(guān)景物的表達,包含了景物的描述信息??茖W(xué)研究和統計表明,人類(lèi)從外界獲得的信息約有75%來(lái)自視覺(jué)系統,也就是從圖像中獲得的。這里圖像的概念比較廣,包括照片、繪圖、動(dòng)畫(huà)、視像,甚至文檔等。中國有句古話(huà),“百聞不如一見(jiàn)”。人們常說(shuō),“一圖值千字”。它們都說(shuō)明圖像中所含的信息內容非常豐富,而事實(shí)上圖像也確實(shí)帶有大量的信息,是人類(lèi)最主要的信息源。
圖像技術(shù) 廣義上各種與圖像有關(guān)技術(shù)的總稱(chēng)。這包括利用計算機和其他電子設備進(jìn)行和完成一系列工作的技術(shù)。例如,圖像的采集、獲取、編碼、存儲和傳輸,圖像的合成和產(chǎn)生,圖像的顯示和輸出,圖像的變換、增強、恢復(復原)和重建,圖像水印的嵌入和提取,圖像的分割,目標的檢測、跟蹤、表達和描述,目標特征的提取和測量,圖像和目標特性的分析,序列圖像的校正配準,3-D景物的重建復原,圖像數據庫的建立、索引和檢索,圖像的分類(lèi)、表示和識別,圖像模型的建立和匹配,圖像、場(chǎng)景的解釋和理解,以及基于它們的判斷決策和行為規劃等。另外,圖像技術(shù)還可包括為完成上述功能而進(jìn)行的硬件設計及制作等方面的技術(shù)。
圖像工程 對整個(gè)圖像領(lǐng)域進(jìn)行研究及對圖像技術(shù)進(jìn)行應用的新學(xué)科。它是一個(gè)將數學(xué)、光學(xué)等基礎科學(xué)的原理,結合圖像應用中積累的經(jīng)驗,從而發(fā)展起來(lái)的包含各種圖像技術(shù)的整體框架。圖像工程的內容非常豐富,覆蓋面也很廣,根據抽象程度和研究方法等的不同可分為三個(gè)層次(如圖1所示):⑴圖像處理;⑵圖像分析;⑶圖像理解。換句話(huà)說(shuō),圖像工程是既有聯(lián)系又有區別的圖像處理、圖像分析及圖像理解三者的有機結合,另外還包括對它們的工程應用。圖1給出圖像工程三個(gè)層次的關(guān)系和主要特點(diǎn)。
圖1 圖像工程3層次示意圖
2 相關(guān)圖像技術(shù)介紹
圖像工程學(xué)科所研究和應用的圖像技術(shù)非常多[2]。根據近年對圖像工程文獻的統計分類(lèi)[3],目前主要研究的有圖像處理,圖像分析和圖像理解三大類(lèi)中的14小類(lèi)圖像技術(shù),見(jiàn)表1。
表1 圖像工程中圖像技術(shù)文獻分類(lèi)表
大類(lèi)代號、名稱(chēng)
|
小類(lèi)代號、名稱(chēng)和主要內容
|
A:圖像處理
|
A1:圖像采集(包括各種成像方法、獲取及存儲、攝像機校正等)
|
|
A2:圖像重建(從投影等重建圖像)
|
|
A3:圖像增強和恢復等(包括變換、濾波、復原、校正等)
|
|
A4:圖像(視頻)壓縮編碼(包括算法研究、國際標準實(shí)現等)
|
|
A5:圖像數字水印和圖像信息隱藏
|
B:圖像分析
|
B1:圖像分割和邊緣檢測
|
|
B2:目標表達、描述、測量(包括二值圖處理分析等)
|
|
B3:目標特性(顏色、紋理、形狀、空間、運動(dòng)等)的分析
|
|
B4:目標檢測和識別(目標2-D定位、提取和分類(lèi)等)
|
|
B5:人體生物特征提取和驗證(包括人臉和器官的檢測、定位與識別)
|
C:圖像理解
|
C1:圖像匹配和融合等(包括序列、立體圖的配準、鑲嵌等)
|
|
C2:場(chǎng)景恢復(3-D表達、建模、重構或重建等)
|
|
C3:圖像感知和解釋?zhuān)òㄕZ(yǔ)義描述、信息模型、專(zhuān)家系統,機器學(xué)習、推理等)
|
|
C4:基于內容的圖像和視頻檢索
|
在機器視覺(jué)的研究和開(kāi)發(fā)應用中,有許多圖像技術(shù)起到重要的作用或得到廣泛的應用。它們大部處于上述14類(lèi)中的9類(lèi),即圖像處理中的A1,A3;圖像分析中的B1,B2,B3,B4,B5;圖像理解中的C1,C4。下面對其中6類(lèi)(即圖像處理中的A1,A3;圖像分析中的B1,B2,B3;圖像理解中的C1的原理給予簡(jiǎn)單介紹(另3類(lèi)則在下一節結合實(shí)例給予介紹)。
2.1 圖像采集
圖像采集指從客觀(guān)場(chǎng)景獲取圖像的技術(shù)和過(guò)程。前面定義中已提到,圖像可用函數 f(x, y)來(lái)表示。由此可見(jiàn)圖像的采集涉及到兩方面的技術(shù)內容,或者說(shuō)與兩門(mén)學(xué)科相關(guān):⑴幾何學(xué),從圖像中的什么地方可找到場(chǎng)景中目標的投影位置(x, y);⑵輻射度學(xué),圖像中的目標有多“亮”,這確定了在(x, y)處的 f。
由于需要用計算機對采集到的圖像進(jìn)行加工,所以需要把直接采集到的模式圖像轉換為數字圖像。這又涉及到兩個(gè)工作:⑴空間坐標的離散化,即空間采樣;⑵幅度的離散化,即幅度量化。常用的圖像采集設備都具有兩個(gè)功能:⑴接受輻射;⑵模數轉換。
圖2給出用常見(jiàn)的CCD(也可用CMOS或CID)攝像機進(jìn)行灰度圖采集的流程。由圖2可見(jiàn),光源照射到物體上反射到攝像機中;攝像機的CCD陣列中感光單元的個(gè)數和分布確定了所采集圖像的空間分辨率;感光單元接受到的光被轉換為電信號,將電信號的幅度量化,量化的級數確定了最好采集到的圖像的幅度分辨率。
圖2 灰度圖采集過(guò)程
2.2 圖像變換、濾波、增強、恢復/復原、校正等
圖像變換既可以指在圖像空間將像素從一個(gè)位置映射到另一個(gè)位置,也可以指將圖像以某種形式從一個(gè)表達空間轉換到另一個(gè)表達空間。前者比較常見(jiàn)的是坐標變換,包括平移變換,旋轉變換,放縮變換,拉伸變換,和剪切變換。它們的各一個(gè)示例見(jiàn)圖3。后者是有效和快速地對圖像進(jìn)行處理的一種手段。具體是將圖像轉換到新的空間后,利用新空間的特有性質(zhì)方便地對圖像進(jìn)行處理,再將處理結果轉換回原空間以得到所需的效果。常用的變換包括傅里葉變換,蓋伯變換,小波變換等。
圖3 坐標變換示意圖
圖像濾波原指將圖像傅里葉變換到頻域后進(jìn)行加工的手段,后來(lái)人們將直接在圖像域進(jìn)行的類(lèi)似加工也用濾波來(lái)描述。更廣義地說(shuō),利用像素本身以及其鄰域像素的灰度關(guān)系進(jìn)行加工的方法都可稱(chēng)為濾波,所以在蓋伯變換域和小波變換域的許多圖像加工也稱(chēng)為圖像濾波。圖像濾波可用以對圖像進(jìn)行增強或恢復。圖像增強技術(shù)作為一大類(lèi)基本的圖像處理技術(shù),其目的是對圖像進(jìn)行加工,以得到對具體應用來(lái)說(shuō)視覺(jué)效果更“好”、更“有用”的圖像。圖像恢復與圖像增強有密切的聯(lián)系。圖像恢復與圖像增強相同之處是,它們都要得到在某種意義上改進(jìn)的圖像,或者說(shuō)都希望要改進(jìn)輸入圖像的視覺(jué)質(zhì)量。圖像恢復與圖像增強不同之處是,圖像增強技術(shù)一般要借助人的視覺(jué)系統的特性以取得看起來(lái)較好的視覺(jué)結果,而圖像恢復則認為圖像(質(zhì)量)是在某種情況/條件下退化或惡化了(圖像品質(zhì)下降了、失真了),現在需要根據相應的退化模型和知識重建或恢復原始的圖像。換句話(huà)說(shuō),圖像恢復技術(shù)是要將圖像退化的過(guò)程模型化,并據此采取相反的過(guò)程以得到原始的圖像。由此可見(jiàn),圖像恢復要根據一定的圖像退化模型來(lái)進(jìn)行。
2.3 圖像分割
圖像分割是由圖像處理進(jìn)到圖像分析的關(guān)鍵步驟,也是一種基本的計算機視覺(jué)技術(shù)。在對圖像的研究和應用中,人們往往僅對各幅圖像中的某些部分感興趣。這些部分常稱(chēng)為目標或前景(其他部分稱(chēng)為背景),它們一般對應圖像中特定的、具有獨特性質(zhì)的區域。為了辨識和分析目標,需要將這些有關(guān)區域分離提取出來(lái)。圖像分割就是指把圖像分成各具特性的區域并提取出感興趣目標的技術(shù)和過(guò)程。這里特性可以是灰度、顏色、紋理等,目標可以對應單個(gè)區域,也可以對應多個(gè)區域。
圖像分割多年來(lái)一直得到人們的高度重視。至今已提出了上千種各種類(lèi)型的分割算法。對這些算法可考慮兩個(gè)因素來(lái)進(jìn)行分類(lèi)。一是考慮對圖像分割所可借助的像素灰度值的性質(zhì):不連續性和相似性。由于區域內部的像素一般具有灰度相似性,而在區域之間的邊界上一般具有灰度不連續性。所以分割技術(shù)可據此分為利用區域間灰度不連續性的基于邊界的技術(shù)和利用區域內灰度相似性的基于區域的技術(shù)。二是考慮分割過(guò)程中不同的處理策略,即并行策略和串行策略,可將分割技術(shù)分為并行技術(shù)和串行技術(shù)。在并行技術(shù)中,所有判斷和決定都可獨立地和同時(shí)地做出,而在串行技術(shù)中,早期處理的結果可被其后的處理過(guò)程所利用。對圖像分割較全面和深入的討論可參見(jiàn)專(zhuān)門(mén)書(shū)籍[4]。圖像分割最新的一些進(jìn)展可見(jiàn)[5]。
2.4 目標表達、描述、測量
通過(guò)圖像分割可獲得圖像中感興趣的區域,即目標。為有效地刻畫(huà)目標,需要對它們采取合適的數據結構進(jìn)行表達,采用恰當的形式描述它們的特性,并從目標獲得一些定量的數值以進(jìn)行分析。這些工作是圖像分析的重要步驟。
一般對目標常用不同于原始圖像的合適表達形式來(lái)表示。好的表達方法應具有節省儲存空間、易于特征計算等優(yōu)點(diǎn)。與分割類(lèi)似,圖像中的區域可用其內部(如組成區域的像素集合)表示,也可用其外部(如組成區域邊界的像素集合)表示。一般來(lái)說(shuō),如果比較關(guān)心的是區域的反射性質(zhì),如灰度、顏色、紋理等,常選用內部表達法;如果比較關(guān)心的是區域的形狀等則常選用外部表達法。
選定了表達方法,還需要對目標進(jìn)行描述,使計算機能充分利用所獲得的分割結果。表達是直接具體地表示目標,描述是較抽象地表示目標特性。好的描述應在盡可能區別不同目標的基礎上對目標的尺度、平移、旋轉等不敏感,這樣的描述比較通用。描述也可分為對邊界的描述和對區域的描述。除此之外,邊界和邊界或區域和區域之間的關(guān)系也常需要進(jìn)行描述。
圖像分析的目的是獲得場(chǎng)景中景物的數據,所以在目標表達和描述的基礎上要對目標及特征進(jìn)行測量。對目標特征的測量從根本上來(lái)說(shuō)是要從數字化的數據中精確地估計出產(chǎn)生這些數據的模擬量的性質(zhì),因為這是一個(gè)估計過(guò)程,所以誤差是不可避免的。實(shí)際數據和測量數據產(chǎn)生差異而導致的測量誤差的來(lái)源很多,包括:⑴圖像采集過(guò)程中各種因素的影響,又可分為空間采樣和灰度量化的影響以及光學(xué)鏡頭分辨率的影響;⑵不同的圖像處理和分析手段(例如目標分割);⑶不同的測量方法和計算公式;⑷圖像處理和分析過(guò)程中噪聲等干擾的影響。
2.5 目標顏色、形狀、紋理、空間和運動(dòng)等的分析
目標特征有很多種,??蓜澐譃轭伾卣?,紋理特征,形狀特征,空間特征和運動(dòng)特征等。下面對紋理,形狀和運動(dòng)的分析給予簡(jiǎn)單介紹。
紋理是物體表面的固有特征之一,因而也是圖像區域一種重要的屬性。對紋理的分析(包括對紋理特點(diǎn)進(jìn)行刻畫(huà),表示紋理數據,辨認紋理模式)是圖像分析的一個(gè)重要分支,其中對紋理表達和描述方法主要有3類(lèi):統計法、結構法、頻譜法。
在統計法中,紋理被看作一種對區域中密度分布的定量測量結果。統計模型是利用對圖像灰度的分布和關(guān)系的統計規則來(lái)描述紋理。它比較適合描述自然紋理,??商峁┘y理的平滑、稀疏、規則等性質(zhì)。統計法的目標是估計隨機過(guò)程的參數,如分形布朗運動(dòng)或馬爾可夫隨機場(chǎng)。
在結構法中,紋理被看作是一組紋理基元以某種規則的或重復的關(guān)系結合的結果。這種方法試圖根據一些描述幾何關(guān)系的放置/排列規則來(lái)描述紋理基元。利用結構法??色@得一些與視覺(jué)感受相關(guān)的紋理特征,如粗細度(coarseness)、對比度(contrast)、方向性(directionality)、線(xiàn)狀性(line-likeness)、規則性(regularity)、粗糙度或凹凸性(roughness)等。
頻譜法一般利用傅里葉頻譜(通過(guò)傅里葉變換獲得)的分布,特別是頻譜中的高能量窄脈沖來(lái)描述紋理中的全局周期性質(zhì)。近年許多其他頻譜方法,如貝塞爾-傅里葉頻譜,蓋伯頻譜也得到了較多的應用。
形狀分析是圖像分析的一個(gè)重要分支,其重點(diǎn)是刻畫(huà)圖像中目標的各種形狀特性。形狀描述符在形狀分析起重要的作用。一方面,一個(gè)形狀性質(zhì)可用基于不同的理論技術(shù)的描述符來(lái)描述;另一方面,借助同一種理論技術(shù)也可以獲得不同的描述符以刻畫(huà)目標形狀的不同性質(zhì)。對形狀的描述也是對形狀分類(lèi)的基礎,例如在為確定形狀相似性而進(jìn)行的匹配中,匹配的常是形狀描述符。
對形狀的描述常采用三類(lèi)方法:特征的方法(用特征描述形狀特性);形狀變換的方法(借助從一種形狀轉換為另一種形狀的參數模型);基于關(guān)系的方法(將復雜形狀分解成簡(jiǎn)單基元,既描述基元性質(zhì)也描述基元關(guān)系)。
運動(dòng)分析近年隨著(zhù)視頻的大量采集和應用而得到廣泛重視。連續采集的視頻圖像序列能反映場(chǎng)景中目標的運動(dòng)和場(chǎng)景的變化,從而提供了更多的信息。運動(dòng)分析的研究目的和工作內容可包括:
對運動(dòng)的檢測,即檢測場(chǎng)景中是否有運動(dòng)。這種情況一般僅使用單個(gè)固定的攝像機就可以了。一個(gè)典型的例子是安全監視,任何導致圖像發(fā)生變化的因素都考慮在內。由于光照的變化常比較緩慢而運動(dòng)物體的變化常比較迅速,所以可進(jìn)一步區分開(kāi)。
對運動(dòng)目標的檢測和定位,即檢測場(chǎng)景中是否有運動(dòng)目標,它當前在什么位置,進(jìn)一步還可包括確定運動(dòng)目標的軌跡,并預測它下一步的運動(dòng)方向和趨勢以及將來(lái)的運動(dòng)軌跡。這種情況一般也僅使用單個(gè)固定的攝像機。根據檢測目的不同可采用不同的技術(shù)。如果僅需確定運動(dòng)目標的位置,可借助運動(dòng)信息對運動(dòng)目標進(jìn)行初步分割。如果還需確定運動(dòng)目標的運動(dòng)方向、趨勢和軌跡,則常采用目標匹配技術(shù)。
對運動(dòng)目標的分割和分析,即檢測目標運動(dòng)的情況、獲得目標的特征、提取運動(dòng)參數、分析景物運動(dòng)規律、確定運動(dòng)類(lèi)型等。在此基礎上,可進(jìn)一步識別運動(dòng)物體。這種情況有時(shí)需使用運動(dòng)的攝像機。
對立體景物的重建和對行動(dòng)/場(chǎng)景的理解,這需要通過(guò)目標運動(dòng)信息進(jìn)一步獲取立體景物的深度、確定其表面朝向以及遮蓋情況等。另一方面,綜合運動(dòng)信息和其他圖像中的信息,可以進(jìn)行運動(dòng)因果關(guān)系的識別,如果進(jìn)一步借助場(chǎng)景知識,還可對場(chǎng)景給出解釋。這種情況常使用兩個(gè)或多個(gè)靜止或運動(dòng)的攝像機。
2.6 圖像配準、匹配、融合、鑲嵌等
圖像匹配是圖像理解中的一項重要技術(shù)。一方面,它可將同一場(chǎng)景的不同圖像結合起來(lái)提供更全面的場(chǎng)景信息;另一方面,它可將事先未知的視覺(jué)輸入與先前已有的認知結果聯(lián)系起來(lái),從而用已知解釋未知并最終建立對輸入的解釋。圖像匹配可在不同的抽象層次進(jìn)行。在像素層可利用模板匹配,在特征層可利用感知匹配,而在目標層可利用語(yǔ)義匹配。
圖像配準與圖像匹配密切相關(guān)。配準的含義一般比較窄,主要指將在不同時(shí)間或空間獲得的圖像建立對應,特別是幾何方面的對應(幾何校正),最后要獲得的效果常體現在像素層次。匹配則既可考慮圖像的幾何性質(zhì)也可考慮圖像的灰度性質(zhì),甚至圖像的其他抽象性質(zhì)和屬性。從這點(diǎn)來(lái)說(shuō),配準可以看作是對比較低層表達的匹配。
圖像融合是近年得到廣泛研究和應用的圖像技術(shù),它通過(guò)對由不同傳感器獲取的數據進(jìn)行綜合處理和分析,并進(jìn)行協(xié)調、優(yōu)化、整合,從而提取更多的信息或獲得新的有效的信息,并增加決策的可信度和系統的可靠性。當對多幅圖像進(jìn)行融合時(shí),常需先對各幅參與融合的圖像進(jìn)行配準。圖像融合對配準精度有較高的要求,如果空間誤差超過(guò)一個(gè)像素,則融合結果會(huì )出現重影,嚴重影響融合圖像的質(zhì)量。
一般將對多傳感器圖像的融合方式從層次上由低到高分為三級,即像素級(pixel based)融合、特征級(feature based)融合和決策級(decision based)融合。像素級融合是在底層的數據層進(jìn)行的融合,指對圖像傳感器原始采集來(lái)的物理信號數據(兩幅或多幅圖像)進(jìn)行處理和分析,生成目標特征而獲得單一融合圖像。特征級融合是一種在中間層次進(jìn)行的融合,它需要對原始圖像提取特征,獲得景物信息(如目標的邊緣、輪廓、形狀、表面朝向和相互間距離等)并進(jìn)行綜合,以得到置信度更高的判斷結果。決策級融合是在最高層次上進(jìn)行的融合,它能根據一定的準則以及每個(gè)決策的可信度直接做出最優(yōu)決策。
3 相關(guān)圖像技術(shù)示例
下面對圖像分析中的B1,B2和圖像理解中的C1共3類(lèi)技術(shù)結合幾個(gè)具體實(shí)例介紹如下:
3.1 目標檢測、提取、跟蹤、識別和分類(lèi)
對場(chǎng)景中目標的檢測和跟蹤有重要的意義。例如,圖4給出兩幅乒乓球比賽的場(chǎng)景,圖(a)用長(cháng)方框框出了運動(dòng)員的位置(這是對運動(dòng)員檢測的結果)而圖(b)用白線(xiàn)標出了乒乓球運動(dòng)的軌跡(這是對乒乓球在兩次擊球之間的運動(dòng)進(jìn)行跟蹤的結果)。根據這些結果,教練員和運動(dòng)員可進(jìn)行動(dòng)作和戰術(shù)的分析,而電視臺也可查詢(xún)精彩鏡頭。
(a) (b)
圖4 目標檢測和跟蹤示例圖
3.2 人臉和器官的檢測、定位與識別
近年對人臉的定位和識別得到了廣泛的應用。圖5給出對兩幅人臉和器官的定位示例圖。圖5(a)顯示了一幅從場(chǎng)景中定位出人臉的圖像。圖5(b)顯示了四幅在人眼眨動(dòng)過(guò)程中跟蹤虹膜區域和眼簾區域得到的結果。根據人臉定位的結果可繼續進(jìn)行人臉的識別,而根據對虹膜和眼簾的跟蹤結果可幫助對人的表情變化做出判斷。
(a) (b)
圖5 人臉和器官的定位示例圖
圖6給出表情分類(lèi)中的三幅示例圖。圖6(a)中人眼睜開(kāi)但嘴巴基本閉合,圖6(b)中人眼睜開(kāi)且嘴巴也張開(kāi),圖6(c)中人眼閉合但嘴巴仍然張開(kāi)??紤]到人眼和嘴巴的變化和狀態(tài),可以判斷出這是一個(gè)人的表情為高興的序列。
(a) (b) (b)
圖6 表情分類(lèi)示例圖
3.3 基于內容的圖像和視頻檢索
基于內容的圖像和視頻檢索是在數據快速增長(cháng)、信息急劇膨脹情況下為滿(mǎn)足人們快速提取有用視覺(jué)信息的需求而逐步受到重視的一個(gè)研究熱點(diǎn)。早期的研究主要是根據圖像(視頻)的視覺(jué)特征(包括顏色、紋理、形狀、空間關(guān)系以及運動(dòng)信息等)來(lái)進(jìn)行,即通過(guò)提取當前查詢(xún)圖像的特定視覺(jué)特征并與數據庫中圖像已獲取的視覺(jué)特征進(jìn)行匹配來(lái)提取與查詢(xún)圖像具有相似性的圖像[6]。
圖7給出用形狀特征進(jìn)行查詢(xún)檢索的一組示例圖??紤]有一個(gè)包括上衣、T-shirt、裙子、褲子等的服裝圖像庫,需要迅速找到其中的T-shirt。用戶(hù)畫(huà)了一個(gè)如圖7(a)所示的T-shirt草圖,用它作為查詢(xún)圖,就可借助基于形狀特征的方法獲得如圖7(b)、(c)、(d)、(e)和(f)這樣一些圖片。
(a) (b) (c)
(d) (e) (f)
圖7 利用形狀特征查詢(xún)的示例
經(jīng)過(guò)10多年的研究,基于內容的圖像和視頻檢索已取得長(cháng)足的進(jìn)步。近期該領(lǐng)域的研究主要集中在基于語(yǔ)義的圖像和視頻檢索方面,具體的研究涉及如何跨越視覺(jué)特征和語(yǔ)義描述間的鴻溝,圖像和視頻的自動(dòng)標注,人機交互反饋以結合高層知識,語(yǔ)義檢索的模型和工具,以及針對具體應用的技術(shù)[7]。
圖8給出一組對圖像進(jìn)行自動(dòng)標注的結果示例圖。這里對每幅圖片用了四個(gè)詞來(lái)標注,這些詞均來(lái)自訓練中所構建的視覺(jué)關(guān)鍵詞辭典。由圖8可見(jiàn),這些標注詞中有些可以揭示圖片的拍攝季節,有些能夠反映圖片拍攝的場(chǎng)所,有些則列出了圖片中重要的景物。借助這些標注,用戶(hù)有可能在較高的語(yǔ)義層次對圖片進(jìn)行查詢(xún)和檢索。
白天,戶(hù)外 云彩,山脈
樹(shù)木,房屋 森林,湖泊
夏天,白天 秋天,森林
海岸,沙灘 樹(shù)木,樹(shù)葉
圖8 圖像標注示例
4 結語(yǔ)和展望
前面對機器視覺(jué)中有廣泛應用的9類(lèi)圖像技術(shù)進(jìn)行了介紹。根據對2007年相關(guān)技術(shù)的研究文獻的統計[3],表1中的14圖像類(lèi)技術(shù)共包含了662篇文獻,平均47篇/小類(lèi),而相關(guān)的9類(lèi)圖像技術(shù)共包含了472篇文獻,平均52篇/小類(lèi)。由此可見(jiàn),在機器視覺(jué)中有廣泛應用的9類(lèi)圖像技術(shù)也是得到較多重視和研究的圖像技術(shù)。
事實(shí)上,圖像技術(shù)有很多優(yōu)點(diǎn)。例如,圖像技術(shù)具有形象直觀(guān)和方便靈活(類(lèi)型廣泛,可進(jìn)行局部處理)的特點(diǎn),它能以非接觸和無(wú)損的方式對產(chǎn)品進(jìn)行質(zhì)量檢測。圖像采集實(shí)時(shí)快速,圖像系統精度高,重復性強,工作不會(huì )疲勞。所以圖像技術(shù)有望在包括機器視覺(jué)的各個(gè)領(lǐng)域得到越來(lái)越多的應用。
最后需要指出,機器視覺(jué)與圖像技術(shù)有密切的聯(lián)系,它們的覆蓋面在一定程度上也有所重合。雖然人們常把它們當作不同的學(xué)科,但事實(shí)上它們在概念上或實(shí)用中并沒(méi)有絕然的界限。根據對它們目前的研究和應用來(lái)看,它們在許多場(chǎng)合和情況下可以看作是專(zhuān)業(yè)和背景不同的人習慣使用的不同術(shù)語(yǔ)更為恰當,而且它們雖各有側重但常常是互為補充的。
參考文獻
[1] 章毓晉. 英漢圖像工程辭典[M]. 北京:清華大學(xué)出版社,2009.
[2] 章毓晉. 圖像工程,第2版(合訂本)[M]. 北京:清華大學(xué)出版社,2007.
[3] 章毓晉. 中國圖像工程:2007[M]. 中國圖象圖形學(xué)報,2008,13(5):825-852.
[4] 章毓晉. 圖象分割[M]. 北京:科學(xué)出版社,2001.
[5] Zhang Y-J (ed.). Advances in Image and Video Segmentation[M]. USA: IRM Press. 2006.
[6] 章毓晉. 基于內容的視覺(jué)信息檢索[M]. 北京:科學(xué)出版社,2003.
[7] Zhang Y-J (ed.). Semantic-Based Visual Information Retrieval[M]. USA: IRM Press. 2007.