(廈門(mén)大學(xué)自動(dòng)化系模式識別與智能系統研究所,福建 廈門(mén) 361005)陳福振,陳光磊
陳福振(1985-)男,福建莆田人,廈門(mén)大學(xué)自動(dòng)化系碩士研究生,主要從事模式識別與智能系統方面的研究。
基金項目:福建省自然科學(xué)基金(2009J05153)
摘要:軟件內嵌探針測試是在探針函數模板的框架內編寫(xiě)被測對象,并對被測對象進(jìn)行面向對象軟件的常規測試,在觀(guān)察預期結果與實(shí)際結果是否一致的同時(shí),還要察看探針函數輸出的信息,以確定對象的狀態(tài)是否正確。本論文研究的重點(diǎn)在于探針函數的構成、探針函數的實(shí)現及內嵌探針測試方法的應用研究,意在構筑一個(gè)基本的應用框架,提供一種實(shí)用的測試方法。
關(guān)鍵詞:軟件內嵌探針;探針函數;測試
Abstract: his article studies the automatic extraction of gene chip image information. In view of the difficulties in automatic processing, such as the huge number of the DNA spots, the low resolution ratio and the anomalous contour, this article proposes an automatic image division algorithm provided with high efficiency in spot localization and compact spot outline edge. Through the effective selection of structure operator, the nimble application multi-layer mathematics morphology's transformation, and the automatic binaryzation using the difference and standard deviation, this algorithm can automatically read genome image information. Through many experiments of reading genome image information, we also show that this algorithm obtain a compact image segmentation and high precision, in which its relative error with commercial software is less than 5%.
Key words: DNA chip; Mathematics morphology; Image segmentation
1 引言
微陣列芯片,又稱(chēng)為基因芯片,它將大量DNA探針?lè )肿踊蚪?jīng)純化的蛋白分子通過(guò)點(diǎn)樣固化于玻片上,構成高密度的分子陣列,再利用特定的儀器對樣本進(jìn)行掃描成像[1]?;蛐酒拿總€(gè)樣點(diǎn)表達了一定的生物信息,微陣列芯片技術(shù)可對成千上萬(wàn)的基因進(jìn)行并行分析,該技術(shù)廣泛應用在疾病診斷、藥物篩選及基因測序等生命科學(xué)領(lǐng)域。完整的微陣列生物芯片分析過(guò)程包括樣本采集、芯片制備、掃描成像、圖像處理和數據分析等幾個(gè)部分,其中圖像處理的目的是準確地提取基因表達的熒光信號強度值,為后續的分析提供數據基礎,圖像處理提取的信息正確與否,直接決定后續數據分析的意義。
傳統的基因芯片圖像處理主要包括基因點(diǎn)定位和信息提取兩個(gè)步驟,基因點(diǎn)定位分為網(wǎng)格定位和斑點(diǎn)分割,用于確定各基因點(diǎn)的位置,信息提取是在分割出基因點(diǎn)與背景區域后對該點(diǎn)的亮度表達值進(jìn)行計算。
由于原始圖像中的熒光斑點(diǎn)以矩陣形式排列,故傳統的基因點(diǎn)定位方法,大多是先做傾斜校正,然后定位斑點(diǎn)的矩形區域(網(wǎng)格定位),再分割出更緊湊的斑點(diǎn)邊緣區域(斑點(diǎn)分 割)。在網(wǎng)格定位方面,主要有基于投影的網(wǎng)格定位[2,3],該方法運算速度快,但容易受噪聲影響,導致定位失敗?;谂郎椒ǖ木W(wǎng)格定位[4],通過(guò)尋找局部最優(yōu)方式逐步迭代來(lái)進(jìn)行網(wǎng)格定位,初始點(diǎn)的設定將直接影響計算結果?;隈R爾可夫隨機場(chǎng)的網(wǎng)格定位方法[5]利用不同應用限制和啟發(fā)式規則進(jìn)行網(wǎng)格定位,需要給定每個(gè)網(wǎng)格內基因的行列數和網(wǎng)格行列數?;谶z傳算法的網(wǎng)格定位[6]通過(guò)計算間距和初始行列位置進(jìn)行網(wǎng)格定位,需要設定較多參數,運算耗時(shí)。
網(wǎng)格定位后,對斑點(diǎn)進(jìn)行分割的方法有固定圓形法[7,8],采用固定圓形方式進(jìn)行鄰域搜索,不適用于其他形狀的基因點(diǎn)分割;自適應圓形法[9]利用大小可變的圓形進(jìn)行鄰域搜索分割,但受點(diǎn)樣探針形狀及點(diǎn)樣過(guò)程玻片滑動(dòng)等因素的影響,難以找到非絕對圓形的基因點(diǎn);自適應形狀法以分水嶺算法或種子區域生長(cháng)算法為基礎,可進(jìn)行可變形狀的基因點(diǎn)分割,但該方法種子選取困難、標記迭代次數多、復雜度高;肖松山對圓形定位處理過(guò)程進(jìn)行了分類(lèi)討論,將樣點(diǎn)分成“圓域、圓環(huán)和不規則區域三類(lèi)”,并提出相應的“模板匹配法,霍夫變換法和形心法”等三種自動(dòng)識別算法,但該文獻還是以圓形作為基本模板進(jìn)行處理,變換所用的算法復雜度較大,實(shí)驗結果并沒(méi)有與商業(yè)軟件進(jìn)行對比或將其與最終的表達數據進(jìn)行分析;直方圖分割法利用一個(gè)比任何靶點(diǎn)都大的目標模板對待分割區域進(jìn)行套框操作,對每個(gè)套框中的像素點(diǎn)進(jìn)行直方圖分析,按照預定義的光密度比率分割出信號和背景,該方法的優(yōu)點(diǎn)在于算法簡(jiǎn)便、速度快,缺點(diǎn)是目標模板的大小對分割結果有較大影響,造成穩定性差、重復性不好,此外,該方法的分割結果往往會(huì )得到一個(gè)非連通的前景區域,與點(diǎn)樣的實(shí)際結果不符合,對于弱信號靶點(diǎn)的分割,直方圖分割法的缺點(diǎn)表現得更為明顯,應用仍較少。
綜上所述,現有的基因芯片圖像處理方法普遍存在如下幾個(gè)問(wèn)題:(1)自動(dòng)化程度低,每種方法都涉及到多個(gè)參數的預設,有些參數是隨機的,有些參數是與圖像相關(guān)的;(2)靶點(diǎn)分割不準確,由于傳統方法采用的是網(wǎng)格定位后進(jìn)行基因點(diǎn)分割,網(wǎng)格定位的誤差將直接向后累加,導致基因點(diǎn)分割失敗?;诖?,考慮到數學(xué)形態(tài)學(xué)的基本思想是用具有一定形態(tài)的結構元素去量度和提取圖像中的對應形狀,以達到對圖像分析和識別的目的。因此根據基因斑點(diǎn)自身不規則的形態(tài)特征,本文提出了基于數學(xué)形態(tài)學(xué)的基因芯片圖像分割方法,在閉運算對斑點(diǎn)周?chē)M(jìn)行噪聲清除的基礎上,結合開(kāi)運算對斑點(diǎn)的形態(tài)進(jìn)行修復彌補,最終緊湊地進(jìn)行斑點(diǎn)分割。本文的方法實(shí)現了基因芯片圖像的形態(tài)學(xué)分析和自適應二值化,大大提高了圖像分析和處理的速度與精度。
2 圖像的自適應提取
2.1 流程改進(jìn)
基因芯片圖像處理的一種常用方法是投影法,處理步驟如表1,由于受噪聲等影響,很容易產(chǎn)生矩形框誤定位,從而導致基因點(diǎn)分割錯誤,如圖1所示。大塊高亮噪聲會(huì )導致矩形框定位冗余,此外,矩形框定位有時(shí)會(huì )壓在基因點(diǎn)上,如果再在矩形框內進(jìn)行圓形定位,可能會(huì )導致基因點(diǎn)不完整,或完全找不到基因點(diǎn)。
表1 處理步驟對比
圖1 投影法誤定位情況
為避免投影網(wǎng)格定位產(chǎn)生的誤定位問(wèn)題,本文提出一種新的基因點(diǎn)分割方法,如表1所示。為使離散的斑點(diǎn)進(jìn)一步豐滿(mǎn)起來(lái),方便精確地刻畫(huà)其邊緣,引入了數學(xué)形態(tài)學(xué)方法,在對其增強的基礎上,利用差分運算獲取分割閾值進(jìn)行斑點(diǎn)與背景的分離,從而確定基因點(diǎn)進(jìn)行數據讀取。
2.2 自適應圖像增強
傳統的圖像增強方法一般采用灰度映射法,需要設定較多閥值來(lái)界定輸入輸出的灰度范圍,并需要反復實(shí)驗提取經(jīng)驗值。為提取斑點(diǎn)自身的不規則形態(tài)邊緣,并去除斑點(diǎn)邊緣離散噪聲的影響,利用形態(tài)學(xué)的開(kāi)閉運算進(jìn)行處理。應用閉運算來(lái)填充斑點(diǎn)內細小空洞、連接鄰近像素點(diǎn)、平滑其邊界的同時(shí)并不明顯改變其面積。再應用開(kāi)運算消除離散噪聲像素,在纖細點(diǎn)處分離斑點(diǎn)與噪聲。此外,由于數學(xué)形態(tài)學(xué)的開(kāi)閉運算具有極值濾波功能,開(kāi)運算增大了谷值,擴展了峰頂,是極大值濾波;閉運算減少了峰值,加寬了谷域,是極小值濾波?;诖?,本文提出一種自適應圖像增強算法如下:
(1)用原圖像減去開(kāi)運算后的圖像獲得峰值, ,其中f 為原始圖像,r 代表開(kāi)運算, B為結構算子
(2)用閉運算后的圖像減去原圖像獲得谷值,
(3)增強圖像為
應用數學(xué)形態(tài)學(xué)進(jìn)行圖像增強處理的關(guān)鍵在于結構算子的選擇,由于DNA芯片與經(jīng)過(guò)熒光標記的樣品雜交后,產(chǎn)生的熒光圖像中包含一系列類(lèi)圓形的斑點(diǎn),故選擇圓形結構算子,其直徑為基因點(diǎn)直徑。增強效果對比情況如圖2所示。
(a) 原圖部分區域 (b)傳統圖像增強效果 (c)本文方法增強后的效果
2.3 自適應二值化圖像分割
形態(tài)學(xué)增強后的斑點(diǎn)邊緣基本清晰可見(jiàn),可以較容易地提取出邊緣。但為了后續數據進(jìn)行斑點(diǎn)連通域索引,需要對圖像進(jìn)行二值化處理。把斑點(diǎn)區域像素位置記為1,把背景像素位置記為0。這樣可以省去很多邊緣提取的復雜計算,又為后續圖像分割減少計算量。
由形態(tài)學(xué)增強后的圖像直方圖可見(jiàn),如圖3a所示,雖然沒(méi)有明顯的雙峰效果,基本是呈一個(gè)下降的趨勢,且有從陡到平的過(guò)渡過(guò)程,很難用常規閾值分割方法進(jìn)行處理。 從直方圖中圖像背景的大范圍分布可以看出其對應灰度值的集中性,此外,在坡度放緩之后有一段較為平整的灰度帶,表明各個(gè)斑點(diǎn)雖然內部灰度值區別較大,但總要經(jīng)過(guò)一個(gè)灰度值從背景與斑點(diǎn)內部的過(guò)渡。 因此,本文提出利用灰度的一階差分來(lái)觀(guān)察灰度值之間的變化趨勢,從而找出分割閾值,圖3b給出了灰度的一階差分效果。
(a) 區塊對應直方圖
(b) 區塊對應直方圖一次差分效果,箭頭為閥值點(diǎn)
(b)對區塊直方圖一次差分效果,箭頭為閥值點(diǎn)圖3 對圖1所在22×22整個(gè)區塊進(jìn)行形態(tài)學(xué)變換后的分析結果利用標準差來(lái)評估差分曲線(xiàn)可能的變化或波動(dòng)程度。標準差越大,差分的范圍就越廣,差分的波動(dòng)就越大。
其中, n 為圖像灰度直方圖差分的最大范圍, xi為當前點(diǎn)的差分值,x'為平均值。
但本文并不關(guān)心標準差本身的大小,而是關(guān)心差分序列中的哪個(gè)灰度值開(kāi)始接近或等于標準差,即能體現背景與斑點(diǎn)的最大差別,并把此灰度值作為二值化的閾值。根據實(shí)際的差分曲線(xiàn)波動(dòng)由大到小,灰度由背景向斑點(diǎn)過(guò)渡的特點(diǎn),只從小灰度開(kāi)始搜索,這時(shí)的差分值由比標準差大到比標準差小變化,找到第一次差分序列中絕對值開(kāi)始接近(實(shí)際程序取開(kāi)始小于)標準差的灰度值,即為二值化閥值。具體如下:
(1)為方便計算,首先將16位灰度圖轉換為8位灰度圖g' =g / 256;
(2)獲取增強后圖像直方圖dh(g');
(3)計算直方圖的一次差分序列sd;
(4)計算差分曲線(xiàn)的標準差;
(5)判斷灰度級下的絕對差分值與標準差的關(guān)系,如果小于標準差則表示第一次接近標準差,轉(6),否則重復步驟;
(6)獲取分割閾值。二值化后的基因芯片圖像如圖4a所示。
(a) 對圖1進(jìn)行二值化的后效果 (b) 形態(tài)學(xué)邊緣提取法
圖4 圖像提取
2.4 數據讀取
對二值化后的圖像中進(jìn)行0,1索引,對于每個(gè)連通域,即每個(gè)斑點(diǎn),逢1即以當前坐標為準返回原圖讀取像素值,得到如圖4b所示的邊緣提取效果。在背景灰度扣除上,我們利用形態(tài)學(xué)外圍像素的中值作為背景值,該值能較為準確地說(shuō)明其周邊背景的分布情況,從后續的實(shí)驗分析中我們可以看到此方法確實(shí)效果更好。
3 實(shí)驗分析
為檢驗本文算法的效率與準確性,我們針對美國B(niǎo)aylor醫學(xué)院提供的10G多的圖像數據進(jìn)行對比實(shí)驗。計算機仿真實(shí)驗在Matlab7下完成。
3.1 斑點(diǎn)邊緣分割形態(tài)對比
圖5為采用投影分割圓形定位法(如著(zhù)名的GenePix Pro與ScanAlyze軟件)與本文的形態(tài)學(xué)邊緣提取法定位各斑點(diǎn)的對比效果圖;為使對比清晰,底層為圖像增強后的圖。
(a)投影分割在圖像增強后的效果 (b) 圖形定位在圖像增強后的效果 (c)形態(tài)學(xué)邊緣在圖像增強后的效果
圖5 邊緣提取的效果對比圖
從圖5可看出,本文的方法(圖5c)可以更為完整并精確地定位斑點(diǎn)。本文的方法之所以可以更為完整和精確地定位斑點(diǎn),是因為:(1)本文的方法由于沒(méi)有用到傾斜校正與坐標投影,不存在傾斜校正的樣本選取、算法復雜度的問(wèn)題和投影分割閥值設定的問(wèn)題。(2)本文的方法直接通過(guò)形態(tài)學(xué)的方法圈定其緊湊的類(lèi)橢圓的緊湊輪廓,而非投影分割法中帶有噪聲的矩形框(圖5a)和需經(jīng)過(guò)圓心定位,半徑取值后再繪制的圓框(圖5b);從圖5中的三組對比可以清晰地看到一些離散的噪聲點(diǎn)被形態(tài)學(xué)處理后的邊緣輪廓排除在外,而前兩組則無(wú)法將背景像素完全排除在外。(3)本文的方法二值化處理后,只要跟蹤圖像中非0像素,再對應到原圖,即可讀取原像素值;這樣既降低了原來(lái)需要邊緣提取的算法復雜度,又對前一步處理留下的噪聲進(jìn)行進(jìn)一步的清除。
3.2 數據提取對比
圖6是本文方法對cy5與cy3的散點(diǎn)圖,圖7是本文的方法與業(yè)界公認的權威分析軟件Bluefuse數據讀取的相對誤差圖。
圖6 cy5與cy3圖像數據散點(diǎn)圖
從圖6可看出,散點(diǎn)圖中呈現趨勢統一的擬合直線(xiàn),說(shuō)明本文提取的數據是較為精確的。另外,數據點(diǎn)分布在散點(diǎn)圖零點(diǎn)區域的多少可體現基因數據提取的完整度。從圖6的零點(diǎn)區域散點(diǎn)稀少也可以看出本文提取數據的完整度較高。從圖7可以明顯看到本文方法與Bluefuse軟件的相對誤差基本保持在0.05以?xún)?,并集中?.02左右,較為充分地說(shuō)明了本文方法算法的準確性。
圖7 Bluefuse軟件對比本文算法的相對誤差圖
4 結束語(yǔ)
本文利用數學(xué)形態(tài)學(xué)和自適應二值化方法,在實(shí)現基因芯片圖像數據自動(dòng)提取的同時(shí),也獲得了可競爭的讀取精度。與其他軟件產(chǎn)品,如GenePix Pro與ScanAlyze 的手動(dòng)網(wǎng)格定位,手動(dòng)調節半徑等過(guò)程對比,本文的方法可以更容易更快捷地得到DNA芯片的圖像分割與斑點(diǎn)數據信息。實(shí)驗證明該算法大大提高檢測的效率和準確度,為后續生物信息學(xué)數據挖掘,模式識別分析提供可靠的數據支持。
參考文獻:
[1] 劉長(cháng)春, 文孟良. 生物芯片[J]. 分析儀器, 2001(3): 37-39.
[2] Luis Rueda and Bidya Vidyadharan. A hill-climbing approach for automatic gridding of cDNA microarray images[J]. IEEE Transactions on Computational Biology and Bioinformatics, 3(1),2006:72-83
[3] Zacharia, E.,Maroulis, D.,An Original Genetic Approach to the Fully Automatic Gridding of Microarray Images[J]. IEEE Transaction on Medical Imaging,2008, 27(6):805-813.
[4] Antonio P.G. Damiance Jr., Liang Zhao, Andre C.P.L.F. Carvalho.A dynamical model with adaptive pixel moving for microarray images segmentation[J] . RealTimeImg(10) ,2004, (4): 189–195.
[5] Glasbey C A ,Ghazal P. Combinatorial Image Analysis of DNA Microarray Features. Bioinformatics, 2003,19 (2) :1942203.
[6] 肖松山. 生物芯片圖像自動(dòng)識別算法研究[J]. 生命科學(xué)儀器. 2003.
[7] 馬馳, 張紅云, 苗奪謙, 張學(xué)東. 改進(jìn)的多閾值動(dòng)態(tài)二值化算法[J]. 計算機工程. 2006. 3.
[8] 崔屹. 圖像處理與分析——數學(xué)形態(tài)學(xué)方法及應用[M]. 北京: 科學(xué)出版社. 2000. 4. 67-77.
摘自《自動(dòng)化博覽》2010年第十一期