吳亞鳳(1975-)女,陜西渭南人,碩士,中國勞動(dòng)關(guān)系學(xué)院基礎部講師,主要從事應用數學(xué)方面的研究。
摘要:本文分析了目前工業(yè)計算機控制系統中服務(wù)器冗余控制存在的問(wèn)題,提出一種高可靠的服務(wù)器冗余控制算法模型,并給出了該算法的詳細內容及其實(shí)現。
關(guān)鍵詞:計算機控制;服務(wù)器;冗余控制;算法模型
Abstract: This paper analyzes server redundant control problems in industrial computer control system. It presents a highly reliable algorithmic model for the servers’ redundant control. Moreover, it analyzes the detailed content of the algorithm, and describes its realization.
Key words: Computer Control; Server; Redundancy; Algorithmic Model
1 問(wèn)題的提出
在工業(yè)計算機控制應用領(lǐng)域,為了提高系統的可靠性以及可用性,經(jīng)常采用冗余服務(wù)器架構,即設置兩臺互為冗余的服務(wù)器,工作在一用一備模式下,為網(wǎng)絡(luò )上的其他節點(diǎn)提供各類(lèi)數據服務(wù),并且常常設置冗余網(wǎng)絡(luò ),進(jìn)一步提高系統的可用性??梢詫?shí)現當存在單個(gè)服務(wù)器節點(diǎn)故障或者單個(gè)網(wǎng)絡(luò )故障時(shí),系統的可用性不降低。系統結構如圖1所示[1]。
這樣的系統結構一般都會(huì )存在如下幾個(gè)問(wèn)題,難于解決:
(1)服務(wù)器A、B機的主從控制機制復雜,常會(huì )出現“雙主”、“雙從”或者來(lái)回切換(“打乒乓球”現象),使得系統可靠性降低。為了解決這個(gè)問(wèn)題,有些系統采用硬件方式給兩臺服務(wù)器之間設置硬件切換電路板,保證不出現這個(gè)問(wèn)題,但又存在成本以及切換電路可靠性的問(wèn)題;
(2)兩臺服務(wù)器的數據同步是冗余控制的難點(diǎn),特別是在雙機進(jìn)行各種狀態(tài)轉換(主機、從機、單機、故障/停機)過(guò)程中發(fā)生的數據更新或者來(lái)自操作站的控制命令時(shí),如何保證雙機數據嚴格的一致性以及不丟失數據是非常困難的;
(3)系統雙網(wǎng)絡(luò )結構使得某些情況下難于控制,如兩臺服務(wù)器的交叉網(wǎng)絡(luò )故障,使得雙機互不能訪(fǎng)問(wèn)對方,從而造成系統不可用[2]。
2 冗余控制模型
本文提出一種基于圖1的改良網(wǎng)絡(luò )模型,在兩個(gè)服務(wù)器上各增加一塊以太網(wǎng)卡,形成第三條網(wǎng)絡(luò )(如圖2所示),通過(guò)合適的控制算法,使其達到準確檢測、正確切換、無(wú)擾控制、不丟數據的目的,以滿(mǎn)足工業(yè)控制場(chǎng)合高可靠性與高可用性要求。
該冗余控制模型如圖3所示,自下到上依次是狀態(tài)診斷、主從控制、數據服務(wù)以及冗余控制四層結構,下層為上層提供服務(wù),上層的執行依賴(lài)于下層的運算結果。
它們的功能如下:
狀態(tài)診斷:為服務(wù)器提供自己和對方準確的網(wǎng)絡(luò )以及關(guān)鍵進(jìn)程狀態(tài);
主從控制:根據自己和對方的狀態(tài),按照服務(wù)器切換狀態(tài)機進(jìn)行主從切換;
數據服務(wù):客戶(hù)機向服務(wù)器進(jìn)行數據請求,以及服務(wù)器的數據服務(wù)過(guò)程;
冗余控制:兩臺服務(wù)器之間的數據同步過(guò)程。
3 服務(wù)器的狀態(tài)診斷
服務(wù)器狀態(tài)監測包括自我監測、狀態(tài)廣播、監聽(tīng)對方、監聽(tīng)客戶(hù)機四個(gè)部分。服務(wù)器監測自己的三個(gè)網(wǎng)絡(luò )的好壞、監測自身關(guān)鍵進(jìn)程的運行狀態(tài),并將這些狀態(tài)填入自身狀態(tài)字中,然后將自身狀態(tài)字通過(guò)全部網(wǎng)卡廣播出去;并一直監視來(lái)自對方服務(wù)器的廣播信息包以及來(lái)自其他客戶(hù)機的異常監聽(tīng)反饋,根據它們來(lái)填充自己狀態(tài)字、計算對方服務(wù)器的狀態(tài),并作為服務(wù)器主從控制模塊的輸入。
作為客戶(hù)機,一般情況下,它只監聽(tīng)來(lái)自?xún)膳_服務(wù)器的廣播信息,只有在以下幾種異常情況下,它才給予回復,用于通知兩臺服務(wù)器。
(1)兩臺服務(wù)器均聲稱(chēng)自己看不見(jiàn)對方;
(2)兩臺服務(wù)器運行狀態(tài)沖突(將雙主、雙從、雙單機三種情況均視為沖突)。
對于第一種情況,這是因為兩臺服務(wù)器之間的網(wǎng)絡(luò )存在交叉故障問(wèn)題,兩臺服務(wù)器之間失去了聯(lián)系;第二種情況在系統被割裂為獨立的兩個(gè)子系統并在恢復的瞬間會(huì )出現,以及為了防止程序BUG等意外情況所做的容錯設計??蛻?hù)機回復狀態(tài)字如圖5所示。
由以上的過(guò)程,可以對兩臺服務(wù)器關(guān)鍵進(jìn)程、各自的網(wǎng)絡(luò )、客戶(hù)機網(wǎng)絡(luò )做出準確的判斷,只要當系統被割裂為完全獨立的兩個(gè)子系統時(shí),系統的運行模式轉為兩個(gè)獨立系統,如圖6所示。
只有當兩個(gè)服務(wù)器的NETA和B交叉故障、NETC故障、每臺客戶(hù)機均有一個(gè)網(wǎng)絡(luò )故障的情況下,才會(huì )出現被割裂為完全獨立的兩個(gè)子系統的情況。但是故障恢復后,系統可以進(jìn)行數據的合并,保證不丟失數據。
4 服務(wù)器的主從控制
服務(wù)器的狀態(tài)有四種:主機、備用機、故障、單機模式。主機就是該服務(wù)器在兩臺冗余的服務(wù)器中起著(zhù)主導地位,處于工作模式,則另外一臺服務(wù)器一定也是運行狀態(tài),并且處于備用狀態(tài)(備用機)或者故障狀態(tài);單機模式就是網(wǎng)絡(luò )中只存在一臺服務(wù)器處于運行狀態(tài),是獨立運行的。這四種狀態(tài)是隨著(zhù)網(wǎng)絡(luò )狀態(tài)、服務(wù)器關(guān)鍵進(jìn)程狀態(tài)、服務(wù)器的配置等情況的不同而動(dòng)態(tài)變化的。
服務(wù)器的主從切換控制就是控制自己的運行狀態(tài)在上述這四種狀態(tài)中動(dòng)態(tài)切換,它是在服務(wù)器狀態(tài)診斷的基礎上執行的,并且兩臺服務(wù)器的狀態(tài)切換是獨立進(jìn)行的,切換按照圖7所示的服務(wù)器狀態(tài)機進(jìn)行。
服務(wù)器狀態(tài)機中的轉換條件如表1,表中轉換前狀態(tài)以及轉換后狀態(tài)請參考圖7。
表1 服務(wù)器狀態(tài)機轉換條件:
服務(wù)器各自對自身的狀態(tài)進(jìn)行計算與控制,還需要將其狀態(tài)回填至圖4所示的狀態(tài)字中,以使得網(wǎng)絡(luò )上其他節點(diǎn)獲得該信息。
5 系統數據服務(wù)
服務(wù)器向網(wǎng)絡(luò )上的客戶(hù)機提供各類(lèi)數據服務(wù),包括為客戶(hù)機發(fā)布數據(或者服務(wù)器的控制命令輸出)和接收客戶(hù)機的命令消息(或者服務(wù)器的數據更新),這兩類(lèi)數據服務(wù)從服務(wù)器的角度看就是輸出數據和輸入數據。對于輸出數據,僅由主機(單機)對外提供;對于輸入數據,則服務(wù)器處于任何狀態(tài)下均要處理。其消息傳遞模型如圖8所示。
作為客戶(hù)機而言,它向服務(wù)器請求數據或者發(fā)送命令時(shí),需要同時(shí)向兩臺服務(wù)器發(fā)送,并給消息進(jìn)行編號;接收數據時(shí),僅接收主機(或者單機)服務(wù)器的數據。
服務(wù)器處理數據時(shí),需要記錄已經(jīng)處理的消息的編號或者處理動(dòng)作計數器,以便后續數據冗余同步控制的執行。
6 數據冗余控制
服務(wù)器的冗余控制是為了保證兩臺服務(wù)器上的數據的一致性、完整性。其手段是同步控制,即保證兩臺服務(wù)器上的數據的源頭一致,處理步調一致,以達到其數據的完全一致。
服務(wù)器要處理的數據根據數據源以及對數據加工需求的不同可以分為如下幾類(lèi):(1)僅從外部數據源獲取數據,并更新本機的數據;(2)僅為外部需求者提供數據;(3)根據外部需求做出動(dòng)作;(4)與外部無(wú)關(guān)的數據處理過(guò)程。對于不同類(lèi)型的數據處理,其冗余控制不同。對于1、3類(lèi),需要冗余同步;對于2、4類(lèi),不需要冗余同步控制。
數據冗余同步分為兩種:全部同步、增量同步。全部同步是將主機上的數據庫全部復制至備用機,用于服務(wù)器由故障、單機轉為備用機和備用機啟動(dòng)過(guò)程中;增量同步是將主機上的部分數據復制至備用機,用于雙機正常工作中的主機為從機同步過(guò)程中。
全部同步處理比較簡(jiǎn)單;增量同步比較復雜,需要記錄哪些內容需要同步以及做哪些數據備份等。雙機在工作過(guò)程中,各自維護一個(gè)數據處理ID堆棧和計數器堆棧,主機定周期的通知從機自己處理的ID和計數器,從機檢查自己的處理是否與其一致,如不一致,則向主機發(fā)出數據備份請求,主機再向從機發(fā)出備份數據,并矯正數據處理ID和計數器堆棧,完成一次增量同步過(guò)程,如圖9所示。
7 小結
該冗余算法設計采用分層模式,結構清晰明了,層間耦合度小,易于實(shí)現[3]。已經(jīng)在SCADA系統中實(shí)現并得以驗證,有較高的可靠性,并提高系統的可用性,能較好的解決工業(yè)計算機控制系統的服務(wù)器冗余問(wèn)題。
參考文獻:
[1] 王常力等. 分布式控制系統(DCS)設計與應用實(shí)例[M]. 北京: 電子工業(yè)出版社, 2004. 22~31.
[2] 夏士兵等. 變電站SCADA系統雙服務(wù)器無(wú)擾動(dòng)切換算法[J]. 電力系統自動(dòng)化, 2006, 30(14): 58~60.
[3] 柯奈漢等. 程序設計實(shí)踐[M]. 北京: 機械工業(yè)出版社, 2000. 23~65.
摘自《自動(dòng)化博覽》2010年第十二期