作者 | 陳錦 王禹 中國信息安全測評中心
隨著(zhù)大數據分布式計算和分布式存儲等新技術(shù)的廣泛應用,數據分析挖掘、共享交易等新應用場(chǎng)景的出現,導致數據在創(chuàng )造價(jià)值、提高政府治理能力的同時(shí),面臨數據安全和個(gè)人隱私泄露等問(wèn)題。近年來(lái),數據泄露事件頻繁發(fā)生,從雅虎公司因黑客入侵導致共30億用戶(hù)賬號信息被竊取,到京東因內部惡意員工作案致使共50億條公民信息被泄露,泄露的數據越來(lái)越多,造成的影響越來(lái)越大,數據安全形勢日益嚴峻。
1 數據泄露事件發(fā)生的原因
大數據時(shí)代,數據已經(jīng)資產(chǎn)化和業(yè)務(wù)化,成為國家基礎戰略資源。誰(shuí)擁有數據,誰(shuí)就掌握主動(dòng)權,誰(shuí)能夠利用數據,誰(shuí)就掌握決策權,實(shí)現數據驅動(dòng)決策、數據驅動(dòng)發(fā)展。因此,數據不可避免成為不法分子攻擊竊取的重要對象。同時(shí),由于目前的數據泄露防護技術(shù)(DLP)主要是通過(guò)關(guān)鍵字、正則表達式和數據指紋等對存儲、傳輸和使用過(guò)程中的數據進(jìn)行內容匹配發(fā)現違規數據泄露,達到數據泄露防護的目的。但是,該技術(shù)主要是防護內部員工無(wú)意泄密,不能防護內部員工有意泄密和外部黑客攻擊竊密等。而且,由于數據分析挖掘、交換共享等新的應用場(chǎng)景出現,數據在動(dòng)態(tài)使用過(guò)程中新增數據泄露風(fēng)險。
(1) 內部員工有意泄露數據
內部員工因對組織不滿(mǎn)或者在利益驅動(dòng)下,利用工作便利條件,與外部商業(yè)競爭對手或數據需求方相互勾結,在日常對業(yè)務(wù)系統的操作運維過(guò)程中越權查看、違規下載數據,對數據進(jìn)行加密等處理后,繞過(guò)基于內容匹配的數據泄露防護技術(shù)的檢測,導致數據泄露。據金雅拓(Gemalto)發(fā)布的《2017年上半年數據泄露水平指數報告》統計,由內部員工造成的數據泄露事件共166起,雖然只占全部事件的18%,卻造成了超過(guò)16億條數據泄露,占上半年泄露數據總量的86%。由此可見(jiàn),內部員工是數據泄露的主要原因,造成的危害更大。
(2)外部黑客網(wǎng)絡(luò )攻擊竊取數據
外部黑客可分為國家支持型黑客、商業(yè)間諜、有組織犯罪團伙等,利用基礎設施層、網(wǎng)絡(luò )層和應用層等在技術(shù)實(shí)現上存在的安全漏洞或者安全配置缺陷對系統進(jìn)行遠程入侵,未授權訪(fǎng)問(wèn)、查看和下載數據。通過(guò)加密等技術(shù)手段對數據內容進(jìn)行變形處理,規避基于內容匹配的數據泄露防護技術(shù)的檢測,達到竊取數據的目的。美國威瑞森電信公司(Verizon)對65個(gè)不同組織最近10年泄露的數據進(jìn)行綜合分析指出,外部黑客仍然是數據泄露的罪魁禍首,占數據泄露事件的75%。
(3)數據處理交換等新應用場(chǎng)景泄露數據
擬定國家標準“信息安全技術(shù)數據安全能力成熟度模型”可知,大數據的數據生命周期包括數據采集、傳輸、存儲、處理、交換和銷(xiāo)毀等六個(gè)階段。數據處理和數據交換是大數據特有的應用場(chǎng)景,在數據處理階段,通過(guò)對收集的多源異構數據進(jìn)行分析挖掘,形成新的、價(jià)值更高的數據產(chǎn)品;在數據交換階段,通過(guò)把收集的原始數據、分析結果數據等跟組織內部進(jìn)行共享或外部組織進(jìn)行交易,使數據由靜態(tài)信息載體變成動(dòng)態(tài)流轉的生產(chǎn)資料,在流動(dòng)過(guò)程中實(shí)現數據價(jià)值化。但是,在數據處理和數據交換等新的應用場(chǎng)景中,由于權限控制和數據脫敏等安全防護機制不健全,導致用戶(hù)隱私、企業(yè)和組織的機密數據違規泄露。
2 數據泄露防護面臨的問(wèn)題
在數據全生命周期各階段中,核心是數據通過(guò)分析挖掘創(chuàng )造價(jià)值和共享交易實(shí)現價(jià)值。但是,數據在使用和流動(dòng)過(guò)程中,不再局限于組織內部,而是從一個(gè)網(wǎng)絡(luò )域的數據控制者流向其他網(wǎng)絡(luò )域的數據控制者。新的特點(diǎn)亦存在新的數據泄露問(wèn)題。
(1)大數據基礎設施不能安全可控
目前,建設大數據系統主要有以下三種方式:第一,基于開(kāi)源產(chǎn)品。采用hadoop、spark、MongoDB等開(kāi)源軟件搭建大數據平臺;第二,開(kāi)源產(chǎn)品二次封裝。國內大數據廠(chǎng)商基于hadoop、spark、MongoDB等開(kāi)源軟件進(jìn)行二次開(kāi)發(fā)和封裝,或者通過(guò)跟國外大數據廠(chǎng)商合作,基于其提供的API接口進(jìn)行二次開(kāi)發(fā)和封裝,形成新的產(chǎn)品;第三,采購國外產(chǎn)品和服務(wù)。采購國外大數據廠(chǎng)商Cloudera、Amazon、EMC、Google等提供的大數據產(chǎn)品搭建大數據平臺,并由國外廠(chǎng)商提供日常運營(yíng)等服務(wù)。以上三種模式的核心還是離不開(kāi)開(kāi)源產(chǎn)品和國外產(chǎn)品,關(guān)鍵技術(shù)不能安全可控,大數據基礎設施面臨安全風(fēng)險。根據國家漏洞庫(CNNVD)統計數據顯示,僅2017年,Apache、Cloudera等產(chǎn)商提供的hadoop存在權限控制、輸入驗證、目錄遍歷、信息泄露等共8個(gè)漏洞,spark存在跨站腳本等3個(gè)漏洞。僅2017年1月,由于MongoDB數據庫因默認配置存在缺陷而發(fā)生數據泄露事件,導致全球3萬(wàn)多個(gè)數據庫受到影響,600多TB數據發(fā)生泄露。由此可見(jiàn),基礎設施不能安全可控,數據安全無(wú)法保障。
(2)分析挖掘過(guò)程中用戶(hù)隱私泄露
大數據價(jià)值的釋放在于分析挖掘,通過(guò)分析挖掘能夠得到更有價(jià)值的數據。但是,在分析挖掘過(guò)程中也存在用戶(hù)隱私泄露問(wèn)題。第一,過(guò)度披露用戶(hù)隱私信息。通過(guò)知識挖掘、機器學(xué)習、人工智能等技術(shù),將過(guò)去分離的信息進(jìn)行關(guān)聯(lián)、碰撞和整合,可以重新刻畫(huà)用戶(hù)的興趣愛(ài)好、政治傾向和人格特征等,使原始數據中被隱藏的信息再次顯現出來(lái),甚至分析挖掘后得到的信息遠遠大于原始數據所擁有的信息;第二,越權訪(fǎng)問(wèn)用戶(hù)隱私數據。數據分析員利用職務(wù)之便,在分析挖掘過(guò)程中,由于權限分配過(guò)大或者權限控制存在安全缺陷,能夠查看、下載與業(yè)務(wù)工作無(wú)關(guān)的、權限范圍之外的數據。如南京某機關(guān)單位主任科員,利用職務(wù)之便,超越職權下載共計82萬(wàn)條公民個(gè)人信息,造成大量公民個(gè)人隱私信息泄露;第三,違規分析挖掘隱私數據。數據分析人員在開(kāi)展業(yè)務(wù)的過(guò)程中,沒(méi)有嚴格按照業(yè)務(wù)目標和業(yè)務(wù)要求進(jìn)行數據分析和挖掘,基于授權的數據進(jìn)行違規操作,開(kāi)展與業(yè)務(wù)目標不相關(guān)的分析挖掘,導致用戶(hù)隱私泄露。如某電子商務(wù)網(wǎng)站要求基于用戶(hù)的購買(mǎi)歷史數據和查看商品記錄預測用戶(hù)感興趣的產(chǎn)品,業(yè)務(wù)目標是對用戶(hù)可能購買(mǎi)的產(chǎn)品進(jìn)行自動(dòng)推薦。但是,數據分析員可以基于這些數據對用戶(hù)的職業(yè)、興趣愛(ài)好等進(jìn)行分析,導致用戶(hù)隱私數據泄露。
(3)開(kāi)放共享過(guò)程中數據違規泄露
隨著(zhù)物聯(lián)網(wǎng)等信息化技術(shù)的快速發(fā)展和應用,各行業(yè)和領(lǐng)域積累了大量的數據,數據開(kāi)放共享是數據價(jià)值化的基礎和前提。數據按照重要程度分為敏感數據和一般數據等,按照開(kāi)放共享條件可分為無(wú)條件開(kāi)放共享、有條件開(kāi)放共享、不開(kāi)放共享等。通過(guò)數據治理制定嚴格的開(kāi)放共享策略,在數據開(kāi)放共享過(guò)程中,根據相應的策略控制待開(kāi)放共享的數據和目標對象。但是,由于海量數據治理困難,以及對分析過(guò)程中新產(chǎn)生的數據很難及時(shí)制定開(kāi)放共享策略,使開(kāi)放共享過(guò)程中存在不合規的開(kāi)放和共享,導致數據泄露。同時(shí),在有條件開(kāi)放共享的情況,數據只能共享給特定對象,該對象不能再把共享的數據開(kāi)放或者共享給第三方。但是,由于數據已經(jīng)脫離所有者的控制,數據追蹤溯源技術(shù)并不成熟,無(wú)法跟蹤數據的最終去向和使用情況,使數據處于失控狀態(tài)。
(4)交易流通過(guò)程中數據安全不可控
交易流通是數據價(jià)值體現的基本途徑,更是盤(pán)活數據、用好數據的關(guān)鍵環(huán)節。目前,典型的數據交易模式是代理商模式,由數據提供者、數據代理商(中介)和數據消費者等三個(gè)角色組成。數據提供者擁有數據資源,把數據賣(mài)給數據代理商。數據代理商既可以把交易的原始數據賣(mài)給數據消費者,又可以把基于原始數據進(jìn)行挖掘分析得到價(jià)值更高的分析結果數據賣(mài)給數據消費者。在數據交易流通過(guò)程中,數據已經(jīng)脫離數據擁有者的掌控,數據代理商取代數據擁有者,成為數據的掌控者。因此,代理商的數據安全防護能力決定數據在分析挖掘、數據運維等過(guò)程中的安全性。怎樣保證數據交易流通過(guò)程中不因數據代理商等第三方的過(guò)失而造成數據泄露,成為一大挑戰。
(5)數據產(chǎn)品使用過(guò)程中易被復制竊取
數據是未來(lái)社會(huì )的新“石油”,數據價(jià)值的實(shí)現需對“數據石油”進(jìn)行挖掘和分析,形成類(lèi)似工業(yè)社會(huì )汽油的報告、模型、算法等數據產(chǎn)品,數據價(jià)值才能體現,數據紅利才能釋放。目前,信息系統整合共享等一系列舉措的實(shí)施和推進(jìn),海量數據資源進(jìn)一步共享和匯聚,為數據產(chǎn)品的開(kāi)發(fā)打好基礎,數據的下一站即是數據應用——數據產(chǎn)品。但是,由于數據產(chǎn)品作為商品在交易過(guò)程中存在再次轉手交易的情況,以及數據產(chǎn)品具有易復制、修改等特點(diǎn),怎樣保障數據產(chǎn)品在使用、流通過(guò)程中的知識產(chǎn)權,防止數據產(chǎn)品被非法復制、非法傳播和非法篡改等數據泄露行為的發(fā)生,成為又一大挑戰。
3 數據泄露防護對策和建議
針對數據泄露防護存在的安全問(wèn)題,為切實(shí)保障數據安全,應正確理解認識大數據泄露防護的本質(zhì),研發(fā)大數據關(guān)鍵技術(shù),建設一套以數據安全為核心的動(dòng)態(tài)防護體系,重點(diǎn)保障數據在使用和流動(dòng)過(guò)程中的安全。
(1)正確理解認識大數據泄露防護
第一,把握數據的動(dòng)態(tài)特征。應把握大數據環(huán)境中數據安全的本質(zhì)和特點(diǎn),從靜態(tài)數據防泄露,過(guò)渡到分析挖掘和交易共享等動(dòng)態(tài)使用和數據流動(dòng)過(guò)程中的數據泄露防護。第二,由被動(dòng)安全防護轉向主動(dòng)風(fēng)險控制。應以數據為核心,以用戶(hù)對數據的操作、訪(fǎng)問(wèn)行為為分析對象,通過(guò)對數據應用過(guò)程中的風(fēng)險分析,挖掘數據泄露行為,主動(dòng)識別數據泄露風(fēng)險。第三,突出數據泄露防護的全面性。應根據數據泄露原因和數據泄露防護面臨的問(wèn)題,建立涵蓋無(wú)意數據泄露、有意數據泄露、黑客攻擊竊取和新的應用場(chǎng)景導致數據泄露等全方位的安全防護機制。
(2)鼓勵研發(fā)大數據關(guān)鍵技術(shù)
大數據核心技術(shù)不能安全可控是我國現在乃至將來(lái)一段時(shí)間面臨的主要安全問(wèn)題。為實(shí)現“自主創(chuàng )新、持續發(fā)展”的目標,應盡快建立一套完善的制度法規保護大數據安全。第一,科研和專(zhuān)項經(jīng)費支持。通過(guò)科研和專(zhuān)項經(jīng)費等推動(dòng)科研機構和產(chǎn)業(yè)界開(kāi)展大數據關(guān)鍵技術(shù)研究,提高自主創(chuàng )新能力;第二,依托大數據國家工程實(shí)驗室。通過(guò)發(fā)改委批準的11個(gè)大數據國家工程實(shí)驗室,提升大數據計算技術(shù)、分析技術(shù)等關(guān)鍵技術(shù)研發(fā)能力和在醫療、交通、教育、安全等領(lǐng)域的應用推廣;第三,政府扶持。在能夠滿(mǎn)足業(yè)務(wù)需求的情況下,政府行業(yè)的用戶(hù)優(yōu)先采用本國研發(fā)和設計的產(chǎn)品,支持本國產(chǎn)品的研發(fā),為大數據關(guān)鍵技術(shù)的發(fā)展提供舒適的環(huán)境。
(3)建設以數據為核心的泄露防護體系
針對大數據泄露防護面臨的問(wèn)題,構建以數據安全為核心的動(dòng)態(tài)安全防控體系,通過(guò)數據治理、安全機制、風(fēng)險識別和審計溯源等重點(diǎn)識別和控制數據訪(fǎng)問(wèn)、應用和流轉等動(dòng)態(tài)過(guò)程中的安全風(fēng)險。第一,數據治理。通過(guò)大數據治理實(shí)現數據分類(lèi)分級、數據溯源,能夠從全域的角度“看得見(jiàn)、看得清”所有的數據,包括數據存儲、使用流轉情況和對應的數據安全策略。掌握數據流動(dòng)情況,包括表與表之間的流動(dòng)、系統之間的流動(dòng)、部門(mén)之間的流動(dòng)、單位之間的流動(dòng)等等;第二,部署安全防護措施。在大數據基礎設施、數據挖掘分析和共享交易等方面采取安全防護措施,保障數據安全;第三,主動(dòng)識別和控制風(fēng)險。通過(guò)收集基礎設施、用戶(hù)操作、數據流轉等方面的日志數據,對數據的訪(fǎng)問(wèn)操作和數據流轉為核心,識別用戶(hù)對數據的異常操作風(fēng)險和數據的異常流動(dòng)風(fēng)險;第四,安全審計與溯源分析。通過(guò)細粒度的數據行為審計與溯源能力建設,形成事后可審計、可溯源、可追責的威懾體系。
來(lái)源:本文經(jīng)授權轉載自《中國信息安全》雜志2018年第3期