• <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

    <table id="fficu"></table>

    <sup id="fficu"></sup>
    <output id="fficu"></output>
    1. ABB
      關(guān)注中國自動(dòng)化產(chǎn)業(yè)發(fā)展的先行者!
      CAIAC 2025
      2025工業(yè)安全大會(huì )
      OICT公益講堂
      當前位置:首頁(yè) >> 資訊 >> 行業(yè)資訊

      資訊頻道

      人工智能在數據治理中的應用
      • 點(diǎn)擊數:2739     發(fā)布時(shí)間:2019-06-20 10:08:00
      • 分享到:
      伴隨著(zhù)大數據、云計算以及算法的發(fā)展,人工智能的浪潮從幾年前一直延續至今,并且廣泛應用于多個(gè)行業(yè)和領(lǐng)域,成為下一次科技革命的一個(gè)領(lǐng)軍技術(shù)。同樣,伴隨著(zhù)數據量與數據來(lái)源的猛增,數據治理也成為了企業(yè)在充分挖掘利用數據價(jià)值過(guò)程中必不可少的環(huán)節,并逐漸發(fā)展為企業(yè)的核心業(yè)務(wù)之一。
      關(guān)鍵詞:

      一、引言

      伴隨著(zhù)大數據、云計算以及算法的發(fā)展,人工智能的浪潮從幾年前一直延續至今,并且廣泛應用于多個(gè)行業(yè)和領(lǐng)域,成為下一次科技革命的一個(gè)領(lǐng)軍技術(shù)。同樣,伴隨著(zhù)數據量與數據來(lái)源的猛增,數據治理也成為了企業(yè)在充分挖掘利用數據價(jià)值過(guò)程中必不可少的環(huán)節,并逐漸發(fā)展為企業(yè)的核心業(yè)務(wù)之一。

      由于數據治理的輸出是人工智能的輸入,即經(jīng)過(guò)數據治理后的大數據,因此數據治理與人工智能的發(fā)展存在相輔相成的關(guān)系。一方面,數據治理為人工智能奠定基礎。通過(guò)數據治理,企業(yè)可以提升數據質(zhì)量、增強數據合規性,從而為人工智能的應用提供高質(zhì)量的合規數據。另一方面,人工智能對數據治理存在諸多優(yōu)化作用。通過(guò)人工智能技術(shù),數據治理工作中的數據模型管理、元數據管理、主數據管理、數據質(zhì)量管理、數據安全管理等方面智能化水平得到提升。

      二、人工智能與數據治理的發(fā)展現狀

      (一)人工智能的發(fā)展現狀

      人工智能也稱(chēng)為機器智能,其概念最初是在20世紀50年代中期Dartmouth學(xué)會(huì )上提出,研究、開(kāi)發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統的一門(mén)新的技術(shù)科學(xué)。在目前的學(xué)科體系下,人工智能屬于計算機科學(xué)的一個(gè)分支。人工智能的目的是通過(guò)了解智能的實(shí)質(zhì)來(lái)提升機器的智能水平,并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應的智能機器。人工智能的細分領(lǐng)域很多,例如機器人、語(yǔ)言識別、圖像識別、自然語(yǔ)言處理和專(zhuān)家系統等。

      (1)在技術(shù)方面

      以智能語(yǔ)音語(yǔ)義、計算機視覺(jué)等為代表的技術(shù)不斷取得突破,為賦能各行業(yè)打下了堅實(shí)的基礎。以智能語(yǔ)音語(yǔ)義為例,語(yǔ)音識別應用在純凈環(huán)境下表現趨近完美,機器翻譯聚焦神經(jīng)網(wǎng)絡(luò )技術(shù)也實(shí)現了系統錯誤率60%的降低,在詞嵌入及對話(huà)系統得到了長(cháng)足進(jìn)步;以計算機視覺(jué)為例,圖像分類(lèi)已全面超越人類(lèi)水平,在目標檢測、語(yǔ)義分割、目標跟蹤等領(lǐng)域也實(shí)現了性能及精度的極大提升。

      (2)在產(chǎn)業(yè)方面

      近年來(lái),以深度神經(jīng)網(wǎng)絡(luò )為代表的人工智能技術(shù)及產(chǎn)業(yè)體系逐漸成型,正在深刻賦能各領(lǐng)域的應用落地。如圖1所示,人工智能產(chǎn)業(yè)技術(shù)體系以包含算法及軟硬件實(shí)現的底層技術(shù)為根基,以軟件框架為核心,通過(guò)基礎應用技術(shù)賦能上層應用。

      (3)在應用方面

      隨著(zhù)人工智能在我國移動(dòng)互聯(lián)網(wǎng)、智能家居等領(lǐng)域的發(fā)展,我國人工智能的應用持續高速成長(cháng)。由于人工智能包含的環(huán)節較多,從基礎技術(shù)層的數據平臺、數據存儲以及數據挖掘等,人工智能技術(shù)層的語(yǔ)音識別、自然語(yǔ)言處理、圖像識別和生物識別等,到人工智能應用層的工業(yè)4.0、無(wú)人駕駛汽車(chē)、智能家居、智能金融、智慧醫療、智能營(yíng)銷(xiāo)、智能教育以及智能農業(yè)等。隨著(zhù)人機交互水平的不斷提升,智能音箱等新型人機交互產(chǎn)品迅速發(fā)展;隨著(zhù)基礎應用的不斷成熟,人工智能技術(shù)對如制造業(yè)、醫療、金融等垂直行業(yè)領(lǐng)域也在產(chǎn)生緩慢而深遠的影響。

      (二)數據治理的發(fā)展現狀

      隨著(zhù)大數據在各個(gè)行業(yè)領(lǐng)域應用的不斷深入,數據作為基礎性戰略資源的地位日益凸顯,數據標準化、數據確權、數據質(zhì)量、數據安全、隱私保護、數據流通管控、數據共享開(kāi)放等問(wèn)題越來(lái)越受到國家、行業(yè)、企業(yè)各個(gè)層面的高度關(guān)注,這些內容都屬于數據治理的范疇。因此,數據治理的概念就越來(lái)越多地受到關(guān)注,成為目前大數據產(chǎn)業(yè)生態(tài)系統中的新熱點(diǎn)。

      在20世紀80年代,隨著(zhù)數據隨機存儲和數據庫技術(shù)的應用,產(chǎn)業(yè)界首次提出了數據管理的概念,這就是數據治理最早的起源。2009年,國際數據管理協(xié)會(huì )(DAMA)提出了DAMA數據管理理論框架模型,成為目前行業(yè)最權威的數據管理理論模型。DAMA數據管理理論框架模型包括10個(gè)活動(dòng)職能,分別是數據治理、數據架構管理、數據開(kāi)發(fā)、數據操作管理、數據安全管理、參考數據和主數據管理、數據倉庫和商務(wù)智能管理、文檔和內容管理、元數據管理和數據質(zhì)量管理。

      目前,企業(yè)數據治理已經(jīng)形成了一套科學(xué)的管理范疇。從技術(shù)體系上來(lái)看,數據治理位于應用和底層平臺中間。數據治理包括兩個(gè)重要方面:一是數據治理的核心活動(dòng)職能;二是確保這些活動(dòng)職能落地實(shí)施的保障措施,包括組織架構、制度體系。數據治理在大數據應用體系中,處于承上啟下的重要地位。對上支持以?xún)r(jià)值挖掘為導向的數據應用開(kāi)發(fā),對下依托大數據平臺實(shí)現數據全生命周期的管理。

      2018年5月,銀保監會(huì )印發(fā)《銀行業(yè)金融機構數據治理指引的通知》,開(kāi)啟了行業(yè)數據治理的新趨勢,數據治理的概念從傳統的數據企業(yè)走向能源、金融、工業(yè)、政務(wù)等多種行業(yè)。近年來(lái),國內各行業(yè)大型企業(yè)紛紛發(fā)起企業(yè)內部數據治理項目,制定數據治理規范,成立專(zhuān)業(yè)的數據管理實(shí)體團隊來(lái)開(kāi)展企業(yè)數據治理工作。

      三、數據治理為人工智能奠定基礎

      大數據是不斷采集、沉淀、分類(lèi)等的數據積累,而數據治理則為大數據的呈現提供了更為規范的模式。目前,大部分人工智能的形式需要通過(guò)大量的數據運算實(shí)現,因此離不開(kāi)大數據和數據治理的支持。人工智能需要依賴(lài)大數據平臺和技術(shù)來(lái)幫助完成深度學(xué)習進(jìn)化。

      (1)數據治理為人工智能優(yōu)化數據質(zhì)量

      以深度學(xué)習為代表的人工智能分為訓練(Training)和推斷(Inference)兩個(gè)環(huán)節。深度學(xué)習訓練算法的效果依賴(lài)于所輸入的數據質(zhì)量的優(yōu)劣,如果輸入的數據存在偏差,那么輸出的算法也將產(chǎn)生偏差,這可能將直接導致所得結果的不可用。數據治理在提升數據質(zhì)量方面具有重要作用。通過(guò)定義數據質(zhì)量需求、定義數據質(zhì)量測量指標、定義數據質(zhì)量業(yè)務(wù)規則、制定數據質(zhì)量改善方案、設計并實(shí)施數據質(zhì)量管理工具、監控數據質(zhì)量管理操作程序和績(jì)效等數據質(zhì)量管理環(huán)節,企業(yè)可以獲得干凈的、結構清晰的數據,為深度學(xué)習等人工智能技術(shù)提供可信的數據輸入。

      (2)數據治理為人工智能保障數據隱私

      當前人工智能發(fā)展中面臨的很大制約就是數據權屬和隱私保護問(wèn)題。個(gè)人隱私數據之所以應該受到保護,就是因為這些數據的濫用有可能對個(gè)人造成巨大的財產(chǎn)甚至人身傷害。所謂隱私保護,其實(shí)就是對隱私數據的保護。最理想的情況是能夠在產(chǎn)權層面確立相關(guān)個(gè)人作為隱私數據的合法的唯一擁有者,或至少對隱私數據實(shí)際控制者的行為嚴加管束,做到合法合規,這就離不開(kāi)數據治理。數據治理工具從技術(shù)工具和保障措施等方面設計了保護隱私數據的諸多環(huán)節,可為企業(yè)個(gè)人數據保護奠定基礎,從而實(shí)現人工智能應用的數據合規性。

      四、人工智能在數據治理中的應用

      (一)數據模型管理

      數據模型是數據治理的基礎,一個(gè)完整的、可擴展的、穩定的數據模型可以清楚地表達企業(yè)內部各種業(yè)務(wù)主體之間的數據相關(guān)性,使不同部門(mén)的業(yè)務(wù)人員、應用開(kāi)發(fā)人員和系統管理人員獲得關(guān)于企業(yè)業(yè)務(wù)數據的統一完整試圖。數據模型包括概念模型、邏輯模型和物理模型。其中,概念模型一定程度上等同于傳統數據庫理論中所涉及的ER圖(實(shí)體—聯(lián)系圖),反映了實(shí)體和實(shí)體之間的關(guān)系。

      人工智能幫助實(shí)現概念模型與計算機模型的完美融合。ER圖只能幫助我們理解客觀(guān)世界的事物,并非計算機可以實(shí)現的模型,因此在建立概念模型以后,還需將其轉換為計算機模型。知識圖譜作為人工智能的重要產(chǎn)物之一,是以圖形(Graph)的方式展現實(shí)體、實(shí)體屬性以及實(shí)體間的關(guān)系。目前,知識圖譜普遍采用了語(yǔ)義網(wǎng)絡(luò )架構中RDF(Resource Description Framework,資源模式框架)模型表示數據,其基本數據模型包括資源(Resource)、謂詞(Predicate)和陳述(Statements)3個(gè)對象,用于構建包含主體、屬性和客體的知識圖譜數據集。

      (二)元數據管理

      元數據是描述數據產(chǎn)品特征的任何信息,以及與企業(yè)認為值得管理的其他數據產(chǎn)品的關(guān)系等。元數據也包含了許多主題領(lǐng)域,即業(yè)務(wù)分析(如報表、用戶(hù)、績(jì)效)、業(yè)務(wù)規則、數據整合(如數據源、數據轉換規則)等。

      (1)人工智能實(shí)現對非結構化數據的采集和關(guān)鍵信息的提取

      在傳統的元數據管理中,對于非結構化數據的元數據采集通常是通過(guò)創(chuàng )建非結構化數據的搜索索引的方式。語(yǔ)音識別、圖像識別、文本分析等技術(shù)幫助實(shí)現元數據的最初業(yè)務(wù)詞庫的構建,成為提取各類(lèi)有價(jià)值的非結構化元數據的資源池。

      (2)人工智能幫助維護元數據

      企業(yè)將元數據視為數據的索引,因此元數據的質(zhì)量至關(guān)重要。如果企業(yè)數據源存在不規則的數據并且這些不規則性可以利用元數據體現,那么元數據可以輔助用戶(hù)理解這些復雜的數據。同時(shí),在元數據的遷移和整合過(guò)程中,管理好元數據的質(zhì)量也至關(guān)重要。人工智能在元數據質(zhì)量維護的過(guò)程中不是一個(gè)“管理者”的角色,而是一個(gè)輕量又關(guān)鍵的“技術(shù)者”的角色,它起到的作用同在數據治理中提升數據質(zhì)量的作用類(lèi)似,最終將消除在元數據存儲或數據字典中重復、不一致的元數據,并通過(guò)元數據質(zhì)量規則設定,提出可靠的質(zhì)疑閾值。

      (3)人工智能幫助實(shí)現元數據的整合

      元數據的整合是在企業(yè)范圍或在企業(yè)外部,采集相關(guān)的技術(shù)元數據和業(yè)務(wù)元數據,并將其存儲進(jìn)元數據存儲庫的過(guò)程。此過(guò)程在定義存儲方式和跟蹤機制的基礎上,如果通過(guò)自動(dòng)化實(shí)現將節約更多的人力成本,而人工智能在自動(dòng)化中承擔關(guān)鍵節點(diǎn)和優(yōu)化節點(diǎn)的作用,解決諸如質(zhì)量控制和語(yǔ)義篩選方面的問(wèn)題。

      (三)主數據管理

      主數據指企業(yè)核心業(yè)務(wù)實(shí)體的數據,是在整個(gè)價(jià)值鏈上被重復、共享應用于多個(gè)業(yè)務(wù)流程的、各個(gè)業(yè)務(wù)部門(mén)與各個(gè)系統之間共享的基礎數據,是各業(yè)務(wù)應用和各系統之間進(jìn)行信息交互的基礎。但是在主數據管理的過(guò)程中,企業(yè)可能面臨如何在數量龐大的數據項中識別主數據、如何建立統一的主數據標準等問(wèn)題。

      (1)人工智能幫助企業(yè)識別主數據

      確定主數據依賴(lài)于企業(yè)對于業(yè)務(wù)需求的理解和相應“黃金數據”的定義。通常來(lái)說(shuō),每個(gè)主數據主題域都有自己專(zhuān)用的記錄系統,并且分散在各個(gè)業(yè)務(wù)系統中。人工智能相關(guān)技術(shù)可以幫助我們在所有數據中篩選出頻繁出現或流動(dòng)的數據,同時(shí)快速確定主數據的可靠與可信數據來(lái)源,構建完整的主數據試圖。

      (2)人工智能幫助定義和維護數據匹配規則

      主數據管理面臨的一個(gè)挑戰是在多個(gè)系統中對于同一數據項進(jìn)行匹配和合并,解決該挑戰的一個(gè)方法是構建數據匹配規則,包括不同置信水平的匹配接受度。有些匹配需要極高的信任度,可以基于跨多個(gè)字段的準確數據匹配實(shí)現;有些匹配僅僅由于數據值的沖突,可以采用較低的信任度。機器學(xué)習、自然語(yǔ)言處理可幫助建立重復識別匹配規則和匹配鏈接規則,在識別字段重復的主數據之后不進(jìn)行自動(dòng)合并,并確定與主數據相關(guān)的記錄,建立交叉引用關(guān)系。

      (四)數據質(zhì)量管理

      數據質(zhì)量是保證數據應用的基礎。衡量數據質(zhì)量的指標體系包括完整性(數據是否缺失)、規范性(數據是否按照要求的規則存儲)、一致性(數據的值是否存在信息含義上的沖突)、準確性(數據是否正確)、唯一性(數據是否是重復的)、時(shí)效性(數據是否及時(shí)反映客觀(guān)事實(shí))。對于任何一個(gè)企業(yè)而言,在實(shí)施數據質(zhì)量提升方案之前,需要依據不同的業(yè)務(wù)規則和業(yè)務(wù)期望選擇合適的數據質(zhì)量指標體系,并進(jìn)行數據的清洗。

      人工智能定義轉換規則,提取數據質(zhì)量評估維度。數據質(zhì)量改善最理想的模式是從數據源頭剔除臟數據,但是這在現實(shí)中并不可行,其一是因為數據源眾多且難以控制數據源的數據質(zhì)量,其二是直接從數據源頭達標付出的成本過(guò)大。因此,根據業(yè)務(wù)期望,應針對性地提升各個(gè)業(yè)務(wù)線(xiàn)上數據流的數據質(zhì)量。機器學(xué)習(如分類(lèi)學(xué)習、函數學(xué)習、回歸)將通過(guò)提取有效的數據質(zhì)量評估指標,最大化實(shí)現該指標下的數據質(zhì)量的提升。

      同時(shí),監督學(xué)習、深度學(xué)習也將實(shí)現對數據清洗和數據質(zhì)量的效果評估,進(jìn)而改善轉換規則和數據質(zhì)量評估維度,并隨著(zhù)數據量和業(yè)務(wù)期望的逐漸變化,使數據質(zhì)量提升方案動(dòng)態(tài)更新。

      (五)數據安全

      數據安全是指讓信息或信息系統免受未經(jīng)授權的訪(fǎng)問(wèn)、使用、披露、破壞、修改、銷(xiāo)毀的過(guò)程或狀態(tài)。而數據安全治理不僅僅是安全工具或解決方案,而是基于戰略、業(yè)務(wù)、應用、安全和風(fēng)險管理的有機整體,從管理制度到工具支撐,從上層管理架構到下層技術(shù)實(shí)現,采取的一系列合適的措施。數據安全治理是人工智能在數據治理全過(guò)程中的重要應用環(huán)節。

      人工智能促進(jìn)安全保障體系完善。依托人工智能引擎,通過(guò)對業(yè)務(wù)數據的獲取、清洗、語(yǔ)義計算、數據挖掘、機器學(xué)習、知識圖譜、認知計算等技術(shù),將快速促進(jìn)數據安全保障體系完善。

      人工智能推進(jìn)數據分類(lèi)分級。應用機器學(xué)習、自然語(yǔ)言處理和文本聚類(lèi)分類(lèi)技術(shù),能對數據進(jìn)行基于內容的實(shí)時(shí)精準分類(lèi)分級,而數據的分類(lèi)分級是數據安全治理的核心環(huán)節。例如,利用數據分類(lèi)引擎在郵件內容過(guò)濾、保密文件管理、情報分析、反欺詐、數據防泄露等領(lǐng)域明顯提升了安全性。

      (六)其他方面

      當前數據治理成熟度模型是定性模型,人工智能可以從兩個(gè)方面實(shí)現對數據治理成熟度模型的改進(jìn),其一是結合企業(yè)自身的數據治理發(fā)展現狀與數據治理理論框架,其二是通過(guò)自定義的多維度評估規則,實(shí)現成熟度模型的量化,在更細的顆粒度上提供切實(shí)可行的改進(jìn)實(shí)施方案。

      五、結束語(yǔ)

      人工智能對于提升數據治理的智能化水平具有關(guān)鍵作用,因此也成為數據治理發(fā)展的重要趨勢。未來(lái),通過(guò)人工智能技術(shù)降低數據治理的門(mén)檻將成為數據治理發(fā)展的重要方向。人工智能與數據治理看起來(lái)是兩項必須專(zhuān)業(yè)人士才可以操作的技術(shù),但是如若將它們的使用受限于懂技術(shù)的專(zhuān)家,缺少其他管理人員或業(yè)務(wù)人員的參與,將是一種對資源的浪費。因此,需要通過(guò)智能化嵌入手段不斷提升數據治理工具的易用性,使得數據治理的參與人員可以更為便捷地使用數據治理工具。自然語(yǔ)言問(wèn)答、自然語(yǔ)言搜索、語(yǔ)音控制等人工智能技術(shù)的嵌入,將極大改善目前數據治理工作操作難的現狀。

      隨著(zhù)數據治理和人工智能兩個(gè)領(lǐng)域的各自快速發(fā)展,未來(lái)二者的融合將會(huì )有更多場(chǎng)景和商業(yè)模式。

      來(lái)源:中國信息安全

      熱點(diǎn)新聞

      推薦產(chǎn)品

      x
      • 在線(xiàn)反饋
      1.我有以下需求:



      2.詳細的需求:
      姓名:
      單位:
      電話(huà):
      郵件:
      欧美精品欧美人与动人物牲交_日韩乱码人妻无码中文_国产私拍大尺度在线视频_亚洲男人综合久久综合天

    2. <blockquote id="fficu"><optgroup id="fficu"></optgroup></blockquote>

      <table id="fficu"></table>

      <sup id="fficu"></sup>
      <output id="fficu"></output>