近日,在有關(guān)部門(mén)的調解之下,菜鳥(niǎo)和順豐的“數據斷交”事件總算告一段落,雙方經(jīng)過(guò)緊急會(huì )談后,再次恢復了數據傳輸合作,算是和平解決。這次事件暴露出了大數據發(fā)展中的數據共享難題,但只是大數據種種問(wèn)題的冰山一角。當前,我國大數據產(chǎn)業(yè)正處于起步階段,信息孤島、技術(shù)不足、人才缺失等都成為產(chǎn)業(yè)發(fā)展中亟待解決的大問(wèn)題。
數據孤島問(wèn)題突出
“巧婦難為無(wú)米之炊?!贝髷祿幕A在于數據,數據的生命在于共享,拿不到底層的數據,數據分析也就無(wú)從談起。如今,數據孤島林立、融合困難,已經(jīng)成為政府與企業(yè)面前的首要難題。
“第一個(gè)問(wèn)題就是沒(méi)數據,理論上我國有很多數據,但實(shí)際做數據分析會(huì )發(fā)現非常困難?!敝袊茖W(xué)院院士、北京大數據研究院院長(cháng)鄂維南表示,數據孤島是一個(gè)嚴重的問(wèn)題,不同部門(mén)的數據儲存在不同地方,格式也不一樣。大數據最高的層次就是用數據來(lái)形成智慧,使得社會(huì )各方面可以運轉起來(lái)。做數據分析先要整合數據,這本身就是研究的困難所在。
由于政府部門(mén)之間、企業(yè)之間、政府和企業(yè)間信息不對稱(chēng)、制度法律不健全、缺乏公共平臺和共享渠道等多重因素,導致大量政府數據存在“不愿公開(kāi)、不敢公開(kāi)、不能公開(kāi)、不會(huì )公開(kāi)”的問(wèn)題,而已開(kāi)放的數據也因格式標準缺失無(wú)法進(jìn)行關(guān)聯(lián)融合,形成孤島。
缺乏動(dòng)力和擔心安全是阻礙數據共享的另一個(gè)主要原因。貴陽(yáng)大數據交易所執行總裁王叁壽透露,不少企業(yè)以保護商業(yè)機密或節省數據整理成本等為理由,不愿意交易自身數據。部分政府部門(mén)也缺乏數據公開(kāi)的動(dòng)力:有的是因懶政而讓數據沉睡,有的則是已經(jīng)利用數據開(kāi)展商業(yè)化應用,因此不愿共享。
“數據孤島的痛不是技術(shù)問(wèn)題,是利益問(wèn)題,背后隱藏的利益導致了數據孤島的產(chǎn)生?!倍蹙S南坦言。
對于如何打通數據孤島,工業(yè)和信息化部賽迪研究院軟件所所長(cháng)潘文建議,要建立完善大數據發(fā)展協(xié)調機制,加快政府數據開(kāi)放共享,穩步推動(dòng)公共數據資源開(kāi)放。同時(shí),統籌規劃大數據基礎設施建設,推動(dòng)制定公共信息資源保護和開(kāi)放的制度性文件,并加強大數據標準化頂層設計,逐步完善標準體系。
在數據共享的路上,2015年成立的貴陽(yáng)大數據交易所已經(jīng)做出了成功的嘗試。王叁壽表示,若想打通城市現存的信息壁壘,就要讓城市多方資源聯(lián)動(dòng)起來(lái),搭建城市數據共享的平臺,從而激活大數據價(jià)值,充分發(fā)揮數據資源整合的優(yōu)質(zhì)效應,用信息化手段輔助科學(xué)決策。
底層技術(shù)差距很大
即便解決了數據共享問(wèn)題,數據可供隨時(shí)取用,數據的采集和分析仍是主要挑戰。微軟大中華區董事長(cháng)兼CEO柯睿杰認為,數據智能并非那么觸手可及。大數據來(lái)源眾多、數量巨大、形式各異,要從中獲得一目了然的信息,就需要真正高效、可靠的數據管理和分析平臺。
如何處理巨量數據是中國大數據產(chǎn)業(yè)面臨的首要技術(shù)問(wèn)題。鄂維南表示,“中國的數據體量特別大,比如,中國的視頻比任何國家都要多,這些數據儲存困難,需要用的時(shí)候往往就沒(méi)了”。再以基因測序領(lǐng)域為例,中國每年新增的基因組測序原始數據超過(guò)20PB(1PB相當于100萬(wàn)GB),面臨著(zhù)數據量大、數據處理流程長(cháng)等技術(shù)挑戰。
另一方面,數據分析本身也是一個(gè)難題。大數據中,絕大部分屬于非結構化的數據,它們大量存在于社交網(wǎng)絡(luò )、互聯(lián)網(wǎng)和電子商務(wù)等領(lǐng)域,這些數據的不確定性表現在高維、多變和強隨機性等方面。股票交易數據流就是不確定性大數據的一個(gè)典型例子。這些都需要通過(guò)包括數學(xué)、經(jīng)濟學(xué)、社會(huì )學(xué)、計算機科學(xué)和管理科學(xué)在內的多學(xué)科交叉來(lái)研究和討論。
目前,我國大數據技術(shù)創(chuàng )新能力還有待提升?!洞髷祿a(chǎn)業(yè)發(fā)展規劃(2016-2020年)》指出,我國在新型計算平臺、分布式計算架構、大數據處理、分析和呈現方面與國外仍存在較大差距,對開(kāi)源技術(shù)和相關(guān)生態(tài)系統影響力弱。同時(shí),大數據應用水平不高。我國發(fā)展大數據具有強勁的應用市場(chǎng)優(yōu)勢,但是目前還存在應用領(lǐng)域不廣泛、應用程度不深、認識不到位等問(wèn)題。
“雖然我國在應用上不落后國外,但是在底層技術(shù)上和國外差距特別大,技術(shù)都來(lái)源于谷歌等國外大公司?!眹鴦?wù)院發(fā)展研究中心信息中心研究處處長(cháng)李廣乾說(shuō),很多時(shí)候我們的商業(yè)模式走在了技術(shù)前面,并沒(méi)有通過(guò)技術(shù)手段來(lái)推動(dòng)創(chuàng )新。
對此,潘文表示,國家層面要支持大數據共性關(guān)鍵技術(shù)研究,加強海量數據存儲、數據清洗、數據分析發(fā)掘、數據可視化等領(lǐng)域關(guān)鍵技術(shù)攻關(guān),并支持自然語(yǔ)言理解、機器學(xué)習、深度學(xué)習等人工智能技術(shù)創(chuàng )新。
專(zhuān)業(yè)人才短缺嚴重
近年來(lái),我國大數據產(chǎn)業(yè)發(fā)展進(jìn)入爆發(fā)期,由于成熟的人才培訓體系尚未建立,直接導致人才短缺的問(wèn)題日益突出?!拔覀兠媾R的最嚴重的問(wèn)題就是應用場(chǎng)景和人才的問(wèn)題,應用場(chǎng)景的問(wèn)題需要時(shí)間解決,人才問(wèn)題是我這么多年來(lái)碰到的最嚴峻的問(wèn)題?!倍蹙S南說(shuō)。
人才不足限制了大數據產(chǎn)業(yè)創(chuàng )新發(fā)展的成效。清華大學(xué)計算機系教授武永衛透露的數據顯示,未來(lái)3-5年,中國需要180萬(wàn)數據人才,截至目前,我國大數據從業(yè)人員只有約30萬(wàn)人。LinkedIn(領(lǐng)英)發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》則顯示,數據分析是當下中國互聯(lián)網(wǎng)行業(yè)需求最旺盛的6類(lèi)人才職位之一。
同時(shí),大數據行業(yè)選才的標準也不斷變化。初期,大數據人才的需求主要集中在ETL研發(fā)、系統架構開(kāi)發(fā)、數據倉庫研究等偏硬件領(lǐng)域,以IT、計算機背景的人才居多。隨著(zhù)大數據往各垂直領(lǐng)域的延伸發(fā)展,對統計學(xué)、數學(xué)專(zhuān)業(yè)的人才,主要從事數據分析、數據挖掘、人工智能等偏軟件領(lǐng)域的需求加大。
在高端人才稀缺的現實(shí)情況下,企業(yè)多選擇從海外和傳統行業(yè)挖掘跨界人才,但仍然無(wú)法滿(mǎn)足國內市場(chǎng)的大量需求。針對大數據人才供應不足的現象,各種培訓機構和各大高校也開(kāi)始強化大數據人才的培養。但培養大數據人才需要時(shí)間,在短期內對于大數據領(lǐng)域的高端人才仍然會(huì )呈現出供不應求的現象。
值得注意的是,今年3月,教育部公布了第2批獲準開(kāi)設“數據科學(xué)與大數據技術(shù)”的高校名單,加上第1批獲批的北京大學(xué)、對外經(jīng)濟貿易大學(xué)、中南大學(xué),一共35所高校獲批開(kāi)設該專(zhuān)業(yè)。今年開(kāi)始,部分院校將招收第一屆大數據專(zhuān)業(yè)本科生。
對于大數據人才建設,潘文表示,要建立適應大數據發(fā)展需求的人才培養和評價(jià)機制,并建立健全多層次、多類(lèi)型的大數據人才培養體系。同時(shí),還要完善配套措施,培養大數據領(lǐng)域創(chuàng )新型領(lǐng)軍人才,吸引海外大數據高層次人才來(lái)華就業(yè)、創(chuàng )業(yè)。
摘自《中國高新技術(shù)產(chǎn)業(yè)導報》