大數據的概念聽(tīng)上去和云計算一樣,有些‘高大上’,但是大數據絕不是一個(gè)空泛的口號,事實(shí)上它不僅改變了人們的生存面貌,更為科學(xué)研究帶來(lái)重大的機遇。中國科學(xué)院遙感與數字地球所研究員郭華東說(shuō)。
原標題:大數據時(shí)代下的新科研
“大數據的概念聽(tīng)上去和云計算一樣,有些‘高大上’,但是大數據絕不是一個(gè)空泛的口號,事實(shí)上它不僅改變了人們的生存面貌,更為科學(xué)研究帶來(lái)重大的機遇。”中國科學(xué)院遙感與數字地球所研究員郭華東說(shuō)。
依托海量的數據狀態(tài)和云級別的數據處理能力,大數據以其Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí))的4V特點(diǎn),帶來(lái)了一場(chǎng)全方位的思維變革、產(chǎn)業(yè)變革和管理變革。郭華東表示:“它把我們的科學(xué)研究各個(gè)領(lǐng)域以及各個(gè)環(huán)節都推到了一個(gè)前所未有的‘大數據時(shí)代’。”近日,以“科學(xué)大數據的前沿問(wèn)題”為主題的第507次香山科學(xué)會(huì )議在北京香山飯店舉行,會(huì )議邀請了來(lái)自全國各地多學(xué)科跨領(lǐng)域的專(zhuān)家學(xué)者,共同探討大數據時(shí)代下科學(xué)研究的基礎設施、創(chuàng )新模式與共享機制以及人才培養等問(wèn)題。
大數據讓科研面臨新挑戰
在中國科學(xué)院計算機網(wǎng)絡(luò )信息中心主任黃向陽(yáng)看來(lái),計算機技術(shù)、以互聯(lián)網(wǎng)為代表的通信技術(shù)和以物聯(lián)網(wǎng)為代表的傳感技術(shù)的持續創(chuàng )新和廣泛應用使人類(lèi)的數據化能力和范圍快速擴張。“以大科學(xué)裝置為代表的機構內部產(chǎn)生的數據量能夠被測量和記錄的越來(lái)越多,而我們對事物、現象等的測量、記錄也更加頻繁和細致。”他說(shuō)。
“如今,這種擴張讓我們看到大量從宏觀(guān)到微觀(guān)、從自然到社會(huì )的觀(guān)察,計算、傳播等儀器設備和活動(dòng)都在快速產(chǎn)生著(zhù)海量、多樣的數據。”黃向陽(yáng)說(shuō),“比如高通量科學(xué)儀器、望遠鏡、衛星、加速器、傳感器網(wǎng)絡(luò )、醫療成像設備、測序儀等各種科研儀器和裝置、模擬方法、智能終端以及各種應用等,這些都使得科研領(lǐng)域被推到了一個(gè)前所未有的‘大數據’時(shí)代。”
海量數據的劇增,勢必讓量變引起質(zhì)變,黃向陽(yáng)表示,不斷增加的數據引發(fā)人們思維和行為模式的變革,而在科學(xué)研究領(lǐng)域,這也將直接為科研模式帶來(lái)極大的改變。“繼實(shí)驗科學(xué)、理論科學(xué)、計算科學(xué)之后出現了第四種研究范式,即‘數據密集型科學(xué)’,成為大數據時(shí)代下的新模式。”
“我們有理由相信,大數據為科學(xué)研究帶來(lái)了重大機遇,比如當所能利用的數據增加時(shí),人們將可以做很多在小數據基礎上無(wú)法完成的事情。”黃向陽(yáng)說(shuō)。
取之于科學(xué)用之于科學(xué)
中國科學(xué)院高能物理研究所計算中心主任陳剛說(shuō):“中國的髙能物理實(shí)驗每年產(chǎn)生的數據也達到PB級(百萬(wàn)GB級——編者注)。高能物理實(shí)驗是典型的大科學(xué)裝置和大科學(xué)研究項目,這意味著(zhù)跨國家跨地域的國際合作。這樣的大科學(xué)項目需要將實(shí)驗數據收集和存儲起來(lái),并通過(guò)高速網(wǎng)絡(luò )分發(fā)給處于不同國家或機構的合作者。這對高速網(wǎng)絡(luò )提出了巨大挑戰。”陳剛表示,正因如此,高能物理需要建設專(zhuān)用高速網(wǎng)絡(luò )并采用新的網(wǎng)絡(luò )技術(shù)來(lái)實(shí)現數據的全球共享。
“通俗的說(shuō),科學(xué)大數據是科學(xué)工程研究中的海量數據。”中國科學(xué)院遙感與數字地球研究所研究員王力哲說(shuō)。在他看來(lái),大數據“無(wú)處不在,且蘊含著(zhù)巨大的經(jīng)濟價(jià)值”,它既是一門(mén)多學(xué)科融合的一個(gè)交叉學(xué)科,也在反過(guò)來(lái)影響和改變著(zhù)更多的科學(xué)領(lǐng)域。
王力哲以我國人口密度對比線(xiàn)——“胡煥庸線(xiàn)”的形成機理分析作為一個(gè)實(shí)例來(lái)解釋科學(xué)大數據知識發(fā)現的理論方法:“‘胡煥庸線(xiàn)’的形成涉及多方面自然、社會(huì )、經(jīng)濟因素的影響,個(gè)體空間行為—空間過(guò)程—空間格局的相互作用機理模型極其復雜;這項研究伴隨著(zhù)超長(cháng)序列的海量空間數據和社會(huì )經(jīng)濟數據,包括地理、氣候、遙感、 人口、工農業(yè)生產(chǎn)、資源、環(huán)境、商業(yè)、教育、交通等等。”他表示,“而空間大數據時(shí)代的到來(lái),使用超長(cháng)時(shí)空序列的、多源、異構的自然、社會(huì )、經(jīng)濟空間大數據,進(jìn)行空間大數據分析和知識發(fā)現,能夠為研究‘胡煥庸線(xiàn)’形成機理進(jìn)而為‘新型城鎮化建設’這一重大國家需求提供理論決策支持。”
在天文領(lǐng)域,大數據也在為挖掘有價(jià)值的信息及規律發(fā)揮著(zhù)重要的作用。中國科學(xué)院國家天文臺研究員趙永恒說(shuō):“隨著(zhù)全球各個(gè)大型巡天觀(guān)測項目的開(kāi)展,天文學(xué)研究的模式正在從以往的小樣本向著(zhù)大數據模式轉變,海量的天文數據給天文學(xué)家帶來(lái)了巨大的機遇和挑戰,天文學(xué)的研究也越來(lái)越離不開(kāi)大數據集的統計分析,即數據挖掘和知識發(fā)現。”
他表示,現如今,對這些海量天文大數據進(jìn)行數據處理與分析已經(jīng)超越了當前的計算能力。“如何對天文大數據進(jìn)行高效和及時(shí)的處理從而加速天文學(xué)研究的科學(xué)產(chǎn)出已成為天文觀(guān)測和天文研究迫切需要解決的難題,而大數據無(wú)疑可以幫助天文學(xué)家重新審視和了解我們的宇宙。”
大數據管理帶來(lái)新思考
盡管大數據時(shí)代的到來(lái)為諸多科研領(lǐng)域帶來(lái)新的曙光,然而如何將科學(xué)數據變成創(chuàng )新資源,并在數據共享的積極作用下有效保障國家安全與個(gè)人隱私,成為人們關(guān)心的話(huà)題。
“尤其像現在,科學(xué)數據的應用邊界,已經(jīng)從傳統的科研和教育領(lǐng)域,向社會(huì )經(jīng)濟和商業(yè)領(lǐng)域延伸,因此這仍然是一個(gè)復雜的、系統的問(wèn)題。”中科院網(wǎng)絡(luò )信息中心科學(xué)數據中心主任黎建輝說(shuō)。
據他介紹,為此,國際國內均在做一些有益的探索和嘗試。“在學(xué)術(shù)領(lǐng)域,新的數據出版模式正在逐步形成。”黎建輝說(shuō),“在商業(yè)領(lǐng)域,數據集
市作為在云計算技術(shù)支持下的數據共享、交換與交易的模式,在國內外呈現快速發(fā)展的趨勢。”
在浩瀚的數據海洋里挖掘和捕捉能夠推動(dòng)人類(lèi)進(jìn)步的信息,與此同時(shí)還要保障一系列的數據安全隱患,在復旦大學(xué)上海數據科學(xué)實(shí)驗室主任朱揚勇看來(lái),培養數據科學(xué)家十分重要。“這里說(shuō)的是數據科學(xué)家而非傳統的信息科學(xué)家,他們關(guān)注對數據現象和規律的研究,并開(kāi)始出現在領(lǐng)先的企業(yè)和大學(xué)中,發(fā)揮著(zhù)他們的巨大作用。”
合格的大數據人才需要具備哪些品質(zhì)?王力哲表示:“數據科學(xué)是一個(gè)多學(xué)科融合的交叉學(xué)科;數據科學(xué)是以數據為研究對象,以信息論、統計學(xué)、數據理論、數學(xué)分析等理論為研究手段,以獲取海量數據中蘊含的知識為目標的一門(mén)學(xué)科。” 也正因此,他認為從事大數據研究勢必應該是復合型人才。
“除此之外,他還要關(guān)注國際數據科學(xué)領(lǐng)域熱點(diǎn)議題,關(guān)心數據及其涉及的一系列政策、標準、技術(shù)、方法和國際發(fā)展態(tài)勢。”中國科學(xué)院地理科學(xué)與資源研究所研究員劉闖表示,“世界性的數據科學(xué)領(lǐng)域學(xué)術(shù)帶頭人正在一些熱點(diǎn)議題中涌現出來(lái)。”
她認為,數據領(lǐng)域國家化人才還應對數據領(lǐng)域熱點(diǎn)問(wèn)題把握準確,有一定超前的戰略思想,并在這些問(wèn)題上有“開(kāi)放的、獨特的學(xué)術(shù)業(yè)績(jì)”。
“我國在數據領(lǐng)域培養國家化人才方面與大國地位差距甚遠,特別是一些關(guān)鍵性領(lǐng)域尚屬空白。在這個(gè)方面,我們還有很多工作要做。”劉闖說(shuō)。
聲音連線(xiàn)
大數據或許可以“創(chuàng )造大腦”
10月26日,由復旦大學(xué)主辦的浦江創(chuàng )新論壇?未來(lái)科學(xué)論壇上,多位國內外頂尖科學(xué)家齊聚一堂,圍繞“關(guān)注未來(lái):拓展認知的疆界”這一主題,就當今時(shí)代科學(xué)發(fā)展最具吸引力的重大領(lǐng)域展開(kāi)了精彩的討論。
據中新社報道,中國科學(xué)院院士,北京航空航天大學(xué)校長(cháng)懷進(jìn)鵬在論壇上公布了一個(gè)有趣的科學(xué)設想:大數據也許可以“創(chuàng )造大腦”。從神經(jīng)科學(xué)來(lái)認知腦,也許通過(guò)數據人類(lèi)可以創(chuàng )造一個(gè)腦。孩子學(xué)習識物的時(shí)候,不需要一兩百張、而是通過(guò)20張左右的圖片,他就能學(xué)會(huì )區別什么是馬,什么是牛,什么是車(chē),這與大數據識別有著(zhù)相似之處。
懷進(jìn)鵬設想,通過(guò)研究從數據科學(xué)到電腦到智腦的演化,也許能從無(wú)數據到大數據建立人腦圖譜,在移動(dòng)計算和現有的大數據當中嘗試“創(chuàng )造大腦”,創(chuàng )造一個(gè)部分的功能或者仿真一個(gè)功能,使電腦向智腦轉換。
今天的時(shí)代是一個(gè)用戶(hù)產(chǎn)生內容的時(shí)代,但是對于大數據的運用,基本還停留在淺顯的層面,如通過(guò)網(wǎng)頁(yè)瀏覽量數據分析用戶(hù)的喜好、需求等。更多的數據依然是無(wú)序、不可被分析的狀態(tài)。
懷進(jìn)鵬說(shuō),如果能建立一種智能模式,“教會(huì )”電腦掌握從數據的無(wú)序到有序關(guān)聯(lián),以便認識人的一部分世界,通過(guò)建立一系列融合關(guān)聯(lián),讓電腦學(xué)會(huì )構成一個(gè)時(shí)間段的社會(huì )理解,用芯片或者機器創(chuàng )造“一天的宇宙”。
加入電腦能夠形成跨語(yǔ)言之間的遷移學(xué)習,最后形成自主生長(cháng)和所派生的復雜結構下相互數據、信息和知識之間的關(guān)聯(lián),以便對智腦的理解有附加的幫助,在這樣的方式下通過(guò)數據分析出傳播學(xué)、社會(huì )學(xué)的新特征?;蛟S還可以了解人是如何學(xué)習和記憶的,如何認知和增長(cháng)智力、形成自主學(xué)習的,甚至了解情感形成的過(guò)程。
“也許通過(guò)數據,我們可以創(chuàng )造一個(gè)腦,因為基于數據的科學(xué)可以使得機器更聰明,也可以使得社會(huì )更理性。”懷進(jìn)鵬展望說(shuō)。
摘自 中國科技網(wǎng)-科技日報