科學(xué)數據的積累、開(kāi)放、共享,是世界科技發(fā)展的重要資源和推動(dòng)力,但數據“孤島”頻現,讓不同領(lǐng)域大量科學(xué)數據處于沉睡狀態(tài)。我國積極推動(dòng)地球大數據實(shí)現從被動(dòng)共享到主動(dòng)共享轉變,通過(guò)建立數據、計算與服務(wù)一體化的數據共享系統,推動(dòng)形成地球科學(xué)數據共享新模式
如何讓黃河三角洲40年間的變化像過(guò)電影一樣地展現在人們眼前?如何在一張圖內看到全世界風(fēng)云變幻?如何在一個(gè)網(wǎng)站搜索到所有需要的數據……
新年伊始,中國科學(xué)院發(fā)布的A類(lèi)戰略性科技先導專(zhuān)項——“地球大數據科學(xué)工程”給出了答案。
打破數據“孤島”
地球大數據有何用?“地球大數據科學(xué)工程”專(zhuān)項負責人、中國科學(xué)院院士郭華東舉了個(gè)例子:如果把我國430個(gè)人口超過(guò)30萬(wàn)的城市遙感數據和人口數據等結合研究,就能了解土地使用率與人口增長(cháng)率之間的比率。比如1990年至2000年,大數據顯示,安徽省的城市人口增長(cháng)率在增加,但土地消耗率在降低,總體上人口城市化大于土地城市化;2000年以后,大數據又顯示,安徽省人口增長(cháng)率持續降低,土地消耗率卻明顯提升,土地消耗率與人口增長(cháng)率比率持續增加,這表明安徽省的土地城市化遠遠大于人口城市化。
大數據時(shí)代,科技創(chuàng )新越來(lái)越依賴(lài)于科學(xué)數據綜合分析?!按髷祿秦敻?,也是資源,作為大數據的重要組成部分,地球大數據正催生人們用全新的思維方式去了解地球?!惫A東說(shuō)。
但是,我國的數據共享一直是個(gè)難題:很多單位和機構都有自己的數據資源,都認為數據應該共享,可真正實(shí)現共享很困難。
一位科學(xué)家曾對這種“各自為戰”的狀況深有感觸。他到國外參加學(xué)術(shù)會(huì )議,在會(huì )上才知道與他同一系統的另一個(gè)研究單位也在做同樣的研究,而且其中有很多是重復性的。
數據“孤島”頻現,讓不同領(lǐng)域大量科學(xué)數據處于沉睡狀態(tài)?!翱茖W(xué)數據的積累、開(kāi)放、共享已經(jīng)成為世界科技發(fā)展的重要資源和推動(dòng)力?!痹谥袊茖W(xué)院副院長(cháng)張亞平看來(lái),致力于推動(dòng)地球大數據實(shí)現從被動(dòng)共享到主動(dòng)共享轉變,在科學(xué)數據共享及其體制機制若干關(guān)鍵問(wèn)題上取得實(shí)質(zhì)性突破,為中科院乃至國家層面形成良好的數據共享新生態(tài),中科院理應先行先試。
為了喚醒沉睡的科學(xué)數據,2018年1月1日,中國科學(xué)院A類(lèi)戰略性先導科技專(zhuān)項“地球大數據科學(xué)工程”正式啟動(dòng)實(shí)施,執行期5年。作為2018年度的重要成果,地球大數據共享服務(wù)平臺近日正式發(fā)布。
“平臺以共享方式為全球用戶(hù)提供系統、多元、動(dòng)態(tài)、連續并具有全球唯一標識規范化的地球大數據,通過(guò)建立數據、計算與服務(wù)一體化的數據共享系統,推動(dòng)形成地球科學(xué)數據共享新模式?!惫A東表示。
服務(wù)全球用戶(hù)
地球大數據共享服務(wù)平臺的“體量”有多大?
根據郭華東提供的數據,平臺目前提供的共享數據總量約5PB(1PB=1024TB)。其中,對地觀(guān)測數據1.8PB,生物生態(tài)數據2.6PB,大氣海洋數據0.4PB,基礎地理數據及地面觀(guān)測數據0.2PB;地層學(xué)與古生物數據庫49萬(wàn)條、中國生物物種名錄360萬(wàn)條、微生物資源數據庫42萬(wàn)條數據記錄,組學(xué)數據目前在線(xiàn)10億條。
“目前用戶(hù)能夠在線(xiàn)檢索到40%數據,隨著(zhù)硬件條件不斷完善,平臺數據將陸續上線(xiàn),并且每年將以3PB的數據量更新?!惫A東說(shuō)。
數據共享服務(wù)系統和CASEarth Databank系統,以及區域系統——數字絲路地球大數據系統,這是地球大數據共享服務(wù)平臺的3個(gè)核心系統。
正如阿里巴巴創(chuàng )造的淘寶模式一樣,數據共享服務(wù)系統提供的是一個(gè)快捷精準的地球科學(xué)數據。該系統基于專(zhuān)項數據特點(diǎn),可提供項目分類(lèi)、關(guān)鍵詞檢索、標簽云過(guò)濾、數據關(guān)聯(lián)推薦等多種數據發(fā)現模式,同時(shí)提供在線(xiàn)下載、應用程序編程接口訪(fǎng)問(wèn)等多種數據獲取模式,支持可定制的多格式數據在線(xiàn)查看、預覽和查詢(xún),并能應對各種個(gè)性化需求,進(jìn)行統計、收藏、推薦、下載和評價(jià)服務(wù)。用戶(hù)可以利用這個(gè)系統,根據數據共享權限進(jìn)行共享服務(wù)。
數字絲路地球大數據系統包括“一帶一路”區域資源、環(huán)境、氣候、災害、遺產(chǎn)等專(zhuān)題數據集94套、自主知識產(chǎn)權數據產(chǎn)品57類(lèi)、共享數據超過(guò)120萬(wàn)億字節。目前,該系統已具備千萬(wàn)億字節級的軟硬件環(huán)境,在國際上率先研發(fā)了通用大數據平臺下地球大數據提取、轉換與加載工具集,實(shí)現了6大類(lèi)數據的檢索、共享、產(chǎn)品可視化展現,并通過(guò)中、英、法3種語(yǔ)言版本在國際上實(shí)施共享。
利用CASEarth Databank系統,你可以像看電影一樣觀(guān)看目標地點(diǎn)數十年的滄桑巨變。此系統提供長(cháng)時(shí)序的多源對地觀(guān)測數據即得即用產(chǎn)品集,包括1986年中國遙感衛星地面站建設以來(lái)20萬(wàn)景(每景12種產(chǎn)品,共計240萬(wàn)個(gè)衛星數據產(chǎn)品)的長(cháng)時(shí)序陸地衛星數據產(chǎn)品等。
有了它能干啥?比如在重要會(huì )議前,我們可以清楚地透過(guò)顏色變化,了解從江蘇到山東滸苔的變化趨勢,在一分鐘內就可以將過(guò)去滸苔在該地區間的移動(dòng)了然于胸,不用再大費周折實(shí)地考察。同時(shí),該系統還引入人工智能等先進(jìn)技術(shù),面向一般用戶(hù)、行業(yè)用戶(hù)和科學(xué)家用戶(hù),提供不同層次的對地觀(guān)測數據分析與信息挖掘服務(wù),為你“量身定制”所需內容。
“未來(lái),用戶(hù)不僅可以利用其數據、計算和技術(shù)來(lái)實(shí)現應用,也可以上載多源數據,嵌入算法模型,并結合系統資源來(lái)完成特定的專(zhuān)題信息挖掘、知識發(fā)現和決策支持?!惫A東說(shuō)。
面向科學(xué)發(fā)現
根據郭華東的研究,一個(gè)國家擁有大數據的“體量”與國家的GDP發(fā)展成正比,“誰(shuí)擁有了大數據,誰(shuí)就擁有了未來(lái)”。
不過(guò),僅僅擁有還不夠,科學(xué)數據的價(jià)值在于使用。對于有些科學(xué)家對自己的數據“總愿意鎖在自己的抽屜里”,不愿意共享的情況,郭華東表示:“該系統可以解決科學(xué)家數據共享的后顧之憂(yōu),你的數據上線(xiàn)了,進(jìn)入到這個(gè)系統,會(huì )擁有自己的版權,在這個(gè)平臺上,數據可以實(shí)現全球定位并且擁有自己的專(zhuān)屬‘身份證’?!?/p>
談及與同為資源數據共享平臺的谷歌大數據的區別,郭華東表示,主要有4點(diǎn)不同:首先,數據資源不同,谷歌大數據是基于大量的衛星數據,以遙感衛星數據為主,而地球大數據平臺是在充分重視衛星數據基礎之上,同時(shí)采用大量大氣、海洋、陸地等數據,在資源環(huán)境、生態(tài)生物方面都是高度集成的;其次,系統功能不同,谷歌更多地做一些展示和空間分析系統,而他們則更多地加入了計算系統,促進(jìn)數據、計算、服務(wù)一體化;第三,應用服務(wù)不同,谷歌更多地做大眾化的系統,而他們的技術(shù)則更多面向科學(xué)發(fā)現,例如對區域地質(zhì)演化規律的理解,對生物學(xué)發(fā)現和古生物研究等方面;最后,谷歌的目標是面向市場(chǎng),但他們的系統更多地服務(wù)于政策、決策,科學(xué)家可以利用地球大數據平臺進(jìn)行更多科學(xué)發(fā)現。
正如張亞平所說(shuō),如果我們不跨越數據共享這座高山,就永遠不可能到達大數據勝利的彼岸。構建地球大數據共享服務(wù)平臺,中科院走出了成功的第一步,也是堅實(shí)的一步。
摘自《經(jīng)濟日報》