來(lái)源:《經(jīng)濟日報》,2013年11月5日
數據顯示,從現在起直到2018年,全球大數據市場(chǎng)的年均復合增長(cháng)率將達到26%,從148.7億增至463.4億美元。中國工程院院士鄔賀銓也表示,繼云計算后,大數據成為信息技術(shù)領(lǐng)域最為熱門(mén)的概念之一。在工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規劃中,作為四項關(guān)鍵技術(shù)創(chuàng )新工程之一的信息處理技術(shù)中包括海量數據存儲、數據挖掘、圖像視頻智能分析,這些都是大數據的重要組成部分。
然而,大數據究竟是怎么回事?在現實(shí)場(chǎng)景中又有哪些應用?這個(gè)“時(shí)髦”的新產(chǎn)業(yè),將給我們的生活和工作帶來(lái)哪些巨大的變化?
取之不盡的“數據金礦”
什么是大數據?《大數據時(shí)代》的作者之一舍恩伯格將之定義為“不用抽樣調查的捷徑,而采用所有數據的分析方法”,簡(jiǎn)單來(lái)說(shuō),就是利用互聯(lián)網(wǎng)和計算機對海量數據進(jìn)行抓取、管理和處理,并且從中提取出有意義的訊息。
大數據有什么用?一方面大數據技術(shù)可以扎扎實(shí)實(shí)地用數據說(shuō)話(huà),打破直覺(jué)和思維定式。舍恩伯格曾經(jīng)舉例說(shuō),人們常常會(huì )說(shuō)冬天要記得戴帽子和手套,避免著(zhù)涼感冒,但大數據會(huì )告訴你,感冒來(lái)自于病毒,跟戴帽子手套沒(méi)有直接關(guān)系。二是大數據技術(shù)可以讓人們對未來(lái)進(jìn)行“預測”,通過(guò)對所有可能的數據進(jìn)行分析,而找到數據之間的關(guān)聯(lián)性,并由此預測出趨勢。
日本SS制藥公司運營(yíng)的網(wǎng)站Kazemiru正是大數據技術(shù)應用的一個(gè)生動(dòng)寫(xiě)照。這個(gè)網(wǎng)站通過(guò)對數萬(wàn)條推特信息的抓取,找到日本各地可能正在感冒的人,并通過(guò)與昨天的數據進(jìn)行對比,并結合氣溫和濕度變化來(lái)預測感冒在不同地區的流行情況,為每個(gè)登錄該網(wǎng)站的用戶(hù)提供“感冒日歷”,通過(guò)與日本國立感染癥研究所對全國5000個(gè)醫療機構的感冒患者的統計數據對比,Kazemiru的預測與實(shí)際情況基本一致。
大數據技術(shù)在今時(shí)今日的“井噴”也事出有因。大數據,首先要有足夠多的數據產(chǎn)生。隨著(zhù)互聯(lián)網(wǎng)的高速發(fā)展和成熟,互聯(lián)網(wǎng)產(chǎn)生內容和數據的能力不斷增強,百度技術(shù)委員會(huì )理事長(cháng)陳尚義曾透露,百度每天處理的數據量接近100PB,而1PB相當于5000個(gè)國家圖書(shū)館的信息量總和,此外在每分鐘內,新浪和騰訊微博發(fā)送出數萬(wàn)條微博,淘寶賣(mài)出了近10萬(wàn)件商品……來(lái)自市場(chǎng)研究機構IDC的數據顯示,2011年全球數據總量已經(jīng)達到1.8ZB,這個(gè)數值還在以每?jì)赡攴环乃俣仍鲩L(cháng),預計到2020年全球將總共擁有35ZB的數據量,增長(cháng)近20倍。而每個(gè)ZB的數據,都相當于裝滿(mǎn)10億個(gè)1TB的移動(dòng)硬盤(pán)。
其次,還要有儲存和分析這些數據的能力。從硬件設備來(lái)看,計算機性?xún)r(jià)比的提高,磁盤(pán)價(jià)格的下降,大幅降低了大數據存儲和處理的門(mén)檻,數據顯示,2000年的硬盤(pán)驅動(dòng)器平均每GB容量的單價(jià)約為16美元到19美元,而現在卻只有7美分。在重量上,1982年世界第一臺超GB存儲器容量為1.2GB,重113千克,而現在,32GB的微型SD卡僅有0.5克。從處理能力來(lái)看,云計算成為最重要的推手,數據被搬到了“云”上之后,更容易被收集和獲得,而云計算強大的處理能力也使更多行業(yè)和企業(yè)有機會(huì )對數據進(jìn)行整理和分析。
“真金白銀”領(lǐng)跑行業(yè)應用
去年11月份,北京公務(wù)員胡曉璐搖到了車(chē)牌號,在網(wǎng)上四處查詢(xún)和對比各種汽車(chē)型號之后,她驚訝地發(fā)現,自己看到的汽車(chē)網(wǎng)絡(luò )廣告變多了。
胡曉璐所不知道的是,在她點(diǎn)開(kāi)某個(gè)網(wǎng)頁(yè)的瞬間,一場(chǎng)“拍賣(mài)”正在悄無(wú)聲息地進(jìn)行著(zhù)。廣告交易平臺迅速地向各大需求方平臺發(fā)出“這兒有個(gè)廣告位”的信息,需求方平臺則根據她之前的瀏覽行為判斷出“這個(gè)人可能要買(mǎi)車(chē)”,然后迅速出價(jià),誰(shuí)出價(jià)最高,胡曉璐就會(huì )在點(diǎn)開(kāi)的網(wǎng)頁(yè)上看到誰(shuí)推送的廣告,一切都在0.1秒內完成。
這就是RTB(實(shí)時(shí)競價(jià))技術(shù),利用大數據,它可以根據每個(gè)用戶(hù)的具體偏好來(lái)精準地投放互聯(lián)網(wǎng)廣告。和這項技術(shù)一樣,與營(yíng)銷(xiāo)、電子商務(wù)、互聯(lián)網(wǎng)金融等等“真金白銀”相關(guān)的大數據技術(shù)最早被投入到對商業(yè)模式的變革之中。
1號店負責生鮮業(yè)務(wù)的副總裁郭冬東告訴本報記者,通過(guò)對海量數據的分析、判斷和整合能力,1號店可以精確地預測第二天生鮮貨品的訂貨數量,然后向供貨商下訂單,產(chǎn)品第二天早上8點(diǎn)進(jìn)庫。“綜合折算下來(lái),僅在倉儲環(huán)節,損耗率可以控制在個(gè)位數,而傳統線(xiàn)下渠道的損耗率一般是30%左右。”借助大數據,電子商務(wù)平臺得以進(jìn)軍傳統零售業(yè)的“腹地”。
數據甚至成為網(wǎng)絡(luò )賣(mài)家和中小企業(yè)的“無(wú)形資產(chǎn)”。阿里巴巴旗下的兩家小額貸款公司,截至2012年6月底,已為超過(guò)12.9萬(wàn)家小微企業(yè)和個(gè)人創(chuàng )業(yè)者提供貸款,貸款總額累計超過(guò)260億元。他們能拿到貸款的關(guān)鍵之一,正是此前網(wǎng)絡(luò )交易的誠信記錄。全國農信銀資金清算中心運行保障部總經(jīng)理王永剛對此感慨萬(wàn)千:“阿里巴巴的小額貸款幾小時(shí)就能發(fā)放,而我們最快也要7天。他們靠的就是開(kāi)放平臺的渠道優(yōu)勢,和大數據的分析和處理能力,從而大大降低了信貸的成本。”
不過(guò)這些都還是基于自己平臺內部產(chǎn)生的數據,如今互聯(lián)網(wǎng)巨頭們還通過(guò)頻繁的并購與合作,將外部數據納入大數據處理的范疇。比如:阿里巴巴在收購新浪微博18%的股權后,宣布打通淘寶與新浪賬號,讓微博產(chǎn)生的隱形消費需求和淘寶的顯性消費數據得以整合;百度將19億美金砸向91手機助手,從而獲得了1.27億手機用戶(hù)的使用習慣和相關(guān)數據;騰訊則通過(guò)微信公眾平臺直接向線(xiàn)下企業(yè)提供大數據技術(shù)下的客戶(hù)管理增值服務(wù)。用戶(hù)在哪里?他們喜歡什么?想要什么?互聯(lián)網(wǎng)巨頭們正在拼湊一份涵蓋方方面面生活圖景的數據圖。
智慧城市釋放數據“能量”
對于廣東佛山的“12345”市民熱線(xiàn)來(lái)說(shuō),每一通來(lái)電都是寶貴的“數據財富”,不光是話(huà)務(wù)量分析,通過(guò)大數據技術(shù),這些音頻中的核心數據被提取出來(lái),并被統一組織、存儲、管理和應用,市民們集中的訴求會(huì )被直接向各有關(guān)部門(mén)反映,成為政府決策分析的數據支撐。
盡管目前大數據相關(guān)的商業(yè)模式還集中于企業(yè)應用,但與電子政務(wù)相適應的服務(wù)則被不少人當做大數據技術(shù)未來(lái)的又一重要的應用場(chǎng)景,大數據也因此被視為智慧城市的“智慧引擎”。鄔賀銓告訴記者,大數據將遍布智慧城市的方方面面,是智慧城市的智慧之源。大數據能夠使政府的決策與服務(wù)、人們的生活方式、城市的產(chǎn)業(yè)布局和規劃及城市的運營(yíng)與管理方式,實(shí)現“智慧化”或“智能化”。
然而,將這部引擎發(fā)動(dòng)起來(lái),卻首先需要數據的開(kāi)放與整合。國務(wù)院發(fā)展研究中心技術(shù)經(jīng)濟研究部副調研員李廣乾表示,數據開(kāi)放為大數據應用提供創(chuàng )新“源頭”。大量數據的可獲得是大數據價(jià)值實(shí)現和最大化的前提。
在美國,2009年奧巴馬入主白宮后,所做的第一件事就是要求聯(lián)邦政府各部門(mén)通過(guò)“一站式”政府數據下載網(wǎng)站向社會(huì )公開(kāi)各類(lèi)非保密的數據庫。如今在這個(gè)網(wǎng)站上,有超過(guò)40萬(wàn)種各類(lèi)原始數據文件,涵蓋了農業(yè)、氣象、金融、就業(yè)、人口等近50個(gè)門(mén)類(lèi)。
在我國,各地也在探索數據開(kāi)放的機制和方式。作為“大數據”惠民的一項重要探索,北京市政務(wù)數據資源網(wǎng)預計今年年底之前正式開(kāi)通,為政府信息資源的社會(huì )化開(kāi)發(fā)利用提供數據支撐。北京市經(jīng)濟和信息化委員會(huì )副主任童騰飛表示:“政府部門(mén)大量信息資源,如果能開(kāi)放給社會(huì )利用,會(huì )創(chuàng )造更多價(jià)值。”目前,北京市已有29個(gè)部門(mén)公布了400余個(gè)數據包,點(diǎn)擊量最高的“土地用途分區”已被下載684次。在上海、廣東、浙江、重慶等地,不同形式的數據開(kāi)放也在探索之中。
隨著(zhù)數據公開(kāi),大數據使用的監管也被提上日程,有關(guān)專(zhuān)家建議,應該盡快出臺大數據相關(guān)的頂層設計方案,劃清保密信息、商業(yè)公開(kāi)信息和免費公開(kāi)信息、義務(wù)公開(kāi)信息之間的界限,并且明確信息公開(kāi)和數據使用的責任與義務(wù)。
善用大數據
安 之
《經(jīng)濟日報》,2013年11月5日
美國奈飛公司利用大數據技術(shù)拍攝《紙牌屋》的案例幾乎已成為行業(yè)中最著(zhù)名的勵志故事。作為全美最大的DVD和網(wǎng)絡(luò )視頻租賃網(wǎng)站,奈飛通過(guò)數據分析技術(shù)判斷出觀(guān)眾們喜歡導演大衛•芬奇和演員凱文•史派西,甚至通過(guò)他們按下暫停截圖的時(shí)間點(diǎn),來(lái)判斷觀(guān)眾更喜歡哪些布景和畫(huà)面。
然而,《紙牌屋》的拍攝方法也引發(fā)了人們對大數據技術(shù)的思考。如果僅僅按照大眾對某種文化產(chǎn)品的興趣和取向來(lái)制作商品,也許在市場(chǎng)上更容易取得成功,但另一些更有創(chuàng )意的產(chǎn)品可能一開(kāi)始就會(huì )遭到拋棄,只因為它們尚不為人所知。有人將之精確地概括為“大數據偏愛(ài)潮流,但忽視杰作”。
大數據技術(shù)中的能量讓人目眩,但它也并非是萬(wàn)能靈藥,過(guò)分迷信大數據,則很可能過(guò)猶不及。
比如數據噪音問(wèn)題,被分析的數據越多,它們在統計上能夠呈現出的相關(guān)關(guān)系也必然越多,但在這些相關(guān)關(guān)系中,許多并沒(méi)有實(shí)際意義,很有可能會(huì )將人們引入歧途,這種欺騙性有可能使真正重要的線(xiàn)索被隱藏在數據擴張的噪音之中。
此外,大數據的使用還有個(gè)邊界問(wèn)題。對大數據的迷戀還可能帶來(lái)對“數字隱私”的侵犯。毫無(wú)疑問(wèn),可以獲得的個(gè)人數據越多,其中蘊含的信息量就越大,從這個(gè)角度出發(fā),一方面要從技術(shù)層面來(lái)保障大數據時(shí)代的隱私安全,完善用戶(hù)保障體系;而在另一方面,對大數據采集的監管必須提上日程,個(gè)人信息保護的相關(guān)法律條文還應在操作層面上進(jìn)一步細化,在確保用戶(hù)知情權的前提下避免個(gè)人數據的濫用和非法售賣(mài)。
大數據是把“雙刃劍”,《大數據時(shí)代》的作者之一舍恩伯格最近表示,人們必須以一種不僅欣賞其力量,而且承認其局限的態(tài)度來(lái)接納大數據技術(shù)。使用者對大數據技術(shù)的態(tài)度和認識程度,將直接決定這一技術(shù)對未來(lái)的影響方向。