大數據助力疫情溯源與監測
各位網(wǎng)友晚上好,我今天跟大家談一下“大數據助力疫情防控”。習總書(shū)記指出,要運用大數據等手段加強疫情的溯源和監測,這是對大數據作用的肯定,也是對互聯(lián)網(wǎng)界的一個(gè)要求。
手機已經(jīng)成為另一張“身份證”
現在手機已經(jīng)成為我們個(gè)人的另一張身份證。我們在2018年移動(dòng)通訊普及率是112%,而全球是106%,獨立移動(dòng)通訊用戶(hù)的普及率,也就是說(shuō)扣除了一人多號,我們是82%,接近發(fā)達國家的水平,移動(dòng)互聯(lián)網(wǎng)的普及率高于全球的平均水平??梢哉f(shuō),我們國家有獨立活動(dòng)能力的人群幾乎都有手機,而且中國實(shí)行手機用戶(hù)的實(shí)名制,從手機用戶(hù)就可以識別持有人的身份。
手機可以關(guān)聯(lián)持有人的位置
一般手機在待機的時(shí)候,用戶(hù)會(huì )從一個(gè)小區移動(dòng)到另一個(gè)小區,這個(gè)時(shí)候手機要不斷接收基站發(fā)出的測量信號。讀取基站測量信號,可以說(shuō)選擇新的小區,在非待機的時(shí)候實(shí)際上就是切換了。因為用戶(hù)可能是在移動(dòng)的,而蜂窩半徑又比較密,因此,更新的時(shí)間要比較快。目前的更新是秒級,可以說(shuō)具有實(shí)時(shí)性。當然手機是根據什么定位呢?主要是利用基站,有幾種方法,可以改進(jìn)基站定位。定位精度如果說(shuō)用比較好的方法,定位精度可以數十米,一般目前可能是一兩百米,5G基站更密,定位精度就更高。
全球導航衛星+數字地圖可提升定位精度
當然,除了基站定位以外,我們用全球導航衛星和數字地圖都可以定位?,F在的智能手機比例已經(jīng)很高了,占比能夠達百分之八九十,所以智能手機都裝了全球導航衛星的接收的能力。定位的精度一般數十米,當然它更好地可以做到米級,但是室內是做不到的。另外,數字地圖公司有它的一些方法來(lái)掃描這個(gè)街道,因此它的定位甚至可以到每一棟樓。
一般來(lái)講,手機用戶(hù)如果下載了這種數字地圖的APP,而且開(kāi)機并啟用了定位功能,它就會(huì )變化新的位置,會(huì )發(fā)送信息給GPS。所以,能知道你所在的位置。當然,它的定位精度比基站的方法要好得多。但是,只限于裝有數字地圖APP的用戶(hù),我們有個(gè)比較知名的數字地圖公司,目前它現有用戶(hù)數是7個(gè)億(下載),占全國移動(dòng)用戶(hù)還不到一半,只有43%,所以說(shuō)覆蓋面是有限的。但是,盡管電信的運營(yíng)商覆蓋定位用戶(hù)更多、更全面,但是精度并不一定比數字地圖公司更好。這里邊,給出的是一個(gè)數字地圖公司的大數據地圖,它可以溯源,武漢春節前將近500萬(wàn)人流到什么地方去,這里可以給出一個(gè)很好的走勢。
有了這些數據,怎么來(lái)決定疫情的傳播?國際上通常用一種叫SEIR的模型。它把人群分成什么呢?I就是已經(jīng)感染病的人群,E是密切接觸者,S目前是健康的,R是最后運算結果是康復的,它有一套規律。中國的學(xué)者提出了一種改進(jìn),增加了P和Q,P是疑似人群,Q是確診人群?,F在我們國家也是分四類(lèi),從中可以計算出傳播的模型。
我們可以看到,這是從1月份到2月9日,全國的疫情傳播模型??梢钥吹絺鞑サ臓顩r,目前,中國的修正模型,考慮了政府的采取措施和大眾的對于防疫的意識,所有上面的模型,還是基于因為城市里頭感染者和沒(méi)感染者,包括所有的加起來(lái)是一個(gè)常數,也就是說(shuō)不考慮城市里面有流入的和流出的。實(shí)際上利用電信大數據,可以把流入流出的一部分人考慮進(jìn)去,可以使得這個(gè)模型更精確。
大數據可視化——“疫情方寸間”
當然,有了模型,很多大數據還需要有一種可視化的表現。這里給出一種可視化的方式,每個(gè)方框表示每個(gè)省。比如說(shuō)右下角的方框--湖北,它的背景顏色就比其他的深,也就是感染人群更多。其中綠色是治愈率的,黑色是死亡率的,可以看到治愈的比例也比其他省要少,死亡的比例反而還比較高??梢钥吹?,這是一種直觀(guān)的看法。
我們有了這種行為的大數據,可以精確到每一個(gè)小區。左圖是百度,以上海為例,右圖是騰訊,以深圳為例,它都可以以一種APP的方式來(lái)發(fā)布,老百姓可以用,下載可以查詢(xún),甚至可以查到哪個(gè)小區的具體位置,距離你所在地方有多遠,里面有多少個(gè)是確診病例。實(shí)際上,其中一家公司說(shuō),已經(jīng)覆蓋了200多個(gè)城市了?,F在開(kāi)始復工了,這是2月10日,節后第一個(gè)復工日,人流的增加也為疫情的防控帶來(lái)了一些新的壓力。這里面給出了疫情期間城市的熱力圖,我們可以細化到每個(gè)縣,可以讓我們知道什么地方人最多,盡量避免人口的密集。
這里面是一個(gè)確診患者的行程追蹤。從底下看是1月21日他離開(kāi)武漢,乘坐了高鐵,到達一個(gè)地方,21日又換了一個(gè)高鐵,到另外一個(gè)地方,一直到24日,他發(fā)現有癥狀了,當然他行程還得繼續,27日又到了一個(gè)地方,30日又到了下一個(gè)地方,31日確診了。根據這種確診患者的行程追溯,我們可以很好地知道他到過(guò)哪里?,F在有些地方是依靠流行病學(xué)的調查,去問(wèn)這個(gè)患者,你什么時(shí)間到什么地方,一個(gè)是他記不準,另一個(gè)說(shuō)不準,利用手機的大數據,可以很好的知道。同時(shí),通過(guò)計費數據,也可以知道他平時(shí)比較密切的聯(lián)系人,也可以知道有沒(méi)有可能是密切接觸者。
基于衛建委+交通+工信數據查找密切接觸者
我們把衛健委的數據、交通系統的數據、工信部門(mén)的數據組合起來(lái),可以找出密切接觸者。比如說(shuō),衛健委可以知道確診患者的姓名、身份證號,然后通過(guò)交通部,可以給出這個(gè)患者半個(gè)多月來(lái)乘坐過(guò)的航班車(chē)次,衛健委讓工信部提出,這些人的手機號是什么?根據手機號,地方政府可以找到密切接觸者,當然這是從官方的查找。實(shí)際上平臺也可以開(kāi)放,同行者可以在同行查詢(xún)平臺查出我所坐的航班和車(chē)次,車(chē)上有沒(méi)有確診患者,可以很好地發(fā)現密切接觸者。
電信疫情大數據平臺用于個(gè)人自證無(wú)疫區行程
目前,還是返程復工,還有節后回家的時(shí)間,有些人隱瞞了自己來(lái)自疫區、到過(guò)疫區的經(jīng)歷,回到家、回到村子里頭還到處走,雖然看上去沒(méi)有癥狀,但是可能已經(jīng)感染了,并且是有很強的傳染性,導致了疫情擴散,導致幾十人甚至上百人被隔離,或者已經(jīng)被感染。通過(guò)手機定位,是可以知道這個(gè)用戶(hù)是不是來(lái)自疫區,還是到過(guò)疫區,但是這種數據形式不能直接提供給街道、小區和鄉鎮,因為隱私的保護原因,如果我們開(kāi)放給他們,很可能不一定是查患者,說(shuō)不定用作其他,所以不能這樣做。
現在怎么辦呢?我們知道,從《個(gè)人信息保護法》得知,本人是可以查詢(xún)自己信息的。所以,工信部現在統籌三個(gè)運營(yíng)商,提供了用戶(hù)行程的服務(wù)。用戶(hù)提出來(lái),你可以查詢(xún)你本人,在14天前到過(guò)什么地方,當時(shí)工信部提出是按停留4個(gè)小時(shí)以上,這個(gè)時(shí)候,你有清單,就可以上當地的用工單位、街道、小區來(lái)證明你自己沒(méi)有到過(guò)疫區,這就是自證。目前,這件事情已經(jīng)開(kāi)放查詢(xún)上千萬(wàn)人次了,當然現在面臨返程復工,有些地方甚至擴大化,對一些疫情確診人數比較多的省要求全部都不許人家回來(lái)。這實(shí)際上嚴控不能失控,硬核但不能亂來(lái),所以實(shí)際上,返程的一些檢查是必要的,當然就會(huì )對旅途帶來(lái)一些影響,這里比如說(shuō)以高德地圖為例,他給出一個(gè)人從濟南要到上海,原圖的經(jīng)過(guò)城市的疫情情況列出來(lái)了,上海市對進(jìn)上海的人有什么管理及要求也列出來(lái)了,包括高速路入口、出口的車(chē)流量,以及大概這個(gè)過(guò)程中間有很多檢查站,路程需要多長(cháng)時(shí)間也列出,返程直通車(chē)也方便大家,如果返程的人知道,我路上大概要多長(cháng)時(shí)間,要做好什么準備。
電力大數據在疫情防控中的作用
除了電信和互聯(lián)網(wǎng)公司的大數據以外,事實(shí)上還有其他大數據。我這里講的是電力大數據,一個(gè)家里邊是否有人在家,是否有人回來(lái),根據用電的情況是能區別出來(lái)。所以,國網(wǎng)電力杭州公司,作為1000多萬(wàn)條數據收集,開(kāi)發(fā)出大數據分析的算法,能夠很好的知道,這里邊有沒(méi)有居家隔離的人,有沒(méi)有獨居的人,社區可以根據這個(gè)來(lái)判斷是不是做針對性地服務(wù)。利用電力的用電狀況,我們也可以知道復工狀況,根據用電量,廣東在2月14日已經(jīng)是正常時(shí)候用電量的60%,也就是復工率差不多60%。浙江2月14日的復工率不到1/3,尤其是溫州,屬于疫情比較嚴重的地方,復工率只有12%。這些是可以比較宏觀(guān)地掌握了復工的趨勢。
醫療大數據助力智能診斷
大數據不僅用于追蹤人群等等,還可以幫助智能診斷。從現在統計看,新冠肺炎患者的核酸檢測,目前只有30%是陽(yáng)性,盡管它是患病的人,確診了,但是只有30%。原因是什么?取樣是從口腔部來(lái)取樣的,實(shí)際上這里邊感染不算嚴重,肺部才嚴重。因此,判斷還要根據CT,一個(gè)肺掃描出幾百張這樣CT照片,一張張看是比較難的,利用大數據,我們可以用人工智能的技術(shù),可以把它還原回一個(gè)3D三維的肺,比較容易看有沒(méi)有纖維化,有沒(méi)有肺變毛玻璃狀。同時(shí),現在還可以根據醫療的經(jīng)驗,開(kāi)發(fā)出感染肺炎患者的CT影象大數據分析評價(jià)系統,不一定要醫生看了,這些CT照片可以放系統上,進(jìn)行分析,能幫助醫生進(jìn)行病灶分析。過(guò)去醫生可能要看5個(gè)多小時(shí),現在幾分鐘就可以,因為它把幾百張變成一張了。
大數據在新冠病毒肺炎新藥與疫苗研制中的作用
大數據本身在新冠肺炎新藥研制和疫苗研制里,也會(huì )發(fā)揮作用。新藥研制總體上過(guò)程是比較長(cháng)的,新藥的篩選、活性的評價(jià)、藥理的分析、安全評價(jià)等等,到臨床還要做很多工作。目前是沒(méi)有特效藥的,所以,另外一種途徑是老藥新用,把一些過(guò)去抗艾滋病、流感的藥物重新檢驗一下,看它有沒(méi)有可能對新冠肺炎有效。我們知道,已經(jīng)上市的和臨床實(shí)驗的藥有近萬(wàn)種,一種一種來(lái)篩選時(shí)間是很長(cháng)的,而且現在去積累數據,已經(jīng)不容易了,如果原來(lái)有積累更多的數據更好。這里舉一個(gè)例子,清華的藥學(xué)院,它的人工智能藥物研發(fā)大數據平臺,收集了以前冠狀病毒研究里邊涉及的900多個(gè)小分子的實(shí)驗信息,利用這個(gè)就有可能加快藥物的篩選。
大數據優(yōu)化醫療緊缺物資的生產(chǎn)組織與調度
大數據也在優(yōu)化醫療緊缺物資的生產(chǎn)組織和調度上有很好的用處。海爾開(kāi)發(fā)了疫情醫療物資信息共享資源匯聚平臺,一方面連接醫院,780多家醫院;另一方面聯(lián)系需求的社區,以及能生產(chǎn)這些醫療物資的企業(yè)500多家,它發(fā)布了這個(gè)需求5000多萬(wàn)件,另外,它的采購不限于中國,還到全球,所以實(shí)現了抗疫資源的精準對接。湖北有一個(gè)醫療物資需求平臺,是由志愿者開(kāi)發(fā)的,它爬取網(wǎng)上的數據,按城市醫院類(lèi)別分類(lèi),登出需求、運輸和聯(lián)系方式。四川也開(kāi)發(fā)了防控應急物資的管理系統,把物資的入庫、調度、審批、庫存、日常消耗需求匯總在一起,提高了應急物資配置的調度效率,當然這些都是從網(wǎng)上獲取數據。
現在難題是什么?我們的衛健委,并沒(méi)有得到所有醫院的床位數據,因為過(guò)去是不聯(lián)網(wǎng)的,這樣導致我們不能實(shí)時(shí)地知道什么床位是有富余的,什么可以調度出來(lái)。所以這也說(shuō)明,我們過(guò)去這方面的工作都不足。
相關(guān)數據的融合將能得到更有價(jià)值的結果
另外,數據需要融合,現在不少小區實(shí)行了封閉管理,現在已經(jīng)有上線(xiàn)的專(zhuān)項排查APP,不用手登記,用手機一掃身份證,報上體溫,數據自動(dòng)聯(lián)網(wǎng)。還可以記錄下來(lái)現在到藥店購買(mǎi)發(fā)燒藥、咳嗽藥的人的實(shí)名數據,因為有些人已經(jīng)有病了,沒(méi)到醫院自己買(mǎi)藥,實(shí)際上是有很大風(fēng)險的。我們還可以將公交卡、網(wǎng)約車(chē)的數據結合起來(lái),這次疫情也是考驗我們,聯(lián)防聯(lián)控協(xié)調調度的機制,包括跨部門(mén)大數據的協(xié)調能力。
大數據協(xié)力企業(yè)復工
現在是復工了,很多企業(yè)需要工人,但是人員流動(dòng)密集又有風(fēng)險,因此企業(yè)面臨兩難。杭州采用一種綠紅黃三色的健康碼的管理方式,區別用戶(hù)是不是接觸過(guò)確診患者、疑似患者,是不是來(lái)自重點(diǎn)疫區,以及隔離長(cháng)短,可以分別對待。但是,你會(huì )擔心填報是不是真實(shí)?這里邊健康碼是要聯(lián)系到云端的,跟網(wǎng)上掌握的數據匹配,大數據能查出不實(shí)的信息。
大數據與隱私保護
大數據是雙刃劍,怎么做到隱私保護。實(shí)際上,電信的大數據只考慮了信令和計費,不含通信的內容,但是盡管這樣,患者的行為數據也是敏感的。電信大數據目前只限于疫情的管控,疫情結束以后,不會(huì )再保留有關(guān)的原始數據,現在特別要注意的是,除了國務(wù)院衛生健康部門(mén)依法授權的機構以外,其他任何單位和個(gè)人,不得以疫情防控,治病防治為由,未經(jīng)被收集者同意收集用戶(hù)的個(gè)人信息。這里就難了,又要保護個(gè)人信息,又要利用大數據聯(lián)防聯(lián)控,怎么辦呢?有一種方法,就是原始數據可用不可見(jiàn)。什么叫可用不可見(jiàn)?有關(guān)部委,衛健委、交通部、公安部、工信部等可以上報數據的樣本,幫助疫情大數據分析調試平臺來(lái)調試我們的算法和程序,一旦調試好程序,再下發(fā)到相關(guān)部委,在相關(guān)部委的各自范圍里頭運行并產(chǎn)生結果。最后匯報給上面的結果已經(jīng)不是原始數據了。通過(guò)這樣,不改變數據的歸屬所有權和存儲位置,只帶走了不含敏感數據的分析結果。
疫情大數據系統的信息安全防護
疫情大數據也是需要特別進(jìn)行安全防護的,從右上角的圖可以看出綠色是健康數據,健康數據是黑客所重點(diǎn)關(guān)注的,甚至2014年,我們國家的網(wǎng)站受攻擊最多的是醫療衛生的網(wǎng)站。美國也統計過(guò),遭遇黑客醫療數據的泄露損失很高,而且疫情大數據不但是商業(yè)利益問(wèn)題,還關(guān)聯(lián)國家政治社會(huì )問(wèn)題,我們以為疫情大數據系統是內網(wǎng),但實(shí)際上內網(wǎng)也會(huì )遭遇攻擊。我們在疫情大數據的系統上,要明確接入權限與過(guò)程審計,用各種各樣的安全措施來(lái)確保安全。
為何新冠疫情大數據姍姍來(lái)遲
為什么這次新冠疫情大數據來(lái)得晚呢?這上面是谷歌有一年某個(gè)地方發(fā)生流感,谷歌的報告流感比美國疾控中心還提前一個(gè)星期,相似度97%。它能提前預警,而中國的這次疫情大數據,基本上沒(méi)有起到預警作用,為什么?網(wǎng)上人說(shuō),你們說(shuō)得那么好,為什么你們沒(méi)有早說(shuō)出來(lái)?原因是網(wǎng)上信息很多。傳染病根本沒(méi)有被列到互聯(lián)網(wǎng)界關(guān)注的優(yōu)先點(diǎn),另外在發(fā)現不明肺炎之初,醫療機構的信息中心也沒(méi)有能夠根據十多例的病情分析出人傳人,掌握不了病毒控制的主動(dòng)權,應該說(shuō),可惜我們信息技術(shù)人員敏感性不夠。
大數據依賴(lài)真實(shí)數據的開(kāi)放
另外一個(gè)更重要原因,是數據的披露開(kāi)放之后不及時(shí)。在發(fā)現最初動(dòng)物作為傳染源的時(shí)候,案例是比較少的,很難觸發(fā)疫情大數據的分析。發(fā)展到人傳人的時(shí)候,電信以及互聯(lián)網(wǎng)公司的人行為軌跡的大數據才有作用,我們知道,武漢的重癥病例從發(fā)病到住院平均等待了將近10天,有些還沒(méi)等到住院就不行了。整個(gè)獲得信息延誤了10天,再加上14天左右的潛伏期,病毒已經(jīng)蔓延了一個(gè)多月,而且一些錯誤的信息,“不會(huì )人傳人”“可防可控”在發(fā)布。而真實(shí)的信息被當做謠言,疫情的數據沒(méi)有對外公布,當公眾知道病毒可以人傳人的時(shí)候,已經(jīng)錯過(guò)了防控的黃金時(shí)間,造成了武漢疫情爆發(fā)長(cháng)時(shí)間失控,這種公布數據,不僅僅是為了大數據分析。華盛頓大學(xué)有一個(gè)研究,“當媒體的報道量增加10倍,疾病的感染數會(huì )減少33.5%”,所以應該是更有用的。
大數據的應用需要有法律保證
另外,大數據的應用需要法律保證?!秱魅静》乐畏ā芬幎?,有關(guān)部門(mén)要報告疫情和監測,但是沒(méi)有明確哪一級地方政府有權收集當地運營(yíng)商跟疫情有關(guān)的數據,也沒(méi)有明確政府應該開(kāi)放什么數據,應該公布什么信息。所以,我們建議,要出臺《傳染病防治法》的實(shí)施細則,要明確省市政府對疫情防控數據的收集權限和政府各個(gè)部門(mén),以及相關(guān)企業(yè)提供疫情防控有關(guān)數據的責任。
電信大數據對疫情防控有用但還不夠
因為用戶(hù)的信令數據面很廣,而且實(shí)時(shí)性很好。實(shí)際上,每個(gè)用戶(hù)平均每天有200條左右的信令數據,應該是很好的,很詳盡?;镜亩ㄎ痪戎挥邪倜椎牧考?,實(shí)際上100米的半徑里,根據這個(gè)來(lái)確定密切接觸者是不準確的,因為有很多人隔100米和隔10米的情況是不同的。衛星導航+數字地圖的定位精度是比電信基站的定位精度要優(yōu),但是它的用戶(hù)數覆蓋不夠,所以?xún)烧叩慕Y合可能比較好。電信大數據對疫情防控是有很好作用的,但是還是有限的,所以?xún)H有電信大數據不夠,需要跟有關(guān)部委融合。
大數據是方法與輔助工具
大數據本身是一種方法,整個(gè)醫療不僅僅是在院中,還涉及到院前、院后和醫院管理,涉及到很多環(huán)節。大數據也不是智慧醫療的唯一方法,也是要跟其他信息技術(shù)結合,同時(shí)也要跟醫學(xué)專(zhuān)業(yè)知識結合,需要信息技術(shù)和醫學(xué)界的緊密合作。
最后,跟17年前的非典疫情相比,本次疫情是更嚴峻的大考。但現在用上了先進(jìn)的醫療技術(shù)和大數據等新一代信息技術(shù),科學(xué)防治、精準施策。在黨中央的堅強領(lǐng)導下,在疫情防控的人民戰爭中,大數據的應用環(huán)境將進(jìn)一步優(yōu)化,在聯(lián)防聯(lián)控精準施策中將發(fā)揮更大的作用。我們一定能夠打贏(yíng)疫情防控的人民戰爭、總體戰、阻擊戰。
來(lái)源:戰略前沿技術(shù)