“抽絲剝繭”:4步帶你輕鬆應對疫情大數據

前言

此次的新型冠狀病毒肺炎對我們所有人都帶來了巨大影響,這種影響既因爲病毒的高傳染性威脅到了每個人的健康,也因爲在大數據時代,各種紛繁複雜的疫情數據撲面而來(比如衛健委公佈的診斷數據,各運營商、頭部社交媒體等平臺發佈的位置、出行信息以及疫情分析數據等),也對廣大民衆解讀數據、破解迷惑的數據分析能力提出了挑戰。

Kyligence作爲耕耘大數據領域多年的專業廠商,今天特別邀請了我們的資深數據分析專家,以此次疫情數據爲例,爲大家介紹一種簡單易上手的分析方法,幫助大家日常更好的解讀各種數據背後的真相。

這個我們稱爲“點-線-面-體”分析法,是一種數據分析工作者常用的數據分析方法,更是一種從簡單到複雜、局部到全局的一體化數據運營思維方式。通過抽絲剝繭般在繁瑣的分析過程中形成清晰分析主線的方法,能夠幫助數據分析工作快速、有效、全面、精準的落地和執行,也可以廣泛應用於各類生活和工作分析場景中。

 

點:明確分析中的最基礎元素,找到切入點,確定關鍵指標

點的發現關鍵在於各時段/時點數據的齊整規範,找出分析的基礎指標,形成統計規範。然後通過分析工具將各時段的基礎指標進行展示或者可視化供後續查詢分析。 該環節需要完成兩個核心事項:數據的規整化和統計時間窗口的選擇。數據規整化直接影響數據的質量和分析結果的精準性,而統計時間窗口的選擇是決定關鍵衡量指標的標準。

以當前疫情公佈的數據爲例:

相比於2003年的SARS疫情,多年來的政府大數據建設使得本次疫情數據的規整化較好,數據來源統一爲國家衛健委,數據規範、標準一致;在齊整完善性方面,除了衛健委發佈的疑似、確診、治癒及死亡人數和醫療資源信息之外,還陸續完善了基於地域、社區等位置維度,這大大簡化了我們整理數據的工作量。

數據統計時間窗口的確定,包含數據發生日期、統計日期和時間計算方式(時點/時段)的確定。確定統計時間窗口是數據分析中很重要的概念,在日常的數據分析工作中,尤其是金融行業,幾乎所有的數據分析都會跟時間窗口掛鉤,明細的數據級別都會有數據發生日期、統計日期的區分,便於進行不同時間跨度的計算,從而滿足監管和經營分析的統計需求。

而同樣的分析指標,不同統計時間窗口的選擇也會解讀出完全不同的結論。以疫情期間關鍵指標“病死率”爲例,病死率的統計定義=當前時點死亡人數/確診人數,如1月31日的當天累計死亡人數爲259、截止到1月31日的累計確診人數爲11319,按照公式計算出病死率爲2.2%。但從公佈信息中得知新冠狀病毒從確診到死亡平均週期爲7-8天,因此1月31日的當天死亡人數259如果要對應1月23日時點的確診人數776,就會得到另一個病死率指標33.4%。

每個數據單獨來看都是精準和規整的,而且都有具體的計算邏輯,爲何兩種計算方法得到病死率指標2.2%和33.4%如此巨大的差異?病死率真的有33.4%這麼恐怖嗎?

數據和圖片來源:騰訊新聞微信端-疫情實時追蹤

 

首先,我們能看到導致差異的原因在於統計時間窗口不一致,前者(2.2%)選擇了統計日期一致的數據進行計算,後者(33.4%)選擇了發生日期一致的數據進行計算,充分體現了不同的時間窗口統計數據會產生不同的計算結果,而不同結果代表的意義也非常不同。

其次,我們來看33.4%的病死率,既然是以發生日期作爲時間窗口,那這個指標如果要成立還有個巨大的前提,就是1月31日當天259個死亡都發生於1月23日確診的776人,這樣才能表示兩個數字的發生日期一致,但這顯然很容易被證實是不可能的。所以,大家不要慌,33.4%這個結果是不靠譜的。不過,這一點很容易被忽略,也經常被網絡上某些居心叵測的人用來作爲製造恐慌的小伎倆。瞭解了時間窗口選擇這個關鍵點,我們就能很容易發現其中的邏輯錯誤。

所以以統計日期一致的數據作爲計算指標(2.2%)才能代表當前水平下的名義病死率,更具有統計學上的意義,各大權威媒體也是用的這種計算方式

 

線:識別數據中的異常點,結合分析目標實現基礎指標的關聯,形成一條清晰的數據分析時間線

線是點的連接,線的分析就是實現各基礎數據指標在時間序列上的關聯,也就是看趨勢的過程,是實現數據時間價值與串聯識別價值的過程。這是很簡單易懂的數據分析方法,相信大家都已經輕鬆掌握了。但在進行連點成線的分析時,怎麼識別時間序列變化中的異常數據、突增的影響因素、現有因素的波動分析等,確定異常點的處理方式,纔是最終是否能畫出一根合理趨勢線的關鍵。

自然界有着著名的“黑天鵝”事件(17世紀之前的歐洲人認爲天鵝都是白色的,但隨着在澳大利亞第一隻黑天鵝的發現,這個不可動搖的觀念崩潰了,“黑天鵝”事件即指在未來某時刻出現的不可預知的事件,如歷史上出現的87年股災、次貸危機等),而“黑天鵝”事件的出現會對數據趨勢再來巨大的影響,造成趨勢的劇烈波動。

回到此次疫情中,日本的“鑽石號郵輪”事件,可以說就是日本疫情統計數據的黑天鵝,使原本符合趨勢的統計數據出現劇烈波動,而也對後面的預測帶來了巨大幹擾。所以可以看到,在媒體按區域統計確認病例中,“鑽石號郵輪”的數據都是被單獨列出來的,也就是爲了屏蔽“黑天鵝”事件對解讀和預測日本疫情發展帶來的數據干擾。

再如浙江省的疫情數據。從之前公佈數據看來,截至3月1日已經連續多日新增確認病例爲0,按照此趨勢可以預測疫情基本不會反彈,逐步調低防控應急響應機制。但3月1日浙江省確認的首位意大利歸國華僑,使得趨勢數據出現新的波峯。雖然波峯過後近幾日浙江省新增病例仍保持零水平,考慮到傳播後確診的滯後性,民衆不得不再次嚴肅起來。這對於浙江疫情趨勢數據來說,就是一次明顯的黑天鵝事件帶來的數據波動,而這個數據應該怎麼解讀,特別是後續如果不斷出現這種輸入性的新增數據,在趨勢分析上應該怎麼處理,那就要見仁見智了。

數據和圖片來源:騰訊新聞微信端-疫情實時追蹤

 

從上面可以看出,對“黑天鵝”事件在帶來的數據波動應該怎麼處理,數據分析過程中根據分析的目標不同處理方式也不同。比如新型冠狀病毒肺炎這一“黑天鵝”事件導致了國內口罩市場銷量數據的異常,對疫情過後正常情況下的口罩市場銷量的預測分析,不具有參考性,在數據處理過程需要過濾掉這部分數據;相反,如要預測後續全球疫情發展趨勢和國外後續口罩市場的需求,這一“黑天鵝”事件反映的國內口罩市場數據信息則具有非常重要的參考意義,需要放進來更加精準的展示實際情況,且可以作爲下一次突發疫情的歷史參考及防禦依據。

 

面:在“線”分析的基礎上將外部“分析場景”考慮進來,形成對目標更周詳的分析

面的分析是在點、線分析整合的基礎上進行擴展和類比,並且引入其他運營場景的特徵考量。在這裏,一個場景就代表一個面,比如把中國的疫情發展趨勢分析線擴展到對海外疫情的分析預測,在進行從線到面的擴展和預測時,應從各方影響因素全面考量,使得數據分析過程具備角色化和場景化。

比如繼國內疫情大面積爆發之後,伊朗、意大利、韓國、德國等各國呈現井噴之勢。以意大利爲例,截至3月8日,媒體端報送意大利新冠肺炎累計確診病例爲7375例,死亡人數已達366人,病死率高達4.96%,爲全球最高。是否可以直接利用國內1到3月的現有數據趨勢來預測意大利疫情的發展趨勢呢?

答案顯然是不能,國內新冠肺炎的發展趨勢可以作爲參考,但不同的國家防疫情況不同,對發展趨勢的預測還需要根據相應的場景,把其他特徵數據“點”考慮進來,比如:

  • 歐洲分級診療的醫療體系,確診時間週期比國內長,可以預測實際的確診病例會更多:比如2月6日曾到過武漢的意大利回國旅客確診,2月21日第4例確診,確診日期將近15天左右,相比之下國內是10天之內,可以預測意大利確診病例的發展趨勢跟國內並不一致;
  • 歐洲政府體制不一樣,民衆的防禦不積極,難以實現武漢封城這樣全民抗疫的行爲,會導致R0值高於國內水平,如:自由遊行、不戴口罩、集體運動等行爲時長和次數都是需要作爲趨勢預測的考慮因素。
  • 同樣,由於人種差異,以及診療體系帶來的確診到死亡的週期不同,防疫程度差異,我們目前也無法基於國內現有的數據樣本精準的預測海外疫情病死率的發展趨勢。

從上面的舉例可以看出,國內疫情的歷史趨勢對於海外疫情的發展預測是有參考意義的,但不能生搬硬套,考慮到國情、文化等不同情況,可能需要抱着更加悲觀的態度對海外疫情未來發展趨勢進行預估。而另一方面,作爲較早爆發的意大利疫情,期惡化趨勢對其他西方國家的疫情防控反而有着更爲重要的價值參考。

 

體:從多面角度出發,跳出該分析場景,能夠從“旁觀者”的角度看待整個分析過程

體的分析是能夠考慮脫離目標場景之外的,找到有可能影響最終分析結果的其他因素點,從多方面角度出發,形成完整的分析體,這也是在大數據分析中經常提到的相關性分析。

比如,對於前面提到的浙江突然出現的輸入型病例數據,對於一個地區的趨勢數據來說,只是造成了一個小波動。但是,隨着國內疫情好轉新增病例的減少,北京、上海等各地輸入性病例的持續出現和增加,輸入性病例已從小概率事件逐漸轉變爲我國疫情趨勢和防疫調控的重要影響因子。我們不但應該引入輸入性病例來重新調整疫情迴歸零線的預測走勢,並且還需要跳出這些被動數據之外,找出更多的外部數據來爲後續的主動防疫措施進行指導。

比如,小編驚奇的發現,全球疫情地域分佈和海外華人地域分佈有着一定的相關性。截至3月7日全球各國疫情確診排名/地域分佈圖和2014年全球華裔分佈圖,疫情感染嚴重地域和華裔人口數量地域分佈有驚人的相似處。

數據和圖片來源:人民日報新媒體和百度圖庫端

 

因此,依託從“面”到“體”的數據分析思維方式,我們應該充分借鑑以上示例的相關信息,在對輸入性病例進行防控時,除了對當前已上榜的國家人員做好入境防疫措施之外,同時對沒有上榜但華裔分佈較多的國家的入境人員,也需要提前做好疫情數據的收集和入境防禦,已充分做到未雨綢繆。

結語

綜上,本文藉助大家目前最關心的疫情數據(疫情分析不是本文重點,以上所有示例只是用來舉例),對 “點-線-面-體”的數據分析法中進行了解讀,“點”解決了基礎分析指標的定義和統計方式;“線”根據分析目標處理突發的異動數據,實現時間序列的連續分析;“面”是依託於場景目標,帶入場景特徵因素,是分析結果更加全面;“體”是綜合考慮大數據下場景生態圈的相關影響分析,整體形成了從數據-場景-外圍生態的完整分析閉環,快速達到分析初衷。這種分析方法可利用在複雜多變的各種場景中,幫助大家理出清晰的主線,並能鋪蓋全局,達到事半功倍的目的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章