疫情爆發(fā)到現(xiàn)在萤皂,你是不是也跟我一樣撒穷,每天起床都要點(diǎn)開丁香醫(yī)生,看一下疫情最新情況裆熙?如此火爆的背后端礼,更何況領(lǐng)導(dǎo)天天push我學(xué)習(xí)丁香醫(yī)生的思路禽笑,該項(xiàng)目有沒有借鑒性呢?以疫情地圖為例蛤奥,來講講數(shù)據(jù)分析師做項(xiàng)目的思路佳镜。
我將項(xiàng)目分析總結(jié)為五步法:數(shù)據(jù)收集、定義問題凡桥、數(shù)據(jù)清洗蟀伸、數(shù)據(jù)分析、輸出報(bào)告缅刽。今天我將對每一步進(jìn)行業(yè)務(wù)上的拆解啊掏。
一、定義問題
分析的重中之重是定義問題衰猛。這個(gè)項(xiàng)目的需求是什么迟蜜?想達(dá)到的效果是什么?
丁香醫(yī)生想做一款實(shí)時(shí)更新疫情數(shù)據(jù)的產(chǎn)品腕侄,方便用戶了解實(shí)時(shí)疫情動態(tài)小泉。
那用戶是誰芦疏?用戶最關(guān)心什么冕杠?
丁香醫(yī)生的用戶是老百姓,咱老百姓最關(guān)心的呢酸茴,是今天又確診多少人分预,疑似多少人,死亡多少人薪捍,以及治愈多少人笼痹,疫情是不是往好的方向發(fā)展……
依照《精益數(shù)據(jù)分析》提出的“第一關(guān)鍵指標(biāo)法”,我們提煉出關(guān)鍵指標(biāo):確診人數(shù)酪穿、疑似人數(shù)凳干、死亡人數(shù)、治愈人數(shù)被济。
關(guān)鍵指標(biāo)
同時(shí)救赐,咱老百姓除了想知道整個(gè)疫情發(fā)展,也很關(guān)心自己城市的情況只磷,因此將關(guān)鍵指標(biāo)按省份经磅、城市細(xì)分。疫情地圖就包含了全國確診人數(shù)熱力圖钮追,各省预厌、各市的關(guān)鍵指標(biāo)。
各省份元媚、城市關(guān)鍵指標(biāo)
二轧叽、數(shù)據(jù)采集
數(shù)據(jù)真實(shí)可信是數(shù)據(jù)分析的前提苗沧。丁香醫(yī)生的數(shù)據(jù)來源于國家衛(wèi)健委、各省市衛(wèi)健委犹芹、各省市政府崎页、港澳臺等官方渠道,來源權(quán)威腰埂。
咱們數(shù)據(jù)分析師日常怎么收集數(shù)據(jù)呢飒焦?
內(nèi)部數(shù)據(jù):天天需要。公司把數(shù)據(jù)存放在自家服務(wù)器或阿里云等第三方平臺屿笼,通過SQL獲取牺荠。
外部數(shù)據(jù):也很重要,較難獲取驴一⌒荽疲可以用國家統(tǒng)計(jì)局、中國人民銀行等公布的數(shù)據(jù)肝断;使用第三方數(shù)據(jù)庫杈曲,如萬德、國泰安胸懈、銳思等數(shù)據(jù)庫下載數(shù)據(jù)担扑;或使用爬蟲,爬到自己想要的數(shù)據(jù)趣钱。
三涌献、數(shù)據(jù)清洗
數(shù)據(jù)清洗幾乎占用數(shù)據(jù)分析師80%的時(shí)間。在這里首有,丁香醫(yī)生主要涉及去重和口徑一致燕垃。
(1)去重
上面收集來的數(shù)據(jù),各個(gè)渠道會不會重復(fù)統(tǒng)計(jì)呢井联?比如國家衛(wèi)健委卜壕、省衛(wèi)健委和省政府公布的數(shù)據(jù)中,肯定有重復(fù)部分烙常,需要我們?nèi)サ糁貜?fù)值轴捎。
丁香醫(yī)生也曾重復(fù)統(tǒng)計(jì)過,導(dǎo)致新增確診人數(shù)變多军掂,不過很快糾正了轮蜕。
(2)口徑一致
報(bào)表上線后,口徑變化是大忌蝗锥。2月12日跃洛,確診口徑由單一核酸檢測,新加入臨床診斷终议,確診人數(shù)大增汇竭,一下多了1萬多人葱蝗。
如果是數(shù)據(jù)分析師隨意調(diào)整統(tǒng)計(jì)口徑,那就要背鍋?zhàn)呷肆讼噶牵蝗绻抢习逡目趶搅铰瑪?shù)據(jù)分析師就得想想該怎么妥善處理了。
丁香醫(yī)生是怎么做的呢玻驻?
當(dāng)日確診人數(shù)爆增悼凑,丁香醫(yī)生用虛線表示增長,并且右上方備注“臨床診斷病例的影響”璧瞬。這樣做既反映了真實(shí)情況户辫,也解釋了因統(tǒng)計(jì)口徑變化,導(dǎo)致數(shù)據(jù)異常增長嗤锉。
口徑變化導(dǎo)致的激增
四渔欢、數(shù)據(jù)分析
數(shù)據(jù)收集和清洗是基本能力,數(shù)據(jù)分析才是核心競爭力瘟忱。
我們在思考用什么指標(biāo)來做分析時(shí)奥额,可以參考《精益數(shù)據(jù)分析》里,關(guān)于“什么是好的數(shù)據(jù)指標(biāo)”的總結(jié):
好的數(shù)據(jù)指標(biāo)是比較性的(較昨日访诱、新增疑似垫挨、新增確診……);
好的數(shù)據(jù)指標(biāo)是簡單易懂的(確診盐数、死亡棒拂、治愈……)伞梯;
好的數(shù)據(jù)指標(biāo)是一個(gè)比率(病死率=死亡人數(shù)/確診人數(shù)玫氢、治愈率=治愈人數(shù)/確診人數(shù));
好的數(shù)據(jù)指標(biāo)會改變行為(通過新增確診走勢谜诫,了解疫情是否正在緩解漾峡,指定方針)。
由于丁香醫(yī)生疫情地圖產(chǎn)品喻旷,只向大家展現(xiàn)客觀數(shù)據(jù)生逸,沒有輸出具體的主觀結(jié)論。但我們?nèi)匀豢梢愿鶕?jù)丁香醫(yī)生的指標(biāo)的和圖表且预,對疫情發(fā)展情況作出判斷槽袄。
1. 趨勢變化
由新增趨勢圖,可以看到锋谐,新增確診病例在2月12日修改統(tǒng)計(jì)口徑后遍尺,逐漸下降,新增疑似病例在2月5日后逐漸下降涮拗。
由現(xiàn)存疑似乾戏、確診趨勢圖迂苛,可以看到,現(xiàn)存確診病例從1月19日-2月12日鼓择,呈陡峭的直線上升三幻,在2月16日到達(dá)峰值以后,逐漸下降呐能,現(xiàn)存疑似在2月8日到達(dá)峰值后逐漸下降念搬。
全國疫情新增、現(xiàn)存趨勢圖
因?yàn)楹笔亲顕?yán)重的受災(zāi)區(qū)摆出,會嚴(yán)重拉高其他省市的數(shù)據(jù)锁蠕,因此需要特殊對待。
湖北新增確診病例2月12日暴增1.5萬以后懊蒸,逐漸下跌荣倾,最近幾日都維持在新增400人的水平,非湖北新增確診病例在2月3日之前劇烈增長骑丸,2月3日武漢及周邊城市封城舌仍、大家不外出聚集以后,逐漸下降通危,最近幾日維持在兩位數(shù)甚至個(gè)位數(shù)铸豁。
湖北、非湖北新增趨勢圖
2. 比率
知道了每天的新增情況菊碟,咱老百姓還關(guān)心节芥,這個(gè)新型冠狀肺炎厲不厲害,死亡率高不高澳婧Α头镊?
丁香醫(yī)生針對這一需求,又設(shè)計(jì)了病死率趨勢圖和治愈率趨勢圖魄幕。同樣由于湖北是集中爆發(fā)區(qū)相艇,將湖北和非湖北分別對待。
病死率纯陨、治愈率趨勢圖
五坛芽、輸出報(bào)告
終于到了輸出環(huán)節(jié),丁香醫(yī)生最新的版本做得非常好翼抠,我們以后做可視化產(chǎn)品時(shí)咙轩,完全可以借鑒板塊的劃分。
全國關(guān)鍵指標(biāo)阴颖、較昨日變化情況活喊、分省市統(tǒng)計(jì)關(guān)鍵指標(biāo)、變化趨勢膘盖、病死率和治愈率等胧弛。老百姓關(guān)注的點(diǎn)幾乎都涵蓋在里面尤误。
丁香醫(yī)生疫情地圖版本也是一步步迭代來,我們來看一下修改前结缚,和修改后的對比圖损晤。
修改前后對比圖1,增加了更多指標(biāo)和環(huán)比數(shù)據(jù)
初版地圖红竭,只有當(dāng)日累計(jì)數(shù)值尤勋,修改后增加了“較昨日”的變化數(shù)據(jù);初版只包含確診茵宪、疑似最冰、死亡和治愈4個(gè)指標(biāo),修改后增加了現(xiàn)存確診稀火、現(xiàn)存疑似暖哨、現(xiàn)存重癥等指標(biāo)。
修改前后對比圖2凰狞,數(shù)據(jù)表格化篇裁,維度進(jìn)一步細(xì)分
修改前,按省份的關(guān)鍵指標(biāo)沒有細(xì)分到城市赡若,我們其實(shí)更關(guān)心自己城市的數(shù)據(jù)达布。修改后采用折疊的形式,閱讀舒適度非常好逾冬。
修改前后對比圖3黍聂,不同數(shù)量級指標(biāo)分圖展示
初版將確診、疑似身腻、死亡和治愈放到一起产还,由于確診和死亡人數(shù)不在一個(gè)數(shù)量級,導(dǎo)致死亡人數(shù)的趨勢無法直觀表達(dá)出來霸株,修改后將新增雕沉、現(xiàn)存集乔、死亡和治愈分別列出去件,更能各自反映變化趨勢。
報(bào)告首先呈現(xiàn)的一定是大家最關(guān)心的結(jié)論(確診扰路、疑似尤溜、死亡、治愈)汗唱,其次是對結(jié)果的拆解分析宫莱,包含指標(biāo)的拆解(現(xiàn)存確診=昨日確診+新增確診-昨日死亡-昨日治愈)和維度(按省市拆關(guān)鍵指標(biāo))的拆分兩方面,最后才可能加上一些個(gè)人分析(疫情什么時(shí)候會變好)哩罪。
本文總結(jié)
“疫情地圖案例”基本符合數(shù)據(jù)分析五步法的套路授霸。
數(shù)據(jù)分析一定要在數(shù)據(jù)準(zhǔn)確的基礎(chǔ)上進(jìn)行巡验,數(shù)據(jù)分析=80%清洗+20%分析。
從權(quán)健到疫情地圖碘耳,丁香醫(yī)生抓熱點(diǎn)聲名大噪的故事值得小伙伴借鑒显设。
初版的體系搭建、報(bào)告輸出辛辨、可視化展示都是不成熟的捕捂,需要進(jìn)行多輪迭代。
以上為結(jié)合網(wǎng)上信息梳理學(xué)習(xí)整理的斗搞,還搞了一個(gè)比較詳細(xì)的放踩坑思維導(dǎo)圖指攒,需要探討的可以私信互相學(xué)習(xí)