本文是繼上一篇《如何應(yīng)對數(shù)據(jù)荒(1)》的第二個案例分析丐膝,
案例二
《Datamining: Seasonal and temperature fluctuations inthyroid-stimulating hormone》
摘要
研究目的:探索季節(jié)和氣溫對TSH的影響
數(shù)據(jù)源:2013.9.1-2016.8.31期間量愧,醫(yī)院LIS系統(tǒng)上339,985例患者的部分檢驗信息和同期中國氣象局公布的每日氣溫,數(shù)據(jù)變量如下:
研究結(jié)果:
TSH中位值的季節(jié)性變化
SH檢測值與氣溫的相關(guān)性
|
|
|
每個月TSH的中位數(shù)波動帅矗,以及同期的每個月溫度的平均值的波動
|
統(tǒng)計學(xué)解讀
該文章的所使用的數(shù)據(jù)維度非常有限(日期偎肃、檢測結(jié)果、氣溫)浑此,所使用的統(tǒng)計學(xué)方法也非常簡單(K-S檢驗累颂,ANOVA,Pearson相關(guān)性分析)凛俱,但是作者非常聰明地對數(shù)據(jù)進(jìn)行了切割锐极,其將日期先分組(3個整年階段聋丝,其實是一個因素分不同階段看掸驱,可視化上顯得數(shù)據(jù)維度更豐富)势告,再把時間切割成日、月原叮、季節(jié)赫编,再把所有切割維度下TSH的中位值計算并可視化,以成文奋隶。為了增強(qiáng)文章的說服力擂送,作者將數(shù)據(jù)標(biāo)準(zhǔn)化進(jìn)行了自驗證以提高研究結(jié)果的可靠性。
數(shù)據(jù)處理的流程圖如下:
模式拓展
當(dāng)數(shù)據(jù)維度較低時唯欣,對原有數(shù)據(jù)進(jìn)行切割是豐富數(shù)據(jù)統(tǒng)計內(nèi)容嘹吨,增加文章說服性的一種常用方法,也是應(yīng)對‘?dāng)?shù)據(jù)荒’和數(shù)據(jù)過度豐富時的常見方法黍聂。
參考文獻(xiàn)
Danchen Wanga, Xinqi Chenga,Songlin Yua,et.al. Data mining: Seasonal and temperature fluctuations in thyroid-stimulating hormone. Clinical Biochemistry 60 2018,59-63