? ? 我們在數(shù)據(jù)預(yù)處理過程中經(jīng)常見到對于有偏數(shù)據(jù)進行l(wèi)og變換,變換后的數(shù)據(jù)能更加接近正態(tài)分布步氏。
? ? 關(guān)于有偏數(shù)據(jù)的判定响禽,一般是計算偏度值skewness。
? ? 但是荚醒,為什么有偏數(shù)據(jù)經(jīng)過對數(shù)變換后會更加接近正態(tài)分布呢?
? ? 原因在于對數(shù)最基本的運算法則:logaA-logaB=loga(A/B)
? ? ? ? 如上圖所示芋类,我們可以看到上圖的原始數(shù)據(jù)經(jīng)過log變換(以e為底)后數(shù)據(jù)呈現(xiàn)接近出了正態(tài)分布的形態(tài)。原始數(shù)據(jù)的分布集中在左側(cè)界阁,有極少數(shù)的數(shù)據(jù)較大侯繁,分布在右側(cè);數(shù)據(jù)的中位數(shù)大約在150附近泡躯。
中位數(shù)兩邊的數(shù)據(jù)樣本量大致相當(dāng)贮竟,150取ln后結(jié)果大約為5;
對于數(shù)據(jù)樣本中的極大值而言(例如750)较剃,取ln后的約等于6.6咕别;對于數(shù)據(jù)樣本中的極小值而言(例如30),取ln后的約等于3.4写穴。他們變換后的結(jié)果距離中位數(shù)取ln的距離均為1.6(6.6-5和5-3.4)惰拱,也就是ln(750)-ln(150)=ln(5)=ln(150)-ln(30)。
這就是取log之后數(shù)據(jù)能更加接近正態(tài)分布的原因啊送。
【參考鏈接】https://stats.stackexchange.com/questions/107610/what-is-the-reason-the-log-transformation-is-used-with-right-skewed-distribution