平時在一些數(shù)據(jù)處理中尿孔,經(jīng)常會把原始數(shù)據(jù)取對數(shù)后進一步處理撬统。
這里總結(jié)一下這樣處理的數(shù)學意義
對數(shù)函數(shù)在其定義域內(nèi)是單調(diào)增函數(shù),取對數(shù)后不會改變數(shù)據(jù)的相對關(guān)系仆邓。所以
1. 縮小數(shù)據(jù)的絕對數(shù)值遮怜,方便計算淋袖。
例如,每個數(shù)據(jù)項的值都很大锯梁,許多這樣的值進行計算可能對超過常用數(shù)據(jù)類型的取值范圍即碗,這時取對數(shù),就把數(shù)值縮小了陌凳,例如TF-IDF計算時剥懒,由于在大規(guī)模語料庫中,很多詞的頻率是非常大的數(shù)字合敦。
2. 取對數(shù)后初橘,可以將乘法計算轉(zhuǎn)換成加法計算。
3. 某些情況下充岛,在數(shù)據(jù)的整個值域中的在不同區(qū)間的差異帶來的影響不同保檐。例如,中文分詞的mmseg算法崔梗,計算語素自由度時候就取了對數(shù)夜只,這是因為,如果某兩個字的頻率分別都是500蒜魄,頻率和為1000盐肃,另外兩個字的頻率分別為200和800,如果單純比較頻率和都是相等的权悟,但是取對數(shù)后,log500=2.69897, log200=2.30103, log800=2.90308 這時候前者為2log500=5.39794, 后者為log200+log800=5.20411推盛,這時前者的和更大峦阁,取前者。因為前面兩個詞頻率都是500,可見都比較常見耘成。后面有個詞頻是200,說明不太常見榔昔,所以選擇前者驹闰。
從log函數(shù)的圖像可以看到,自變量x的值越小撒会,函數(shù)值y的變化越快嘹朗,還是前面的例子,同樣是相差了300,但log500-log200>log800-log500诵肛,因為前面一對的比后面一對更小屹培。
也就是說,對數(shù)值小的部分差異的敏感程度比數(shù)值大的部分的差異敏感程度更高怔檩。這也是符合生活常識的褪秀,例如對于價格,買個家電薛训,如果價格相差幾百元能夠很大程度影響你決策媒吗,但是你買汽車時相差幾百元你會忽略不計了。
4. 取對數(shù)之后不會改變數(shù)據(jù)的性質(zhì)和相關(guān)關(guān)系乙埃,但壓縮了變量的尺度闸英,例如800/200=4, 但log800/log200=1.2616,數(shù)據(jù)更加平穩(wěn)介袜,也消弱了模型的共線性甫何、異方差性等。
5. 且所得到的數(shù)據(jù)易消除異方差問題米酬。
6. 在經(jīng)濟學中沛豌,常取自然對數(shù)再做回歸,這時回歸方程為 lnY=a lnX+b 赃额,兩邊同時對X求導加派,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 這正好是彈性的定義。
當然跳芳,如果數(shù)據(jù)集中有負數(shù)當然就不能取對數(shù)了芍锦。實踐中,取對數(shù)的一般是水平量飞盆,而不是比例數(shù)據(jù)娄琉,例如變化率等。