Lesson 19 邏輯回歸
針對因變量為分為變量而進(jìn)行回歸分析的一種統(tǒng)計方法坎弯,屬于概率型非線性回歸
優(yōu)點:算法易于實現(xiàn)和部署鳞仙,執(zhí)行效率和準(zhǔn)確度高
缺點:離散型的自變量數(shù)據(jù)需要通過生成虛擬變量的方式來使用
對離散型自變量進(jìn)行對數(shù)變換
Sigmoid函數(shù) - 歸一化
g(y) = 1 / (1+e-y)
Sigmoid Function
當(dāng)只有兩種值時漓柑,會去掉一個值做的列拣宏,因為模型共軛性
虛擬變量(dummy variables)
又稱啞變量或離散特征編碼零聚,可用來表示分類變量谆吴,非數(shù)量因素可能產(chǎn)生的影響
- 離散特征的取值之間有大小的意義:
尺寸(L, XL, XXL) - 離散特征取值之間沒有大小的意義:
顏色(Red, Blue, Green)
如果離散特征的取值之間有大小的意義,可用下面的函數(shù)處理:
pandas.Series.map(dict)
#dict為映射的字典