LR注意點(diǎn)

下面這個(gè)人的筆記做的還不錯(cuò)

http://www.cnblogs.com/jianzhitanqiao/p/5488659.html

1. Logistic回歸的決策函數(shù)是sigmoid函數(shù),那么它的判定邊界怎么求

突然想通了,是f(z) = sigmoid(z)

當(dāng)z >0時(shí)爪模,輸出1

當(dāng)z<0時(shí)痢站,輸出0

那么函數(shù)z=0就是判定邊界

關(guān)于z的解析式可以是高次的多項(xiàng)式函數(shù)

邏輯回歸的損失函數(shù):---如果將sigmoid函數(shù)代入最小二乘會(huì)得到一條并不收斂的曲線

sigmoid最小二乘損失函數(shù)

Logistic回歸損失函數(shù)若使用最小二乘得到的是非凸函數(shù)允蜈,容易陷入局部的極小值冤吨。

解決方法:

似然函數(shù)costfunc

似然函數(shù)進(jìn)行極大似然估計(jì)


加入L2正則

LR對(duì)于樣本的處理

樣本太大怎么辦?

1. 采樣再 LR

2. 分布式上 spark mllib

3. 將特征 離散化為 0-1饶套,這樣雖然訓(xùn)練數(shù)據(jù)量沒有變,特征向量還變長了垒探,

但是 因?yàn)?0-1 操作妓蛮,使得計(jì)算速度變快

4. 連續(xù)值的特征,最好 scaling一樣圾叼,使得因子圖 不是 特別的細(xì)長蛤克,而是 圓形,這樣利于優(yōu)化的速度夷蚊,這個(gè)也是可以 加速訓(xùn)練的

--注意樣本的平衡

·-》對(duì)樣本分布敏感

--》下采樣 --》上采樣

--》修改loss func 給予不同權(quán)重

--》采樣后的預(yù)測(cè)結(jié)果构挤,用排序作ok,用作判定請(qǐng)還原

--使用LR 的tech關(guān)于特征的聚類

提前惕鼓,將一些特征先 hash筋现,比如 uuid?

---LR也能用于特征選擇(去除theta為0的特征箱歧,選擇theta大的特征)

-------------關(guān)于模型調(diào)優(yōu)

假設(shè)只看模型:

---選擇合適的正則化(L1矾飞,L2,L1+L2):L2的準(zhǔn)確度高一些呀邢,但是收斂時(shí)間長一些洒沦。L1是截?cái)嘈孕б妗究梢宰鲆欢ǔ潭鹊奶卣鬟x擇,數(shù)據(jù)量特別大用L1】

--正則化系數(shù)C(lambda)【表示懲罰程度有多高】

--收斂閾值e价淌,迭代次數(shù)

--調(diào)整loss func給定不同權(quán)重

Bagging或其他方式的模型融合

--最優(yōu)化算法選擇(‘newton-cg’,'lbfgs'--spark里面用的這個(gè),'liblinear'--默認(rèn)使用梯度下降,'sag')

小樣本liblinear

大樣本sag

多分類‘newton-cg’和‘lbfgs’【也可以用liblinear和sag的one-vs-rest】


-----liblinear--常用庫【臺(tái)灣大學(xué)】

--------存儲(chǔ)方式:libsvm稀疏向量存儲(chǔ)格式申眼,海量數(shù)據(jù)下單機(jī)速度還ok

-------高維度離散化特征瞒津,準(zhǔn)確率逼近非線性切分

------參數(shù)調(diào)節(jié)方便

SKlearn中的LR實(shí)際上就是liblinear封裝的

L1正則和L2正則的區(qū)別

L2正則是一種縮放效應(yīng),會(huì)讓大部分特征都拿到權(quán)重但是括尸,幅度小

L1正則是截?cái)嗍叫?yīng)仲智,有可能很多特征的權(quán)重會(huì)變?yōu)?






2. SVM適合數(shù)據(jù)量比較小的情況,因?yàn)橛?jì)算量大

并且對(duì)于非均衡樣本姻氨,效果較差

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末钓辆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子肴焊,更是在濱河造成了極大的恐慌前联,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件娶眷,死亡現(xiàn)場(chǎng)離奇詭異似嗤,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)届宠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門烁落,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人豌注,你說我怎么就攤上這事伤塌。” “怎么了轧铁?”我有些...
    開封第一講書人閱讀 163,711評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵每聪,是天一觀的道長。 經(jīng)常有香客問我齿风,道長药薯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評(píng)論 1 293
  • 正文 為了忘掉前任救斑,我火速辦了婚禮童本,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘脸候。我一直安慰自己穷娱,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評(píng)論 6 392
  • 文/花漫 我一把揭開白布纪他。 她就那樣靜靜地躺著鄙煤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪茶袒。 梳的紋絲不亂的頭發(fā)上梯刚,一...
    開封第一講書人閱讀 51,301評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音薪寓,去河邊找鬼亡资。 笑死澜共,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的锥腻。 我是一名探鬼主播嗦董,決...
    沈念sama閱讀 40,145評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼瘦黑!你這毒婦竟也來了京革?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤幸斥,失蹤者是張志新(化名)和其女友劉穎匹摇,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甲葬,經(jīng)...
    沈念sama閱讀 45,443評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡廊勃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了经窖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坡垫。...
    茶點(diǎn)故事閱讀 39,795評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖画侣,靈堂內(nèi)的尸體忽然破棺而出冰悠,到底是詐尸還是另有隱情,我是刑警寧澤棉钧,帶...
    沈念sama閱讀 35,501評(píng)論 5 345
  • 正文 年R本政府宣布屿脐,位于F島的核電站,受9級(jí)特大地震影響宪卿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜万栅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評(píng)論 3 328
  • 文/蒙蒙 一佑钾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧烦粒,春花似錦休溶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至徒役,卻和暖如春孽尽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背忧勿。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評(píng)論 1 269
  • 我被黑心中介騙來泰國打工杉女, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瞻讽,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,899評(píng)論 2 370
  • 正文 我出身青樓熏挎,卻偏偏與公主長得像速勇,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子坎拐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容