NLP開篇:接手機器學(xué)習(xí)問題從哪里入手

開始接觸一個機器學(xué)習(xí)的任務(wù)時渣刷,需要簡單的考慮:

1. 樣本數(shù)據(jù)集多大鱼辙?

如果樣本集不大廉嚼,可以考慮用簡單的LR、NB倒戏、KNN來解決怠噪,因為更復(fù)雜的學(xué)習(xí)算法很可能在樣本集上過擬合,反而不如簡單的分類器取得的效果好杜跷。

2. 有多少帶有標(biāo)注的樣本?

目前的深度學(xué)習(xí)類有監(jiān)督學(xué)習(xí)算法對標(biāo)記樣本的依賴比較嚴(yán)重傍念,往往需要大量的相對clean的標(biāo)記樣本。

無監(jiān)督學(xué)習(xí)可以獲取數(shù)據(jù)的分布情況葛闷,但往往無法精確的量化到可以產(chǎn)品實用的程度憋槐。

對于標(biāo)記樣本很少,而未標(biāo)記樣本很多的情況淑趾,可以考慮使用半監(jiān)督學(xué)習(xí)的方法阳仔。

3. 選取什么樣的特征?

對于分類問題扣泊,特征的維度多少會影響分類器的選擇近范,維度過高可能引起維數(shù)災(zāi)難嘶摊,并且減慢訓(xùn)練測試的速度。維度過低可能會減少特征中的有用分類信息评矩,降低檢測準(zhǔn)確率叶堆。


Sparse Matrix


另一個需要考慮的問題是特征的稀疏性,高維的稀疏特征是可以采用一些特殊的分析分類方法(利用稀疏矩陣特性)進(jìn)行解決的斥杜,也可以進(jìn)行降維(PCA蹂空、SVD)而不至于損失太多有效特征。

4. Last but not the least -- 樣本的本身屬性

樣本是圖像果录、音頻或是文本上枕?樣本的特征是否是可量化成數(shù)值的,或是用類別表示的屬性弱恒?如果問題可以用簡單的判斷邏輯解決辨萍,就沒有必要引入機器學(xué)習(xí)。

附上scikit-learn數(shù)據(jù)庫關(guān)于算法模型選擇的流程圖:


http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末返弹,一起剝皮案震驚了整個濱河市锈玉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌义起,老刑警劉巖拉背,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異默终,居然都是意外死亡椅棺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門齐蔽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來两疚,“玉大人,你說我怎么就攤上這事含滴∮詹常” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵谈况,是天一觀的道長勺美。 經(jīng)常有香客問我,道長碑韵,這世上最難降的妖魔是什么赡茸? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮泼诱,結(jié)果婚禮上坛掠,老公的妹妹穿的比我還像新娘赊锚。我一直安慰自己治筒,他們只是感情好屉栓,可當(dāng)我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著耸袜,像睡著了一般友多。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上堤框,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天域滥,我揣著相機與錄音,去河邊找鬼蜈抓。 笑死启绰,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的沟使。 我是一名探鬼主播委可,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼腊嗡!你這毒婦竟也來了着倾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤燕少,失蹤者是張志新(化名)和其女友劉穎卡者,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體客们,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡崇决,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了底挫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嗽桩。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖凄敢,靈堂內(nèi)的尸體忽然破棺而出碌冶,到底是詐尸還是另有隱情,我是刑警寧澤涝缝,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布扑庞,位于F島的核電站,受9級特大地震影響拒逮,放射性物質(zhì)發(fā)生泄漏罐氨。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一滩援、第九天 我趴在偏房一處隱蔽的房頂上張望栅隐。 院中可真熱鬧,春花似錦、人聲如沸租悄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泣棋。三九已至胶哲,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間潭辈,已是汗流浹背鸯屿。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留把敢,地道東北人寄摆。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像修赞,于是被迫代替她去往敵國和親冰肴。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容