簡(jiǎn)介 K均值聚類(lèi)仲智,也叫做K-Means Clustering叉钥,是一種著名的用于分類(lèi)問(wèn)題的無(wú)監(jiān)督機(jī)器學(xué)習(xí)聚類(lèi)算法茄厘。聚類(lèi)是針對(duì)給定的樣本, 依靠它們...
簡(jiǎn)介 集成學(xué)習(xí)爹谭,顧名思義就是將多種學(xué)習(xí)器或算法結(jié)合在一起介时,共同做出決策报咳。這符合人類(lèi)集思廣益的做法椎咧,在業(yè)界也是應(yīng)用最為廣泛的方法之一玖详。注意,集成學(xué)...
簡(jiǎn)介 大概是今年6月份參加微信大數(shù)據(jù)挑戰(zhàn)賽的時(shí)候勤讽,我才開(kāi)始認(rèn)識(shí)到特征選擇也是機(jī)器學(xué)習(xí)中非常重要的一環(huán)蟋座。在諸如CTR等比賽中,原始特征往往是不足以...
簡(jiǎn)介 決策樹(shù)模型是最常見(jiàn)的機(jī)器學(xué)習(xí)方法之一,也是入門(mén)機(jī)器學(xué)習(xí)必須掌握的知識(shí)诸狭。決策樹(shù)模型呈現(xiàn)樹(shù)形結(jié)構(gòu)券膀,在分類(lèi)問(wèn)題中,表示基于特征對(duì)實(shí)例進(jìn)行分類(lèi)的過(guò)...
簡(jiǎn)介 特征離散化指的是將連續(xù)特征劃分離散的過(guò)程:將原始定量特征的一個(gè)區(qū)間一一映射到單一的值作谚。離散化過(guò)程也被表述成分箱(Binning)的過(guò)程三娩。特...
簡(jiǎn)介 本文主要說(shuō)明特征工程中關(guān)于序數(shù)特征和類(lèi)別特征的常用處理方法庵芭。主要包含LabelEncoder妹懒、One-Hot編碼、DummyCoding双吆、...
簡(jiǎn)介 樸素貝葉斯(naive Bayes)算法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法眨唬。對(duì)于給定的訓(xùn)練數(shù)據(jù)集会前,首先基于特征條件獨(dú)立假設(shè)學(xué)習(xí)輸...
簡(jiǎn)介 在介紹比較復(fù)雜的數(shù)據(jù)類(lèi)型比如圖像和文本數(shù)據(jù)類(lèi)似之前,我們首先從最簡(jiǎn)單的數(shù)據(jù)類(lèi)似開(kāi)始匾竿,即:數(shù)值類(lèi)型瓦宜。我們收集到的數(shù)據(jù)中,數(shù)值類(lèi)型數(shù)據(jù)占據(jù)了大...
前言 上個(gè)月參加了微信大數(shù)據(jù)挑戰(zhàn)賽岭妖,由于是第一次參加類(lèi)似的比賽临庇,并沒(méi)有什么經(jīng)驗(yàn),最終也沒(méi)有進(jìn)復(fù)賽昵慌。不過(guò)在這期間還是學(xué)到了很多知識(shí)假夺,尤其是特征處理...