半監(jiān)督學(xué)習(xí)的一些文章(Semi-supervised)

半監(jiān)督學(xué)習(xí)現(xiàn)在可是火紅火熱了!那是監(jiān)督學(xué)習(xí)的成本實(shí)在是太高了阅仔,不僅要去特意標(biāo)簽數(shù)據(jù)吹散,而且還需要人工刷選弧械,而且最重要的是時(shí)間花很多,很麻煩空民。那么有沒有一些方法刃唐,既可以使用未標(biāo)簽數(shù)據(jù)又可以學(xué)習(xí)到結(jié)果?

那就是兩種——半監(jiān)督學(xué)習(xí)和Active Learning(這種方法需要的樣本量更加薪缧)

為什么Semi-supervised 可以學(xué)習(xí)画饥?
因?yàn)槲覀兪枪烙?jì)underlying distribution (response value Y),而且我們可以從數(shù)據(jù)知道的是浊猾,因?yàn)闃颖臼菑耐粋€(gè)distribution 抽取出來的抖甘,如果有相似的X,那么我們就會(huì)‘聚類’出相似的Y ,其實(shí)Semi-supervised 在ML課上面首先講的是EM算法 (Mixure Gaussian Model) ,這個(gè)我會(huì)在文章的最后補(bǔ)充葫慎。

半監(jiān)督學(xué)習(xí)現(xiàn)在主要的方法有三種:

  1. Transductive SVM (和Inductive SVM 相對(duì)) (這種嚴(yán)格來說不是Semi的方法了)
  2. Co-training: (協(xié)同訓(xùn)練)
  3. Label Propagation: (圖的標(biāo)簽傳播算法)

Transductive 和 Inductive(semi-supervised) SVM的區(qū)別:

Inductive 是拿training 和testing 的數(shù)據(jù)來學(xué)習(xí)參數(shù)w, 并且把參數(shù)w 用在testing set 里面衔彻,這就像我現(xiàn)從大量的現(xiàn)象提取出general idea薇宠,并且把這種general idea 用到新的范式當(dāng)中。Inductive 是用label points 和unlabeled points 一起來訓(xùn)練的分類器艰额。
Transductive 先學(xué)習(xí)training data, 然后拿unlabel data 做testing data澄港。這里還是先用training set 來做出一個(gè)classifer, 然后放進(jìn)testing set, testing set 如果靠近訓(xùn)練集就會(huì)被標(biāo)記為訓(xùn)練集柄沮。

Paste_Image.png

例如上面回梧,有顏色的點(diǎn)是訓(xùn)練集(數(shù)量很小)祖搓,我們通過KNN算法來算出越靠近有標(biāo)記的點(diǎn)就會(huì)去標(biāo)記某個(gè)種類狱意。Transductive 只是用于標(biāo)記沒有標(biāo)記的數(shù)據(jù),并沒有太好的預(yù)測(cè)作用拯欧。Joachims 提出要使用TSVM的方法髓涯,在文本分類中有大量的應(yīng)用并且取得非常好的效果。例如query relevance feedback, news filtering, document collection 等等哈扮。

Paste_Image.png
Paste_Image.png

其實(shí)這個(gè)方法說到底也很簡(jiǎn)單纬纪,第一步用正常的方法來訓(xùn)練(training set), 然后用測(cè)試集來做regularized的方法使得模型有哦bias,然后增加bias來增加模型的準(zhǔn)確性。但是我們不能使用unlabel data 來調(diào)整參數(shù)或者選擇kernel.

Transductive Algorithm:
(1) 用training set 來訓(xùn)練SVM滑肉。
(2) Tune the parameter C (開始給出一個(gè)很小的value)
(3) increase C (slack variable)
(4) retrain the classifier
(5) nonlinear using kernel

Transductive 的優(yōu)點(diǎn)
(1) 只需要少量的測(cè)試集就可以訓(xùn)練模型
(2) 訓(xùn)練的次數(shù)快而且計(jì)算量不會(huì)太占空間包各。

缺點(diǎn):
(1)不能成為預(yù)測(cè)模型,只能對(duì)測(cè)試集進(jìn)行分類
(2) 因?yàn)闆]有訓(xùn)練出一個(gè)參數(shù)靶庙,所以每次有新的測(cè)試集進(jìn)來的時(shí)候问畅,都要重新計(jì)算一遍。

Co-Training:
協(xié)同訓(xùn)練:
協(xié)同訓(xùn)練是非常重要的半監(jiān)督學(xué)習(xí)六荒,最初是由Tom Mitchell 奠基的理論現(xiàn)在已經(jīng)成為了一個(gè)非常重要的訓(xùn)練范式护姆。其基本的思想是,通過互相訓(xùn)練條件獨(dú)立的訓(xùn)練器然后把結(jié)果進(jìn)行投票掏击。但是協(xié)同訓(xùn)練的基本前提是卵皂,訓(xùn)練集是需要在Y的情況下獨(dú)立,就是conditional indepence. 然而在某些數(shù)據(jù)的情況是不能這樣做砚亭,所以后面發(fā)展了很多協(xié)同訓(xùn)練的理論灯变,例如說Co-random forest 等等。

Tom 論文中主要的算法思想:
L 代表 有標(biāo)記訓(xùn)練集:
U 代表沒有標(biāo)記的訓(xùn)練集:

(1) 從U 中抽樣捅膘,抽出u個(gè)案例

用L去訓(xùn)練 H1 訓(xùn)練器
用L去訓(xùn)練 H2訓(xùn)練器
得到兩個(gè)參數(shù)之后:
我們用H1的參數(shù)去標(biāo)記 u的 分類添祸, p + n-
我們用H2 的參數(shù)去標(biāo)記u 的分類, p+ n-

把這些分類放到Labeled data 里面

然后在U 中選出樣本再放進(jìn) u中寻仗,補(bǔ)充u

選擇k次迭代

我們要注意的是H1,H2用的是同樣的分類器例如是Navie Bayes 或者random forest 刃泌,然后H1,H2 可以是不同的參數(shù)。
而且L對(duì)于兩個(gè)的訓(xùn)練數(shù)據(jù)可以是不一樣的。例如H1就用了weblink上面的字耙替,H2就用了context里面的內(nèi)容鲤遥。 文章里面比較了supervised learning 和unsupervised learning 的表現(xiàn)準(zhǔn)確率,發(fā)現(xiàn)H1,H1組合起來的正確率非常高林艘。

Paste_Image.png

但是模型有制約性盖奈,就是有違反conditional independece 的條件,他們有很多相關(guān)性狐援,并且在設(shè)計(jì)分類器的時(shí)候钢坦,要確保分類器的差異性旦装。

Co-forest:
不同于 Tri-Training 祭往,CoForest 算法采用隨機(jī)森林(Random Forest)來保證各分類器之間的差異性。隨機(jī)森林是一個(gè)若干分類決策樹的組合身诺。它采用 Bagging 方法產(chǎn)生各異的訓(xùn)練集同時(shí)使用分類回歸樹作為元分類器镶殷。隨機(jī)森林中單顆子樹的生長過程可以概括為:首先可放回的從原標(biāo)記數(shù)據(jù)集合中隨機(jī)選取 n 個(gè)示例(采用 Bagging 算法獲得)

Co-forest: 分類器:
(1) 訓(xùn)練n顆CART樹禾酱,并且調(diào)整參數(shù)到最優(yōu)。
(2) 對(duì)于每棵樹:
加入unlabel的數(shù)據(jù)绘趋,選出在置信度區(qū)間theta里面數(shù)據(jù)并且加進(jìn)樹里面颤陶。
不斷加入unlabel 數(shù)據(jù),終止條件是這一次的迭代錯(cuò)誤率大于上一次的就終止
(3)把放進(jìn)unlabeldata 的數(shù)據(jù)重新再生成random forest

文章里面的實(shí)驗(yàn)結(jié)果是陷遮,用不同的label 和unlabel 的比例來做實(shí)驗(yàn)滓走,發(fā)現(xiàn)無論怎樣,semi的方法都是比較好的帽馋,非常robust.
這個(gè)算法的優(yōu)點(diǎn)是:隨機(jī)森林有的有點(diǎn)它基本都有了搅方,樣本可以減低模型的不穩(wěn)定性,而且測(cè)量的是out-of-bag error. 而且又能確保模型之間的差異性绽族。

Label Propogation:
這個(gè)是使用圖論的方法來做的姨涡,就是首先用所有的data 建立一個(gè)圖(Graph),然后利用隨機(jī)游走的理論來給label data 附近的點(diǎn)來initialize 一個(gè)概率吧慢,然后用min-cut 的方法來判斷出這個(gè)點(diǎn)是否屬于label附近的點(diǎn)涛漂。這個(gè)方法像KNN的方法用label data 來找到向鄰近的點(diǎn)是否同屬于一個(gè)分類。

Kaggle 比賽:
我在Forest Cover Type Prediction 當(dāng)中用了semi-supervised 的方法:
因?yàn)閠raining set: 2000
testing set over 10,000
所以加入測(cè)試集可以使performance 增加:

Elevation - Elevation in meters 高度
Aspect - Aspect in degrees azimuth 方位角
所有角度以正北方設(shè)為000°娄蔼,順時(shí)針轉(zhuǎn)一圈後的角度為360°怖喻。
因此:
正北方:000°或360°
正東方:090°
正南方:180°
正西方:270°

Slope - Slope in degrees 坡度
Horizontal_Distance_To_Hydrology - Horz Dist to nearest surface water features 到水文的距離
Vertical_Distance_To_Hydrology - Vert Dist to nearest surface water features 垂直到水文的位置
Horizontal_Distance_To_Roadways - Horz Dist to nearest roadway 到roadways 的距離

Hillshade_9am (0 to 255 index) - Hillshade index at 9am, summer solstice 光的投射度 (夏至)
Hillshade_Noon (0 to 255 index) - Hillshade index at noon, summer solstice 光的投射度 (夏至)
Hillshade_3pm (0 to 255 index) - Hillshade index at 3pm, summer solstice 光的投射度 (夏至)

Horizontal_Distance_To_Fire_Points - Horz Dist to nearest wildfire ignition points
Wilderness_Area (4 binary columns, 0 = absence or 1 = presence) - Wilderness area designation:
1 - Rawah Wilderness Area Colorado
2 - Neota Wilderness Area Colorado
3 - Comanche Peak Wilderness Area Colorado
4 - Cache la Poudre Wilderness Area
Soil_Type (40 binary columns, 0 = absence or 1 = presence) - Soil Type designation

Cover_Type (7 types, integers 1 to 7) - Forest Cover Type designation

Paste_Image.png

Transformation of the data:
Aspect: 0 north eastnorth 90
distance: hillshade (the change of hillshade)
kick out some multicollineary data: hillshade 3pm hillshade 9am
find out the strong explanation of the variables: such as evaluation (Decision Tree ,single )
elimination of the outliers.

Model Building:
Using Random forest with first trial.
Gradient Boosted Machine (tree)
Add testing data to training set- co forest to train
Spruce and Lodge Poe, hard seperate, so use semi-SVM to train the data and inject biased. The existing feature can not seperate the Spruce and Lodge poe well since their environment is quite similar to each other.
(Using to build a special classifer to them)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市岁诉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌跋选,老刑警劉巖涕癣,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡坠韩,警方通過查閱死者的電腦和手機(jī)距潘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來只搁,“玉大人音比,你說我怎么就攤上這事∏馔铮” “怎么了洞翩?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長焰望。 經(jīng)常有香客問我骚亿,道長,這世上最難降的妖魔是什么熊赖? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任来屠,我火速辦了婚禮,結(jié)果婚禮上震鹉,老公的妹妹穿的比我還像新娘俱笛。我一直安慰自己,他們只是感情好传趾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布嫂粟。 她就那樣靜靜地躺著,像睡著了一般墨缘。 火紅的嫁衣襯著肌膚如雪星虹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天镊讼,我揣著相機(jī)與錄音宽涌,去河邊找鬼。 笑死蝶棋,一個(gè)胖子當(dāng)著我的面吹牛卸亮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播玩裙,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼兼贸,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了吃溅?” 一聲冷哼從身側(cè)響起溶诞,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎决侈,沒想到半個(gè)月后螺垢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年枉圃,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了功茴。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡孽亲,死狀恐怖坎穿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情返劲,我是刑警寧澤玲昧,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站旭等,受9級(jí)特大地震影響酌呆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜搔耕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一隙袁、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧弃榨,春花似錦菩收、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至官辈,卻和暖如春箱舞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背拳亿。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國打工晴股, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人肺魁。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓电湘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親鹅经。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寂呛,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容