論文閱讀筆記(二)

文章題目:基于眾包的數(shù)據(jù)清洗模型研究

作者:葉晨、王宏志

來源:中國人工智能學(xué)會 學(xué)會通訊 2017年 第3期

文章主要內(nèi)容

1斜脂、提出了一種將主動學(xué)習(xí)與眾包平臺相結(jié)合來進(jìn)行數(shù)據(jù)清洗的新方法藻三。

2诡壁、在真實數(shù)據(jù)集上驗證了本文提出的模型济瓢,證明了所提方法的有效性。

學(xué)習(xí)點

1妹卿、由現(xiàn)有方法的問題提出新的方法來解決問題旺矾。

?????? 本文中提到的現(xiàn)有概率方法、經(jīng)驗方法夺克、基于規(guī)則方法等具有兩個問題:(1)缺少足夠的知識(2)復(fù)雜的數(shù)學(xué)計算宠漩。從而本文提出了基于眾包的主動學(xué)習(xí)模型,將主動學(xué)習(xí)與眾包相結(jié)合對劣質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗懊直。通過眾包手段進(jìn)行數(shù)據(jù)清洗保證一定的精確度扒吁,同時結(jié)合主動學(xué)習(xí)模型減少眾包的開銷。

2室囊、解決本文問題的三個步驟雕崩。

? ? (1)首先通過初始少量訓(xùn)練數(shù)據(jù)集訓(xùn)練一個機器學(xué)習(xí)模型M。該機器學(xué)習(xí)模型可以是貝葉斯融撞、決策樹盼铁,或者支持向量機等模型。

??? (2)使用該機器學(xué)習(xí)模型M對每個元組u進(jìn)行確認(rèn)尝偎,計算該元組的不確定度Score(u)饶火。

??? (3)根據(jù)不確定度選擇一部分元組利用眾包平臺進(jìn)行確認(rèn),再將眾包的反饋結(jié)果添加到訓(xùn)練數(shù)據(jù)集中再訓(xùn)練致扯,直到滿足給定的條件肤寝。

3、主動學(xué)習(xí)模型

主動學(xué)習(xí)模型

????? 此模型適用于一些初始訓(xùn)練集信息量就已經(jīng)非常有效的情況抖僵,還有對精度要求非常高而使訓(xùn)練集的記錄只能是正確記錄的情況鲤看。

(1)學(xué)習(xí)模型的初始化。通過初始訓(xùn)練集中的少量記錄對學(xué)習(xí)模型中的各個分量分類器進(jìn)行訓(xùn)練耍群,從而得到一個初始的總體分類器模型义桂。

(2)選擇待標(biāo)記記錄。利用候選修復(fù)記錄在各個分量分類器中的不一致分?jǐn)?shù)來排序蹈垢,將不一致分?jǐn)?shù)最高的n個記錄作為待標(biāo)記記錄慷吊,剩下的候選記錄集繼續(xù)利用訓(xùn)練模型標(biāo)記,直到準(zhǔn)確度滿足需要為止曹抬。

(3)學(xué)習(xí)模型重訓(xùn)練溉瓶。眾包平臺上的工人對學(xué)習(xí)模型挑選出來的待標(biāo)記記錄進(jìn)行標(biāo)記,工人給出候選真值集中其認(rèn)為正確的答案。對于每一個給出結(jié)果的工人我們對其的可信度進(jìn)行計算評估嚷闭,然后將最可能的真值返回。學(xué)習(xí)模型重新訓(xùn)練赖临,去除掉那些已經(jīng)得到標(biāo)記的記錄胞锰,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。

(4)結(jié)果反饋兢榨。直到分類結(jié)果已經(jīng)達(dá)到一定準(zhǔn)確率嗅榕,合并眾包記錄集和機器學(xué)習(xí)記錄集產(chǎn)生最終的修復(fù)結(jié)果,數(shù)據(jù)集的修復(fù)完成吵聪。

4凌那、交互主動學(xué)習(xí)模型

??????? 交互主動學(xué)習(xí)模型是指將眾包標(biāo)記過的記錄反饋到訓(xùn)練集,對學(xué)習(xí)組件進(jìn)行重新訓(xùn)練吟逝。

交互主動學(xué)習(xí)模型

(1)學(xué)習(xí)模型的初始化帽蝶。

(2)選擇待標(biāo)記記錄。對每個候選修復(fù)記錄块攒,每個分量分類器都給出其預(yù)測結(jié)果励稳,最后根據(jù)各個分量分類器的判決結(jié)果選擇信息價值最大的記錄進(jìn)行修復(fù)。

(3)結(jié)果反饋和學(xué)習(xí)模型重訓(xùn)練囱井。在這個階段驹尼,眾包平臺上的工人對學(xué)習(xí)模型挑選出來的待標(biāo)記記錄進(jìn)行標(biāo)記,收集眾包平臺的結(jié)果庞呕,通過優(yōu)化算法得到已標(biāo)記記錄新翎。學(xué)習(xí)模型重新訓(xùn)練,去除掉那些已經(jīng)得到標(biāo)記的記錄住练,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合地啰。

(4)循環(huán)訓(xùn)練。重復(fù)階段1~3讲逛,直到已經(jīng)達(dá)到一定準(zhǔn)確率Q髓绽,則數(shù)據(jù)集的修復(fù)完成。

5妆绞、實驗階段

????? 在實驗階段顺呕,本文將測試選擇最不確定的眾包記錄(uncertainty/entropy)方法的有效性,我們將其與隨機算法(random)和投票算 法(vote)對比括饶。在隨機算法中株茶,將隨機選擇記錄進(jìn)行眾包標(biāo)記;在投票算法中图焰,選擇占比最大的候選值作為真值启盛。

? ? ? 本文提出的眾包記錄最大不確定度選擇方法在二次迭代準(zhǔn)確率就超過了投票算法,而且準(zhǔn)確率隨著迭代次數(shù)的增加穩(wěn)步上升,可以看出我們采用最大熵方法作為最不確定的眾包記錄對比投票算法和隨機算法有很大的優(yōu)勢僵闯。

眾包實驗結(jié)果一
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卧抗,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子鳖粟,更是在濱河造成了極大的恐慌社裆,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件向图,死亡現(xiàn)場離奇詭異泳秀,居然都是意外死亡,警方通過查閱死者的電腦和手機榄攀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門嗜傅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人檩赢,你說我怎么就攤上這事吕嘀。” “怎么了贞瞒?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵币他,是天一觀的道長。 經(jīng)常有香客問我憔狞,道長蝴悉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任瘾敢,我火速辦了婚禮拍冠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘簇抵。我一直安慰自己庆杜,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布碟摆。 她就那樣靜靜地躺著晃财,像睡著了一般。 火紅的嫁衣襯著肌膚如雪典蜕。 梳的紋絲不亂的頭發(fā)上断盛,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音愉舔,去河邊找鬼钢猛。 笑死,一個胖子當(dāng)著我的面吹牛轩缤,可吹牛的內(nèi)容都是我干的命迈。 我是一名探鬼主播贩绕,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壶愤!你這毒婦竟也來了淑倾?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤征椒,失蹤者是張志新(化名)和其女友劉穎娇哆,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陕靠,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年脱茉,在試婚紗的時候發(fā)現(xiàn)自己被綠了剪芥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡琴许,死狀恐怖税肪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情榜田,我是刑警寧澤益兄,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站箭券,受9級特大地震影響净捅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜辩块,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一蛔六、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧废亭,春花似錦国章、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至掌动,卻和暖如春四啰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背粗恢。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工拟逮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人适滓。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓敦迄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子罚屋,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容