文章題目:基于眾包的數(shù)據(jù)清洗模型研究
作者:葉晨、王宏志
來源:中國人工智能學(xué)會 學(xué)會通訊 2017年 第3期
文章主要內(nèi)容
1斜脂、提出了一種將主動學(xué)習(xí)與眾包平臺相結(jié)合來進(jìn)行數(shù)據(jù)清洗的新方法藻三。
2诡壁、在真實數(shù)據(jù)集上驗證了本文提出的模型济瓢,證明了所提方法的有效性。
學(xué)習(xí)點
1妹卿、由現(xiàn)有方法的問題提出新的方法來解決問題旺矾。
?????? 本文中提到的現(xiàn)有概率方法、經(jīng)驗方法夺克、基于規(guī)則方法等具有兩個問題:(1)缺少足夠的知識(2)復(fù)雜的數(shù)學(xué)計算宠漩。從而本文提出了基于眾包的主動學(xué)習(xí)模型,將主動學(xué)習(xí)與眾包相結(jié)合對劣質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗懊直。通過眾包手段進(jìn)行數(shù)據(jù)清洗保證一定的精確度扒吁,同時結(jié)合主動學(xué)習(xí)模型減少眾包的開銷。
2室囊、解決本文問題的三個步驟雕崩。
? ? (1)首先通過初始少量訓(xùn)練數(shù)據(jù)集訓(xùn)練一個機器學(xué)習(xí)模型M。該機器學(xué)習(xí)模型可以是貝葉斯融撞、決策樹盼铁,或者支持向量機等模型。
??? (2)使用該機器學(xué)習(xí)模型M對每個元組u進(jìn)行確認(rèn)尝偎,計算該元組的不確定度Score(u)饶火。
??? (3)根據(jù)不確定度選擇一部分元組利用眾包平臺進(jìn)行確認(rèn),再將眾包的反饋結(jié)果添加到訓(xùn)練數(shù)據(jù)集中再訓(xùn)練致扯,直到滿足給定的條件肤寝。
3、主動學(xué)習(xí)模型
????? 此模型適用于一些初始訓(xùn)練集信息量就已經(jīng)非常有效的情況抖僵,還有對精度要求非常高而使訓(xùn)練集的記錄只能是正確記錄的情況鲤看。
(1)學(xué)習(xí)模型的初始化。通過初始訓(xùn)練集中的少量記錄對學(xué)習(xí)模型中的各個分量分類器進(jìn)行訓(xùn)練耍群,從而得到一個初始的總體分類器模型义桂。
(2)選擇待標(biāo)記記錄。利用候選修復(fù)記錄在各個分量分類器中的不一致分?jǐn)?shù)來排序蹈垢,將不一致分?jǐn)?shù)最高的n個記錄作為待標(biāo)記記錄慷吊,剩下的候選記錄集繼續(xù)利用訓(xùn)練模型標(biāo)記,直到準(zhǔn)確度滿足需要為止曹抬。
(3)學(xué)習(xí)模型重訓(xùn)練溉瓶。眾包平臺上的工人對學(xué)習(xí)模型挑選出來的待標(biāo)記記錄進(jìn)行標(biāo)記,工人給出候選真值集中其認(rèn)為正確的答案。對于每一個給出結(jié)果的工人我們對其的可信度進(jìn)行計算評估嚷闭,然后將最可能的真值返回。學(xué)習(xí)模型重新訓(xùn)練赖临,去除掉那些已經(jīng)得到標(biāo)記的記錄胞锰,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合。
(4)結(jié)果反饋兢榨。直到分類結(jié)果已經(jīng)達(dá)到一定準(zhǔn)確率嗅榕,合并眾包記錄集和機器學(xué)習(xí)記錄集產(chǎn)生最終的修復(fù)結(jié)果,數(shù)據(jù)集的修復(fù)完成吵聪。
4凌那、交互主動學(xué)習(xí)模型
??????? 交互主動學(xué)習(xí)模型是指將眾包標(biāo)記過的記錄反饋到訓(xùn)練集,對學(xué)習(xí)組件進(jìn)行重新訓(xùn)練吟逝。
(1)學(xué)習(xí)模型的初始化帽蝶。
(2)選擇待標(biāo)記記錄。對每個候選修復(fù)記錄块攒,每個分量分類器都給出其預(yù)測結(jié)果励稳,最后根據(jù)各個分量分類器的判決結(jié)果選擇信息價值最大的記錄進(jìn)行修復(fù)。
(3)結(jié)果反饋和學(xué)習(xí)模型重訓(xùn)練囱井。在這個階段驹尼,眾包平臺上的工人對學(xué)習(xí)模型挑選出來的待標(biāo)記記錄進(jìn)行標(biāo)記,收集眾包平臺的結(jié)果庞呕,通過優(yōu)化算法得到已標(biāo)記記錄新翎。學(xué)習(xí)模型重新訓(xùn)練,去除掉那些已經(jīng)得到標(biāo)記的記錄住练,在剩下的記錄產(chǎn)生待標(biāo)記記錄集合地啰。
(4)循環(huán)訓(xùn)練。重復(fù)階段1~3讲逛,直到已經(jīng)達(dá)到一定準(zhǔn)確率Q髓绽,則數(shù)據(jù)集的修復(fù)完成。
5妆绞、實驗階段
????? 在實驗階段顺呕,本文將測試選擇最不確定的眾包記錄(uncertainty/entropy)方法的有效性,我們將其與隨機算法(random)和投票算 法(vote)對比括饶。在隨機算法中株茶,將隨機選擇記錄進(jìn)行眾包標(biāo)記;在投票算法中图焰,選擇占比最大的候選值作為真值启盛。
? ? ? 本文提出的眾包記錄最大不確定度選擇方法在二次迭代準(zhǔn)確率就超過了投票算法,而且準(zhǔn)確率隨著迭代次數(shù)的增加穩(wěn)步上升,可以看出我們采用最大熵方法作為最不確定的眾包記錄對比投票算法和隨機算法有很大的優(yōu)勢僵闯。