"眾包中的統(tǒng)計(jì)推斷與激勵機(jī)制" 主題報(bào)告速記與評述(三)

筆者按 :機(jī)器學(xué)習(xí)正在走向基于“語義”的可解釋模型的新時代肥印。但在很多場合,例如“語義”驅(qū)動的監(jiān)督學(xué)習(xí)器在能夠達(dá)到更強(qiáng)泛化能力前绝葡,也還需要數(shù)據(jù)驅(qū)動型算法深碱,而后者的“養(yǎng)料”是標(biāo)注的大數(shù)據(jù),周登勇博士的這個報(bào)告介紹了大數(shù)據(jù)標(biāo)注的關(guān)鍵技術(shù)藏畅。
其它評述鏈接在此敷硅。

概要

報(bào)告分兩個主要部分,并主要圍繞第二部分展開討論:

  1. 為什么需要眾包墓赴?
  2. 提升眾包質(zhì)量的策略:提出了基于眾包的標(biāo)記質(zhì)量和眾包動機(jī)兩個問題竞膳,并分別給出并介紹了統(tǒng)計(jì)推斷機(jī)制和激勵機(jī)制設(shè)計(jì)兩個解決方案。

1. 為什么需要眾包(Crowd-Sourcing)诫硕?

其實(shí)這個問題不如反過來問坦辟,比如為什么不用半監(jiān)督學(xué)習(xí)呢?為什么不用杉山將的弱監(jiān)督學(xué)習(xí)呢章办?為什么不用Dr. Fei-Sha 多任務(wù)學(xué)習(xí)(multi-task learning)锉走、領(lǐng)域適應(yīng)(domain adaptation)和零樣本學(xué)習(xí)(zero-shot learning)解決小數(shù)據(jù)問題呢?

周博士的回答是:基于眾包的標(biāo)注可以做到既省時間又省錢藕届,而且引用了ML領(lǐng)域的經(jīng)典Remark:“更多的數(shù)據(jù)可以打敗聰明的算法”挪蹭,并舉了一個10倍數(shù)據(jù)量+SVM性能超過1倍數(shù)據(jù)量+深度學(xué)習(xí)的例子。

個人注解:周博士的舉例說明數(shù)據(jù)可以打敗算法是正確的休偶,但是需要認(rèn)真考察上述說法所考慮的語境(context)梁厉。用一句話說:基于大規(guī)模標(biāo)注數(shù)據(jù)集的監(jiān)督學(xué)習(xí)不會被淘汰,但需要新的學(xué)習(xí)模式予以搭配,才能從根本上突破現(xiàn)有人工智能的范式和水平词顾。

具體展開來說
?1. 標(biāo)注數(shù)據(jù)集是人類智能與監(jiān)督型機(jī)器智能之間的接口:數(shù)據(jù)驅(qū)動的算法尤其是監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)算法八秃,需要大規(guī)模的標(biāo)注數(shù)據(jù),在能夠處理好過擬合的前提下肉盹,數(shù)據(jù)集當(dāng)然是數(shù)量越大昔驱、標(biāo)注質(zhì)量越高越好。
?2. 標(biāo)注數(shù)據(jù)集不是機(jī)器智能持續(xù)突破的解藥:在Dr.Fei博士的報(bào)告中我們已經(jīng)了解到上忍,帶標(biāo)簽的大數(shù)據(jù)不是萬能的骤肛,在實(shí)際情況中經(jīng)常會遇到,缺少語義的標(biāo)簽沒法解決小數(shù)據(jù)學(xué)習(xí)問題窍蓝。
? 3. 突破監(jiān)督學(xué)習(xí)才是智能突破的方向:類比教育學(xué)領(lǐng)域的學(xué)習(xí)理論腋颠,監(jiān)督學(xué)習(xí)類比為示教學(xué)習(xí),而人類智能突破更重要的是自主學(xué)習(xí)和終生學(xué)習(xí)它抱,而后兩者均不依賴于完整的數(shù)據(jù)標(biāo)注(示教)秕豫。

請忽略我的評述,讓我們回到大規(guī)模數(shù)據(jù)集支撐的數(shù)據(jù)驅(qū)動監(jiān)督算法的“黃金時代”观蓄。下面進(jìn)入報(bào)告主要部分:如何提升基于眾包標(biāo)注數(shù)據(jù)集的質(zhì)量混移。

2. 提升基于眾包標(biāo)注數(shù)據(jù)集質(zhì)量的策略

2.1 問題:

標(biāo)注者水平不足(Lack of Expertise)
+ 標(biāo)注者動機(jī)不足(Lack of Incentive)
--> 含噪的標(biāo)注數(shù)據(jù)(Noised Labeled Data)
--> 可能導(dǎo)致低質(zhì)量(Low Quality)

因此,需要提升標(biāo)注水平和動機(jī)侮穿。前者的解決方案是采用合適的統(tǒng)計(jì)推斷方法歌径,后者的解決方案是設(shè)計(jì)合適的激勵機(jī)制。

2.2 眾包數(shù)據(jù)的統(tǒng)計(jì)推斷

如果每個數(shù)據(jù)只由一個非專業(yè)人士標(biāo)注亲茅,那么可以提升標(biāo)注水平的方式就很有限了回铛。報(bào)告在基于低成本標(biāo)注的前提下,允許多個非專業(yè)人士對同一個數(shù)據(jù)進(jìn)行標(biāo)注克锣,從而產(chǎn)生冗余性茵肃。

針對同一個數(shù)據(jù)的多個標(biāo)注,可以考慮投票機(jī)制:可以認(rèn)為每個標(biāo)注的質(zhì)量是平等的袭祟,但是很顯然验残,這只是個被“淘汰”的benchmark,除非沒有任何先驗(yàn)知識巾乳,沒必要采用這種方式您没。

于是周博士介紹了他們的工作[NIPS 2012],算法更具體的介紹參考CCAI公眾號介紹胆绊,為了避免重復(fù)氨鹏,本文只做簡要回顧:
? 1. 基于極小極大熵原理(minimax conditional entropy method)建模優(yōu)化問題,里邊的極大是“用盡量無偏見的平坦的分布去擬合觀測數(shù)據(jù)”压状,外邊的極小是“最小化標(biāo)注者所引入的不確定性”仆抵。

MiniMaxEntropy-1

? 2. 迭代優(yōu)化:基于拉格朗日對偶法,一種最常用的凸優(yōu)化問題解法,其中的拉格朗日算子分別代表了標(biāo)注者能力(worker ability)和標(biāo)注難度(item difficulty)肢础。

個人注解
?1. 對算法的具體注解:這種拉格朗日分解法不僅能夠解決上述優(yōu)化問題还栓,還可以很方便地實(shí)現(xiàn)分布式的迭代優(yōu)化算法碌廓,基于通信媒介和局部信息交換實(shí)現(xiàn)分布式標(biāo)注传轰。因此,報(bào)告中的方法可以在分布式標(biāo)注(人)谷婆、多學(xué)習(xí)器系統(tǒng)(機(jī))和人-機(jī)混合標(biāo)注系統(tǒng)中推廣使用慨蛙,我的小組在做類似的工作。
?2. 對宏觀設(shè)計(jì)的注解:從信息論與編碼的角度理解纪挎,每次標(biāo)注可以理解為對真實(shí)信息的一次編碼(encoding)期贫。盡管每次觀測或編碼都是有噪的,但只要有先驗(yàn)知識异袄,就可以通過合適方法從每次標(biāo)注中獲取一定的有用信息量通砍,設(shè)計(jì)比“平均投票”更好的信息融合機(jī)制,從而獲得比單次解碼(decoding)更好的性能烤蜕。
? 3. 最小最大化熵[NIPS 2012]不是的唯一選擇封孙。面向不同場景,還可以設(shè)計(jì)對應(yīng)的算法解決新問題讽营。當(dāng)然虎忌,最小最大化熵作為普遍適用的方法也可以解決很多別的問題。比如橱鹏,我們也在做多時間切片的longitudinal數(shù)據(jù)集中常見的attrition問題膜蠢。

2.3 眾包的激勵機(jī)制設(shè)計(jì)

首先明確,眾包的激勵機(jī)制不是純粹的機(jī)器學(xué)習(xí)問題了莉兰,而是商業(yè)問題挑围,或者說博弈問題。眾包的標(biāo)注需求方可以設(shè)計(jì)獎懲規(guī)則(Rules)糖荒,從而影響標(biāo)注提供方的趨利行為(behaviour)杉辙,而這個博弈問題存在一個對抗:
? 1. 需求方希望盡量“少付出資金投入,多得到優(yōu)質(zhì)標(biāo)注”
? 2. 提供方希望盡量“少付出標(biāo)注勞力寂嘉,多得到資金回報(bào)”

為了解決上述問題奏瞬,報(bào)告提出了兩個樸素準(zhǔn)則:
? 1. "真實(shí)"(truthful)準(zhǔn)則:引導(dǎo)標(biāo)注提供方,只在有足夠的自信前提下才提供標(biāo)注泉孩。
? 2. "沒有免費(fèi)午餐"(no-free-lunch)準(zhǔn)則:如果標(biāo)注提供方所作的標(biāo)注都是錯的硼端,就不給任何回報(bào)。

并且證明了"Double-or-Nothing"規(guī)則是唯一滿足上述兩個樸素準(zhǔn)則的獎懲規(guī)則 寓搬,具體參見[NIPS 2015]珍昨。

double-or-nothing

個人注解
既然是唯一滿足兩個基本樸素原則的獎懲規(guī)則,那么就皆大歡喜了?個人認(rèn)為并不是镣典,回顧報(bào)告所考慮場景所作的假設(shè):而標(biāo)注需求者是唯一的兔毙,標(biāo)注提供者是足夠的,并且標(biāo)注提供者之間沒有溝通兄春。那么澎剥,如果考慮兩個上述假設(shè)不成立的場景:
?1. 標(biāo)注提供者是相對稀有的(比如專業(yè)性較高的標(biāo)注任務(wù)),而且標(biāo)注需求者不是唯一的赶舆,因此存在競爭關(guān)系哑姚。
?2. 標(biāo)注提供者之間可以溝通,形成某種松散的或緊密的組織芜茵。

問題變得很open了叙量。因此,還有許多值得一做的有趣工作九串。

主要參考文獻(xiàn)

[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绞佩,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子猪钮,更是在濱河造成了極大的恐慌品山,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件躬贡,死亡現(xiàn)場離奇詭異谆奥,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)拂玻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門酸些,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人檐蚜,你說我怎么就攤上這事魄懂。” “怎么了闯第?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵市栗,是天一觀的道長。 經(jīng)常有香客問我咳短,道長填帽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任咙好,我火速辦了婚禮篡腌,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘勾效。我一直安慰自己嘹悼,他們只是感情好叛甫,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著杨伙,像睡著了一般其监。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上限匣,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天抖苦,我揣著相機(jī)與錄音,去河邊找鬼膛腐。 笑死睛约,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的哲身。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贸伐,長吁一口氣:“原來是場噩夢啊……” “哼勘天!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捉邢,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤脯丝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后伏伐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宠进,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年藐翎,在試婚紗的時候發(fā)現(xiàn)自己被綠了材蹬。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡吝镣,死狀恐怖堤器,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情末贾,我是刑警寧澤闸溃,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站拱撵,受9級特大地震影響辉川,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拴测,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一乓旗、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧昼扛,春花似錦寸齐、人聲如沸欲诺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扰法。三九已至,卻和暖如春毅厚,著一層夾襖步出監(jiān)牢的瞬間塞颁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工吸耿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祠锣,地道東北人。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓咽安,卻偏偏與公主長得像伴网,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子妆棒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容