"眾包中的統(tǒng)計(jì)推斷與激勵機(jī)制" 主題報(bào)告速記與評述（三）

筆者按 ：機(jī)器學(xué)習(xí)正在走向基于“語義”的可解釋模型的新時代肥印。但在很多場合，例如“語義”驅(qū)動的監(jiān)督學(xué)習(xí)器在能夠達(dá)到更強(qiáng)泛化能力前绝葡，也還需要數(shù)據(jù)驅(qū)動型算法深碱，而后者的“養(yǎng)料”是標(biāo)注的大數(shù)據(jù)，周登勇博士的這個報(bào)告介紹了大數(shù)據(jù)標(biāo)注的關(guān)鍵技術(shù)藏畅。
其它評述鏈接在此敷硅。

概要

報(bào)告分兩個主要部分，并主要圍繞第二部分展開討論：

為什么需要眾包墓赴？
提升眾包質(zhì)量的策略：提出了基于眾包的標(biāo)記質(zhì)量和眾包動機(jī)兩個問題竞膳，并分別給出并介紹了統(tǒng)計(jì)推斷機(jī)制和激勵機(jī)制設(shè)計(jì)兩個解決方案。

1. 為什么需要眾包(Crowd-Sourcing)诫硕？

其實(shí)這個問題不如反過來問坦辟，比如為什么不用半監(jiān)督學(xué)習(xí)呢？為什么不用杉山將的弱監(jiān)督學(xué)習(xí)呢章办？為什么不用Dr. Fei-Sha 多任務(wù)學(xué)習(xí)(multi-task learning)锉走、領(lǐng)域適應(yīng)(domain adaptation)和零樣本學(xué)習(xí)(zero-shot learning)解決小數(shù)據(jù)問題呢？

周博士的回答是：基于眾包的標(biāo)注可以做到既省時間又省錢藕届，而且引用了ML領(lǐng)域的經(jīng)典Remark：“更多的數(shù)據(jù)可以打敗聰明的算法”挪蹭，并舉了一個10倍數(shù)據(jù)量+SVM性能超過1倍數(shù)據(jù)量+深度學(xué)習(xí)的例子。

個人注解：周博士的舉例說明數(shù)據(jù)可以打敗算法是正確的休偶，但是需要認(rèn)真考察上述說法所考慮的語境(context)梁厉。用一句話說：基于大規(guī)模標(biāo)注數(shù)據(jù)集的監(jiān)督學(xué)習(xí)不會被淘汰，但需要新的學(xué)習(xí)模式予以搭配，才能從根本上突破現(xiàn)有人工智能的范式和水平词顾。

具體展開來說：
?1. 標(biāo)注數(shù)據(jù)集是人類智能與監(jiān)督型機(jī)器智能之間的接口：數(shù)據(jù)驅(qū)動的算法尤其是監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)算法八秃，需要大規(guī)模的標(biāo)注數(shù)據(jù)，在能夠處理好過擬合的前提下肉盹，數(shù)據(jù)集當(dāng)然是數(shù)量越大昔驱、標(biāo)注質(zhì)量越高越好。
?2. 標(biāo)注數(shù)據(jù)集不是機(jī)器智能持續(xù)突破的解藥：在Dr.Fei博士的報(bào)告中我們已經(jīng)了解到上忍，帶標(biāo)簽的大數(shù)據(jù)不是萬能的骤肛，在實(shí)際情況中經(jīng)常會遇到，缺少語義的標(biāo)簽沒法解決小數(shù)據(jù)學(xué)習(xí)問題窍蓝。
? 3. 突破監(jiān)督學(xué)習(xí)才是智能突破的方向：類比教育學(xué)領(lǐng)域的學(xué)習(xí)理論腋颠，監(jiān)督學(xué)習(xí)類比為示教學(xué)習(xí)，而人類智能突破更重要的是自主學(xué)習(xí)和終生學(xué)習(xí)它抱，而后兩者均不依賴于完整的數(shù)據(jù)標(biāo)注(示教)秕豫。

請忽略我的評述，讓我們回到大規(guī)模數(shù)據(jù)集支撐的數(shù)據(jù)驅(qū)動監(jiān)督算法的“黃金時代”观蓄。下面進(jìn)入報(bào)告主要部分：如何提升基于眾包標(biāo)注數(shù)據(jù)集的質(zhì)量混移。

2. 提升基于眾包標(biāo)注數(shù)據(jù)集質(zhì)量的策略

2.1 問題：

標(biāo)注者水平不足(Lack of Expertise)
+ 標(biāo)注者動機(jī)不足(Lack of Incentive)
--> 含噪的標(biāo)注數(shù)據(jù)(Noised Labeled Data)
--> 可能導(dǎo)致低質(zhì)量(Low Quality)

因此，需要提升標(biāo)注水平和動機(jī)侮穿。前者的解決方案是采用合適的統(tǒng)計(jì)推斷方法歌径，后者的解決方案是設(shè)計(jì)合適的激勵機(jī)制。

2.2 眾包數(shù)據(jù)的統(tǒng)計(jì)推斷

如果每個數(shù)據(jù)只由一個非專業(yè)人士標(biāo)注亲茅，那么可以提升標(biāo)注水平的方式就很有限了回铛。報(bào)告在基于低成本標(biāo)注的前提下，允許多個非專業(yè)人士對同一個數(shù)據(jù)進(jìn)行標(biāo)注克锣，從而產(chǎn)生冗余性茵肃。

針對同一個數(shù)據(jù)的多個標(biāo)注，可以考慮投票機(jī)制：可以認(rèn)為每個標(biāo)注的質(zhì)量是平等的袭祟，但是很顯然验残，這只是個被“淘汰”的benchmark，除非沒有任何先驗(yàn)知識巾乳，沒必要采用這種方式您没。

于是周博士介紹了他們的工作[NIPS 2012]，算法更具體的介紹參考CCAI公眾號介紹胆绊，為了避免重復(fù)氨鹏，本文只做簡要回顧：
? 1. 基于極小極大熵原理(minimax conditional entropy method)建模優(yōu)化問題，里邊的極大是“用盡量無偏見的平坦的分布去擬合觀測數(shù)據(jù)”压状，外邊的極小是“最小化標(biāo)注者所引入的不確定性”仆抵。

MiniMaxEntropy-1

? 2. 迭代優(yōu)化：基于拉格朗日對偶法，一種最常用的凸優(yōu)化問題解法，其中的拉格朗日算子分別代表了標(biāo)注者能力(worker ability)和標(biāo)注難度(item difficulty)肢础。

個人注解
?1. 對算法的具體注解：這種拉格朗日分解法不僅能夠解決上述優(yōu)化問題还栓，還可以很方便地實(shí)現(xiàn)分布式的迭代優(yōu)化算法碌廓，基于通信媒介和局部信息交換實(shí)現(xiàn)分布式標(biāo)注传轰。因此，報(bào)告中的方法可以在分布式標(biāo)注(人)谷婆、多學(xué)習(xí)器系統(tǒng)(機(jī))和人-機(jī)混合標(biāo)注系統(tǒng)中推廣使用慨蛙，我的小組在做類似的工作。
?2. 對宏觀設(shè)計(jì)的注解：從信息論與編碼的角度理解纪挎，每次標(biāo)注可以理解為對真實(shí)信息的一次編碼(encoding)期贫。盡管每次觀測或編碼都是有噪的，但只要有先驗(yàn)知識异袄，就可以通過合適方法從每次標(biāo)注中獲取一定的有用信息量通砍，設(shè)計(jì)比“平均投票”更好的信息融合機(jī)制，從而獲得比單次解碼(decoding)更好的性能烤蜕。
? 3. 最小最大化熵[NIPS 2012]不是的唯一選擇封孙。面向不同場景，還可以設(shè)計(jì)對應(yīng)的算法解決新問題讽营。當(dāng)然虎忌，最小最大化熵作為普遍適用的方法也可以解決很多別的問題。比如橱鹏，我們也在做多時間切片的longitudinal數(shù)據(jù)集中常見的attrition問題膜蠢。

2.3 眾包的激勵機(jī)制設(shè)計(jì)

首先明確，眾包的激勵機(jī)制不是純粹的機(jī)器學(xué)習(xí)問題了莉兰，而是商業(yè)問題挑围，或者說博弈問題。眾包的標(biāo)注需求方可以設(shè)計(jì)獎懲規(guī)則(Rules)糖荒，從而影響標(biāo)注提供方的趨利行為(behaviour)杉辙，而這個博弈問題存在一個對抗：
? 1. 需求方希望盡量“少付出資金投入，多得到優(yōu)質(zhì)標(biāo)注”
? 2. 提供方希望盡量“少付出標(biāo)注勞力寂嘉，多得到資金回報(bào)”

為了解決上述問題奏瞬，報(bào)告提出了兩個樸素準(zhǔn)則：
? 1. "真實(shí)"（truthful）準(zhǔn)則：引導(dǎo)標(biāo)注提供方，只在有足夠的自信前提下才提供標(biāo)注泉孩。
? 2. "沒有免費(fèi)午餐"（no-free-lunch）準(zhǔn)則：如果標(biāo)注提供方所作的標(biāo)注都是錯的硼端，就不給任何回報(bào)。

并且證明了"Double-or-Nothing"規(guī)則是唯一滿足上述兩個樸素準(zhǔn)則的獎懲規(guī)則 寓搬，具體參見[NIPS 2015]珍昨。

double-or-nothing

個人注解
既然是唯一滿足兩個基本樸素原則的獎懲規(guī)則，那么就皆大歡喜了？個人認(rèn)為并不是镣典，回顧報(bào)告所考慮場景所作的假設(shè)：而標(biāo)注需求者是唯一的兔毙，標(biāo)注提供者是足夠的，并且標(biāo)注提供者之間沒有溝通兄春。那么澎剥，如果考慮兩個上述假設(shè)不成立的場景：
?1. 標(biāo)注提供者是相對稀有的(比如專業(yè)性較高的標(biāo)注任務(wù))，而且標(biāo)注需求者不是唯一的赶舆，因此存在競爭關(guān)系哑姚。
?2. 標(biāo)注提供者之間可以溝通，形成某種松散的或緊密的組織芜茵。

問題變得很open了叙量。因此，還有許多值得一做的有趣工作九串。

主要參考文獻(xiàn)

[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing

最后編輯于：2017.12.11 08:03:01

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末绞佩，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子猪钮，更是在濱河造成了極大的恐慌品山，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件躬贡，死亡現(xiàn)場離奇詭異谆奥，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)拂玻，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門酸些，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人檐蚜，你說我怎么就攤上這事魄懂。” “怎么了闯第？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵市栗，是天一觀的道長。經(jīng)常有香客問我咳短，道長填帽，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任咙好，我火速辦了婚禮篡腌，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘勾效。我一直安慰自己嘹悼，他們只是感情好叛甫，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著杨伙，像睡著了一般其监。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上限匣，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天抖苦，我揣著相機(jī)與錄音，去河邊找鬼膛腐。笑死睛约，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的哲身。我是一名探鬼主播，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼贸伐，長吁一口氣：“原來是場噩夢啊……” “哼勘天！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起捉邢，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤脯丝，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后伏伐，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體宠进，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年藐翎，在試婚紗的時候發(fā)現(xiàn)自己被綠了材蹬。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡吝镣，死狀恐怖堤器，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情末贾，我是刑警寧澤闸溃，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站拱撵，受9級特大地震影響辉川，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拴测，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一乓旗、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧昼扛，春花似錦寸齐、人聲如沸欲诺。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案渺鹦，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽扰法。三九已至，卻和暖如春毅厚，著一層夾襖步出監(jiān)牢的瞬間塞颁，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工吸耿，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祠锣，地道東北人。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓咽安，卻偏偏與公主長得像伴网，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子妆棒，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評論 2贊 354