筆者按 :機(jī)器學(xué)習(xí)正在走向基于“語義”的可解釋模型的新時代肥印。但在很多場合,例如“語義”驅(qū)動的監(jiān)督學(xué)習(xí)器在能夠達(dá)到更強(qiáng)泛化能力前绝葡,也還需要數(shù)據(jù)驅(qū)動型算法深碱,而后者的“養(yǎng)料”是標(biāo)注的大數(shù)據(jù),周登勇博士的這個報(bào)告介紹了大數(shù)據(jù)標(biāo)注的關(guān)鍵技術(shù)藏畅。
其它評述鏈接在此敷硅。
概要
報(bào)告分兩個主要部分,并主要圍繞第二部分展開討論:
- 為什么需要眾包墓赴?
- 提升眾包質(zhì)量的策略:提出了基于眾包的標(biāo)記質(zhì)量和眾包動機(jī)兩個問題竞膳,并分別給出并介紹了統(tǒng)計(jì)推斷機(jī)制和激勵機(jī)制設(shè)計(jì)兩個解決方案。
1. 為什么需要眾包(Crowd-Sourcing)诫硕?
其實(shí)這個問題不如反過來問坦辟,比如為什么不用半監(jiān)督學(xué)習(xí)呢?為什么不用杉山將的弱監(jiān)督學(xué)習(xí)呢章办?為什么不用Dr. Fei-Sha 多任務(wù)學(xué)習(xí)(multi-task learning)锉走、領(lǐng)域適應(yīng)(domain adaptation)和零樣本學(xué)習(xí)(zero-shot learning)解決小數(shù)據(jù)問題呢?
周博士的回答是:基于眾包的標(biāo)注可以做到既省時間又省錢藕届,而且引用了ML領(lǐng)域的經(jīng)典Remark:“更多的數(shù)據(jù)可以打敗聰明的算法”挪蹭,并舉了一個10倍數(shù)據(jù)量+SVM性能超過1倍數(shù)據(jù)量+深度學(xué)習(xí)的例子。
個人注解:周博士的舉例說明數(shù)據(jù)可以打敗算法是正確的休偶,但是需要認(rèn)真考察上述說法所考慮的語境(context)梁厉。用一句話說:基于大規(guī)模標(biāo)注數(shù)據(jù)集的監(jiān)督學(xué)習(xí)不會被淘汰,但需要新的學(xué)習(xí)模式予以搭配,才能從根本上突破現(xiàn)有人工智能的范式和水平词顾。
具體展開來說:
?1. 標(biāo)注數(shù)據(jù)集是人類智能與監(jiān)督型機(jī)器智能之間的接口:數(shù)據(jù)驅(qū)動的算法尤其是監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)算法八秃,需要大規(guī)模的標(biāo)注數(shù)據(jù),在能夠處理好過擬合的前提下肉盹,數(shù)據(jù)集當(dāng)然是數(shù)量越大昔驱、標(biāo)注質(zhì)量越高越好。
?2. 標(biāo)注數(shù)據(jù)集不是機(jī)器智能持續(xù)突破的解藥:在Dr.Fei博士的報(bào)告中我們已經(jīng)了解到上忍,帶標(biāo)簽的大數(shù)據(jù)不是萬能的骤肛,在實(shí)際情況中經(jīng)常會遇到,缺少語義的標(biāo)簽沒法解決小數(shù)據(jù)學(xué)習(xí)問題窍蓝。
? 3. 突破監(jiān)督學(xué)習(xí)才是智能突破的方向:類比教育學(xué)領(lǐng)域的學(xué)習(xí)理論腋颠,監(jiān)督學(xué)習(xí)類比為示教學(xué)習(xí),而人類智能突破更重要的是自主學(xué)習(xí)和終生學(xué)習(xí)它抱,而后兩者均不依賴于完整的數(shù)據(jù)標(biāo)注(示教)秕豫。
請忽略我的評述,讓我們回到大規(guī)模數(shù)據(jù)集支撐的數(shù)據(jù)驅(qū)動監(jiān)督算法的“黃金時代”观蓄。下面進(jìn)入報(bào)告主要部分:如何提升基于眾包標(biāo)注數(shù)據(jù)集的質(zhì)量混移。
2. 提升基于眾包標(biāo)注數(shù)據(jù)集質(zhì)量的策略
2.1 問題:
標(biāo)注者水平不足(Lack of Expertise)
+ 標(biāo)注者動機(jī)不足(Lack of Incentive)
--> 含噪的標(biāo)注數(shù)據(jù)(Noised Labeled Data)
--> 可能導(dǎo)致低質(zhì)量(Low Quality)
因此,需要提升標(biāo)注水平和動機(jī)侮穿。前者的解決方案是采用合適的統(tǒng)計(jì)推斷方法歌径,后者的解決方案是設(shè)計(jì)合適的激勵機(jī)制。
2.2 眾包數(shù)據(jù)的統(tǒng)計(jì)推斷
如果每個數(shù)據(jù)只由一個非專業(yè)人士標(biāo)注亲茅,那么可以提升標(biāo)注水平的方式就很有限了回铛。報(bào)告在基于低成本標(biāo)注的前提下,允許多個非專業(yè)人士對同一個數(shù)據(jù)進(jìn)行標(biāo)注克锣,從而產(chǎn)生冗余性茵肃。
針對同一個數(shù)據(jù)的多個標(biāo)注,可以考慮投票機(jī)制:可以認(rèn)為每個標(biāo)注的質(zhì)量是平等的袭祟,但是很顯然验残,這只是個被“淘汰”的benchmark,除非沒有任何先驗(yàn)知識巾乳,沒必要采用這種方式您没。
于是周博士介紹了他們的工作[NIPS 2012],算法更具體的介紹參考CCAI公眾號介紹胆绊,為了避免重復(fù)氨鹏,本文只做簡要回顧:
? 1. 基于極小極大熵原理(minimax conditional entropy method)建模優(yōu)化問題,里邊的極大是“用盡量無偏見的平坦的分布去擬合觀測數(shù)據(jù)”压状,外邊的極小是“最小化標(biāo)注者所引入的不確定性”仆抵。
? 2. 迭代優(yōu)化:基于拉格朗日對偶法,一種最常用的凸優(yōu)化問題解法,其中的拉格朗日算子分別代表了標(biāo)注者能力(worker ability)和標(biāo)注難度(item difficulty)肢础。
個人注解
?1. 對算法的具體注解:這種拉格朗日分解法不僅能夠解決上述優(yōu)化問題还栓,還可以很方便地實(shí)現(xiàn)分布式的迭代優(yōu)化算法碌廓,基于通信媒介和局部信息交換實(shí)現(xiàn)分布式標(biāo)注传轰。因此,報(bào)告中的方法可以在分布式標(biāo)注(人)谷婆、多學(xué)習(xí)器系統(tǒng)(機(jī))和人-機(jī)混合標(biāo)注系統(tǒng)中推廣使用慨蛙,我的小組在做類似的工作。
?2. 對宏觀設(shè)計(jì)的注解:從信息論與編碼的角度理解纪挎,每次標(biāo)注可以理解為對真實(shí)信息的一次編碼(encoding)期贫。盡管每次觀測或編碼都是有噪的,但只要有先驗(yàn)知識异袄,就可以通過合適方法從每次標(biāo)注中獲取一定的有用信息量通砍,設(shè)計(jì)比“平均投票”更好的信息融合機(jī)制,從而獲得比單次解碼(decoding)更好的性能烤蜕。
? 3. 最小最大化熵[NIPS 2012]不是的唯一選擇封孙。面向不同場景,還可以設(shè)計(jì)對應(yīng)的算法解決新問題讽营。當(dāng)然虎忌,最小最大化熵作為普遍適用的方法也可以解決很多別的問題。比如橱鹏,我們也在做多時間切片的longitudinal數(shù)據(jù)集中常見的attrition問題膜蠢。
2.3 眾包的激勵機(jī)制設(shè)計(jì)
首先明確,眾包的激勵機(jī)制不是純粹的機(jī)器學(xué)習(xí)問題了莉兰,而是商業(yè)問題挑围,或者說博弈問題。眾包的標(biāo)注需求方可以設(shè)計(jì)獎懲規(guī)則(Rules)糖荒,從而影響標(biāo)注提供方的趨利行為(behaviour)杉辙,而這個博弈問題存在一個對抗:
? 1. 需求方希望盡量“少付出資金投入,多得到優(yōu)質(zhì)標(biāo)注”
? 2. 提供方希望盡量“少付出標(biāo)注勞力寂嘉,多得到資金回報(bào)”
為了解決上述問題奏瞬,報(bào)告提出了兩個樸素準(zhǔn)則:
? 1. "真實(shí)"(truthful)準(zhǔn)則:引導(dǎo)標(biāo)注提供方,只在有足夠的自信前提下才提供標(biāo)注泉孩。
? 2. "沒有免費(fèi)午餐"(no-free-lunch)準(zhǔn)則:如果標(biāo)注提供方所作的標(biāo)注都是錯的硼端,就不給任何回報(bào)。
并且證明了"Double-or-Nothing"規(guī)則是唯一滿足上述兩個樸素準(zhǔn)則的獎懲規(guī)則 寓搬,具體參見[NIPS 2015]珍昨。
個人注解
既然是唯一滿足兩個基本樸素原則的獎懲規(guī)則,那么就皆大歡喜了?個人認(rèn)為并不是镣典,回顧報(bào)告所考慮場景所作的假設(shè):而標(biāo)注需求者是唯一的兔毙,標(biāo)注提供者是足夠的,并且標(biāo)注提供者之間沒有溝通兄春。那么澎剥,如果考慮兩個上述假設(shè)不成立的場景:
?1. 標(biāo)注提供者是相對稀有的(比如專業(yè)性較高的標(biāo)注任務(wù)),而且標(biāo)注需求者不是唯一的赶舆,因此存在競爭關(guān)系哑姚。
?2. 標(biāo)注提供者之間可以溝通,形成某種松散的或緊密的組織芜茵。
問題變得很open了叙量。因此,還有許多值得一做的有趣工作九串。
主要參考文獻(xiàn)
[NIPS 2012] Learning from the wisdom of crowds by minimax entropy
[NIPS 2015] Double or Nothing: Multiplicative Incentive Mechanisms for Crowdsourcing