論文閱讀筆記(一)

文章題目:眾包質(zhì)量控制算法及評(píng)價(jià)框架研究

作者:唐思

論文類型:浙江大學(xué)碩士學(xué)位論文

專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)

所在學(xué)院:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

文章主要內(nèi)容

1、針對(duì)平臺(tái)的工作者們可能缺乏必要的專業(yè)知識(shí)、存在偏見或者被惡意因素所驅(qū)使而造成低質(zhì)量甚至完全錯(cuò)誤的眾包結(jié)果這一現(xiàn)象暖侨,本文提出一種兩階段基于工作者過濾和期望最大化的質(zhì)量控制算法。
2支竹、由于現(xiàn)今的研究缺乏統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)和評(píng)價(jià)指標(biāo),本文提出了眾包質(zhì)量控制算法的通用評(píng)價(jià)框架鸠按,并提出了任務(wù)分配礼搁、惡意工作者比例、答案位置分布等多種評(píng)價(jià)因素目尖。
3馒吴、在該評(píng)價(jià)框架下實(shí)現(xiàn)了基于工作者過濾和期望最大化的質(zhì)量控制算法以及幾種現(xiàn)有的對(duì)比算法,并通過大規(guī)模模擬和在線實(shí)驗(yàn)卑雁,驗(yàn)證了本文提出的算法的有效性和魯棒性募书,同時(shí)還通過對(duì)比實(shí)驗(yàn)指出了其他算法存在的問題绪囱。

學(xué)習(xí)點(diǎn)

此次主要學(xué)習(xí)該論文的實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果分析部分测蹲。

實(shí)驗(yàn)設(shè)計(jì)

算法和評(píng)價(jià)系統(tǒng)的實(shí)現(xiàn)是在Java環(huán)境下運(yùn)行的,開發(fā)環(huán)境的操作系統(tǒng)為Windows 8鬼吵,64位扣甲。主要使用的軟件工具有:Eclipse, Tomcat, Mysql。開發(fā)的硬件環(huán)境齿椅,CPU為Intel Core i3雙核3.1 QGhz琉挖,內(nèi)存為4GB DDR3。運(yùn)行和比較算法效果的實(shí)驗(yàn)環(huán)境為具有4個(gè)Intel E7420 2.13 Ghz涣脚,16核示辈,64GB內(nèi)存的Debian服務(wù)器上。

系統(tǒng)參數(shù)配置

實(shí)驗(yàn)中所用的數(shù)據(jù)集均來自于維基百科和IMDB的數(shù)據(jù)遣蚀,并經(jīng)過人工核實(shí)后用于生成題目矾麻。實(shí)際發(fā)布在AMT平臺(tái)上的題目如下圖所示。

AMT平臺(tái)題目示例

實(shí)驗(yàn)結(jié)果分析

隨機(jī)選取了多次不同任務(wù)的在線實(shí)驗(yàn)的數(shù)據(jù)芭梯,并對(duì)其中的應(yīng)答時(shí)間進(jìn)行了統(tǒng)計(jì)分析险耀。

在線應(yīng)答時(shí)間及參數(shù)模擬
算法準(zhǔn)確率

由該表數(shù)據(jù),我們可以得到結(jié)論玖喘,F(xiàn)ilter和ExpFilter兩種算法都改進(jìn)了傳統(tǒng)EM算法甩牺,同時(shí)其效果在大部分情況下都超過了傳統(tǒng)的EM算法。除此之外累奈,存在隱式反饋的Filter算法的確要ExpFilter算法效果要好贬派,這證明了隱式反饋對(duì)于工作者過濾確實(shí)是有效可行的急但。

下圖展示了在模擬實(shí)驗(yàn)的雙標(biāo)簽任務(wù)中,幾乎所有算法的效果都隨著冗余工作者數(shù)目的增多而變好赠群。

雙標(biāo)簽任務(wù)冗余對(duì)準(zhǔn)確率的影響

如下圖所示羊始,我們可以發(fā)現(xiàn)隨著冗余的增多,算法對(duì)于工作者的估計(jì)越來越準(zhǔn)確查描,這使得聚合答案的準(zhǔn)確率逐漸升高突委。

冗余對(duì)工作者估計(jì)影響

綜上所述,我們可以得到結(jié)論冬三,冗余答案越多匀油,算法對(duì)于用戶質(zhì)量估計(jì)以及聚合答案的估計(jì)越準(zhǔn)確。

我們還發(fā)現(xiàn)勾笆,在線實(shí)驗(yàn)中敌蚜,當(dāng)我們?cè)黾尤哂喙ぷ髡邤?shù)目時(shí)(例如在下圖中從7增加到9),算法的準(zhǔn)確率并不一定提升窝爪。這是因?yàn)檎鎸?shí)數(shù)據(jù)中用戶質(zhì)量是變化的弛车,因此更多的冗余答案不一定保證更高的準(zhǔn)確率。


雙標(biāo)簽任務(wù)冗余對(duì)準(zhǔn)確率的影響

總體來說蒲每,惡意用戶率較高纷跛,幾乎所有算法準(zhǔn)確率都受到了影響。其中ELICE和多數(shù)表決算法下降的比其他算法要快邀杏,而我們提出的Filter受到影響較小贫奠,CDAS和EM算法其次。如下圖所示望蜡。

惡意用戶比例的影響


總結(jié)

主要學(xué)習(xí)本文的實(shí)驗(yàn)設(shè)計(jì)部分唤崭,包括數(shù)據(jù)集的采集、題目的設(shè)計(jì)脖律、任務(wù)的分配以及實(shí)驗(yàn)結(jié)果的分析谢肾,為自己設(shè)計(jì)實(shí)驗(yàn)方案提供一些參考。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末小泉,一起剝皮案震驚了整個(gè)濱河市芦疏,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌膏孟,老刑警劉巖眯分,帶你破解...
    沈念sama閱讀 212,454評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異柒桑,居然都是意外死亡弊决,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來飘诗,“玉大人与倡,你說我怎么就攤上這事±ジ澹” “怎么了纺座?”我有些...
    開封第一講書人閱讀 157,921評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)溉潭。 經(jīng)常有香客問我净响,道長(zhǎng),這世上最難降的妖魔是什么喳瓣? 我笑而不...
    開封第一講書人閱讀 56,648評(píng)論 1 284
  • 正文 為了忘掉前任馋贤,我火速辦了婚禮,結(jié)果婚禮上畏陕,老公的妹妹穿的比我還像新娘配乓。我一直安慰自己,他們只是感情好惠毁,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,770評(píng)論 6 386
  • 文/花漫 我一把揭開白布犹芹。 她就那樣靜靜地躺著,像睡著了一般鞠绰。 火紅的嫁衣襯著肌膚如雪腰埂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,950評(píng)論 1 291
  • 那天洞豁,我揣著相機(jī)與錄音盐固,去河邊找鬼荒给。 笑死丈挟,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的志电。 我是一名探鬼主播曙咽,決...
    沈念sama閱讀 39,090評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼挑辆!你這毒婦竟也來了例朱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤鱼蝉,失蹤者是張志新(化名)和其女友劉穎洒嗤,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體魁亦,經(jīng)...
    沈念sama閱讀 44,275評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡渔隶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,592評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片间唉。...
    茶點(diǎn)故事閱讀 38,724評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡绞灼,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出呈野,到底是詐尸還是另有隱情低矮,我是刑警寧澤,帶...
    沈念sama閱讀 34,409評(píng)論 4 333
  • 正文 年R本政府宣布被冒,位于F島的核電站军掂,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏昨悼。R本人自食惡果不足惜良姆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,052評(píng)論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望幔戏。 院中可真熱鬧玛追,春花似錦、人聲如沸闲延。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)垒玲。三九已至陆馁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間合愈,已是汗流浹背叮贩。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評(píng)論 1 266
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留佛析,地道東北人益老。 一個(gè)月前我還...
    沈念sama閱讀 46,503評(píng)論 2 361
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像寸莫,于是被迫代替她去往敵國(guó)和親捺萌。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,627評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容