眾所周知诡壁,深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)和高效的運(yùn)算來做支撐触机。
計(jì)算資源只要從黃老板的公司訂購就可以了,但大規(guī)模的高質(zhì)量有標(biāo)記數(shù)據(jù)卻不是那么容易獲得削锰,讓科研人員頭疼不已通铲。
應(yīng)用時(shí)代而生的就是一大批數(shù)據(jù)眾包公司和平臺。正好借著一個(gè)數(shù)據(jù)眾包任務(wù)器贩,對于國內(nèi)的數(shù)據(jù)標(biāo)注公司服務(wù)有了更深一步的了解颅夺。
原文發(fā)布于個(gè)人博客(好望角),那里有更好的閱讀體驗(yàn)蛹稍。
伴隨著AI興起的最關(guān)鍵的技術(shù)莫過于深度學(xué)習(xí)碗啄,作為深度學(xué)習(xí)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法稳摄,其結(jié)果的準(zhǔn)確性取決于接近“無窮”量級的數(shù)據(jù)稚字。
所以摒除那些復(fù)雜的中間環(huán)節(jié),深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練厦酬,這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代胆描,AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前仗阅,又必須先對大量的數(shù)據(jù)進(jìn)行標(biāo)注昌讲,作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。
因此减噪,催生了大量數(shù)據(jù)標(biāo)注公司的誕生短绸。
什么是數(shù)據(jù)標(biāo)注
要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能筹裕。
回想一下我們是如何學(xué)習(xí)的醋闭,例如我們學(xué)習(xí)認(rèn)識蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你朝卒,這是一個(gè)蘋果证逻。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”抗斤。類比機(jī)器學(xué)習(xí)囚企,我們要教他認(rèn)識一個(gè)蘋果丈咐,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的龙宏。我們得先有蘋果的圖片棵逊,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征银酗,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片辆影,它就能認(rèn)出來了。
根據(jù)應(yīng)用場景的不同花吟,數(shù)據(jù)標(biāo)注有許多類型秸歧。大體上分為圖像、語音衅澈、自然語言三大類键菱。
其中由于圖像研究領(lǐng)域的水文熱潮,圖像標(biāo)注的任務(wù)也尤為眾多今布。经备。。無人駕駛部默、人臉識別侵蒙、物體檢測……
語音和語言相對來說,數(shù)據(jù)標(biāo)注難度更大一點(diǎn)傅蹂。價(jià)格也相對高昂一些纷闺。
在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對數(shù)據(jù)進(jìn)行清洗份蝴,得到符合我們要求的數(shù)據(jù)犁功。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等婚夫。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)浸卦。
眾包標(biāo)注的困難
眾包標(biāo)注由于是非專業(yè)標(biāo)注,自然會遇到很多問題案糙。這困難主要由以下三個(gè)方面組成:
- 標(biāo)注者的水平
由于標(biāo)注者是眾包標(biāo)注限嫌,因此其標(biāo)注者的水平也參差不齊,其背景知識和行為習(xí)慣可能有較大的差異时捌。這就相當(dāng)于是給若干個(gè)已訓(xùn)練好的模型來做預(yù)測一樣怒医,其不同的模型有不同的輸出結(jié)果。那么這種情況下匣椰,基本上使用多數(shù)投票的方法來解決裆熙。 - 評價(jià)困難
標(biāo)注的內(nèi)容可以分為兩類,一類是有明確標(biāo)簽的禽笑,就好比是試卷里的客觀題一樣入录,盡管各個(gè)標(biāo)注都不同,但是還是在有限集合內(nèi)的佳镜。另一類是開放式回答僚稿,這種標(biāo)注如同試卷里的主觀題一樣,可能會有無限種可能的結(jié)果蟀伸。甚至是截然相反的結(jié)果蚀同,比如什么是美,什么是丑啊掏,每個(gè)人的評價(jià)標(biāo)準(zhǔn)是不同的蠢络。我們本次想要的數(shù)據(jù)眾包也是這個(gè)類型的。 - 標(biāo)注稀疏性
如果一個(gè)需要標(biāo)注的訓(xùn)練集中的數(shù)據(jù)本身就比較稀疏迟蜜,而我們又需要把它們分割成一個(gè)個(gè)小塊刹孔,這就有可能造成數(shù)據(jù)稀疏。比如娜睛,我們要進(jìn)行鳥類圖片標(biāo)注髓霞,如果本身鳥類種類很多,而分給每個(gè)人的鳥的種類也很多的話畦戒,由于每個(gè)人認(rèn)識的鳥的種類是不多的方库,因此可能存在每個(gè)人的標(biāo)注都會有很高的錯誤率。這時(shí)候我們可能就需要讓標(biāo)注者之間有重疊的部分障斋,然后使用多數(shù)表決來解決纵潦。
數(shù)據(jù)眾包公司調(diào)研
由于我們需要眾包的數(shù)據(jù)是中文數(shù)據(jù),所以只關(guān)心國內(nèi)的一些數(shù)據(jù)眾包公司垃环。國外的Amazon Mechanical Turk邀层、CrowdFlower、Mighty AI等公司不在考察范圍之內(nèi)晴裹。
據(jù)悉被济,在國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司涧团、小作坊只磷,有的小作坊還會進(jìn)一步眾包給“散兵游勇”,比如學(xué)生或家庭主婦泌绣。
這條產(chǎn)業(yè)鏈上钮追,分包現(xiàn)象越嚴(yán)重,最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低阿迈,一層層的“數(shù)據(jù)黃旁模”壓縮了利潤空間,所以一些任務(wù)經(jīng)過數(shù)手轉(zhuǎn)包,酬勞已低得驚人刊棕。
目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北炭晒、河南、山東甥角、山西等勞動力密集的地區(qū)网严,這樣的選址也因?yàn)槟軌蛞愿拥土膭趧恿Τ杀救ネ瓿纱罅康臄?shù)據(jù)標(biāo)注工作。
下面是我對國內(nèi)的數(shù)據(jù)眾包公司做的一些調(diào)研(按照我搜索得知該公司的順序排序)嗤无。
不知道是否是我們的標(biāo)注任務(wù)太難的緣故震束,絕大多數(shù)公司沒有任何反饋。
1.百度數(shù)據(jù)眾包当犯、百度云眾包
百度不愧是靠PC端的網(wǎng)頁搜索起家的垢村,其前端技術(shù)還是不錯,網(wǎng)站做的還是比較精致的嚎卫。但是我提出了數(shù)據(jù)標(biāo)注任務(wù)之后嘉栓,貴司的這個(gè)相應(yīng)效率可就有點(diǎn)搞笑了。完全沒有反應(yīng)……
2.泛函科技
第二天下午有反饋, 0.35元/條, 后來漲價(jià)到1.5元/條……而且拿走我的數(shù)據(jù)驰凛,試標(biāo)結(jié)果都沒有反饋胸懈。
但是客戶經(jīng)理態(tài)度還比較好,最后給出這樣一個(gè)方案“您確定一個(gè)期望的價(jià)格恰响,我們也可以把他發(fā)到我們的平臺上趣钱,我們抽取一定傭金后,按您意愿的價(jià)格發(fā)布任務(wù)胚宦∈子校看是否有用戶愿意標(biāo)注,這樣的工期我們不敢保證枢劝【”,我是不敢采取的您旁,23333烙常。
3.京東眾智
數(shù)據(jù)標(biāo)注的需求申請是真難用!京東公司就沒有一個(gè)會前端的人嘛鹤盒?
但是蚕脏,京東的效率很高,反應(yīng)很快(第二天就有回復(fù))侦锯,對接服務(wù)還比較周到細(xì)致驼鞭,測評試標(biāo)注有標(biāo)注結(jié)果反饋,且效果尚可尺碰。最后談妥的價(jià)格是0.55元/條挣棕,含6個(gè)點(diǎn)的稅译隘,增值稅普通發(fā)票。關(guān)鍵是洛心,京東平臺只接受5W元以上的訂單固耘。這一點(diǎn)為什么不在官網(wǎng)說明?浪費(fèi)我那么多的聯(lián)系時(shí)間皂甘。
4.數(shù)據(jù)堂
聯(lián)系之后沒有反饋
5.龍貓數(shù)據(jù)
聯(lián)系之后沒有反饋
6.阿里眾包
聯(lián)系之后沒有反饋
7.星辰數(shù)據(jù)
網(wǎng)頁做的很好看玻驻,但是聯(lián)系之后沒有反饋
8.愛數(shù)智慧
第二天下午有反應(yīng)悼凑,但進(jìn)展比較慢偿枕。問我要走了樣例數(shù)據(jù)試標(biāo)注卻沒有結(jié)果反饋。難道不需要顧客審查標(biāo)注質(zhì)量么户辫?
最后報(bào)出的定價(jià)是0.45元/條渐夸,但是誰知道他們標(biāo)注的質(zhì)量呢?
9.倍賽公司
聯(lián)系之后沒有反饋
10.tagger
聯(lián)系之后沒有反饋
總的來說渔欢,我眼中國內(nèi)最靠譜的數(shù)據(jù)標(biāo)注公司是京東眾智墓塌。不論是客戶經(jīng)理的對接工作,還是數(shù)據(jù)的試標(biāo)注反饋奥额,完成的都比較高效和到位苫幢。但也有一個(gè)致命的缺陷,它們只接受5W元以上的標(biāo)注任務(wù)訂單垫挨,韩肝,,這就基本把高校的科研組統(tǒng)統(tǒng)拒之門外了九榔。另外哀峻,泛函科技和愛數(shù)智慧的服務(wù)以及價(jià)格尚可,只是沒有京東眾志應(yīng)答迅速哲泊,沒有試標(biāo)注的結(jié)果反饋剩蟀。至于其他一些公司,統(tǒng)統(tǒng)沒有反饋切威,令人失望育特。
PS:上文中,BA已經(jīng)出鏡先朦,不給T家一個(gè)機(jī)會貌似不太公平缰冤。那就給他們一個(gè)亮相機(jī)會吧。
參考文獻(xiàn)
眾包數(shù)據(jù)標(biāo)注中的隱類別分析
談?wù)勅斯ぶ悄軘?shù)據(jù)標(biāo)注那些事兒
數(shù)據(jù)標(biāo)注員烙无,最后一批被AI取代的人