AI發(fā)電廠——數(shù)據(jù)標(biāo)注公司(國內(nèi)數(shù)據(jù)標(biāo)注公司服務(wù)調(diào)研)

眾所周知诡壁,深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)和高效的運(yùn)算來做支撐触机。
計(jì)算資源只要從黃老板的公司訂購就可以了,但大規(guī)模的高質(zhì)量有標(biāo)記數(shù)據(jù)卻不是那么容易獲得削锰,讓科研人員頭疼不已通铲。
應(yīng)用時(shí)代而生的就是一大批數(shù)據(jù)眾包公司和平臺。正好借著一個(gè)數(shù)據(jù)眾包任務(wù)器贩,對于國內(nèi)的數(shù)據(jù)標(biāo)注公司服務(wù)有了更深一步的了解颅夺。

原文發(fā)布于個(gè)人博客(好望角),那里有更好的閱讀體驗(yàn)蛹稍。


AI發(fā)電廠————數(shù)據(jù)標(biāo)注公司

伴隨著AI興起的最關(guān)鍵的技術(shù)莫過于深度學(xué)習(xí)碗啄,作為深度學(xué)習(xí)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法稳摄,其結(jié)果的準(zhǔn)確性取決于接近“無窮”量級的數(shù)據(jù)稚字。
所以摒除那些復(fù)雜的中間環(huán)節(jié),深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練厦酬,這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代胆描,AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前仗阅,又必須先對大量的數(shù)據(jù)進(jìn)行標(biāo)注昌讲,作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。

因此减噪,催生了大量數(shù)據(jù)標(biāo)注公司的誕生短绸。

什么是數(shù)據(jù)標(biāo)注

要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能筹裕。
回想一下我們是如何學(xué)習(xí)的醋闭,例如我們學(xué)習(xí)認(rèn)識蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你朝卒,這是一個(gè)蘋果证逻。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”抗斤。類比機(jī)器學(xué)習(xí)囚企,我們要教他認(rèn)識一個(gè)蘋果丈咐,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的龙宏。我們得先有蘋果的圖片棵逊,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征银酗,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片辆影,它就能認(rèn)出來了。

根據(jù)應(yīng)用場景的不同花吟,數(shù)據(jù)標(biāo)注有許多類型秸歧。大體上分為圖像、語音衅澈、自然語言三大類键菱。
其中由于圖像研究領(lǐng)域的水文熱潮,圖像標(biāo)注的任務(wù)也尤為眾多今布。经备。。無人駕駛部默、人臉識別侵蒙、物體檢測……
語音和語言相對來說,數(shù)據(jù)標(biāo)注難度更大一點(diǎn)傅蹂。價(jià)格也相對高昂一些纷闺。

在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對數(shù)據(jù)進(jìn)行清洗份蝴,得到符合我們要求的數(shù)據(jù)犁功。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等婚夫。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)浸卦。

眾包標(biāo)注的困難

眾包標(biāo)注由于是非專業(yè)標(biāo)注,自然會遇到很多問題案糙。這困難主要由以下三個(gè)方面組成:

  1. 標(biāo)注者的水平
    由于標(biāo)注者是眾包標(biāo)注限嫌,因此其標(biāo)注者的水平也參差不齊,其背景知識和行為習(xí)慣可能有較大的差異时捌。這就相當(dāng)于是給若干個(gè)已訓(xùn)練好的模型來做預(yù)測一樣怒医,其不同的模型有不同的輸出結(jié)果。那么這種情況下匣椰,基本上使用多數(shù)投票的方法來解決裆熙。
  2. 評價(jià)困難
    標(biāo)注的內(nèi)容可以分為兩類,一類是有明確標(biāo)簽的禽笑,就好比是試卷里的客觀題一樣入录,盡管各個(gè)標(biāo)注都不同,但是還是在有限集合內(nèi)的佳镜。另一類是開放式回答僚稿,這種標(biāo)注如同試卷里的主觀題一樣,可能會有無限種可能的結(jié)果蟀伸。甚至是截然相反的結(jié)果蚀同,比如什么是美,什么是丑啊掏,每個(gè)人的評價(jià)標(biāo)準(zhǔn)是不同的蠢络。我們本次想要的數(shù)據(jù)眾包也是這個(gè)類型的。
  3. 標(biāo)注稀疏性
    如果一個(gè)需要標(biāo)注的訓(xùn)練集中的數(shù)據(jù)本身就比較稀疏迟蜜,而我們又需要把它們分割成一個(gè)個(gè)小塊刹孔,這就有可能造成數(shù)據(jù)稀疏。比如娜睛,我們要進(jìn)行鳥類圖片標(biāo)注髓霞,如果本身鳥類種類很多,而分給每個(gè)人的鳥的種類也很多的話畦戒,由于每個(gè)人認(rèn)識的鳥的種類是不多的方库,因此可能存在每個(gè)人的標(biāo)注都會有很高的錯誤率。這時(shí)候我們可能就需要讓標(biāo)注者之間有重疊的部分障斋,然后使用多數(shù)表決來解決纵潦。

數(shù)據(jù)眾包公司調(diào)研

由于我們需要眾包的數(shù)據(jù)是中文數(shù)據(jù),所以只關(guān)心國內(nèi)的一些數(shù)據(jù)眾包公司垃环。國外的Amazon Mechanical Turk邀层、CrowdFlower、Mighty AI等公司不在考察范圍之內(nèi)晴裹。

據(jù)悉被济,在國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司涧团、小作坊只磷,有的小作坊還會進(jìn)一步眾包給“散兵游勇”,比如學(xué)生或家庭主婦泌绣。
這條產(chǎn)業(yè)鏈上钮追,分包現(xiàn)象越嚴(yán)重,最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低阿迈,一層層的“數(shù)據(jù)黃旁模”壓縮了利潤空間,所以一些任務(wù)經(jīng)過數(shù)手轉(zhuǎn)包,酬勞已低得驚人刊棕。
目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北炭晒、河南、山東甥角、山西等勞動力密集的地區(qū)网严,這樣的選址也因?yàn)槟軌蛞愿拥土膭趧恿Τ杀救ネ瓿纱罅康臄?shù)據(jù)標(biāo)注工作。

下面是我對國內(nèi)的數(shù)據(jù)眾包公司做的一些調(diào)研(按照我搜索得知該公司的順序排序)嗤无。
不知道是否是我們的標(biāo)注任務(wù)太難的緣故震束,絕大多數(shù)公司沒有任何反饋。

1.百度數(shù)據(jù)眾包当犯、百度云眾包
百度不愧是靠PC端的網(wǎng)頁搜索起家的垢村,其前端技術(shù)還是不錯,網(wǎng)站做的還是比較精致的嚎卫。但是我提出了數(shù)據(jù)標(biāo)注任務(wù)之后嘉栓,貴司的這個(gè)相應(yīng)效率可就有點(diǎn)搞笑了。完全沒有反應(yīng)……

2.泛函科技
第二天下午有反饋, 0.35元/條, 后來漲價(jià)到1.5元/條……而且拿走我的數(shù)據(jù)驰凛,試標(biāo)結(jié)果都沒有反饋胸懈。
但是客戶經(jīng)理態(tài)度還比較好,最后給出這樣一個(gè)方案“您確定一個(gè)期望的價(jià)格恰响,我們也可以把他發(fā)到我們的平臺上趣钱,我們抽取一定傭金后,按您意愿的價(jià)格發(fā)布任務(wù)胚宦∈子校看是否有用戶愿意標(biāo)注,這樣的工期我們不敢保證枢劝【”,我是不敢采取的您旁,23333烙常。

3.京東眾智
數(shù)據(jù)標(biāo)注的需求申請是真難用!京東公司就沒有一個(gè)會前端的人嘛鹤盒?
但是蚕脏,京東的效率很高,反應(yīng)很快(第二天就有回復(fù))侦锯,對接服務(wù)還比較周到細(xì)致驼鞭,測評試標(biāo)注有標(biāo)注結(jié)果反饋,且效果尚可尺碰。最后談妥的價(jià)格是0.55元/條挣棕,含6個(gè)點(diǎn)的稅译隘,增值稅普通發(fā)票。關(guān)鍵是洛心,京東平臺只接受5W元以上的訂單固耘。這一點(diǎn)為什么不在官網(wǎng)說明?浪費(fèi)我那么多的聯(lián)系時(shí)間皂甘。

4.數(shù)據(jù)堂
聯(lián)系之后沒有反饋

5.龍貓數(shù)據(jù)
聯(lián)系之后沒有反饋

6.阿里眾包
聯(lián)系之后沒有反饋

7.星辰數(shù)據(jù)
網(wǎng)頁做的很好看玻驻,但是聯(lián)系之后沒有反饋

8.愛數(shù)智慧
第二天下午有反應(yīng)悼凑,但進(jìn)展比較慢偿枕。問我要走了樣例數(shù)據(jù)試標(biāo)注卻沒有結(jié)果反饋。難道不需要顧客審查標(biāo)注質(zhì)量么户辫?
最后報(bào)出的定價(jià)是0.45元/條渐夸,但是誰知道他們標(biāo)注的質(zhì)量呢?

9.倍賽公司
聯(lián)系之后沒有反饋

10.tagger
聯(lián)系之后沒有反饋

總的來說渔欢,我眼中國內(nèi)最靠譜的數(shù)據(jù)標(biāo)注公司是京東眾智墓塌。不論是客戶經(jīng)理的對接工作,還是數(shù)據(jù)的試標(biāo)注反饋奥额,完成的都比較高效和到位苫幢。但也有一個(gè)致命的缺陷,它們只接受5W元以上的標(biāo)注任務(wù)訂單垫挨,韩肝,,這就基本把高校的科研組統(tǒng)統(tǒng)拒之門外了九榔。另外哀峻,泛函科技和愛數(shù)智慧的服務(wù)以及價(jià)格尚可,只是沒有京東眾志應(yīng)答迅速哲泊,沒有試標(biāo)注的結(jié)果反饋剩蟀。至于其他一些公司,統(tǒng)統(tǒng)沒有反饋切威,令人失望育特。


PS:上文中,BA已經(jīng)出鏡先朦,不給T家一個(gè)機(jī)會貌似不太公平缰冤。那就給他們一個(gè)亮相機(jī)會吧。

騰訊數(shù)據(jù)標(biāo)注實(shí)習(xí)生招聘

參考文獻(xiàn)

眾包數(shù)據(jù)標(biāo)注中的隱類別分析
談?wù)勅斯ぶ悄軘?shù)據(jù)標(biāo)注那些事兒
數(shù)據(jù)標(biāo)注員烙无,最后一批被AI取代的人

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锋谐,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子截酷,更是在濱河造成了極大的恐慌涮拗,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異三热,居然都是意外死亡鼓择,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門就漾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呐能,“玉大人,你說我怎么就攤上這事抑堡“诔觯” “怎么了?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵首妖,是天一觀的道長偎漫。 經(jīng)常有香客問我,道長有缆,這世上最難降的妖魔是什么象踊? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮棚壁,結(jié)果婚禮上杯矩,老公的妹妹穿的比我還像新娘。我一直安慰自己袖外,他們只是感情好史隆,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著在刺,像睡著了一般逆害。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蚣驼,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天魄幕,我揣著相機(jī)與錄音,去河邊找鬼颖杏。 笑死纯陨,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的留储。 我是一名探鬼主播翼抠,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼获讳!你這毒婦竟也來了阴颖?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤丐膝,失蹤者是張志新(化名)和其女友劉穎量愧,沒想到半個(gè)月后钾菊,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡偎肃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年煞烫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片累颂。...
    茶點(diǎn)故事閱讀 38,789評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡滞详,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出紊馏,到底是詐尸還是另有隱情料饥,我是刑警寧澤,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布瘦棋,位于F島的核電站稀火,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赌朋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一篇裁、第九天 我趴在偏房一處隱蔽的房頂上張望沛慢。 院中可真熱鬧,春花似錦达布、人聲如沸团甲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽躺苦。三九已至,卻和暖如春产还,著一層夾襖步出監(jiān)牢的瞬間匹厘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工脐区, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留愈诚,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓牛隅,卻偏偏與公主長得像炕柔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子媒佣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容