數(shù)據(jù)折疊:人工智能背后的人工

編輯:火柴Q? 采訪乌妙、撰文:咖啡貓?jiān)O(shè)計(jì):孫佳棟 微信公眾號:甲子光年(ID: jazzyear)

5到10年后袄膏,當(dāng)人工智能全面普及布轿,科技先驅(qū)和新一代商業(yè)巨子注定會被時(shí)代的聚光燈銘記奠蹬。

但今天朝聋,「甲子光年」卻想說一個(gè)關(guān)于人工智能“從未被講出”的故事,寫一群時(shí)代大幕后的“隱形者”——標(biāo)數(shù)據(jù)的人囤躁。

智能時(shí)代滾滾巨輪之下冀痕,一批批用于“人臉識別”、“自動(dòng)駕駛”狸演、“自然語言處理”的標(biāo)注好的數(shù)據(jù)言蛇,正是出自這些學(xué)歷不高,每天對著電腦工作8到10小時(shí)的人手中——他們是“人工智能背后的人工”宵距。


「甲子光年」采訪了多個(gè)數(shù)據(jù)標(biāo)注服務(wù)商腊尚、數(shù)據(jù)標(biāo)注工作室和數(shù)據(jù)標(biāo)注者。據(jù)業(yè)內(nèi)人士估計(jì)满哪,中國全職的“數(shù)據(jù)標(biāo)注者”已達(dá)到10萬人婿斥,兼職人群的規(guī)模則接近100萬劝篷。

他們中有職高學(xué)生,有嘗試過40份工作的聾啞人民宿,有從工地輾轉(zhuǎn)而來的新生代農(nóng)民工……他們源源不斷地為人工智能的發(fā)展供應(yīng)最重要的“數(shù)據(jù)燃料”——在現(xiàn)有的技術(shù)框架下娇妓,數(shù)據(jù)量越大,質(zhì)量越好活鹰,算法模型就表現(xiàn)越好峡蟋。可以說华望,數(shù)據(jù)決定著整個(gè)人工智能行業(yè)的發(fā)展態(tài)勢。

但標(biāo)注工作本身是一個(gè)勞動(dòng)密集型工種仅乓,收入并不高赖舟。隨著技術(shù)的進(jìn)一步發(fā)展,未來還有被取代的可能夸楣。許多數(shù)據(jù)標(biāo)注者的父輩是參與了中國房地產(chǎn)奇跡的農(nóng)民工宾抓。如今,父輩手里的鐵鏟變成了年輕人的鼠標(biāo)豫喧、鍵盤石洗,但和父輩一樣,他們?nèi)允沁吘壵呓粝浴T谶@個(gè)除夕讲衫,他們也像父輩一樣踏上了歸鄉(xiāng)的旅途,不僅是從城市回到鄉(xiāng)村孵班,也是從科技前線回到古老的火爐前涉兽。

小志從貴陽坐了四小時(shí)的大巴回到山區(qū)家中,第一件事就是將錢塞到母親手里篙程;

犇犇給父親買了新的電動(dòng)剃須刀枷畏;

何軍家在河南周口,打算把錢都存著娶媳婦虱饿,過年期間就要見幾個(gè)相親對象拥诡;

小袁想再掙點(diǎn)錢后換一副助聽器,現(xiàn)在這個(gè)他已戴了好多年氮发,把他不斷長大的耳蝸磨出了新新舊舊的傷……

我們無法預(yù)判他們的命運(yùn)渴肉,但選擇講出他們的故事。這些科技進(jìn)步背后的“無名者”值得一次認(rèn)真的注視爽冕。

數(shù)據(jù)折疊

人工智能的世界里宾娜,存在不為人知的“數(shù)據(jù)折疊”

一邊是炫酷的科技、神奇的智能應(yīng)用扇售;一邊是大量人工每天重復(fù)地生產(chǎn)機(jī)器學(xué)習(xí)的“食物”——標(biāo)注好的數(shù)據(jù)前塔。

北京和貴陽嚣艇,是數(shù)據(jù)標(biāo)注世界里的兩座“雙子星”城市。北京聚集了大量人工智能公司华弓;貴陽近年來著力發(fā)展“大數(shù)據(jù)戰(zhàn)略”食零,已擁有相對完整的數(shù)據(jù)服務(wù)產(chǎn)業(yè)生態(tài)。

2017年寂屏,僅北京中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)規(guī)模就超過700億元贰谣;貴陽2017年的大數(shù)據(jù)產(chǎn)業(yè)及其關(guān)聯(lián)產(chǎn)業(yè)規(guī)模總量超過1500億元迁霎。AI行業(yè)的總規(guī)模也在持續(xù)增加吱抚,根據(jù)麥肯錫2017年4月發(fā)布的一份報(bào)告,到2025年考廉,AI應(yīng)用的總市場可能達(dá)到1270億美元秘豹。

但標(biāo)注數(shù)據(jù)的人,生活在這些巨額數(shù)字之外昌粤,拿著不高的工資既绕,活動(dòng)在“第二空間”。

從三里屯驅(qū)車1小時(shí)涮坐,行駛30公里凄贩,就到了北京郵電大學(xué)宏福校區(qū)。這里有北郵和華騰碩博合辦的電子商務(wù)培訓(xùn)班袱讹,學(xué)生總數(shù)300多人疲扎,高峰時(shí)期,有120多人參與數(shù)據(jù)標(biāo)注的兼職項(xiàng)目捷雕。

標(biāo)注工作室占滿了某棟教學(xué)樓二層的5個(gè)房間瘸彤,150臺電腦前坐著一群十八九歲的學(xué)生捌归,正盯著電腦屏幕給圖片拉框省艳。他們流程化地操作鼠標(biāo)——這些枯燥的工作颁股,最終將用于熱鬧炫酷的無人駕駛項(xiàng)目。

從做數(shù)據(jù)標(biāo)注的教室窗口向外望征绸,可以看到北郵的教一久橙,那里有國際學(xué)院和計(jì)算機(jī)專業(yè)學(xué)生專用的機(jī)房。

兼職標(biāo)數(shù)據(jù)的培訓(xùn)班學(xué)員一個(gè)月的收入在2000元左右管怠。如果全職做淆衷,人均工資約4000到5000元。而坐在教一的未來算法工程師渤弛,剛畢業(yè)時(shí)祝拯,起薪就可能達(dá)到30萬元/年。

?BasicFinder旗下某數(shù)據(jù)工廠

培訓(xùn)班學(xué)員參與的標(biāo)注項(xiàng)目,采用了目前數(shù)據(jù)標(biāo)注行業(yè)的主流模式之一——“外包”佳头。

某數(shù)據(jù)標(biāo)注主管告訴「甲子光年」鹰贵,AI數(shù)據(jù)標(biāo)注的外包市場2011年開啟,2015年真正開始康嘉,2016年下半年出現(xiàn)收縮碉输,2017年又有了新一輪的爆發(fā)

外包盛行亭珍,是因?yàn)槿斯ぶ悄艿陌l(fā)展需要大量人力對非結(jié)構(gòu)的數(shù)據(jù)進(jìn)行加工敷钾,以用于機(jī)器學(xué)習(xí)。而創(chuàng)業(yè)團(tuán)隊(duì)和巨頭公司肄梨,為了集中精力研發(fā)或保持團(tuán)隊(duì)的高學(xué)歷占比阻荒,很少完全自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。

外包江湖門派眾多众羡、良莠不齊侨赡。

從業(yè)者是這樣打招呼的,“你是發(fā)包方還是外包方纱控?”

BAT、人工智能創(chuàng)業(yè)公司菜秦,學(xué)術(shù)團(tuán)體甜害,以及政府、銀行等機(jī)構(gòu)都可能成為發(fā)包方球昨。BAT和人工智能公司需求最大尔店,學(xué)術(shù)團(tuán)體次之,政府主慰、銀行等傳統(tǒng)機(jī)構(gòu)的需求最小但有不斷增長的趨勢嚣州。某數(shù)據(jù)標(biāo)注主管告訴「甲子光年」,他目前所接觸到的上述三類業(yè)務(wù)需求的比例為7:2:1共螺。

某數(shù)據(jù)標(biāo)注公司負(fù)責(zé)人透露该肴,商湯、曠視這類大的人工智能公司藐不,一年在數(shù)據(jù)上的支出有數(shù)千萬匀哄。

在“外包方”一端,有 “眾包”和“工廠”兩種模式雏蛮。前者是把任務(wù)通過平臺轉(zhuǎn)接給網(wǎng)民涎嚼,如“百度眾包”、“京東眾智”挑秉、“龍貓數(shù)據(jù)”法梯;后者是自己經(jīng)營團(tuán)隊(duì),對整個(gè)流程進(jìn)行控制犀概,如貴陽夢動(dòng)科技經(jīng)營了一個(gè)500人的“數(shù)據(jù)工場”立哑;BasicFinder與二十來家“數(shù)據(jù)工廠”有長期業(yè)務(wù)合作夜惭,少則幾十人,多則兩三百人刁憋。而在規(guī)范的機(jī)構(gòu)之外滥嘴,還游離著三五人到十幾人規(guī)模不等的“小作坊”。

許多機(jī)構(gòu)在眾包和自營工廠兩方面都有涉足至耻,眾包平臺上也有許多以團(tuán)隊(duì)為單位接單的“公會”若皱。

算法公司和人才多集中在北深杭等科技核心區(qū)域,而作為一個(gè)“勞動(dòng)密集型”的中低收入行業(yè)尘颓,數(shù)據(jù)標(biāo)注人員散落三四線城市走触。

在距離貴陽市中心50公里的百鳥河數(shù)字小鎮(zhèn),有一個(gè)規(guī)模500人的“數(shù)據(jù)工場”疤苹,500名標(biāo)注員中互广,近一半是附近一家扶貧高職“盛華職業(yè)學(xué)院”的學(xué)生。

位于貴陽的“數(shù)據(jù)工場”

他們很珍惜這個(gè)接近“白領(lǐng)”的兼職機(jī)會卧土,1月能掙到1500元惫皱,經(jīng)濟(jì)上足以自立,省點(diǎn)還可以補(bǔ)貼家用尤莺,相比其他兼職選擇:去餐廳辛苦端盤子或頂著風(fēng)雨送外賣旅敷,數(shù)據(jù)標(biāo)注相對輕松且體面。

盛華學(xué)院大數(shù)據(jù)專業(yè)老師颤霎,同時(shí)也是貴陽夢動(dòng)科技人工智能服務(wù)部總監(jiān)的曹珊告訴「甲子光年」媳谁,她曾帶著七個(gè)學(xué)生來北京某人工智能公司參加圖像標(biāo)注培訓(xùn),通過后可留下來實(shí)習(xí)友酱,但競爭激烈晴音,五十九人只留十個(gè),其中不少是北京本地學(xué)校的競爭者缔杉。最終锤躁,這7位來自貴陽的同學(xué)都留了下來。

這些年輕的數(shù)據(jù)標(biāo)注者或详,一頭連著最前沿的科技进苍,一頭連著他們正在回去的家鄉(xiāng)——那里往往是貧困、閉塞的所在鸭叙,是科技的影響力最微弱的“第三空間”觉啊。

小志是曹珊的學(xué)生,數(shù)據(jù)工廠臘月二十七才放假沈贝,小志坐了四小時(shí)大巴回到山區(qū)的家里杠人,父母都務(wù)農(nóng),身體也不好,家里除了房子和田嗡善,唯一像樣的財(cái)產(chǎn)是一頭牛辑莫。

進(jìn)高職前,小志甚至都沒碰過電腦罩引,唯一會的操作是按開關(guān)鍵各吨。電腦極大地打開了他的世界,但也讓他一度沉迷游戲袁铐。最嚴(yán)重的時(shí)候揭蜒,課不上了,數(shù)據(jù)不標(biāo)了剔桨,覺也不睡了屉更。

曹珊為此和小志長談了多次,目前小志的生活漸漸步入正軌洒缀,成了數(shù)據(jù)標(biāo)注的小組長瑰谜,手里帶著十多個(gè)同學(xué)。

但未來工作前途的不可預(yù)期树绩,相對低的收入萨脑,較大的家庭負(fù)擔(dān),仍然是這些年輕人無法擺脫的苦惱饺饭。

父輩的積累相當(dāng)頑固渤早,無論是財(cái)富、聲望砰奕,還是貧窮和負(fù)擔(dān)蛛芥。

父輩與我:從建筑工地到“智能工地”

犇犇的人生在某種程度上提鸟,是對父親的繼承军援。

他是西安某數(shù)據(jù)標(biāo)注工作室的標(biāo)注員,犇犇和他所在的工作室代表了數(shù)據(jù)標(biāo)注行業(yè)的另一種典型模式“小作坊”称勋。

今年26歲的犇犇胸哥,先后做過廚師、進(jìn)過工廠赡鲜、推廣過數(shù)種數(shù)字貨幣空厌,但沒有一份工作做得長久。

犇犇父親在他這個(gè)年紀(jì)時(shí)银酬,是鎮(zhèn)上棉紡站的一名工人嘲更。2005年棉紡站關(guān)門,下崗后的父親去甘肅當(dāng)過兩年鉆井工人揩瞪,此后一直在做建筑赋朦。

直到2017年12月初,犇犇還不知道數(shù)據(jù)標(biāo)注這個(gè)工種。

當(dāng)時(shí)他接到靈的一個(gè)電話宠哄,邀請他一起做數(shù)據(jù)標(biāo)注工作室壹将。靈和犇犇曾一起推廣數(shù)字貨幣,行情最好時(shí)毛嫉,一筆交易能拿兩萬提成诽俯。但好好的幣,玩著玩著沒了承粤,他們的這次合作鎩羽而歸暴区。

經(jīng)歷上一次失敗后,靈又殺進(jìn)數(shù)據(jù)標(biāo)注領(lǐng)域密任,很快颜启,她組建了15人規(guī)模的工作室,團(tuán)隊(duì)成員都跟犇犇一般大浪讳,氛圍很好缰盏,他們常常一邊標(biāo)數(shù)據(jù),一邊聊天淹遵,時(shí)間并不難熬口猜。

最難受的是眼睛。從早上九點(diǎn)到晚上六點(diǎn)透揣,工作內(nèi)容就是盯著屏幕給圖片拉框济炎。拉框要求十分精細(xì),偏差絲毫都不行辐真。犇犇眼睛干澀時(shí)须尚,會起身去樓道抽煙。

犇犇所在的工作室

眼睛的難受熬熬就能過去侍咱,更愁人的是工資不高耐床。

犇犇笑著說,入不敷出啊楔脯。他在供一套鄭州的房子撩轰,每個(gè)月要還4700的房貸,而工資撐死就五六千昧廷。

在犇犇看來堪嫂,這份工作也沒什么前途:“跟電子廠一樣,多做多得木柬〗源”

犇犇的夢想是在全國開很多養(yǎng)老院,因?yàn)樾r(shí)候的鄰居是獨(dú)居的七十歲老人眉枕,“沒人養(yǎng)很可憐”恶复。

但開養(yǎng)老院對現(xiàn)在的犇犇來說太難了娇唯,他養(yǎng)自己都難。

數(shù)據(jù)標(biāo)注的晉升之路只有兩條寂玲,每條都是窄門:

要么進(jìn)數(shù)據(jù)公司塔插,爬完標(biāo)注員-標(biāo)注組長-數(shù)據(jù)經(jīng)理-數(shù)據(jù)總監(jiān)這個(gè)鏈條,層層打怪升級拓哟;要么進(jìn)人工智能公司當(dāng)數(shù)據(jù)標(biāo)注員想许,然后憑借超人毅力自學(xué)技術(shù)曲線救國。

前一條路不需要學(xué)歷断序,但是千百人過獨(dú)木橋流纹,且依舊是在數(shù)據(jù)標(biāo)注圈子里打轉(zhuǎn);后一條路能真正學(xué)到東西违诗,但對學(xué)歷有要求漱凝。

犇犇只有高中學(xué)歷,連高考都沒參加诸迟。因?yàn)椴辉冈僮x書茸炒,他跟父親起過很大爭執(zhí),父親深知打工有多苦阵苇。高三的那個(gè)暑假壁公,犇犇也去體驗(yàn)了一把:跟著父親去工地上搬磚。

現(xiàn)在绅项,他成了一名“智能工地”上的新型“搬磚者”紊册。

對科技、社會和自身的關(guān)系快耿,如今犇犇有清醒的認(rèn)知:“人工智能就像是一個(gè)孩子囊陡,標(biāo)注好的圖片就像是孩子的食物,而我們就是制作食物的人掀亥,最苦最累的我們做了撞反,成名的只是那些制造孩子的人∑探剑”犇犇說痢畜。

兩代人的命運(yùn)在此重疊垛膝。

農(nóng)民工一磚一瓦壘起了實(shí)體城市的高樓鳍侣;數(shù)據(jù)標(biāo)注者一框一線搭建起了算法的智能。前者是城市的邊緣者吼拥,高樓起來了倚聚,他們?nèi)允沁吘壵撸缓笳呤强萍际澜绲倪吘壵咴淇桑瑱C(jī)器變聰明了惑折,他們還是邊緣者授账。

犇犇會最終棲居在數(shù)據(jù)標(biāo)注這份工作上嗎?他給的答案是不確定的惨驶,他不知道這份工作是否不出幾年就被取代白热,也不知道自己是否就此乖乖認(rèn)命。

中國有五千多萬的農(nóng)民工以建筑為生粗卜,到了五六十歲還在工地上忙碌屋确。數(shù)據(jù)標(biāo)注的市場才剛打開,「甲子光年」從從業(yè)者口中得知续扔,截止2018年年初攻臀,以數(shù)據(jù)標(biāo)注為生的全職標(biāo)注員規(guī)模達(dá)近十萬,這個(gè)數(shù)字未來會繼續(xù)增長纱昧,未來將達(dá)數(shù)十萬刨啸。數(shù)字標(biāo)注也將成為新生代農(nóng)民工的聚集地。

野蠻生長识脆,坑與機(jī)會并存

相比聚光燈之下的人工智能科技公司设联,數(shù)據(jù)標(biāo)注行業(yè)是個(gè)在暗處的行業(yè),存在大量灰色地帶灼捂。

作為一個(gè)勞動(dòng)密集型行業(yè)仑荐,進(jìn)入門檻并不高,壓低“成本”纵东、“薄利多量”粘招,就成了許多團(tuán)隊(duì)的競爭手段。

許多公司招的標(biāo)注員都是沒有交五險(xiǎn)一金的臨時(shí)工偎球。7洒扎、8萬的啟動(dòng)資金,就可以在四五線小城組起一個(gè)“工作室”衰絮。

AI公司也傾向壓低成本——某數(shù)據(jù)標(biāo)注公司主管告訴「甲子光年」袍冷,部分人工智能公司對數(shù)據(jù)標(biāo)注的重視不夠,過分壓低預(yù)算猫牡,把項(xiàng)目外包給一些不靠譜的團(tuán)隊(duì)胡诗;這些團(tuán)隊(duì)做不完、做不了淌友,又會把任務(wù)轉(zhuǎn)包給另一些小團(tuán)隊(duì)煌恢,或重新找到大的數(shù)據(jù)標(biāo)注公司,使質(zhì)量和交期都無法保證震庭。

“低價(jià)競爭和行業(yè)不規(guī)范導(dǎo)致的層層外包是行業(yè)的噩夢瑰抵。”京東眾智平臺的負(fù)責(zé)人李工告訴「甲子光年」器联。

對小團(tuán)隊(duì)來說二汛,外包直接折損了利潤婿崭。

做過室內(nèi)裝修的何軍,在2017年底投入十萬積蓄作為啟動(dòng)成本肴颊,在河南周口成立了一個(gè)40人團(tuán)隊(duì)的數(shù)據(jù)工作室氓栈。他2018年的最大計(jì)劃,就是“爭取接到一手項(xiàng)目”婿着。

“利潤其實(shí)不高”颤绕,何軍一邊抖著腿,一邊掰著手指頭細(xì)細(xì)算賬祟身,“你看啊奥务,一個(gè)拉框平均4分錢,一個(gè)員工一天能做大約4500個(gè)袜硫,一共180塊氯葬。過關(guān)率90%,再除去審核的成本婉陷,再給每個(gè)標(biāo)注員每天發(fā)110元左右的工資帚称,平均下來工作室每天也就從每個(gè)人身上賺30塊吧』喟模”何軍第一個(gè)月虧了本闯睹,第二個(gè)月勉強(qiáng)持平。

“開年就去跑工商注冊担神,然后一家家聯(lián)系大公司楼吃,得接到一手項(xiàng)目,給員工的多發(fā)點(diǎn)工資妄讯,現(xiàn)在太低了孩锡。”何軍說亥贸。

小團(tuán)隊(duì)只能接二手甚至是好幾手的項(xiàng)目躬窜,一手項(xiàng)目就像江湖傳說,聽過沒見過炕置。

處境相似的趙聰也特別想接到一手項(xiàng)目荣挨。他是2017年10月入場的標(biāo)注者,自己攢了三個(gè)人的團(tuán)隊(duì)兼職做數(shù)據(jù)標(biāo)注朴摊∧ⅲ“我們的項(xiàng)目都是從小公司手里接的,連發(fā)包方的名字都不知道”仍劈,趙聰說厕倍,“利潤很低”寡壮,三個(gè)人贩疙,三個(gè)月讹弯,三個(gè)項(xiàng)目,每人也就獲得了一千塊收入这溅。

大平臺也反感層層外包组民,因?yàn)檫@嚴(yán)重?cái)_亂行業(yè)秩序。

“數(shù)據(jù)標(biāo)注看起來門檻很低悲靴,但其實(shí)管理的門檻并不低臭胜。價(jià)格、產(chǎn)能癞尚、交期和質(zhì)量都要兼顧耸三。很多小團(tuán)隊(duì),拿到的項(xiàng)目自己消化不了浇揩,最后又會找到我們仪壮。”BasicFinder的杜霖說胳徽。

而針對一些特定的復(fù)雜任務(wù)积锅,還需要進(jìn)行足夠的培訓(xùn),有的培訓(xùn)期需要1到3個(gè)月养盗。在理解客戶需求缚陷、保證數(shù)據(jù)的多樣性、隨機(jī)性上往核,許多小團(tuán)隊(duì)也欠缺必要的能力箫爷。

層層外包,對數(shù)據(jù)標(biāo)注員的直接影響是:攤薄了收入聂儒,錢被中間環(huán)節(jié)分掉:一手的項(xiàng)目在誰手上蝶缀,價(jià)格多高,會經(jīng)歷多少層級薄货,每層有多少利潤翁都,都是謎。

還有另一個(gè)角色在攪亂這趟渾水——代理人谅猾。

代理人說白了就是拉項(xiàng)目跑活兒的人柄慰,關(guān)系戶,是中國人情社會里長出的變量税娜。一些小公司會高薪養(yǎng)代理人坐搔,以期打通關(guān)鍵節(jié)點(diǎn)。

趙聰無奈地說敬矩,“靠關(guān)系吃飯的社會”概行,最末端的標(biāo)注者最缺這種關(guān)系資源。

杜霖認(rèn)為弧岳,這個(gè)行業(yè)經(jīng)歷了早期的瘋狂生長凳忙,最終一定會經(jīng)歷一番洗牌业踏,變得更為規(guī)范化、透明化涧卵。屆時(shí)質(zhì)量會取代成本勤家,成為需求方最優(yōu)先考慮的變量

“人工智能公司的本質(zhì)需求是能找到靠譜團(tuán)隊(duì)。大家最后都會明白柳恐,背著抱著一邊沉伐脖,想省的錢都省不掉,要保證質(zhì)量乐设,就是一分錢一分貨讼庇。 ”

大浪淘沙,有兩類機(jī)構(gòu)會最終留下來:注重質(zhì)量及服務(wù)的中小型數(shù)據(jù)標(biāo)注公司近尚,以及自有整套數(shù)據(jù)技術(shù)的平臺巫俺。

而犇犇、何軍以及趙聰都有可能被行業(yè)清洗出去肿男。

還有5年介汹,只有5年

經(jīng)營小工作室的何軍已經(jīng)開始緊張了,他聽說算法升級后舶沛,將不再需要大量人工標(biāo)注嘹承。由于對技術(shù)動(dòng)向缺乏把握,他時(shí)常處于一種對未來的不安之中如庭。

杜霖則認(rèn)為叹卷,至少在5年內(nèi),數(shù)據(jù)標(biāo)注行業(yè)的增長空間還很大坪它,數(shù)據(jù)標(biāo)注的市場才剛打開骤竹,數(shù)據(jù)需求將緊隨人工智能的大規(guī)模落地引來一波爆發(fā)式增長。

首先往毡,人工智能行業(yè)本身的發(fā)展蒙揣,將進(jìn)一步帶動(dòng)數(shù)據(jù)標(biāo)注行業(yè)。目前能被建模量化的數(shù)據(jù)只占真實(shí)世界中的極少一部分】t,F(xiàn)有的數(shù)據(jù)標(biāo)注業(yè)務(wù)主要集中在安防和自動(dòng)駕駛領(lǐng)域懒震,未來,隨著AI深入更多垂直行業(yè)嗤详,新需求將不斷出現(xiàn)个扰。

何軍告訴「甲子光年」,前些天就出現(xiàn)了一個(gè)他沒見過的標(biāo)注內(nèi)容葱色,北航的學(xué)生找上門來递宅,要對“積云”進(jìn)行標(biāo)注。杜霖也跟「甲子光年」分享,他們做過一個(gè)很有意思的標(biāo)注項(xiàng)目——標(biāo)注指甲區(qū)域办龄,因?yàn)榭蛻粢雒兰讬C(jī)器人烘绽。

其次,在現(xiàn)有的主流“有監(jiān)督學(xué)習(xí)”的算法模型下土榴,為了讓算法有更高的準(zhǔn)確率诀姚,數(shù)據(jù)不嫌多响牛。Google的技術(shù)大牛Jeff Dean曾在一次公開課上展示一個(gè)海量數(shù)據(jù)的訓(xùn)練結(jié)果玷禽,如下圖所示:橫軸代表數(shù)據(jù)規(guī)模,縱軸代表準(zhǔn)確率呀打,藍(lán)線是深度神經(jīng)網(wǎng)絡(luò)算法矢赁,綠線是傳統(tǒng)訓(xùn)練方法。

可以看到贬丛,藍(lán)線的準(zhǔn)確率和數(shù)據(jù)規(guī)模及質(zhì)量持續(xù)成正比撩银,并沒有出現(xiàn)趨于平滑的拐點(diǎn),這說明深度學(xué)習(xí)對數(shù)據(jù)有源源不斷的需求豺憔。



第三额获,從感知智能到認(rèn)知智能的跨越,需要的數(shù)據(jù)維度會更大恭应,這可能催生更精細(xì)的數(shù)據(jù)標(biāo)注需求——如對一段對話數(shù)據(jù)的標(biāo)注抄邀,不僅要知道對話內(nèi)容、語義昼榛,可能還需要標(biāo)注談話者身份境肾、情緒變化等。

杜霖告訴「甲子光年」胆屿,人工智能公司的總支出中奥喻,目前有20%-30%用于數(shù)據(jù),現(xiàn)階段大陸市場數(shù)據(jù)采集及標(biāo)注的規(guī)模保守估計(jì)有五十億非迹。一個(gè)參考是环鲤,新三板上市公司數(shù)據(jù)堂2016年的營收達(dá)到了9680萬元人民幣。

京東眾智平臺的負(fù)責(zé)人李工對未來也很樂觀憎兽,他認(rèn)為楔绞,包括采集、標(biāo)注唇兑、清洗等流程的數(shù)據(jù)市場未來將達(dá)上百億酒朵。

但這一切都是基于“有監(jiān)督學(xué)習(xí)”這個(gè)大前提。行業(yè)的一個(gè)變量是扎附,如果算法從“有監(jiān)督學(xué)習(xí)”升級為無監(jiān)督學(xué)習(xí)蔫耽、強(qiáng)化學(xué)習(xí)或遷移學(xué)習(xí),數(shù)據(jù)標(biāo)注需求將大大減少。

技術(shù)進(jìn)步和躍升自有其規(guī)律匙铡,目前無監(jiān)督學(xué)習(xí)等新算法仍然只是學(xué)界的探索图甜,尚不能用在大規(guī)模的商業(yè)落地中。

杜霖判斷鳖眼,新的革新性算法黑毅,至少5年內(nèi)都不會出現(xiàn)。Novumind創(chuàng)始人吳韌此前接受「甲子光年」專訪時(shí)則認(rèn)為钦讳,深度學(xué)習(xí)加大數(shù)據(jù)就是人工智能的“way to go”矿瘦,較難出現(xiàn)顛覆性的其他路徑。

5年愿卒,對公司來說是一個(gè)可以布局缚去、掉頭的“窗口期”。京東眾智的李工告訴「甲子光年」琼开,他們應(yīng)對變化的策略是輕運(yùn)營和“產(chǎn)品化”易结,著力研發(fā)加速AI落地速度的Pre-A.I.產(chǎn)品,并同時(shí)研發(fā)平臺技術(shù)柜候,做到“數(shù)據(jù)與流程分離架構(gòu)”搞动。數(shù)據(jù)標(biāo)注本身不是他們的核心戰(zhàn)略。

BasicFinder也有類似布局渣刷,他們希望一手對接垂直行業(yè)里的數(shù)據(jù)生產(chǎn)者鹦肿,一手對接上游的算法模型公司,共同推進(jìn)AI的行業(yè)落地飞主。

但對數(shù)據(jù)標(biāo)注者個(gè)體來說狮惜,5年后,也許就不得不面臨再一次“失業(yè)”碌识。到時(shí)碾篡,他們還能跟隨時(shí)代的腳步騰挪轉(zhuǎn)移嗎?

燙手的小袁

小袁暫時(shí)想不到5年后那么長久的事筏餐。

作為一名換過40份工作的聾啞人开泽,他很慶幸,終于在“數(shù)據(jù)標(biāo)注”領(lǐng)域成了“有用的人”魁瞪。

小袁是京東眾智平臺上“靜公會”的聾啞人標(biāo)注員穆律,這個(gè)公會全部由聽障人士組成。

先后在餐廳导俘、奶粉廠打工的小袁峦耘,總是因?yàn)闊o法避險(xiǎn)、難以溝通被辭退:“我是燙手的小袁旅薄,因?yàn)槲沂敲@啞人辅髓,所以我總是會燙到身邊的人,被扔出很遠(yuǎn)很遠(yuǎn)÷蹇冢”

相比過去的工作矫付,數(shù)據(jù)標(biāo)注的安全性更高,但也需要相互溝通第焰。

杜霖和殘疾人群體深入交流后發(fā)現(xiàn)买优,聾啞人的世界里多為名詞、缺乏形容詞挺举,比如要向他們解釋這根線標(biāo)得不“直”杀赢,就會比較費(fèi)勁。由于輸入信號會被擋掉一半豹悬,所以聾啞人接受速度只有健全人的三分之一到五分之一葵陵。健全人一周能搞定的培訓(xùn)液荸,聾啞人要花三周或更久瞻佛。

但是他們的優(yōu)點(diǎn)是專注、較勁兒娇钱、對視覺信號敏銳伤柄,數(shù)據(jù)標(biāo)注行業(yè)對他們來說是機(jī)會。

齊工是京東眾智平臺的培訓(xùn)講師文搂,幾乎每天都去給小袁和工友講課适刀。齊工說,“想當(dāng)把英雄煤蹭,承擔(dān)更多的責(zé)任笔喉。”

齊工給聾啞人培訓(xùn)硝皂,左一為齊工常挚,右一為小袁

第一次,他們在工作中找到了歸屬感稽物。像小袁這樣的聾啞人在眾智平臺上還有一千多名奄毡,京東為他們成立專門的“靜公會”,項(xiàng)目上優(yōu)先照顧贝或。全職每月有三四千收入吼过,兼職每月有一千以上收入。

杜霖手下也有三個(gè)殘疾人團(tuán)隊(duì)咪奖,總共約80人盗忱。杜霖和京東負(fù)責(zé)人都表示,愿意為更多殘疾人提供工作機(jī)會羊赵。

在數(shù)據(jù)標(biāo)注這份職業(yè)消失之前趟佃,這里是他們的家。其中的少數(shù)人,也許能通過轉(zhuǎn)型為數(shù)據(jù)質(zhì)檢者揖闸,獲得更長期的職業(yè)生涯揍堕。

杜霖將公司取名為BasicFinder, 初衷是找到人工智能世界中最本真的一層關(guān)系——數(shù)據(jù)。新生代農(nóng)民工和聾啞人汤纸,投身于數(shù)據(jù)標(biāo)注這份工作中衩茸,也是希望找到最本真的生活。他們的要求很樸實(shí)贮泞,用犇犇的話來講是:有一份穩(wěn)定的工作楞慈,有一個(gè)幸福的家庭。

但科技的發(fā)展啃擦,必將帶來智能升級囊蓝,也使整個(gè)行業(yè)更加規(guī)范化。

這有點(diǎn)像武士的悖論:武士存在是為了消滅敵人令蛉,但是消滅了敵人武士也就失去了存在的理由聚霜,這個(gè)意義上,他們是在消滅自己珠叔。

數(shù)據(jù)標(biāo)注者的工作是幫機(jī)器更好的學(xué)習(xí)蝎宇,促進(jìn)人工智能行業(yè)的發(fā)展,而當(dāng)行業(yè)發(fā)展到一定階段祷安,可能將不再需要如此眾多的人工標(biāo)注姥芥。

其實(shí)整個(gè)人工智能的發(fā)展歷程也有點(diǎn)像“孤獨(dú)的武士”:人類發(fā)明了機(jī)器,到頭來機(jī)器很可能取代大部分人工汇鞭,甚至是“發(fā)明者”本人凉唐。

但是,是武士霍骄,就必須去消滅敵人台囱。對知識的無限追求既是人類的天賦也是人類的危險(xiǎn),它早已深藏于我們的基因之中腕巡,呼喚我們不斷逼近未知邊界玄坦。

更高的智能一定會到來,認(rèn)知差距將取代財(cái)富差距成為最顯著的人群劃分標(biāo)準(zhǔn)——那可能是一種更無形的“折疊”绘沉。

未來煎楣,當(dāng)我們真正享受智能帶來的各種便捷時(shí),歷史會遺忘這些人工智能領(lǐng)域的“首批工人”嗎车伞?

這可能是除了技術(shù)水平之外择懂,判斷那個(gè)未來是好是壞的更重要的標(biāo)準(zhǔn)。

END.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末另玖,一起剝皮案震驚了整個(gè)濱河市困曙,隨后出現(xiàn)的幾起案子表伦,更是在濱河造成了極大的恐慌,老刑警劉巖慷丽,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蹦哼,死亡現(xiàn)場離奇詭異,居然都是意外死亡要糊,警方通過查閱死者的電腦和手機(jī)纲熏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來锄俄,“玉大人局劲,你說我怎么就攤上這事∧淘” “怎么了鱼填?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長毅戈。 經(jīng)常有香客問我苹丸,道長,這世上最難降的妖魔是什么竹祷? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任谈跛,我火速辦了婚禮羊苟,結(jié)果婚禮上塑陵,老公的妹妹穿的比我還像新娘。我一直安慰自己蜡励,他們只是感情好令花,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著凉倚,像睡著了一般兼都。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上稽寒,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天扮碧,我揣著相機(jī)與錄音,去河邊找鬼杏糙。 笑死慎王,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宏侍。 我是一名探鬼主播赖淤,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼谅河!你這毒婦竟也來了咱旱?” 一聲冷哼從身側(cè)響起确丢,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吐限,沒想到半個(gè)月后鲜侥,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诸典,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年剃毒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,090評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖垮兑,靈堂內(nèi)的尸體忽然破棺而出捐韩,到底是詐尸還是另有隱情,我是刑警寧澤琴庵,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響轰豆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜齿诞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一酸休、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧祷杈,春花似錦斑司、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至私蕾,卻和暖如春僵缺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背踩叭。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工磕潮, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人容贝。 一個(gè)月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓自脯,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嗤疯。 傳聞我的和親對象是個(gè)殘疾皇子冤今,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容