2015年底,龍貓數(shù)據(jù)CEO昝智主動停薪半年罢艾。
一年前楣颠,昝智對給公交系統(tǒng)做移動支付信心滿滿尽纽,并與他在豌豆莢負責技術(shù)的同事姚毅一拍即合,二人決定出來創(chuàng)業(yè)球碉。
當時昝智已經(jīng)與北上廣深的公交集團達成合作蜓斧。哪知商場風向瞬息萬變,支付寶和微信爭相在線下燒錢推廣睁冬,且已蔓延至公交系統(tǒng)挎春。微信、支付寶兩大移動支付巨頭盤踞在側(cè)豆拨,一直燒錢運營的狀態(tài)下直奋,致使昝智的業(yè)務(wù)急劇收縮,員工也從高峰期近三十人縮到十幾個人施禾。
必須尋找下一個業(yè)務(wù)刺激點脚线。
趁著微信紅利尚未褪盡,為了讓團隊先活下去弥搞,昝智決定做微信公號運營邮绿,用發(fā)紅包等方式聚集了一批用戶,用戶通過發(fā)朋友圈的方式給商家做推廣攀例,昝智稱為 「眾包」模式船逮。
今天的龍貓數(shù)據(jù)40個全職員工,合作客戶有50多家粤铭,靠眾包平臺上的400萬用戶挖胃,已經(jīng)發(fā)展成為人工智能領(lǐng)域提供大數(shù)據(jù)采集標注處理、線下巡檢梆惯、市場推廣的服務(wù)商酱鸭,平臺每天平均完成任務(wù)量是20萬件。
然而這個方向被昝智稱為「機緣巧合」垛吗。
2016年凹髓,昝智看到AI爆發(fā)的風潮,躍躍欲試职烧,但非科班出生的他對人工智能拿捏不準扁誓,一時進退兩難。
同年6月蚀之,百度找上門來蝗敢,需要非常多的原始數(shù)據(jù)來訓練算法,「小度」才會變得聰明足删。?如果單獨找上千人收集數(shù)據(jù)寿谴,不僅一時間湊不齊那么多人,而且成本會很高失受。在沒有第三方眾包平臺之前讶泰,做語音識別的科大訊飛就曾自己招募了上千名標注員咏瑟。
「人工智能,人工越多越智能痪署÷肱ⅲ」昝智對新經(jīng)濟100人說。
依靠龍貓數(shù)據(jù)的眾包平臺優(yōu)勢狼犯,百度很快完成了數(shù)據(jù)采集余寥。
2016年AI元年,轉(zhuǎn)型還有機會悯森。昝智總結(jié)人工智能最重要的三點:除人才外宋舷,還有兩處基礎(chǔ)服務(wù)很重要,一是數(shù)據(jù)瓢姻,二是運算能力祝蝠。龍貓數(shù)據(jù)將火力集中在數(shù)據(jù)上』眉睿「不要想著怎么去改變這個世界绎狭,而應(yīng)該更多想想世界需要什么∪彀」
龍貓數(shù)據(jù)投資人坟岔、九合創(chuàng)投創(chuàng)始合伙人王嘯認為,「類似當年的『移動戰(zhàn)略』,AI作為底層邏輯摔桦,將帶領(lǐng)互聯(lián)網(wǎng)將進入『智能互聯(lián)網(wǎng)』階段。智能互聯(lián)網(wǎng)包含數(shù)據(jù)層承疲、基礎(chǔ)設(shè)施層邻耕、技術(shù)設(shè)施層和消費層四個基礎(chǔ)面,其中數(shù)據(jù)層是整個鏈條的基礎(chǔ)燕鸽⌒质溃」
隨著人工智能的深入發(fā)展,文本啊研、圖片御滩、語音、視頻等形式的數(shù)據(jù)需求越來越多党远。相關(guān)創(chuàng)業(yè)公司也應(yīng)需而起削解。新經(jīng)濟100人發(fā)現(xiàn),行業(yè)里發(fā)展較早的海天瑞聲和數(shù)據(jù)堂沟娱,前者主要做語音數(shù)據(jù)氛驮,后者有部分非定制化數(shù)據(jù)出售業(yè)務(wù),其他創(chuàng)業(yè)公司還比較早期济似。
「我們相信能夠高效率收集原始數(shù)據(jù)的公司將會創(chuàng)造巨大價值矫废≌电停」王嘯說。
昝智認為蓖扑,龍貓數(shù)據(jù)的優(yōu)勢在于能提供定制化生產(chǎn)需求:人工智能公司在前期搞模型時唉铜,可以用公開數(shù)據(jù)訓練,但隨著發(fā)展的深入律杠,需要有定制化的數(shù)據(jù)來提高準確率潭流。
比如近年來智能音箱的流行,首先要有喚醒詞俩功。比如百度的是「小度小度」幻枉,小米的是「小愛同學」,啟動后還有指令詞诡蜓,比如「開空調(diào)」熬甫,「播放一首TFBOYS的《青春修煉手冊》」。機器要輸入不同口音蔓罚、不同年齡段椿肩、各種喜怒哀樂情緒下的語音,才能變聰明豺谈。
文本類應(yīng)用也很廣泛郑象。比如在各大電商的售后系統(tǒng)中,客服機器人的功勞不容小覷茬末,通過一些關(guān)鍵詞能做好顧客基本的售后服務(wù)厂榛,緩解人工客服的壓力。比如在網(wǎng)站文章和留言的審核上丽惭,機器通過學習后能快速大量阻擋涉黃與不良信息等击奶。
有些采集來的數(shù)據(jù)仍不能直接使用,需要人工標注才能「喂食」機器责掏,這便要引出龍貓數(shù)據(jù)的另一大業(yè)務(wù)——數(shù)據(jù)標注柜砾,尤其在圖片處理上應(yīng)用較廣。
比如在人臉識別上换衬,不光要精確標注五官痰驱,就連眼睛就有好幾處需要標注,內(nèi)眼角瞳浦、外眼角担映、眼角間的弧線和等分點等。比如無人車應(yīng)用上术幔,機動車另萤、非機動車、紅綠燈、行人四敞、行駛路線等都要一一標注泛源,給機器耐心引導。目前這塊多做2D標注忿危,未來要做的3D標注會更加復雜达箍。
對風險比較高的金融和個人隱私數(shù)據(jù),龍貓會先調(diào)查使用用途铺厨,用途不明的或者太隱私的數(shù)據(jù)項目會直接拒絕缎玫。對所持數(shù)據(jù),甲乙雙方都會簽保密合同解滓,數(shù)據(jù)只能使用一次赃磨,雙方不能轉(zhuǎn)售外泄。
據(jù)了解洼裤,很多公司通過正規(guī)渠道和價格邻辉,獲取數(shù)據(jù)接口,但調(diào)用數(shù)據(jù)時腮鞍,會在本地設(shè)備形成一個緩存庫值骇,當數(shù)據(jù)積累到一定程度后,便二次銷售緩存庫里的數(shù)據(jù)移国,這些緩存庫也一度成為黑客的獵物吱瘩。
數(shù)據(jù)提供商就這樣野蠻生長著。
為了站穩(wěn)腳跟迹缀,龍貓數(shù)據(jù)推出「先使用后付款」政策使碾,如果效果不好可以不付款,早期就出現(xiàn)這樣一個例子祝懂。
那是個文字判斷項目部逮,帶有很強的主觀性,連規(guī)則就有十幾頁嫂易,需要幾萬人同時做判斷,客戶希望準確率達到95%以上掐禁。早期運營團隊缺乏經(jīng)驗怜械,快到截止日了才搞清規(guī)則,最后做的效果也不好傅事,項目一分錢沒收回來缕允。
龍貓數(shù)據(jù)銷售總監(jiān)謝林波很生氣,在客戶和運營團隊兩頭溝通蹭越,他說昝智很冷靜障本。「他要搞清楚問題在哪,主觀和客觀原因是什么驾霜,沒有過多地考慮公司損失案训。」謝林波回憶昝智的做法粪糙。
此后再碰到難弄的文本判斷類項目强霎,龍貓會事先篩選一批標注員,比如學歷高的蓉冈,以前做任務(wù)很認真的城舞,做過類似任務(wù)的,把任務(wù)定向發(fā)給這些人寞酿。
眾包的用戶是數(shù)據(jù)采集的來源家夺,也是數(shù)據(jù)標注的執(zhí)行者,用戶運營關(guān)系到整個數(shù)據(jù)服務(wù)的規(guī)姆サ化拉馋。
打開龍貓眾包App,可以在「數(shù)據(jù)采集」任務(wù)欄下看到多個任務(wù)掸茅,有男性20個手勢賺6元椅邓、老人的現(xiàn)在和過去賺3元、拍汽車內(nèi)吸煙照片賺6.3元等昧狮,點進去會有每項任務(wù)的詳情要求景馁,對照片背景和人物姿態(tài)都有規(guī)定。新經(jīng)濟100人試驗了幾項任務(wù)逗鸣,一兩天左右就有審核結(jié)果出來合住。
用戶中學生群體占大多數(shù),還有一些寶媽和低收入年輕群體撒璧。龍貓數(shù)據(jù)發(fā)現(xiàn)很多人不看任務(wù)要求透葛,還埋怨審核不通過。比如照片的臉龐往左偏與右偏都有要求卿樱,很多人經(jīng)常弄混淆僚害,以自己的方位來推斷圖中人的方位。后來繁调,龍貓數(shù)據(jù)干脆錄了一段視頻萨蚕,直觀地講解要求,有時也會開直播室來培訓蹄胰,實在不懂就直接電話客服岳遥。
為了減輕團隊壓力、活躍用戶裕寨,昝智決定建立工會浩蓉,給用戶優(yōu)惠策略派继,讓用戶管理用戶,大家可以在一個群里交流捻艳,老人帶新人驾窟。目前總體考核通過率50%-60%,熟練工通過率更高讯泣。
除了培訓外纫普,龍貓數(shù)據(jù)還會讓用戶參與審核。這在早期是不可想象的好渠,以前都是客戶給結(jié)果后昨稼,龍貓數(shù)據(jù)才給用戶審核,發(fā)錢的發(fā)錢拳锚,拒絕的拒絕假栓,但時間太長,會打擊用戶積極性霍掺。昝智決定打破規(guī)則匾荆,先自己審核,只要用戶做好任務(wù)杆烁,就按規(guī)則發(fā)錢牙丽,這意味著龍貓要承擔所有的風險,萬一客戶覺得效果不好兔魂,龍貓就要擔著損失烤芦。
龍貓數(shù)據(jù)CTO姚毅說,目前龍貓有三種審核方式析校,一是自己審核构罗,二是交給用戶審核,三是自動審核智玻,適用于客觀判斷題項目遂唧。后續(xù)還有交叉驗證等進一步控制質(zhì)量。
目前吊奢,數(shù)據(jù)采集主要在龍貓眾包App上盖彭,數(shù)據(jù)標注主要在PC端。
謝林波曾做過人臉的標注任務(wù)页滚,「要標200多個點谬泌,眼睛疼得受不了,要特別心細」逻谦,后來,他把一張臉拆成幾部分陪蜻,有人專門標眼睛邦马,有人標嘴巴,大家就輕松多了,目前做1小時標注賺15元左右滋将。
龍貓數(shù)據(jù)是一家技術(shù)加銷售導向的公司邻悬,一端連著智能公司客戶,一端系著普通用戶随闽,龍貓數(shù)據(jù)需要平衡好這個「蹺蹺板」父丰。
有客戶會和謝林波叫價,反正你們那么多人掘宪,任務(wù)那么容易蛾扇,不能便宜點嗎?謝林波讓他們換位思考魏滚,「如果給你幾塊錢镀首,你愿意拍幾張照片嗎,他(客戶)就不說話了鼠次,那為什么別人愿意接受低廉的價格更哄?大家要互相理解。再說了腥寇,價格低了成翩,短時間收集不了那些數(shù)據(jù),對你一點意義都沒有赦役÷榈校」
「我們既要對客戶好,也要對用戶好扩劝,這樣我們才能發(fā)展庸论,一方都不能得罪“羟海」謝林波對新經(jīng)濟100人說聂示。
除了客戶與用戶,龍貓數(shù)據(jù)也需要時刻關(guān)注人工智能行業(yè)的發(fā)展簇秒。隨著增強學習鱼喉、遷移學習等算法的發(fā)展,只需要少量數(shù)據(jù)就可以達成一定效果趋观,數(shù)據(jù)提供商的價值是否打折扛禽?
姚毅覺得即便如此,市場仍有數(shù)據(jù)量的需求皱坛,采集和標注還是需要人來做肩杈,而且還存在不同形態(tài)曲尸、不同維度的數(shù)據(jù),比如人臉識別每聪,做完普通亞洲人的,還有其他人種、不同側(cè)面、多個光源、不同年紀等萍膛。「當一個新的應(yīng)用場景誕生時嚷堡,就會衍生出一批新的數(shù)據(jù)需求蝗罗。」
在昝智看來蝌戒,未來5年內(nèi)人工智能還得依賴監(jiān)督學習串塑,所謂監(jiān)督學習就是人標注好了數(shù)據(jù)讓機器看,監(jiān)督它去學習瓶颠。
除了做好數(shù)據(jù)服務(wù)外拟赊,昝智想著可以在人工智能領(lǐng)域做延展。比如看到不少AI公司的研發(fā)領(lǐng)域和數(shù)據(jù)需求很相似粹淋,日后可能參與類似數(shù)據(jù)共享平臺的建設(shè)吸祟。
在更長遠的定位上,龍貓數(shù)據(jù)是一家給人工智能公司提供基礎(chǔ)服務(wù)的平臺桃移,「在這個過程中我可以洞察到很多的機會屋匕,也可能就某些機會去做進一步的事情〗杞埽」昝智對新經(jīng)濟100人說过吻。
當務(wù)之急,昝智想盡快把國內(nèi)頂尖的互聯(lián)網(wǎng)科技公司和AI公司都簽下來蔗衡,已經(jīng)簽約50多個纤虽,包括百度、騰訊绞惦、小米逼纸、今日頭條、蔚來汽車济蝉、出門問問等杰刽。目前包括互聯(lián)網(wǎng)巨頭+新興人工智能創(chuàng)業(yè)公司總共在300家左右。
「真的要有戰(zhàn)斗精神王滤,如果認定了這個市場贺嫂,你要有非常強大的內(nèi)心,你得把整個蛋糕吃完雁乡〉谠」30歲的昝智說。
「我的作戰(zhàn)能力是有的踱稍,但除了自己搏殺曲饱,怎么帶大家都進入搏殺的狀態(tài)吩跋,是需要思考的∮婀ぃ」