有一個非常形象的比喻——數(shù)據(jù)是21世紀(jì)的石油临谱。
然而,大多數(shù)原始數(shù)據(jù)其實(shí)更像原油套利,并不能直接拿來就用推励。特別是在如火如荼的AI領(lǐng)域,更需要先進(jìn)行數(shù)據(jù)標(biāo)注肉迫,將原始數(shù)據(jù)變成算法可用數(shù)據(jù)验辞。如果數(shù)據(jù)是原油,那么數(shù)據(jù)標(biāo)注就是把原油提煉為成品油的過程喊衫。
數(shù)據(jù)標(biāo)注得越精準(zhǔn)跌造、對算法模型訓(xùn)練的效果就越好。大部分算法在擁有足夠多普通標(biāo)注數(shù)據(jù)的情況下族购,能夠?qū)?zhǔn)確率提升到 95%壳贪,但從 95% 再提升到 99% 甚至 99.9% ,就需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)寝杖〕挪辏可以說,高質(zhì)量的數(shù)據(jù)是制約模型和算法突破瓶頸的關(guān)鍵指標(biāo)朝墩。
事實(shí)上醉拓,正是由于數(shù)據(jù)標(biāo)注的重要性,在AI產(chǎn)業(yè)的上游已經(jīng)形成了一條數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈收苏。京東金融也在去年8月推出了專注于人工智能數(shù)據(jù)標(biāo)注的科技平臺——京東眾智亿卤。
京東金融之所以上馬京東眾智項目,是因為隨著公司AI研發(fā)的加速推進(jìn)鹿霸,急劇增長的數(shù)據(jù)需求在市場上得不到有效滿足排吴。
京東眾智負(fù)責(zé)人回憶說:“隨著業(yè)務(wù)量的增大,我們在AI開發(fā)中需要的數(shù)據(jù)標(biāo)注量越來越大懦鼠。我們找過很多數(shù)據(jù)標(biāo)注公司钻哩,但是合作效果都不理想。這些問題嚴(yán)重拖累了很多項目的開發(fā)進(jìn)度肛冶。痛定思痛街氢,我們決定開發(fā)自己的數(shù)據(jù)標(biāo)注平臺,立項的時間是去年5月睦袖,我們只用了三個月時間珊肃,就在去年8月上線了京東眾智平臺。”
京東眾智開發(fā)團(tuán)隊總結(jié)了各類數(shù)據(jù)標(biāo)注平臺的優(yōu)點(diǎn)伦乔,并針對效率厉亏、質(zhì)量、數(shù)據(jù)安全等痛點(diǎn)烈和,對癥下藥——
- 人員專業(yè)度: 通過科學(xué)的培訓(xùn)機(jī)制和激勵機(jī)制爱只,建立起一套從標(biāo)注專員到標(biāo)注專家,再到高級專家和講師的完整人才體系招刹。
2)場景豐富度:開發(fā)了覆蓋無人駕駛虱颗、智能服務(wù)機(jī)器人、醫(yī)療影像輔助診斷等八大業(yè)務(wù)場景的一系列專業(yè)工具和豐富模板蔗喂。
3)審核機(jī)制: 與業(yè)內(nèi)常見的抽檢和一重審核不同,京東眾智設(shè)置了雙重審核機(jī)制高帖,針對一些復(fù)雜度高的標(biāo)注任務(wù)缰儿,甚至?xí)M(jìn)行第三重審核,以確保最終標(biāo)注質(zhì)量散址。
傳統(tǒng)的數(shù)據(jù)標(biāo)注行業(yè)更像一個勞動密集型產(chǎn)業(yè)乖阵,主要是靠人工方式對文本、圖片预麸、語音瞪浸、視頻等數(shù)據(jù)進(jìn)行標(biāo)注。
京東金融推出Pre-AI快速落地方案吏祸,將人工標(biāo)注和智能標(biāo)注同步進(jìn)行——第一步由人工進(jìn)行少量標(biāo)注对蒲,生成標(biāo)注樣本。第二步對樣本進(jìn)行建模訓(xùn)練贡翘,然后用訓(xùn)練出來的模型進(jìn)行數(shù)據(jù)預(yù)標(biāo)注蹈矮,由人工判斷標(biāo)注是否準(zhǔn)確,并反饋結(jié)果用于優(yōu)化算法鸣驱,直到機(jī)器標(biāo)注的準(zhǔn)確率達(dá)到99%時泛鸟,人工完全撤出。
Pre-AI方案明顯提高了數(shù)據(jù)標(biāo)注平臺效率踊东,用一個星期的時間北滥,就能完成傳統(tǒng)模式下一個月的標(biāo)注任務(wù)。
對于很多企事業(yè)單位來說闸翅,在將數(shù)據(jù)標(biāo)注外包時再芋,都會擔(dān)心數(shù)據(jù)安全問題,尤其是對于政府部門坚冀、銀行等金融機(jī)構(gòu)來說祝闻,數(shù)據(jù)安全問題至關(guān)重要。
為了確保涉密數(shù)據(jù)、核心數(shù)據(jù)的安全联喘,京東金融開發(fā)了數(shù)據(jù)與流程分離的DCS架構(gòu)华蜒。合作企業(yè)只要部署一套“眾智星”系統(tǒng),就可以通過調(diào)用接口的方式鏈接到京東眾智平臺豁遭,從而確保數(shù)據(jù)在不外流的情況下叭喜,使用京東眾智現(xiàn)有的工具模板、人員體系蓖谢、流程體系捂蕴。
京東眾智上線一年來,一位來自銀行的客戶表示:“過去闪幽,我們做一條身份證地址標(biāo)注啥辨,成本是2毛到6毛錢,在京東眾智平臺上只需要5分錢盯腌,而且標(biāo)注周期縮短為原先的四分之一溉知,質(zhì)量也明顯提高⊥蠊唬”喜悅之情溢于言表级乍。
總結(jié)京東眾智一年來取得的成績,京東眾智負(fù)責(zé)人表示:“我們在做京東眾智時帚湘,選擇了一條與業(yè)內(nèi)流行的輕模式截然相反的重模式玫荣,別人不提供預(yù)打標(biāo)、人員培訓(xùn)大诸、標(biāo)注工具捅厂、審核機(jī)制,我們都提供资柔。第一年恒傻,我們的重點(diǎn)是做好產(chǎn)品、技術(shù)和人才體系建邓;未來我們的重點(diǎn)是打造合作生態(tài)盈厘。希望在不久的將來,國內(nèi)大部分的AI公司都可以用我們平臺上標(biāo)注的高質(zhì)量數(shù)據(jù)官边,訓(xùn)練出更優(yōu)質(zhì)的模型和算法沸手。”