如何有效提升AI模型的數(shù)據(jù)質(zhì)量

maxime-valcarce-mAj8xn5zXsk-unsplash.jpg

<p align="center">Photo by Maxime VALCARCE on Unsplash</p>

我們不缺數(shù)據(jù)

以大家熟悉的銀行舉例畦木,《2019年支付體系運(yùn)行總體情況》顯示绞绒,2019年全國共開立銀行賬戶[1]113.52億戶,同比增長12.07%耕腾。中國人民銀行支付系統(tǒng)[2]共處理支付業(yè)務(wù)5685.12億筆见剩,金額6902.22萬億元。這些交易扫俺,每筆都需要被存儲苍苞,數(shù)據(jù)規(guī)模可以想象狼纬。

除了數(shù)據(jù)規(guī)模巨大羹呵,金融機(jī)構(gòu)數(shù)據(jù)準(zhǔn)確度高。這不難想象畸颅,金融機(jī)構(gòu)在其核心系統(tǒng)上投入巨大担巩。金融從業(yè)人員大概都知道,如果是人為原因?qū)е驴蛻舻馁Y金出錯没炒,是有直接被開除的風(fēng)險涛癌。全世界各國金融監(jiān)管機(jī)構(gòu)都有具體法律條款、制度規(guī)范送火,約束賬戶類數(shù)據(jù)的準(zhǔn)確性拳话。

金融機(jī)構(gòu)更是最愿意嘗試AI技術(shù)、實(shí)現(xiàn)開源節(jié)流的行業(yè)种吸。數(shù)據(jù)顯示弃衍,其應(yīng)用AI技術(shù)已初見成效。以中國一家股份制商業(yè)銀行為例坚俗,通過使用聊天機(jī)器人替代傳統(tǒng)坐席镜盯,月均接待用戶進(jìn)線量350萬次岸裙,每年直接節(jié)約人力成本超過人民幣2000萬元。公平的說速缆,金融機(jī)構(gòu)確實(shí)在AI能力應(yīng)用上降允,摘到了低垂的果實(shí)。媒體上“人工智能將在各行各業(yè)逐步替代人工”的報道艺糜,也經(jīng)常成為頭條剧董。但真的是這樣嗎?

我們?nèi)钡氖歉哔|(zhì)量的數(shù)據(jù)

AI行業(yè)大量的研究聚焦到算法層面破停,企業(yè)對數(shù)據(jù)質(zhì)量的關(guān)注明顯是不夠的翅楼。但只有高質(zhì)量的數(shù)據(jù),才能使算法在實(shí)際場景中見效真慢。對數(shù)據(jù)質(zhì)量的持續(xù)優(yōu)化毅臊,也能解決人工標(biāo)注出現(xiàn)的錯誤。

但在實(shí)際工作中晤碘,要想提升訓(xùn)練模型數(shù)據(jù)的質(zhì)量褂微,我們面臨有很多挑戰(zhàn)功蜓,主要表現(xiàn)在評價數(shù)據(jù)質(zhì)量的兩個維度上:正確性連慣性园爷。前者,是要確定數(shù)據(jù)是正確的式撼。這在傳統(tǒng)賬戶體系上童社,是顯而易見的。如基于NLP的語義理解著隆,正確大概可以被解釋為:沒有錯別字扰楼、文字表達(dá)的意圖明確、用于訓(xùn)練機(jī)器人的不同F(xiàn)AQ語料之間沒有重復(fù)美浦、相似意圖等弦赖。后者,即:連貫性浦辨,要求不同人對同一事物的看法是一致的蹬竖。考慮到個體認(rèn)知的差異化流酬,這點(diǎn)也很難币厕。

我們數(shù)據(jù)質(zhì)量到底有多好

為量化數(shù)據(jù)質(zhì)量,我們用Thomas C. Redman博士提出的一個簡單芽腾、清晰的公式“Friday Afternoon Measurement” (FAM)來計算數(shù)據(jù)質(zhì)量評分[3]旦装。對我們上文提到的文本機(jī)器人,計算該指標(biāo)的基本步驟如下:

  1. 首先摊滔,我們選定了衡量語料質(zhì)量的6個指標(biāo)阴绢,如下表所示:

    指標(biāo)名稱 指標(biāo)定義
    問答對合格率 問答對中沒有錯別字店乐、符號、縮寫呻袭,句子的長度符合具體業(yè)務(wù)的要求响巢,合格率越高越好
    標(biāo)問意圖清晰度 意圖包含明確的實(shí)體、屬性棒妨,能清楚的表達(dá)具體的含義踪古,沒有歧義,清晰度越高越好
    標(biāo)問獨(dú)立度 重復(fù)知識的占比券腔,重復(fù)度越低越好
    擴(kuò)寫匹配準(zhǔn)確率 擴(kuò)寫問和標(biāo)準(zhǔn)問匹配的正確率伏穆,越高越好
    標(biāo)問的擴(kuò)寫比 擴(kuò)展問和標(biāo)準(zhǔn)問的比例,一般在20-200之間為合格
    交互優(yōu)化率 具有交互的問答對占所有問答對的比例纷纫,一般在20%為合格
  2. 其次枕扫,我們選取了2019年12月的樣本語料,共計21,000條辱魁。

  3. 接著烟瞧,我們對每條語料打分,6個指標(biāo)都合格為6分染簇,所有指標(biāo)都不合格為0分参滴。

  4. 最后,我們用
    Std_Xi = ((Xi - Min(Xi))/(Max(Xi) - Min(Xi)))*100

將每條語料的分值標(biāo)準(zhǔn)化到【0-100】的區(qū)間內(nèi)锻弓,畫出樣本語料的治理評分的分布圖砾赔。

data_score_before.jpg

<p align="center">Initial Data Quality Assessment</p>

我們的數(shù)據(jù)顯示,僅有25%的的數(shù)據(jù)質(zhì)量勉強(qiáng)達(dá)到60分以上的水平青灼,不足0.14%的數(shù)據(jù)暴心,質(zhì)量達(dá)到了90分。根據(jù)Tadhg Nagle杂拨,Thomas C. Redman和David Sammon在[4]一文中統(tǒng)計的結(jié)果专普,僅有3%的公司數(shù)據(jù)質(zhì)量基本合格。大概率我們是不在這3%之中的弹沽。那么問題來了檀夹,如何提升數(shù)據(jù)質(zhì)量?

構(gòu)建"機(jī)器+人"的合作模式

解決方案

之前我們介紹了基于FAM公式下的數(shù)據(jù)質(zhì)量評價體系贷币,它扮演著類似審計的角色击胜,成為我們衡量的基準(zhǔn)。下面就引入我們完整的治理解決方案役纹,其由三個組件構(gòu)成偶摔,分別是服務(wù)前臺治理中臺管理后臺促脉。整體結(jié)構(gòu)如下圖所示辰斋。

  1. 服務(wù)前臺策州,關(guān)注用戶體驗優(yōu)化,通過制定一系列規(guī)范宫仗,減少人為操作的個體差異性够挂。
  2. 治理中臺,負(fù)責(zé)NLP算法的研發(fā)藕夫,為AI訓(xùn)練師提供知識運(yùn)營輔助工具孽糖,在兼顧語料人性化的同時,確保語義理解維度的標(biāo)準(zhǔn)化毅贮。
  3. 管理后臺办悟,負(fù)責(zé)制定標(biāo)準(zhǔn)化治理流程、數(shù)據(jù)監(jiān)控體系和算法優(yōu)化方向滩褥。并和前臺病蛉、中臺形成管理閉環(huán)。
data_quality_procedure.jpg

<p align="center">The Procedure For Data Quality Enhancement</p>

我們知道瑰煎,更多治理細(xì)節(jié)沒有在圖示中顯示铺然,我們歡迎讀者對感興趣的部分留言,我們也會及時回復(fù)酒甸。

算法平臺介紹

根據(jù)之前的6個衡量指標(biāo)魄健,我們采用了如下一系列算法優(yōu)化數(shù)據(jù)質(zhì)量。這些算法在實(shí)際運(yùn)用中烘挫,獲得了不錯的結(jié)果诀艰。

data_correction.jpg

<p align="center">NLP toolbox For Data Quality Enhancement</p>

通過治理后柬甥,數(shù)據(jù)質(zhì)量評分也得到了顯著的改善饮六。超過97%的數(shù)據(jù)質(zhì)量達(dá)標(biāo),更有22%的數(shù)據(jù)質(zhì)量達(dá)到了90分苛蒲。

data_score_after.jpg

<p align="center">Data Quality Assessment Revised</p>

財務(wù)價值

通過建立完整的知識治理閉環(huán)卤橄,項目成功節(jié)約運(yùn)營成本人民幣320萬元。除此之外臂外,還有一系列核心指標(biāo)得到顯著改善窟扑,包括:

  1. 知識質(zhì)量提升,從之前25%的合格率(即:達(dá)到60分)提升到了97%的合格率漏健。
  2. 知識優(yōu)化效率嚎货,從人均80條/每天,提升了45%蔫浆,到116條/每天的處理能力殖属,在我們的業(yè)務(wù)場景下,成功解決了8個全職的AI訓(xùn)練師人力瓦盛。
  3. 客戶服務(wù)滿意度洗显,用NPS(Net Promoter Score)來衡量外潜,也從35%提升到了43%。
data_quality_improve.jpg

<p align="center">Data Quality ROI </p>

下一步是什么

我們從有限的經(jīng)驗理解到挠唆,一個企業(yè)擁抱AI处窥、賦能業(yè)務(wù)場景通常會選擇以專家、領(lǐng)導(dǎo)驅(qū)動的方式推動項目落地玄组。這樣做的好處顯而易見:決策流程短滔驾、見效快,對創(chuàng)新風(fēng)險有人能承擔(dān)責(zé)任俄讹。最后一點(diǎn)在一些大型企業(yè)中尤為重要嵌灰。但這樣的方式,也有其不足的地方:

  1. 無法充分將AI項目迅速推廣颅悉,形成規(guī)模效益沽瞭。
  2. 需要轉(zhuǎn)型為數(shù)據(jù)驅(qū)動型決策機(jī)制、用數(shù)據(jù)判斷剩瓶、用工具優(yōu)化驹溃。

因此,我們的決策者除了要聆聽AI專家的專業(yè)意見外延曙,也要不斷思考和優(yōu)化支持?jǐn)?shù)據(jù)化經(jīng)營的組織架構(gòu)豌鹤。往往這才是一個企業(yè)在AI實(shí)踐中成敗的關(guān)鍵。我們在知識治理的嘗試枝缔,就是建立類似衛(wèi)星城的組織架構(gòu)布疙,讓創(chuàng)新技術(shù)迅速在企業(yè)不同業(yè)務(wù)條線得到充分的推廣和實(shí)踐。而更多的實(shí)踐和場景愿卸,又為技術(shù)迭代提供的最佳的土壤灵临。

我們都說,Machine vs. Human趴荸?你誤會了儒溉,其實(shí)Love & Peace


  1. 銀行賬戶指人民幣銀行結(jié)算賬戶 ?

  2. 包含大額實(shí)時支付系統(tǒng)、小額批量支付系統(tǒng)发钝、網(wǎng)上支付跨行清算系統(tǒng)顿涣、同城清算系統(tǒng)、境內(nèi)外幣支付系統(tǒng)酝豪、銀行業(yè)金融機(jī)構(gòu)行內(nèi)支付系統(tǒng)涛碑、銀行卡跨行支付系統(tǒng)、城市商業(yè)銀行匯票處理系統(tǒng)和支付清算系統(tǒng)孵淘、農(nóng)信銀支付清算系統(tǒng)蒲障、人民幣跨境支付系統(tǒng)、網(wǎng)聯(lián)清算系統(tǒng) ?

  3. https://hbr.org/2016/07/assess-whether-you-have-a-data-quality-problem ?

  4. https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards?autocomplete=true ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市晌涕,隨后出現(xiàn)的幾起案子滋捶,更是在濱河造成了極大的恐慌,老刑警劉巖余黎,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件重窟,死亡現(xiàn)場離奇詭異,居然都是意外死亡惧财,警方通過查閱死者的電腦和手機(jī)巡扇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垮衷,“玉大人厅翔,你說我怎么就攤上這事〔笸唬” “怎么了刀闷?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長仰迁。 經(jīng)常有香客問我甸昏,道長,這世上最難降的妖魔是什么徐许? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任施蜜,我火速辦了婚禮,結(jié)果婚禮上雌隅,老公的妹妹穿的比我還像新娘翻默。我一直安慰自己,他們只是感情好恰起,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布修械。 她就那樣靜靜地躺著,像睡著了一般村缸。 火紅的嫁衣襯著肌膚如雪祠肥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天梯皿,我揣著相機(jī)與錄音,去河邊找鬼县恕。 笑死东羹,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的忠烛。 我是一名探鬼主播属提,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了冤议?” 一聲冷哼從身側(cè)響起斟薇,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎恕酸,沒想到半個月后堪滨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蕊温,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年袱箱,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片义矛。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡发笔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出凉翻,到底是詐尸還是另有隱情了讨,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布制轰,位于F島的核電站量蕊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏艇挨。R本人自食惡果不足惜残炮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望缩滨。 院中可真熱鬧势就,春花似錦、人聲如沸脉漏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽侧巨。三九已至舅锄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間司忱,已是汗流浹背皇忿。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坦仍,地道東北人鳍烁。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像繁扎,于是被迫代替她去往敵國和親幔荒。 傳聞我的和親對象是個殘疾皇子糊闽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容