1. 可信人工智能
最近人工智能的話題又火熱了起來(lái),關(guān)于人工智能所給出的內(nèi)容也引起了很多爭(zhēng)議蜡饵。我們希望自己所使用的 AI 是可信的复隆。人類對(duì)于 AI 的信任程度和滿意程度是基于人類視角出發(fā)的,也許會(huì)涉及到用戶的個(gè)人情感和能力端壳。從技術(shù)角度出發(fā)痊剖,AI 的可信可以從以下幾個(gè)角度進(jìn)行評(píng)估:
-
魯棒性韩玩。一般而言,魯棒性是指算法或系統(tǒng)處理執(zhí)行錯(cuò)誤陆馁、錯(cuò)誤輸入或看不見的數(shù)據(jù)的能力找颓。魯棒性是影響人工智能系統(tǒng)在實(shí)證環(huán)境中性能的重要因素。缺乏健壯性還可能導(dǎo)致系統(tǒng)出現(xiàn)意外或有害行為叮贩,從而降低其安全性和可信度叮雳。術(shù)語(yǔ)魯棒性適用于多種情況:
- 數(shù)據(jù),考慮數(shù)據(jù)在不同場(chǎng)景下的多樣化分布的情況下訓(xùn)練 AI 模型妇汗。
- 算法,人們普遍認(rèn)為说莫,人工智能模型可能容易受到惡意攻擊杨箭。在各種形式的攻擊中,對(duì)抗性攻擊及其防御近年來(lái)引起了學(xué)術(shù)界和工業(yè)界的關(guān)注储狭。
- 系統(tǒng)互婿,在現(xiàn)實(shí)的 AI 產(chǎn)品中,還應(yīng)仔細(xì)考慮針對(duì)非法輸入的系統(tǒng)級(jí)魯棒性辽狈。
- 泛化性慈参。泛化一直是機(jī)器學(xué)習(xí)模型中的一個(gè)關(guān)注點(diǎn)。它代表了從有限的訓(xùn)練數(shù)據(jù)中提煉知識(shí)以對(duì)未見數(shù)據(jù)做出準(zhǔn)確預(yù)測(cè)的能力刮萌。一方面驮配,泛化要求 AI 系統(tǒng)對(duì)它們未受過(guò)訓(xùn)練的領(lǐng)域或分布上的真實(shí)數(shù)據(jù)進(jìn)行預(yù)測(cè),另一方面着茸,AI 模型應(yīng)該能夠進(jìn)行概括壮锻,而無(wú)需為各個(gè)領(lǐng)域詳盡地收集和注釋大量數(shù)據(jù),從而使 AI 系統(tǒng)在廣泛應(yīng)用中的部署更加經(jīng)濟(jì)實(shí)惠和可持續(xù)涮阔。
-
透明性與可解釋性猜绣。可解釋性旨在理解 AI 模型如何做出決策 敬特。從科學(xué)研究的角度來(lái)看掰邢,理解人工智能系統(tǒng)中數(shù)據(jù)牺陶、參數(shù)、過(guò)程和結(jié)果的所有內(nèi)在機(jī)制是有意義的辣之。這些機(jī)制還從根本上決定了 AI 的可信度掰伸。從構(gòu)建人工智能產(chǎn)品的角度來(lái)看,對(duì)可解釋性存在各種實(shí)際需求召烂。對(duì)于像銀行高管這樣的操作員來(lái)說(shuō)碱工,可解釋性有幫助了解 AI 信用系統(tǒng)以防止其中的潛在缺陷。相關(guān)研究將可解釋性分為兩個(gè)層次來(lái)解釋:
- 模型可解釋性設(shè)計(jì)奏夫。在過(guò)去半個(gè)世紀(jì)的機(jī)器學(xué)習(xí)研究中怕篷,設(shè)計(jì)了一系列完全或部分可解釋的 ML 模型。代表包括線性回歸酗昼、決策樹廊谓、KNN、基于規(guī)則的學(xué)習(xí)器麻削、廣義加性模型(GAM)和貝葉斯模型蒸痹。可解釋模型的設(shè)計(jì)仍然是 ML 中的一個(gè)活躍領(lǐng)域呛哟。
- 事后模型可解釋性叠荠。盡管上述傳統(tǒng)模型具有良好的可解釋性,但更復(fù)雜的模型在最近的工業(yè) AI 系統(tǒng)中表現(xiàn)出了更好的性能扫责。由于相關(guān)方法仍不能從整體上解釋這些復(fù)雜模型榛鼎,研究人員轉(zhuǎn)而求助于事后解釋。它通過(guò)分析模型的輸入鳖孤、中間結(jié)果和輸出來(lái)處理模型的行為者娱。對(duì)于深度學(xué)習(xí)模型,如 CNN 或transformer苏揣,檢查中間特征是一種廣泛使用的解釋模型行為的方法黄鳍。
- 公平性。在開發(fā)和應(yīng)用 AI 系統(tǒng)的過(guò)程中平匈,偏差可能有多種形式框沟,例如數(shù)據(jù)偏差、模型偏差和程序偏差增炭。偏見通常表現(xiàn)為基于受保護(hù)的信息(例如街望,性別、種族和民族)對(duì)不同人群的不公平待遇弟跑。盡管在不同場(chǎng)景下對(duì)于公平?jīng)]有統(tǒng)一的定義灾前,但是減少算法模型的偏見依然可以提高用戶對(duì)于使用 AI的信心。
-
隱私保護(hù)孟辑。隱私保護(hù)主要是指防止未經(jīng)授權(quán)使用可以直接或間接識(shí)別個(gè)人或家庭身份的數(shù)據(jù)哎甲。對(duì)隱私保護(hù)的承諾被認(rèn)為是決定人工智能系統(tǒng)可信度的重要因素蔫敲。學(xué)界針對(duì)隱私泄露問(wèn)題提出了多種針對(duì)性的保護(hù)方法,最常見的為基于差分隱私和基于聯(lián)邦學(xué)習(xí)的隱私保護(hù)方法炭玫。
上述內(nèi)容多少顯得有些泛泛而談奈嘿,具體到技術(shù)上應(yīng)該如何實(shí)現(xiàn)提升模型的可信度呢?由于時(shí)間和精力有限吞加,這里只總結(jié)了可解釋和不確定性估計(jì)的相關(guān)內(nèi)容裙犹。
不確定性估計(jì):如何實(shí)現(xiàn)可信 AI:不確定性估計(jì)
2. 模型可解釋性
從工業(yè)需求來(lái)看,由于自動(dòng)駕駛衔憨、醫(yī)療保健叶圃、刑事司法、金融服務(wù)等領(lǐng)域的安全和社會(huì)問(wèn)題践图,模型的可解釋性有時(shí)比準(zhǔn)確性等其他指標(biāo)更重要掺冠。
可解釋性一詞對(duì)應(yīng)到英文有兩種說(shuō)法:interpretablilty 和 explainability,兩者的區(qū)別在于解釋的對(duì)象不同(只是針對(duì)這兩個(gè)單詞作為“可解釋模型”出現(xiàn)在論文里的情況)码党。Interpretability 指的是可以通過(guò)模型內(nèi)部機(jī)制或者參數(shù)德崭,來(lái)理解模型如何進(jìn)行預(yù)測(cè)的能力,即模型本身是可解釋的揖盘、可以理解的眉厨。Explainability 指的是使用外部輔助工具或技術(shù)來(lái)描述一個(gè)模型預(yù)測(cè)背后的邏輯或推理的能力,也就是人類來(lái)解釋模型兽狭,模型本身不提供解釋缺猛。
舉個(gè)例子,線性回歸模型是 interpretable椭符,因?yàn)槲覀兛梢酝ㄟ^(guò)觀察系數(shù)看到每個(gè)輸入特征是如何影響輸出的。神經(jīng)網(wǎng)絡(luò)模型不是 interpretable耻姥,因?yàn)樗性S多隱藏層和非線性激活销钝,使我們很難追蹤每個(gè)輸入特征如何影響輸出。然而琐簇,如果我們使用特征重要性蒸健、saliency map等技術(shù)來(lái)說(shuō)明神經(jīng)網(wǎng)絡(luò)模型是如何進(jìn)行預(yù)測(cè)的,那么它就是 explainable婉商。
進(jìn)一步可以引申出內(nèi)在可解釋(Intrinsic )和事后可解釋(post hoc)似忧。內(nèi)在可解釋性是指結(jié)構(gòu)被認(rèn)為可解釋的機(jī)器學(xué)習(xí)模型,例如線性回歸丈秩、邏輯回歸和決策樹盯捌。事后解釋性是指解釋方法在模型訓(xùn)練后的應(yīng)用。事后方法也可以應(yīng)用于本質(zhì)上可解釋的模型蘑秽。例如饺著,可以為決策樹計(jì)算置換特征重要性箫攀。
事后可解釋模型又可以分為模型特定和模型無(wú)關(guān)。模型特定的解釋工具僅限于特定的模型幼衰。模型無(wú)關(guān)的工具可用于任何機(jī)器學(xué)習(xí)模型靴跛,并在模型經(jīng)過(guò)訓(xùn)練(事后)后應(yīng)用。這些模型無(wú)關(guān)方法通常無(wú)法訪問(wèn)模型內(nèi)部信息(例如權(quán)重或結(jié)構(gòu)信息)渡嚣,而是通過(guò)分析特征輸入和輸出對(duì)來(lái)工作梢睛。
模型無(wú)關(guān)方法可以進(jìn)一步分為全局方法與局部方法。全局方法通過(guò)利用關(guān)于模型识椰、訓(xùn)練和相關(guān)數(shù)據(jù)的整體知識(shí)绝葡,專注于模型的內(nèi)部,從總體上解釋模型的行為裤唠。局部解釋方法適用于模型的單一結(jié)果挤牛。
2.1 全局模型無(wú)關(guān)方法
一些全局方法,包括:
部分依賴圖(PDP)是顯示的是邊緣化其他輸入特征時(shí)种蘸,模型作為函數(shù)得到目標(biāo)值和一組感興趣的輸入特征之間的關(guān)系墓赴。PDP的假設(shè)是感興趣的輸入特征都獨(dú)立于其他特征,然而實(shí)際場(chǎng)景中往往不是這樣的航瞭;
累積局部效應(yīng)圖(ALE)是解決了當(dāng)特征具有依賴性時(shí)诫硕,PD出現(xiàn)的偏差。ALE的思想大致就是估計(jì)一個(gè)小窗口內(nèi)的變化刊侯,然后累加所有小窗口章办,看輸入對(duì)于輸出的影響;
特征交互作用(Feature interaction, H-statistic)量化了預(yù)測(cè)在多大程度上是特征聯(lián)合作用的結(jié)果滨彻;
互換特征的重要性(Permutation feature importance)藕届,隨機(jī)打亂時(shí)預(yù)測(cè)準(zhǔn)確度降低程度的度量,衡量特征的重要性亭饵;
全局代用模型(Global surrogate models)休偶,用一個(gè)更簡(jiǎn)單的模型代替原始模型進(jìn)行解釋。
2.2 局部模型無(wú)關(guān)方法
個(gè)體條件期望曲線(individual conditional expectation curves辜羊, ICE)是描述了目標(biāo)函數(shù)和感興趣特征之間的依賴關(guān)系踏兜,與PDP不同的是,ICE對(duì)每個(gè)樣本在預(yù)測(cè)結(jié)果上對(duì)特征的依賴都可視化了出來(lái)八秃。
局部替代模型 (LIME) 通過(guò)用局部可解釋的替代模型替換復(fù)雜模型來(lái)解釋模型的預(yù)測(cè)碱妆。它通過(guò)調(diào)整特征值來(lái)修改單個(gè)數(shù)據(jù)樣本,并觀察其對(duì)輸出的影響昔驱。LIME的輸出是一組解釋疹尾,代表每個(gè)特征對(duì)單個(gè)樣本預(yù)測(cè)的貢獻(xiàn)。
反事實(shí)解釋(counterfactual explanation)通過(guò)檢查需要更改哪些特征來(lái)實(shí)現(xiàn)預(yù)期的預(yù)測(cè),從而解釋預(yù)測(cè)結(jié)果航棱。假如現(xiàn)在一組輸入得到了結(jié)果A(比如貸款不被模型通過(guò))睡雇,反事實(shí)的期望結(jié)果是B(貸款通過(guò)),我們希望盡可能小地改變輸入特征以得到預(yù)期的結(jié)果(比如換個(gè)銀行)饮醇。
Shapley 值是一種歸因方法它抱,可以將預(yù)測(cè)公平地分配給各個(gè)特征。Shapley 值是特征值在所有可能的組合中的平均邊際貢獻(xiàn)朴艰。
SHAP 是另一種計(jì)算 Shapley 值的方法观蓄,是一種解釋個(gè)人預(yù)測(cè)的方法。SHAP是基于博弈理論上的最優(yōu)Shapley值祠墅。但也有人提出了基于跨數(shù)據(jù)的 Shapley 值組合的全局解釋方法侮穿。
LIME 和 Shapley 值是歸因方法,因此單個(gè)實(shí)例的預(yù)測(cè)被描述為特征效果的總和毁嗦。其他方法亲茅,例如反事實(shí)解釋,是基于示例的狗准。
2.3 神經(jīng)網(wǎng)絡(luò)的可解釋性
上面的方法大都是使用在機(jī)器學(xué)習(xí)方法上的克锣,當(dāng)然也可以把一些模型無(wú)關(guān)的方法用在神經(jīng)網(wǎng)絡(luò)上。現(xiàn)在已經(jīng)有很多針對(duì)于神經(jīng)網(wǎng)絡(luò)的解釋方法腔长。
像素歸因
像素歸因方法可以根據(jù)baseline設(shè)置分為:
純梯度歸因(gradient-only method):像素的變化是否會(huì)改變預(yù)測(cè)袭祟。例如 Vanilla Gradient 和 Grad-CAM。解釋是:如果我要增加像素的顏色值捞附,預(yù)測(cè)的類別概率將上升(對(duì)于正梯度)或下降(對(duì)于負(fù)梯度)巾乳。梯度的絕對(duì)值越大,表示該像素變化的效果越強(qiáng)鸟召。關(guān)于CAM和Grad-CAM可以看 特征型可視化 GradCAM胆绊。
路徑歸因方法:將當(dāng)前圖像與baseline進(jìn)行比較玷室,baseline圖像可以是一張全灰圖像寓辱,也可以是一個(gè)圖像的分布。對(duì)于路徑歸因方法汽纤,解釋總是相對(duì)于baseline進(jìn)行的:實(shí)際圖像和基線圖像的分類分?jǐn)?shù)之間的差異歸因于像素槽片。參考圖像(分布)的選擇對(duì)解釋有很大影響。通常的假設(shè)是使用“中性”圖像(分布)肢础。此類別包括模型特定的基于梯度的方法还栓,例如 Deep Taylor 和 Integrated Gradients,以及與模型無(wú)關(guān)的方法传轰,例如 LIME 和 SHAP剩盒。
Integrated Gradients(IG) 滿足兩個(gè)可解釋性公理:1) 靈敏度,其中對(duì)于每個(gè)期望的輸入 和baseline 在一個(gè)特征上不同但具有不同的預(yù)測(cè)慨蛙,這個(gè)不同的特征應(yīng)該被賦予非零的歸因辽聊; 2) 實(shí)現(xiàn)不變性纪挎,它指出如果兩個(gè)網(wǎng)絡(luò)的輸出對(duì)于所有輸入都相等,則它們?cè)诠δ苌鲜堑葍r(jià)的跟匆。
對(duì)于一個(gè)給定的輸入异袄,函數(shù)映射表示為F,IG計(jì)算在不同尺度上相對(duì)于零尺度的baseline 的梯度玛臂,然后使用Gauss-Legendre正交來(lái)近似梯度的積分烤蜕。
像素歸因方法的優(yōu)點(diǎn)是直觀易懂,可以進(jìn)行可視化迹冤,缺點(diǎn)是缺少定量的分析讽营,在一些情況下會(huì)變得相當(dāng)不可靠(比如向所有輸入數(shù)據(jù)添加一個(gè)恒定的偏移量),以及我們很難知道可視化出來(lái)的解釋是否是正確的泡徙。
概念檢查
基于特征歸因的方法存在著一些局限性橱鹏,比如單個(gè)像素通常沒什么意義,表達(dá)能力受限等堪藐±蚶迹基于概念的方法可以檢測(cè)嵌入在網(wǎng)絡(luò)學(xué)習(xí)的潛在空間中的那個(gè)概念。換句話說(shuō)庶橱,基于概念的方法可以產(chǎn)生不受神經(jīng)網(wǎng)絡(luò)的特征空間限制的解釋贮勃。
TCAV(Testing with Concept Activation Vectors)量化某一(給定的)概念對(duì)于模型分類結(jié)果的重要程度。例如苏章,它可以告訴你“斑馬”的預(yù)測(cè)有多敏感于“條紋”的存在寂嘉。TCAV的核心思想是使用概念激活向量(CAVs),它們是某個(gè)概念在神經(jīng)網(wǎng)絡(luò)的激活空間中的數(shù)字表示枫绅。
記 CAV 為泉孩,其中C為概念, 為神經(jīng)網(wǎng)絡(luò)并淋。需要兩個(gè)數(shù)據(jù)集寓搬,一個(gè)是包括特征C的概念數(shù)據(jù)集,另一個(gè)是隨機(jī)數(shù)據(jù)集县耽。然后訓(xùn)練一個(gè)二元分類器句喷,區(qū)分概念集生與隨機(jī)集。這個(gè)經(jīng)過(guò)訓(xùn)練的二元分類器的系數(shù)向量就是 CAV兔毙。我們可以通過(guò)計(jì)算單位 CAV 方向的預(yù)測(cè)的方向?qū)?shù)來(lái)衡量其“概念敏感性”:
從而得到一個(gè) -1 到 1之間的分?jǐn)?shù)唾琼,反映了模型對(duì)某個(gè)概念的敏感程度分?jǐn)?shù)越高,說(shuō)明模型越依賴于該概念進(jìn)行分類澎剥;分?jǐn)?shù)越低锡溯,說(shuō)明模型越不關(guān)注該概念。
TCAV需要對(duì)整個(gè)類別計(jì)算整體概念敏感性,方法是計(jì)算具有正概念敏感性的輸入與一個(gè)類別的輸入數(shù)量的比率
TCAV 的優(yōu)點(diǎn)在于不需要用戶有太多的機(jī)器學(xué)習(xí)專業(yè)知識(shí)祭饭,只需要定義一些感興趣的概念芜茵。TCAV可以適應(yīng)不同的模型和數(shù)據(jù)集,用戶可以研究任何概念倡蝙,只要該概念可以由其概念數(shù)據(jù)集定義即可九串。TCAV可以提供概念的全局解釋,有利于提高模型性能悠咱。
缺點(diǎn)在于TCAV需要數(shù)據(jù)和時(shí)間蒸辆,以及額外的標(biāo)注工作;神經(jīng)網(wǎng)絡(luò)較淺時(shí)表現(xiàn)不佳析既;對(duì)于更加抽象的概念躬贡,TCAV不能捕捉到更加復(fù)雜的交互。
其他基于概念的方法有:
基于概念的自動(dòng)解釋(Automated Concept-based Explanation眼坏,ACE)可以被看作是TCAV的自動(dòng)版本拂玻。ACE通過(guò)一個(gè)類別的圖像集,根據(jù)圖像片段的聚類自動(dòng)生成概念宰译。
概念瓶頸模型(Concept bottleneck models 檐蚜,CBM)是內(nèi)在可解釋神經(jīng)網(wǎng)絡(luò)。CBM類似于編碼器-解碼器模型沿侈,CBM的前半部分將輸入映射為概念闯第,后半部分使用映射的概念來(lái)預(yù)測(cè)模型輸出。然后缀拭,瓶頸層的每個(gè)神經(jīng)元的激活代表了一個(gè)概念的重要性咳短。此外,用戶可以操縱瓶頸層的神經(jīng)元激活來(lái)生成模型的反事實(shí)解釋蛛淋。
概念白化(Concept whitening 咙好,CW)是另一種產(chǎn)生內(nèi)在可解釋圖像分類器的方法。為了使用CW褐荷,人們用CW層代替了歸一化層勾效,如批量歸一化層。因此叛甫,當(dāng)用戶想把他們預(yù)先訓(xùn)練好的圖像分類器轉(zhuǎn)變?yōu)閮?nèi)在可解釋的层宫,同時(shí)保持模型的性能時(shí),CW就非常有用其监。
對(duì)抗性樣本
一個(gè)對(duì)抗性的樣本是一個(gè)具有小的萌腿、有意的特征擾動(dòng)的實(shí)例,導(dǎo)致機(jī)器學(xué)習(xí)模型做出錯(cuò)誤的預(yù)測(cè)棠赛。對(duì)抗性樣本是反事實(shí)的哮奇,目的是欺騙模型,而不是解釋它睛约。一個(gè)例子就是通過(guò)在輸入圖像添加噪聲鼎俘,使模型的輸出改變,但是人類肉眼卻無(wú)法分辨輸入的區(qū)別辩涝。
深度學(xué)習(xí)的可解釋性依然有很多有趣的方向(充滿了未解之謎)贸伐,但從大方向來(lái)看,可解釋性能夠幫助我們實(shí)現(xiàn)更好的人工智能怔揩。
2.4 醫(yī)學(xué)影像分析中的臨床可解釋AI
可解釋性一直是AI在醫(yī)療領(lǐng)域的應(yīng)用的一個(gè)挑戰(zhàn)捉邢。[8]提出了臨床可解釋AI的指南,包括:
- 可理解性商膊。解釋的格式和上下文應(yīng)該易于臨床用戶理解伏伐。用戶無(wú)需具備機(jī)器學(xué)習(xí)、人工智能或編程方面的技術(shù)知識(shí)即可解讀說(shuō)明晕拆。
- 醫(yī)學(xué)相關(guān)藐翎。為使人工智能具有臨床效用,解釋信息應(yīng)與醫(yī)生的臨床決策模式相關(guān)实幕,并能支持其臨床推理過(guò)程吝镣。
- 真實(shí)性。解釋應(yīng)如實(shí)反映模型決策過(guò)程昆庇,這是面向臨床的解釋的基本要求末贾。
- 信息合理。用戶對(duì)解釋合理性的判斷可以讓用戶了解有關(guān) AI 決策質(zhì)量的信息整吆。
- 計(jì)算高效拱撵。在臨床上,不應(yīng)該花費(fèi)太多時(shí)間等待解釋掂为。
參考:
[1] Li B, Qi P, Liu B, et al. Trustworthy ai: From principles to practices[J]. ACM Computing Surveys, 2023, 55(9): 1-46.
[2] 可信人工智能白皮書 - 中國(guó)信息通信研究院
[3] X, XIONG H, LI X, et. Interpretable deep learning: interpretation, interpretability, trustworthiness, and beyond[J]. Knowledge and Information Systems, Knowledge and Information Systems, 2022, 64(12): 3197–3234.
[4] Mishra, P. (2022). Model Explainability and Interpretability. In: Practical Explainable AI Using Python. Apress, Berkeley, CA. https://doi.org/10.1007/978-1-4842-7158-2_1
[5] Christoph Molnar, Interpretable Machine Learning
[6] PDP和ICE
[7] 深度學(xué)習(xí)的可解釋性方向的研究是不是巨坑裕膀? - 知乎 (zhihu.com)
[8] Weina Jin, Xiaoxiao Li, Mostafa Fatehi, Ghassan Hamarneh,
Guidelines and evaluation of clinical explainable AI in medical image analysis,Medical Image Analysis,Volume 84,2023,102684,ISSN 1361-8415,https://doi.org/10.1016/j.media.2022.102684.
[9] 可解釋性之積分梯度算法(Integrated Gradients)