報告題目:可信機(jī)器學(xué)習(xí)
老師首先介紹了機(jī)器學(xué)習(xí)近幾年的研究情況ML Theory -> Distributed ML -> Trustworthy ML
其中Trustworthy ML主要包括Privacy隱私赘风,Interpretability&Robustness可解釋性和魯棒性,Reliability可靠性和Fairness公平性。講座主要講述前兩點(diǎn)蔓倍。
Privacy
在Privacy中,老師先介紹了model privacy attack,我理解的就是比如我通過某種方式得到了一個模型,然后讓模型完成一個填空任務(wù)鸥跟,Albert‘s id numbers is __。然后優(yōu)秀的模型可能直接出色的完成了這個任務(wù)盔沫,這樣我就得到了Albert的id number医咨。老師主要介紹了Differential Privacy差分隱私這個方法,但是我并不了解架诞,所以聽了也是一頭霧水拟淮。
老師總結(jié)的各種數(shù)據(jù)保護(hù)方法我印象比較深刻,第一種數(shù)據(jù)加密是從單一從數(shù)據(jù)這一層面保護(hù)隱私谴忧。第二種像多方安全計算和聯(lián)邦學(xué)習(xí)(這兩個有什么差別可以參考網(wǎng)上的資料)很泊,他們從數(shù)據(jù)和模型兩方面對隱私進(jìn)行保護(hù)(聯(lián)邦學(xué)習(xí)可以解決數(shù)據(jù)孤島問題)角虫,最后像差分隱私這種方法就是單單從模型的角度(model privacy attack)來保護(hù)隱私。
Interpretability&Robustness
從可解釋這一方面來說撑蚌,主流的機(jī)器學(xué)習(xí)方法都比較依賴數(shù)據(jù)的分布上遥,深度神經(jīng)網(wǎng)絡(luò)內(nèi)部還是不能解釋的搏屑,這就是為什么在醫(yī)療領(lǐng)域中争涌,很多模型依然基于決策樹和線性回歸這樣比較基礎(chǔ)的方法。老師介紹了causal model辣恋,這種模型在預(yù)測時不依賴于數(shù)據(jù)的分布而是讓模型去學(xué)會reasoning的過程亮垫。老師介紹了一個LaCIM模型,在之后也引起了大佬們的廣泛討論伟骨,當(dāng)然了饮潦,我沒聽懂。
最后在討論Robust和Reliable時携狭,老師給出了這樣的觀點(diǎn)
因?yàn)槲易罱凶x一篇用GAN參與藥物推薦的文章继蜡,所以剛剛學(xué)習(xí)了Adversarial ML有關(guān)的知識。如果我們能很好的模擬出一個attacker的話逛腿,就可以使用這個attacker來訓(xùn)練模型稀并,讓這兩個模型相互對抗,這樣的模型的魯棒性一定會很好单默。
對于可靠性碘举,也就是說如果attacker把數(shù)據(jù)加入了一些噪音,模型是否能對這些加入惡意噪音的數(shù)據(jù)say no呢搁廓。老師這里就介紹了一個detector的結(jié)構(gòu)引颈,detector可以判斷data的可靠性,只有判斷可靠的data才可以被模型使用境蜕。
總結(jié)
因?yàn)檫@次的講座針對是對整個ML領(lǐng)域的研究蝙场,我能聽懂的有限×荒辏可以看出來這樣advanced的研究在做實(shí)驗(yàn)時一般都使用很簡單的任務(wù)售滤,像手寫數(shù)字呀,貓狗圖像呀之類的(GAN最開始的實(shí)驗(yàn)結(jié)果也是不堪入目)逼泣。但是這樣的研究工作一般都需要特別好的數(shù)學(xué)功底趴泌,每次有新的ML方法或框架提出之后,一般都只能完成一些簡單的任務(wù)拉庶,但是這個想法真的是難能可貴的嗜憔,所以后面才會有大量的工作來優(yōu)化這些方法。等到落實(shí)到某個具體的應(yīng)用場景時氏仗,可能就是四五年之后了吉捶。2021年IJCAI一篇論文中藥物推薦依靠的就是數(shù)據(jù)分布夺鲜,而2021年已經(jīng)有人在研究如何不利用數(shù)據(jù)分布讓模型學(xué)會推理了。時代迅速發(fā)展呐舔,必須堅持學(xué)習(xí)呀币励!