機(jī)器學(xué)習(xí)的公平性
本片文章主要讓讀者快速了解什么事機(jī)器學(xué)習(xí)的公平性以及提供一些對機(jī)器學(xué)習(xí)公平性感興趣的參考文章
1.簡介
機(jī)器學(xué)習(xí)的公平性問題在最近幾年變得越來越受關(guān)注硼端,很多著名的研究人員開始在這一領(lǐng)域有新的進(jìn)展。
在機(jī)器學(xué)習(xí)的公平性主要存在以下幾種
group fairness
individual fairness
Counterfactual fairness
Preference-based fairness
fairness through unawareness
綠色: 競爭公平下梢,簡單來說就是不能根據(jù)每個人的屬性來對其產(chǎn)生不同的對待。所有人應(yīng)該有同樣的機(jī)會被正確分類
黃色:自由公平
橘色:分布平等
本文主要討論最常見的group fairness
2.動機(jī)
我們?yōu)槭裁搓P(guān)心公平性翅雏,主要動機(jī)是由于公平性和我們的自身利益高度相關(guān)敛苇。很多事情已經(jīng)被機(jī)器學(xué)習(xí)系統(tǒng)直接接管余赢。比如自動駕駛,簡歷篩選枫攀,犯罪預(yù)測,候選人排序冯乘,推薦系統(tǒng)等。機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)變成我們生活的一部分晒夹。越來越多的AI產(chǎn)品將會融合到我們生活中裆馒。
AI技術(shù)主要是基于數(shù)據(jù)的姊氓,認(rèn)為AI 絕對客觀是不太正確的關(guān)系。人們給AI的數(shù)據(jù)可能是高度偏差的喷好。偏差在機(jī)器學(xué)習(xí)中變得非常明顯翔横,而且會傷害到少數(shù)群體和歷史上不利的組。如果沒有人關(guān)心這些問題梗搅,那么下一個被偏見對待的很可能是我們自己禾唁。
在一些高風(fēng)險的領(lǐng)域,如法官斷案无切,藥物檢測荡短,廣告。確保決策系統(tǒng)不擴(kuò)散歷史數(shù)據(jù)中存在的偏見和歧視非常重要订雾。通常來說肢预,算法不公正包含兩方面矛洞,一方面是個體的公正洼哎,另一方面是群體的公正。
3.造成偏見的原因
造成偏見主要來源于訓(xùn)練數(shù)據(jù)集的偏差沼本。
1.skewed 樣本噩峦。如果初始使用的是有偏的樣本,這些偏見可能會隨著時間一直存在抽兆。未來的觀測會導(dǎo)致更少的機(jī)會來糾正預(yù)測识补。例如警察發(fā)現(xiàn)某個地區(qū)犯罪率高,會更加關(guān)注這些地方辫红,更容易記錄這些地方的犯罪凭涂,后面即使其他地區(qū)犯罪率也增高,但是可能由于警察的關(guān)注比較少贴妻,所以記錄的犯罪率比較低切油。
2.污染樣本。很多機(jī)器學(xué)習(xí)系統(tǒng)中存在一些認(rèn)為造成的偏差名惩。如果一個簡歷篩選系統(tǒng)使用管理員的label來訓(xùn)練模型而不是根據(jù)申請者的能力澎胡。那么這個系統(tǒng)訓(xùn)練得到的模型會更傾向于選擇管理者的決定。
3.有限的特征娩鹉。少數(shù)人群的特征的樣本可能很少攻谁,這會導(dǎo)致系統(tǒng)相比多數(shù)人群會有更高的噪音。
4.樣本尺寸的不均衡弯予。如果少數(shù)人群的樣本過少戚宦,會導(dǎo)致模型學(xué)習(xí)不準(zhǔn)確。
5.即使敏感屬性不被使用锈嫩,如性別受楼,年齡困檩。也會有一些其他的屬性來替代。如果這些屬性存在那槽,那么偏差還是會存在悼沿。
4.定義偏見
如何去定義偏見,首先去找到法律支持來看是否有關(guān)于不公正的定義骚灸。反歧視法在很多國家禁止使用敏感的屬性來區(qū)別對待人糟趾,如性別,宗族甚牲。
statistical parity/demographic parity
X是全體樣本义郑。
S是保護(hù)的樣本,或者說具有某種特征的樣本丈钙。如女性樣本非驮。
我們定義一個分類起h: 把X分成0或1 X-> {0,1}
D 是樣本中不存在包含某些特征的人群雏赦。舉個例子劫笙,有些人不會申請貸款,比如非常富有星岗,或者不喜歡消費(fèi)的人填大。
定義偏差
簡單來說就是從S的互補(bǔ)集中取出樣本模型結(jié)果為1 的概率與直接從樣本S中取出結(jié)果概率為1 的機(jī)率相等。
當(dāng)偏差小于某個閾值時我們就成為statistical parity.
statistical parity 不太可能會完全滿足俏橘,因?yàn)樗惴ㄐ枰卣骱蚻abel 相關(guān)允华,這會導(dǎo)致不同的類別某個特征的比例肯定會不一樣。
優(yōu)點(diǎn):
在法律和社會中中使用
缺點(diǎn):
在算法中不存在
Equalized odds/Positive Rate Parity
True positive parity(TTP)
定義:
分類器C 滿足TTP條件當(dāng)
對于所有的group a,b.
False Positive Parity(FPP)
定義:
分類器C 滿足TTP條件當(dāng)
對于所有的group a,b.
Equalized odds/Positive Rate Parity
同時滿足TPP+FPP
Predictive Rate Parity
分類起C同時滿足
對于所有的groups a,b.
優(yōu)點(diǎn):
完美的分類器可以滿足這些條件
缺點(diǎn):
- Different groups can get rates of positive prediction
通過對分類器進(jìn)行后處理
5.如何得到公正的算法
有很多算法可以聲稱提高算法的公正性寥掐。主要包括預(yù)處理靴寂,訓(xùn)練中優(yōu)化,后處理召耘。
預(yù)處理:
去除掉敏感信息的同時盡可能的保留原始信息百炬。
Learning fair representation:
找到一個合適的特征轉(zhuǎn)化函數(shù),將原始特征X轉(zhuǎn)化到Z怎茫,但是仍然具有很強(qiáng)的特征表達(dá)能力收壕。
我們的目標(biāo)時訓(xùn)練一個feature transformation Z 。
A是一個判別是否滿足公正性的判別器轨蛤。我們希望轉(zhuǎn)化之后的特征滿足判別器的要求蜜宪。
訓(xùn)練過程中優(yōu)化
在訓(xùn)練過程中增加限制或正則項(xiàng)來優(yōu)化現(xiàn)有目標(biāo)。
后處理
6.公平性和實(shí)用性的tradeoff
可以設(shè)置兩個目標(biāo)函數(shù)祥山。一個目標(biāo)函數(shù)是優(yōu)化訓(xùn)練的誤差圃验,另一個是使其滿足判別的公正性bias》炫唬總的目標(biāo)函數(shù)包含這兩項(xiàng)澳窑,通過超參數(shù)來進(jìn)行平衡斧散。
- 需要定義一個合適的距離函數(shù)來衡量公平性
reference :
https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb
https://blog.ml.cmu.edu/2020/02/28/inherent-tradeoffs-in-learning-fair-representations/
https://www2.cs.duke.edu/courses/fall18/compsci590.1/lectures/FairML2.pdf
Beretta, Elena, et al. "The invisible power of fairness. How machine learning shapes democracy." Canadian Conference on Artificial Intelligence. Springer, Cham, 2019.