機(jī)器學(xué)習(xí)的公平性-算法的公平性

機(jī)器學(xué)習(xí)的公平性

本片文章主要讓讀者快速了解什么事機(jī)器學(xué)習(xí)的公平性以及提供一些對機(jī)器學(xué)習(xí)公平性感興趣的參考文章

1.簡介

機(jī)器學(xué)習(xí)的公平性問題在最近幾年變得越來越受關(guān)注硼端,很多著名的研究人員開始在這一領(lǐng)域有新的進(jìn)展。

image-20200224192057916.png

在機(jī)器學(xué)習(xí)的公平性主要存在以下幾種

  1. group fairness

  2. individual fairness

  3. Counterfactual fairness

  4. Preference-based fairness

  5. fairness through unawareness

image-20200301171101158.png

綠色: 競爭公平下梢,簡單來說就是不能根據(jù)每個人的屬性來對其產(chǎn)生不同的對待。所有人應(yīng)該有同樣的機(jī)會被正確分類

黃色:自由公平

橘色:分布平等

本文主要討論最常見的group fairness

2.動機(jī)

我們?yōu)槭裁搓P(guān)心公平性翅雏,主要動機(jī)是由于公平性和我們的自身利益高度相關(guān)敛苇。很多事情已經(jīng)被機(jī)器學(xué)習(xí)系統(tǒng)直接接管余赢。比如自動駕駛,簡歷篩選枫攀,犯罪預(yù)測,候選人排序冯乘,推薦系統(tǒng)等。機(jī)器學(xué)習(xí)系統(tǒng)已經(jīng)變成我們生活的一部分晒夹。越來越多的AI產(chǎn)品將會融合到我們生活中裆馒。

AI技術(shù)主要是基于數(shù)據(jù)的姊氓,認(rèn)為AI 絕對客觀是不太正確的關(guān)系。人們給AI的數(shù)據(jù)可能是高度偏差的喷好。偏差在機(jī)器學(xué)習(xí)中變得非常明顯翔横,而且會傷害到少數(shù)群體和歷史上不利的組。如果沒有人關(guān)心這些問題梗搅,那么下一個被偏見對待的很可能是我們自己禾唁。

在一些高風(fēng)險的領(lǐng)域,如法官斷案无切,藥物檢測荡短,廣告。確保決策系統(tǒng)不擴(kuò)散歷史數(shù)據(jù)中存在的偏見和歧視非常重要订雾。通常來說肢预,算法不公正包含兩方面矛洞,一方面是個體的公正洼哎,另一方面是群體的公正。

3.造成偏見的原因

造成偏見主要來源于訓(xùn)練數(shù)據(jù)集的偏差沼本。

1.skewed 樣本噩峦。如果初始使用的是有偏的樣本,這些偏見可能會隨著時間一直存在抽兆。未來的觀測會導(dǎo)致更少的機(jī)會來糾正預(yù)測识补。例如警察發(fā)現(xiàn)某個地區(qū)犯罪率高,會更加關(guān)注這些地方辫红,更容易記錄這些地方的犯罪凭涂,后面即使其他地區(qū)犯罪率也增高,但是可能由于警察的關(guān)注比較少贴妻,所以記錄的犯罪率比較低切油。

2.污染樣本。很多機(jī)器學(xué)習(xí)系統(tǒng)中存在一些認(rèn)為造成的偏差名惩。如果一個簡歷篩選系統(tǒng)使用管理員的label來訓(xùn)練模型而不是根據(jù)申請者的能力澎胡。那么這個系統(tǒng)訓(xùn)練得到的模型會更傾向于選擇管理者的決定。

3.有限的特征娩鹉。少數(shù)人群的特征的樣本可能很少攻谁,這會導(dǎo)致系統(tǒng)相比多數(shù)人群會有更高的噪音。

4.樣本尺寸的不均衡弯予。如果少數(shù)人群的樣本過少戚宦,會導(dǎo)致模型學(xué)習(xí)不準(zhǔn)確。

5.即使敏感屬性不被使用锈嫩,如性別受楼,年齡困檩。也會有一些其他的屬性來替代。如果這些屬性存在那槽,那么偏差還是會存在悼沿。

4.定義偏見

如何去定義偏見,首先去找到法律支持來看是否有關(guān)于不公正的定義骚灸。反歧視法在很多國家禁止使用敏感的屬性來區(qū)別對待人糟趾,如性別,宗族甚牲。

statistical parity/demographic parity

X是全體樣本义郑。

S是保護(hù)的樣本,或者說具有某種特征的樣本丈钙。如女性樣本非驮。

我們定義一個分類起h: 把X分成0或1 X-> {0,1}

D 是樣本中不存在包含某些特征的人群雏赦。舉個例子劫笙,有些人不會申請貸款,比如非常富有星岗,或者不喜歡消費(fèi)的人填大。

定義偏差

bias(X,S,D)=prob(h(x)=1|x\ in\ S(complement))- prob(h(x)=1|x\ in\ S)

簡單來說就是從S的互補(bǔ)集中取出樣本模型結(jié)果為1 的概率與直接從樣本S中取出結(jié)果概率為1 的機(jī)率相等。

當(dāng)偏差小于某個閾值時我們就成為statistical parity.

statistical parity 不太可能會完全滿足俏橘,因?yàn)樗惴ㄐ枰卣骱蚻abel 相關(guān)允华,這會導(dǎo)致不同的類別某個特征的比例肯定會不一樣。

優(yōu)點(diǎn):

在法律和社會中中使用

缺點(diǎn):

在算法中不存在

Equalized odds/Positive Rate Parity

True positive parity(TTP)

定義:

分類器C 滿足TTP條件當(dāng)
P_a\{C=1|Y=1\} =P_b\{C=1|Y=1\}
對于所有的group a,b.

False Positive Parity(FPP)

定義:

分類器C 滿足TTP條件當(dāng)
P_a\{C=1|Y=0\} =P_b\{C=1|Y=0\}
對于所有的group a,b.

Equalized odds/Positive Rate Parity

同時滿足TPP+FPP

Predictive Rate Parity

分類起C同時滿足

P_a\{Y=1|C=1\} =P_b\{Y=1|C=1\}

P_a\{Y=1|C=0\} =P_b\{Y=1|C=0\}

對于所有的groups a,b.

優(yōu)點(diǎn):

完美的分類器可以滿足這些條件

缺點(diǎn):

  • Different groups can get rates of positive prediction

通過對分類器進(jìn)行后處理

5.如何得到公正的算法

有很多算法可以聲稱提高算法的公正性寥掐。主要包括預(yù)處理靴寂,訓(xùn)練中優(yōu)化,后處理召耘。

預(yù)處理:

去除掉敏感信息的同時盡可能的保留原始信息百炬。

Learning fair representation:

找到一個合適的特征轉(zhuǎn)化函數(shù),將原始特征X轉(zhuǎn)化到Z怎茫,但是仍然具有很強(qiáng)的特征表達(dá)能力收壕。

algo-2-1024x796.png

我們的目標(biāo)時訓(xùn)練一個feature transformation Z 。

A是一個判別是否滿足公正性的判別器轨蛤。我們希望轉(zhuǎn)化之后的特征滿足判別器的要求蜜宪。

訓(xùn)練過程中優(yōu)化

在訓(xùn)練過程中增加限制或正則項(xiàng)來優(yōu)化現(xiàn)有目標(biāo)。

后處理

6.公平性和實(shí)用性的tradeoff

可以設(shè)置兩個目標(biāo)函數(shù)祥山。一個目標(biāo)函數(shù)是優(yōu)化訓(xùn)練的誤差圃验,另一個是使其滿足判別的公正性bias》炫唬總的目標(biāo)函數(shù)包含這兩項(xiàng)澳窑,通過超參數(shù)來進(jìn)行平衡斧散。

  1. 需要定義一個合適的距離函數(shù)來衡量公平性

reference :

https://towardsdatascience.com/a-tutorial-on-fairness-in-machine-learning-3ff8ba1040cb

https://blog.ml.cmu.edu/2020/02/28/inherent-tradeoffs-in-learning-fair-representations/

https://www2.cs.duke.edu/courses/fall18/compsci590.1/lectures/FairML2.pdf

Beretta, Elena, et al. "The invisible power of fairness. How machine learning shapes democracy." Canadian Conference on Artificial Intelligence. Springer, Cham, 2019.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市摊聋,隨后出現(xiàn)的幾起案子鸡捐,更是在濱河造成了極大的恐慌,老刑警劉巖麻裁,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件箍镜,死亡現(xiàn)場離奇詭異,居然都是意外死亡煎源,警方通過查閱死者的電腦和手機(jī)色迂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來手销,“玉大人歇僧,你說我怎么就攤上這事》嫱希” “怎么了诈悍?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長姑隅。 經(jīng)常有香客問我写隶,道長倔撞,這世上最難降的妖魔是什么讲仰? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮痪蝇,結(jié)果婚禮上鄙陡,老公的妹妹穿的比我還像新娘。我一直安慰自己躏啰,他們只是感情好趁矾,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著给僵,像睡著了一般毫捣。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上帝际,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天蔓同,我揣著相機(jī)與錄音,去河邊找鬼蹲诀。 笑死斑粱,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的脯爪。 我是一名探鬼主播则北,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼矿微,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了尚揣?” 一聲冷哼從身側(cè)響起涌矢,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎快骗,沒想到半個月后蒿辙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡滨巴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年思灌,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恭取。...
    茶點(diǎn)故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡泰偿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蜈垮,到底是詐尸還是另有隱情耗跛,我是刑警寧澤,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布攒发,位于F島的核電站调塌,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏惠猿。R本人自食惡果不足惜羔砾,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望偶妖。 院中可真熱鬧姜凄,春花似錦、人聲如沸趾访。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽扼鞋。三九已至申鱼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間云头,已是汗流浹背捐友。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盘寡,地道東北人楚殿。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親脆粥。 傳聞我的和親對象是個殘疾皇子砌溺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容