當(dāng)人工智能“學(xué)會(huì)”性別歧視

劉璐

學(xué)號(hào)19021110354T

轉(zhuǎn)載自https://www.guokr.com/article/443152/

【嵌牛導(dǎo)讀】被人類(lèi)盲目追捧的機(jī)器惯悠,似乎不會(huì)“犯錯(cuò)”——這是因?yàn)闄C(jī)器是穩(wěn)定的震桶,只會(huì)出現(xiàn)“異常”搭儒。但這種異常穷当,其實(shí)就是一直固執(zhí)不停地犯錯(cuò)。在人工智能和機(jī)器學(xué)習(xí)的范疇里淹禾,“偏見(jiàn)”并不是一個(gè)帶有價(jià)值判斷的詞匯馁菜。然而,在涉及到現(xiàn)實(shí)應(yīng)用的領(lǐng)域铃岔,情況就不一樣了⊥舸現(xiàn)在的機(jī)器,當(dāng)然不具備體會(huì)情感或者故意施加偏見(jiàn)的能力毁习,只是誠(chéng)實(shí)地反映了數(shù)據(jù)庫(kù)智嚷、乃至社會(huì)中真實(shí)存在的偏見(jiàn),而這些反映有時(shí)候并不是我們想要的纺且。

【嵌牛鼻子】人工智能偏差盏道、過(guò)擬合、數(shù)據(jù)庫(kù)

【嵌牛提問(wèn)】 作為一名學(xué)生载碌,一直在從事相關(guān)領(lǐng)域也遇到過(guò)相關(guān)問(wèn)題猜嘱,但是好像從來(lái)沒(méi)有考慮過(guò)背后真正的原因。這篇文章我覺(jué)得值得所有相關(guān)行業(yè)人員閱讀嫁艇。是不是只有當(dāng)我們正視自己的時(shí)候朗伶,才更能看出機(jī)器出現(xiàn)的問(wèn)題?機(jī)器只是表現(xiàn)出了深藏在人心底的對(duì)各個(gè)方面的不公步咪,但是當(dāng)機(jī)器扮演一個(gè)最大公無(wú)私的角色時(shí)论皆,面臨的歧視還有誰(shuí)能幫助我們改正?

【嵌牛正文】

“為什么這個(gè)圖像識(shí)別的人工智能(AI)猾漫,老把男人認(rèn)成女人纯丸?”

趙潔玉發(fā)現(xiàn)這個(gè)問(wèn)題的時(shí)候,正摩拳擦掌地準(zhǔn)備開(kāi)始自己第一個(gè)獨(dú)立研究静袖。那時(shí)觉鼻,她剛加入弗吉尼亞大學(xué)計(jì)算機(jī)系攻讀人工智能機(jī)器學(xué)習(xí)方向的博士,她的導(dǎo)師文森特?奧都涅茨(Vicente Ordó?ez)扔給了她這個(gè)乍看有點(diǎn)哭笑不得的課題队橙。

這年頭面部識(shí)別其實(shí)已經(jīng)不是很難的事情了坠陈,分辨男女更算不上什么世紀(jì)難題,準(zhǔn)確率應(yīng)該很高才對(duì)捐康。當(dāng)然仇矾,趙潔玉手頭的AI任務(wù)要稍微難一點(diǎn)兒,不是分辨證件照解总,而是要辨認(rèn)場(chǎng)景復(fù)雜的生活照贮匕,可就連相機(jī)里的小小程序都能極為準(zhǔn)確地找到畫(huà)面中的人臉而自動(dòng)對(duì)焦,多點(diǎn)兒背景對(duì)AI來(lái)說(shuō)能算什么難題呢花枫?

然而正是這些背景刻盐,以一種意料之外情理之中的方式扭曲了AI的“認(rèn)知”掏膏。趙潔玉發(fā)現(xiàn),男人被認(rèn)成女人的圖片有一些共同點(diǎn)——都是站在廚房里敦锌、或者在做家務(wù)馒疹。

把男人認(rèn)成女人的 AI。圖片來(lái)源:參考文獻(xiàn)1

她很快意識(shí)到乙墙,這并不是程序bug颖变,也不是識(shí)別算法或者特征提取出了毛病,而是人工智能總把女人和某些特定的元素聯(lián)系在一起听想,在下達(dá)判斷時(shí)被這些元素帶跑了腥刹。換句話說(shuō),這是一個(gè)會(huì)“性別歧視”的AI:它認(rèn)為站在廚房里的就“該”是女人汉买。

這樣的歧視是怎么產(chǎn)生的呢肛走?也很簡(jiǎn)單。如果你成長(zhǎng)在一個(gè)“男主外录别、女主內(nèi)”的社會(huì),那么你便會(huì)天然地認(rèn)為女人就該操持家務(wù)邻吞。AI也一樣组题,不過(guò)它“認(rèn)識(shí)世界”的途徑、也是歧視的來(lái)源抱冷,是它的“教學(xué)資料”——用于訓(xùn)練人工智能進(jìn)行圖像識(shí)別的數(shù)據(jù)庫(kù)崔列。關(guān)于性別的偏見(jiàn)不僅在數(shù)據(jù)庫(kù)里普遍存在,而且還會(huì)被人工智能所放大旺遮。

為什么會(huì)出現(xiàn)這種情況赵讯?怎么解決?趙潔玉和團(tuán)隊(duì)圍繞著這兩個(gè)問(wèn)題寫(xiě)就的論文《男人也愛(ài)購(gòu)物:使用語(yǔ)料庫(kù)級(jí)別的限制法降低性別偏差》在自然語(yǔ)言處理2017年的年會(huì)上獲得了最佳長(zhǎng)論文獎(jiǎng)耿眉,整個(gè)人工智能領(lǐng)域也開(kāi)始逐漸意識(shí)到這個(gè)問(wèn)題边翼。

數(shù)據(jù)庫(kù)的偏差從何而來(lái)?

趙潔玉和實(shí)驗(yàn)室團(tuán)隊(duì)選取了兩個(gè)具有代表性的圖像訓(xùn)練數(shù)據(jù)集鸣剪,一個(gè)是華盛頓大學(xué)開(kāi)發(fā)的ImSitu组底,一個(gè)是微軟和Facebook等大公司支持的MSCOCO,每個(gè)數(shù)據(jù)集里面都有超過(guò)10萬(wàn)張圖片筐骇。他們發(fā)現(xiàn)债鸡,一些標(biāo)簽和性別綁定的程度十分突出,比如站在廚房里铛纬、做家務(wù)厌均、照看小孩子的就被認(rèn)為是女性,開(kāi)會(huì)告唆、辦公棺弊、從事體育運(yùn)動(dòng)的則是男性晶密。單個(gè)圖片看起來(lái)都很正常,然而大量的此類(lèi)照片累積成了肉眼可見(jiàn)的偏見(jiàn)镊屎。有超過(guò)45%的動(dòng)詞和37%的名詞惹挟,會(huì)展現(xiàn)超過(guò)2:1的性別比例偏差。

性別歧視也僅僅只是偏見(jiàn)其中的一個(gè)方面缝驳。一張來(lái)自印度海得拉巴的印式婚紗连锯,在圖像識(shí)別的人工智能眼里,成了歐洲中世紀(jì)的鎖子甲用狱。為什么运怖?因?yàn)锳I的概念里婚紗是白色的西式婚紗,而并不“認(rèn)識(shí)”第三世界的文化夏伊。

左邊為海得拉巴婚紗摇展,右邊為鎖子甲

這是谷歌大腦實(shí)驗(yàn)室成員、斯坦福大學(xué)的史蕾雅?珊卡爾(Shreya

Shankar)的研究對(duì)象——目前最知名的圖像識(shí)別訓(xùn)練數(shù)據(jù)集溺忧,擁有超過(guò)120萬(wàn)張圖片的谷歌ImageNet咏连。她發(fā)現(xiàn),用ImageNet訓(xùn)練出來(lái)的人工智能鲁森,同樣是識(shí)別帶有“婚紗”元素的圖像祟滴,來(lái)自美國(guó)和澳大利亞的圖像準(zhǔn)確率和置信度非常高——絕大多數(shù)圖片都能得到機(jī)器自信且正確的答案;然而來(lái)自巴基斯坦和埃塞俄比亞的圖片則沒(méi)有這種待遇歌溉。在識(shí)別美國(guó)和第三世界的圖像內(nèi)容的時(shí)候垄懂,人工智能總是“選擇性失明”。

珊卡爾用地點(diǎn)標(biāo)簽為這些數(shù)據(jù)做了分類(lèi)痛垛,發(fā)現(xiàn)ImageNet的圖像草慧,有45%來(lái)自美國(guó),超過(guò)60%來(lái)自最主要的6個(gè)歐美國(guó)家匙头。而中國(guó)和印度加起來(lái)有全球三分之一的人口漫谷,卻只有數(shù)據(jù)集里區(qū)區(qū)3%的數(shù)據(jù)量。在這樣的數(shù)據(jù)集訓(xùn)練下的AI蹂析,在面對(duì)來(lái)自“第三世界”的任務(wù)時(shí)抖剿,就仿佛進(jìn)了大觀園的劉姥姥,眼前全是稀奇事兒识窿。

對(duì)于各地區(qū)的圖像識(shí)別置信度的分布斩郎,越往右越高。埃塞爾比亞和巴基斯坦的圖片置信度相對(duì)更差喻频。圖片來(lái)源:參考文獻(xiàn)2

數(shù)據(jù)集的偏差缩宜,在形成的過(guò)程中就已經(jīng)在積累了。

數(shù)據(jù)集的目的,是訓(xùn)練機(jī)器的進(jìn)行圖像識(shí)別——例如ImageNet

的圖像就圍繞著1000多個(gè)類(lèi)別展開(kāi)锻煌,每一張圖片都有一個(gè)類(lèi)別標(biāo)簽妓布。但是為每個(gè)標(biāo)簽選擇的圖像,卻會(huì)在無(wú)意中反映互聯(lián)網(wǎng)的刻板印象宋梧。趙潔玉告訴我匣沼,大部分?jǐn)?shù)據(jù)庫(kù)的圖片都來(lái)源于搜索引擎,然后再通過(guò)人工給這些圖片加上標(biāo)簽捂龄,標(biāo)注里面都有些啥(比如一個(gè)香蕉的圖片释涛,那么標(biāo)簽里面就會(huì)有水果,食物倦沧,香蕉等文字)唇撬。這樣做的原因很好理解:程序無(wú)法直接感知到現(xiàn)實(shí)事物,只能“看”到現(xiàn)成的數(shù)字化圖像展融,而互聯(lián)網(wǎng)搜索引擎應(yīng)該是最不帶偏見(jiàn)窖认、最誠(chéng)實(shí)的圖像來(lái)源了吧?

但搜索引擎體現(xiàn)的“誠(chéng)實(shí)”卻讓人驚愕——比如告希,在谷歌上搜“black

girl”扑浸,第一屏有絕大部分都是色情圖(后來(lái)谷歌把這個(gè)問(wèn)題修復(fù)了);哈佛大學(xué)的計(jì)算機(jī)系教授拉譚雅?斯威尼(Latanya

Sweeney)發(fā)現(xiàn)燕偶,在搜索引擎上搜典型的黑人名字喝噪,搜索引擎會(huì)有超過(guò)80%的概率在搜索建議里提供“逮捕”“犯罪”等詞匯,而沒(méi)有種族特征的卻只有不到30%杭跪。歸根結(jié)底,搜索引擎反應(yīng)的并不是現(xiàn)實(shí)驰吓,而是它的使用者對(duì)現(xiàn)實(shí)的理解涧尿,這些關(guān)于種族與性別的理解不可避免地天生就有值得商榷的內(nèi)容——你以為你輸入的是“黑人”,但得出的內(nèi)容卻是“黑人罪犯”檬贰。

“數(shù)學(xué)上沒(méi)有所謂‘公平’的概念姑廉,”英國(guó)巴斯大學(xué)計(jì)算機(jī)系教授喬安娜?布萊森(Joanna

Bryson)說(shuō),“偏見(jiàn)翁涤,只是機(jī)器從數(shù)據(jù)中拾取的規(guī)律(regularity)而已桥言。”在人工智能和機(jī)器學(xué)習(xí)的范疇里葵礼,“偏見(jiàn)”并不是一個(gè)帶有價(jià)值判斷的詞匯号阿。然而,在涉及到現(xiàn)實(shí)應(yīng)用的領(lǐng)域鸳粉,情況就不一樣了∪咏В現(xiàn)在的機(jī)器,當(dāng)然不具備體會(huì)情感或者故意施加偏見(jiàn)的能力,只是誠(chéng)實(shí)地反映了數(shù)據(jù)庫(kù)枯夜、乃至社會(huì)中真實(shí)存在的偏見(jiàn)弯汰,而這些反映有時(shí)候并不是我們想要的。

更關(guān)鍵的問(wèn)題在于湖雹,現(xiàn)有的機(jī)器訓(xùn)練方式咏闪,很可能會(huì)放大這些偏見(jiàn)和歧視。

機(jī)器如何放大數(shù)據(jù)庫(kù)的偏見(jiàn)摔吏?

你可能有這樣的經(jīng)歷:剛在購(gòu)物網(wǎng)站上購(gòu)買(mǎi)了5kg的洗衣液鸽嫂,推薦算法就在“你可能喜歡”的側(cè)欄里,給你推薦8個(gè)品牌25種其它洗衣液——“這是要我開(kāi)洗衣店”舔腾?

大規(guī)模商業(yè)應(yīng)用的推薦算法不夠“智能”也許有其苦衷溪胶,但哪怕學(xué)術(shù)界頂尖的技術(shù)也難逃類(lèi)似的坑:算法似乎太過(guò)在意你的輸入,把原始數(shù)據(jù)太當(dāng)真了稳诚。如果數(shù)據(jù)質(zhì)量很高哗脖,那自然不是問(wèn)題;但現(xiàn)在原始數(shù)據(jù)里已經(jīng)有了偏見(jiàn)扳还,算法就會(huì)進(jìn)一步把它放大才避。

趙潔玉團(tuán)隊(duì)用MSCOCO和ImSitu數(shù)據(jù)集訓(xùn)練的人工智能,在對(duì)一般的圖片進(jìn)行預(yù)測(cè)的時(shí)候氨距,會(huì)體現(xiàn)出比數(shù)據(jù)集本身更大的偏差——比如桑逝,在imSitu數(shù)據(jù)集中,“下廚”和女性聯(lián)系起來(lái)的頻率為66%俏让,男性有33%楞遏;然而,被這個(gè)數(shù)據(jù)集訓(xùn)練過(guò)的人工智能首昔,預(yù)測(cè)下廚和女性聯(lián)系起來(lái)的比率被放大到了84%寡喝,男性則只有區(qū)區(qū)16%。

為什么呢勒奇?她在研究中使用的算法模型预鬓,一方面直接通過(guò)辨認(rèn)圖像的特征,提取圖像里的元素標(biāo)簽赊颠,另一方面會(huì)根據(jù)各個(gè)標(biāo)簽之間的聯(lián)系來(lái)判定究竟哪個(gè)元素出現(xiàn)的概率最大格二,這也是大信息量的圖像識(shí)別中十分常用的思路。而問(wèn)題就在于竣蹦,如果要通過(guò)現(xiàn)有的聯(lián)系來(lái)進(jìn)行識(shí)別顶猜,那么機(jī)器可能會(huì)在訓(xùn)練中將現(xiàn)有的聯(lián)系夸大,從而在不那么確定的情況下痘括,給出一個(gè)‘更可能靠近“正確答案”的結(jié)果驶兜。

趙潔玉給我打了個(gè)比方:“當(dāng)算法只通過(guò)圖像里的特征來(lái)判定,給出的預(yù)測(cè)是有50%的可能圖片里面是男性,但也有50%可能是女性抄淑;但在訓(xùn)練它的數(shù)據(jù)庫(kù)中屠凶,有90%的圖片都將女性和廚房聯(lián)系在一起。那么綜合圖像特征肆资、聯(lián)系兩方面信息之后矗愧,機(jī)器便會(huì)得出結(jié)論,說(shuō)圖片里是女性郑原“拢”

機(jī)器容易犯的另外一個(gè)錯(cuò),是將大部分?jǐn)?shù)據(jù)的特征當(dāng)做一般的特征來(lái)處理——上文中用ImageNet訓(xùn)練出來(lái)的數(shù)據(jù)庫(kù)就很可能犯“美國(guó)加歐洲就是全世界”的錯(cuò)誤犯犁。這會(huì)對(duì)數(shù)據(jù)中的少數(shù)非常不利属愤。如果讓AI判斷一個(gè)人是男人還是女人,而用于訓(xùn)練這個(gè)AI的數(shù)據(jù)庫(kù)里有98%的男人酸役,只有2%的女人住诸。經(jīng)過(guò)訓(xùn)練的AI即使可以識(shí)別所有男人、完全不管那2%的女人涣澡,那也能有98%的準(zhǔn)確度贱呐。但是那2%的女人,對(duì)機(jī)器就等同于不存在了入桂。

而如果不管不顧實(shí)際情況奄薇,只埋頭訓(xùn)練的話,能將現(xiàn)有數(shù)據(jù)庫(kù)的偏差夸張到什么程度呢抗愁?來(lái)自MIT和卡耐基梅隆大學(xué)的兩個(gè)學(xué)者訓(xùn)練了一個(gè)AI馁蒂,它能夠通過(guò)不同數(shù)據(jù)庫(kù)的風(fēng)格和內(nèi)容,識(shí)別來(lái)自不同數(shù)據(jù)庫(kù)的圖片蜘腌,比如Caltech101里的汽車(chē)都是橫著的沫屡,MSRC里常常是寬闊的草坪上擺著一個(gè)物體。這意味著逢捺,若一個(gè)數(shù)據(jù)庫(kù)里面出現(xiàn)了哪怕一點(diǎn)點(diǎn)的偏見(jiàn)谁鳍,也會(huì)被算法忠實(shí)地反映出來(lái)癞季,夸大到一般情況中——用Caltech101訓(xùn)練出來(lái)的AI劫瞳,一定認(rèn)為世界上絕大部分的車(chē)都是橫著的才“正常”绷柒。

不同數(shù)據(jù)庫(kù)里的車(chē)的“典型”樣子志于。圖片來(lái)源:參考文獻(xiàn)3

這在技術(shù)領(lǐng)域被稱(chēng)為“過(guò)擬合”,很大程度上和人工智能的訓(xùn)練方式有關(guān)废睦。MIT和卡耐基梅隆的研究者認(rèn)為伺绽,現(xiàn)在的圖像識(shí)別開(kāi)發(fā)者,往往會(huì)陷入盲目追求“準(zhǔn)確度”的陷阱里去漱凝;訓(xùn)練出來(lái)的模型嗦玖,在某一個(gè)數(shù)據(jù)庫(kù)上的精確度可以達(dá)到非常高,從而給人“我的AI特牛逼”的錯(cuò)覺(jué)芹敌,然而在現(xiàn)實(shí)中難免會(huì)吃癟杖挣。這就好比我本來(lái)是個(gè)臉盲肩榕,又恰好是日本大型偶像組合AKB48的忠實(shí)粉絲,里面的幾百個(gè)妹子我都認(rèn)識(shí)惩妇。但是把我放到一般人群中株汉,我又兩眼一抹黑,只好對(duì)著剛認(rèn)識(shí)不久的人露出陌生的微笑歌殃。長(zhǎng)期泡在年輕妹子里乔妈,對(duì)老年人和男性的識(shí)別能力反而降低了。

誠(chéng)然氓皱,在AI訓(xùn)練的過(guò)程中路召,數(shù)據(jù)可以說(shuō)是最重要的一環(huán)。但數(shù)據(jù)不是萬(wàn)能的匀泊,對(duì)數(shù)據(jù)的洞察同樣關(guān)鍵优训。“從大量的數(shù)據(jù)中挖掘并洞察人性”——這是趙潔玉的導(dǎo)師奧都涅茨的興趣所在各聘。只有這樣揣非,才能從根本上提高機(jī)器在人類(lèi)社會(huì)中工作的能力。

人或許是機(jī)器最大的局限

社會(huì)的信息化躲因、互聯(lián)網(wǎng)的飛速發(fā)展給我們帶來(lái)了海量的數(shù)據(jù)早敬,你想得到的、想不到的大脉,都被機(jī)器清清楚楚地掌握著搞监。在你打開(kāi)社交網(wǎng)站的時(shí)候,機(jī)器就把合適的廣告推到了你面前镰矿,只因?yàn)槟闱耙惶煊霉雀杷阉髁诉@個(gè)產(chǎn)品的信息琐驴;上傳照片到Facebook,你和你的朋友都會(huì)被自動(dòng)打上標(biāo)簽秤标,只因?yàn)槊娌孔R(shí)別算法早已悄悄掃描過(guò)了有你們的每一幅照片绝淡。

然而,對(duì)于數(shù)據(jù)的挖掘和理解苍姜,始終有著各種各樣的局限牢酵。機(jī)器的錯(cuò)誤、歧視和偏見(jiàn)衙猪,也來(lái)自“缺根筋”的人——技術(shù)人員擁有了大量的數(shù)據(jù)馍乙,用機(jī)器強(qiáng)大的運(yùn)算能力調(diào)教出了精妙的算法布近,但卻對(duì)數(shù)據(jù)、乃至數(shù)據(jù)背后的社會(huì)現(xiàn)實(shí)缺乏考慮丝格。

珊卡爾舉了一個(gè)讓人啼笑皆非的例子——她所在的斯坦福計(jì)算機(jī)系的一個(gè)教授開(kāi)發(fā)了一個(gè)聲稱(chēng)能夠“通過(guò)面部特征識(shí)別同性戀”的人工智能撑瞧。消息傳出,社會(huì)上一片嘩然显蝌。且不論這個(gè)算法若是放入現(xiàn)實(shí)中季蚂,會(huì)為歧視和偏見(jiàn)提供怎樣的方便;關(guān)鍵是琅束,這個(gè)人工智能在現(xiàn)實(shí)中真的成立嗎扭屁?“這位教授使用的數(shù)據(jù),都來(lái)自在調(diào)查里公開(kāi)出柜的人涩禀,還有大量的同性戀根本沒(méi)有公開(kāi)自己的性向料滥。”珊卡爾在一篇博文中寫(xiě)道艾船,“如果想要辨識(shí)一個(gè)人是否真的是生物意義上的同性戀葵腹,這個(gè)算法沒(méi)有任何意義∮炱瘢”

另一個(gè)例子是践宴,一個(gè)醫(yī)療團(tuán)隊(duì)使用AI輔助診斷病人的血液樣本(這可以說(shuō)是目前人工智能最有開(kāi)發(fā)潛力的方向之一),但卻發(fā)現(xiàn)AI診斷出陽(yáng)性結(jié)果的數(shù)量大大超出了預(yù)料爷怀。難道其實(shí)人人都有沧杓纭?結(jié)果卻令人啼笑皆非:數(shù)據(jù)庫(kù)使用健康志愿者的血液作為對(duì)照运授,但這些志愿者幾乎都是年輕的大學(xué)生烤惊,而醫(yī)院里的病人年齡明顯偏大。最后吁朦,人工智能把老年血當(dāng)成了有病的血柒室。這樣的錯(cuò)誤人類(lèi)也會(huì)犯,但只需上幾門(mén)醫(yī)學(xué)統(tǒng)計(jì)學(xué)的課程就可糾正逗宜;教會(huì)AI懂得這種偏差雄右,卻仿佛遙遙無(wú)期。

這還僅僅是學(xué)術(shù)領(lǐng)域的問(wèn)題纺讲,現(xiàn)實(shí)中關(guān)于數(shù)據(jù)庫(kù)的棘手事兒更多擂仍。“在機(jī)器學(xué)習(xí)研究的領(lǐng)域里刻诊,數(shù)據(jù)庫(kù)還是相對(duì)比較‘干凈‘的防楷,”一名在人工智能領(lǐng)域供職的朋友對(duì)我說(shuō)牺丙,“各種類(lèi)型的數(shù)據(jù)都比較理想化则涯,比如圖片的標(biāo)簽复局、圖片的分類(lèi)等等,都相對(duì)規(guī)范粟判。然而在商業(yè)領(lǐng)域采集到的數(shù)據(jù)亿昏,很多都非常潦草,訓(xùn)練出來(lái)的算法也有很大問(wèn)題档礁〗枪常”商業(yè)公司要么購(gòu)買(mǎi)昂貴的數(shù)據(jù)庫(kù),要么就花上大量的人力手動(dòng)打標(biāo)簽呻澜,從這個(gè)角度上講递礼,人工智能的背后,其實(shí)一點(diǎn)也不智能羹幸〖顾瑁“垃圾進(jìn),垃圾出”(Garbage in栅受,Garbage out)将硝,是業(yè)界對(duì)于糟爛數(shù)據(jù)庫(kù)訓(xùn)練出糟爛智能的吐槽——很多時(shí)候,甚至是自嘲屏镊。

這些進(jìn)入商業(yè)應(yīng)用的人工智能使用了什么樣的數(shù)據(jù)庫(kù)依疼?數(shù)據(jù)庫(kù)中的偏見(jiàn)是否會(huì)影響人工智能的判斷?數(shù)據(jù)庫(kù)如何收集數(shù)據(jù)而芥,如何標(biāo)注已有的偏見(jiàn)律罢,業(yè)界有沒(méi)有標(biāo)準(zhǔn)?社會(huì)對(duì)此缺乏相應(yīng)的考察棍丐,而機(jī)器學(xué)習(xí)本身也存在著大量不透明的境況弟翘,特別是在神經(jīng)網(wǎng)絡(luò)“無(wú)監(jiān)督學(xué)習(xí)”的發(fā)展趨勢(shì)下,連開(kāi)發(fā)者自己都不知道自己的

AI 究竟在干什么骄酗。

我們不知道一個(gè)進(jìn)行簡(jiǎn)歷篩選的智能稀余,會(huì)不會(huì)將女性的簡(jiǎn)歷扔進(jìn)垃圾堆;也不知道給一個(gè)人的借貸信用打分的人工智能趋翻,是否會(huì)將出生地作為黑歷史納入考慮睛琳。作為一個(gè)希望在計(jì)算機(jī)領(lǐng)域發(fā)展的女性,趙潔玉也會(huì)擔(dān)心這樣的問(wèn)題踏烙∈ζ“如果你用歷年計(jì)算機(jī)系的入學(xué)數(shù)據(jù)訓(xùn)練一個(gè)人工智能,”她說(shuō)讨惩,“那么機(jī)器一定會(huì)得出‘女性成不了優(yōu)秀的計(jì)算機(jī)工程師‘的結(jié)果辟癌。這對(duì)女工程師來(lái)說(shuō)非常不公平〖瞿恚”

而少數(shù)族裔黍少、少數(shù)團(tuán)體所面臨的尷尬寡夹,就如同珊卡爾的研究中的海得拉巴婚紗一樣——被主流數(shù)據(jù)庫(kù)訓(xùn)練出來(lái)的人工智能,對(duì)少數(shù)群體的情況往往兩眼一抹黑〕е茫現(xiàn)實(shí)中菩掏,大量的智能應(yīng)用都誕生自灣區(qū)——這是一個(gè)經(jīng)濟(jì)極其發(fā)達(dá)的城市帶,開(kāi)發(fā)者大部分是白人中青年男性昵济,而這個(gè)小小的地方智绸,正決定著服務(wù)整個(gè)世界的人工智能的數(shù)據(jù)和算法。國(guó)內(nèi)北上廣深杭的互聯(lián)網(wǎng)從業(yè)者访忿,也難免對(duì)三四線城市和鄉(xiāng)村充滿了輕蔑瞧栗,一廂情愿地相信著大城市的社會(huì)規(guī)律。而結(jié)果卻是海铆,那些沒(méi)有話語(yǔ)權(quán)的群體和地域沼溜,可能會(huì)在將來(lái)更加嚴(yán)重地被邊緣化,這并不是開(kāi)放游添、平等的互聯(lián)網(wǎng)最初所期冀的結(jié)果系草。

給機(jī)器一個(gè)公平的未來(lái)?

“沒(méi)有事實(shí)上的技術(shù)中立唆涝。對(duì)機(jī)器來(lái)說(shuō)找都,中立的就是占統(tǒng)治地位的±群ǎ”劍橋大學(xué)未來(lái)研究所教授魯恩?奈如普(Rune

Nyrup)如是說(shuō)能耻。人工智能并不能從數(shù)據(jù)中習(xí)得什么是公平、什么是美德亡驰,也不懂什么是歧視晓猛、什么是丑惡。說(shuō)到底凡辱,我們現(xiàn)在的人工智能戒职,還遠(yuǎn)遠(yuǎn)沒(méi)到理解“抽象”的地步。

被人類(lèi)盲目追捧的機(jī)器透乾,似乎不會(huì)“犯錯(cuò)”——這是因?yàn)闄C(jī)器是穩(wěn)定的洪燥,只會(huì)出現(xiàn)“異常”乳乌。但這種異常捧韵,其實(shí)就是一直固執(zhí)不停地犯錯(cuò)。如何避免呢汉操?這也跟人類(lèi)的教育有相似之處——提供更好的教材再来,或者老師需要格外注意教學(xué)方式。毫無(wú)疑問(wèn)磷瘤,我們需要更好的芒篷、盡可能減少偏見(jiàn)的數(shù)據(jù)庫(kù)搜变;然而得到面面俱到、沒(méi)有偏差的數(shù)據(jù)庫(kù)非常困難梭伐、且成本高昂,那么訓(xùn)練人工智能的技術(shù)人員仰担,能夠?qū)赡艿钠钣兴J(rèn)識(shí)糊识。并用技術(shù)方式去調(diào)整、彌合這個(gè)偏差摔蓝,也是十分必要的赂苗。

趙潔玉正在做的研究,就是如何調(diào)偏贮尉。她設(shè)計(jì)的算法拌滋,會(huì)衡量數(shù)據(jù)庫(kù)的性別元素和偏見(jiàn)狀況,并用它來(lái)糾正識(shí)別的預(yù)測(cè)結(jié)果猜谚。在這個(gè)糾偏算法的幫助下败砂,機(jī)器在性別方面的識(shí)別偏見(jiàn)減少了40%以上。

而在糾偏的研究中魏铅,趙潔玉也慢慢領(lǐng)會(huì)了一個(gè)技術(shù)人員與社會(huì)公平之間的聯(lián)系昌犹。她自認(rèn)并不是那類(lèi)積極在社交網(wǎng)絡(luò)上參與政治議題的年輕人,但卻會(huì)更多地在技術(shù)領(lǐng)域注意到數(shù)據(jù)中的“少數(shù)”览芳,思考他們是否得到了數(shù)據(jù)和算法的一視同仁斜姥。“你的算法的表現(xiàn)好沧竟,是不是因?yàn)閮?yōu)勢(shì)群體強(qiáng)大铸敏?弱勢(shì)群體在你的算法中被考慮到了嗎?”趙潔玉說(shuō)悟泵。

而從根本上說(shuō)杈笔,那些被機(jī)器無(wú)意拾取的偏見(jiàn),都以性別刻板印象的形式糕非,長(zhǎng)期存在于我們自己周?chē)椋枰覀儽3謱徱暤膽B(tài)度。作為一個(gè)從事人工智能研究的女性峰弹,即使已經(jīng)走入了領(lǐng)域最頂尖的學(xué)府深造店量,卻依舊會(huì)面對(duì)別人詫異的目光【铣剩“經(jīng)常會(huì)聽(tīng)到別人說(shuō)融师,‘女孩子學(xué)CS(Computer Science,計(jì)算機(jī)科學(xué))蚁吝,一定很辛苦吧’旱爆∫ㄉ洌”趙潔玉對(duì)我說(shuō)。這些無(wú)心的怀伦、甚至是贊揚(yáng)的話脆烟,卻讓自己聽(tīng)了覺(jué)得不對(duì)勁》看“明明大家都是一樣的啊邢羔。”

的確桑孩,我們需要不厭其煩告訴機(jī)器的拜鹤,或許也需要不厭其煩地告訴我們自己。

(編輯:Ent)

參考文獻(xiàn):

Zhao, Jieyu, et al. "Men also like shopping: Reducing gender bias

amplification using corpus-level constraints." arXiv preprint

arXiv:1707.09457 (2017).

Shankar, Shreya, et al. "No Classification without Representation:

Assessing Geodiversity Issues in Open Data Sets for the Developing

World." stat 1050 (2017): 22.

Torralba, Antonio, and Alexei A. Efros. "Unbiased look at dataset

bias." Computer Vision and Pattern Recognition (CVPR), 2011 IEEE

Conference on. IEEE, 2011.

Barocas, Solon, and Andrew D. Selbst. "Big data's disparate impact." Cal. L. Rev. 104 (2016): 671.

Sweeney, Latanya. "Discrimination in Online Ad Delivery." Communications of the ACM 56.5 (2013): 44-54.

Barocas, Solon, and Andrew D. Selbst. "Big data's disparate impact." Cal. L. Rev. 104 (2016): 671.

https://www.newyorker.com/magazine/2017/04/03/ai-versus-md

https://thewalrus.ca/how-we-made-ai-as-racist-and-sexist-as-humans/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末流椒,一起剝皮案震驚了整個(gè)濱河市敏簿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宣虾,老刑警劉巖惯裕,帶你破解...
    沈念sama閱讀 217,657評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異绣硝,居然都是意外死亡轻猖,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)域那,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)咙边,“玉大人,你說(shuō)我怎么就攤上這事次员“苄恚” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,057評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵淑蔚,是天一觀的道長(zhǎng)市殷。 經(jīng)常有香客問(wèn)我,道長(zhǎng)刹衫,這世上最難降的妖魔是什么醋寝? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,509評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮带迟,結(jié)果婚禮上音羞,老公的妹妹穿的比我還像新娘。我一直安慰自己仓犬,他們只是感情好嗅绰,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般窘面。 火紅的嫁衣襯著肌膚如雪翠语。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,443評(píng)論 1 302
  • 那天财边,我揣著相機(jī)與錄音肌括,去河邊找鬼。 笑死酣难,一個(gè)胖子當(dāng)著我的面吹牛谍夭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播鲸鹦,決...
    沈念sama閱讀 40,251評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼慧库,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼跷跪!你這毒婦竟也來(lái)了馋嗜?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,129評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤吵瞻,失蹤者是張志新(化名)和其女友劉穎葛菇,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體橡羞,經(jīng)...
    沈念sama閱讀 45,561評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡眯停,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了卿泽。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片莺债。...
    茶點(diǎn)故事閱讀 39,902評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖签夭,靈堂內(nèi)的尸體忽然破棺而出齐邦,到底是詐尸還是另有隱情,我是刑警寧澤第租,帶...
    沈念sama閱讀 35,621評(píng)論 5 345
  • 正文 年R本政府宣布措拇,位于F島的核電站,受9級(jí)特大地震影響慎宾,放射性物質(zhì)發(fā)生泄漏丐吓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評(píng)論 3 328
  • 文/蒙蒙 一趟据、第九天 我趴在偏房一處隱蔽的房頂上張望券犁。 院中可真熱鬧,春花似錦汹碱、人聲如沸族操。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,838評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)色难。三九已至泼舱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間枷莉,已是汗流浹背娇昙。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,971評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留笤妙,地道東北人冒掌。 一個(gè)月前我還...
    沈念sama閱讀 48,025評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蹲盘,于是被迫代替她去往敵國(guó)和親股毫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容