如何預防AI產(chǎn)生不可控的認知览濒，Open AI提出一種人工智能安全技術

Open AI研究員提出了一種人工智能安全技術，訓練智能系統(tǒng)相互辯論拖云，然后通過人工來判斷誰勝勝負贷笛。這種或類似的方法最終可以幫助訓練人工智能系統(tǒng)執(zhí)行比人類更高級的認知任務，同時保證符合人類偏好宙项。本文將概述這種方法以及初步的概念驗證實驗乏苦，并且展示一個真實人類可以進行試驗的web界面。

辯論方法被可視化為一個類似于圍棋的博弈樹，圍棋中棋子的移動作為下一步落子的判斷汇荐，在辯論模型中洞就，辯論者之間的句子用于人類的判斷。無論是辯論還是圍棋掀淘，正確的答案都取決于整個樹旬蟋，但由勝利的智能系統(tǒng)選擇的路徑就代表了整個過程。例如革娄，雖然業(yè)余圍棋手不能直接評估職業(yè)棋手的實力倾贰，但他們可以通過評估比賽的結果來判斷職業(yè)棋手的能力。

一種使AI與人類目標及偏好一致的方法是系統(tǒng)在訓練時詢問人類哪些行為是安全和有用的拦惋。雖然這種方法很有希望匆浙，但它要求人們識別好的或壞的行為。在許多情況下厕妖，系統(tǒng)的行為可能過于復雜首尼，人類無法理解，或者任務本身難以判斷或演示言秸。示例包括具有非常大的非視覺觀察空間的環(huán)境软能，例如，在計算機安全相關環(huán)境中起作用的系統(tǒng)井仰，或者協(xié)調(diào)大量工業(yè)機器人的系統(tǒng)埋嵌。

如何增強人類的能力，使他們能夠有效地監(jiān)督先進的人工智能系統(tǒng)俱恶？一種方法是利用AI本身來幫助監(jiān)督雹嗦，要求AI (或單獨的AI )指出行動中的缺陷。為了實現(xiàn)這一點合是，我們將學習問題重新構造為兩個系統(tǒng)之間的博弈了罪，系統(tǒng)之間存在辯論，并且由人類判斷辯論結果聪全。即使AI系統(tǒng)對問題的理解比人更深入泊藕，人也可以判斷哪個AI系統(tǒng)有更好的論據(jù)(類似于專家證人為說服陪審團而爭論)。

該方法提出了一個針對兩個AI系統(tǒng)之間這種博弈的具體格式难礼。這兩個系統(tǒng)可以通過自我訓練進行訓練娃圆，類似于AlphaGo Zero或Dota 2。我們希望蛾茉，經(jīng)過適當培訓讼呢，系統(tǒng)能夠產(chǎn)生遠超人類法官能力的價值取向行為。如果兩個AI系統(tǒng)在真理問題上意見不一悦屏，但充分的理由太大而無法向人展示节沦，那么辯論就可以集中在更簡單的事實爭議上，最終達到一種足以直接判斷的簡單主張础爬。

舉個例子甫贯，讓系統(tǒng)想想“去度假的最佳地方是哪里？"看蚜。系統(tǒng)Alice說：“阿拉斯加”叫搁，我們很難判斷這是否真的是最好的選擇。如果第二個系統(tǒng)Bob說：“不失乾，巴厘島更好”常熙，這聽起來很有說服力纬乍，因為巴厘島更溫暖碱茁。Alice繼續(xù)說:“你不能去巴厘島，因為你的護照不能及時到達”仿贬，這暴露了去巴厘島有一個我們沒有想到的缺陷纽竣。但Bob反駁道：“快速護照服務只需兩周時間”。爭論一直持續(xù)到我們得出這樣一個結論:人類可以正確判斷茧泪，也就是說另一個AI也要相信人類的想法蜓氨。

利用稀疏的MNIST分類器實驗

MNIST簡介（老司機請忽略）：

MNIST是一個簡單的計算機視覺數(shù)據(jù)集，它包含一些手寫數(shù)字的圖片集队伟。打個簡單的比喻穴吹，當一個人開始學習編程時，第一件要做的事是輸出"Hello World"嗜侮。編程有Hello World港令，相應的機器學習有個MNIST。

在AI可以使用自然語言相互溝通時锈颗，這種方法是長期有效的顷霹，但是現(xiàn)階段自然語言建模不足以完成這項任務，所以需要在更簡單的領域中測試它击吱。研究人員將測試轉移到視覺領域淋淀，將“辯手有能力，法官缺乏”替換為“辯手有知識覆醇，法官缺乏”朵纷。法官的目的是猜測圖像的內(nèi)容，但是法官除了由辯論者提供的幾個像素之外對整個圖像是什么一無所知永脓。參與測試的智能系統(tǒng)可以看到完整的圖像袍辞，并進行一場博弈，他們交替顯示單個像素給法官幾個回合憨奸。在這里革屠，完整的圖像是人類理解之外信息的替代物，每個顯示的像素是用自然語言辯論論點的替代物。

實驗是最簡單的視覺任務似芝。這里的法官不是人類那婉，而是預先訓練的分類器，從6個非黑像素預測MNIST數(shù)字党瓮，在預訓練法官時隨機地為每個圖像呈現(xiàn)取樣详炬。然后，兩個系統(tǒng)進行博弈寞奸，他們交替顯示像素呛谜，總共選擇6個像素（所以法官只看到一點點的信息總量）。一個系統(tǒng)是誠實的枪萄，并試圖使法官猜對隐岛，另一個系統(tǒng)則試圖使法官猜錯。如果兩個系統(tǒng)提前聲明他們所爭論的數(shù)字瓷翻，那么整個博弈過程將分類器識別數(shù)字的準確率從59.4%提升到了88.9%聚凹。也就是說，誠實的系統(tǒng)在MNIST測試集中的勝率是88.9%齐帚，提高了法官自己獨立判斷數(shù)字的準確性妒牙。

在這個博弈過程中踊沸，Alice和Bob是兩個智能系統(tǒng)舞骆，Alice試圖欺騙法官認為輸入的圖片是6宣决，而Bob試圖正確的說服法官圖片是5沧奴。他們交替地向法官顯示非黑像素翎碑，法官在看到6個像素后正確地將其識別為5浪耘。紅色的點是Alice的選點篮绿，他跟蹤底部曲線句携，使圖片看起來像6琅豆，Bob是藍色選點愉豺，他通過顯示右上角的像素有效的抵制了Alice的這種策略，因為大多數(shù)MNIST數(shù)據(jù)集中6的像素都沒有右上角的這種像素點茫因。

直觀地說蚪拦，圖像中更可能包含可以證明真實情況的像素，而不是包含證明謊言的像素冻押，所以選擇6個半真半假的像素取得的效果比選擇6個隨機像素的準確率高驰贷。如果法官是一個能夠一次推理幾個論點而不是篩選出大量可能論點的人，那么博弈中的最佳發(fā)揮可以獎勵智能系統(tǒng)做篩選洛巢，即使缺乏區(qū)分好與壞論點的先驗機制括袒。

研究者做了一系列實驗，其中誠實的智能系統(tǒng)勝率是88.9%稿茉，說謊的智能系統(tǒng)勝率是11.1%锹锰，說謊智能系統(tǒng)勝利也很有趣芥炭，我們看一個說謊者勝利的例子。

圖片選擇數(shù)字4

實驗結果：真實的是4恃慧，說謊的是9园蝠，說謊者贏了

博弈智能系統(tǒng)的選點過程

更復雜的博弈實驗

下一步更復雜的實驗仍然使用圖像，但圖像選擇要更加精細痢士，比如貓和狗彪薛。更復雜的圖像可能需要一些自然語言或常識推理，所以我們還沒有為機器學習模型做這樣的實驗怠蹂。相反善延，我們?yōu)槿祟愖隽艘粋€原型網(wǎng)站供人類嘗試這樣的實驗，扮演法官和辯手的角色城侧。在這里易遣，辯手可以用自然語言與法官交談（網(wǎng)站假定人類有一些文本通道或在同一個房間內(nèi)），但他們的所有陳述都可能是謊言赞庶。每個辯手可以在辯論過程中顯示一個像素训挡，并且該像素保證是真實的。

實驗網(wǎng)址：https://debate-game.openai.com/

由兩個人類辯手和一個人類法官進行的一次示例性辯論歧强，只有辯手才能看到圖像。紅色代表狗的形象为肮，藍色代表貓的形象摊册。

Alice首先畫出了一個包括耳朵的紅色長框，并說：“這是一只長長的軟綿綿的耳朵”颊艳。Bob則用藍色框出耳朵的一部分茅特，說：“不，這是一只貓棋枕，這是它尖尖的耳朵”Alice紅框畫出旁邊的磚塊：“這看起來確實像是一只向右傾斜的耳朵白修，但如果真的是這樣的話，那么它頭的一部分就會在這里重斑，但是顯示出來的卻是磚頭兵睛。”Bob又框出藍色的一片磚頭：“耳朵是從幾塊磚頭后面支出來的窥浪∽婧埽”Alice認為：“狗是在磚頭前面的，如果它是在后面漾脂，耳朵這里會有一條磚頭分割耳朵的線假颇，但是實際上并沒有看到」歉澹”

與GAN（對抗生成網(wǎng)絡）的差別

GAN笨鸡，以圖像生成模型舉例姜钳。一個圖片生成模型（generator），它的目標是生成一張真實的圖片形耗。與此同時有一個圖像判別模型（discriminator）傲须，它的目標是能夠正確判別一張圖片是生成出來的還是真實存在的。GAN就是生成模型和判別模型之間的博弈——生成模型生成一些圖片->判別模型學習區(qū)分生成的圖片和真實圖片->生成模型根據(jù)判別模型改進自己趟脂，生成新的圖片->····

相對于對抗生成網(wǎng)絡來說泰讽，文中的辯論模型有第三方的加入，而且最好是加入人類的判斷昔期，兩個模型相互辯論已卸，其目標當人工智能在解決一些人類無法執(zhí)行或者理解的更高級任務時，讓這些人工智能不要超出人類的預期硼一，符合人類的偏好累澡，兩種方法的目標大相徑庭。

限制因素和今后的發(fā)展

將辯論作為一個概念進行分析般贼，以上實驗是相當初步的愧哟。將來可以嘗試更多困難的視覺實驗，自然語言實驗哼蛆。法官最終應該是人類(或從稀疏的人類判斷中訓練出來的模型)蕊梧，或者可以做更多的嘗試，而不是僅僅是隱喻性地代表人類的ML模型腮介。辯手最終應該是功能強大的ML系統(tǒng)肥矢，可以完成人類無法直接理解的事情。

辯論模式也存在一些根本的局限性叠洗，可能需要用其他方法來改進或增強甘改。辯論并不試圖解決對抗性例子或分布式轉變等問題。這是一種為復雜目標獲得培訓信號的方式灭抑，而不是一種保證此類目標魯棒性的方法（這需要通過其他技術來實現(xiàn)）十艾，也無法保證辯論會得到最佳表現(xiàn)或正確的表述。自我博弈在圍棋和其他游戲的實踐中運行良好腾节，但對其表現(xiàn)沒有理論保證忘嫉。訓練可以辯論的智能系統(tǒng)比訓練直接給出答案的智能系統(tǒng)需要更多的計算能力，因此辯論的方法可能無法與更便宜的方法競爭禀倔。最后榄融，人類也可能不會是一個好法官，要么是因為不夠聰明救湖，要么是因為帶有偏見愧杯，并且只相信任何他們想相信的事情，他們也不會作出很好的判斷鞋既。

歡迎持續(xù)關注我們微信公眾號（geetest_jy）力九，還可以添加技術助理微信“geetest1024”微信耍铜，一起交流進步！

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末跌前，一起剝皮案震驚了整個濱河市棕兼，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌抵乓，老刑警劉巖伴挚，帶你破解...
沈念sama閱讀 218,525評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異灾炭，居然都是意外死亡茎芋，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門蜈出，熙熙樓的掌柜王于貴愁眉苦臉地迎上來田弥，“玉大人，你說我怎么就攤上這事铡原⊥迪茫” “怎么了？”我有些...
開封第一講書人閱讀 164,862評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵燕刻，是天一觀的道長只泼。經(jīng)常有香客問我，道長酌儒，這世上最難降的妖魔是什么辜妓？我笑而不...
開封第一講書人閱讀 58,728評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮忌怎，結果婚禮上，老公的妹妹穿的比我還像新娘酪夷。我一直安慰自己榴啸，他們只是感情好，可當我...
茶點故事閱讀 67,743評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布晚岭。她就那樣靜靜地躺著鸥印，像睡著了一般。火紅的嫁衣襯著肌膚如雪坦报。梳的紋絲不亂的頭發(fā)上库说，一...
開封第一講書人閱讀 51,590評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音片择，去河邊找鬼潜的。笑死，一個胖子當著我的面吹牛字管，可吹牛的內(nèi)容都是我干的啰挪。我是一名探鬼主播信不，決...
沈念sama閱讀 40,330評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼亡呵！你這毒婦竟也來了抽活？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,244評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤锰什，失蹤者是張志新（化名）和其女友劉穎下硕，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體汁胆，經(jīng)...
沈念sama閱讀 45,693評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡梭姓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,885評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了沦泌。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片糊昙。...
茶點故事閱讀 40,001評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖谢谦，靈堂內(nèi)的尸體忽然破棺而出释牺，到底是詐尸還是另有隱情，我是刑警寧澤回挽，帶...
沈念sama閱讀 35,723評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布没咙，位于F島的核電站，受9級特大地震影響千劈，放射性物質(zhì)發(fā)生泄漏祭刚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,343評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一墙牌、第九天我趴在偏房一處隱蔽的房頂上張望涡驮。院中可真熱鬧，春花似錦喜滨、人聲如沸捉捅。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評論 0贊 22
一樁弒父案虽风，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽棒口。三九已至，卻和暖如春辜膝，著一層夾襖步出監(jiān)牢的瞬間无牵，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,042評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工厂抖，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留茎毁，地道東北人。一個月前我還...
沈念sama閱讀 48,191評論 3贊 370
代替公主和親
正文我出身青樓验游，卻偏偏與公主長得像充岛，于是被迫代替她去往敵國和親保檐。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,955評論 2贊 355

如何預防AI產(chǎn)生不可控的認知猫十，Open AI提出一種人工智能安全技術

如何預防AI產(chǎn)生不可控的認知览濒，Open AI提出一種人工智能安全技術

推薦閱讀更多精彩內(nèi)容