圖像識別使圖片變成短句双谆，已達認(rèn)知心理學(xué)水平

【嵌牛導(dǎo)讀】如何能讓計算機具有類似人的視覺感官能力和理解能力，涉及到具象和抽象信息的轉(zhuǎn)化席揽，目前的工作進展或許代表了未來的發(fā)展方向顽馋。

【嵌牛提問】計算機怎樣能夠把圖片信息轉(zhuǎn)化為抽象的語言信息？

【嵌牛鼻子】圖像識別算法

轉(zhuǎn)載自新浪科技

圖片發(fā)自簡書App

【嵌牛正文】2017未來科學(xué)大獎頒獎典禮暨未來論壇年會在京舉辦幌羞。在計算機科學(xué)人工智能研討會上寸谜，斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛稱属桦，通過圖像識別技術(shù)將圖像“變”短句熊痴，這與認(rèn)知心理學(xué)實驗結(jié)果“非常接近”他爸。

　　李飛飛認(rèn)為，視覺是人類發(fā)展的重要基石果善，在過去的幾億年中诊笤，不同生物的視覺系統(tǒng)不斷發(fā)展，至今已成為人類大腦中最復(fù)雜的系統(tǒng)巾陕。在計算機識別領(lǐng)域讨跟，視覺系統(tǒng)同樣是重要研究，各國專家在視覺識別方面發(fā)明了眾多技術(shù)鄙煤，近8年時間晾匠，視覺識別的錯誤率已降低了10倍。

　　“在2012年梯刚，我們了解到了GPU技術(shù)以及深度識別技術(shù)凉馆，幫助世界發(fā)展”，李飛飛說乾巧，人工智能的發(fā)展對視覺研究作用明顯句喜。近期预愤，專家們開始預(yù)測沟于，根據(jù)視覺化語言模式，了解不同體積下的關(guān)系植康，甚至去了解不同物體間的位置和動作關(guān)系旷太，“這是量化研究，用更豐富的方法來了解世界”销睁。

　　圖像識別是如何了解物體的呢供璧？

　　李飛飛舉例稱，一張照片冻记，通過視覺識別技術(shù)睡毒，后臺可以分析出眾多標(biāo)簽，通過不同標(biāo)簽冗栗、不同屬性演顾、不同關(guān)系來描述物體，而數(shù)據(jù)庫和信息集隅居，可以做到更精準(zhǔn)的研究钠至。

　　“大家都用過百度和谷歌搜索圖片”，李飛飛說胎源，當(dāng)你輸入一個男人時棉钧，圖片搜索結(jié)果很豐富，當(dāng)搜索一只狗時涕蚤，同樣會獲得豐富結(jié)果宪卿，但當(dāng)你輸入“一個坐著的男人牽著一只狗”時的诵，結(jié)果卻大相徑庭，甚至很不理想愧捕。

　　李飛飛認(rèn)為奢驯，這主要取決于算法差異。目前絕大多數(shù)算法次绘，在搜索圖像時還是使用物體本身信息瘪阁，只是簡單了解圖中有何物體。若加入更多屬性邮偎，那么結(jié)果會更好管跺，“我們在探索新方法，比如一個長句禾进，放到數(shù)據(jù)庫中豁跑，與圖像進行對比，通過這種算法可以得到更好更精準(zhǔn)的結(jié)果”泻云。

　　目前艇拍，圖像識別領(lǐng)域的成果是通過場景圖，可以提供4層的分析結(jié)果宠纯，從而獲得更多信息卸夕，“但這些是不夠的，到目前我們只探索了認(rèn)知心理學(xué)家討論的概念”婆瓜，李飛飛說道快集。

　　她以一名美食家的視頻舉例。視頻中廉白，美食家在做飯時个初，放入了不同調(diào)料，通過圖像識別技術(shù)猴蹂，這些圖像下方就出現(xiàn)了描述短語院溺。

　　李飛飛表示，目前可以將圖像變成短句磅轻，從而出現(xiàn)更多內(nèi)容珍逸，“這與認(rèn)知心理學(xué)的實驗結(jié)果是非常接近的”。

　　以下為李飛飛演講實錄：

　　謝謝主持人瓢省，謝謝未來論壇科學(xué)大獎的邀請弄息，再次回到我出生的地方，特別榮幸有這么多頂級的科學(xué)家聚在一起勤婚，討論一些非常有意思摹量，也會對未來有很大的影響的問題和學(xué)科。

　　今天我給大家?guī)淼氖亲罱囊恍┭芯克悸罚裉煳业难葜v內(nèi)容是關(guān)于視覺智能缨称，動物世界當(dāng)中有很多物種凝果，而且有一種非常了不起，絕大多數(shù)動物都有眼睛睦尽，因此視覺是最為重要的一種感觀的方法和認(rèn)知方法器净，這是在動物的大腦當(dāng)中，幫助動物在世界當(dāng)中生存下來進行溝通当凡，去操控和生存山害。

　　所以我們無論是討論動物智能或者是機器智能的話，視覺是非常重要的基石沿量。世界上所存在的這些系統(tǒng)當(dāng)中浪慌，最為了解的一點是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時候朴则，這個進化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展权纤，使得我們的視覺系統(tǒng)非常重要的去理解這個世界，而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng)乌妒，而且有50%的大腦當(dāng)中的這些認(rèn)知的單位汹想，都有著最為復(fù)雜、最為高級的感知系統(tǒng)撤蚊，所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起古掏。

圖像本身，但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系拴魄。當(dāng)然這個領(lǐng)域有一些前期工作冗茸，但是絕大多數(shù)工作都是比較有限的席镀。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限匹中。

　　最近我們的實驗當(dāng)中做了這樣一項工作，開始新的研究豪诲，預(yù)測根據(jù)深度學(xué)習(xí)顶捷，以及視覺化語言模式了解不同物體之間的關(guān)系。

　　這張圖的算法能夠預(yù)測不同物體之間的空間關(guān)系屎篱，進行對比服赎，了解這種對稱的關(guān)系，然后了解他們之間的動作交播，以及他們的之間位置關(guān)系重虑。所以這就是一個更為豐富的方法，了解我們的視覺世界秦士，而不僅僅是一系列的物體名稱缺厉，這是我們所做出的一些量化研究。說明我們的工作在不斷地進展和取得進步的。

　　一年前的時候提针，我們知道這個領(lǐng)域發(fā)展非趁溃快，就是關(guān)于計算機圖像識別方面辐脖。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果饲宛。

　　我們可以看一下，在他們之間的關(guān)系是什么嗜价，而且在這個圖像當(dāng)中不同物體的關(guān)系艇抠，能夠讓我們?nèi)ジM一步了解這個問題，就是在物體之間還會有什么樣的數(shù)據(jù)集久锥。最開始我們知道有這個形象练链，非常有限的信息，比如這是一個物體奴拦，COCO進一步學(xué)習(xí)媒鼓，提供一個標(biāo)簽，進行短句子描述错妖，視覺數(shù)據(jù)信息是非常復(fù)雜和非常多的鼻种，

　　根據(jù)途徑出來一些問答，經(jīng)過三年的研究鹃骂，我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內(nèi)容改淑，通過這些不同的標(biāo)簽，描述這些物體痴施，包括他們的性質(zhì)擎厢、屬性以及關(guān)系，然后通過這樣的一個圖譜建立起他們之間的聯(lián)系辣吃《猓可以在這看一下這個內(nèi)容。這樣一個數(shù)據(jù)庫當(dāng)中神得，包括上千個標(biāo)簽厘惦，包括屬性和關(guān)系，還有句子哩簿、問答信息宵蕉，在我們這樣一個信息庫當(dāng)中，能夠非常精確地讓我們來進行更加精確的研究节榜，而不僅僅知道物體識別本身羡玛。

而且實際上到現(xiàn)在為止，我們僅僅探索了認(rèn)知心理學(xué)家所討論的一個概念宗苍，人們在一眼之中能夠看到什么樣的內(nèi)容稼稿，有什么樣的概念亿遂，人們只要看一眼就能看出整個圖像當(dāng)中的故事，所以我們要去看一下渺杉，這種只看一下圖就能夠了解它主要信息的能力是什么呢蛇数？在我之前，曾經(jīng)做過一個研究是越，就是希望人們能夠告訴我們耳舅，你看到了這個圖的時候看到了什么內(nèi)容，所以這是我們的實驗場景倚评，實驗人員坐在電腦屏幕面前浦徊，給它非常簡短地看一些圖像，然后很快地去看另外的一個圖像天梧，去遮蓋之前留下的印象盔性。他們需要打印出自己所看到的所有內(nèi)容，做這個工作給他們付10美元呢岗，現(xiàn)在不給大家一小時10美元冕香，大家可以實驗一下這個感覺，如果你是參加我的實驗人員的話后豫。

　　在這個圖當(dāng)中其實很快能夠被一張簡單的途徑去蓋掉悉尾，很短的呈現(xiàn)時間，只有27微妙挫酿，27微妙相當(dāng)于是1/40秒构眯，簡單圖形的時間是半秒的時間，是更長的早龟，人們還是能夠很好地理解場景信息惫霸，基本上是很短的時間。如果我給的實驗費用更高的話葱弟，大家甚至能做的更好壹店。在這個語言當(dāng)中有非常豐富的元素，不僅僅看到圖像當(dāng)中的物體是什么翘悉，他們的關(guān)系是什么茫打，而且有更多的內(nèi)容居触。

　　2015年開始妖混，我們有另外一個概念，叫做LSTM轮洋，他們希望把語言之間關(guān)系建立起來制市，我們在電腦當(dāng)中給他們一個圖像，能夠描述弊予，穿橙色工作服的工人站在路上工作祥楣，或者穿黑色T恤的男士在彈吉他，不僅僅用簡短的句子描述圖形，所以后來進行進一步的工作误褪，就是深度捕獲责鳍。看每個短句兽间，描述一個部分历葛，然后描述圖像的場景。

　　除了這個之外嘀略，我們今年所做的工作恤溶，我們希望把這些圖像要用這些短語，讓它成為小短的句子帜羊，成為一個小段落咒程，給了更多的內(nèi)容，而且和認(rèn)知心理學(xué)家所做的實驗當(dāng)中讼育，人類的描述結(jié)果是非常接近的帐姻。但是我們并沒有只停于這里，在上個周的ICCB的上面展示了一個視頻奶段，非常豐富的研究區(qū)域卖宠，很多網(wǎng)絡(luò)上的視頻，有各種各樣的數(shù)據(jù)形式忧饭，了解這些視頻是非常重要的扛伍。在里面可以描述更長故事的片段，用同樣的模型可以這樣做词裤，可以把時間的元素加入到里面刺洒。

　　這就是一個例子，大家可以看一下吼砂，可以看到視頻是在進行著的逆航，我們也可以去描述每一個部分是怎么樣的。

　　這是另外一個例子渔肩，也是描述了這個演員正在做的這些事情因俐，差不多大家能明白什么意思了。

　　另外一個部分周偎，除了簡單的認(rèn)知以外就是推理抹剩，推理可以讓我們能夠回到人工智能的最初，在20世紀(jì)七八十年代的時候蓉坎，人工智能的先驅(qū)們澳眷，用了很多推理，斯坦福大學(xué)的一個教授也是把他的研究稱為一個塊狀的世界蛉艾，這里面涉及到很多的深度推理钳踊。藍色還是不錯的衷敌，喜歡這些藍色的塊狀，不喜歡紅色的塊狀拓瞪，不喜歡支撐三角形的東西缴罗，到底喜歡不喜歡灰色的盒子呢？所以這里有很多推理需要去做的祭埂，然后夠得出一個正確的答案瞒爬。

　　當(dāng)然時間過得很快，不能講的特別詳細沟堡，但是我們在實驗室里也是用了這些簡單的工具侧但，來描述這樣一個分塊狀的世界。這里面也有很多的問答列表航罗，每個問答列表都是涉及到推理的過程當(dāng)中禀横，最關(guān)鍵的一些環(huán)節(jié)，包括空間的一些關(guān)系粥血，一些邏輯關(guān)系柏锄，在這里面也有一些問答例子。

　　去年复亏，我們也是把這些智能的問答集做成了這樣一個系統(tǒng)趾娃，人類能做多少，機器能做多少缔御，在準(zhǔn)確上面的一個對比抬闷。我們到底怎么能夠做得更好呢？這也是最近我們做的一個工作耕突，在ICCB發(fā)表的笤成。我們用了一個新的程序去做，在我們的算法里面眷茁，我們把這些問題輸入進來炕泳，然后把程序進行一些協(xié)調(diào)，還有執(zhí)行的引擎上祈，用預(yù)測的一些程序進行執(zhí)行的處理培遵。通過這樣一個算法，我們可以看到這些學(xué)習(xí)的準(zhǔn)確率登刺。

　　有哪些學(xué)習(xí)模塊呢籽腕？首先判斷到底這些物體形狀怎么樣，這些紫色是什么樣的塘砸，這是一個更加復(fù)雜的节仿，就是在灰色的這些模塊旁邊，有多少發(fā)光的這些物體掉蔬？得出的結(jié)果是2廊宪。

　　我給大家分享的就是一系列的工作，有哪些能夠超越我們視覺的一些途徑女轿，其實我們在了解到場景箭启，還有其他的一些要素，對于整個的認(rèn)知會產(chǎn)生什么樣的影響蛉迹，除了這個情景傅寡、視覺、語言北救，還有很多推理等等荐操，這些都是很重要的。

最后編輯于：2017.12.11 06:37:05

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末珍策，一起剝皮案震驚了整個濱河市托启，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌攘宙，老刑警劉巖屯耸，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異蹭劈，居然都是意外死亡疗绣，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門铺韧，熙熙樓的掌柜王于貴愁眉苦臉地迎上來多矮，“玉大人，你說我怎么就攤上這事哈打」で希” “怎么了？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵前酿，是天一觀的道長患雏。經(jīng)常有香客問我，道長罢维，這世上最難降的妖魔是什么淹仑？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮肺孵，結(jié)果婚禮上匀借，老公的妹妹穿的比我還像新娘。我一直安慰自己平窘，他們只是感情好吓肋，可當(dāng)我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著瑰艘，像睡著了一般是鬼。火紅的嫁衣襯著肌膚如雪肤舞。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天均蜜，我揣著相機與錄音李剖，去河邊找鬼。笑死囤耳，一個胖子當(dāng)著我的面吹牛篙顺，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播充择，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼德玫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了椎麦？” 一聲冷哼從身側(cè)響起宰僧，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎铃剔，沒想到半個月后撒桨，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡键兜，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年凤类，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片普气。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡谜疤，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出现诀，到底是詐尸還是另有隱情夷磕，我是刑警寧澤，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布仔沿，位于F島的核電站坐桩，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏封锉。R本人自食惡果不足惜绵跷，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望成福。院中可真熱鬧碾局，春花似錦、人聲如沸奴艾。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至像啼，卻和暖如春俘闯，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背埋合。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工备徐，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留萄传，地道東北人甚颂。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像秀菱，于是被迫代替她去往敵國和親振诬。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,914評論 2贊 355

圖像識別使圖片變成短句茂浮，已達認(rèn)知心理學(xué)水平

圖像識別使圖片變成短句双谆，已達認(rèn)知心理學(xué)水平

推薦閱讀更多精彩內(nèi)容