圖像識別使圖片變成短句双谆,已達認(rèn)知心理學(xué)水平

【嵌牛導(dǎo)讀】如何能讓計算機具有類似人的視覺感官能力和理解能力,涉及到具象和抽象信息的轉(zhuǎn)化席揽,目前的工作進展或許代表了未來的發(fā)展方向顽馋。

【嵌牛提問】計算機怎樣能夠把圖片信息轉(zhuǎn)化為抽象的語言信息?

【嵌牛鼻子】圖像識別算法

轉(zhuǎn)載自新浪科技

圖片發(fā)自簡書App


【嵌牛正文】2017未來科學(xué)大獎頒獎典禮暨未來論壇年會在京舉辦幌羞。在計算機科學(xué)人工智能研討會上寸谜,斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛稱属桦,通過圖像識別技術(shù)將圖像“變”短句熊痴,這與認(rèn)知心理學(xué)實驗結(jié)果“非常接近”他爸。

  李飛飛認(rèn)為,視覺是人類發(fā)展的重要基石果善,在過去的幾億年中诊笤,不同生物的視覺系統(tǒng)不斷發(fā)展,至今已成為人類大腦中最復(fù)雜的系統(tǒng)巾陕。在計算機識別領(lǐng)域讨跟,視覺系統(tǒng)同樣是重要研究,各國專家在視覺識別方面發(fā)明了眾多技術(shù)鄙煤,近8年時間晾匠,視覺識別的錯誤率已降低了10倍。

  “在2012年梯刚,我們了解到了GPU技術(shù)以及深度識別技術(shù)凉馆,幫助世界發(fā)展”,李飛飛說乾巧,人工智能的發(fā)展對視覺研究作用明顯句喜。近期预愤,專家們開始預(yù)測沟于,根據(jù)視覺化語言模式,了解不同體積下的關(guān)系植康,甚至去了解不同物體間的位置和動作關(guān)系旷太,“這是量化研究,用更豐富的方法來了解世界”销睁。

  圖像識別是如何了解物體的呢供璧?

  李飛飛舉例稱,一張照片冻记,通過視覺識別技術(shù)睡毒,后臺可以分析出眾多標(biāo)簽,通過不同標(biāo)簽冗栗、不同屬性演顾、不同關(guān)系來描述物體,而數(shù)據(jù)庫和信息集隅居,可以做到更精準(zhǔn)的研究钠至。

  “大家都用過百度和谷歌搜索圖片”,李飛飛說胎源,當(dāng)你輸入一個男人時棉钧,圖片搜索結(jié)果很豐富,當(dāng)搜索一只狗時涕蚤,同樣會獲得豐富結(jié)果宪卿,但當(dāng)你輸入“一個坐著的男人牽著一只狗”時的诵,結(jié)果卻大相徑庭,甚至很不理想愧捕。

  李飛飛認(rèn)為奢驯,這主要取決于算法差異。目前絕大多數(shù)算法次绘,在搜索圖像時還是使用物體本身信息瘪阁,只是簡單了解圖中有何物體。若加入更多屬性邮偎,那么結(jié)果會更好管跺,“我們在探索新方法,比如一個長句禾进,放到數(shù)據(jù)庫中豁跑,與圖像進行對比,通過這種算法可以得到更好更精準(zhǔn)的結(jié)果”泻云。

  目前艇拍,圖像識別領(lǐng)域的成果是通過場景圖,可以提供4層的分析結(jié)果宠纯,從而獲得更多信息卸夕,“但這些是不夠的,到目前我們只探索了認(rèn)知心理學(xué)家討論的概念”婆瓜,李飛飛說道快集。

  她以一名美食家的視頻舉例。視頻中廉白,美食家在做飯時个初,放入了不同調(diào)料,通過圖像識別技術(shù)猴蹂,這些圖像下方就出現(xiàn)了描述短語院溺。

  李飛飛表示,目前可以將圖像變成短句磅轻,從而出現(xiàn)更多內(nèi)容珍逸,“這與認(rèn)知心理學(xué)的實驗結(jié)果是非常接近的”。

  以下為李飛飛演講實錄:

  謝謝主持人瓢省,謝謝未來論壇科學(xué)大獎的邀請弄息,再次回到我出生的地方,特別榮幸有這么多頂級的科學(xué)家聚在一起勤婚,討論一些非常有意思摹量,也會對未來有很大的影響的問題和學(xué)科。

  今天我給大家?guī)淼氖亲罱囊恍┭芯克悸罚裉煳业难葜v內(nèi)容是關(guān)于視覺智能缨称,動物世界當(dāng)中有很多物種凝果,而且有一種非常了不起,絕大多數(shù)動物都有眼睛睦尽,因此視覺是最為重要的一種感觀的方法和認(rèn)知方法器净,這是在動物的大腦當(dāng)中,幫助動物在世界當(dāng)中生存下來進行溝通当凡,去操控和生存山害。

  所以我們無論是討論動物智能或者是機器智能的話,視覺是非常重要的基石沿量。世界上所存在的這些系統(tǒng)當(dāng)中浪慌,最為了解的一點是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時候朴则,這個進化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展权纤,使得我們的視覺系統(tǒng)非常重要的去理解這個世界,而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng)乌妒,而且有50%的大腦當(dāng)中的這些認(rèn)知的單位汹想,都有著最為復(fù)雜、最為高級的感知系統(tǒng)撤蚊,所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起古掏。

圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系拴魄。當(dāng)然這個領(lǐng)域有一些前期工作冗茸,但是絕大多數(shù)工作都是比較有限的席镀。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限匹中。

  最近我們的實驗當(dāng)中做了這樣一項工作,開始新的研究豪诲,預(yù)測根據(jù)深度學(xué)習(xí)顶捷,以及視覺化語言模式了解不同物體之間的關(guān)系。

  這張圖的算法能夠預(yù)測不同物體之間的空間關(guān)系屎篱,進行對比服赎,了解這種對稱的關(guān)系,然后了解他們之間的動作交播,以及他們的之間位置關(guān)系重虑。所以這就是一個更為豐富的方法,了解我們的視覺世界秦士,而不僅僅是一系列的物體名稱缺厉,這是我們所做出的一些量化研究。說明我們的工作在不斷地進展和取得進步的。

  一年前的時候提针,我們知道這個領(lǐng)域發(fā)展非趁溃快,就是關(guān)于計算機圖像識別方面辐脖。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果饲宛。

  我們可以看一下,在他們之間的關(guān)系是什么嗜价,而且在這個圖像當(dāng)中不同物體的關(guān)系艇抠,能夠讓我們?nèi)ジM一步了解這個問題,就是在物體之間還會有什么樣的數(shù)據(jù)集久锥。最開始我們知道有這個形象练链,非常有限的信息,比如這是一個物體奴拦,COCO進一步學(xué)習(xí)媒鼓,提供一個標(biāo)簽,進行短句子描述错妖,視覺數(shù)據(jù)信息是非常復(fù)雜和非常多的鼻种,

  根據(jù)途徑出來一些問答,經(jīng)過三年的研究鹃骂,我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內(nèi)容改淑,通過這些不同的標(biāo)簽,描述這些物體痴施,包括他們的性質(zhì)擎厢、屬性以及關(guān)系,然后通過這樣的一個圖譜建立起他們之間的聯(lián)系辣吃《猓可以在這看一下這個內(nèi)容。這樣一個數(shù)據(jù)庫當(dāng)中神得,包括上千個標(biāo)簽厘惦,包括屬性和關(guān)系,還有句子哩簿、問答信息宵蕉,在我們這樣一個信息庫當(dāng)中,能夠非常精確地讓我們來進行更加精確的研究节榜,而不僅僅知道物體識別本身羡玛。

而且實際上到現(xiàn)在為止,我們僅僅探索了認(rèn)知心理學(xué)家所討論的一個概念宗苍,人們在一眼之中能夠看到什么樣的內(nèi)容稼稿,有什么樣的概念亿遂,人們只要看一眼就能看出整個圖像當(dāng)中的故事,所以我們要去看一下渺杉,這種只看一下圖就能夠了解它主要信息的能力是什么呢蛇数?在我之前,曾經(jīng)做過一個研究是越,就是希望人們能夠告訴我們耳舅,你看到了這個圖的時候看到了什么內(nèi)容,所以這是我們的實驗場景倚评,實驗人員坐在電腦屏幕面前浦徊,給它非常簡短地看一些圖像,然后很快地去看另外的一個圖像天梧,去遮蓋之前留下的印象盔性。他們需要打印出自己所看到的所有內(nèi)容,做這個工作給他們付10美元呢岗,現(xiàn)在不給大家一小時10美元冕香,大家可以實驗一下這個感覺,如果你是參加我的實驗人員的話后豫。

  在這個圖當(dāng)中其實很快能夠被一張簡單的途徑去蓋掉悉尾,很短的呈現(xiàn)時間,只有27微妙挫酿,27微妙相當(dāng)于是1/40秒构眯,簡單圖形的時間是半秒的時間,是更長的早龟,人們還是能夠很好地理解場景信息惫霸,基本上是很短的時間。如果我給的實驗費用更高的話葱弟,大家甚至能做的更好壹店。在這個語言當(dāng)中有非常豐富的元素,不僅僅看到圖像當(dāng)中的物體是什么翘悉,他們的關(guān)系是什么茫打,而且有更多的內(nèi)容居触。

  2015年開始妖混,我們有另外一個概念,叫做LSTM轮洋,他們希望把語言之間關(guān)系建立起來制市,我們在電腦當(dāng)中給他們一個圖像,能夠描述弊予,穿橙色工作服的工人站在路上工作祥楣,或者穿黑色T恤的男士在彈吉他,不僅僅用簡短的句子描述圖形,所以后來進行進一步的工作误褪,就是深度捕獲责鳍。看每個短句兽间,描述一個部分历葛,然后描述圖像的場景。

  除了這個之外嘀略,我們今年所做的工作恤溶,我們希望把這些圖像要用這些短語,讓它成為小短的句子帜羊,成為一個小段落咒程,給了更多的內(nèi)容,而且和認(rèn)知心理學(xué)家所做的實驗當(dāng)中讼育,人類的描述結(jié)果是非常接近的帐姻。但是我們并沒有只停于這里,在上個周的ICCB的上面展示了一個視頻奶段,非常豐富的研究區(qū)域卖宠,很多網(wǎng)絡(luò)上的視頻,有各種各樣的數(shù)據(jù)形式忧饭,了解這些視頻是非常重要的扛伍。在里面可以描述更長故事的片段,用同樣的模型可以這樣做词裤,可以把時間的元素加入到里面刺洒。

  這就是一個例子,大家可以看一下吼砂,可以看到視頻是在進行著的逆航,我們也可以去描述每一個部分是怎么樣的。

  這是另外一個例子渔肩,也是描述了這個演員正在做的這些事情因俐,差不多大家能明白什么意思了。

  另外一個部分周偎,除了簡單的認(rèn)知以外就是推理抹剩,推理可以讓我們能夠回到人工智能的最初,在20世紀(jì)七八十年代的時候蓉坎,人工智能的先驅(qū)們澳眷,用了很多推理,斯坦福大學(xué)的一個教授也是把他的研究稱為一個塊狀的世界蛉艾,這里面涉及到很多的深度推理钳踊。藍色還是不錯的衷敌,喜歡這些藍色的塊狀,不喜歡紅色的塊狀拓瞪,不喜歡支撐三角形的東西缴罗,到底喜歡不喜歡灰色的盒子呢?所以這里有很多推理需要去做的祭埂,然后夠得出一個正確的答案瞒爬。

  當(dāng)然時間過得很快,不能講的特別詳細沟堡,但是我們在實驗室里也是用了這些簡單的工具侧但,來描述這樣一個分塊狀的世界。這里面也有很多的問答列表航罗,每個問答列表都是涉及到推理的過程當(dāng)中禀横,最關(guān)鍵的一些環(huán)節(jié),包括空間的一些關(guān)系粥血,一些邏輯關(guān)系柏锄,在這里面也有一些問答例子。

  去年复亏,我們也是把這些智能的問答集做成了這樣一個系統(tǒng)趾娃,人類能做多少,機器能做多少缔御,在準(zhǔn)確上面的一個對比抬闷。我們到底怎么能夠做得更好呢?這也是最近我們做的一個工作耕突,在ICCB發(fā)表的笤成。我們用了一個新的程序去做,在我們的算法里面眷茁,我們把這些問題輸入進來炕泳,然后把程序進行一些協(xié)調(diào),還有執(zhí)行的引擎上祈,用預(yù)測的一些程序進行執(zhí)行的處理培遵。通過這樣一個算法,我們可以看到這些學(xué)習(xí)的準(zhǔn)確率登刺。

  有哪些學(xué)習(xí)模塊呢籽腕?首先判斷到底這些物體形狀怎么樣,這些紫色是什么樣的塘砸,這是一個更加復(fù)雜的节仿,就是在灰色的這些模塊旁邊,有多少發(fā)光的這些物體掉蔬?得出的結(jié)果是2廊宪。

  我給大家分享的就是一系列的工作,有哪些能夠超越我們視覺的一些途徑女轿,其實我們在了解到場景箭启,還有其他的一些要素,對于整個的認(rèn)知會產(chǎn)生什么樣的影響蛉迹,除了這個情景傅寡、視覺、語言北救,還有很多推理等等荐操,這些都是很重要的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末珍策,一起剝皮案震驚了整個濱河市托启,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌攘宙,老刑警劉巖屯耸,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異蹭劈,居然都是意外死亡疗绣,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門铺韧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來多矮,“玉大人,你說我怎么就攤上這事哈打」で希” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵前酿,是天一觀的道長患雏。 經(jīng)常有香客問我,道長罢维,這世上最難降的妖魔是什么淹仑? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮肺孵,結(jié)果婚禮上匀借,老公的妹妹穿的比我還像新娘。我一直安慰自己平窘,他們只是感情好吓肋,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瑰艘,像睡著了一般是鬼。 火紅的嫁衣襯著肌膚如雪肤舞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天均蜜,我揣著相機與錄音李剖,去河邊找鬼。 笑死囤耳,一個胖子當(dāng)著我的面吹牛篙顺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播充择,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼德玫,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了椎麦?” 一聲冷哼從身側(cè)響起宰僧,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铃剔,沒想到半個月后撒桨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡键兜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年凤类,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片普气。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡谜疤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出现诀,到底是詐尸還是另有隱情夷磕,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布仔沿,位于F島的核電站坐桩,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏封锉。R本人自食惡果不足惜绵跷,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望成福。 院中可真熱鬧碾局,春花似錦、人聲如沸奴艾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至像啼,卻和暖如春俘闯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背埋合。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工备徐, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留萄传,地道東北人甚颂。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像秀菱,于是被迫代替她去往敵國和親振诬。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容