【嵌牛導(dǎo)讀】如何能讓計算機具有類似人的視覺感官能力和理解能力,涉及到具象和抽象信息的轉(zhuǎn)化席揽,目前的工作進展或許代表了未來的發(fā)展方向顽馋。
【嵌牛提問】計算機怎樣能夠把圖片信息轉(zhuǎn)化為抽象的語言信息?
【嵌牛鼻子】圖像識別算法
轉(zhuǎn)載自新浪科技
【嵌牛正文】2017未來科學(xué)大獎頒獎典禮暨未來論壇年會在京舉辦幌羞。在計算機科學(xué)人工智能研討會上寸谜,斯坦福大學(xué)終身教授、谷歌云首席科學(xué)家李飛飛稱属桦,通過圖像識別技術(shù)將圖像“變”短句熊痴,這與認(rèn)知心理學(xué)實驗結(jié)果“非常接近”他爸。
李飛飛認(rèn)為,視覺是人類發(fā)展的重要基石果善,在過去的幾億年中诊笤,不同生物的視覺系統(tǒng)不斷發(fā)展,至今已成為人類大腦中最復(fù)雜的系統(tǒng)巾陕。在計算機識別領(lǐng)域讨跟,視覺系統(tǒng)同樣是重要研究,各國專家在視覺識別方面發(fā)明了眾多技術(shù)鄙煤,近8年時間晾匠,視覺識別的錯誤率已降低了10倍。
“在2012年梯刚,我們了解到了GPU技術(shù)以及深度識別技術(shù)凉馆,幫助世界發(fā)展”,李飛飛說乾巧,人工智能的發(fā)展對視覺研究作用明顯句喜。近期预愤,專家們開始預(yù)測沟于,根據(jù)視覺化語言模式,了解不同體積下的關(guān)系植康,甚至去了解不同物體間的位置和動作關(guān)系旷太,“這是量化研究,用更豐富的方法來了解世界”销睁。
圖像識別是如何了解物體的呢供璧?
李飛飛舉例稱,一張照片冻记,通過視覺識別技術(shù)睡毒,后臺可以分析出眾多標(biāo)簽,通過不同標(biāo)簽冗栗、不同屬性演顾、不同關(guān)系來描述物體,而數(shù)據(jù)庫和信息集隅居,可以做到更精準(zhǔn)的研究钠至。
“大家都用過百度和谷歌搜索圖片”,李飛飛說胎源,當(dāng)你輸入一個男人時棉钧,圖片搜索結(jié)果很豐富,當(dāng)搜索一只狗時涕蚤,同樣會獲得豐富結(jié)果宪卿,但當(dāng)你輸入“一個坐著的男人牽著一只狗”時的诵,結(jié)果卻大相徑庭,甚至很不理想愧捕。
李飛飛認(rèn)為奢驯,這主要取決于算法差異。目前絕大多數(shù)算法次绘,在搜索圖像時還是使用物體本身信息瘪阁,只是簡單了解圖中有何物體。若加入更多屬性邮偎,那么結(jié)果會更好管跺,“我們在探索新方法,比如一個長句禾进,放到數(shù)據(jù)庫中豁跑,與圖像進行對比,通過這種算法可以得到更好更精準(zhǔn)的結(jié)果”泻云。
目前艇拍,圖像識別領(lǐng)域的成果是通過場景圖,可以提供4層的分析結(jié)果宠纯,從而獲得更多信息卸夕,“但這些是不夠的,到目前我們只探索了認(rèn)知心理學(xué)家討論的概念”婆瓜,李飛飛說道快集。
她以一名美食家的視頻舉例。視頻中廉白,美食家在做飯時个初,放入了不同調(diào)料,通過圖像識別技術(shù)猴蹂,這些圖像下方就出現(xiàn)了描述短語院溺。
李飛飛表示,目前可以將圖像變成短句磅轻,從而出現(xiàn)更多內(nèi)容珍逸,“這與認(rèn)知心理學(xué)的實驗結(jié)果是非常接近的”。
以下為李飛飛演講實錄:
謝謝主持人瓢省,謝謝未來論壇科學(xué)大獎的邀請弄息,再次回到我出生的地方,特別榮幸有這么多頂級的科學(xué)家聚在一起勤婚,討論一些非常有意思摹量,也會對未來有很大的影響的問題和學(xué)科。
今天我給大家?guī)淼氖亲罱囊恍┭芯克悸罚裉煳业难葜v內(nèi)容是關(guān)于視覺智能缨称,動物世界當(dāng)中有很多物種凝果,而且有一種非常了不起,絕大多數(shù)動物都有眼睛睦尽,因此視覺是最為重要的一種感觀的方法和認(rèn)知方法器净,這是在動物的大腦當(dāng)中,幫助動物在世界當(dāng)中生存下來進行溝通当凡,去操控和生存山害。
所以我們無論是討論動物智能或者是機器智能的話,視覺是非常重要的基石沿量。世界上所存在的這些系統(tǒng)當(dāng)中浪慌,最為了解的一點是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時候朴则,這個進化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展权纤,使得我們的視覺系統(tǒng)非常重要的去理解這個世界,而且這是我們大腦當(dāng)中最為復(fù)雜的系統(tǒng)乌妒,而且有50%的大腦當(dāng)中的這些認(rèn)知的單位汹想,都有著最為復(fù)雜、最為高級的感知系統(tǒng)撤蚊,所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起古掏。
圖像本身,但是我們所輸出的信息包括物體的位置以及物體之間的關(guān)系拴魄。當(dāng)然這個領(lǐng)域有一些前期工作冗茸,但是絕大多數(shù)工作都是比較有限的席镀。獲得數(shù)據(jù)和物體之間的關(guān)系信息比較有限匹中。
最近我們的實驗當(dāng)中做了這樣一項工作,開始新的研究豪诲,預(yù)測根據(jù)深度學(xué)習(xí)顶捷,以及視覺化語言模式了解不同物體之間的關(guān)系。
這張圖的算法能夠預(yù)測不同物體之間的空間關(guān)系屎篱,進行對比服赎,了解這種對稱的關(guān)系,然后了解他們之間的動作交播,以及他們的之間位置關(guān)系重虑。所以這就是一個更為豐富的方法,了解我們的視覺世界秦士,而不僅僅是一系列的物體名稱缺厉,這是我們所做出的一些量化研究。說明我們的工作在不斷地進展和取得進步的。
一年前的時候提针,我們知道這個領(lǐng)域發(fā)展非趁溃快,就是關(guān)于計算機圖像識別方面辐脖。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果饲宛。
我們可以看一下,在他們之間的關(guān)系是什么嗜价,而且在這個圖像當(dāng)中不同物體的關(guān)系艇抠,能夠讓我們?nèi)ジM一步了解這個問題,就是在物體之間還會有什么樣的數(shù)據(jù)集久锥。最開始我們知道有這個形象练链,非常有限的信息,比如這是一個物體奴拦,COCO進一步學(xué)習(xí)媒鼓,提供一個標(biāo)簽,進行短句子描述错妖,視覺數(shù)據(jù)信息是非常復(fù)雜和非常多的鼻种,
根據(jù)途徑出來一些問答,經(jīng)過三年的研究鹃骂,我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內(nèi)容改淑,通過這些不同的標(biāo)簽,描述這些物體痴施,包括他們的性質(zhì)擎厢、屬性以及關(guān)系,然后通過這樣的一個圖譜建立起他們之間的聯(lián)系辣吃《猓可以在這看一下這個內(nèi)容。這樣一個數(shù)據(jù)庫當(dāng)中神得,包括上千個標(biāo)簽厘惦,包括屬性和關(guān)系,還有句子哩簿、問答信息宵蕉,在我們這樣一個信息庫當(dāng)中,能夠非常精確地讓我們來進行更加精確的研究节榜,而不僅僅知道物體識別本身羡玛。
而且實際上到現(xiàn)在為止,我們僅僅探索了認(rèn)知心理學(xué)家所討論的一個概念宗苍,人們在一眼之中能夠看到什么樣的內(nèi)容稼稿,有什么樣的概念亿遂,人們只要看一眼就能看出整個圖像當(dāng)中的故事,所以我們要去看一下渺杉,這種只看一下圖就能夠了解它主要信息的能力是什么呢蛇数?在我之前,曾經(jīng)做過一個研究是越,就是希望人們能夠告訴我們耳舅,你看到了這個圖的時候看到了什么內(nèi)容,所以這是我們的實驗場景倚评,實驗人員坐在電腦屏幕面前浦徊,給它非常簡短地看一些圖像,然后很快地去看另外的一個圖像天梧,去遮蓋之前留下的印象盔性。他們需要打印出自己所看到的所有內(nèi)容,做這個工作給他們付10美元呢岗,現(xiàn)在不給大家一小時10美元冕香,大家可以實驗一下這個感覺,如果你是參加我的實驗人員的話后豫。
在這個圖當(dāng)中其實很快能夠被一張簡單的途徑去蓋掉悉尾,很短的呈現(xiàn)時間,只有27微妙挫酿,27微妙相當(dāng)于是1/40秒构眯,簡單圖形的時間是半秒的時間,是更長的早龟,人們還是能夠很好地理解場景信息惫霸,基本上是很短的時間。如果我給的實驗費用更高的話葱弟,大家甚至能做的更好壹店。在這個語言當(dāng)中有非常豐富的元素,不僅僅看到圖像當(dāng)中的物體是什么翘悉,他們的關(guān)系是什么茫打,而且有更多的內(nèi)容居触。
2015年開始妖混,我們有另外一個概念,叫做LSTM轮洋,他們希望把語言之間關(guān)系建立起來制市,我們在電腦當(dāng)中給他們一個圖像,能夠描述弊予,穿橙色工作服的工人站在路上工作祥楣,或者穿黑色T恤的男士在彈吉他,不僅僅用簡短的句子描述圖形,所以后來進行進一步的工作误褪,就是深度捕獲责鳍。看每個短句兽间,描述一個部分历葛,然后描述圖像的場景。
除了這個之外嘀略,我們今年所做的工作恤溶,我們希望把這些圖像要用這些短語,讓它成為小短的句子帜羊,成為一個小段落咒程,給了更多的內(nèi)容,而且和認(rèn)知心理學(xué)家所做的實驗當(dāng)中讼育,人類的描述結(jié)果是非常接近的帐姻。但是我們并沒有只停于這里,在上個周的ICCB的上面展示了一個視頻奶段,非常豐富的研究區(qū)域卖宠,很多網(wǎng)絡(luò)上的視頻,有各種各樣的數(shù)據(jù)形式忧饭,了解這些視頻是非常重要的扛伍。在里面可以描述更長故事的片段,用同樣的模型可以這樣做词裤,可以把時間的元素加入到里面刺洒。
這就是一個例子,大家可以看一下吼砂,可以看到視頻是在進行著的逆航,我們也可以去描述每一個部分是怎么樣的。
這是另外一個例子渔肩,也是描述了這個演員正在做的這些事情因俐,差不多大家能明白什么意思了。
另外一個部分周偎,除了簡單的認(rèn)知以外就是推理抹剩,推理可以讓我們能夠回到人工智能的最初,在20世紀(jì)七八十年代的時候蓉坎,人工智能的先驅(qū)們澳眷,用了很多推理,斯坦福大學(xué)的一個教授也是把他的研究稱為一個塊狀的世界蛉艾,這里面涉及到很多的深度推理钳踊。藍色還是不錯的衷敌,喜歡這些藍色的塊狀,不喜歡紅色的塊狀拓瞪,不喜歡支撐三角形的東西缴罗,到底喜歡不喜歡灰色的盒子呢?所以這里有很多推理需要去做的祭埂,然后夠得出一個正確的答案瞒爬。
當(dāng)然時間過得很快,不能講的特別詳細沟堡,但是我們在實驗室里也是用了這些簡單的工具侧但,來描述這樣一個分塊狀的世界。這里面也有很多的問答列表航罗,每個問答列表都是涉及到推理的過程當(dāng)中禀横,最關(guān)鍵的一些環(huán)節(jié),包括空間的一些關(guān)系粥血,一些邏輯關(guān)系柏锄,在這里面也有一些問答例子。
去年复亏,我們也是把這些智能的問答集做成了這樣一個系統(tǒng)趾娃,人類能做多少,機器能做多少缔御,在準(zhǔn)確上面的一個對比抬闷。我們到底怎么能夠做得更好呢?這也是最近我們做的一個工作耕突,在ICCB發(fā)表的笤成。我們用了一個新的程序去做,在我們的算法里面眷茁,我們把這些問題輸入進來炕泳,然后把程序進行一些協(xié)調(diào),還有執(zhí)行的引擎上祈,用預(yù)測的一些程序進行執(zhí)行的處理培遵。通過這樣一個算法,我們可以看到這些學(xué)習(xí)的準(zhǔn)確率登刺。
有哪些學(xué)習(xí)模塊呢籽腕?首先判斷到底這些物體形狀怎么樣,這些紫色是什么樣的塘砸,這是一個更加復(fù)雜的节仿,就是在灰色的這些模塊旁邊,有多少發(fā)光的這些物體掉蔬?得出的結(jié)果是2廊宪。
我給大家分享的就是一系列的工作,有哪些能夠超越我們視覺的一些途徑女轿,其實我們在了解到場景箭启,還有其他的一些要素,對于整個的認(rèn)知會產(chǎn)生什么樣的影響蛉迹,除了這個情景傅寡、視覺、語言北救,還有很多推理等等荐操,這些都是很重要的。