視覺 AI 到底發(fā)展到了什么地步?
姓名:榮皓宇
學(xué)號:17101223406
轉(zhuǎn)載自知乎: https://zhuanlan.zhihu.com/p/30740947?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io,有部分刪改
【嵌牛導(dǎo)讀】:隨著 AI 的發(fā)展,計算機(jī)視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用比默,人臉識別,物體檢測等等技術(shù)更是在安防盆犁、無人車等領(lǐng)域起著至關(guān)重要的作用命咐。
【嵌牛鼻子】:視覺AI系統(tǒng),語義分割谐岁,應(yīng)用
【嵌牛提問】:文中的AI系統(tǒng)是如何完成“畫”這種偏創(chuàng)造性的行為的呢醋奠?
【嵌牛正文】:
AI前線出品| ID:ai-front
隨著 AI 的發(fā)展,計算機(jī)視覺技術(shù)逐漸擁有了更廣泛的應(yīng)用伊佃,人臉識別窜司,物體檢測等等技術(shù)更是在安防、無人車等領(lǐng)域起著至關(guān)重要的作用锭魔。來自騰訊優(yōu)圖實驗室的杰出科學(xué)家賈佳亞先生在 2017 年 6 月 21 日中國深圳“云 + 未來”峰會上發(fā)表了關(guān)于 AI 視覺技術(shù)的演講例证,為聽眾展示了優(yōu)圖實驗室先進(jìn)的AI視覺系統(tǒng)路呜。
以下為演講內(nèi)容
AI 這個詞從進(jìn)入大家的視野到變得巷聞皆知才用了兩年時間迷捧,所以 AI 在這個時間發(fā)展過程中有點(diǎn)像突然發(fā)現(xiàn)的東西织咧,用什么來比喻它?我會用哈利波特的隱形斗篷來比喻它漠秋,這個隱星斗篷就是當(dāng)你穿上它的時候笙蒙,你會發(fā)現(xiàn)空無一人,但是你把隱形斗篷取下來庆锦,你發(fā)現(xiàn)原來里面躲了一個龐然大物捅位。
其實 AI 視覺技術(shù)就是這樣一個過程,AI 的發(fā)展從最開始到現(xiàn)在經(jīng)歷了幾十年的發(fā)展搂抒,所以到今天這個規(guī)模絕對不是一朝一夕能夠形成的艇搀。所以我從隱性斗篷的例子來從頭看看到底怎么理解 AI 技術(shù)。
我們在很多的小說求晶、電影焰雕、科幻讀物里都有很多擬人化的機(jī)器人或者產(chǎn)物,其中有四個最重要的功能芳杏,第一是看矩屁,第二是聽,第三是說爵赵,第四是動吝秕。當(dāng)然不是所有東西都會動,但如果這是一個超級的智能產(chǎn)物一定會控制其他東西在動空幻,自己不用動烁峭。當(dāng)我今天想跟大家介紹 AI 的時候,我會專注在一個方向上秕铛,那就是看则剃。為什么我們要去講看這件事?我覺得還要從自然智能理解起如捅。
自然智能不是 AI 智能的對立面棍现,但是卻是反方面的詞。人工智能是人創(chuàng)造的镜遣,自然智能是從遠(yuǎn)古時代演化到現(xiàn)在的己肮,我們從自然智能里學(xué)到很多東西,比如說看到自然智能的時候悲关,我會想谎僻,我們有非常多的視網(wǎng)膜神經(jīng)細(xì)胞,有柱狀和椎裝細(xì)胞但是我們有超過 40 億以上的神經(jīng)元會處理我們的視覺信息寓辱,相比之下艘绍,我們的觸覺和聽覺可能只有 8% 和 3% 的比例,這說明什么秫筏?說明我們這個世界太復(fù)雜了诱鞠,當(dāng)我們從第一天人類開始去理解這個世界的時候挎挖,我們就有足夠多的神經(jīng)元或者處理單元去理解這個世界,所以“看”是我們理解這個世界最重要的部分航夺。
我們做到了什么蕉朵?
視覺的 AI 可以運(yùn)用在很多的游戲里面,比如說體感游戲或者是增強(qiáng)現(xiàn)實游戲阳掐,滿大街去找小精靈的游戲就是重要的體現(xiàn)始衅。除了視覺娛樂之外還有很大用處,比如解決在監(jiān)控缭保、安防或者需要大量人手去觀察視頻和圖像的分為之內(nèi)汛闸,我們從幾百人減成幾個人,這也是視覺 AI 發(fā)揮的作用艺骂。
騰訊是一個非常大的社交網(wǎng)絡(luò)公司蛉拙,里面有各種各樣的媒體或者軟件幫大家做交流,比如我有一個好的照片想給大家看看彻亲,是不是能夠達(dá)到把人年輕十歲的效果呢孕锄?這個事情是可以做到了,甚至于如果想把自己變一個性別苞尝,從男生變成女生畸肆,那也很容易,甚至不用去醫(yī)院了宙址。這是在相冊上或者是在手機(jī)端產(chǎn)生的變化轴脐,除此之外還有兩塊非常大的部分,一個是智能醫(yī)療抡砂,如何能夠讓一個機(jī)器智能讀懂所有醫(yī)療的片大咱,比如說 CT 片、MRI 片注益,這是非常重要的部分碴巾。還有自動駕駛,我們能不能輔助駕駛丑搔、自動駕駛的功能加入在視覺 AI 里面厦瓢。
這些 AI 的技術(shù)代表在這個領(lǐng)域飛速發(fā)展的進(jìn)程,但是與此同時啤月,在不同的途徑煮仇、不同的視頻或者不同的專家給大家介紹各種方法的時候會說,我們的技術(shù)已經(jīng)做到多么強(qiáng)谎仲、多么好浙垫,我在這里更希望通過科學(xué)家的角度跟大家介紹,我們的視覺 AI 角度到底發(fā)展到什么地步。
首先可以超過 1000 個類別的上億張圖像的分類理解夹姥。
當(dāng)我有一張圖像的時候杉武,人和機(jī)器都可以告訴你這張圖像是什么,這是一頭牛還是一朵花佃声,有的時候你可以想象機(jī)器甚至做得比人更出色,我三歲的女兒經(jīng)常跟我說倘要,爸爸圾亏,我看到那邊有非常漂亮的蝴蝶。我就糾正她封拧,寶貝志鹃,那不是蝴蝶,那是蛾子泽西。但是我的寶貝說曹铃,這個蛾子比蝴蝶還漂亮,肯定是蝴蝶捧杉。
說明我們在圖像理解上有一個過程陕见,我需要理解它的含義得到一個結(jié)果,但是在機(jī)器學(xué)習(xí)的時候味抖,甚至可以達(dá)到比成年人更高的境界评甜,我們可以細(xì)分到山丘、山陵的區(qū)別仔涩,而超越人的理解忍坷。科學(xué)家已經(jīng)不滿足于這個問題熔脂,這個問題被認(rèn)為已經(jīng)在這個領(lǐng)域解決佩研,下一個要解決的是檢測問題。當(dāng)我們有一張圖霞揉,我希望不但知道這個圖的整體表達(dá)是什么旬薯,還要知道這個圖里哪個地方是車,哪個地方是路面适秩,哪個地方是人袍暴,這是檢測過程。由于現(xiàn)在有強(qiáng)大的計算資源和計算能力隶症,我們可以超過五億個品種的檢測政模,這是視覺 AI 的另外一個可以達(dá)到的目標(biāo)。
除此之外蚂会,科學(xué)家們想淋样,當(dāng)我們能檢測到一些物體的時候,能不能把細(xì)致度做得更深胁住?比如說顆粒度更深的每個像素趁猴、每個點(diǎn)刊咳,我是不是能知道這個點(diǎn)是屬于馬路的,屬于人還是屬于車的儡司,這是遠(yuǎn)遠(yuǎn)超越于之前問題的更加進(jìn)一步的推廣問題娱挨。所以我們管它叫做語義分割,現(xiàn)在可以超過總數(shù)四千億像素級別的多圖圖像分割捕犬,這是這幾年整個領(lǐng)域產(chǎn)生的巨大推進(jìn)作用和研究成果跷坝,能夠達(dá)到的效果。除此之外更加熟悉的是對人臉的匹配查詢碉碉,可以超過一億張人臉匹配查詢柴钻,找到你想要的人,你問問自己垢粮,能不能認(rèn)識一億個人贴届?認(rèn)識一百個人,我就很開心了蜡吧,這在電腦上是遠(yuǎn)遠(yuǎn)超越了人毫蚓。
在之前五到十年的時候,我在學(xué)校的團(tuán)隊還會做一些有意思的研究:我們當(dāng)時想昔善,如果看到這樣一張模糊的圖片你會做什么事情绍些?你看到一張模糊圖像會做什么事情?可能大家要做的就是把它刪除耀鸦,為什么柬批?因為這張圖片模糊了,已經(jīng)沒有用了袖订,但是對我們科學(xué)家而言氮帐,是非常珍貴的資源,因為通過這張圖像我們發(fā)掘出一些人類看不到的東西洛姑。
為大家舉一個有趣的例子上沐,比如在這張圖像里,我們是在一個高速行進(jìn)的車上楞艾,周圍的環(huán)境是容易被模糊的参咙,當(dāng)我們理解環(huán)境的時候你發(fā)現(xiàn),車牌或者路標(biāo)已經(jīng)被模糊掉硫眯,在這張圖上蕴侧,在這個圖標(biāo)上看著公路的信息,但是左邊小的是什么東西两入?左邊路牌上的數(shù)字是什么東西呢净宵?之前大學(xué)里的團(tuán)隊經(jīng)過五到十年的研究,把這些信息充分理解出來,最后通過我們的技術(shù)手段择葡,能夠看到最后這是在美國 101 公路上的場景紧武,我們可以超越人類的圖像模糊。
還有一個東西敏储,我們希望十年之后出現(xiàn)家具機(jī)器人阻星,什么叫家具機(jī)器人?就是你希望他能幫你洗衣服已添、洗碗妥箕、做飯,甚至帶孩子酝碳,但是要達(dá)到這個智能機(jī)器人矾踱,怎么樣才能做到這一步恨狈?其中重要的就是如何把自然語言和自然圖像結(jié)合起來疏哗,也就是兩者的充分結(jié)合。所以我們在之前有一系列的研究禾怠,是當(dāng)你看到一張圖像的時候返奉,我的人來問一個問題,是什么放在了這個工作間的臺子上吗氏,電腦看到通過你這句話芽偏,分析是什么意思,然后再去尋找在這張圖像上是問了什么問題弦讽,最后把圖像上重要的位置找到之后反饋回來污尉,得到一個結(jié)果,這個結(jié)果就是船往产,這就是說這個答案是對的被碗。
這個說明現(xiàn)在電腦可以結(jié)合自然語言,我說的話和看到的場景可以結(jié)合起來仿村,這是一個非常了不起的進(jìn)步锐朴。正是因為有這個進(jìn)步,我相信令到家具機(jī)器人的理想在十年之內(nèi)能夠變?yōu)楝F(xiàn)實蔼囊。
我們還可以做到什么焚志?
可能有講座介紹說,幸虧 AI 達(dá)到的程度還沒有人那么高畏鼓,因為人會創(chuàng)造酱酬,AI 不會創(chuàng)造。我想跟大家說云矫,其實這句話是不對的岳悟,電腦也會創(chuàng)造,而且創(chuàng)造出來的種類和試樣,很多時候是讓我們驚嘆的贵少,在以往知識庫里是找不到這些模組的呵俏,這就是創(chuàng)造的功能,視覺 AI 已經(jīng)可以實現(xiàn)創(chuàng)造滔灶。
比如看這兩幅圖普碎,看在座各位認(rèn)為右邊這張圖是電腦畫的?真理永遠(yuǎn)掌握在少數(shù)人手里录平,右邊這張圖確實是電腦畫的麻车,電腦用鉛筆畫出了整體輪廓的表達(dá)、陰影的表達(dá)斗这,達(dá)到了非常高的層次动猬,人類需要長期訓(xùn)練才能畫出,但是我們畫出這張圖只用了 0.1 秒表箭,就是它的創(chuàng)造過程赁咙,這是非常有趣的事情。
我大學(xué)的團(tuán)隊在去年為了去理解這個非常復(fù)雜的場景免钻,創(chuàng)造了全世界最像素級的分割技術(shù)彼水,做場景理解分析。
這個例子可以看到車是一個顏色极舔,因為我識別出來這是車凤覆,所以是藍(lán)色,旁邊的樹拆魏,我識別出是樹盯桦,所以標(biāo)成綠色。我們在去年實現(xiàn)了在大規(guī)模場景的多復(fù)雜環(huán)境下的內(nèi)容分析渤刃,這是去年做的事情拥峦。今年我們不滿足這樣一個結(jié)果,我說我們還能做什么溪掀?然后我的團(tuán)隊開始在今年做了另外一件讓大家激動的事情事镣,我們實現(xiàn)了到迄今為止最準(zhǔn)確的道路上的像素級語義分割技術(shù),在已知的論文里面揪胃,我們這個技術(shù)遠(yuǎn)遠(yuǎn)高出第二名璃哟,直接到每秒 30 偵的運(yùn)算速度,沒有改變?nèi)魏蔚挠布Y源喊递,我們加速了一百倍随闪。
AI 視覺技術(shù)的社會價值
除了我剛才跟大家講的商業(yè)價值或者學(xué)術(shù)價值之外,我今天還有另外一個內(nèi)容骚勘。我想跟大家講講優(yōu)圖 AI 所產(chǎn)生的社會價值铐伴。有一個優(yōu)圖跟騰訊的公益部門以及騰訊云撮奏、騰訊互聯(lián)網(wǎng) + 的部門合作,我們開創(chuàng)了一個新的活動当宴,這個活動叫做天眼畜吊。
大家有沒有看過這部《親愛的》?講述的就是現(xiàn)在有很多很多的家庭户矢,家里的孩子被拐賣走失玲献,這些父母組成了一個團(tuán)體,他們希望通過這個團(tuán)體找尋自己的孩子梯浪,這就是 2014 年這部電影上映反映的嚴(yán)重現(xiàn)實捌年,孩子的丟失也許是社會的一小部分現(xiàn)象,但是這個現(xiàn)象確實是存在的挂洛。所以可以想像礼预,在這樣一個環(huán)境下,可以有一個大概的估計虏劲,但是現(xiàn)在走失的現(xiàn)象在統(tǒng)計意義上而言非常巨大托酸,每個城市這樣的現(xiàn)象很少,但是因為中國人口多伙单,在這么大的中國人口的基數(shù)上获高,我們能夠把這個比例一點(diǎn)點(diǎn)的上升哈肖,這也是我們能貢獻(xiàn)的力量吻育。雖然我們有了各種各樣的途徑,有微博打拐淤井,有大家貢獻(xiàn)的力量來找尋布疼,但是貢獻(xiàn)率依然是 0。
2015 年币狠,優(yōu)圖團(tuán)隊跟騰訊公益部門和騰訊云和騰訊互聯(lián)網(wǎng) + 的單位一起開始加入了“天眼”計劃游两,希望通過優(yōu)圖的技術(shù)積累,幫助社會實現(xiàn)社會價值漩绵,而不僅僅是商業(yè)價值贱案,因為這對我們而言是一件相對比較容易的事情,但是社會價值如何體現(xiàn)在 AI 上止吐?
于是我們加入了這個公益計劃宝踪,當(dāng)時在上海的小伙伴們拿到這個計劃的時候非常興奮,他們覺得終于有一天碍扔,他們坐在電腦前面也可以像蜘蛛俠一樣出去救人瘩燥。他們做了很多評測,發(fā)現(xiàn)我們在人臉識別率上只有 40%不同,這個數(shù)字讓我們的小伙伴非常驚訝厉膀,發(fā)現(xiàn)原來問題這么難溶耘,不是我們拿到一張圖做一個尋人就可以把人找回來。主要有以下三點(diǎn)困難:
第一個是場景
我們有非常復(fù)雜的場景服鹅,有城市凳兵,有農(nóng)村,有山林企软,有不同區(qū)域留荔,甚至當(dāng)我找回這樣一個失蹤人口的時候,他的發(fā)型澜倦、衣著聚蝶、輪廓改變都是復(fù)雜因素。
第二是年齡
很多的失蹤人口找回來的時候藻治,他們可能在外面已經(jīng)漂流了幾年的時間甚至十年時間碘勉,這是一個非常長的時間段,所以從我們的面容上看桩卵,他們改變了很多验靡,從輪廓、皺紋雏节、皮膚的粗糙程度胜嗓,這都是對我們實用算法是非常大的挑戰(zhàn)。
第三需要具備有億級人臉的檢索能力
當(dāng)我拿到一張檢索照片的時候钩乍,是不是能夠通過實時尋找對比辞州,找到這個人出來。
這三大挑戰(zhàn)是我當(dāng)時面對的寥粹,但是好在我們優(yōu)圖的小伙伴們并沒有放棄变过,他們覺得這件事情既然做了就要做到底,而且要做好涝涤。所以我們在經(jīng)歷一系列的媚狰,超過一年多的研究,把 Megaface 的準(zhǔn)確率從 40% 提升到 83.29%阔拳,這代表了我們可以在億級人臉檢索上達(dá)到毫秒的速度崭孤,把成功率從之前的不到 50% 提高到 99%。我們立項之后糊肠,在短短三個月時間之內(nèi)辨宠,就開始用在福建省公安一起合作,做了網(wǎng)上在線系統(tǒng)找回人群罪针。
2017 年 3 月份的時候彭羹,福建省公安廳接到一個群眾電話,他們在小學(xué)邊上找到一個老奶奶泪酱,神智不清語言也不通派殷,把他接到公安局以后还最,通過我們的線上人臉比對系統(tǒng),發(fā)現(xiàn)可能是這個奶奶失蹤了毡惜,最后我們發(fā)現(xiàn)拓轻,家人為了防止她走失,在公安系統(tǒng)已經(jīng)把她掛上號经伙,最后通過這個系統(tǒng)把這個老人找了回來扶叉。
我們上線這個系統(tǒng)短短三個月時間,在整個福建省公安部門的幫助下帕膜,實現(xiàn)了找回人數(shù)超過 120 人枣氧,才三個月時間。這樣的成效是高過以往通過群眾電話垮刹,再去通過大海撈針式的訪問拿到結(jié)果的過程达吞,所以整個福建系統(tǒng)“牽掛你”是有一個過程的,我們發(fā)上名單照片荒典,通過群眾找到某一個人群的時候酪劫,拍張照片,最后在數(shù)據(jù)庫里做比對寺董,然后把這個人找回來覆糟,這樣成功的案例已經(jīng)超過一百起,這是非常振奮人心的遮咖,而且也是很有意義的滩字。
除此之外,我們希望技術(shù)不僅僅是幫到這樣一些走失的人盯滚,我們甚至可以走得更廣一點(diǎn)踢械,所以我們這幾年做了一個“萬象鑒黃”的全球兒童網(wǎng)絡(luò)保護(hù)行動酗电,整個優(yōu)圖團(tuán)隊開始貢獻(xiàn)對成人圖片的檢測魄藕,我們發(fā)現(xiàn)準(zhǔn)確率在大部分上線系統(tǒng)上可以超過 99%,也就是可以實現(xiàn)對兒童在網(wǎng)絡(luò)上的保護(hù)撵术,防止這些兒童受到欺凌欺騙背率,這樣的事情是我們團(tuán)隊的小伙伴最愿意做的事情之一。
結(jié)語
AI 就是一種工具嫩与,AI 的出現(xiàn)可能會令一些人失去自己的工作寝姿,但是 AI 確實便利了我們這個社會,使得我們這個社會更加容易和諧划滋,做得更好饵筑。當(dāng)我們發(fā)現(xiàn)一些不好的事實的時候,AI 這個系統(tǒng)能夠準(zhǔn)確判別处坪,打擊犯罪根资,這是一種工具架专,就像是一把刀一樣,你切菜是好的工具玄帕,但是傷害人的時候是一個壞的工具部脚。AI 無所謂好和壞,但是好的部分需要我們?nèi)ズ霌P(yáng)裤纹,發(fā)光廣大委刘。最后我想說,每一個技術(shù)人員雖然都坐在電腦前面鹰椒,大家都認(rèn)為我們是電腦高手锡移,但是我們每個人都有一顆蜘蛛俠的心,我們希望自己有一天不上街也能夠幫助人們漆际,打擊犯罪罩抗。
-全文完-