作者:許鐵-巡洋艦科技
鏈接:https://www.zhihu.com/question/21665775/answer/281946017
來源:知乎
著作權(quán)歸作者所有絮吵。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)骏庸,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
第一個(gè)重境界: 圖像識(shí)別
如果你開始了解深度學(xué)習(xí)的圖像處理腔剂, 你接觸的第一個(gè)任務(wù)一定是圖像識(shí)別 :
比如把你的愛貓輸入到一個(gè)普通的CNN網(wǎng)絡(luò)里, 看看它是喵咪還是狗狗。
一個(gè)最普通的CNN颤介, 比如像這樣幾層的CNN鼻祖Lenet, 如果你有不錯(cuò)的數(shù)據(jù)集(比如kaggle貓狗大戰(zhàn))都可以給出一個(gè)還差強(qiáng)人意的分類結(jié)果(80%多準(zhǔn)確率)赞赖, 雖然不是太高滚朵。
當(dāng)然,如果你再加上對(duì)特定問題的一些知識(shí)前域, 也可以順便識(shí)別個(gè)人臉啥的始绍,開個(gè)startup叫face 減減什么:
會(huì)玩的, 也可以順別識(shí)別個(gè)豬臉什么噠(我覺得長(zhǎng)得都一樣哦)话侄, 這樣搞出來每個(gè)豬的身份亏推, 對(duì)于高質(zhì)量豬肉的銷售, 真是大有裨益的年堆。
或者看看植物都有個(gè)什么病害什么的吞杭,像這樣不同的病斑, 人都懶得看的变丧, 它可以給你看出來芽狗。 植物保護(hù)的人可以拿著手機(jī)下田了。
雖然植物保護(hù)真的很好用痒蓬,分類問做就了還真是挺無聊的童擎。
我們進(jìn)化的方向滴劲,也就是用更高級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)取得更好的準(zhǔn)確率,比如像下圖這樣的殘差網(wǎng)絡(luò)(已經(jīng)可以在貓狗數(shù)據(jù)集上達(dá)到99.5%以上準(zhǔn)確率)顾复。分類做好了你會(huì)有一種成為深度學(xué)習(xí)大師班挖,拿著一把斧子眼鏡里都是釘子的幻覺。 分類問題之所以簡(jiǎn)單芯砸, 一要?dú)w功于大量標(biāo)記的圖像萧芙, 二是分類是一個(gè)邊界非常分明的問題, 即使機(jī)器不知道什么是貓什么是狗假丧, 看出點(diǎn)區(qū)別還是挺容易的双揪, 如果你給機(jī)器幾千幾萬類區(qū)分, 機(jī)器的能力通過就下降了(再復(fù)雜的網(wǎng)絡(luò)包帚,在imagenet那樣分1000個(gè)類的問題里渔期,都很難搞到超過80%的準(zhǔn)確率)。
第二重境界 : 物體檢測(cè)
很快你發(fā)現(xiàn)渴邦,分類的技能在大部分的現(xiàn)實(shí)生活里并沒有鳥用擎场。因?yàn)楝F(xiàn)實(shí)中的任務(wù)啊躏仇, 往往是這樣的:
或者這樣的:
那么多東西在一起慕嚷,你拿貓狗大頭照訓(xùn)練的分類網(wǎng)絡(luò)一下子就亂了陣腳怀泊。 即使是你一個(gè)圖片里有一個(gè)貓還有一個(gè)狗霉赡,甚至給貓加點(diǎn)噪聲吕座,都可以使你的分類網(wǎng)絡(luò)分寸大亂推励。
現(xiàn)實(shí)中迎瞧, 哪有那么多圖片甜癞, 一個(gè)圖里就是一個(gè)貓或者美女的大圖纤垂,更多的時(shí)候矾策, 一張圖片里的東西, 那是多多的峭沦, 亂亂的贾虽,沒有什么章法可言的, 你需要自己做一個(gè)框吼鱼, 把你所需要看的目標(biāo)給框出來蓬豁, 然后, 看看這些東西是什么 菇肃。
于是你來到機(jī)器視覺的下一層挑戰(zhàn) - 目標(biāo)檢測(cè)(從大圖中框出目標(biāo)物體并識(shí)別)地粪, 隨之而來的是一個(gè)新的網(wǎng)絡(luò)架構(gòu), 又被稱為R - CNN琐谤, 圖片檢測(cè)網(wǎng)絡(luò) 蟆技, 這個(gè)網(wǎng)絡(luò)不僅可以告訴你分類,還可以告訴你目標(biāo)物體的坐標(biāo), 即使圖片里有很多目標(biāo)物體质礼, 也一一給你找出來旺聚。
萬軍斬你首級(jí)那是杠杠的,在眾多路人甲中識(shí)別嫌疑犯眶蕉,也是輕而易舉砰粹, 安防的人聽著要按捺不住了。
今年出現(xiàn)的YOLO算法更是實(shí)現(xiàn)了快速實(shí)時(shí)的物體檢測(cè)妻坝,你一路走過就告訴你視線里都有什么在哪里,要知道這在無人駕駛里是何等的利器惊窖。
當(dāng)然刽宪, 到這里你依然最終會(huì)覺得無聊, 即使網(wǎng)絡(luò)可以已經(jīng)很復(fù)雜界酒, 不過是一個(gè)CNN網(wǎng)絡(luò)(推薦區(qū)域)圣拄,在加上一層CNN網(wǎng)絡(luò)做分類和回歸。 能不能干點(diǎn)別的毁欣?
第三重境界 : 圖像切割
啊哈庇谆, 這就來到了第三個(gè)關(guān)卡, 你不僅需要把圖片中邊邊角角的物體給檢測(cè)出來凭疮, 你還要做這么一個(gè)猛料的工作饭耳, 就是把它從圖片中扣出來。 要知道执解, 剛出生的嬰兒分不清物體的邊界寞肖, 比如桌上有蘋果這種事, 什么是桌子衰腌,什么是蘋果新蟆,為什么蘋果不是占在桌子上的? 所以右蕊, 網(wǎng)絡(luò)能不能把物體從一個(gè)圖里摳出來琼稻, 事關(guān)它是否真的像人一樣把握了視覺的本質(zhì)。 這也算是對(duì)它的某種“圖靈測(cè)試” 饶囚。 而把這個(gè)問題簡(jiǎn)化帕翻,我們無非是在原先圖片上生成出一個(gè)原圖的“mask”, 面具萝风,有點(diǎn)像phtoshop里的蒙版的東西熊咽。
注意,這個(gè)任務(wù)里闹丐,我們是要從一個(gè)圖片里得到另一個(gè)圖片哦横殴! 生成的面具是另一個(gè)圖片, 這時(shí)候,所謂的U型網(wǎng)絡(luò)粉墨登場(chǎng)衫仑,注意這是我們的第一個(gè)生成式的模型梨与。 它的組成單元依然是卷積,但是卻加入了maxpooling的反過程升維采樣文狱。
這個(gè)Segmentation任務(wù)粥鞋, 作用不可小瞧哦, 尤其對(duì)于科研口的你瞄崇, 比如現(xiàn)在私人衛(wèi)星和無人機(jī)普及了呻粹,要不要去看看自己小區(qū)周圍的地貌, 看是不是隱藏了個(gè)金庫苏研? 清清輸入等浊, 衛(wèi)星圖片一欄無余。 哪里有樹摹蘑, 哪里有水筹燕,哪里有軍事基地,不需要人衅鹿,全都給你摳出來撒踪。
如果你要數(shù)個(gè)細(xì)胞啥的 ,都是挺容易的大渤,給它變成這樣的輪廓不就你得了制妄。
第四重境界:
我們開始fashion起來, 如果你是淘寶服裝小店的老板 泵三,想讓客戶輸入一張服裝的圖片忍捡,然后得到一組推薦的服裝, 來個(gè)以圖搜圖的功能怎么搞呢切黔? 注意啊砸脊,我可以從網(wǎng)絡(luò)上爬一大堆圖出來,但是這些數(shù)據(jù)是沒有標(biāo)注的纬霞。怎么辦凌埂? 鐵哥告你還是有的搞,這個(gè)搞法诗芜,就是聚類瞳抓。
鐵哥教你最簡(jiǎn)單的一招聚類哦,那就是伏恐, 把圖片統(tǒng)統(tǒng)放進(jìn)卷積網(wǎng)絡(luò)孩哑,但是我們不提取分類,而只是提取一些網(wǎng)絡(luò)中間層的特征翠桦, 這些特征有點(diǎn)像每個(gè)圖片的視覺二維碼横蜒,然后我們對(duì)這些二維碼做一個(gè)k-means聚類胳蛮, 也會(huì)得到意想不到的效果。 為什么要深度丛晌? 因?yàn)樯疃忍崛〉奶卣鹘龃叮鞘桥c眾不同的。
然后以圖搜圖呢澎蛛? 不過是找到同一聚類里的其它圖片啊抚垄。
在聚類的基礎(chǔ)上, 就可以做個(gè)搜索谋逻!
第五層境界 :
我們開始晉升為仰望星空的人呆馁, 之前那些分類賺錢的應(yīng)用太無聊了。 機(jī)器視覺搞科學(xué)怎么港毁兆? 作為一群仰望星空后觀察細(xì)胞的人浙滤,我們最常發(fā)現(xiàn)的是我們得到的天文或者細(xì)胞圖片的噪聲實(shí)在太大了, 這簡(jiǎn)直沒法忍啊荧恍, 然后瓷叫, 深度學(xué)習(xí)給了你一套降噪和恢復(fù)圖像的方法屯吊。 一個(gè)叫auto-encoder的工具送巡, 起到了很大的作用 , 刷的一下盒卸,圖像就清楚了骗爆。
這還不是最酷炫的,那個(gè)應(yīng)用了博弈理論的對(duì)抗學(xué)習(xí)蔽介, 也可以幫你謀殺噪點(diǎn)摘投! 如果你會(huì)對(duì)抗所謂GAN, 也是一種圖像生成的工具虹蓄, 讓網(wǎng)絡(luò)去掉噪聲的圖片犀呼,與沒有噪聲的自然圖片, 連卷積網(wǎng)絡(luò)都判別不出來薇组,對(duì)外臂, 就是這樣!
第六重境界 :
在工業(yè)界賺夠了錢律胀,科學(xué)也太nerd了宋光, 我們來玩藝術(shù)思考哲學(xué) ,第一招炭菌, 圖像風(fēng)格遷移罪佳,請(qǐng)見鐵哥之前的文章:
然而真正能玩好這一事項(xiàng)的,還是那個(gè)剛剛提過的對(duì)抗學(xué)習(xí)GAN黑低, 比如大名鼎鼎的CycleGAN赘艳, 幾乎可以實(shí)現(xiàn)一種你自定義的“圖像翻譯” 功能,而且你不用做標(biāo)注哦, 拿出冬天和夏天的兩組圖片第练, 它會(huì)自動(dòng)的在兩組圖片中找出對(duì)應(yīng)來阔馋。
第七重境界:
圖像翻譯也懶的玩了, 你神經(jīng)網(wǎng)絡(luò)不是號(hào)稱能夠理解圖像娇掏,看你來個(gè)無中生有呕寝,在噪聲里生成圖片來?
對(duì)婴梧,依然是GAN下梢,而且是最基礎(chǔ)的卷積GAN (DCGAN)就可以給你干出來。
看看GAN所幻想的賓館情景塞蹭, 你能想到是計(jì)算機(jī)做的圖嗎孽江? 哈哈哈!
寫到這里番电, 我自己都覺得GAN是非常有前途的岗屏,有前途的,有前途的漱办,以前我還以為只是好玩呢这刷。
這里展示的七級(jí)浮屠,也不過深度學(xué)習(xí)被人類discover的冰山一角娩井, 醉臥沙場(chǎng)君莫笑暇屋, 古來征戰(zhàn)幾人回。
給你一個(gè)稍微清晰一些的大綱: