圖像處理和機(jī)器學(xué)習(xí)有什么關(guān)系

作者:許鐵-巡洋艦科技
鏈接:https://www.zhihu.com/question/21665775/answer/281946017
來源:知乎
著作權(quán)歸作者所有絮吵。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)骏庸,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

第一個(gè)重境界: 圖像識(shí)別

如果你開始了解深度學(xué)習(xí)的圖像處理腔剂, 你接觸的第一個(gè)任務(wù)一定是圖像識(shí)別 :

比如把你的愛貓輸入到一個(gè)普通的CNN網(wǎng)絡(luò)里, 看看它是喵咪還是狗狗。

一個(gè)最普通的CNN颤介, 比如像這樣幾層的CNN鼻祖Lenet, 如果你有不錯(cuò)的數(shù)據(jù)集(比如kaggle貓狗大戰(zhàn))都可以給出一個(gè)還差強(qiáng)人意的分類結(jié)果(80%多準(zhǔn)確率)赞赖, 雖然不是太高滚朵。

當(dāng)然,如果你再加上對(duì)特定問題的一些知識(shí)前域, 也可以順便識(shí)別個(gè)人臉啥的始绍,開個(gè)startup叫face 減減什么:

會(huì)玩的, 也可以順別識(shí)別個(gè)豬臉什么噠(我覺得長(zhǎng)得都一樣哦)话侄, 這樣搞出來每個(gè)豬的身份亏推, 對(duì)于高質(zhì)量豬肉的銷售, 真是大有裨益的年堆。

或者看看植物都有個(gè)什么病害什么的吞杭,像這樣不同的病斑, 人都懶得看的变丧, 它可以給你看出來芽狗。 植物保護(hù)的人可以拿著手機(jī)下田了。

Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015.

雖然植物保護(hù)真的很好用痒蓬,分類問做就了還真是挺無聊的童擎。

我們進(jìn)化的方向滴劲,也就是用更高級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)取得更好的準(zhǔn)確率,比如像下圖這樣的殘差網(wǎng)絡(luò)(已經(jīng)可以在貓狗數(shù)據(jù)集上達(dá)到99.5%以上準(zhǔn)確率)顾复。分類做好了你會(huì)有一種成為深度學(xué)習(xí)大師班挖,拿著一把斧子眼鏡里都是釘子的幻覺。 分類問題之所以簡(jiǎn)單芯砸, 一要?dú)w功于大量標(biāo)記的圖像萧芙, 二是分類是一個(gè)邊界非常分明的問題, 即使機(jī)器不知道什么是貓什么是狗假丧, 看出點(diǎn)區(qū)別還是挺容易的双揪, 如果你給機(jī)器幾千幾萬類區(qū)分, 機(jī)器的能力通過就下降了(再復(fù)雜的網(wǎng)絡(luò)包帚,在imagenet那樣分1000個(gè)類的問題里渔期,都很難搞到超過80%的準(zhǔn)確率)。

He, Kaiming, et al. "Identity mappings in deep residual networks." European Conference on Computer Vision. Springer International Publishing, 2016.

第二重境界 : 物體檢測(cè)

很快你發(fā)現(xiàn)渴邦,分類的技能在大部分的現(xiàn)實(shí)生活里并沒有鳥用擎场。因?yàn)楝F(xiàn)實(shí)中的任務(wù)啊躏仇, 往往是這樣的:

或者這樣的:

那么多東西在一起慕嚷,你拿貓狗大頭照訓(xùn)練的分類網(wǎng)絡(luò)一下子就亂了陣腳怀泊。 即使是你一個(gè)圖片里有一個(gè)貓還有一個(gè)狗霉赡,甚至給貓加點(diǎn)噪聲吕座,都可以使你的分類網(wǎng)絡(luò)分寸大亂推励。

現(xiàn)實(shí)中迎瞧, 哪有那么多圖片甜癞, 一個(gè)圖里就是一個(gè)貓或者美女的大圖纤垂,更多的時(shí)候矾策, 一張圖片里的東西, 那是多多的峭沦, 亂亂的贾虽,沒有什么章法可言的, 你需要自己做一個(gè)框吼鱼, 把你所需要看的目標(biāo)給框出來蓬豁, 然后, 看看這些東西是什么 菇肃。

于是你來到機(jī)器視覺的下一層挑戰(zhàn) - 目標(biāo)檢測(cè)(從大圖中框出目標(biāo)物體并識(shí)別)地粪, 隨之而來的是一個(gè)新的網(wǎng)絡(luò)架構(gòu), 又被稱為R - CNN琐谤, 圖片檢測(cè)網(wǎng)絡(luò) 蟆技, 這個(gè)網(wǎng)絡(luò)不僅可以告訴你分類,還可以告訴你目標(biāo)物體的坐標(biāo), 即使圖片里有很多目標(biāo)物體质礼, 也一一給你找出來旺聚。

Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015.

萬軍斬你首級(jí)那是杠杠的,在眾多路人甲中識(shí)別嫌疑犯眶蕉,也是輕而易舉砰粹, 安防的人聽著要按捺不住了。

今年出現(xiàn)的YOLO算法更是實(shí)現(xiàn)了快速實(shí)時(shí)的物體檢測(cè)妻坝,你一路走過就告訴你視線里都有什么在哪里,要知道這在無人駕駛里是何等的利器惊窖。

YOLO快速檢測(cè)法 Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

當(dāng)然刽宪, 到這里你依然最終會(huì)覺得無聊, 即使網(wǎng)絡(luò)可以已經(jīng)很復(fù)雜界酒, 不過是一個(gè)CNN網(wǎng)絡(luò)(推薦區(qū)域)圣拄,在加上一層CNN網(wǎng)絡(luò)做分類和回歸。 能不能干點(diǎn)別的毁欣?

第三重境界 : 圖像切割

啊哈庇谆, 這就來到了第三個(gè)關(guān)卡, 你不僅需要把圖片中邊邊角角的物體給檢測(cè)出來凭疮, 你還要做這么一個(gè)猛料的工作饭耳, 就是把它從圖片中扣出來。 要知道执解, 剛出生的嬰兒分不清物體的邊界寞肖, 比如桌上有蘋果這種事, 什么是桌子衰腌,什么是蘋果新蟆,為什么蘋果不是占在桌子上的? 所以右蕊, 網(wǎng)絡(luò)能不能把物體從一個(gè)圖里摳出來琼稻, 事關(guān)它是否真的像人一樣把握了視覺的本質(zhì)。 這也算是對(duì)它的某種“圖靈測(cè)試” 饶囚。 而把這個(gè)問題簡(jiǎn)化帕翻,我們無非是在原先圖片上生成出一個(gè)原圖的“mask”, 面具萝风,有點(diǎn)像phtoshop里的蒙版的東西熊咽。

所謂摳圖
Drozdzal, Michal, et al. "The importance of skip connections in biomedical image segmentation." International Workshop on Large-Scale Annotation of Biomedical Data and Expert Label Synthesis. Springer International Publishing, 2016.

注意,這個(gè)任務(wù)里闹丐,我們是要從一個(gè)圖片里得到另一個(gè)圖片哦横殴! 生成的面具是另一個(gè)圖片, 這時(shí)候,所謂的U型網(wǎng)絡(luò)粉墨登場(chǎng)衫仑,注意這是我們的第一個(gè)生成式的模型梨与。 它的組成單元依然是卷積,但是卻加入了maxpooling的反過程升維采樣文狱。

這個(gè)Segmentation任務(wù)粥鞋, 作用不可小瞧哦, 尤其對(duì)于科研口的你瞄崇, 比如現(xiàn)在私人衛(wèi)星和無人機(jī)普及了呻粹,要不要去看看自己小區(qū)周圍的地貌, 看是不是隱藏了個(gè)金庫苏研? 清清輸入等浊, 衛(wèi)星圖片一欄無余。 哪里有樹摹蘑, 哪里有水筹燕,哪里有軍事基地,不需要人衅鹿,全都給你摳出來撒踪。

如果你要數(shù)個(gè)細(xì)胞啥的 ,都是挺容易的大渤,給它變成這樣的輪廓不就你得了制妄。

第四重境界:

我們開始fashion起來, 如果你是淘寶服裝小店的老板 泵三,想讓客戶輸入一張服裝的圖片忍捡,然后得到一組推薦的服裝, 來個(gè)以圖搜圖的功能怎么搞呢切黔? 注意啊砸脊,我可以從網(wǎng)絡(luò)上爬一大堆圖出來,但是這些數(shù)據(jù)是沒有標(biāo)注的纬霞。怎么辦凌埂? 鐵哥告你還是有的搞,這個(gè)搞法诗芜,就是聚類瞳抓。

鐵哥教你最簡(jiǎn)單的一招聚類哦,那就是伏恐, 把圖片統(tǒng)統(tǒng)放進(jìn)卷積網(wǎng)絡(luò)孩哑,但是我們不提取分類,而只是提取一些網(wǎng)絡(luò)中間層的特征翠桦, 這些特征有點(diǎn)像每個(gè)圖片的視覺二維碼横蜒,然后我們對(duì)這些二維碼做一個(gè)k-means聚類胳蛮, 也會(huì)得到意想不到的效果。 為什么要深度丛晌? 因?yàn)樯疃忍崛〉奶卣鹘龃叮鞘桥c眾不同的。

然后以圖搜圖呢澎蛛? 不過是找到同一聚類里的其它圖片啊抚垄。

在聚類的基礎(chǔ)上, 就可以做個(gè)搜索谋逻!

第五層境界 :

我們開始晉升為仰望星空的人呆馁, 之前那些分類賺錢的應(yīng)用太無聊了。 機(jī)器視覺搞科學(xué)怎么港毁兆? 作為一群仰望星空后觀察細(xì)胞的人浙滤,我們最常發(fā)現(xiàn)的是我們得到的天文或者細(xì)胞圖片的噪聲實(shí)在太大了, 這簡(jiǎn)直沒法忍啊荧恍, 然后瓷叫, 深度學(xué)習(xí)給了你一套降噪和恢復(fù)圖像的方法屯吊。 一個(gè)叫auto-encoder的工具送巡, 起到了很大的作用 , 刷的一下盒卸,圖像就清楚了骗爆。

這還不是最酷炫的,那個(gè)應(yīng)用了博弈理論的對(duì)抗學(xué)習(xí)蔽介, 也可以幫你謀殺噪點(diǎn)摘投! 如果你會(huì)對(duì)抗所謂GAN, 也是一種圖像生成的工具虹蓄, 讓網(wǎng)絡(luò)去掉噪聲的圖片犀呼,與沒有噪聲的自然圖片, 連卷積網(wǎng)絡(luò)都判別不出來薇组,對(duì)外臂, 就是這樣!

Schawinski, Kevin, et al. "Generative adversarial networks recover features in astrophysical images of galaxies beyond the deconvolution limit." Monthly Notices of the Royal Astronomical Society: Letters 467.1 (2017): L110-L114.

第六重境界 :

在工業(yè)界賺夠了錢律胀,科學(xué)也太nerd了宋光, 我們來玩藝術(shù)思考哲學(xué) ,第一招炭菌, 圖像風(fēng)格遷移罪佳,請(qǐng)見鐵哥之前的文章

然而真正能玩好這一事項(xiàng)的,還是那個(gè)剛剛提過的對(duì)抗學(xué)習(xí)GAN黑低, 比如大名鼎鼎的CycleGAN赘艳, 幾乎可以實(shí)現(xiàn)一種你自定義的“圖像翻譯” 功能,而且你不用做標(biāo)注哦, 拿出冬天和夏天的兩組圖片第练, 它會(huì)自動(dòng)的在兩組圖片中找出對(duì)應(yīng)來阔馋。

Zhu, Jun-Yan, et al. "Unpaired image-to-image translation using cycle-consistent adversarial networks." arXiv preprint arXiv:1703.10593 (2017).

第七重境界:

圖像翻譯也懶的玩了, 你神經(jīng)網(wǎng)絡(luò)不是號(hào)稱能夠理解圖像娇掏,看你來個(gè)無中生有呕寝,在噪聲里生成圖片來?

對(duì)婴梧,依然是GAN下梢,而且是最基礎(chǔ)的卷積GAN (DCGAN)就可以給你干出來。

看看GAN所幻想的賓館情景塞蹭, 你能想到是計(jì)算機(jī)做的圖嗎孽江? 哈哈哈!

Goodfellow, Ian, et al. "Generative adversarial nets." Advances in neural information processing systems. 2014.

寫到這里番电, 我自己都覺得GAN是非常有前途的岗屏,有前途的,有前途的漱办,以前我還以為只是好玩呢这刷。

這里展示的七級(jí)浮屠,也不過深度學(xué)習(xí)被人類discover的冰山一角娩井, 醉臥沙場(chǎng)君莫笑暇屋, 古來征戰(zhàn)幾人回。

給你一個(gè)稍微清晰一些的大綱:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末洞辣,一起剝皮案震驚了整個(gè)濱河市咐刨,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌扬霜,老刑警劉巖定鸟,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異著瓶,居然都是意外死亡联予,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門蟹但,熙熙樓的掌柜王于貴愁眉苦臉地迎上來躯泰,“玉大人,你說我怎么就攤上這事华糖÷笙颍” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵客叉,是天一觀的道長(zhǎng)诵竭。 經(jīng)常有香客問我话告,道長(zhǎng),這世上最難降的妖魔是什么卵慰? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任沙郭,我火速辦了婚禮,結(jié)果婚禮上裳朋,老公的妹妹穿的比我還像新娘病线。我一直安慰自己,他們只是感情好鲤嫡,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布送挑。 她就那樣靜靜地躺著,像睡著了一般暖眼。 火紅的嫁衣襯著肌膚如雪惕耕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天诫肠,我揣著相機(jī)與錄音司澎,去河邊找鬼。 笑死栋豫,一個(gè)胖子當(dāng)著我的面吹牛挤安,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播笼才,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼漱受,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼络凿!你這毒婦竟也來了骡送?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤絮记,失蹤者是張志新(化名)和其女友劉穎摔踱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體怨愤,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡派敷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了撰洗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篮愉。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖差导,靈堂內(nèi)的尸體忽然破棺而出试躏,到底是詐尸還是另有隱情,我是刑警寧澤设褐,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布颠蕴,位于F島的核電站泣刹,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏犀被。R本人自食惡果不足惜椅您,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望寡键。 院中可真熱鬧掀泳,春花似錦、人聲如沸西轩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遭商。三九已至固灵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間劫流,已是汗流浹背巫玻。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祠汇,地道東北人仍秤。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像可很,于是被迫代替她去往敵國(guó)和親诗力。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容