喜歡攝影的朋友都知道攝影的時(shí)候需要遵循一些基本的構(gòu)圖規(guī)則,可參考我之前的一篇譯文:十種經(jīng)典的攝影構(gòu)圖規(guī)則耳幢。去年開始,我就一直在思考一項(xiàng)工作,是否可以結(jié)合轉(zhuǎn)軸硬件博个,實(shí)現(xiàn)智能的攝影,讓每個(gè)人都成為攝影構(gòu)圖專家功偿∨栌叮基本的思路如下:(1)準(zhǔn)備六自由度的三軸相機(jī)云臺,可根據(jù)需要調(diào)整相機(jī)的拍攝角度械荷;(2)根據(jù)當(dāng)前取景的圖分析攝影構(gòu)圖是否符合構(gòu)圖規(guī)則共耍;(3)不符合構(gòu)圖規(guī)則的話,則驅(qū)動云臺調(diào)整拍攝角度吨瞎,直到取景內(nèi)容符合審美規(guī)則痹兜。查閱了相關(guān)資料,硬件層面實(shí)現(xiàn)該需求還有些麻煩关拒,成本也較高佃蚜,所以庸娱,我們在考慮是否能直接從圖像裁剪的角度去實(shí)現(xiàn)智能的攝影構(gòu)圖着绊。那相關(guān)的技術(shù)有哪些呢?讓我們梳理一下:
顯著性檢測
首先可以想到的是顯著性檢測熟尉,先檢測圖像中顯著性的區(qū)域归露,然后根據(jù)構(gòu)圖規(guī)則(如三等分原則),對圖像做裁剪斤儿,將顯著的區(qū)域移動到等分線上剧包。這種方法的基本假設(shè)是,圖片中最顯著的區(qū)域往果,即是圖片最重要的部分(如人物)疆液。我之前整理過顯著性檢測相關(guān)的論文。
基于美學(xué)的方法
基于美學(xué)的方法堕油,主要思路是選定很多個(gè)候選框,然后判斷每個(gè)框里圖像的美學(xué)分?jǐn)?shù)肮之,最后裁剪美學(xué)分?jǐn)?shù)最高的圖像掉缺。選取候選框的方法有點(diǎn)類似RCNN的Proposal Search。找候選框的過程戈擒,計(jì)算量非常大眶明,效率不高。改進(jìn)的思路可以參考Faster RCNN以及后續(xù)的目標(biāo)檢測的改進(jìn)工作筐高。其實(shí)基本思路都比較類似搜囱,只是目標(biāo)檢測是得到某個(gè)框里內(nèi)容是某個(gè)目標(biāo)的概率丑瞧,而攝像裁剪的路線是獲得某個(gè)目標(biāo)的美學(xué)評分。所以蜀肘,使用卷積神經(jīng)網(wǎng)絡(luò)判斷候選區(qū)域是否符合美學(xué)標(biāo)準(zhǔn)是可行的嗦篱,有很多現(xiàn)成的網(wǎng)絡(luò)結(jié)構(gòu)可以借鑒。
一些基于深度學(xué)習(xí)的且美學(xué)友好的攝影裁圖論文
[1] Chen Y L, Klopp J, Sun M, et al. Learning to compose with professional photographs on the web[C]//Proceedings of the 25th ACM international conference on Multimedia. ACM, 2017: 37-45.(基于樸素的候選框的方法)
[2] Wang W, Shen J. Deep cropping via attention box prediction and aesthetics assessment[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2186-2194.(候選框選擇網(wǎng)絡(luò)+美學(xué)評判網(wǎng)絡(luò))
[3]?Li D, Wu H, Zhang J, et al. A2-RL: aesthetics aware reinforcement learning for image cropping[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8193-8201. (使用增強(qiáng)學(xué)習(xí)提高選擇裁剪框的效率)
[4]?Wei Z, Zhang J, Shen X, et al. Good view hunting: learning photo composition from dense view pairs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5437-5446. (改進(jìn)的美學(xué)評判網(wǎng)絡(luò)+豐富的數(shù)據(jù)集)
[5]?SmartEye: Assisting Instant Photo Taking via Integrating User Preference with Deep View Proposal Network (CHI2019)