計(jì)算機(jī)視覺(jué)為什么重要韧掩?
人的大腦皮層犯祠, 有差不多 70% 都是在處理視覺(jué)信息旭等。 是人類(lèi)獲取信息最主要的渠道,沒(méi)有之一衡载。
在網(wǎng)絡(luò)世界搔耕,照片和視頻(圖像的集合)也正在發(fā)生爆炸式的增長(zhǎng)!
下圖是網(wǎng)絡(luò)上新增數(shù)據(jù)的占比趨勢(shì)圖痰娱∑ィ灰色是結(jié)構(gòu)化數(shù)據(jù)菩收,藍(lán)色是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖像和視頻)【ňΓ可以很明顯的發(fā)現(xiàn)娜饵,圖片和視頻正在以指數(shù)級(jí)的速度在增長(zhǎng)。
而在計(jì)算機(jī)視覺(jué)出現(xiàn)之前腊凶,圖像對(duì)于計(jì)算機(jī)來(lái)說(shuō)是黑盒的狀態(tài)划咐。
一張圖片對(duì)于機(jī)器只是一個(gè)文件。機(jī)器并不知道圖片里的內(nèi)容到底是什么钧萍,只知道這張圖片是什么尺寸褐缠,多少M(fèi)B,什么格式的风瘦。
如果計(jì)算機(jī)队魏、人工智能想要在現(xiàn)實(shí)世界發(fā)揮重要作用,就必須看懂圖片万搔!這就是計(jì)算機(jī)視覺(jué)要解決的問(wèn)題胡桨。
什么是計(jì)算機(jī)視覺(jué) – CV?
計(jì)算機(jī)視覺(jué)是人工智能的一個(gè)重要分支瞬雹,它要解決的問(wèn)題就是:看懂圖像里的內(nèi)容昧谊。
比如:
圖片里的寵物是貓還是狗?
圖片里的人是老張還是老王酗捌?
這張照片里呢诬,桌子上放了哪些物品?
計(jì)算機(jī)視覺(jué)的原理是什么胖缤?
目前主流的基于深度學(xué)習(xí)的機(jī)器視覺(jué)方法尚镰,其原理跟人類(lèi)大腦工作的原理比較相似。
人類(lèi)的視覺(jué)原理如下:從原始信號(hào)攝入開(kāi)始(瞳孔攝入像素 Pixels)哪廓,接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向)狗唉,然后抽象(大腦判定,眼前的物體的形狀涡真,是圓形的)分俯,然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球)。
機(jī)器的方法也是類(lèi)似:構(gòu)造多層的神經(jīng)網(wǎng)絡(luò)综膀,較低層的識(shí)別初級(jí)的圖像特征澳迫,若干底層特征組成更上一層特征,最終通過(guò)多個(gè)層級(jí)的組合剧劝,最終在頂層做出分類(lèi)橄登。
計(jì)算機(jī)視覺(jué)的2大挑戰(zhàn)
對(duì)于人類(lèi)來(lái)說(shuō)看懂圖片是一件很簡(jiǎn)單的事情,但是對(duì)于機(jī)器來(lái)說(shuō)這是一個(gè)非常難的事情,說(shuō) 2 個(gè)典型的難點(diǎn):
特征難以提取
同一只貓?jiān)诓煌慕嵌嚷G拢煌墓饩€谣妻,不同的動(dòng)作下。像素差異是非常大的卒稳。就算是同一張照片蹋半,旋轉(zhuǎn)90度后,其像素差異也非常大充坑!
所以圖片里的內(nèi)容相似甚至相同减江,但是在像素層面,其變化會(huì)非常大捻爷。這對(duì)于特征提取是一大挑戰(zhàn)辈灼。
需要計(jì)算的數(shù)據(jù)量巨大
手機(jī)上隨便拍一張照片就是1000*2000像素的。每個(gè)像素 RGB 3個(gè)參數(shù)也榄,一共有1000 X 2000 X 3=6,000,000巡莹。隨便一張照片就要處理 600萬(wàn) 個(gè)參數(shù),再算算現(xiàn)在越來(lái)越流行的 4K 視頻甜紫。就知道這個(gè)計(jì)算量級(jí)有多恐怖了降宅。
CNN 解決了上面的兩大難題
CNN 屬于深度學(xué)習(xí)的范疇,它很好的解決了上面所說(shuō)的2大難點(diǎn):
- CNN 可以有效的提取圖像里的特征囚霸。
- CNN 可以將海量的數(shù)據(jù)(不影響特征提取的前提下)進(jìn)行有效的降維腰根,大大減少了對(duì)算力的要求。
計(jì)算機(jī)視覺(jué)的 8 大任務(wù)
圖像分類(lèi)
圖像分類(lèi)是計(jì)算機(jī)視覺(jué)中重要的基礎(chǔ)問(wèn)題拓型。后面提到的其他任務(wù)也是以它為基礎(chǔ)的唠雕。
舉幾個(gè)典型的例子:人臉識(shí)別、圖片鑒黃吨述、相冊(cè)根據(jù)人物自動(dòng)分類(lèi)等。
目標(biāo)檢測(cè)
目標(biāo)檢測(cè)任務(wù)的目標(biāo)是給定一張圖像或是一個(gè)視頻幀钞脂,讓計(jì)算機(jī)找出其中所有目標(biāo)的位置揣云,并給出每個(gè)目標(biāo)的具體類(lèi)別。
語(yǔ)義分割
它將整個(gè)圖像分成像素組冰啃,然后對(duì)像素組進(jìn)行標(biāo)記和分類(lèi)邓夕。語(yǔ)義分割試圖在語(yǔ)義上理解圖像中每個(gè)像素是什么(人、車(chē)阎毅、狗焚刚、樹(shù)…)。
如下圖扇调,除了識(shí)別人矿咕、道路、汽車(chē)、樹(shù)木等之外碳柱,我們還必須確定每個(gè)物體的邊界捡絮。
實(shí)例分割
除了語(yǔ)義分割之外,實(shí)例分割將不同類(lèi)型的實(shí)例進(jìn)行分類(lèi)莲镣,比如用 5 種不同顏色來(lái)標(biāo)記 5 輛汽車(chē)福稳。我們會(huì)看到多個(gè)重疊物體和不同背景的復(fù)雜景象,我們不僅需要將這些不同的對(duì)象進(jìn)行分類(lèi)瑞侮,而且還要確定對(duì)象的邊界的圆、差異和彼此之間的關(guān)系!
視頻分類(lèi)
與圖像分類(lèi)不同的是半火,分類(lèi)的對(duì)象不再是靜止的圖像越妈,而是一個(gè)由多幀圖像構(gòu)成的、包含語(yǔ)音數(shù)據(jù)慈缔、包含運(yùn)動(dòng)信息等的視頻對(duì)象叮称,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么藐鹤、包含什么瓤檐,還需要結(jié)合不同幀,知道上下文的關(guān)聯(lián)信息娱节。
人體關(guān)鍵點(diǎn)檢測(cè)
體關(guān)鍵點(diǎn)檢測(cè)挠蛉,通過(guò)人體關(guān)鍵節(jié)點(diǎn)的組合和追蹤來(lái)識(shí)別人的運(yùn)動(dòng)和行為,對(duì)于描述人體姿態(tài)肄满,預(yù)測(cè)人體行為至關(guān)重要谴古。
在 Xbox 中就有利用到這個(gè)技術(shù)。
場(chǎng)景文字識(shí)別
很多照片中都有一些文字信息稠歉,這對(duì)理解圖像有重要的作用掰担。
場(chǎng)景文字識(shí)別是在圖像背景復(fù)雜、分辨率低下怒炸、字體多樣带饱、分布隨意等情況下,將圖像信息轉(zhuǎn)化為文字序列的過(guò)程阅羹。
停車(chē)場(chǎng)勺疼、收費(fèi)站的車(chē)牌識(shí)別就是典型的應(yīng)用場(chǎng)景。
目標(biāo)跟蹤
目標(biāo)跟蹤捏鱼,是指在特定場(chǎng)景跟蹤某一個(gè)或多個(gè)特定感興趣對(duì)象的過(guò)程执庐。傳統(tǒng)的應(yīng)用就是視頻和真實(shí)世界的交互,在檢測(cè)到初始對(duì)象之后進(jìn)行觀察导梆。
無(wú)人駕駛里就會(huì)用到這個(gè)技術(shù)轨淌。
CV 在日常生活中的應(yīng)用場(chǎng)景
計(jì)算機(jī)視覺(jué)的應(yīng)用場(chǎng)景非常廣泛迂烁,下面列舉幾個(gè)生活中常見(jiàn)的應(yīng)用場(chǎng)景。
- 1.門(mén)禁猿诸、支付寶上的人臉識(shí)別
- 2.停車(chē)場(chǎng)婚被、收費(fèi)站的車(chē)牌識(shí)別
- 3.上傳圖片或視頻到網(wǎng)站時(shí)的風(fēng)險(xiǎn)識(shí)別
- 4.抖音上的各種道具(需要先識(shí)別出人臉的位置)
這里需要說(shuō)明一下,條形碼和二維碼的掃描不算是計(jì)算機(jī)視覺(jué)梳虽。
這種對(duì)圖像的識(shí)別址芯,還是基于固定規(guī)則的,并不需要處理復(fù)雜的圖像窜觉,完全用不到 AI 技術(shù)谷炸。