什么是計(jì)算機(jī)視覺?
人類獲取外部信息的80%來(lái)自視覺所坯。 在我們獲得的所有信息中晒骇,視覺信息是最復(fù)雜和最豐富的。 經(jīng)過(guò)長(zhǎng)期的生理進(jìn)化過(guò)程镰吆,我們可以輕松地看到和理解周圍的事物帘撰,但是計(jì)算機(jī)處理這些視覺信息非常困難。 直到1970年代万皿,神經(jīng)科學(xué)家馬爾將神經(jīng)心理學(xué)的知識(shí)與人工智能相結(jié)合,提出了具有代際意義的“計(jì)算視覺理論”,將計(jì)算機(jī)視覺標(biāo)記為一門獨(dú)立的學(xué)科檀轨。 因此剥啤,與AI的某些學(xué)科相比,計(jì)算機(jī)視覺是一個(gè)相對(duì)較晚才開始的新學(xué)科减余。 在圖像婆赠,視頻等的識(shí)別和分析中,經(jīng)常使用計(jì)算機(jī)視覺佳励。 在機(jī)器人等應(yīng)用場(chǎng)景中休里,通常稱為機(jī)器視覺。 計(jì)算機(jī)視覺主要解決了“使機(jī)器外觀變幻”的問題赃承。 在人類中妙黍,兩個(gè)世界主要通過(guò)耳和眼的兩種重要感覺來(lái)認(rèn)識(shí)世界。 對(duì)于多臺(tái)計(jì)算機(jī)瞧剖,計(jì)算機(jī)語(yǔ)音技術(shù)使其清晰可見拭嫁,而計(jì)算機(jī)視覺技術(shù)使其可見且可見。 計(jì)算機(jī)視覺研究使用諸如相機(jī)之類的視覺傳感設(shè)備來(lái)代替人眼來(lái)識(shí)別抓于,跟蹤和測(cè)量物體做粤,并且計(jì)算機(jī)處理視覺信息以實(shí)現(xiàn)對(duì)諸如人眼之類的事物的感知和認(rèn)知。 簡(jiǎn)而言之捉撮,計(jì)算機(jī)視覺是“看見”的科學(xué)怕品,并且可以成為人類的第二雙眼睛。
1970年代巾遭,麻省理工學(xué)院著名的AI實(shí)驗(yàn)室由Berthold Horn教授首次開設(shè)了“機(jī)器視覺”課程肉康。Marr在1977年被命名為“機(jī)器視覺”闯估,他首先描述了計(jì)算機(jī)視覺領(lǐng)域,其中包括計(jì)算機(jī)視覺和計(jì)算神經(jīng)科學(xué)兩個(gè)子學(xué)科吼和,他還將計(jì)算機(jī)視覺處理描述為三個(gè)階段:第一階段輸入原始圖像并提取基本特征涨薪,例如角點(diǎn),邊緣炫乓,紋理刚夺,線條和邊界。特征集成為原始圖末捣;第二階段包括輸入圖像和基礎(chǔ)光督。元圖可以還原場(chǎng)景可見部分的深度,輪廓等塔粒。這不是對(duì)象的真實(shí)的三維表示结借,而是二維的半圖像。第三階段基于輸入圖像卒茬,原始圖像和二維半圖像恢復(fù)并識(shí)別三維物體船老。
2012年,谷歌大腦(Google Brain)通過(guò)自己觀看視頻圃酵,認(rèn)出了一只貓柳畔。谷歌大腦有吳恩達(dá)領(lǐng)銜創(chuàng)建。2010年郭赐,時(shí)任斯坦福大學(xué)副教授的吳恩達(dá)加入谷歌開發(fā)團(tuán)隊(duì)X實(shí)驗(yàn)室(XLab)薪韩。2011年,吳恩達(dá)建立了谷歌大腦項(xiàng)目捌锭,該項(xiàng)目為分布式計(jì)算的大規(guī)模人工神經(jīng)網(wǎng)絡(luò)俘陷。吳恩達(dá)團(tuán)隊(duì)用了16000個(gè)GPU芯片,構(gòu)建了擁有10億突觸的人工大腦观谦,盡管與人腦突觸數(shù)目的還要差上好幾個(gè)量級(jí)拉盾,但這已經(jīng)是目前最龐大的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)系統(tǒng)了。隨后吳恩達(dá)被百度給挖走豁状,并在百度創(chuàng)建了百度大腦捉偏。
計(jì)算機(jī)視覺原理是什么?
計(jì)算機(jī)視覺系統(tǒng)中信息的處理和分析大致可以分成兩個(gè)階段:圖象處理階段又稱視覺處理中的低水平和中水平階段泻红;圖象分析夭禽、理解階段又稱視覺處理中的高水平處理階段。
在圖象處理階段谊路,計(jì)算機(jī)對(duì)圖象信息進(jìn)行一系列的加工處理讹躯,這主要是:
1、校正成象過(guò)程中系統(tǒng)引進(jìn)的光度學(xué)和幾何學(xué)的畸變,抑制和去除成象過(guò)程中引進(jìn)的噪聲—統(tǒng)稱為圖象的恢復(fù)蜀撑。
2、從圖象信息如亮度分布信息中提取諸如邊沿信息剩彬,深度信息圖象點(diǎn)沿軸方向的尺度酷麦,表面三維傾斜方向信息等反映客觀景物特征的信息。
3喉恋、根據(jù)抽取的特征信息把反映三維客體的各個(gè)圖象基元沃饶,如輪廓、線條轻黑、紋理糊肤、邊緣、邊界氓鄙、物體的各個(gè)面等從圖象中分離出來(lái)馆揉,并且建立起各個(gè)基元之間的拓樸學(xué)上的和幾何學(xué)上的關(guān)系—稱之基元的分割和關(guān)系的確定。
在圖象分析和理解階段抖拦,計(jì)算機(jī)根據(jù)事先存貯在數(shù)據(jù)庫(kù)中的預(yù)知識(shí)模型升酣,識(shí)別出各個(gè)基元或某些基元組合所代表的客觀世界中的某些實(shí)體稱之為模型匹配以及根據(jù)圖象中各基元之間的關(guān)系在預(yù)知識(shí)的指導(dǎo)下得出圖象所代表的實(shí)際景物的含義,得出圖象的解釋或描述态罪。
必須強(qiáng)調(diào)的是噩茄,預(yù)知識(shí)在視覺系統(tǒng)中起著非常重要的作用。在知識(shí)前數(shù)據(jù)庫(kù)中复颈,存儲(chǔ)可能實(shí)際遇到的各種物體的知識(shí)模型绩聘,并存儲(chǔ)實(shí)際場(chǎng)景中各種物體之間的約束關(guān)系。計(jì)算機(jī)的功能是根據(jù)所分析圖像中的原語(yǔ)及其相互關(guān)系耗啦,以預(yù)先知識(shí)為指導(dǎo)凿菩,最后通過(guò)匹配,搜索和推理獲得圖像的描述帜讲。知識(shí)前時(shí)刻為整個(gè)過(guò)程提供了處理證據(jù)和證據(jù)蓄髓。隨時(shí)將每個(gè)步驟的結(jié)果與預(yù)知識(shí)進(jìn)行比較。有時(shí)舒帮,該過(guò)程的中間結(jié)果和最終結(jié)果會(huì)作為知識(shí)的更新和積累被饋送到預(yù)知識(shí)庫(kù)会喝。
圖像分割研究
圖像分割是圖像處理與機(jī)器視覺的基本問題之一。其要點(diǎn)是:把圖像劃分成若干互不交迭區(qū)域的集合玩郊。這些區(qū)域要么對(duì)當(dāng)前的任務(wù)有意義肢执,要么有助于說(shuō)明它們與實(shí)際物體或物體的某些部分之間的對(duì)應(yīng)關(guān)系。圖像分割的應(yīng)用十分廣泛译红,幾乎出現(xiàn)在有關(guān)圖像處理的所有領(lǐng)域预茄,并涉及各種類型的圖像。例如,在遙感應(yīng)中耻陕,合成孔徑雷達(dá)圖像中目標(biāo)的分割;遙感云圖中不同云系和背景分布的分割;在交通圖像分析中拙徽,把車輛目標(biāo)從背景中分割出來(lái)。在這些應(yīng)用中诗宣,分割通常是為了進(jìn)一步對(duì)圖像進(jìn)行分析膘怕、識(shí)別、壓縮編碼召庞,分割的準(zhǔn)確性直接影響后續(xù)任務(wù)的有效性岛心。
一般來(lái)講,分割出的區(qū)域需同時(shí)滿足均勻性和連通性的條件篮灼。其中均勻性是指在該區(qū)域中的所有象素點(diǎn)都滿足基于灰度忘古、紋理、彩色等特征的某種相似性準(zhǔn)則;連通性是指在該區(qū)域內(nèi)存在任意兩點(diǎn)的路徑诅诱。盡管圖像處理和機(jī)器視覺界的研究者們?yōu)榇烁冻隽碎L(zhǎng)期的努力髓堪,符合以上兩點(diǎn)的通用性分割仍面臨著巨大的困難;大部分研究成果都是針對(duì)某一類型圖像、某一具體應(yīng)用的分割娘荡〉┐可以概括為以下內(nèi)容。
數(shù)據(jù)驅(qū)動(dòng)的分割
常見的數(shù)據(jù)驅(qū)動(dòng)分割包括基于邊緣檢測(cè)的分割它改、基于區(qū)域的分割疤孕、邊緣與區(qū)域相結(jié)合的分割等。對(duì)于基于邊緣檢測(cè)的分割央拖,其基本思想是先檢測(cè)圖像中的邊緣點(diǎn)祭阀,再按一定策略連接成輪廓,從而構(gòu)成分割區(qū)域鲜戒。難點(diǎn)在于邊緣檢測(cè)時(shí)抗噪聲性能和檢測(cè)精度的矛盾专控,若提高檢測(cè)精度,則噪聲產(chǎn)生的偽邊緣會(huì)導(dǎo)致不合理的輪廓;若提高抗噪聲性能遏餐,則會(huì)產(chǎn)生輪廓漏檢和位置偏差伦腐。為此,人們提出各種多尺度邊緣檢測(cè)方法失都,根據(jù)實(shí)際問題設(shè)計(jì)多尺度邊緣信息的結(jié)合方案柏蘑,以較好地兼顧抗噪聲性能和檢測(cè)精度。
基于區(qū)域的分割的基本思想是根據(jù)圖像數(shù)據(jù)的特征將圖像空間劃分成不同的區(qū)域粹庞。常用的特征包括:直接來(lái)自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征咳焚。方法有閾值法、區(qū)域生長(zhǎng)法庞溜、聚類法革半、松弛法等。
邊緣檢測(cè)能夠獲得灰度或彩色值的局部變化強(qiáng)度,區(qū)域分割能夠檢測(cè)特征的相似性與均勻性又官。將兩者結(jié)合起來(lái)延刘,通過(guò)邊緣點(diǎn)的限制,避免區(qū)域的過(guò)分割;同時(shí)通過(guò)區(qū)域分割補(bǔ)充漏檢的邊緣六敬,使輪廓更加完整碘赖。例如,先進(jìn)行邊緣檢測(cè)與連接觉阅,再比較相鄰區(qū)域的特征(灰度均值崖疤、方差)秘车,若相近則合并;對(duì)原始圖像分別進(jìn)行邊緣檢測(cè)和區(qū)域生長(zhǎng)典勇,獲得邊緣圖和區(qū)域片段圖后,再按一定的準(zhǔn)則融合叮趴,得到最終分割結(jié)果割笙。
模型驅(qū)動(dòng)的分割
常見的模型驅(qū)動(dòng)分割包括基于動(dòng)態(tài)輪廓(Snakes)模型、組合優(yōu)化模型眯亦、目標(biāo)幾何與統(tǒng)計(jì)模型伤溉。Snakes模型用于描述分割目標(biāo)的動(dòng)態(tài)輪廓。由于其能量函數(shù)采用積分運(yùn)算妻率,具有較好的抗噪聲性乱顾,對(duì)目標(biāo)的局部模糊也不敏感,因而適用性很廣宫静。但這種分割方法容易收斂到局部最優(yōu)走净,因此要求初始輪廓應(yīng)盡可能靠近真實(shí)輪廓。
近年來(lái)對(duì)通用分割方法的研究?jī)A向于將分割看作一個(gè)組合優(yōu)化問題孤里,并采用一系列優(yōu)化策略完成圖像分割任務(wù)伏伯。主要思路是在分割定義的約束條件之外,根據(jù)具體任務(wù)再定義一個(gè)優(yōu)化目標(biāo)函數(shù)捌袜,所求分割的解就是該目標(biāo)函數(shù)在約束條件下的全局最優(yōu)解说搅。以組合優(yōu)化的觀點(diǎn)處理分割問題,主要是利用一個(gè)目標(biāo)函數(shù)綜合表示分割的各種要求和約束虏等,將分割變?yōu)槟繕?biāo)函數(shù)的優(yōu)化求解弄唧。由于目標(biāo)函數(shù)通常是一個(gè)多變量函數(shù),可采用隨機(jī)優(yōu)化方法霍衫。
基于目標(biāo)幾何與統(tǒng)計(jì)模型的分割是將目標(biāo)分割與識(shí)別集成在一起的方法套才,常稱作目標(biāo)檢測(cè)或提取∧降基本思想是將有關(guān)目標(biāo)的幾何與統(tǒng)計(jì)知識(shí)表示成模型背伴,將分割與識(shí)別變?yōu)槠ヅ浠虮O(jiān)督分類。常用的模型有模板、特征矢量模型傻寂、基于連接的模型等息尺。這種分割方法能夠同時(shí)完成部分或全部識(shí)別任務(wù),具有較高的效率疾掰。然而由于成像條件變化搂誉,實(shí)際圖像中的目標(biāo)往往與模型有一定的區(qū)別,需要面對(duì)誤檢與漏檢的矛盾静檬,匹配時(shí)的搜索步驟也頗為費(fèi)時(shí)炭懊。
圖像分割的半自動(dòng)方法
從人工參與程度來(lái)看,圖像分割可分為人工拂檩、半自動(dòng)侮腹、自動(dòng)等三種類型。其中人工分割完全由操作者利用鼠標(biāo)勾畫出分割區(qū)域的輪廓稻励,費(fèi)時(shí)費(fèi)力父阻,且容易受操作者主觀因素的影響,重復(fù)性差望抽。自動(dòng)分割不需人機(jī)交互加矛,但適應(yīng)性差,很難實(shí)現(xiàn)對(duì)一批圖像同時(shí)獲得滿意的分割效果煤篙。半自動(dòng)分割將人機(jī)交互與自動(dòng)分割相結(jié)合斟览,能夠適應(yīng)不同的圖像和需求,且有效降低計(jì)算復(fù)雜度辑奈。目前半自動(dòng)分割中人機(jī)交互的方式有:勾畫目標(biāo)的大致輪廓苛茂,構(gòu)成自動(dòng)分割的初始化;根據(jù)特定的圖像和任務(wù)調(diào)整算法參數(shù);在分割過(guò)程中加入人工交互節(jié)等∩砗Γ總之味悄,從實(shí)用化的角度看,自動(dòng)分割仍是長(zhǎng)期努力的方向塌鸯。目前更為現(xiàn)實(shí)的是在自動(dòng)分割前或分割過(guò)程中加入人機(jī)交互的半自動(dòng)分割侍瑟。其發(fā)展方向?yàn)楸M可能少和簡(jiǎn)便的人機(jī)交互”可見涨颜,圖像分割是圖像處理和機(jī)器視覺必不可少的重要環(huán)節(jié),也是圖像理論發(fā)展的瓶頸之一茧球。隨著計(jì)算機(jī)速度與容量的快速進(jìn)展庭瑰,圖像處理與機(jī)器視覺實(shí)用化系統(tǒng)碩果累累。例如抢埋,基于內(nèi)容的圖像檢索系統(tǒng)弹灭、智能監(jiān)視系統(tǒng)督暂、視覺引導(dǎo)的智能交通系統(tǒng)、手寫體字符/人臉/指紋/虹膜識(shí)別系統(tǒng)等穷吮。然而有關(guān)的理論研究并沒有取得突破性進(jìn)展逻翁。
計(jì)算機(jī)視覺能做什么?
1.圖像分類(Image Classification)
圖像分類捡鱼,也可以稱為圖像識(shí)別八回,顧名思義,就是辨別圖像是什么驾诈,圖像分類是根據(jù)圖像的語(yǔ)義信息將不同類別圖像區(qū)分開來(lái)缠诅,是計(jì)算機(jī)視覺中重要的基本問題,也是圖像檢測(cè)乍迄、圖像分割管引、物體跟蹤、行為分析等其他高層視覺任務(wù)的基礎(chǔ)就乓。圖像分類根據(jù)不同分類標(biāo)準(zhǔn)可以劃分為很多種子方向汉匙。
圖像分類包括通用圖像分類拱烁、細(xì)粒度圖像分類生蚁。通用圖像分類例如分出圖片中的狗或者貓,如圖2-2所示戏自,細(xì)粒度圖像分類就比如分辨出花的種類邦投。
圖像分類已廣泛應(yīng)用于許多領(lǐng)域,包括安全領(lǐng)域中的人臉識(shí)別和智能視頻分析擅笔,交通領(lǐng)域中的交通場(chǎng)景識(shí)別志衣,互聯(lián)網(wǎng)領(lǐng)域中基于內(nèi)容的圖像檢索和自動(dòng)相冊(cè)分類以及醫(yī)療領(lǐng)域中的圖像識(shí)別。
2.圖像分割(Object Segmentation)
圖像分割是基于圖像檢測(cè)的猛们,它需要檢測(cè)到目標(biāo)物體念脯,然后把物體分割出來(lái)。圖它是由圖像處理到圖像分析的關(guān)鍵步驟⊥涮裕現(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法绿店、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等庐橙。
下面給出一個(gè)具體的分割實(shí)例假勿。這個(gè)例子不僅可以區(qū)分出腦部區(qū)域,而且能夠用于腦部腫瘤的識(shí)別和分割态鳖。下圖2-3是腫瘤分割過(guò)程示意圖转培。
3.風(fēng)格遷移(Style Transfer)
風(fēng)格遷移是指將一個(gè)領(lǐng)域或者幾張圖片的風(fēng)格應(yīng)用到其他領(lǐng)域或者圖片上。比如將抽象派的風(fēng)格應(yīng)用到寫實(shí)派的圖片上浆竭。如下圖2-4所示
4.圖像修復(fù)((Image Inpainting)
圖像修復(fù)(Image Inpainting)浸须,其目的就是修復(fù)圖像中缺失的地方惨寿,比如可以用于修復(fù)一些老的有損壞的黑白照片和影片∩局希或者是為黑白照片著色缤沦。還可以修復(fù)分辨率低的圖像。例如由Google Brain發(fā)布的一個(gè)名為Pixel Recursive Super Resolution的AI系統(tǒng)易稠,能提高像素亂化處理后的照片分辨率缸废,也就是能夠清除馬賽克。如圖2-5所示驶社。
5.?圖像生成(Image Synthesis)
圖像生成是根據(jù)一張圖片生成修改部分區(qū)域的圖片或者是全新的圖片的任務(wù)企量。例如通過(guò)單一側(cè)面照片合成正面人臉圖像。
熟悉圖像識(shí)別需要哪些知識(shí)儲(chǔ)備
ImageNet
在圖像識(shí)別領(lǐng)域?qū)W術(shù)界和AI行業(yè)的許多同行都在不遺余力地研究同一個(gè)概念就是研發(fā)出一個(gè)無(wú)論數(shù)據(jù)質(zhì)量如何都能做出更好決策的算法亡电。但李飛飛意識(shí)到了這種方式的局限性——如果供算法學(xué)習(xí)的數(shù)據(jù)無(wú)法反映真實(shí)世界届巩,即便是最好的算法也不會(huì)有良好的效果。她覺得應(yīng)該構(gòu)建一個(gè)更好的數(shù)據(jù)集份乒。在研究中她發(fā)現(xiàn)了 WordNet恕汇。WordNet 可以給每個(gè)單詞配一張圖片,主要是作為參考或辖,而不是構(gòu)建計(jì)算機(jī)視覺數(shù)據(jù)集瘾英。但是李飛飛打算構(gòu)建一個(gè)龐大的數(shù)據(jù)集,給每個(gè)單詞配以多個(gè)例子颂暇。ImageNet 數(shù)據(jù)集里既包括熊貓缺谴、教堂這種實(shí)物,也包括“愛”這種抽象概念耳鸯。李飛飛的第一個(gè)想法就是以10美元每小時(shí)的價(jià)錢雇傭本科生湿蛔,讓他們以人工的方式尋找照片并添加進(jìn)數(shù)據(jù)集。但她很快發(fā)現(xiàn)县爬,按照這種收集照片的速度阳啥,大約需要90年才能完成。李飛飛聽說(shuō)亞馬遜的Mechanical Turk 網(wǎng)站财喳,這是一個(gè)眾包平臺(tái)察迟,可以雇傭世界各地的人用電腦遠(yuǎn)程完成一些任務(wù),而且費(fèi)用也很低廉纲缓。使用 Mechanical Turk 服務(wù)也面臨不少困難卷拘,比如,每張照片需要找?guī)讉€(gè)人過(guò)目呢祝高?確定一張貓咪的照片可能兩個(gè)人就夠了栗弟,但是確定一張哈士奇狗崽的照片可能就需要經(jīng)過(guò)十輪的反復(fù)驗(yàn)證。還有如果在網(wǎng)站上雇傭的人想偷懶怎么辦工闺?李飛飛的團(tuán)隊(duì)最后針對(duì)雇傭人員的工作開發(fā)了一款統(tǒng)計(jì)模型乍赫,用以確保數(shù)據(jù)集只包含正確的照片瓣蛀。數(shù)據(jù)集最終也花費(fèi)了兩年半的時(shí)間完成。包含了 320 萬(wàn)張標(biāo)記的照片雷厂,分為 5247 個(gè)種類惋增,劃分為 12 個(gè)子樹,比如“哺乳物”改鲫、“機(jī)車”和“家具”等诈皿。人們驚訝的發(fā)現(xiàn)經(jīng) ImageNet 訓(xùn)練后的模型可以用作其它識(shí)別任務(wù)的啟動(dòng)模型。你可以先用 ImageNet 訓(xùn)練模型像棘,然后再針對(duì)其它任務(wù)調(diào)試模型稽亏。
在2012年ImageNet 大賽上來(lái)自加拿大多倫多大學(xué)的 Jeoffrey Hinton, Ilya Sutskever,和 Alex Krizhevsky 提交了一個(gè)叫做 Alexnet 的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),Alexnet 奪得了當(dāng)年的 ImageNet 冠軍缕题,成績(jī)比第二名高出達(dá)41%截歉。在短短七年時(shí)間內(nèi),利用 ImageNet 數(shù)據(jù)集分類物體的最高準(zhǔn)確率從71.8%提升至97.3%烟零,超過(guò)了人類的識(shí)別水平瘪松,有效的證明了數(shù)據(jù)越大,做出的決策會(huì)更好锨阿。如下圖2-6所示宵睦,可看出歷年ImageNet比賽的成績(jī)變化趨勢(shì)。
當(dāng)年參與ImageNet挑戰(zhàn)的編程人員如今幾乎遍布技術(shù)領(lǐng)域的各個(gè)角落群井,其中不少人成為人工智能研究領(lǐng)域的前沿專家状飞,2010年毫胜,ImageNet 挑戰(zhàn)賽的首屆贏家后來(lái)都出任過(guò)百度书斜、谷歌和華為的高管。2013年的冠軍 Matthew Zeiler 后來(lái)創(chuàng)辦了 Clarifai酵使,如今已獲得4000萬(wàn)美元的風(fēng)險(xiǎn)投資荐吉。2014年 ImageNet 大賽由來(lái)自牛津大學(xué)的兩位研究者拔得頭籌,他們很快就被谷歌看中口渔,并加入了谷歌剛收購(gòu)的 DeepMind 實(shí)驗(yàn)室样屠。李飛飛曾說(shuō)過(guò)將致力于“AI大眾化”,讓AI進(jìn)入所有人的生活缺脉。她說(shuō)痪欲,“我們將努力降低AI的使用門檻,讓盡可能多的用戶攻礼、開發(fā)者业踢、企業(yè)都能享受到AI的便利〗赴纾”
OpenCV
OpenCV是一個(gè)機(jī)器視覺庫(kù)知举,是CV領(lǐng)域目前全球應(yīng)用最廣瞬沦、最知名的開源組織之一。OpenCV的創(chuàng)始人Gary Bradski是斯坦福大學(xué)Stanford CS項(xiàng)目顧問雇锡,聯(lián)合創(chuàng)立了StanfordAI Robotics (STAIR)課程逛钻,并由此催生了PR1和PR2機(jī)器人、ROS機(jī)器人操作系統(tǒng)锰提、Willow Garage和其他11個(gè)公司曙痘。也曾創(chuàng)立Industrial Perception、Arraily等業(yè)內(nèi)知名公司立肘。是一名連續(xù)創(chuàng)業(yè)者屡江。Gary Bradski曾組織了Stanley機(jī)器人團(tuán)隊(duì)中的視覺團(tuán)隊(duì)竣稽,幫助其贏得2005年美國(guó)穿越沙漠DARPA機(jī)器人挑戰(zhàn)大賽桂冠唉窃。而大賽中所用到的技術(shù),也為后來(lái)Google的自動(dòng)駕駛奠定了重要基礎(chǔ)乱灵。
OpenCV是使用C++進(jìn)行編寫的踢故、以BSD許可證開放源代碼的文黎、跨平臺(tái)的計(jì)算機(jī)視覺庫(kù)。它提供了上百種計(jì)算機(jī)視覺殿较、機(jī)器學(xué)習(xí)耸峭、圖像處理等相關(guān)算法,新版本的OpenCV支持Tensorflow淋纲、Caffe等深度學(xué)習(xí)框架劳闹。OpenCV的底層優(yōu)化處理得很好,能夠支持多核處理洽瞬,能夠利用硬件實(shí)現(xiàn)加速本涕。由于該庫(kù)是以BSD許可證進(jìn)行開源的,因此可以被免費(fèi)應(yīng)用在科學(xué)研究與商業(yè)應(yīng)用中伙窃。OpenCV在諸多領(lǐng)域得到了廣泛的應(yīng)用菩颖,例如物體檢測(cè)、圖像識(shí)別为障、運(yùn)動(dòng)跟蹤晦闰、增強(qiáng)現(xiàn)實(shí)(AR)、機(jī)器人等場(chǎng)景鳍怨。OpenCV中的圖片以RGB的形式存儲(chǔ)呻右,只不過(guò)再OpenCV中的顏色通道順序不是RGB而是BGR。這可以歸結(jié)為一個(gè)歷史遺留原因鞋喇。因?yàn)镺penCV庫(kù)的研發(fā)歷史比較“悠久”声滥,在那個(gè)時(shí)代,BGR是數(shù)碼相機(jī)設(shè)備的主流表示形式确徙。OpenCV 只是一個(gè)算法庫(kù)醒串,能為我們搭建計(jì)算機(jī)視覺應(yīng)用提供“磚頭”执桌。我們并不需要完全精通了算法原理之后才去使用 OpenCV,只要了解了“磚頭”的功能芜赌,就可以動(dòng)手了仰挣。在實(shí)踐中學(xué)習(xí)才是最高效的學(xué)習(xí)方式。
2018年9月份這位世界級(jí)CV專家缠沈,OpenCV創(chuàng)始人Gary Bradski成了中國(guó)創(chuàng)業(yè)公司藍(lán)胖子機(jī)器人的首席科學(xué)家膘壶。
OCR
光學(xué)字符識(shí)別(Optical Character Recognition, OCR)是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過(guò)程洲愤。通常颓芭,圖像信息通過(guò)掃描儀、照相機(jī)柬赐、電子傳真軟件等設(shè)備獲取并存儲(chǔ)在圖像文件中亡问,然后OCR軟件讀取、分析圖像文件并通過(guò)字符識(shí)別提取出其中的字符串肛宋。根據(jù)識(shí)別場(chǎng)景州藕,可大致將OCR分為識(shí)別特定場(chǎng)景的專用OCR和識(shí)別多種場(chǎng)景的通用OCR。比如現(xiàn)今方興未艾的證件識(shí)別和車牌識(shí)別就是專用OCR的典型實(shí)例酝陈。通用OCR可以用于更復(fù)雜的場(chǎng)景床玻,也具有更大的應(yīng)用潛力。但由于通用圖片的場(chǎng)景不固定沉帮,文字布局多樣锈死,因此難度更高。
典型的OCR的技術(shù)路線如下圖所示
在OCR技術(shù)中穆壕,圖像預(yù)處理通常是針對(duì)圖像的成像問題進(jìn)行修正待牵。輸入文本經(jīng)過(guò)掃描儀進(jìn)入計(jì)算機(jī)后,由于紙張的厚薄粱檀、光潔度和印刷質(zhì)量都會(huì)造成文字畸變洲敢,產(chǎn)生斷筆、粘連和污點(diǎn)等干擾茄蚯,所以在進(jìn)行文字識(shí)別之前,要對(duì)帶有噪聲的文字圖像進(jìn)行處理睦优。由于這種處理工作是在文字識(shí)別之前渗常,所以被稱為預(yù)處理。預(yù)處理一般包括灰度化汗盘、二值化皱碘,幾何變換(透視、扭曲隐孽、旋轉(zhuǎn)等)癌椿,畸變校正健蕊,去除模糊、圖像增強(qiáng)和光線校正踢俄,行缩功、字切分,平滑都办,規(guī)范化等等嫡锌。
OCR技術(shù)的步驟繁多,涉及的算法復(fù)雜琳钉。但隨著識(shí)別算法的不斷改進(jìn)和成熟势木,文字編碼庫(kù)更加精準(zhǔn),OCR識(shí)別的準(zhǔn)確率大幅提升歌懒,目前OCR文字特征的主流算法啦桌,文字識(shí)別率幾乎能達(dá)到95%以上,同時(shí)及皂,也有比較成熟的OCR引擎震蒋,能夠幫助開發(fā)人員提高開發(fā)效率。