AI產(chǎn)品經(jīng)理一文讀懂計(jì)算機(jī)視覺

什么是計(jì)算機(jī)視覺?

人類獲取外部信息的80％來(lái)自視覺所坯。在我們獲得的所有信息中晒骇，視覺信息是最復(fù)雜和最豐富的。經(jīng)過(guò)長(zhǎng)期的生理進(jìn)化過(guò)程镰吆，我們可以輕松地看到和理解周圍的事物帘撰，但是計(jì)算機(jī)處理這些視覺信息非常困難。直到1970年代万皿，神經(jīng)科學(xué)家馬爾將神經(jīng)心理學(xué)的知識(shí)與人工智能相結(jié)合，提出了具有代際意義的“計(jì)算視覺理論”，將計(jì)算機(jī)視覺標(biāo)記為一門獨(dú)立的學(xué)科檀轨。因此剥啤，與AI的某些學(xué)科相比，計(jì)算機(jī)視覺是一個(gè)相對(duì)較晚才開始的新學(xué)科减余。在圖像婆赠，視頻等的識(shí)別和分析中，經(jīng)常使用計(jì)算機(jī)視覺佳励。在機(jī)器人等應(yīng)用場(chǎng)景中休里，通常稱為機(jī)器視覺。計(jì)算機(jī)視覺主要解決了“使機(jī)器外觀變幻”的問題赃承。在人類中妙黍，兩個(gè)世界主要通過(guò)耳和眼的兩種重要感覺來(lái)認(rèn)識(shí)世界。對(duì)于多臺(tái)計(jì)算機(jī)瞧剖，計(jì)算機(jī)語(yǔ)音技術(shù)使其清晰可見拭嫁，而計(jì)算機(jī)視覺技術(shù)使其可見且可見。計(jì)算機(jī)視覺研究使用諸如相機(jī)之類的視覺傳感設(shè)備來(lái)代替人眼來(lái)識(shí)別抓于，跟蹤和測(cè)量物體做粤，并且計(jì)算機(jī)處理視覺信息以實(shí)現(xiàn)對(duì)諸如人眼之類的事物的感知和認(rèn)知。簡(jiǎn)而言之捉撮，計(jì)算機(jī)視覺是“看見”的科學(xué)怕品，并且可以成為人類的第二雙眼睛。

1970年代巾遭，麻省理工學(xué)院著名的AI實(shí)驗(yàn)室由Berthold Horn教授首次開設(shè)了“機(jī)器視覺”課程肉康。Marr在1977年被命名為“機(jī)器視覺”闯估，他首先描述了計(jì)算機(jī)視覺領(lǐng)域，其中包括計(jì)算機(jī)視覺和計(jì)算神經(jīng)科學(xué)兩個(gè)子學(xué)科吼和，他還將計(jì)算機(jī)視覺處理描述為三個(gè)階段：第一階段輸入原始圖像并提取基本特征涨薪，例如角點(diǎn)，邊緣炫乓，紋理刚夺，線條和邊界。特征集成為原始圖末捣；第二階段包括輸入圖像和基礎(chǔ)光督。元圖可以還原場(chǎng)景可見部分的深度，輪廓等塔粒。這不是對(duì)象的真實(shí)的三維表示结借，而是二維的半圖像。第三階段基于輸入圖像卒茬，原始圖像和二維半圖像恢復(fù)并識(shí)別三維物體船老。

2012年，谷歌大腦（Google Brain）通過(guò)自己觀看視頻圃酵，認(rèn)出了一只貓柳畔。谷歌大腦有吳恩達(dá)領(lǐng)銜創(chuàng)建。2010年郭赐，時(shí)任斯坦福大學(xué)副教授的吳恩達(dá)加入谷歌開發(fā)團(tuán)隊(duì)X實(shí)驗(yàn)室（XLab）薪韩。2011年，吳恩達(dá)建立了谷歌大腦項(xiàng)目捌锭，該項(xiàng)目為分布式計(jì)算的大規(guī)模人工神經(jīng)網(wǎng)絡(luò)俘陷。吳恩達(dá)團(tuán)隊(duì)用了16000個(gè)GPU芯片，構(gòu)建了擁有10億突觸的人工大腦观谦，盡管與人腦突觸數(shù)目的還要差上好幾個(gè)量級(jí)拉盾，但這已經(jīng)是目前最龐大的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)系統(tǒng)了。隨后吳恩達(dá)被百度給挖走豁状，并在百度創(chuàng)建了百度大腦捉偏。

計(jì)算機(jī)視覺原理是什么？

計(jì)算機(jī)視覺系統(tǒng)中信息的處理和分析大致可以分成兩個(gè)階段：圖象處理階段又稱視覺處理中的低水平和中水平階段泻红；圖象分析夭禽、理解階段又稱視覺處理中的高水平處理階段。

在圖象處理階段谊路，計(jì)算機(jī)對(duì)圖象信息進(jìn)行一系列的加工處理讹躯，這主要是：

1、校正成象過(guò)程中系統(tǒng)引進(jìn)的光度學(xué)和幾何學(xué)的畸變，抑制和去除成象過(guò)程中引進(jìn)的噪聲—統(tǒng)稱為圖象的恢復(fù)蜀撑。

2、從圖象信息如亮度分布信息中提取諸如邊沿信息剩彬，深度信息圖象點(diǎn)沿軸方向的尺度酷麦，表面三維傾斜方向信息等反映客觀景物特征的信息。

3喉恋、根據(jù)抽取的特征信息把反映三維客體的各個(gè)圖象基元沃饶，如輪廓、線條轻黑、紋理糊肤、邊緣、邊界氓鄙、物體的各個(gè)面等從圖象中分離出來(lái)馆揉，并且建立起各個(gè)基元之間的拓樸學(xué)上的和幾何學(xué)上的關(guān)系—稱之基元的分割和關(guān)系的確定。

在圖象分析和理解階段抖拦，計(jì)算機(jī)根據(jù)事先存貯在數(shù)據(jù)庫(kù)中的預(yù)知識(shí)模型升酣，識(shí)別出各個(gè)基元或某些基元組合所代表的客觀世界中的某些實(shí)體稱之為模型匹配以及根據(jù)圖象中各基元之間的關(guān)系在預(yù)知識(shí)的指導(dǎo)下得出圖象所代表的實(shí)際景物的含義，得出圖象的解釋或描述态罪。

必須強(qiáng)調(diào)的是噩茄，預(yù)知識(shí)在視覺系統(tǒng)中起著非常重要的作用。在知識(shí)前數(shù)據(jù)庫(kù)中复颈，存儲(chǔ)可能實(shí)際遇到的各種物體的知識(shí)模型绩聘，并存儲(chǔ)實(shí)際場(chǎng)景中各種物體之間的約束關(guān)系。計(jì)算機(jī)的功能是根據(jù)所分析圖像中的原語(yǔ)及其相互關(guān)系耗啦，以預(yù)先知識(shí)為指導(dǎo)凿菩，最后通過(guò)匹配，搜索和推理獲得圖像的描述帜讲。知識(shí)前時(shí)刻為整個(gè)過(guò)程提供了處理證據(jù)和證據(jù)蓄髓。隨時(shí)將每個(gè)步驟的結(jié)果與預(yù)知識(shí)進(jìn)行比較。有時(shí)舒帮，該過(guò)程的中間結(jié)果和最終結(jié)果會(huì)作為知識(shí)的更新和積累被饋送到預(yù)知識(shí)庫(kù)会喝。

圖像分割研究

圖像分割是圖像處理與機(jī)器視覺的基本問題之一。其要點(diǎn)是：把圖像劃分成若干互不交迭區(qū)域的集合玩郊。這些區(qū)域要么對(duì)當(dāng)前的任務(wù)有意義肢执，要么有助于說(shuō)明它們與實(shí)際物體或物體的某些部分之間的對(duì)應(yīng)關(guān)系。圖像分割的應(yīng)用十分廣泛译红，幾乎出現(xiàn)在有關(guān)圖像處理的所有領(lǐng)域预茄，并涉及各種類型的圖像。例如，在遙感應(yīng)中耻陕，合成孔徑雷達(dá)圖像中目標(biāo)的分割;遙感云圖中不同云系和背景分布的分割;在交通圖像分析中拙徽，把車輛目標(biāo)從背景中分割出來(lái)。在這些應(yīng)用中诗宣，分割通常是為了進(jìn)一步對(duì)圖像進(jìn)行分析膘怕、識(shí)別、壓縮編碼召庞，分割的準(zhǔn)確性直接影響后續(xù)任務(wù)的有效性岛心。

一般來(lái)講，分割出的區(qū)域需同時(shí)滿足均勻性和連通性的條件篮灼。其中均勻性是指在該區(qū)域中的所有象素點(diǎn)都滿足基于灰度忘古、紋理、彩色等特征的某種相似性準(zhǔn)則;連通性是指在該區(qū)域內(nèi)存在任意兩點(diǎn)的路徑诅诱。盡管圖像處理和機(jī)器視覺界的研究者們?yōu)榇烁冻隽碎L(zhǎng)期的努力髓堪，符合以上兩點(diǎn)的通用性分割仍面臨著巨大的困難;大部分研究成果都是針對(duì)某一類型圖像、某一具體應(yīng)用的分割娘荡〉┐可以概括為以下內(nèi)容。

數(shù)據(jù)驅(qū)動(dòng)的分割

常見的數(shù)據(jù)驅(qū)動(dòng)分割包括基于邊緣檢測(cè)的分割它改、基于區(qū)域的分割疤孕、邊緣與區(qū)域相結(jié)合的分割等。對(duì)于基于邊緣檢測(cè)的分割央拖，其基本思想是先檢測(cè)圖像中的邊緣點(diǎn)祭阀，再按一定策略連接成輪廓，從而構(gòu)成分割區(qū)域鲜戒。難點(diǎn)在于邊緣檢測(cè)時(shí)抗噪聲性能和檢測(cè)精度的矛盾专控，若提高檢測(cè)精度，則噪聲產(chǎn)生的偽邊緣會(huì)導(dǎo)致不合理的輪廓;若提高抗噪聲性能遏餐，則會(huì)產(chǎn)生輪廓漏檢和位置偏差伦腐。為此，人們提出各種多尺度邊緣檢測(cè)方法失都，根據(jù)實(shí)際問題設(shè)計(jì)多尺度邊緣信息的結(jié)合方案柏蘑，以較好地兼顧抗噪聲性能和檢測(cè)精度。

基于區(qū)域的分割的基本思想是根據(jù)圖像數(shù)據(jù)的特征將圖像空間劃分成不同的區(qū)域粹庞。常用的特征包括：直接來(lái)自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征咳焚。方法有閾值法、區(qū)域生長(zhǎng)法庞溜、聚類法革半、松弛法等。

邊緣檢測(cè)能夠獲得灰度或彩色值的局部變化強(qiáng)度，區(qū)域分割能夠檢測(cè)特征的相似性與均勻性又官。將兩者結(jié)合起來(lái)延刘，通過(guò)邊緣點(diǎn)的限制，避免區(qū)域的過(guò)分割;同時(shí)通過(guò)區(qū)域分割補(bǔ)充漏檢的邊緣六敬，使輪廓更加完整碘赖。例如，先進(jìn)行邊緣檢測(cè)與連接觉阅，再比較相鄰區(qū)域的特征(灰度均值崖疤、方差)秘车，若相近則合并;對(duì)原始圖像分別進(jìn)行邊緣檢測(cè)和區(qū)域生長(zhǎng)典勇，獲得邊緣圖和區(qū)域片段圖后，再按一定的準(zhǔn)則融合叮趴，得到最終分割結(jié)果割笙。

模型驅(qū)動(dòng)的分割

常見的模型驅(qū)動(dòng)分割包括基于動(dòng)態(tài)輪廓(Snakes)模型、組合優(yōu)化模型眯亦、目標(biāo)幾何與統(tǒng)計(jì)模型伤溉。Snakes模型用于描述分割目標(biāo)的動(dòng)態(tài)輪廓。由于其能量函數(shù)采用積分運(yùn)算妻率，具有較好的抗噪聲性乱顾，對(duì)目標(biāo)的局部模糊也不敏感，因而適用性很廣宫静。但這種分割方法容易收斂到局部最優(yōu)走净，因此要求初始輪廓應(yīng)盡可能靠近真實(shí)輪廓。

近年來(lái)對(duì)通用分割方法的研究?jī)A向于將分割看作一個(gè)組合優(yōu)化問題孤里，并采用一系列優(yōu)化策略完成圖像分割任務(wù)伏伯。主要思路是在分割定義的約束條件之外，根據(jù)具體任務(wù)再定義一個(gè)優(yōu)化目標(biāo)函數(shù)捌袜，所求分割的解就是該目標(biāo)函數(shù)在約束條件下的全局最優(yōu)解说搅。以組合優(yōu)化的觀點(diǎn)處理分割問題，主要是利用一個(gè)目標(biāo)函數(shù)綜合表示分割的各種要求和約束虏等，將分割變?yōu)槟繕?biāo)函數(shù)的優(yōu)化求解弄唧。由于目標(biāo)函數(shù)通常是一個(gè)多變量函數(shù)，可采用隨機(jī)優(yōu)化方法霍衫。

基于目標(biāo)幾何與統(tǒng)計(jì)模型的分割是將目標(biāo)分割與識(shí)別集成在一起的方法套才，常稱作目標(biāo)檢測(cè)或提取∧降基本思想是將有關(guān)目標(biāo)的幾何與統(tǒng)計(jì)知識(shí)表示成模型背伴，將分割與識(shí)別變?yōu)槠ヅ浠虮O(jiān)督分類。常用的模型有模板、特征矢量模型傻寂、基于連接的模型等息尺。這種分割方法能夠同時(shí)完成部分或全部識(shí)別任務(wù)，具有較高的效率疾掰。然而由于成像條件變化搂誉，實(shí)際圖像中的目標(biāo)往往與模型有一定的區(qū)別，需要面對(duì)誤檢與漏檢的矛盾静檬，匹配時(shí)的搜索步驟也頗為費(fèi)時(shí)炭懊。

圖像分割的半自動(dòng)方法

從人工參與程度來(lái)看，圖像分割可分為人工拂檩、半自動(dòng)侮腹、自動(dòng)等三種類型。其中人工分割完全由操作者利用鼠標(biāo)勾畫出分割區(qū)域的輪廓稻励，費(fèi)時(shí)費(fèi)力父阻，且容易受操作者主觀因素的影響，重復(fù)性差望抽。自動(dòng)分割不需人機(jī)交互加矛，但適應(yīng)性差，很難實(shí)現(xiàn)對(duì)一批圖像同時(shí)獲得滿意的分割效果煤篙。半自動(dòng)分割將人機(jī)交互與自動(dòng)分割相結(jié)合斟览，能夠適應(yīng)不同的圖像和需求，且有效降低計(jì)算復(fù)雜度辑奈。目前半自動(dòng)分割中人機(jī)交互的方式有：勾畫目標(biāo)的大致輪廓苛茂，構(gòu)成自動(dòng)分割的初始化;根據(jù)特定的圖像和任務(wù)調(diào)整算法參數(shù);在分割過(guò)程中加入人工交互節(jié)等∩砗Γ總之味悄，從實(shí)用化的角度看，自動(dòng)分割仍是長(zhǎng)期努力的方向塌鸯。目前更為現(xiàn)實(shí)的是在自動(dòng)分割前或分割過(guò)程中加入人機(jī)交互的半自動(dòng)分割侍瑟。其發(fā)展方向?yàn)楸M可能少和簡(jiǎn)便的人機(jī)交互”可見涨颜，圖像分割是圖像處理和機(jī)器視覺必不可少的重要環(huán)節(jié)，也是圖像理論發(fā)展的瓶頸之一茧球。隨著計(jì)算機(jī)速度與容量的快速進(jìn)展庭瑰，圖像處理與機(jī)器視覺實(shí)用化系統(tǒng)碩果累累。例如抢埋，基于內(nèi)容的圖像檢索系統(tǒng)弹灭、智能監(jiān)視系統(tǒng)督暂、視覺引導(dǎo)的智能交通系統(tǒng)、手寫體字符/人臉/指紋/虹膜識(shí)別系統(tǒng)等穷吮。然而有關(guān)的理論研究并沒有取得突破性進(jìn)展逻翁。

計(jì)算機(jī)視覺能做什么？

1.圖像分類(Image Classification)

圖像分類捡鱼，也可以稱為圖像識(shí)別八回，顧名思義，就是辨別圖像是什么驾诈，圖像分類是根據(jù)圖像的語(yǔ)義信息將不同類別圖像區(qū)分開來(lái)缠诅，是計(jì)算機(jī)視覺中重要的基本問題，也是圖像檢測(cè)乍迄、圖像分割管引、物體跟蹤、行為分析等其他高層視覺任務(wù)的基礎(chǔ)就乓。圖像分類根據(jù)不同分類標(biāo)準(zhǔn)可以劃分為很多種子方向汉匙。

圖像分類包括通用圖像分類拱烁、細(xì)粒度圖像分類生蚁。通用圖像分類例如分出圖片中的狗或者貓，如圖2-2所示戏自，細(xì)粒度圖像分類就比如分辨出花的種類邦投。

圖2-2圖像識(shí)別貓的頭像

圖像分類已廣泛應(yīng)用于許多領(lǐng)域，包括安全領(lǐng)域中的人臉識(shí)別和智能視頻分析擅笔，交通領(lǐng)域中的交通場(chǎng)景識(shí)別志衣，互聯(lián)網(wǎng)領(lǐng)域中基于內(nèi)容的圖像檢索和自動(dòng)相冊(cè)分類以及醫(yī)療領(lǐng)域中的圖像識(shí)別。

2.圖像分割(Object Segmentation)

圖像分割是基于圖像檢測(cè)的猛们，它需要檢測(cè)到目標(biāo)物體念脯，然后把物體分割出來(lái)。圖它是由圖像處理到圖像分析的關(guān)鍵步驟⊥涮裕現(xiàn)有的圖像分割方法主要分以下幾類：基于閾值的分割方法绿店、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等庐橙。

下面給出一個(gè)具體的分割實(shí)例假勿。這個(gè)例子不僅可以區(qū)分出腦部區(qū)域，而且能夠用于腦部腫瘤的識(shí)別和分割态鳖。下圖2-3是腫瘤分割過(guò)程示意圖转培。

圖2-3腫瘤分割過(guò)程示意圖

3.風(fēng)格遷移(Style Transfer)

風(fēng)格遷移是指將一個(gè)領(lǐng)域或者幾張圖片的風(fēng)格應(yīng)用到其他領(lǐng)域或者圖片上。比如將抽象派的風(fēng)格應(yīng)用到寫實(shí)派的圖片上浆竭。如下圖2-4所示

圖2-4風(fēng)格遷移示例

4.圖像修復(fù)((Image Inpainting)

圖像修復(fù)(Image Inpainting)浸须，其目的就是修復(fù)圖像中缺失的地方惨寿，比如可以用于修復(fù)一些老的有損壞的黑白照片和影片∩局希或者是為黑白照片著色缤沦。還可以修復(fù)分辨率低的圖像。例如由Google Brain發(fā)布的一個(gè)名為Pixel Recursive Super Resolution的AI系統(tǒng)易稠，能提高像素亂化處理后的照片分辨率缸废，也就是能夠清除馬賽克。如圖2-5所示驶社。

圖2-5左邊：馬賽克版本中間：GoogleAI還原版本?右邊：原圖

5.?圖像生成(Image Synthesis)

圖像生成是根據(jù)一張圖片生成修改部分區(qū)域的圖片或者是全新的圖片的任務(wù)企量。例如通過(guò)單一側(cè)面照片合成正面人臉圖像。

熟悉圖像識(shí)別需要哪些知識(shí)儲(chǔ)備

ImageNet

在圖像識(shí)別領(lǐng)域?qū)W術(shù)界和AI行業(yè)的許多同行都在不遺余力地研究同一個(gè)概念就是研發(fā)出一個(gè)無(wú)論數(shù)據(jù)質(zhì)量如何都能做出更好決策的算法亡电。但李飛飛意識(shí)到了這種方式的局限性——如果供算法學(xué)習(xí)的數(shù)據(jù)無(wú)法反映真實(shí)世界届巩，即便是最好的算法也不會(huì)有良好的效果。她覺得應(yīng)該構(gòu)建一個(gè)更好的數(shù)據(jù)集份乒。在研究中她發(fā)現(xiàn)了 WordNet恕汇。WordNet 可以給每個(gè)單詞配一張圖片，主要是作為參考或辖，而不是構(gòu)建計(jì)算機(jī)視覺數(shù)據(jù)集瘾英。但是李飛飛打算構(gòu)建一個(gè)龐大的數(shù)據(jù)集，給每個(gè)單詞配以多個(gè)例子颂暇。ImageNet 數(shù)據(jù)集里既包括熊貓缺谴、教堂這種實(shí)物，也包括“愛”這種抽象概念耳鸯。李飛飛的第一個(gè)想法就是以10美元每小時(shí)的價(jià)錢雇傭本科生湿蛔，讓他們以人工的方式尋找照片并添加進(jìn)數(shù)據(jù)集。但她很快發(fā)現(xiàn)县爬，按照這種收集照片的速度阳啥，大約需要90年才能完成。李飛飛聽說(shuō)亞馬遜的Mechanical Turk 網(wǎng)站财喳，這是一個(gè)眾包平臺(tái)察迟，可以雇傭世界各地的人用電腦遠(yuǎn)程完成一些任務(wù)，而且費(fèi)用也很低廉纲缓。使用 Mechanical Turk 服務(wù)也面臨不少困難卷拘，比如，每張照片需要找?guī)讉€(gè)人過(guò)目呢祝高？確定一張貓咪的照片可能兩個(gè)人就夠了栗弟，但是確定一張哈士奇狗崽的照片可能就需要經(jīng)過(guò)十輪的反復(fù)驗(yàn)證。還有如果在網(wǎng)站上雇傭的人想偷懶怎么辦工闺？李飛飛的團(tuán)隊(duì)最后針對(duì)雇傭人員的工作開發(fā)了一款統(tǒng)計(jì)模型乍赫，用以確保數(shù)據(jù)集只包含正確的照片瓣蛀。數(shù)據(jù)集最終也花費(fèi)了兩年半的時(shí)間完成。包含了 320 萬(wàn)張標(biāo)記的照片雷厂，分為 5247 個(gè)種類惋增，劃分為 12 個(gè)子樹，比如“哺乳物”改鲫、“機(jī)車”和“家具”等诈皿。人們驚訝的發(fā)現(xiàn)經(jīng) ImageNet 訓(xùn)練后的模型可以用作其它識(shí)別任務(wù)的啟動(dòng)模型。你可以先用 ImageNet 訓(xùn)練模型像棘，然后再針對(duì)其它任務(wù)調(diào)試模型稽亏。

在2012年ImageNet 大賽上來(lái)自加拿大多倫多大學(xué)的 Jeoffrey Hinton, Ilya Sutskever,和 Alex Krizhevsky 提交了一個(gè)叫做 Alexnet 的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，Alexnet 奪得了當(dāng)年的 ImageNet 冠軍缕题，成績(jī)比第二名高出達(dá)41%截歉。在短短七年時(shí)間內(nèi)，利用 ImageNet 數(shù)據(jù)集分類物體的最高準(zhǔn)確率從71.8%提升至97.3%烟零，超過(guò)了人類的識(shí)別水平瘪松，有效的證明了數(shù)據(jù)越大，做出的決策會(huì)更好锨阿。如下圖2-6所示宵睦，可看出歷年ImageNet比賽的成績(jī)變化趨勢(shì)。

圖2-6過(guò)去幾年ImageNet挑戰(zhàn)賽成績(jī)變化

當(dāng)年參與ImageNet挑戰(zhàn)的編程人員如今幾乎遍布技術(shù)領(lǐng)域的各個(gè)角落群井，其中不少人成為人工智能研究領(lǐng)域的前沿專家状飞，2010年毫胜，ImageNet 挑戰(zhàn)賽的首屆贏家后來(lái)都出任過(guò)百度书斜、谷歌和華為的高管。2013年的冠軍 Matthew Zeiler 后來(lái)創(chuàng)辦了 Clarifai酵使，如今已獲得4000萬(wàn)美元的風(fēng)險(xiǎn)投資荐吉。2014年 ImageNet 大賽由來(lái)自牛津大學(xué)的兩位研究者拔得頭籌，他們很快就被谷歌看中口渔，并加入了谷歌剛收購(gòu)的 DeepMind 實(shí)驗(yàn)室样屠。李飛飛曾說(shuō)過(guò)將致力于“AI大眾化”，讓AI進(jìn)入所有人的生活缺脉。她說(shuō)痪欲，“我們將努力降低AI的使用門檻，讓盡可能多的用戶攻礼、開發(fā)者业踢、企業(yè)都能享受到AI的便利〗赴纾”

OpenCV

OpenCV是一個(gè)機(jī)器視覺庫(kù)知举，是CV領(lǐng)域目前全球應(yīng)用最廣瞬沦、最知名的開源組織之一。OpenCV的創(chuàng)始人Gary Bradski是斯坦福大學(xué)Stanford CS項(xiàng)目顧問雇锡，聯(lián)合創(chuàng)立了StanfordAI Robotics (STAIR)課程逛钻，并由此催生了PR1和PR2機(jī)器人、ROS機(jī)器人操作系統(tǒng)锰提、Willow Garage和其他11個(gè)公司曙痘。也曾創(chuàng)立Industrial Perception、Arraily等業(yè)內(nèi)知名公司立肘。是一名連續(xù)創(chuàng)業(yè)者屡江。Gary Bradski曾組織了Stanley機(jī)器人團(tuán)隊(duì)中的視覺團(tuán)隊(duì)竣稽，幫助其贏得2005年美國(guó)穿越沙漠DARPA機(jī)器人挑戰(zhàn)大賽桂冠唉窃。而大賽中所用到的技術(shù)，也為后來(lái)Google的自動(dòng)駕駛奠定了重要基礎(chǔ)乱灵。

OpenCV是使用C++進(jìn)行編寫的踢故、以BSD許可證開放源代碼的文黎、跨平臺(tái)的計(jì)算機(jī)視覺庫(kù)。它提供了上百種計(jì)算機(jī)視覺殿较、機(jī)器學(xué)習(xí)耸峭、圖像處理等相關(guān)算法，新版本的OpenCV支持Tensorflow淋纲、Caffe等深度學(xué)習(xí)框架劳闹。OpenCV的底層優(yōu)化處理得很好，能夠支持多核處理洽瞬，能夠利用硬件實(shí)現(xiàn)加速本涕。由于該庫(kù)是以BSD許可證進(jìn)行開源的，因此可以被免費(fèi)應(yīng)用在科學(xué)研究與商業(yè)應(yīng)用中伙窃。OpenCV在諸多領(lǐng)域得到了廣泛的應(yīng)用菩颖，例如物體檢測(cè)、圖像識(shí)別为障、運(yùn)動(dòng)跟蹤晦闰、增強(qiáng)現(xiàn)實(shí)（AR）、機(jī)器人等場(chǎng)景鳍怨。OpenCV中的圖片以RGB的形式存儲(chǔ)呻右，只不過(guò)再OpenCV中的顏色通道順序不是RGB而是BGR。這可以歸結(jié)為一個(gè)歷史遺留原因鞋喇。因?yàn)镺penCV庫(kù)的研發(fā)歷史比較“悠久”声滥，在那個(gè)時(shí)代，BGR是數(shù)碼相機(jī)設(shè)備的主流表示形式确徙。OpenCV 只是一個(gè)算法庫(kù)醒串，能為我們搭建計(jì)算機(jī)視覺應(yīng)用提供“磚頭”执桌。我們并不需要完全精通了算法原理之后才去使用 OpenCV，只要了解了“磚頭”的功能芜赌，就可以動(dòng)手了仰挣。在實(shí)踐中學(xué)習(xí)才是最高效的學(xué)習(xí)方式。

2018年9月份這位世界級(jí)CV專家缠沈，OpenCV創(chuàng)始人Gary Bradski成了中國(guó)創(chuàng)業(yè)公司藍(lán)胖子機(jī)器人的首席科學(xué)家膘壶。

OCR

光學(xué)字符識(shí)別（Optical Character Recognition, OCR）是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理，獲取文字及版面信息的過(guò)程洲愤。通常颓芭，圖像信息通過(guò)掃描儀、照相機(jī)柬赐、電子傳真軟件等設(shè)備獲取并存儲(chǔ)在圖像文件中亡问，然后OCR軟件讀取、分析圖像文件并通過(guò)字符識(shí)別提取出其中的字符串肛宋。根據(jù)識(shí)別場(chǎng)景州藕，可大致將OCR分為識(shí)別特定場(chǎng)景的專用OCR和識(shí)別多種場(chǎng)景的通用OCR。比如現(xiàn)今方興未艾的證件識(shí)別和車牌識(shí)別就是專用OCR的典型實(shí)例酝陈。通用OCR可以用于更復(fù)雜的場(chǎng)景床玻，也具有更大的應(yīng)用潛力。但由于通用圖片的場(chǎng)景不固定沉帮，文字布局多樣锈死，因此難度更高。

典型的OCR的技術(shù)路線如下圖所示

在OCR技術(shù)中穆壕，圖像預(yù)處理通常是針對(duì)圖像的成像問題進(jìn)行修正待牵。輸入文本經(jīng)過(guò)掃描儀進(jìn)入計(jì)算機(jī)后，由于紙張的厚薄粱檀、光潔度和印刷質(zhì)量都會(huì)造成文字畸變洲敢，產(chǎn)生斷筆、粘連和污點(diǎn)等干擾茄蚯，所以在進(jìn)行文字識(shí)別之前，要對(duì)帶有噪聲的文字圖像進(jìn)行處理睦优。由于這種處理工作是在文字識(shí)別之前渗常，所以被稱為預(yù)處理。預(yù)處理一般包括灰度化汗盘、二值化皱碘，幾何變換（透視、扭曲隐孽、旋轉(zhuǎn)等）癌椿，畸變校正健蕊，去除模糊、圖像增強(qiáng)和光線校正踢俄，行缩功、字切分，平滑都办，規(guī)范化等等嫡锌。

OCR技術(shù)的步驟繁多，涉及的算法復(fù)雜琳钉。但隨著識(shí)別算法的不斷改進(jìn)和成熟势木，文字編碼庫(kù)更加精準(zhǔn)，OCR識(shí)別的準(zhǔn)確率大幅提升歌懒，目前OCR文字特征的主流算法啦桌，文字識(shí)別率幾乎能達(dá)到95%以上，同時(shí)及皂，也有比較成熟的OCR引擎震蒋，能夠幫助開發(fā)人員提高開發(fā)效率。

最后編輯于：2019.11.10 22:03:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末躲庄，一起剝皮案震驚了整個(gè)濱河市查剖，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌噪窘，老刑警劉巖笋庄，帶你破解...
沈念sama閱讀 206,214評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異倔监，居然都是意外死亡直砂，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門浩习，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)静暂，“玉大人，你說(shuō)我怎么就攤上這事谱秽∏⒅” “怎么了？”我有些...
開封第一講書人閱讀 152,543評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵疟赊，是天一觀的道長(zhǎng)郊供。經(jīng)常有香客問我，道長(zhǎng)近哟，這世上最難降的妖魔是什么驮审？我笑而不...
開封第一講書人閱讀 55,221評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上疯淫，老公的妹妹穿的比我還像新娘地来。我一直安慰自己，他們只是感情好熙掺，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布未斑。她就那樣靜靜地躺著，像睡著了一般适掰。火紅的嫁衣襯著肌膚如雪颂碧。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,007評(píng)論 1贊 284
城市分裂傳說(shuō)
那天类浪，我揣著相機(jī)與錄音载城，去河邊找鬼。笑死费就，一個(gè)胖子當(dāng)著我的面吹牛诉瓦，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播力细，決...
沈念sama閱讀 38,313評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼睬澡，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了眠蚂？” 一聲冷哼從身側(cè)響起煞聪，我...
開封第一講書人閱讀 36,956評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎逝慧，沒想到半個(gè)月后昔脯，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡笛臣，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年云稚，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片沈堡。...
茶點(diǎn)故事閱讀 38,018評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡静陈，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出诞丽，到底是詐尸還是另有隱情鲸拥，我是刑警寧澤，帶...
沈念sama閱讀 33,685評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布率拒，位于F島的核電站崩泡，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏猬膨。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望勃痴。院中可真熱鬧谒所，春花似錦、人聲如沸沛申。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)铁材。三九已至尖淘，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間著觉，已是汗流浹背村生。一陣腳步聲響...
開封第一講書人閱讀 31,464評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饼丘，地道東北人趁桃。一個(gè)月前我還...
沈念sama閱讀 45,467評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像肄鸽，于是被迫代替她去往敵國(guó)和親卫病。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評(píng)論 2贊 345

AI產(chǎn)品經(jīng)理一文讀懂計(jì)算機(jī)視覺

推薦閱讀更多精彩內(nèi)容