AI產(chǎn)品經(jīng)理知識系列(2)——AI產(chǎn)業(yè)結(jié)構(gòu)及計算機(jī)視覺相關(guān)技術(shù)

作者:Rockelbel,兩年互聯(lián)網(wǎng)PM嘹承,AI轉(zhuǎn)型學(xué)習(xí)中铐望,偏好NLP方向

上一篇文章介紹了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等一系列概念,這篇文章將主要對AI的關(guān)鍵技術(shù)及應(yīng)用層面的內(nèi)容做個簡單的總結(jié)栖袋∨那辏考慮到篇幅可能過長,本文僅介紹計算機(jī)視覺相關(guān)技術(shù)塘幅,其他如自然語言處理昔案、專家系統(tǒng)、知識圖譜等技術(shù)會在下一篇文章中補(bǔ)充电媳。

一踏揣、AI產(chǎn)業(yè)結(jié)構(gòu)

本來打算把產(chǎn)業(yè)結(jié)構(gòu)放在最后一部分,后來考慮了一秒鐘匾乓,這篇文章會更加偏實際應(yīng)用捞稿,對人工智能產(chǎn)業(yè)鏈有一個宏觀的認(rèn)識可能更有幫助。下圖是一張關(guān)于人工智能產(chǎn)業(yè)生態(tài)的圖譜拼缝,很多機(jī)構(gòu)都做過類似的圖娱局,大同小異。技術(shù)層和應(yīng)用層是本文的主要內(nèi)容咧七,這里先對基礎(chǔ)層的內(nèi)容做個簡單介紹衰齐。

人工智能產(chǎn)業(yè)鏈圖譜

基礎(chǔ)層包括提供算力的高性能芯片、底層開源框架继阻、傳感器等耻涛,作為人工智能技術(shù)的底層支持。我們經(jīng)常聽到這樣一種說法瘟檩,這次人工智能的熱潮很大程度是基于三個領(lǐng)域的突破:大數(shù)據(jù)支持抹缕、算力的提升、算法的突破芒帕。這些都屬于基礎(chǔ)層的范疇歉嗓。

1、高性能處理器

高性能處理器:CPU背蟆、GPU鉴分、FPGA(半定制化的可編程電路)哮幢、TPU(一種ASIC,谷歌專門為機(jī)器學(xué)習(xí)打造的處理器)志珍。這部分的內(nèi)容盡管去百度橙垢,找不到算我輸。

下圖展示了CPU和GPU的結(jié)構(gòu)差別伦糯,綠色區(qū)域是計算單元柜某,橙色區(qū)域是儲存單元,“相對CPU而言敛纲,為什么GPU更適合用于機(jī)器學(xué)習(xí)”這個問題大家應(yīng)該能比較直觀的理解了喂击。

CPU和GPU計算能力區(qū)別

2、云服務(wù)

云服務(wù):Amazon ML淤翔、Google Cloud ML翰绊、Microsoft Azure ML、Databricks旁壮、Haven OnDemand监嗜、IBM Watson 和 Predictive Analytics、阿里云 ML抡谐、騰訊TML裁奇、百度BML

很多大廠都提供了各自的機(jī)器學(xué)習(xí)云平臺服務(wù),國外像Google/Amazon/Microsoft都是布局人工智能比較早的企業(yè),提供的服務(wù)相對更加成熟

相關(guān)閱讀:不可錯過的精彩回顧:6種云機(jī)器學(xué)習(xí)服務(wù)

3、開源庫或計算框架

開源庫或計算框架:TensorFlow(大名鼎鼎)坎弯、Torch(基于Lua語言)、Caffe(Facebook五垮,基于C++)、MXNET(Amazon杜秸,很強(qiáng)大)放仗、Keras(易于使用,黑箱子撬碟,適合新手)诞挨、PaddlePaddle(百度)、Theano呢蛤、sclikt-learn惶傻、Deeplearning4j(基于java語言)、Deepmat其障、Lasagne银室、Neon、Pylearn、Chainer蜈敢、Turicreate(Apple2017年推出)辜荠、PyTorch(Facebook)、CNTK (Microsoft)......

專用領(lǐng)域的開源庫:OpenCV抓狭、OpenFace(人臉識別)伯病、DarkNet-YOLO(物體檢測)......

各種開源框架數(shù)不勝數(shù),這里列舉了一些比較知名和用戶比較廣泛的框架否过,實際的項目也并不一定使用單一的框架午笛。

各個開源框架gitbuh數(shù)據(jù)對比(數(shù)據(jù)比較舊)

相關(guān)閱讀:主流深度學(xué)習(xí)框架對比

基礎(chǔ)層的內(nèi)容就介紹(搬運(yùn))到這里,其他還有如Decker容器苗桂、機(jī)器學(xué)習(xí)中的可視化解決方案等等概念感興趣的可以去了解一下药磺。

二、關(guān)鍵技術(shù)及應(yīng)用領(lǐng)域

人工智能的研究領(lǐng)域包括計算機(jī)視覺誉察、自然語言處理与涡、機(jī)器人、專家系統(tǒng)等持偏,。根據(jù)AI應(yīng)用范圍或發(fā)展層次可以分為專用人工智能(ANI)氨肌、通用人工智能(AGI)鸿秆、超級人工智能(ASI)三種,目前的AI還停留在專用人工智能的階段怎囚,這階段主要是通過感知和記憶存儲來實現(xiàn)特定領(lǐng)域或特定功能卿叽,如計算機(jī)視覺、語音識別恳守、智能推薦等等考婴,目前這些領(lǐng)域有較為成熟的成果。

通用人工智能催烘,一般指Agent基于認(rèn)知學(xué)習(xí)和決策執(zhí)行的能力沥阱,有一定的自我意識,能夠真正理解人類的情緒語言伊群,實現(xiàn)多個領(lǐng)域的綜合智能考杉。

超級人工智能,定義為具有完整的自我意識舰始,獨立的價值觀世界觀崇棠,能夠自我創(chuàng)新,甚至超過人類丸卷。這種AI層次僅停留在想象中枕稀。

可以預(yù)見的是,在由專業(yè)領(lǐng)域向通用領(lǐng)域過度的過程中,自然語言處理與計算機(jī)視覺兩個方向?qū)蔀槿斯ぶ悄芡ㄓ脩?yīng)用最大的兩個突破口萎坷。”(極客公園)

目前深度學(xué)習(xí)在自然語言處理和計算機(jī)規(guī)覺領(lǐng)域已取得重大的進(jìn)展范抓,其中語音識別、 圖像識別已達(dá)到商業(yè)化的成都食铐。在各類比賽中匕垫,圖像識別和語音識別錯誤率達(dá)到甚至超過人類水平。

1虐呻、計算機(jī)視覺領(lǐng)域(Computer Vision)

首先對區(qū)分這三個概念:計算機(jī)視覺象泵、機(jī)器視覺、圖像處理

計算機(jī)視覺:指對圖像進(jìn)行數(shù)據(jù)采集后提取出圖像的特征斟叼,一般處理的圖像的數(shù)據(jù)量很大偶惠,偏軟件層;

機(jī)器視覺:處理的圖像一般不大朗涩,采集圖像數(shù)據(jù)后僅進(jìn)行較低數(shù)據(jù)流的計算忽孽,偏硬件層,多用于工業(yè)機(jī)器人谢床、工業(yè)檢測等兄一;

圖像處理:對圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換變形,方式包括降噪识腿、出革、傅利葉變換、小波分析等渡讼,圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮骂束,增強(qiáng)和復(fù)原,匹配成箫、描述和識別3個部分展箱。

計算機(jī)視覺是指利用計算機(jī)來模擬人的視覺,是人工智能中的“看”蹬昌。從技術(shù)流程上來說混驰,分為目標(biāo)檢測、目標(biāo)識別凳厢、行為識別三個部分账胧。根據(jù)識別的目標(biāo)種類可以分為圖像識別、物體識別先紫、人臉識別治泥、文字識別等。在智能機(jī)器人領(lǐng)域遮精,計算機(jī)視覺可以對靜態(tài)圖片或動態(tài)視頻中的物體進(jìn)行特征提取居夹、識別和分析败潦,從而為后續(xù)的動作和行為提供關(guān)鍵的信息。

近年來准脂,基于計算機(jī)視覺的智能視頻監(jiān)控和身份識別等市場逐漸成熟擴(kuò)大劫扒,計算機(jī)視覺的技術(shù)和應(yīng)用趨于成熟,廣泛應(yīng)用于制造狸膏、 安檢沟饥、圖像檢索、醫(yī)療影像分析湾戳、人機(jī)交互等領(lǐng)域贤旷。

下圖展示了計算機(jī)視覺的技術(shù)分類,基本上可以分為靜態(tài)內(nèi)容識別和動態(tài)內(nèi)容識別兩大類砾脑,實際上在國內(nèi)計算機(jī)視覺領(lǐng)域幼驶,動靜態(tài)圖像識別和人臉識別是主要研究和應(yīng)用方向。當(dāng)然很多應(yīng)用需要計算機(jī)視覺和其他關(guān)鍵AI技術(shù)相結(jié)合韧衣,比如AR/VR的主要技術(shù)是人機(jī)交互和計算機(jī)視覺盅藻。

計算機(jī)視覺應(yīng)用場景

常用技術(shù)分類

1.1圖像特征提取與描述

特征提取是很多CV技術(shù)的前置操作,比如判斷兩幅頭像是否是同一個人畅铭,計算機(jī)根據(jù)圖像的某些局部特征氏淑,如邊緣和線條的特征。

1圖像特征種類

圖像的顏色特征顶瞒、紋理特征夸政、形狀特征、空間關(guān)系特征(應(yīng)用于機(jī)器人的姿態(tài)識別問題榴徐,確定一個三維物體的方位等)、局部特征

圖像特征描述

圖像特征描述的一個核心就是魯棒性(robust匀归,這個詞大家肯定聽過吧坑资,出場率極高)和可區(qū)分性,而這兩點常常是矛盾的穆端。

魯棒性是指一個特征應(yīng)該適用于不同的圖像變換情況袱贮,這就要求這個特征比較“粗糙”,例如一個茶杯從上方看和從側(cè)面看都應(yīng)該是同一個茶杯体啰≡芪。可區(qū)分性是指,能夠區(qū)分一些比較相似的局部特征荒勇,顯然其魯棒性往往比較低柒莉。

相關(guān)閱讀:局部圖像特征描述總結(jié)

1.2圖像分類

大家在新聞上肯定看到過這些比賽——ImageNet(李飛飛創(chuàng)立)、Kaggle沽翔、MSCOCC兢孝、阿里天池等等(以及ILSVRC窿凤、PASCAL VOC 2012),這些比賽的常設(shè)項目一般為不同領(lǐng)域下的圖像識別分類與場景分類跨蟹,此外還有一些物體探測追蹤之類的雳殊。(這些比賽一般使用【top-5錯誤率】的高低來衡量算法的優(yōu)異,有興趣的可以去了解一下)

常用算法:卷積神經(jīng)網(wǎng)絡(luò)CNN

常用神經(jīng)網(wǎng)絡(luò)模型:AlexNet窗轩、 VGG夯秃、 GoogLeNet、 ResNet)

1.2.1圖像分類(Image Classification)

根據(jù)圖像正反映出的不同特征痢艺,依照特征把圖片分類仓洼。顯然分類技術(shù)有基于色彩的、基于紋理的腹备、基于形狀的衬潦、基于空間關(guān)系的。

舉個栗子植酥,錘子手機(jī)的有個桌面整理的功能镀岛,把顏色相似的圖片分類到一屏,這里應(yīng)用了基于顏色的圖像分類技術(shù)友驮。

1.2.2場景分類(Scene Classification)

場景分類:基于對象(根據(jù)場景中出現(xiàn)的對象區(qū)分漂羊,例如出現(xiàn)床可能是臥室)、基于區(qū)域卸留、基于上下文走越、基于Gist特征

推薦一篇相關(guān)文章:基于深度學(xué)習(xí)的場景分類算法

三種場景分類的方法

從上面這張圖可以大概了解場景分類大概的流程,當(dāng)然前提得了解pooling耻瑟、feature descriptors這些詞的含義(在后續(xù)介紹CNN/RNN的文章里會詳細(xì)描述)旨指。上圖來源文章:場景分類摘錄

1.3圖像檢測(Image Detection)

圖像檢測是通過獲取和分析圖像特征,從圖像中定位出預(yù)設(shè)的目標(biāo)喳整,并準(zhǔn)確判斷目標(biāo)物體的類別谆构,最后給出目標(biāo)的邊界,邊界一般是矩形框都,不過也有圓形的情況搬素,下圖是一個人臉檢測的示例。

一個人臉檢測的示例

常用算法:區(qū)域卷積神經(jīng)網(wǎng)絡(luò)/R-CNN

常用神經(jīng)網(wǎng)絡(luò)模型:SPPnet魏保、Fast R-CNN熬尺、Faster R-CNN、R-FCN

圖像檢測應(yīng)用領(lǐng)域:人臉識別谓罗、醫(yī)學(xué)影像粱哼、智能視頻監(jiān)控、機(jī)器人導(dǎo)航妥衣、基于內(nèi)容的圖像檢索皂吮、基于圖像的繪制技術(shù)戒傻、圖像編輯和增強(qiáng)現(xiàn)實等領(lǐng)域。(百度百科)

1.3.1物體檢測(Object Detection & Localization)

物件檢測分為靜態(tài)物體檢測和動態(tài)物體檢測蜂筹,并且其一般和物體分類算法結(jié)合需纳,多應(yīng)用于安防領(lǐng)域(行人檢測、智能視頻分析艺挪、行人跟蹤)不翩、交通領(lǐng)域(交通場景的物體識別、車輛計數(shù)麻裳、逆行檢測口蝠、車牌檢測和識別)、互聯(lián)網(wǎng)領(lǐng)域(圖像檢測津坑、相冊自動歸類)妙蔗。

下圖展示了當(dāng)前物體檢測技術(shù)的一些應(yīng)用難點,包括圖片的復(fù)雜光照情況疆瑰、非剛性物體形變(人眉反、動物的各種姿勢)、低分辨率穆役、圖片模糊(商湯科技對此有比較好的處理技術(shù))等

物體檢測技術(shù)難點(圖片來自論文:圖像物體分類與檢測算法綜述)

這篇文章較為系統(tǒng)的介紹了一些檢查算法的實現(xiàn)原理寸五,推薦閱讀:干貨 | 物體檢測算法全概述:從傳統(tǒng)檢測方法到深度神經(jīng)網(wǎng)絡(luò)框架

1.3.2行人檢測(Pedestrian Detection)

行人檢測,顧名思義就是將圖片中的行人檢測出來耿币,并輸出目標(biāo)邊界梳杏,并且檢測的常常是多個行人目標(biāo)。將一個視頻流中的行人的軌跡關(guān)聯(lián)起來淹接,就是行人跟蹤十性,多個目標(biāo)即多人跟蹤。另外一個應(yīng)用稱為行人檢索塑悼,或行人再識別烁试,即給定一個待檢索行人,從圖集或視頻中找到拢肆。(城市里處處攝像頭,天網(wǎng)恢恢熬甘)

行人檢測應(yīng)用領(lǐng)域:人工智能系統(tǒng)郭怪、車輛輔助駕駛系統(tǒng)、智能機(jī)器人刊橘、智能視頻監(jiān)控鄙才、人體行為分析、智能交通等領(lǐng)域促绵。(百度百科)

相關(guān)閱讀:行人檢測(Pedestrian Detection)資源攒庵、行人檢測(看了一圈嘴纺,還是百科說得最清楚)

1.3.3人臉檢測&人臉識別(Face Detection &Recognition)

人臉檢測是人臉識別中的一個關(guān)鍵環(huán)節(jié),人臉檢測指對于一副給定的圖像浓冒,采用一定的策略對其分析搜索確定其中是否含有人臉栽渴,若有人臉則返回人臉邊界,以及大小稳懒、姿態(tài)等信息闲擦。

應(yīng)用領(lǐng)域:身份認(rèn)證與安全防護(hù)(很多app有實人認(rèn)證)、媒體娛樂(火過一陣子的小偶app)场梆、圖像搜索等墅冷。

實人認(rèn)證示例圖
小偶app,根據(jù)照片制作一個3D人偶

人臉檢測是圖像檢測中的一種或油,方法基本類似寞忿,主要分為六個步驟:預(yù)處理、窗口滑動顶岸、特征提取腔彰、特征選擇、特征分類和后處理(挖個坑蜕琴,這部分后續(xù)會詳細(xì)介紹)

這里插播一句題外話萍桌,去年的十月份,CNN的創(chuàng)始人發(fā)了一篇關(guān)于Capsule Networks(膠囊網(wǎng)絡(luò))的論文凌简,大有取代CNN之勢上炎。而目前為止,CNNs仍是圖像檢測分類領(lǐng)域最先進(jìn)的方法雏搂,不過有時候也會出現(xiàn)一些不可描述的問題藕施,比如下圖:

一個CNN圖像識別的例子

不用細(xì)說,大家應(yīng)該也大概知道是什么情況了凸郑∩咽常可以這樣(不嚴(yán)謹(jǐn)?shù)模├斫猓珻NN是由多層的神經(jīng)網(wǎng)絡(luò)組成芙沥,每一層的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)識別一類特征诲祸,比如目標(biāo)是識別人臉,可能一層負(fù)責(zé)識別眼睛的特征而昨,一層負(fù)責(zé)識別嘴巴的特征救氯,多層神經(jīng)網(wǎng)絡(luò)累加起來就會形成一個整體的特征,但是CNN對多個特征之間的空間關(guān)系并不能很好的識別歌憨,因此就有了上圖這樣的例子着憨。(關(guān)于識別特征這塊,有一個分類器的概念务嫡,感興趣的可以去了解一下Haar特征甲抖、VJ模型和adaboost分類器

人臉識別應(yīng)該是目前計算機(jī)視覺領(lǐng)域商業(yè)化應(yīng)用落地比較成熟的例子漆改,下面是我搜集到的一張關(guān)于人臉識別的一些應(yīng)用領(lǐng)域情況腦圖,需要的可以收藏准谚。圖不太清楚挫剑,找不到來源網(wǎng)站,如果有知道的朋友可以評論留言我再加上氛魁。

人臉識別應(yīng)用領(lǐng)域

1.4圖像分割(Image Segmentation)

圖像分割指把圖像分成若干個特定的暮顺、居右獨特性質(zhì)的的區(qū)域并提出感興趣目標(biāo)的技術(shù)。現(xiàn)有的圖像分割技術(shù)主要分為以下幾類:基于閾值秀存、基于區(qū)域捶码、基于邊緣和基于特定理論的分割方法。圖像分割是將數(shù)字圖像劃分為幾個互不相交的區(qū)域或链,也是一種標(biāo)注的過程惫恼,即把屬于同一區(qū)域的像素給與相同的標(biāo)簽。(百度百科)

這么說可能難以理解澳盐,下圖是自動駕駛領(lǐng)域的一個應(yīng)用示例祈纯,自動駕駛系統(tǒng)需要從場景中識別出各類物體,并根據(jù)先驗知識叼耙,即預(yù)設(shè)好的條件進(jìn)行判斷腕窥,如應(yīng)該在road區(qū)域行駛、遇到Pedestrian和Vehicle區(qū)域應(yīng)該減速或停車筛婉、識別Traffic Light區(qū)域的含義等等簇爆。

圖像分割在自動駕駛領(lǐng)域的應(yīng)用

圖像分割技術(shù)下有三個比較常見的分支——視覺顯著性檢測、物體分割爽撒、語義分割入蛆。

1.4.1視覺顯著性檢測(Visual Saliency Detection)

視覺顯著性檢測指通過算法模擬人的視覺特點,提取圖像中可能是人類感興趣的區(qū)域硕勿,及顯著區(qū)域哨毁。

這里涉及到另一個概念,視覺注意機(jī)制(Visual Attention Mechanism)源武,即面對一個場景時扼褪,人類自動對感興趣區(qū)域進(jìn)行處理而自動忽略不顯著的區(qū)域。

顯著性檢測圖示

人的視覺注意有兩種策略機(jī)制:

自下而上粱栖、基于數(shù)據(jù)驅(qū)動的注意機(jī)制:收感知數(shù)據(jù)驅(qū)動迎捺,將人的視覺重點引導(dǎo)至場景中的顯著區(qū)域,這些區(qū)域通常與周圍有較強(qiáng)的對比度或與周圍有明顯的區(qū)別查排,包括顏色、形狀抄沮、亮度等特征跋核。比如一副黑色圖片中的一個白點岖瑰,視覺自然而然的會被引導(dǎo)至白點。

自上而下砂代、基于任務(wù)驅(qū)動的蹋订、基于目標(biāo)的注意機(jī)制:有根據(jù)先驗知識、預(yù)期和當(dāng)前的目標(biāo)來計算圖像的顯著性區(qū)域刻伊。在視頻中找到人露戒,就是一個任務(wù)驅(qū)動的行為。

關(guān)于認(rèn)知注意模型等內(nèi)容捶箱,參考這篇文章:視覺顯著性檢測

關(guān)于注意力流等內(nèi)容智什,可以去關(guān)注張江博士,他的書《科學(xué)的極致:漫談人工智能》中有幾章對注意力機(jī)制的描述丁屎,比較直觀易懂荠锭。

1.4.2物體分割(Object Segmentation)

物體分割一般是用于把單張圖片中的一個或多個物體分割出來,物體分割常常和物體識別共同使用晨川。相比于物體檢測只能返回一個矩形邊界证九,物體分割算法可以精確的描繪出所有物體的輪廓,從像素成眠上把各個物體分割出來共虑。

常用算法:Mask R-CNN

下圖展示了物體分割的輸出效果愧怜,基本上可以實現(xiàn)把圖片中的物體的輪廓描繪出來。(設(shè)計師再也不用辛苦的摳圖了...)

物體分割效果圖

1.4.3語義分割/Semantic Segmentation

圖像語義分割妈拌,也成為語義標(biāo)注拥坛,簡單而言就是給定一張圖片,對圖片上的每一個像素點分類供炎,不區(qū)分物體渴逻,盡關(guān)心像素。

那么它與物體分割有什么不同呢音诫?語義分割重在語義惨奕,即圖像中同一個類別的物體將會被劃分至同一個區(qū)域,如下右圖有兩只牛竭钝,其都被劃分至cow區(qū)域梨撞;而上圖中可以看到,多個人或摩托車都被單獨的區(qū)分開來香罐。

語義分割效果圖

1.5圖像描述(Image Captioning)

(圖說)圖像描述也稱為Dense Captioning卧波,其目標(biāo)是在給定一張圖像的情況下,得到圖像中各個部分的自然語言描述庇茫。圖像描述問題融合了計算機(jī)視覺和自然語言處理兩大方向港粱,是AI解決多模式跨領(lǐng)域問題的典型技術(shù)。與英文相比,中文的描述常常在句法詞法的組合上更加靈活查坪,算法的挑戰(zhàn)也更大寸宏。

假設(shè)我們有一個很大的數(shù)據(jù)庫,每條記錄是圖像以及它對應(yīng)的語句描述偿曙。每條語句的詞匯片段其實對應(yīng)了一些特定的但是未知的圖像區(qū)域氮凝。我們的方法是推斷出這些詞匯片段和圖像區(qū)域的對應(yīng)關(guān)系,然后使用他們來生成一個泛化的語言描述模型望忆。

常用算法:Vanilla-RNN罩阵、LSTM、GRU

圖像描述示例

相關(guān)閱讀:【圖像理解】自動生成圖像的文本描述

1.5.1圖像標(biāo)注

圖像標(biāo)注是從根據(jù)一幅圖自動生成一段描述性的文字启摄,小時候的“看圖說話”稿壁。圖像描述需要把圖像中各個物體均生成描述,而圖像標(biāo)注只對圖片整體進(jìn)行描述鞋仍。

圖像標(biāo)注技術(shù)一般分為典型的圖像標(biāo)注和基于注意力的圖像標(biāo)注常摧。

圖像標(biāo)注示例

相關(guān)閱讀:看圖說話的AI小朋友——圖像標(biāo)注趣談(上)「Show and Tell」——圖像標(biāo)注(Image Caption)任務(wù)技術(shù)綜述

1.6圖像問答(Image Question Answering)

圖像問答即回答與圖片內(nèi)容相關(guān)的問題威创,輸入圖片及問題落午,系統(tǒng)輸出答案。15年的時候有一個新聞不知道大家知不知道肚豺,李彥宏首次向世界展示百度最新Image QA圖文問答技術(shù)溃斋,也就是下圖。新聞鏈接

圖像問答示例

圖像問答結(jié)合了注意力機(jī)制及外部知識庫后吸申,識別能力能夠有顯著的提升梗劫。

與圖像描述類似,圖像問答同樣是結(jié)合計算機(jī)視覺與自然語言處理技術(shù)的一種應(yīng)用截碴,下圖展示了兩者之間的差異梳侨。

圖像問答和圖像描述

1.7圖像生成(Image Generation)

這大概是這篇文章最好理解的概念了,圖像生成——根據(jù)一定的條件生成圖像日丹。比如上篇文章提到的prisma走哺,根據(jù)預(yù)設(shè)的風(fēng)格和圖片生成一張全新的圖片,這中間就是應(yīng)用了圖像生成的技術(shù)哲虾。?

使用GAN(對抗生成網(wǎng)絡(luò))來做圖像生成丙躏,目前是最流行也是最熱門的領(lǐng)域。當(dāng)然束凑,也可以使用MRF(馬爾科夫隨機(jī)場)晒旅、CNN來進(jìn)行圖像生成。

GAN也可以用于根據(jù)一段文本描述來生成圖像汪诉,或根據(jù)一段簡筆畫來生成圖像等等废恋。

相關(guān)閱讀:GAN之根據(jù)文本描述生成圖像【實戰(zhàn)】GAN網(wǎng)絡(luò)圖像翻譯機(jī):圖像復(fù)原、模糊變清晰拴签、素描變彩圖

注意啦P⒊!!蚓哩!推薦大家一個好玩的網(wǎng)站(Demo),大家可以體驗一下上渴,通過一副簡筆畫來生成一幅完整的圖像岸梨。

簡筆畫生成一只貓??

模糊圖像復(fù)原也是圖像生成領(lǐng)域的重要應(yīng)用,對于各種原因造成的模糊稠氮,均有較好的恢復(fù)效果曹阔,如運(yùn)動模糊、抖動模糊等隔披。

從左到右:原圖像赃份、模糊化后的圖像和通過模型清晰化的圖像d

1.8圖像檢索(Content-based Image Retrieval)

圖像檢索大概也是大家用得很多的功能吧,google奢米、百度這些搜索引擎基本都支持以圖搜圖抓韩。圖像檢索的研究始于上世紀(jì)70年代,當(dāng)時主要是基于文本的圖像檢索技術(shù)(Text-based Image Retrieval)鬓长,而目前則是基于內(nèi)容檢索(Content-based Retrieval)谒拴。

在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索涉波,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化英上,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面啤覆,收集和加工圖像資源苍日,提取特征,分析并進(jìn)行標(biāo)引窗声,建立圖像的索引數(shù)據(jù)庫相恃;最后一方面是根據(jù)相似度算法,計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小嫌佑,提取出滿足閾值的記錄作為結(jié)果豆茫,按照相似度降序的方式輸出。(百度百科)

特別說明:本章節(jié)中部分示例圖片摘選自coldyan的博客

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末屋摇,一起剝皮案震驚了整個濱河市揩魂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌炮温,老刑警劉巖火脉,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡倦挂,警方通過查閱死者的電腦和手機(jī)畸颅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來方援,“玉大人没炒,你說我怎么就攤上這事》赶罚” “怎么了送火?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長先匪。 經(jīng)常有香客問我种吸,道長,這世上最難降的妖魔是什么呀非? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任坚俗,我火速辦了婚禮,結(jié)果婚禮上岸裙,老公的妹妹穿的比我還像新娘猖败。我一直安慰自己,他們只是感情好哥桥,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布辙浑。 她就那樣靜靜地躺著,像睡著了一般拟糕。 火紅的嫁衣襯著肌膚如雪判呕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天送滞,我揣著相機(jī)與錄音侠草,去河邊找鬼。 笑死犁嗅,一個胖子當(dāng)著我的面吹牛边涕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播褂微,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼功蜓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了宠蚂?” 一聲冷哼從身側(cè)響起式撼,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎求厕,沒想到半個月后著隆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扰楼,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年美浦,在試婚紗的時候發(fā)現(xiàn)自己被綠了弦赖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡浦辨,死狀恐怖蹬竖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情流酬,我是刑警寧澤案腺,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站康吵,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏访递。R本人自食惡果不足惜晦嵌,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一火窒、第九天 我趴在偏房一處隱蔽的房頂上張望搏熄。 院中可真熱鬧,春花似錦准给、人聲如沸响巢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽踪古。三九已至含长,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伏穆,已是汗流浹背拘泞。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留枕扫,地道東北人陪腌。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像烟瞧,于是被迫代替她去往敵國和親诗鸭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容