AI產(chǎn)品經(jīng)理知識系列（2）——AI產(chǎn)業(yè)結(jié)構(gòu)及計算機(jī)視覺相關(guān)技術(shù)

作者：Rockelbel，兩年互聯(lián)網(wǎng)PM嘹承，AI轉(zhuǎn)型學(xué)習(xí)中铐望，偏好NLP方向

上一篇文章介紹了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等一系列概念，這篇文章將主要對AI的關(guān)鍵技術(shù)及應(yīng)用層面的內(nèi)容做個簡單的總結(jié)栖袋∨那辏考慮到篇幅可能過長，本文僅介紹計算機(jī)視覺相關(guān)技術(shù)塘幅，其他如自然語言處理昔案、專家系統(tǒng)、知識圖譜等技術(shù)會在下一篇文章中補(bǔ)充电媳。

一踏揣、AI產(chǎn)業(yè)結(jié)構(gòu)

本來打算把產(chǎn)業(yè)結(jié)構(gòu)放在最后一部分，后來考慮了一秒鐘匾乓，這篇文章會更加偏實際應(yīng)用捞稿，對人工智能產(chǎn)業(yè)鏈有一個宏觀的認(rèn)識可能更有幫助。下圖是一張關(guān)于人工智能產(chǎn)業(yè)生態(tài)的圖譜拼缝，很多機(jī)構(gòu)都做過類似的圖娱局，大同小異。技術(shù)層和應(yīng)用層是本文的主要內(nèi)容咧七，這里先對基礎(chǔ)層的內(nèi)容做個簡單介紹衰齐。

人工智能產(chǎn)業(yè)鏈圖譜

基礎(chǔ)層包括提供算力的高性能芯片、底層開源框架继阻、傳感器等耻涛，作為人工智能技術(shù)的底層支持。我們經(jīng)常聽到這樣一種說法瘟檩，這次人工智能的熱潮很大程度是基于三個領(lǐng)域的突破：大數(shù)據(jù)支持抹缕、算力的提升、算法的突破芒帕。這些都屬于基礎(chǔ)層的范疇歉嗓。

1、高性能處理器

高性能處理器：CPU背蟆、GPU鉴分、FPGA（半定制化的可編程電路）哮幢、TPU（一種ASIC，谷歌專門為機(jī)器學(xué)習(xí)打造的處理器）志珍。這部分的內(nèi)容盡管去百度橙垢，找不到算我輸。

下圖展示了CPU和GPU的結(jié)構(gòu)差別伦糯，綠色區(qū)域是計算單元柜某，橙色區(qū)域是儲存單元，“相對CPU而言敛纲，為什么GPU更適合用于機(jī)器學(xué)習(xí)”這個問題大家應(yīng)該能比較直觀的理解了喂击。

CPU和GPU計算能力區(qū)別

2、云服務(wù)

云服務(wù)：Amazon ML淤翔、Google Cloud ML翰绊、Microsoft Azure ML、Databricks旁壮、Haven OnDemand监嗜、IBM Watson 和 Predictive Analytics、阿里云 ML抡谐、騰訊TML裁奇、百度BML

很多大廠都提供了各自的機(jī)器學(xué)習(xí)云平臺服務(wù)，國外像Google/Amazon/Microsoft都是布局人工智能比較早的企業(yè)，提供的服務(wù)相對更加成熟

3、開源庫或計算框架

開源庫或計算框架：TensorFlow（大名鼎鼎）坎弯、Torch（基于Lua語言）、Caffe（Facebook五垮，基于C++）、MXNET（Amazon杜秸，很強(qiáng)大）放仗、Keras（易于使用，黑箱子撬碟，適合新手）诞挨、PaddlePaddle（百度）、Theano呢蛤、sclikt-learn惶傻、Deeplearning4j（基于java語言）、Deepmat其障、Lasagne银室、Neon、Pylearn、Chainer蜈敢、Turicreate（Apple2017年推出）辜荠、PyTorch（Facebook）、CNTK (Microsoft)......

專用領(lǐng)域的開源庫：OpenCV抓狭、OpenFace（人臉識別）伯病、DarkNet-YOLO（物體檢測）......

各種開源框架數(shù)不勝數(shù)，這里列舉了一些比較知名和用戶比較廣泛的框架否过，實際的項目也并不一定使用單一的框架午笛。

各個開源框架gitbuh數(shù)據(jù)對比（數(shù)據(jù)比較舊）

相關(guān)閱讀：主流深度學(xué)習(xí)框架對比

基礎(chǔ)層的內(nèi)容就介紹（搬運(yùn)）到這里，其他還有如Decker容器苗桂、機(jī)器學(xué)習(xí)中的可視化解決方案等等概念感興趣的可以去了解一下药磺。

二、關(guān)鍵技術(shù)及應(yīng)用領(lǐng)域

人工智能的研究領(lǐng)域包括計算機(jī)視覺誉察、自然語言處理与涡、機(jī)器人、專家系統(tǒng)等持偏，。根據(jù)AI應(yīng)用范圍或發(fā)展層次可以分為專用人工智能（ANI）氨肌、通用人工智能（AGI）鸿秆、超級人工智能（ASI）三種，目前的AI還停留在專用人工智能的階段怎囚，這階段主要是通過感知和記憶存儲來實現(xiàn)特定領(lǐng)域或特定功能卿叽，如計算機(jī)視覺、語音識別恳守、智能推薦等等考婴，目前這些領(lǐng)域有較為成熟的成果。

通用人工智能催烘，一般指Agent基于認(rèn)知學(xué)習(xí)和決策執(zhí)行的能力沥阱，有一定的自我意識，能夠真正理解人類的情緒語言伊群，實現(xiàn)多個領(lǐng)域的綜合智能考杉。

超級人工智能，定義為具有完整的自我意識舰始，獨立的價值觀世界觀崇棠，能夠自我創(chuàng)新，甚至超過人類丸卷。這種AI層次僅停留在想象中枕稀。

“可以預(yù)見的是，在由專業(yè)領(lǐng)域向通用領(lǐng)域過度的過程中，自然語言處理與計算機(jī)視覺兩個方向?qū)蔀槿斯ぶ悄芡ㄓ脩?yīng)用最大的兩個突破口萎坷。”（極客公園）

目前深度學(xué)習(xí)在自然語言處理和計算機(jī)規(guī)覺領(lǐng)域已取得重大的進(jìn)展范抓，其中語音識別、圖像識別已達(dá)到商業(yè)化的成都食铐。在各類比賽中匕垫，圖像識別和語音識別錯誤率達(dá)到甚至超過人類水平。

1虐呻、計算機(jī)視覺領(lǐng)域（Computer Vision）

首先對區(qū)分這三個概念：計算機(jī)視覺象泵、機(jī)器視覺、圖像處理

計算機(jī)視覺：指對圖像進(jìn)行數(shù)據(jù)采集后提取出圖像的特征斟叼，一般處理的圖像的數(shù)據(jù)量很大偶惠，偏軟件層；

機(jī)器視覺：處理的圖像一般不大朗涩，采集圖像數(shù)據(jù)后僅進(jìn)行較低數(shù)據(jù)流的計算忽孽，偏硬件層，多用于工業(yè)機(jī)器人谢床、工業(yè)檢測等兄一；

圖像處理：對圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換變形，方式包括降噪识腿、出革、傅利葉變換、小波分析等渡讼，圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮骂束，增強(qiáng)和復(fù)原，匹配成箫、描述和識別3個部分展箱。

計算機(jī)視覺是指利用計算機(jī)來模擬人的視覺，是人工智能中的“看”蹬昌。從技術(shù)流程上來說混驰，分為目標(biāo)檢測、目標(biāo)識別凳厢、行為識別三個部分账胧。根據(jù)識別的目標(biāo)種類可以分為圖像識別、物體識別先紫、人臉識別治泥、文字識別等。在智能機(jī)器人領(lǐng)域遮精，計算機(jī)視覺可以對靜態(tài)圖片或動態(tài)視頻中的物體進(jìn)行特征提取居夹、識別和分析败潦，從而為后續(xù)的動作和行為提供關(guān)鍵的信息。

近年來准脂，基于計算機(jī)視覺的智能視頻監(jiān)控和身份識別等市場逐漸成熟擴(kuò)大劫扒，計算機(jī)視覺的技術(shù)和應(yīng)用趨于成熟，廣泛應(yīng)用于制造狸膏、安檢沟饥、圖像檢索、醫(yī)療影像分析湾戳、人機(jī)交互等領(lǐng)域贤旷。

下圖展示了計算機(jī)視覺的技術(shù)分類，基本上可以分為靜態(tài)內(nèi)容識別和動態(tài)內(nèi)容識別兩大類砾脑，實際上在國內(nèi)計算機(jī)視覺領(lǐng)域幼驶，動靜態(tài)圖像識別和人臉識別是主要研究和應(yīng)用方向。當(dāng)然很多應(yīng)用需要計算機(jī)視覺和其他關(guān)鍵AI技術(shù)相結(jié)合韧衣，比如AR/VR的主要技術(shù)是人機(jī)交互和計算機(jī)視覺盅藻。

計算機(jī)視覺應(yīng)用場景

常用技術(shù)分類

1.1圖像特征提取與描述

特征提取是很多CV技術(shù)的前置操作，比如判斷兩幅頭像是否是同一個人畅铭，計算機(jī)根據(jù)圖像的某些局部特征氏淑，如邊緣和線條的特征。

1圖像特征種類

圖像的顏色特征顶瞒、紋理特征夸政、形狀特征、空間關(guān)系特征（應(yīng)用于機(jī)器人的姿態(tài)識別問題榴徐，確定一個三維物體的方位等）、局部特征

圖像特征描述

圖像特征描述的一個核心就是魯棒性（robust匀归，這個詞大家肯定聽過吧坑资，出場率極高）和可區(qū)分性，而這兩點常常是矛盾的穆端。

魯棒性是指一個特征應(yīng)該適用于不同的圖像變換情況袱贮，這就要求這個特征比較“粗糙”，例如一個茶杯從上方看和從側(cè)面看都應(yīng)該是同一個茶杯体啰≡芪。可區(qū)分性是指，能夠區(qū)分一些比較相似的局部特征荒勇，顯然其魯棒性往往比較低柒莉。

相關(guān)閱讀：局部圖像特征描述總結(jié)

1.2圖像分類

大家在新聞上肯定看到過這些比賽——ImageNet（李飛飛創(chuàng)立）、Kaggle沽翔、MSCOCC兢孝、阿里天池等等（以及ILSVRC窿凤、PASCAL VOC 2012），這些比賽的常設(shè)項目一般為不同領(lǐng)域下的圖像識別分類與場景分類跨蟹，此外還有一些物體探測追蹤之類的雳殊。（這些比賽一般使用【top-5錯誤率】的高低來衡量算法的優(yōu)異，有興趣的可以去了解一下）

常用算法：卷積神經(jīng)網(wǎng)絡(luò)CNN

常用神經(jīng)網(wǎng)絡(luò)模型：AlexNet窗轩、 VGG夯秃、 GoogLeNet、 ResNet）

1.2.1圖像分類（Image Classification）

根據(jù)圖像正反映出的不同特征痢艺，依照特征把圖片分類仓洼。顯然分類技術(shù)有基于色彩的、基于紋理的腹备、基于形狀的衬潦、基于空間關(guān)系的。

舉個栗子植酥，錘子手機(jī)的有個桌面整理的功能镀岛，把顏色相似的圖片分類到一屏，這里應(yīng)用了基于顏色的圖像分類技術(shù)友驮。

1.2.2場景分類（Scene Classification）

場景分類：基于對象（根據(jù)場景中出現(xiàn)的對象區(qū)分漂羊，例如出現(xiàn)床可能是臥室）、基于區(qū)域卸留、基于上下文走越、基于Gist特征

推薦一篇相關(guān)文章：基于深度學(xué)習(xí)的場景分類算法

三種場景分類的方法

從上面這張圖可以大概了解場景分類大概的流程，當(dāng)然前提得了解pooling耻瑟、feature descriptors這些詞的含義（在后續(xù)介紹CNN/RNN的文章里會詳細(xì)描述）旨指。上圖來源文章：場景分類摘錄

1.3圖像檢測（Image Detection）

圖像檢測是通過獲取和分析圖像特征，從圖像中定位出預(yù)設(shè)的目標(biāo)喳整，并準(zhǔn)確判斷目標(biāo)物體的類別谆构，最后給出目標(biāo)的邊界，邊界一般是矩形框都，不過也有圓形的情況搬素，下圖是一個人臉檢測的示例。

一個人臉檢測的示例

常用算法：區(qū)域卷積神經(jīng)網(wǎng)絡(luò)/R-CNN

常用神經(jīng)網(wǎng)絡(luò)模型：SPPnet魏保、Fast R-CNN熬尺、Faster R-CNN、R-FCN

圖像檢測應(yīng)用領(lǐng)域：人臉識別谓罗、醫(yī)學(xué)影像粱哼、智能視頻監(jiān)控、機(jī)器人導(dǎo)航妥衣、基于內(nèi)容的圖像檢索皂吮、基于圖像的繪制技術(shù)戒傻、圖像編輯和增強(qiáng)現(xiàn)實等領(lǐng)域。（百度百科）

1.3.1物體檢測（Object Detection & Localization）

物件檢測分為靜態(tài)物體檢測和動態(tài)物體檢測蜂筹，并且其一般和物體分類算法結(jié)合需纳，多應(yīng)用于安防領(lǐng)域（行人檢測、智能視頻分析艺挪、行人跟蹤）不翩、交通領(lǐng)域（交通場景的物體識別、車輛計數(shù)麻裳、逆行檢測口蝠、車牌檢測和識別）、互聯(lián)網(wǎng)領(lǐng)域（圖像檢測津坑、相冊自動歸類）妙蔗。

下圖展示了當(dāng)前物體檢測技術(shù)的一些應(yīng)用難點，包括圖片的復(fù)雜光照情況疆瑰、非剛性物體形變（人眉反、動物的各種姿勢）、低分辨率穆役、圖片模糊（商湯科技對此有比較好的處理技術(shù)）等

物體檢測技術(shù)難點（圖片來自論文：圖像物體分類與檢測算法綜述）

這篇文章較為系統(tǒng)的介紹了一些檢查算法的實現(xiàn)原理寸五，推薦閱讀：干貨 | 物體檢測算法全概述：從傳統(tǒng)檢測方法到深度神經(jīng)網(wǎng)絡(luò)框架

1.3.2行人檢測（Pedestrian Detection）

行人檢測，顧名思義就是將圖片中的行人檢測出來耿币，并輸出目標(biāo)邊界梳杏，并且檢測的常常是多個行人目標(biāo)。將一個視頻流中的行人的軌跡關(guān)聯(lián)起來淹接，就是行人跟蹤十性，多個目標(biāo)即多人跟蹤。另外一個應(yīng)用稱為行人檢索塑悼，或行人再識別烁试，即給定一個待檢索行人，從圖集或視頻中找到拢肆。（城市里處處攝像頭，天網(wǎng)恢恢熬甘）

行人檢測應(yīng)用領(lǐng)域：人工智能系統(tǒng)郭怪、車輛輔助駕駛系統(tǒng)、智能機(jī)器人刊橘、智能視頻監(jiān)控鄙才、人體行為分析、智能交通等領(lǐng)域促绵。（百度百科）

相關(guān)閱讀：行人檢測(Pedestrian Detection)資源攒庵、行人檢測（看了一圈嘴纺，還是百科說得最清楚）

1.3.3人臉檢測&人臉識別（Face Detection &Recognition）

人臉檢測是人臉識別中的一個關(guān)鍵環(huán)節(jié)，人臉檢測指對于一副給定的圖像浓冒，采用一定的策略對其分析搜索確定其中是否含有人臉栽渴，若有人臉則返回人臉邊界，以及大小稳懒、姿態(tài)等信息闲擦。

應(yīng)用領(lǐng)域：身份認(rèn)證與安全防護(hù)（很多app有實人認(rèn)證）、媒體娛樂（火過一陣子的小偶app）场梆、圖像搜索等墅冷。

實人認(rèn)證示例圖

小偶app，根據(jù)照片制作一個3D人偶

人臉檢測是圖像檢測中的一種或油，方法基本類似寞忿，主要分為六個步驟：預(yù)處理、窗口滑動顶岸、特征提取腔彰、特征選擇、特征分類和后處理（挖個坑蜕琴，這部分后續(xù)會詳細(xì)介紹）

這里插播一句題外話萍桌，去年的十月份，CNN的創(chuàng)始人發(fā)了一篇關(guān)于Capsule Networks（膠囊網(wǎng)絡(luò)）的論文凌简，大有取代CNN之勢上炎。而目前為止，CNNs仍是圖像檢測分類領(lǐng)域最先進(jìn)的方法雏搂，不過有時候也會出現(xiàn)一些不可描述的問題藕施，比如下圖：

一個CNN圖像識別的例子

不用細(xì)說，大家應(yīng)該也大概知道是什么情況了凸郑∩咽常可以這樣（不嚴(yán)謹(jǐn)?shù)模├斫猓珻NN是由多層的神經(jīng)網(wǎng)絡(luò)組成芙沥，每一層的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)識別一類特征诲祸，比如目標(biāo)是識別人臉，可能一層負(fù)責(zé)識別眼睛的特征而昨，一層負(fù)責(zé)識別嘴巴的特征救氯，多層神經(jīng)網(wǎng)絡(luò)累加起來就會形成一個整體的特征，但是CNN對多個特征之間的空間關(guān)系并不能很好的識別歌憨，因此就有了上圖這樣的例子着憨。（關(guān)于識別特征這塊，有一個分類器的概念务嫡，感興趣的可以去了解一下Haar特征甲抖、VJ模型和adaboost分類器）

人臉識別應(yīng)該是目前計算機(jī)視覺領(lǐng)域商業(yè)化應(yīng)用落地比較成熟的例子漆改，下面是我搜集到的一張關(guān)于人臉識別的一些應(yīng)用領(lǐng)域情況腦圖，需要的可以收藏准谚。圖不太清楚挫剑，找不到來源網(wǎng)站，如果有知道的朋友可以評論留言我再加上氛魁。

人臉識別應(yīng)用領(lǐng)域

1.4圖像分割（Image Segmentation）

圖像分割指把圖像分成若干個特定的暮顺、居右獨特性質(zhì)的的區(qū)域并提出感興趣目標(biāo)的技術(shù)。現(xiàn)有的圖像分割技術(shù)主要分為以下幾類：基于閾值秀存、基于區(qū)域捶码、基于邊緣和基于特定理論的分割方法。圖像分割是將數(shù)字圖像劃分為幾個互不相交的區(qū)域或链，也是一種標(biāo)注的過程惫恼，即把屬于同一區(qū)域的像素給與相同的標(biāo)簽。（百度百科）

這么說可能難以理解澳盐，下圖是自動駕駛領(lǐng)域的一個應(yīng)用示例祈纯，自動駕駛系統(tǒng)需要從場景中識別出各類物體，并根據(jù)先驗知識叼耙，即預(yù)設(shè)好的條件進(jìn)行判斷腕窥，如應(yīng)該在road區(qū)域行駛、遇到Pedestrian和Vehicle區(qū)域應(yīng)該減速或停車筛婉、識別Traffic Light區(qū)域的含義等等簇爆。

圖像分割在自動駕駛領(lǐng)域的應(yīng)用

圖像分割技術(shù)下有三個比較常見的分支——視覺顯著性檢測、物體分割爽撒、語義分割入蛆。

1.4.1視覺顯著性檢測（Visual Saliency Detection）

視覺顯著性檢測指通過算法模擬人的視覺特點，提取圖像中可能是人類感興趣的區(qū)域硕勿，及顯著區(qū)域哨毁。

這里涉及到另一個概念，視覺注意機(jī)制(Visual Attention Mechanism）源武，即面對一個場景時扼褪，人類自動對感興趣區(qū)域進(jìn)行處理而自動忽略不顯著的區(qū)域。

顯著性檢測圖示

人的視覺注意有兩種策略機(jī)制：

自下而上粱栖、基于數(shù)據(jù)驅(qū)動的注意機(jī)制：收感知數(shù)據(jù)驅(qū)動迎捺，將人的視覺重點引導(dǎo)至場景中的顯著區(qū)域，這些區(qū)域通常與周圍有較強(qiáng)的對比度或與周圍有明顯的區(qū)別查排，包括顏色、形狀抄沮、亮度等特征跋核。比如一副黑色圖片中的一個白點岖瑰，視覺自然而然的會被引導(dǎo)至白點。

自上而下砂代、基于任務(wù)驅(qū)動的蹋订、基于目標(biāo)的注意機(jī)制：有根據(jù)先驗知識、預(yù)期和當(dāng)前的目標(biāo)來計算圖像的顯著性區(qū)域刻伊。在視頻中找到人露戒，就是一個任務(wù)驅(qū)動的行為。

關(guān)于認(rèn)知注意模型等內(nèi)容捶箱，參考這篇文章：視覺顯著性檢測

關(guān)于注意力流等內(nèi)容智什，可以去關(guān)注張江博士，他的書《科學(xué)的極致:漫談人工智能》中有幾章對注意力機(jī)制的描述丁屎，比較直觀易懂荠锭。

1.4.2物體分割（Object Segmentation）

物體分割一般是用于把單張圖片中的一個或多個物體分割出來，物體分割常常和物體識別共同使用晨川。相比于物體檢測只能返回一個矩形邊界证九，物體分割算法可以精確的描繪出所有物體的輪廓，從像素成眠上把各個物體分割出來共虑。

常用算法：Mask R-CNN

下圖展示了物體分割的輸出效果愧怜，基本上可以實現(xiàn)把圖片中的物體的輪廓描繪出來。（設(shè)計師再也不用辛苦的摳圖了...）

物體分割效果圖

1.4.3語義分割/Semantic Segmentation

圖像語義分割妈拌，也成為語義標(biāo)注拥坛，簡單而言就是給定一張圖片，對圖片上的每一個像素點分類供炎，不區(qū)分物體渴逻，盡關(guān)心像素。

那么它與物體分割有什么不同呢音诫？語義分割重在語義惨奕，即圖像中同一個類別的物體將會被劃分至同一個區(qū)域，如下右圖有兩只牛竭钝，其都被劃分至cow區(qū)域梨撞；而上圖中可以看到，多個人或摩托車都被單獨的區(qū)分開來香罐。

語義分割效果圖

1.5圖像描述（Image Captioning）

（圖說）圖像描述也稱為Dense Captioning卧波，其目標(biāo)是在給定一張圖像的情況下，得到圖像中各個部分的自然語言描述庇茫。圖像描述問題融合了計算機(jī)視覺和自然語言處理兩大方向港粱，是AI解決多模式跨領(lǐng)域問題的典型技術(shù)。與英文相比，中文的描述常常在句法詞法的組合上更加靈活查坪，算法的挑戰(zhàn)也更大寸宏。

假設(shè)我們有一個很大的數(shù)據(jù)庫，每條記錄是圖像以及它對應(yīng)的語句描述偿曙。每條語句的詞匯片段其實對應(yīng)了一些特定的但是未知的圖像區(qū)域氮凝。我們的方法是推斷出這些詞匯片段和圖像區(qū)域的對應(yīng)關(guān)系，然后使用他們來生成一個泛化的語言描述模型望忆。

常用算法：Vanilla-RNN罩阵、LSTM、GRU

圖像描述示例

相關(guān)閱讀：【圖像理解】自動生成圖像的文本描述

1.5.1圖像標(biāo)注

圖像標(biāo)注是從根據(jù)一幅圖自動生成一段描述性的文字启摄，小時候的“看圖說話”稿壁。圖像描述需要把圖像中各個物體均生成描述，而圖像標(biāo)注只對圖片整體進(jìn)行描述鞋仍。

圖像標(biāo)注技術(shù)一般分為典型的圖像標(biāo)注和基于注意力的圖像標(biāo)注常摧。

圖像標(biāo)注示例

1.6圖像問答（Image Question Answering）

圖像問答即回答與圖片內(nèi)容相關(guān)的問題威创，輸入圖片及問題落午，系統(tǒng)輸出答案。15年的時候有一個新聞不知道大家知不知道肚豺，李彥宏首次向世界展示百度最新Image QA圖文問答技術(shù)溃斋，也就是下圖。新聞鏈接

圖像問答示例

圖像問答結(jié)合了注意力機(jī)制及外部知識庫后吸申，識別能力能夠有顯著的提升梗劫。

與圖像描述類似，圖像問答同樣是結(jié)合計算機(jī)視覺與自然語言處理技術(shù)的一種應(yīng)用截碴，下圖展示了兩者之間的差異梳侨。

圖像問答和圖像描述

1.7圖像生成（Image Generation）

這大概是這篇文章最好理解的概念了，圖像生成——根據(jù)一定的條件生成圖像日丹。比如上篇文章提到的prisma走哺，根據(jù)預(yù)設(shè)的風(fēng)格和圖片生成一張全新的圖片，這中間就是應(yīng)用了圖像生成的技術(shù)哲虾。?

使用GAN（對抗生成網(wǎng)絡(luò)）來做圖像生成丙躏，目前是最流行也是最熱門的領(lǐng)域。當(dāng)然束凑，也可以使用MRF（馬爾科夫隨機(jī)場）晒旅、CNN來進(jìn)行圖像生成。

GAN也可以用于根據(jù)一段文本描述來生成圖像汪诉，或根據(jù)一段簡筆畫來生成圖像等等废恋。

注意啦Ｐ⒊！！蚓哩！推薦大家一個好玩的網(wǎng)站（Demo），大家可以體驗一下上渴，通過一副簡筆畫來生成一幅完整的圖像岸梨。

簡筆畫生成一只貓??

模糊圖像復(fù)原也是圖像生成領(lǐng)域的重要應(yīng)用，對于各種原因造成的模糊稠氮，均有較好的恢復(fù)效果曹阔，如運(yùn)動模糊、抖動模糊等隔披。

從左到右：原圖像赃份、模糊化后的圖像和通過模型清晰化的圖像d

1.8圖像檢索（Content-based Image Retrieval）

圖像檢索大概也是大家用得很多的功能吧，google奢米、百度這些搜索引擎基本都支持以圖搜圖抓韩。圖像檢索的研究始于上世紀(jì)70年代，當(dāng)時主要是基于文本的圖像檢索技術(shù)（Text-based Image Retrieval）鬓长，而目前則是基于內(nèi)容檢索（Content-based Retrieval）谒拴。

在檢索原理上，無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索涉波，主要包括三方面：一方面對用戶需求的分析和轉(zhuǎn)化英上，形成可以檢索索引數(shù)據(jù)庫的提問；另一方面啤覆，收集和加工圖像資源苍日，提取特征，分析并進(jìn)行標(biāo)引窗声，建立圖像的索引數(shù)據(jù)庫相恃；最后一方面是根據(jù)相似度算法，計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小嫌佑，提取出滿足閾值的記錄作為結(jié)果豆茫，按照相似度降序的方式輸出。（百度百科）

特別說明：本章節(jié)中部分示例圖片摘選自coldyan的博客

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末屋摇，一起剝皮案震驚了整個濱河市揩魂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌炮温，老刑警劉巖火脉，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡倦挂，警方通過查閱死者的電腦和手機(jī)畸颅，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來方援，“玉大人没炒，你說我怎么就攤上這事》赶罚” “怎么了送火？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長先匪。經(jīng)常有香客問我种吸，道長，這世上最難降的妖魔是什么呀非？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任坚俗，我火速辦了婚禮，結(jié)果婚禮上岸裙，老公的妹妹穿的比我還像新娘猖败。我一直安慰自己，他們只是感情好哥桥，可當(dāng)我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布辙浑。她就那樣靜靜地躺著，像睡著了一般拟糕。火紅的嫁衣襯著肌膚如雪判呕。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天送滞，我揣著相機(jī)與錄音侠草，去河邊找鬼。笑死犁嗅，一個胖子當(dāng)著我的面吹牛边涕，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播褂微，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼功蜓，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了宠蚂？” 一聲冷哼從身側(cè)響起式撼，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎求厕，沒想到半個月后著隆，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扰楼，經(jīng)...
沈念sama閱讀 43,400評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年美浦，在試婚紗的時候發(fā)現(xiàn)自己被綠了弦赖。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡浦辨，死狀恐怖蹬竖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情流酬，我是刑警寧澤案腺，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站康吵，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏访递。R本人自食惡果不足惜晦嵌，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一火窒、第九天我趴在偏房一處隱蔽的房頂上張望搏熄。院中可真熱鬧，春花似錦准给、人聲如沸响巢。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽踪古。三九已至含长，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間伏穆，已是汗流浹背拘泞。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留枕扫，地道東北人陪腌。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像烟瞧，于是被迫代替她去往敵國和親诗鸭。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,722評論 2贊 345