作者:Rockelbel,兩年互聯(lián)網(wǎng)PM嘹承,AI轉(zhuǎn)型學(xué)習(xí)中铐望,偏好NLP方向
上一篇文章介紹了機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等一系列概念,這篇文章將主要對AI的關(guān)鍵技術(shù)及應(yīng)用層面的內(nèi)容做個簡單的總結(jié)栖袋∨那辏考慮到篇幅可能過長,本文僅介紹計算機(jī)視覺相關(guān)技術(shù)塘幅,其他如自然語言處理昔案、專家系統(tǒng)、知識圖譜等技術(shù)會在下一篇文章中補(bǔ)充电媳。
一踏揣、AI產(chǎn)業(yè)結(jié)構(gòu)
本來打算把產(chǎn)業(yè)結(jié)構(gòu)放在最后一部分,后來考慮了一秒鐘匾乓,這篇文章會更加偏實際應(yīng)用捞稿,對人工智能產(chǎn)業(yè)鏈有一個宏觀的認(rèn)識可能更有幫助。下圖是一張關(guān)于人工智能產(chǎn)業(yè)生態(tài)的圖譜拼缝,很多機(jī)構(gòu)都做過類似的圖娱局,大同小異。技術(shù)層和應(yīng)用層是本文的主要內(nèi)容咧七,這里先對基礎(chǔ)層的內(nèi)容做個簡單介紹衰齐。
基礎(chǔ)層包括提供算力的高性能芯片、底層開源框架继阻、傳感器等耻涛,作為人工智能技術(shù)的底層支持。我們經(jīng)常聽到這樣一種說法瘟檩,這次人工智能的熱潮很大程度是基于三個領(lǐng)域的突破:大數(shù)據(jù)支持抹缕、算力的提升、算法的突破芒帕。這些都屬于基礎(chǔ)層的范疇歉嗓。
1、高性能處理器
高性能處理器:CPU背蟆、GPU鉴分、FPGA(半定制化的可編程電路)哮幢、TPU(一種ASIC,谷歌專門為機(jī)器學(xué)習(xí)打造的處理器)志珍。這部分的內(nèi)容盡管去百度橙垢,找不到算我輸。
下圖展示了CPU和GPU的結(jié)構(gòu)差別伦糯,綠色區(qū)域是計算單元柜某,橙色區(qū)域是儲存單元,“相對CPU而言敛纲,為什么GPU更適合用于機(jī)器學(xué)習(xí)”這個問題大家應(yīng)該能比較直觀的理解了喂击。
2、云服務(wù)
云服務(wù):Amazon ML淤翔、Google Cloud ML翰绊、Microsoft Azure ML、Databricks旁壮、Haven OnDemand监嗜、IBM Watson 和 Predictive Analytics、阿里云 ML抡谐、騰訊TML裁奇、百度BML
很多大廠都提供了各自的機(jī)器學(xué)習(xí)云平臺服務(wù),國外像Google/Amazon/Microsoft都是布局人工智能比較早的企業(yè),提供的服務(wù)相對更加成熟
相關(guān)閱讀:不可錯過的精彩回顧:6種云機(jī)器學(xué)習(xí)服務(wù)
3、開源庫或計算框架
開源庫或計算框架:TensorFlow(大名鼎鼎)坎弯、Torch(基于Lua語言)、Caffe(Facebook五垮,基于C++)、MXNET(Amazon杜秸,很強(qiáng)大)放仗、Keras(易于使用,黑箱子撬碟,適合新手)诞挨、PaddlePaddle(百度)、Theano呢蛤、sclikt-learn惶傻、Deeplearning4j(基于java語言)、Deepmat其障、Lasagne银室、Neon、Pylearn、Chainer蜈敢、Turicreate(Apple2017年推出)辜荠、PyTorch(Facebook)、CNTK (Microsoft)......
專用領(lǐng)域的開源庫:OpenCV抓狭、OpenFace(人臉識別)伯病、DarkNet-YOLO(物體檢測)......
各種開源框架數(shù)不勝數(shù),這里列舉了一些比較知名和用戶比較廣泛的框架否过,實際的項目也并不一定使用單一的框架午笛。
相關(guān)閱讀:主流深度學(xué)習(xí)框架對比
基礎(chǔ)層的內(nèi)容就介紹(搬運(yùn))到這里,其他還有如Decker容器苗桂、機(jī)器學(xué)習(xí)中的可視化解決方案等等概念感興趣的可以去了解一下药磺。
二、關(guān)鍵技術(shù)及應(yīng)用領(lǐng)域
人工智能的研究領(lǐng)域包括計算機(jī)視覺誉察、自然語言處理与涡、機(jī)器人、專家系統(tǒng)等持偏,。根據(jù)AI應(yīng)用范圍或發(fā)展層次可以分為專用人工智能(ANI)氨肌、通用人工智能(AGI)鸿秆、超級人工智能(ASI)三種,目前的AI還停留在專用人工智能的階段怎囚,這階段主要是通過感知和記憶存儲來實現(xiàn)特定領(lǐng)域或特定功能卿叽,如計算機(jī)視覺、語音識別恳守、智能推薦等等考婴,目前這些領(lǐng)域有較為成熟的成果。
通用人工智能催烘,一般指Agent基于認(rèn)知學(xué)習(xí)和決策執(zhí)行的能力沥阱,有一定的自我意識,能夠真正理解人類的情緒語言伊群,實現(xiàn)多個領(lǐng)域的綜合智能考杉。
超級人工智能,定義為具有完整的自我意識舰始,獨立的價值觀世界觀崇棠,能夠自我創(chuàng)新,甚至超過人類丸卷。這種AI層次僅停留在想象中枕稀。
“可以預(yù)見的是,在由專業(yè)領(lǐng)域向通用領(lǐng)域過度的過程中,自然語言處理與計算機(jī)視覺兩個方向?qū)蔀槿斯ぶ悄芡ㄓ脩?yīng)用最大的兩個突破口萎坷。”(極客公園)
目前深度學(xué)習(xí)在自然語言處理和計算機(jī)規(guī)覺領(lǐng)域已取得重大的進(jìn)展范抓,其中語音識別、 圖像識別已達(dá)到商業(yè)化的成都食铐。在各類比賽中匕垫,圖像識別和語音識別錯誤率達(dá)到甚至超過人類水平。
1虐呻、計算機(jī)視覺領(lǐng)域(Computer Vision)
首先對區(qū)分這三個概念:計算機(jī)視覺象泵、機(jī)器視覺、圖像處理
計算機(jī)視覺:指對圖像進(jìn)行數(shù)據(jù)采集后提取出圖像的特征斟叼,一般處理的圖像的數(shù)據(jù)量很大偶惠,偏軟件層;
機(jī)器視覺:處理的圖像一般不大朗涩,采集圖像數(shù)據(jù)后僅進(jìn)行較低數(shù)據(jù)流的計算忽孽,偏硬件層,多用于工業(yè)機(jī)器人谢床、工業(yè)檢測等兄一;
圖像處理:對圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換變形,方式包括降噪识腿、出革、傅利葉變換、小波分析等渡讼,圖像處理技術(shù)的主要內(nèi)容包括圖像壓縮骂束,增強(qiáng)和復(fù)原,匹配成箫、描述和識別3個部分展箱。
計算機(jī)視覺是指利用計算機(jī)來模擬人的視覺,是人工智能中的“看”蹬昌。從技術(shù)流程上來說混驰,分為目標(biāo)檢測、目標(biāo)識別凳厢、行為識別三個部分账胧。根據(jù)識別的目標(biāo)種類可以分為圖像識別、物體識別先紫、人臉識別治泥、文字識別等。在智能機(jī)器人領(lǐng)域遮精,計算機(jī)視覺可以對靜態(tài)圖片或動態(tài)視頻中的物體進(jìn)行特征提取居夹、識別和分析败潦,從而為后續(xù)的動作和行為提供關(guān)鍵的信息。
近年來准脂,基于計算機(jī)視覺的智能視頻監(jiān)控和身份識別等市場逐漸成熟擴(kuò)大劫扒,計算機(jī)視覺的技術(shù)和應(yīng)用趨于成熟,廣泛應(yīng)用于制造狸膏、 安檢沟饥、圖像檢索、醫(yī)療影像分析湾戳、人機(jī)交互等領(lǐng)域贤旷。
下圖展示了計算機(jī)視覺的技術(shù)分類,基本上可以分為靜態(tài)內(nèi)容識別和動態(tài)內(nèi)容識別兩大類砾脑,實際上在國內(nèi)計算機(jī)視覺領(lǐng)域幼驶,動靜態(tài)圖像識別和人臉識別是主要研究和應(yīng)用方向。當(dāng)然很多應(yīng)用需要計算機(jī)視覺和其他關(guān)鍵AI技術(shù)相結(jié)合韧衣,比如AR/VR的主要技術(shù)是人機(jī)交互和計算機(jī)視覺盅藻。
常用技術(shù)分類
1.1圖像特征提取與描述
特征提取是很多CV技術(shù)的前置操作,比如判斷兩幅頭像是否是同一個人畅铭,計算機(jī)根據(jù)圖像的某些局部特征氏淑,如邊緣和線條的特征。
1圖像特征種類
圖像的顏色特征顶瞒、紋理特征夸政、形狀特征、空間關(guān)系特征(應(yīng)用于機(jī)器人的姿態(tài)識別問題榴徐,確定一個三維物體的方位等)、局部特征
圖像特征描述
圖像特征描述的一個核心就是魯棒性(robust匀归,這個詞大家肯定聽過吧坑资,出場率極高)和可區(qū)分性,而這兩點常常是矛盾的穆端。
魯棒性是指一個特征應(yīng)該適用于不同的圖像變換情況袱贮,這就要求這個特征比較“粗糙”,例如一個茶杯從上方看和從側(cè)面看都應(yīng)該是同一個茶杯体啰≡芪。可區(qū)分性是指,能夠區(qū)分一些比較相似的局部特征荒勇,顯然其魯棒性往往比較低柒莉。
相關(guān)閱讀:局部圖像特征描述總結(jié)
1.2圖像分類
大家在新聞上肯定看到過這些比賽——ImageNet(李飛飛創(chuàng)立)、Kaggle沽翔、MSCOCC兢孝、阿里天池等等(以及ILSVRC窿凤、PASCAL VOC 2012),這些比賽的常設(shè)項目一般為不同領(lǐng)域下的圖像識別分類與場景分類跨蟹,此外還有一些物體探測追蹤之類的雳殊。(這些比賽一般使用【top-5錯誤率】的高低來衡量算法的優(yōu)異,有興趣的可以去了解一下)
常用算法:卷積神經(jīng)網(wǎng)絡(luò)CNN
常用神經(jīng)網(wǎng)絡(luò)模型:AlexNet窗轩、 VGG夯秃、 GoogLeNet、 ResNet)
1.2.1圖像分類(Image Classification)
根據(jù)圖像正反映出的不同特征痢艺,依照特征把圖片分類仓洼。顯然分類技術(shù)有基于色彩的、基于紋理的腹备、基于形狀的衬潦、基于空間關(guān)系的。
舉個栗子植酥,錘子手機(jī)的有個桌面整理的功能镀岛,把顏色相似的圖片分類到一屏,這里應(yīng)用了基于顏色的圖像分類技術(shù)友驮。
1.2.2場景分類(Scene Classification)
場景分類:基于對象(根據(jù)場景中出現(xiàn)的對象區(qū)分漂羊,例如出現(xiàn)床可能是臥室)、基于區(qū)域卸留、基于上下文走越、基于Gist特征
推薦一篇相關(guān)文章:基于深度學(xué)習(xí)的場景分類算法
從上面這張圖可以大概了解場景分類大概的流程,當(dāng)然前提得了解pooling耻瑟、feature descriptors這些詞的含義(在后續(xù)介紹CNN/RNN的文章里會詳細(xì)描述)旨指。上圖來源文章:場景分類摘錄
1.3圖像檢測(Image Detection)
圖像檢測是通過獲取和分析圖像特征,從圖像中定位出預(yù)設(shè)的目標(biāo)喳整,并準(zhǔn)確判斷目標(biāo)物體的類別谆构,最后給出目標(biāo)的邊界,邊界一般是矩形框都,不過也有圓形的情況搬素,下圖是一個人臉檢測的示例。
常用算法:區(qū)域卷積神經(jīng)網(wǎng)絡(luò)/R-CNN
常用神經(jīng)網(wǎng)絡(luò)模型:SPPnet魏保、Fast R-CNN熬尺、Faster R-CNN、R-FCN
圖像檢測應(yīng)用領(lǐng)域:人臉識別谓罗、醫(yī)學(xué)影像粱哼、智能視頻監(jiān)控、機(jī)器人導(dǎo)航妥衣、基于內(nèi)容的圖像檢索皂吮、基于圖像的繪制技術(shù)戒傻、圖像編輯和增強(qiáng)現(xiàn)實等領(lǐng)域。(百度百科)
1.3.1物體檢測(Object Detection & Localization)
物件檢測分為靜態(tài)物體檢測和動態(tài)物體檢測蜂筹,并且其一般和物體分類算法結(jié)合需纳,多應(yīng)用于安防領(lǐng)域(行人檢測、智能視頻分析艺挪、行人跟蹤)不翩、交通領(lǐng)域(交通場景的物體識別、車輛計數(shù)麻裳、逆行檢測口蝠、車牌檢測和識別)、互聯(lián)網(wǎng)領(lǐng)域(圖像檢測津坑、相冊自動歸類)妙蔗。
下圖展示了當(dāng)前物體檢測技術(shù)的一些應(yīng)用難點,包括圖片的復(fù)雜光照情況疆瑰、非剛性物體形變(人眉反、動物的各種姿勢)、低分辨率穆役、圖片模糊(商湯科技對此有比較好的處理技術(shù))等
這篇文章較為系統(tǒng)的介紹了一些檢查算法的實現(xiàn)原理寸五,推薦閱讀:干貨 | 物體檢測算法全概述:從傳統(tǒng)檢測方法到深度神經(jīng)網(wǎng)絡(luò)框架
1.3.2行人檢測(Pedestrian Detection)
行人檢測,顧名思義就是將圖片中的行人檢測出來耿币,并輸出目標(biāo)邊界梳杏,并且檢測的常常是多個行人目標(biāo)。將一個視頻流中的行人的軌跡關(guān)聯(lián)起來淹接,就是行人跟蹤十性,多個目標(biāo)即多人跟蹤。另外一個應(yīng)用稱為行人檢索塑悼,或行人再識別烁试,即給定一個待檢索行人,從圖集或視頻中找到拢肆。(城市里處處攝像頭,天網(wǎng)恢恢熬甘)
行人檢測應(yīng)用領(lǐng)域:人工智能系統(tǒng)郭怪、車輛輔助駕駛系統(tǒng)、智能機(jī)器人刊橘、智能視頻監(jiān)控鄙才、人體行為分析、智能交通等領(lǐng)域促绵。(百度百科)
相關(guān)閱讀:行人檢測(Pedestrian Detection)資源攒庵、行人檢測(看了一圈嘴纺,還是百科說得最清楚)
1.3.3人臉檢測&人臉識別(Face Detection &Recognition)
人臉檢測是人臉識別中的一個關(guān)鍵環(huán)節(jié),人臉檢測指對于一副給定的圖像浓冒,采用一定的策略對其分析搜索確定其中是否含有人臉栽渴,若有人臉則返回人臉邊界,以及大小稳懒、姿態(tài)等信息闲擦。
應(yīng)用領(lǐng)域:身份認(rèn)證與安全防護(hù)(很多app有實人認(rèn)證)、媒體娛樂(火過一陣子的小偶app)场梆、圖像搜索等墅冷。
人臉檢測是圖像檢測中的一種或油,方法基本類似寞忿,主要分為六個步驟:預(yù)處理、窗口滑動顶岸、特征提取腔彰、特征選擇、特征分類和后處理(挖個坑蜕琴,這部分后續(xù)會詳細(xì)介紹)
這里插播一句題外話萍桌,去年的十月份,CNN的創(chuàng)始人發(fā)了一篇關(guān)于Capsule Networks(膠囊網(wǎng)絡(luò))的論文凌简,大有取代CNN之勢上炎。而目前為止,CNNs仍是圖像檢測分類領(lǐng)域最先進(jìn)的方法雏搂,不過有時候也會出現(xiàn)一些不可描述的問題藕施,比如下圖:
不用細(xì)說,大家應(yīng)該也大概知道是什么情況了凸郑∩咽常可以這樣(不嚴(yán)謹(jǐn)?shù)模├斫猓珻NN是由多層的神經(jīng)網(wǎng)絡(luò)組成芙沥,每一層的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)識別一類特征诲祸,比如目標(biāo)是識別人臉,可能一層負(fù)責(zé)識別眼睛的特征而昨,一層負(fù)責(zé)識別嘴巴的特征救氯,多層神經(jīng)網(wǎng)絡(luò)累加起來就會形成一個整體的特征,但是CNN對多個特征之間的空間關(guān)系并不能很好的識別歌憨,因此就有了上圖這樣的例子着憨。(關(guān)于識別特征這塊,有一個分類器的概念务嫡,感興趣的可以去了解一下Haar特征甲抖、VJ模型和adaboost分類器)
人臉識別應(yīng)該是目前計算機(jī)視覺領(lǐng)域商業(yè)化應(yīng)用落地比較成熟的例子漆改,下面是我搜集到的一張關(guān)于人臉識別的一些應(yīng)用領(lǐng)域情況腦圖,需要的可以收藏准谚。圖不太清楚挫剑,找不到來源網(wǎng)站,如果有知道的朋友可以評論留言我再加上氛魁。
1.4圖像分割(Image Segmentation)
圖像分割指把圖像分成若干個特定的暮顺、居右獨特性質(zhì)的的區(qū)域并提出感興趣目標(biāo)的技術(shù)。現(xiàn)有的圖像分割技術(shù)主要分為以下幾類:基于閾值秀存、基于區(qū)域捶码、基于邊緣和基于特定理論的分割方法。圖像分割是將數(shù)字圖像劃分為幾個互不相交的區(qū)域或链,也是一種標(biāo)注的過程惫恼,即把屬于同一區(qū)域的像素給與相同的標(biāo)簽。(百度百科)
這么說可能難以理解澳盐,下圖是自動駕駛領(lǐng)域的一個應(yīng)用示例祈纯,自動駕駛系統(tǒng)需要從場景中識別出各類物體,并根據(jù)先驗知識叼耙,即預(yù)設(shè)好的條件進(jìn)行判斷腕窥,如應(yīng)該在road區(qū)域行駛、遇到Pedestrian和Vehicle區(qū)域應(yīng)該減速或停車筛婉、識別Traffic Light區(qū)域的含義等等簇爆。
圖像分割技術(shù)下有三個比較常見的分支——視覺顯著性檢測、物體分割爽撒、語義分割入蛆。
1.4.1視覺顯著性檢測(Visual Saliency Detection)
視覺顯著性檢測指通過算法模擬人的視覺特點,提取圖像中可能是人類感興趣的區(qū)域硕勿,及顯著區(qū)域哨毁。
這里涉及到另一個概念,視覺注意機(jī)制(Visual Attention Mechanism)源武,即面對一個場景時扼褪,人類自動對感興趣區(qū)域進(jìn)行處理而自動忽略不顯著的區(qū)域。
人的視覺注意有兩種策略機(jī)制:
自下而上粱栖、基于數(shù)據(jù)驅(qū)動的注意機(jī)制:收感知數(shù)據(jù)驅(qū)動迎捺,將人的視覺重點引導(dǎo)至場景中的顯著區(qū)域,這些區(qū)域通常與周圍有較強(qiáng)的對比度或與周圍有明顯的區(qū)別查排,包括顏色、形狀抄沮、亮度等特征跋核。比如一副黑色圖片中的一個白點岖瑰,視覺自然而然的會被引導(dǎo)至白點。
自上而下砂代、基于任務(wù)驅(qū)動的蹋订、基于目標(biāo)的注意機(jī)制:有根據(jù)先驗知識、預(yù)期和當(dāng)前的目標(biāo)來計算圖像的顯著性區(qū)域刻伊。在視頻中找到人露戒,就是一個任務(wù)驅(qū)動的行為。
關(guān)于認(rèn)知注意模型等內(nèi)容捶箱,參考這篇文章:視覺顯著性檢測
關(guān)于注意力流等內(nèi)容智什,可以去關(guān)注張江博士,他的書《科學(xué)的極致:漫談人工智能》中有幾章對注意力機(jī)制的描述丁屎,比較直觀易懂荠锭。
1.4.2物體分割(Object Segmentation)
物體分割一般是用于把單張圖片中的一個或多個物體分割出來,物體分割常常和物體識別共同使用晨川。相比于物體檢測只能返回一個矩形邊界证九,物體分割算法可以精確的描繪出所有物體的輪廓,從像素成眠上把各個物體分割出來共虑。
常用算法:Mask R-CNN
下圖展示了物體分割的輸出效果愧怜,基本上可以實現(xiàn)把圖片中的物體的輪廓描繪出來。(設(shè)計師再也不用辛苦的摳圖了...)
1.4.3語義分割/Semantic Segmentation
圖像語義分割妈拌,也成為語義標(biāo)注拥坛,簡單而言就是給定一張圖片,對圖片上的每一個像素點分類供炎,不區(qū)分物體渴逻,盡關(guān)心像素。
那么它與物體分割有什么不同呢音诫?語義分割重在語義惨奕,即圖像中同一個類別的物體將會被劃分至同一個區(qū)域,如下右圖有兩只牛竭钝,其都被劃分至cow區(qū)域梨撞;而上圖中可以看到,多個人或摩托車都被單獨的區(qū)分開來香罐。
1.5圖像描述(Image Captioning)
(圖說)圖像描述也稱為Dense Captioning卧波,其目標(biāo)是在給定一張圖像的情況下,得到圖像中各個部分的自然語言描述庇茫。圖像描述問題融合了計算機(jī)視覺和自然語言處理兩大方向港粱,是AI解決多模式跨領(lǐng)域問題的典型技術(shù)。與英文相比,中文的描述常常在句法詞法的組合上更加靈活查坪,算法的挑戰(zhàn)也更大寸宏。
假設(shè)我們有一個很大的數(shù)據(jù)庫,每條記錄是圖像以及它對應(yīng)的語句描述偿曙。每條語句的詞匯片段其實對應(yīng)了一些特定的但是未知的圖像區(qū)域氮凝。我們的方法是推斷出這些詞匯片段和圖像區(qū)域的對應(yīng)關(guān)系,然后使用他們來生成一個泛化的語言描述模型望忆。
常用算法:Vanilla-RNN罩阵、LSTM、GRU
相關(guān)閱讀:【圖像理解】自動生成圖像的文本描述
1.5.1圖像標(biāo)注
圖像標(biāo)注是從根據(jù)一幅圖自動生成一段描述性的文字启摄,小時候的“看圖說話”稿壁。圖像描述需要把圖像中各個物體均生成描述,而圖像標(biāo)注只對圖片整體進(jìn)行描述鞋仍。
圖像標(biāo)注技術(shù)一般分為典型的圖像標(biāo)注和基于注意力的圖像標(biāo)注常摧。
相關(guān)閱讀:看圖說話的AI小朋友——圖像標(biāo)注趣談(上)、「Show and Tell」——圖像標(biāo)注(Image Caption)任務(wù)技術(shù)綜述
1.6圖像問答(Image Question Answering)
圖像問答即回答與圖片內(nèi)容相關(guān)的問題威创,輸入圖片及問題落午,系統(tǒng)輸出答案。15年的時候有一個新聞不知道大家知不知道肚豺,李彥宏首次向世界展示百度最新Image QA圖文問答技術(shù)溃斋,也就是下圖。新聞鏈接
圖像問答結(jié)合了注意力機(jī)制及外部知識庫后吸申,識別能力能夠有顯著的提升梗劫。
與圖像描述類似,圖像問答同樣是結(jié)合計算機(jī)視覺與自然語言處理技術(shù)的一種應(yīng)用截碴,下圖展示了兩者之間的差異梳侨。
1.7圖像生成(Image Generation)
這大概是這篇文章最好理解的概念了,圖像生成——根據(jù)一定的條件生成圖像日丹。比如上篇文章提到的prisma走哺,根據(jù)預(yù)設(shè)的風(fēng)格和圖片生成一張全新的圖片,這中間就是應(yīng)用了圖像生成的技術(shù)哲虾。?
使用GAN(對抗生成網(wǎng)絡(luò))來做圖像生成丙躏,目前是最流行也是最熱門的領(lǐng)域。當(dāng)然束凑,也可以使用MRF(馬爾科夫隨機(jī)場)晒旅、CNN來進(jìn)行圖像生成。
GAN也可以用于根據(jù)一段文本描述來生成圖像汪诉,或根據(jù)一段簡筆畫來生成圖像等等废恋。
相關(guān)閱讀:GAN之根據(jù)文本描述生成圖像、【實戰(zhàn)】GAN網(wǎng)絡(luò)圖像翻譯機(jī):圖像復(fù)原、模糊變清晰拴签、素描變彩圖
注意啦P⒊!!蚓哩!推薦大家一個好玩的網(wǎng)站(Demo),大家可以體驗一下上渴,通過一副簡筆畫來生成一幅完整的圖像岸梨。
模糊圖像復(fù)原也是圖像生成領(lǐng)域的重要應(yīng)用,對于各種原因造成的模糊稠氮,均有較好的恢復(fù)效果曹阔,如運(yùn)動模糊、抖動模糊等隔披。
1.8圖像檢索(Content-based Image Retrieval)
圖像檢索大概也是大家用得很多的功能吧,google奢米、百度這些搜索引擎基本都支持以圖搜圖抓韩。圖像檢索的研究始于上世紀(jì)70年代,當(dāng)時主要是基于文本的圖像檢索技術(shù)(Text-based Image Retrieval)鬓长,而目前則是基于內(nèi)容檢索(Content-based Retrieval)谒拴。
在檢索原理上,無論是基于文本的圖像檢索還是基于內(nèi)容的圖像檢索涉波,主要包括三方面:一方面對用戶需求的分析和轉(zhuǎn)化英上,形成可以檢索索引數(shù)據(jù)庫的提問;另一方面啤覆,收集和加工圖像資源苍日,提取特征,分析并進(jìn)行標(biāo)引窗声,建立圖像的索引數(shù)據(jù)庫相恃;最后一方面是根據(jù)相似度算法,計算用戶提問與索引數(shù)據(jù)庫中記錄的相似度大小嫌佑,提取出滿足閾值的記錄作為結(jié)果豆茫,按照相似度降序的方式輸出。(百度百科)
特別說明:本章節(jié)中部分示例圖片摘選自coldyan的博客