作者所在班級(jí)1402012
作 者 姓 名符子龍
作 者 學(xué) 號(hào)14020120006
《基于深度學(xué)習(xí)的視網(wǎng)膜OCT圖像分類》的文獻(xiàn)綜述
內(nèi)容摘要
通過翻閱這些參考資料和文獻(xiàn),了解了深度學(xué)習(xí)技術(shù)在圖像處理和計(jì)算機(jī)視覺上的應(yīng)用與發(fā)展,以及各種常用的模型算法陷舅。本題主要關(guān)注與視網(wǎng)膜OCT的圖像處理溉奕,通過查閱其他相關(guān)論文,了解今年來適用于醫(yī)學(xué)影像的圖像處理方法掰盘,特別是關(guān)于視網(wǎng)膜的圖像分割,圖像分類,圖像識(shí)別等經(jīng)典算法欺矫。另外,通過閱讀醫(yī)學(xué)文獻(xiàn)了具體了解了視網(wǎng)膜的解剖學(xué)結(jié)構(gòu)展氓,以及圖像特點(diǎn)穆趴。
關(guān)鍵詞:深度學(xué)習(xí)視網(wǎng)膜結(jié)構(gòu)圖像處理圖像分類
第1章 ?前言
外后視鏡外形輪廓不但影響到車身的外觀,也影響到車身尺寸遇汞,行業(yè)標(biāo)準(zhǔn)有轎車外后視鏡的安裝位置不得超出汽車最外側(cè)250毫米的規(guī)定未妹。
1.1課題背景及意義
1.1.1.圖像分類
隨著互聯(lián)網(wǎng)簿废、數(shù)碼相機(jī)及攝像機(jī)和數(shù)字存儲(chǔ)技術(shù)的發(fā)展,數(shù)字多媒體資源日益增多络它。
而從傳統(tǒng)互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)族檬,在社交網(wǎng)絡(luò)中人們也不僅僅是用文字表達(dá)自己,而是傾向采用更直觀的圖像和視頻來進(jìn)行交流化戳。大量的信息隱藏在海量的圖像數(shù)據(jù)中单料。面對(duì)越來越大的數(shù)據(jù)處理量,僅憑人工顯然無法實(shí)現(xiàn)迂烁,迫切需要計(jì)算機(jī)能夠讀懂并且處理看尼。而圖像分類和識(shí)別任務(wù)主要是對(duì)數(shù)字圖像的內(nèi)容進(jìn)行分析,獲取圖像中的關(guān)鍵信息盟步,讓圖像“會(huì)說話”藏斩。許多應(yīng)用領(lǐng)域?qū)D像的處理特別是圖像的分類識(shí)別提出了需求:
(1)基于內(nèi)容的圖像檢索CBIR(Content-based image ?retrieval),這一概念于1992年由T.Kato[1]提出却盘,一般根據(jù)圖像的視覺特征來查找與輸入的圖片具有相同或相似內(nèi)容的其它圖片狰域。SMEULDERSAW等‘21回顧了200篇相關(guān)文獻(xiàn),認(rèn)為在未來基于內(nèi)容圖像的檢索有更廣闊的應(yīng)用前景黄橘,而更準(zhǔn)確的檢索結(jié)果不僅依賴于準(zhǔn)確的理解圖像而更多的是良好的圖像分類兆览。近年來,基于內(nèi)容的圖像檢索成為研究的一個(gè)熱點(diǎn)領(lǐng)域塞关,提出了許多新方法抬探,例如Krizhevsky利用深度自動(dòng)編碼器將小型彩色圖像映射成為短的二進(jìn)制編碼用于檢索,Kauf利用GPU的并行執(zhí)行能力實(shí)現(xiàn)了基于內(nèi)容的圖像檢索帆赢,提高了效率小压。Liui51提出了一種基于內(nèi)容檢索的新方法顏色差分直方圖:CDH(color differencehistograms)。
(2)對(duì)圖像/視頻自動(dòng)標(biāo)注椰于,就是通過計(jì)算機(jī)自動(dòng)給無標(biāo)注的圖像和視頻加上能夠反映其內(nèi)容的語義關(guān)鍵詞怠益。自動(dòng)標(biāo)注主要用于多媒體信息的管理和檢索,在商業(yè)方面也有很好的應(yīng)用前景瘾婿,例如個(gè)人照片管理蜻牢、廣告圖片投放等。對(duì)圖像和視頻進(jìn)行標(biāo)注的核心仍然是圖像語義理解偏陪。Carl ?Doerschl利用判別式聚類方法對(duì)地理信息進(jìn)行標(biāo)注抢呆,ArpitJai利用一種基于時(shí)空塊的新中間層表示方法用于對(duì)視頻進(jìn)行標(biāo)注。
[if !supportLists](3)[endif]醫(yī)學(xué)影像處理笛谦,醫(yī)學(xué)影像對(duì)于醫(yī)生診斷疾病提供了非常有價(jià)值的參考信息抱虐。
基于圖像分類和識(shí)別的方法可以通過影像數(shù)據(jù)積累發(fā)現(xiàn)一些疾病在影像里的特征和相
互聯(lián)系,提高影像對(duì)于疾病診斷的作用揪罕。Akgul[8]對(duì)基于內(nèi)容檢索的方法在放射學(xué)上應(yīng)用現(xiàn)狀和未來發(fā)展方向進(jìn)行了綜述梯码。Varghese[9]貝,U研究了在腦部磁共振圖像中的應(yīng)用。
其它的應(yīng)用領(lǐng)域還有如:視頻監(jiān)控好啰、自動(dòng)機(jī)器人轩娶,交互式游戲等。有效
的圖像分類識(shí)別是上述應(yīng)用領(lǐng)域重要的研究基石框往。圖像分類識(shí)別問題應(yīng)用領(lǐng)域廣泛鳄抒,是機(jī)器視覺中的重要問題之一,也是一個(gè)典型的模式識(shí)別與機(jī)器學(xué)習(xí)的問題椰弊。圖像分類技術(shù)的研究一直很火熱许溅,分類準(zhǔn)確率也在不斷提升,涌現(xiàn)了許多有效的智能分類方法秉版。但有仍有不少問題有待進(jìn)一步解決贤重。如圖像的視覺信息轉(zhuǎn)換為人類理解的語義表達(dá)難題;對(duì)不同來源圖像用統(tǒng)一的視覺特征方法進(jìn)行描述清焕;解決因圖像質(zhì)量并蝗、光照、拍攝視角差別等造成的分類識(shí)別困難秸妥;處理海量數(shù)據(jù)的高效滚停、準(zhǔn)確算法問題等。因此盡管發(fā)展迅速粥惧、方法眾多键畴,圖像分類問題仍然是計(jì)算機(jī)視覺領(lǐng)域中非常值得研究的問題,也有很強(qiáng)的實(shí)際應(yīng)用需求突雪。在國(guó)際會(huì)議和刊物上每年都有
大量的相關(guān)文章發(fā)表起惕,例如:CVPR、ICCV挂签、ECCV疤祭、ICML、NIPS饵婆,InternationalJournal
ofCompeerVision(IJCV)勺馆,IEEE,TransactionsonPatternAnalysisandMachine
Intelligence(PAMI)等侨核。
1.1.2.深度學(xué)習(xí)應(yīng)用于圖像分類
深度學(xué)習(xí)模型雖然在圖像分類領(lǐng)域取得令人矚目的分類效果草穆,但一直無法用數(shù)學(xué)理論來證明其問題求解過程,這使得研究局限于通過實(shí)驗(yàn)來調(diào)整模型結(jié)構(gòu)和參數(shù)搓译,從而設(shè)計(jì)出更為有效的模型悲柱。除了對(duì)模型本身的研究,深度學(xué)習(xí)與其它的機(jī)器學(xué)習(xí)方法的融合些己,引入其他方法的優(yōu)點(diǎn)解決相應(yīng)的問題也是研究的一個(gè)熱點(diǎn)豌鸡。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用與研究熱點(diǎn)嘿般,引入遷移學(xué)習(xí)、支持向量機(jī)涯冠、多尺度空間模型炉奴、模糊分類等方法與卷積神經(jīng)網(wǎng)絡(luò)模型融合。
1.2.視網(wǎng)膜OCT圖像
1.2.1 什么是OCT
光學(xué)相干層析掃描儀(OCT):OCTJ,韭行視網(wǎng)膜斷層掃描的原理類似B超蛇更,不同的是OCT采用的是850rim波長(zhǎng)的光掃描瞻赶,而B超采用的是聲頻掃描。主要用于黃斑水腫派任、裂孔的測(cè)量及青光眼RNFL厚度的測(cè)量砸逊。
1.2.1 OCT的優(yōu)點(diǎn)
各種成像技術(shù),如x射線計(jì)算層析成像ⅨcT)掌逛、核磁共振成像师逸、超聲波
成像等,在醫(yī)學(xué)上已經(jīng)獲得廣泛應(yīng)用豆混,成為現(xiàn)代醫(yī)學(xué)診斷技術(shù)的一個(gè)顯著標(biāo)志字旭。每種技術(shù)由于其不同的工作原理,決定了其不同的分辨率和探測(cè)深度崖叫、不同的適用范圍遗淳、不同的檢測(cè)部位和功能特點(diǎn)。X射線計(jì)算層析成像探測(cè)深度深心傀,分辨率也較高屈暗,但入射的高能量會(huì)使生物組織離化,頻繁使用會(huì)損害身體脂男。超聲波成像分辨率較低养叛。核磁共振雖有亞毫米級(jí)的分辨率,但所需的超導(dǎo)磁體價(jià)格昂貴宰翅。Huang等人首次把OCT技術(shù)用于人眼視網(wǎng)膜細(xì)微結(jié)構(gòu)和冠狀動(dòng)脈壁結(jié)構(gòu)的成像弃甥,獲得了成功。Schmit等人將其用于生物組織光學(xué)特性參數(shù)的'鋇4量汁讼,也取得了很好的效果淆攻。鑒于它廣泛的應(yīng)用前景,國(guó)際上在開展研究工作的同時(shí)嘿架,已經(jīng)向產(chǎn)品化方向發(fā)展瓶珊。國(guó)內(nèi)也有一些科研小組開始進(jìn)行有關(guān)的研究工作。當(dāng)今醫(yī)學(xué)影像技術(shù)在現(xiàn)代醫(yī)院中的作用愈來愈重要耸彪,除了眾所周知的x光伞芹、超聲波診斷、核磁共振成像及各種內(nèi)窺鏡檢查外,其他技術(shù)也層出不窮唱较,可以解決許多以前影像檢查方法所不能解決的問題扎唾。但他們各自仍存在局限性:X光檢查不能準(zhǔn)確探測(cè)出初期的腫塊,高能量照射時(shí)人體組織容易產(chǎn)生傷害:超聲檢查不具有探測(cè)尺寸小于幾毫米物體的分辨本領(lǐng)南缓,和x光一樣不能提供任何組織化學(xué)成分信息稽屏;核磁共振成像雖有較好的空間分辨率,能探測(cè)特殊組織的化學(xué)物質(zhì)西乖,但費(fèi)用極其昂貴,不利于常規(guī)應(yīng)用坛增;內(nèi)窺鏡檢查可清晰地看到組織結(jié)構(gòu)并能夾取活檢获雕,但同樣不能實(shí)時(shí)地確定組織的成分。
OCT最初的應(yīng)用是眼科學(xué)成像“61收捣。目前届案,醫(yī)學(xué)仍然是OCT的主要應(yīng)用領(lǐng)域。與其他的光學(xué)技術(shù)相比罢艾,OCT具有很多卓越的優(yōu)點(diǎn):
[if !supportLists](1)[endif]縱向分辨率和樣本入射光的數(shù)值孔徑相互獨(dú)立楣颠;
[if !supportLists](2)[endif]高縱向分辨率和橫向分辨率;
[if !supportLists](3)[endif]非接觸咐蚯、非侵入式的操作童漩;
[if !supportLists](4)[endif]可以增加與圖像對(duì)比度有關(guān)的功能。相關(guān)的對(duì)比技術(shù)是基于多普勒頻移春锋,偏振和波長(zhǎng)相關(guān)的后向散射矫膨。
現(xiàn)在,OCT作為一種非侵襲性的診斷工作期奔,在臨床醫(yī)學(xué)中開始發(fā)揮其巨大作用侧馅,因?yàn)镺CT圖像的軸向分辨率可達(dá)到10/2m,比現(xiàn)在任何一種臨床診斷設(shè)備的分辨率高達(dá)lO倍以上呐萌,且這種光纖式結(jié)構(gòu)不僅便宜而且很容易進(jìn)入導(dǎo)管馁痴,與內(nèi)窺鏡進(jìn)行相結(jié)合作業(yè),在人體內(nèi)部的組織器官檢查中得到很高的分辨率肺孤,特別是眼科學(xué)罗晕、心臟學(xué)、皮膚病等學(xué)科診斷中具有明顯的優(yōu)勢(shì)赠堵。對(duì)于青光眼的診斷和處理目前在臨床是十分棘手的問題攀例,眼內(nèi)壓測(cè)量經(jīng)常不能準(zhǔn)確預(yù)測(cè)出青光眼的病情進(jìn)展,只有在視網(wǎng)膜神經(jīng)纖維缺少50%以上時(shí)顾腊,視野缺損和視神經(jīng)乳頭凹陷這樣的后期臨床診狀才能檢測(cè)到粤铭。OCT對(duì)視網(wǎng)膜結(jié)構(gòu)的高分辨率成像,對(duì)眼科臨床上診斷青光眼杂靶、斑變質(zhì)和斑水腫十分
可靠梆惯。視網(wǎng)膜視神經(jīng)纖維層是在青光眼中受影響的解剖結(jié)構(gòu)酱鸭,由于OCT的高分辨率可敏感地測(cè)量視網(wǎng)膜神經(jīng)纖維層的厚度且觀測(cè)到視盤的外形變化,可以在OCT中明確的判別垛吗。相對(duì)于玻璃體和視網(wǎng)膜結(jié)構(gòu)凹髓,視網(wǎng)膜神經(jīng)纖維層是一個(gè)相對(duì)高散射的介質(zhì)層,由于視神經(jīng)纖維的圓柱形狀怯屉,視網(wǎng)膜神經(jīng)纖維層的后散射信號(hào)強(qiáng)度依賴于入射光的角度蔚舀,這種角度依賴型導(dǎo)致了神經(jīng)纖維變成視神經(jīng)的視盤邊緣的視網(wǎng)膜神經(jīng)纖維層信號(hào)衰減。現(xiàn)在通過察看患者的視網(wǎng)膜神經(jīng)纖維層厚度就可以估測(cè)出青光眼病情的進(jìn)展锨络,這在以前對(duì)青光眼的診斷上是沒有一個(gè)客觀標(biāo)準(zhǔn)的赌躺。對(duì)青光眼的診療上是一個(gè)突破而且OCT檢查幾乎不會(huì)給病人造成任何不適。
1.2.3 視網(wǎng)膜OCT研究
視網(wǎng)膜OCT圖像自動(dòng)識(shí)別系統(tǒng)是涉及現(xiàn)代數(shù)學(xué)羡儿,模式識(shí)別礼患、圖像處理、計(jì)算機(jī)視覺等多個(gè)領(lǐng)域掠归,對(duì)完善OCT系統(tǒng)缅叠,增強(qiáng)其實(shí)用性有著重要的意義。近20多年來虏冻,醫(yī)學(xué)影像已成為醫(yī)學(xué)技術(shù)中發(fā)展最快的領(lǐng)域之一肤粱,其結(jié)果使臨床醫(yī)生對(duì)人體內(nèi)部病變部位的觀察更直按、更清晰厨相,確診率也更高狼犯。70年代初,X-CT的發(fā)明曾引發(fā)了醫(yī)學(xué)影像領(lǐng)域的一場(chǎng)革命领铐,與此同時(shí)悯森,核共振成像,超聲成像绪撵、數(shù)字射線照相術(shù)瓢姻、發(fā)射型計(jì)算機(jī)成像和核素成像等也逐步發(fā)展。計(jì)算機(jī)和醫(yī)學(xué)圖像處理技術(shù)作為這些成像技術(shù)的發(fā)展基礎(chǔ)音诈,帶動(dòng)著現(xiàn)代醫(yī)學(xué)診斷正產(chǎn)生著深刻的變革幻碱。各種新的醫(yī)學(xué)成像方法的臨床應(yīng)用,使醫(yī)學(xué)診斷和治療技術(shù)取得了很大的進(jìn)展细溅,同時(shí)將各種成像技術(shù)得到的信息進(jìn)行互補(bǔ)褥傍,也為臨床診斷及生物醫(yī)學(xué)研究提供了有力的科學(xué)依據(jù)。因此喇聊,醫(yī)學(xué)圖像處理技術(shù)一直受到國(guó)內(nèi)外有關(guān)專家的高度重視恍风。
借助于現(xiàn)代計(jì)算機(jī)技術(shù)結(jié)合病理專家實(shí)踐經(jīng)驗(yàn),采用圖像處理技術(shù)對(duì)醫(yī)學(xué)圖像進(jìn)行處理,從而對(duì)視網(wǎng)膜OCT圖像進(jìn)行識(shí)別朋贬,對(duì)于醫(yī)學(xué)科研與教學(xué)凯楔,以及臨床診斷方面有著現(xiàn)實(shí)的意義和非常廣闊的前景。
目前锦募,數(shù)字圖像處理摆屯、模式識(shí)別和人工智能技術(shù)已經(jīng)被廣泛的應(yīng)用在生物醫(yī)學(xué)領(lǐng)域,并取得了一些成果[Is-191糠亩,但用模式識(shí)別對(duì)OCT視網(wǎng)膜層析圖進(jìn)行病理診斷的系統(tǒng)報(bào)道并不多虐骑。本論文利用圖像處理技術(shù)結(jié)合醫(yī)學(xué)病理專家的知識(shí)經(jīng)驗(yàn)對(duì)視網(wǎng)膜OCT圖像進(jìn)行分類識(shí)別的研究,應(yīng)用模式識(shí)別對(duì)細(xì)胞圖像進(jìn)行診斷分類赎线,達(dá)到利用視網(wǎng)膜OCT圖像識(shí)別進(jìn)行眼底病輔助診斷的目的廷没。目前主流的工作首先是通過借用了大量的圖像處理技術(shù)和算法,如圖像濾波氛驮、圖像增強(qiáng)、邊緣檢測(cè)等對(duì)圖像進(jìn)行了預(yù)處理济似。爾后利用K-L變換進(jìn)行特征提取矫废,最后采用最近鄰法、BP神經(jīng)網(wǎng)絡(luò)等方法對(duì)OCT產(chǎn)生的視網(wǎng)膜層析圖進(jìn)行分類并診斷砰蠢,對(duì)OCT系統(tǒng)的推廣與完善具有重要意義蓖扑。
[if !supportLists]第1章[endif]目前主要的圖像分類方法
(說明:主題是綜述主要內(nèi)容的敘述部分。一般要敘述所選研究題目的國(guó)內(nèi)外研究現(xiàn)狀台舱;本研究至目前的主要他人研究成果律杠;比較各種學(xué)術(shù)觀點(diǎn),闡明本研究的發(fā)展趨勢(shì)竞惋;目前存在的問題柜去。對(duì)當(dāng)前工作的現(xiàn)狀,今后的發(fā)展趨勢(shì)應(yīng)作重點(diǎn)拆宛、詳盡而具體地?cái)⑹觥?
2.1 圖像分類步驟
不同圖像分類算法有各自的模型特點(diǎn)嗓奢,但歸納起來圖像分類問題的一般過程為。首先對(duì)原始圖像做預(yù)處理浑厚,提高圖像的質(zhì)量或者是需要改變圖像的大小獲得合適的輸入股耽。然后利用特征學(xué)習(xí)算法對(duì)圖像進(jìn)行特征提取,獲得圖像的特征表示钳幅。再采用分類算法構(gòu)建相應(yīng)的模型物蝙,就可以利用模型對(duì)圖像進(jìn)行分類預(yù)測(cè)。這其中特征提取算法和分類算法是影響最終分類效果的關(guān)鍵敢艰,也是研究人員關(guān)注的焦點(diǎn)诬乞。本節(jié)將重點(diǎn)對(duì)這兩個(gè)關(guān)鍵環(huán)節(jié)的研究現(xiàn)狀和發(fā)展做一個(gè)闡述,為后續(xù)的研究奠定良好的理論急促。
2.1.1圖像特征提取和表示
圖像特征的提取和表示是圖像分類研究工作的基礎(chǔ)丽惭,圖像特征的選擇和表示很大程度上決定了圖像分類的效果击奶。本文將圖像特征的提取和表示分為以下三個(gè)階段:基本的視覺特征表達(dá)階段、人工加工特征表達(dá)階段和特征的自我學(xué)習(xí)階段责掏」窭基本的視覺特征表達(dá)階段,這類特征有直觀的基于底層的特征表示的方法换衬,如顏色痰驱、紋理、形狀瞳浦、空間關(guān)系等和局部特征算子担映。直觀特征最早使用的一類圖像特征,它簡(jiǎn)單有效叫潦,但近年來隨著圖像處理的要求日益提高蝇完,目前研究較多的是多種直觀特征融合以及直觀特征與人工統(tǒng)計(jì)特征融合的方法。
局部特征是相對(duì)全局特征而言矗蕊,顯然顏色直方圖等直觀性特征是從圖像全局考慮短蜕。
當(dāng)圖像出現(xiàn)一些遮擋,尺度變化等問題傻咖,特別是需要考慮圖像的前景和背景進(jìn)行內(nèi)容識(shí)別的時(shí)候朋魔,全局特征有較大的局限性。局部特征和全局特征不同卿操,致力于尋找圖像中穩(wěn)定且具有良好區(qū)分性點(diǎn)警检,這些點(diǎn)人工是無法直觀捕捉到,但計(jì)算機(jī)只需要這些像素點(diǎn)就能夠描述圖像主要內(nèi)容害淤。因此也被稱為顯著點(diǎn)扇雕。SIFT(Scale.Invariant Feature Transform)算子,刪因其良好的魯棒性M得到了廣泛的應(yīng)用窥摄,‘'Video Google’’就是利用SIFT算法的影像檢索框架洼裤。SIFT算法作為最經(jīng)典的局部特征算子,算法的核心就是提取SIFT關(guān)鍵點(diǎn)(keypoint)溪王。針對(duì)經(jīng)典SIFT算子存在高維數(shù)的問題PCA.SIFT[49】采用主成分分析(Principal ComponentAnalysis腮鞍,PCA)降維的概念,成功的將SIFT從128維降至36維莹菱,也成為SIFT算子改進(jìn)中應(yīng)用較廣的算子移国。由于SIFT算子只利用了圖像的灰度信息,研究人員結(jié)合顏色和形狀等提出了很多針對(duì)SIFT算子的改進(jìn)算法道伟,
特征算子還有HOG(HistogramofOrientedGradient)梯度方向直方圖迹缀、SURF(Speeded Robust Features)使碾、GLOH(Gradient location.orientation 對(duì)比了當(dāng)時(shí)主流的三種局部特征描述符的表現(xiàn),分析每個(gè)算子生成及匹配速度祝懂。并給出了相應(yīng)的結(jié)論票摇,可以看出整體表現(xiàn)上PCA.SIFT略勝一籌。局部特征算子具備如前所述遮擋砚蓬、尺度不變等的優(yōu)點(diǎn)矢门,但是仍然還是有它的不足之處,主要體現(xiàn)在:(1)原始圖像的分辨率影響算子性能灰蛙,因?yàn)榉直媛蕦?shí)際上反映了原始圖像中信息量的多少祟剔。原始分辨率高意味著在特征提取的采樣過程中可以保存較多的原始信息,從而提取得到的更多關(guān)鍵點(diǎn)摩梧。反之物延,關(guān)鍵點(diǎn)就少,性能下降仅父;(2)在提取特征向量過程中必須進(jìn)行尺度空間的極值檢測(cè)叛薯,因此如果圖像時(shí)大片平滑區(qū)域時(shí),由于不存在極值點(diǎn)而難以提取關(guān)鍵點(diǎn)笙纤;(3)對(duì)一些具有方向性和重復(fù)性的特征耗溜,例如紋理特征,提取到的關(guān)鍵點(diǎn)偏少粪糙,容易誤檢强霎。
人工加工的特征表達(dá)階段忿项,是指在基本特征提取的基礎(chǔ)上研究人員應(yīng)用統(tǒng)計(jì)蓉冈、代數(shù)
方法或者變換系數(shù)等方法描述特征。這類二次加工的特征表示中最經(jīng)典的是詞袋模型
(BagofWords轩触,Bow)寞酿。它首先通過SIFT等局部特征算子抽取圖像的基本特征,然后對(duì)這些特征采用K—means等聚類方法映射成關(guān)鍵詞集合脱柱,形成詞典(字典)伐弹,然后
分別對(duì)每個(gè)原始特征描述按字典進(jìn)行統(tǒng)計(jì)以形成最后的特征描述。詞袋模型最初主
要應(yīng)用在文本領(lǐng)域榨为,之后延伸到圖像處理領(lǐng)域惨好,詞袋模型由于可以高速實(shí)現(xiàn)分類,效果良好随闺,迅速成為最流行的分類方法日川。目前仍有許多基于詞袋模型的擴(kuò)展算法研究,特別是在圖像內(nèi)容檢索領(lǐng)域矩乐。含空間信息的詞袋模型龄句,加快單個(gè)視覺詞匯的描述子分配回论,加強(qiáng)視覺詞匯的分布能力等都是基于詞袋模型的研究。
除了詞袋模型以外分歇,代數(shù)特征方法也是常用的人工加工特征之一傀蓉。代數(shù)特征方法主
要是通過代數(shù)理論如矩陣分解奇異值分解等計(jì)算或統(tǒng)計(jì)抽取特征,常用的方法可以主要有:主分量分析(PCA)职抡、線性鑒別分析(LDA)和Fisher線性鑒別分析刪葬燎。這些方法在人臉識(shí)別中經(jīng)常使用,其局限主要體現(xiàn)在兩個(gè)方面:一方面需要大的樣本集進(jìn)行學(xué)習(xí)繁调;另一個(gè)方面對(duì)視角萨蚕、光照與物體非線性形變敏感。上述方法都屬于線性投影的方法蹄胰,而非線性特征方法目標(biāo)是將非線性問題轉(zhuǎn)為線性問題岳遥,例如使用“核技巧”。主要方法有:KPCA[65石71和SVM的一些擴(kuò)展方法[68-701裕寨。該類方法的局限性也表現(xiàn)在兩個(gè)
方面:一方面在非線性轉(zhuǎn)換過程里的映射幾何意義不明確浩蓉;另一方面使用“核技巧”缺乏選取標(biāo)準(zhǔn)的引導(dǎo),多通過實(shí)驗(yàn)調(diào)整和經(jīng)驗(yàn)選取宾袜。還有一類人工加工特征是對(duì)在其他特征提取方法對(duì)圖像進(jìn)行各種濾波變換如K—L變換捻艳、傅里葉變換、小波變換庆猫、小波
包變換等认轨。將濾波變換的系數(shù)作為圖像特征怎棱,這種方法是二次提取的特征稱為變換
系數(shù)特征袱院。其優(yōu)點(diǎn)是表示能力強(qiáng)、特征維數(shù)低掸掸。缺點(diǎn)是依賴于對(duì)分類識(shí)別圖像的某種變換杉畜、特征的語義不直觀纪蜒。特征的自我學(xué)習(xí)階段此叠,前兩個(gè)階段的特征抽取和表達(dá)無論是哪種纯续,都離不開人工選擇,即使是多種特征結(jié)合的方式也需要事先根據(jù)問題領(lǐng)域人工確定灭袁。在問題沒有解決之前確定選取的特征更多要依靠經(jīng)驗(yàn)和運(yùn)氣猬错。能否讓圖像特征實(shí)現(xiàn)學(xué)習(xí)而不需要人工選擇?
人類的視覺系統(tǒng)給出了這樣的啟示:人的視覺系統(tǒng)信息處理是分級(jí)的,從低層特征到高層的特征茸歧,逐步抽象倦炒,越抽象越接近表現(xiàn)語義。在此基礎(chǔ)上举娩,Hinton提出了深度學(xué)習(xí)的概念析校。深度學(xué)習(xí)繼承了神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜函數(shù)逼近的特點(diǎn)构罗,提出的多層學(xué)習(xí)模型模擬了人腦的認(rèn)知機(jī)制。Hinton提出了深度信念網(wǎng)(DeepBeliefNetworks智玻,DBNs)[741遂唧,實(shí)現(xiàn)了深度學(xué)習(xí)的概念。DBNs用非監(jiān)督貪婪算法進(jìn)行逐層訓(xùn)練解決原有深層結(jié)構(gòu)帶來的易陷入局部最小和梯度擴(kuò)散的難題吊奢。深度學(xué)習(xí)思想的核心有三點(diǎn):第一盖彭,逐層訓(xùn)練;第二页滚,用無監(jiān)督學(xué)習(xí)訓(xùn)練每一層召边;第三,用無監(jiān)督訓(xùn)練來對(duì)所有層進(jìn)行調(diào)整裹驰。深度學(xué)習(xí)不需要人工指定特征隧熙,可以將圖像這樣的研究對(duì)象直接作為輸入,因此非常適合處理圖像問題幻林。深度學(xué)習(xí)的主要算法除了DBNS外贞盯,F(xiàn)ukushima提出的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Networks,CNN)[761是第一個(gè)真正多層網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法沪饺,也是近年在圖像處理領(lǐng)域研究最多的深度學(xué)習(xí)算法躏敢。除此之外深度學(xué)習(xí)還出現(xiàn)了許多其它結(jié)構(gòu),例如自動(dòng)編碼器AutoEncoder整葡,稀疏自動(dòng)編碼器Sparse ?AutoEncoder魏滚,降噪自動(dòng)編碼器DenoisingAutoEncoders坟漱,遞歸神經(jīng)網(wǎng)絡(luò)RNN[801鼠次。Bengio研究了基于線性和非線性的自動(dòng)編碼器腥寇。近年來深度結(jié)構(gòu)在目標(biāo)識(shí)別阮、語音識(shí)別栅炒、人臉識(shí)別網(wǎng)、運(yùn)動(dòng)姿勢(shì)估計(jì)方面也有很多應(yīng)用乙漓〖独總而言之贩猎,隨著計(jì)算機(jī)硬件以及GPU技術(shù)的發(fā)展僻爽,深
度學(xué)習(xí)的結(jié)構(gòu)可以更好的適應(yīng)大型圖像數(shù)據(jù)庫的應(yīng)用,不需要人工特征提取方法實(shí)現(xiàn)圖像分類識(shí)別任務(wù)须板,做到機(jī)器智能學(xué)習(xí),并且有非常廣闊的應(yīng)用領(lǐng)域兢卵。
2.1.2.分類學(xué)習(xí)算法
在特征提取之后逼纸,需要依靠分類學(xué)習(xí)算法得到最終的圖像分類結(jié)果,分類學(xué)習(xí)算法或者稱分類器也是研究人員研究的熱點(diǎn)济蝉。
(1)SVM(支持向量機(jī)):支持向量機(jī)是當(dāng)前研究最熱門的分類算法之一杰刽,
支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),將線性不可分問題通過高維映射成為線性可分問題王滤,采用線性分類進(jìn)行劃分贺嫂。以線性二分類為基礎(chǔ),通過采用一對(duì)一雁乡、一對(duì)多等策略可以轉(zhuǎn)換為多分類問題的求解第喳。在圖像分類任務(wù)中,SVM具有良好的泛化能力踱稍,不易陷入局部最優(yōu)曲饱。但SVM構(gòu)建過程中的核參數(shù)選擇還缺少標(biāo)準(zhǔn),誤差懲罰參數(shù)選取也是SVM的一個(gè)難點(diǎn)珠月。這2個(gè)重要的參數(shù)對(duì)SVM的分類效果有明顯的影響扩淀。很多研究圍繞著這2個(gè)關(guān)鍵點(diǎn),例如:多核學(xué)習(xí)的概念的提出以及其在圖像和目標(biāo)識(shí)別的應(yīng)用啤挎。
在核選擇上問題上也有不少研究驻谆,Kotrooulos在醫(yī)學(xué)圖像分割領(lǐng)域證明采用RBF核的效果最佳,RBF核是目前大多數(shù)SVM的首選庆聘。Hillt941對(duì)幾種SVM方法進(jìn)行了比較胜臊,并分析了各算法訓(xùn)練速度優(yōu)劣的原因。
(2)隨機(jī)森林:隨機(jī)森林是由多個(gè)決策樹通過隨機(jī)形式方式組成的分類器伙判。隨機(jī)
森林適合于多分類任務(wù)象对,其表達(dá)直觀、訓(xùn)練和預(yù)測(cè)速度快宴抚。Leo Breiman和Adele Cutler
發(fā)展出隨機(jī)森林的算法勒魔。隨機(jī)森林也是圖像分類常用的分類器之一,Kontschiedert在隨機(jī)森林的框架下融入了標(biāo)注拓?fù)湫畔⒂糜趫D像語義標(biāo)注酱塔。Schroff將圖像局部和全局多種特征融合在隨機(jī)森林的框架下提高了分類器的表現(xiàn)沥邻。隨機(jī)森林的缺點(diǎn)主要有兩點(diǎn):第一危虱,對(duì)噪音較大的問題容易出現(xiàn)過擬合羊娃;第二,由于分類結(jié)果取個(gè)別樹的眾數(shù)埃跷,對(duì)于分類問題中有不同級(jí)別屬性的蕊玷,權(quán)值計(jì)算存在較大偏差邮利,分類結(jié)果不可靠。
(3)貝葉斯方法:貝葉斯分類以計(jì)算類概率的方式得出樣本屬于某一類的概率垃帅,
將最大概率的類標(biāo)簽賦予樣本延届。樸素的貝葉斯分類器(Naive Bayesian ?Classifier)因具有較高的準(zhǔn)確性,在圖像分類問題贸诚,文本分類等應(yīng)用較多方庭,ZhangI蚓用它來解決多標(biāo)注的特征學(xué)習(xí)問題。貝葉斯分類器的缺陷是:需要估計(jì)概率密度分布函數(shù)酱固,這個(gè)在很多應(yīng)用中都難以估計(jì)械念。另外,它的前提假設(shè)是各特征滿足獨(dú)立不相關(guān)运悲,否則分類的準(zhǔn)確度就會(huì)大大降低龄减。
(4)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)算法是由生物的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)得到啟示,通過數(shù)學(xué)模型
模擬神經(jīng)元以及神經(jīng)元之間的相互連接而構(gòu)成網(wǎng)絡(luò)模型班眯。神經(jīng)網(wǎng)絡(luò)對(duì)不同的神經(jīng)元設(shè)置不同的權(quán)值參數(shù)希停,通過激活函數(shù)調(diào)整神經(jīng)元節(jié)點(diǎn)之間的連接關(guān)系,實(shí)現(xiàn)對(duì)樣本的學(xué)習(xí)署隘。
R ?Hecht-Nielson刪證明任何連續(xù)函數(shù)都可以n4--層的BP網(wǎng)絡(luò)實(shí)現(xiàn)任意精度近似宠能。BP神經(jīng)網(wǎng)絡(luò)在早期的圖像分類問題中也常使用,但因BP神經(jīng)網(wǎng)絡(luò)容易陷入局部最小磁餐,訓(xùn)練時(shí)間較長(zhǎng)而相對(duì)其它分類方法并沒有明顯的優(yōu)勢(shì)棍潘,近年來BP神經(jīng)網(wǎng)絡(luò)的研究相對(duì)較少。深度學(xué)習(xí)實(shí)際上神經(jīng)網(wǎng)絡(luò)的一種特殊擴(kuò)展形式崖媚,它將特征提取和分類融合在一個(gè)結(jié)構(gòu)中實(shí)現(xiàn)亦歉。
(5)集成學(xué)習(xí):集成學(xué)習(xí)實(shí)際上并不是一種全新的分類方法,它的理論基礎(chǔ)是概
率近似準(zhǔn)確(PAC畅哑,Probably Approximately Correct)肴楷。集成學(xué)習(xí)不同于上述分類方
法去努力提升單個(gè)分類器的分類精度,而是研究是否可以通過集成的方式荠呐,實(shí)現(xiàn)弱學(xué)習(xí)方法轉(zhuǎn)強(qiáng)赛蔫。在1990年Schapirell021首先提出了集成學(xué)習(xí)的概念和Boosting算法,之后集成學(xué)習(xí)逐漸成為機(jī)器學(xué)習(xí)領(lǐng)域中的熱點(diǎn)泥张。集成學(xué)習(xí)領(lǐng)域最著名的2個(gè)算法是:
AdaBoost算法呵恢,Bagging算法。AdaBoost通過提高錯(cuò)誤樣本的權(quán)值改變樣本數(shù)據(jù)分布媚创,將弱分類器組合提升為強(qiáng)分類器渗钉。Bagging通過訓(xùn)練集的劃分,采用不同的子集訓(xùn)練分類器,獲得不同分類器后再進(jìn)行集成鳄橘,提升分類性能声离。Bagging的訓(xùn)練集是隨機(jī)的,各訓(xùn)練集是獨(dú)立的瘫怜,而Boosting訓(xùn)練集的選擇不是獨(dú)立的术徊,每一次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。Boosting算法的變種有很多:LPBoostll0鲸湃、TotalBoost赠涮,
SoflBoost,ERLPBoostl等暗挑。這些Boosting算法主要是從最大化boosting算法的
間隔(Margin)或者軟間隔(SoftMargin)考慮來改進(jìn)的世囊。2001年周志華等人提出了“選擇性集成,窿祥,概念并設(shè)計(jì)了一種選擇性集成算法GASENll株憾,用對(duì)弱分類器先選擇再集成
的方式提升了性能。集成學(xué)習(xí)算法存在兩個(gè)問題:第一晒衩,當(dāng)要集成的弱分類器有較大相關(guān)性和冗余時(shí)嗤瞎,集成效果不好,這時(shí)增加分類器也得不到多大的提升听系。第二贝奇,Boosting
系列集成算法對(duì)弱分類器更新樣本權(quán)重,是基于全局的靠胜,這樣弱化了強(qiáng)分類器的作用掉瞳。
我按照基于聚類、排序浪漠、選擇陕习、優(yōu)化個(gè)不同角度對(duì)選擇性集成算法進(jìn)行綜述。
綜上所述址愿,深度學(xué)習(xí)的方法與傳統(tǒng)的圖像分類方法相比較有以下幾點(diǎn)優(yōu)勢(shì):第一该镣,
深度學(xué)習(xí)方法在同一結(jié)構(gòu)中實(shí)現(xiàn)特征選擇和分類,無需人工選擇特征:第二响谓,從現(xiàn)有的研究成果看损合,深度學(xué)習(xí)方法比傳統(tǒng)的圖像分類方法在一般圖像分類準(zhǔn)確率上有顯著的提升:第三,深度學(xué)習(xí)方法的結(jié)構(gòu)由于其網(wǎng)絡(luò)的深度和對(duì)并行計(jì)算的支持更適合于處理大批量的數(shù)據(jù)娘纷。
2.2 視網(wǎng)膜的生理結(jié)構(gòu)
視網(wǎng)膜就像一架照相機(jī)里的感光底片嫁审,專門負(fù)責(zé)感光成像。當(dāng)我們看東西時(shí)赖晶,物體的影像通過屈光系統(tǒng)律适,落在視網(wǎng)膜上。視網(wǎng)膜是一層透明薄膜,因脈絡(luò)膜和色素上皮細(xì)胞的關(guān)系擦耀,使眼底呈均勻的橘紅色棉圈。后界位于視乳頭周圍涩堤,前界位于鋸齒緣眷蜓,其外面緊鄰脈絡(luò)膜,內(nèi)面緊貼玻璃體胎围。
視信息在視網(wǎng)膜上形成視覺神經(jīng)沖動(dòng)吁系,沿視路將視信息傳遞到視中樞形成視覺,這樣在我們的頭腦中建立起圖像白魂。
生物結(jié)構(gòu)
組織學(xué)上視網(wǎng)膜分為10層汽纤,由外向內(nèi)分別為:色素上皮層,視錐福荸、視桿細(xì)胞層蕴坪,外界膜,外顆粒層敬锐,外叢狀層背传,內(nèi)顆粒層,內(nèi)叢狀層台夺,神經(jīng)節(jié)細(xì)胞層径玖,神經(jīng)纖維層,內(nèi)界膜颤介。
視網(wǎng)膜內(nèi)層為襯于血管膜內(nèi)面的一層薄膜梳星,有感光作用。后部鼻側(cè)有一視神經(jīng)乳頭滚朵。
視網(wǎng)膜上的感覺層是由三個(gè)神經(jīng)元組成冤灾。第一神經(jīng)元是視細(xì)胞層,專司感光辕近,它包括錐細(xì)胞和桿細(xì)人的視網(wǎng)膜上共約有1.1~1.3 億個(gè)桿細(xì)胞瞳购,有600~700萬個(gè)錐細(xì)胞。視桿細(xì)胞主要在離中心凹較遠(yuǎn)的視網(wǎng)膜上亏推,而視錐細(xì)胞則在中心凹處最多学赛。第二層叫雙節(jié)細(xì)胞,約有10到數(shù)百個(gè)視細(xì)胞通過雙節(jié)細(xì)胞與一個(gè)神經(jīng)節(jié)細(xì)胞相聯(lián)系吞杭,負(fù)責(zé)聯(lián)絡(luò)作用盏浇。第三層叫節(jié)細(xì)胞層,專管傳導(dǎo)芽狗。
視網(wǎng)膜是一層菲薄的但又非常復(fù)雜的結(jié)構(gòu)绢掰,它貼于眼球的后壁部,傳遞來自視網(wǎng)膜感受器沖動(dòng)的神經(jīng)纖維跨越視網(wǎng)膜表面,經(jīng)由視神經(jīng)到達(dá)出口滴劲。視網(wǎng)膜的分辨力是不均勻的攻晒,在黃斑區(qū),其分辨能力最強(qiáng)班挖。視網(wǎng)膜的厚度相當(dāng)于一張薄紙鲁捏。從光學(xué)觀點(diǎn)出發(fā),視網(wǎng)膜是眼光學(xué)系統(tǒng)的成像屏幕萧芙,它是一凹形的球面给梅。組織結(jié)構(gòu)層次為色素上皮細(xì)胞→光感受器細(xì)胞→雙極細(xì)胞→神經(jīng)節(jié)細(xì)胞。
視網(wǎng)膜的凹形彎曲有兩個(gè)優(yōu)點(diǎn):
(1)眼光學(xué)系統(tǒng)形成的像有凹形彎曲双揪,所以彎曲的視網(wǎng)膜作為像屏具有適應(yīng)的效果动羽;
(2)彎曲的視網(wǎng)膜具有更廣寬的視野。
視網(wǎng)膜后極部有一直徑約2mm的淺漏斗狀小凹陷區(qū)渔期,稱為黃斑运吓,這是由于該區(qū)含有豐富的葉黃素而得名。其中央有一小凹為黃斑中心凹疯趟,黃斑區(qū)無血管拘哨,但因色素上皮細(xì)胞中含有較多色素,因此在檢眼鏡下顏色較暗迅办,中心凹處可見反光點(diǎn)宅静,稱為中心凹反射,因此處只有大量的視錐細(xì)胞站欺,故它是視網(wǎng)膜上視覺最敏銳的部位姨夹。
2.3 視網(wǎng)膜OCT圖像特點(diǎn)
OCT視網(wǎng)膜各層對(duì)應(yīng)關(guān)系
1.神經(jīng)纖維層:神經(jīng)纖維,反光強(qiáng)——紅黃色帶矾策。
2.神經(jīng)節(jié)細(xì)胞層:節(jié)細(xì)胞體磷账,反光弱——綠藍(lán)色帶。
3.內(nèi)叢狀層:節(jié)細(xì)胞和雙極細(xì)胞樹突——神經(jīng)纖維贾虽,反光強(qiáng)——黃色帶逃糟。
4.雙極細(xì)胞體層:細(xì)胞體,反光弱——藍(lán)色帶蓬豁。
5.外叢狀層:視細(xì)胞和雙極細(xì)胞樹突——神經(jīng)纖維绰咽,反光強(qiáng)——黃色帶。此層有中介膜存在地粪,是真正的視網(wǎng)膜中分界所在取募。
6.視細(xì)胞體層:視細(xì)胞體,反光弱——藍(lán)色帶蟆技,而且較寬玩敏。
7.外界膜:反光略增強(qiáng)斗忌,很窄的綠黃色帶。為視細(xì)胞體與椎體旺聚、桿體(感受器)之間的分界處织阳,外界膜的內(nèi)側(cè)為視細(xì)胞體,其外側(cè)即為椎體和桿體砰粹。
8.視細(xì)胞光感受器內(nèi)節(jié)帶:較外界膜反光略弱——很窄的綠色帶唧躲。
9.視細(xì)胞光感受器內(nèi)外節(jié)連接處:反光明顯增強(qiáng),很窄的黃色帶伸眶。在黃斑中心凹處惊窖,因該處的椎體外節(jié)長(zhǎng)而稍遠(yuǎn)離其下的色素上皮帶刽宪。
10.視細(xì)胞光感受器外節(jié)帶:反光略弱——非常窄的綠色帶厘贼。仔細(xì)觀察下是一條區(qū)分內(nèi)外節(jié)連接處與其下色素上皮層的非常非常窄的綠色光帶,在黃斑中心凹處圣拄,因該處椎體外節(jié)長(zhǎng)而增寬
11.色素上皮層:反光明顯增強(qiáng)嘴秸、增寬的紅黃色帶。在黃斑中心凹處庇谆,因該處色素上皮增多岳掐,而略有增寬。
12.玻璃膜和脈絡(luò)膜毛細(xì)血管層:因色素上皮層的遮蔽作用饭耳,結(jié)構(gòu)顯示不太清楚串述。
2.4 視網(wǎng)膜OCT圖像處理
OCT作為一種新型的成像技術(shù)具有很多技術(shù)上的優(yōu)勢(shì),利用OCT診斷眼底病已經(jīng)得到了廣泛的應(yīng)用寞肖。已閱的文獻(xiàn)主要從視網(wǎng)膜OCT圖像的預(yù)處理纲酗、特征提取和分類器設(shè)計(jì)幾個(gè)方面對(duì)視網(wǎng)膜OCT圖像識(shí)別這一課題進(jìn)行了一定的研究和討論。
OCT圖像的預(yù)處理主要采用了兩種方法:二值化和圖像輪廓提取新蟆。主要討論了后一種方法觅赊。視網(wǎng)膜OCT圖像信息量較大,圖像背景復(fù)雜琼稻。單純的圖像處理方法不能得到連通的特征區(qū)域吮螺。在對(duì)圖像進(jìn)行預(yù)處理時(shí),有些學(xué)者采用了彩色分割帕翻、數(shù)學(xué)形態(tài)學(xué)運(yùn)算以及邊緣檢測(cè)等方法相結(jié)合的辦法鸠补。在處理圖像過程中,膨脹以及閉運(yùn)算操作會(huì)使預(yù)處理后的邊緣與實(shí)際的圖像邊緣產(chǎn)生偏離嘀掸,所以卿拴,把握好預(yù)處理過程中的結(jié)構(gòu)元素的大小十分關(guān)鍵呻粹,既要使圖像連通有要使基本形態(tài)特征保持不變腮郊。經(jīng)過預(yù)處理后制妄,視網(wǎng)膜OCT圖像輪廓清晰具篇,特征區(qū)域明顯,為后續(xù)的圖像識(shí)別奠定了基礎(chǔ)胳蛮。
通過對(duì)視網(wǎng)膜OCT圖像的分析蜕窿,有部分學(xué)者采用二值化、輪廓提取技術(shù)對(duì)圖像進(jìn)行了預(yù)處理,利用K.L變換提取了圖像的特征向量摘投,最后分別用最近鄰法和BP神經(jīng)網(wǎng)絡(luò)法進(jìn)行了圖像識(shí)別。從實(shí)驗(yàn)中可以看出逛漫,不同的方法保留的圖像信息是不同的玛荞,所以最后的結(jié)果就會(huì)有差異。通過比較下梢,采用圖像二值化后直接用最近鄰法進(jìn)行圖像識(shí)別的方案客蹋,識(shí)別率達(dá)到了100%。
2.5 圖像處理中主要的深度學(xué)習(xí)方法
AutoEncoder自動(dòng)編碼器
最簡(jiǎn)單的一種方法是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)孽江,人工神經(jīng)網(wǎng)絡(luò)(ANN)本身就是具有層次結(jié)構(gòu)的系統(tǒng)讶坯,如果給定一個(gè)神經(jīng)網(wǎng)絡(luò),我們假設(shè)其輸出與輸入是相同的岗屏,然后訓(xùn)練調(diào)整其參數(shù)辆琅,得到每一層中的權(quán)重,自然地这刷,我們就得到了輸入I的兒種不同表示(每一層是輸入的一種表示)婉烟,這些表示就是特征,在研究中可以發(fā)現(xiàn)暇屋,如果在原有的特征中加入這些自動(dòng)學(xué)習(xí)得到的特t正可以大大提高精確度似袁,甚至在分類問題中比}」前址好的分類算法效果還要好,這種方法稱為自動(dòng)編碼(AutoEncoder )咐刨。
Sparse Coding稀疏編碼
如果我們把輸出必須和輸入相等的限制放松昙衅,同時(shí)利用線性代數(shù)中基的概念,即O=Wx B, +硯x B, +...+W,x B,, , B是基定鸟,W;是系數(shù)而涉,我們可以得到這樣一個(gè)優(yōu)化問題:Min 11一Olo
通過求解這個(gè)最優(yōu)化式子,我們可以求得系數(shù)W和基B;联予,這些系數(shù)和基礎(chǔ)就是輸入的另外一種近似表達(dá)啼县,因此,它們可以被當(dāng)成特征來表達(dá)輸入I躯泰,這個(gè)過程也是自動(dòng)學(xué)習(xí)得到的谭羔。如果我們?cè)谏鲜鍪阶由霞由螸1的Regularity限制,得到: ?????????????????Min}I一O}+u*(IW卜}硯I+…+}W麦向,})瘟裸。(2. 1)
種方法被稱為Sparse Coding,它是一種對(duì)對(duì)象的簡(jiǎn)潔表征的方法诵竭,這種方法可以自動(dòng)地學(xué)習(xí)到隱藏在對(duì)象數(shù)據(jù)潛在的基函數(shù)话告。
Restricted Boltzmann Machine(RBM)限制波爾茲曼機(jī)
假設(shè)有一個(gè)二部圖兼搏,每一個(gè)相同層的節(jié)點(diǎn)之間沒有鏈接,一層是可視層沙郭,即輸入數(shù)據(jù)層(v)佛呻,一層是隱層(h),如果假設(shè)所有的節(jié)點(diǎn)都是二值變量節(jié)點(diǎn)(只能取0或者1值)病线,同時(shí)假設(shè)聯(lián)合概率分布p(v, h)滿足Boltzmann分布吓著,我們稱這個(gè)模型是受限玻爾茲曼機(jī)(RBM)。下面我們來看看為什么它是Deep Learning方法送挑。首先绑莺,這個(gè)模型因?yàn)槭嵌繄D,所以在己知v的情況下惕耕,所有的隱藏節(jié)點(diǎn)之間是條件獨(dú)立的纺裁,即p(hIv卜p(h, I 1,) ... p(h? I v)。同理司澎,在己知隱藏層h的情況下欺缘,所有的可視節(jié)點(diǎn)都是條件獨(dú)立的,同時(shí)又由于所有的v和h滿足Boltzmann分布挤安,因此谚殊,當(dāng)輸入v的時(shí)候,通過p(hlv)可以得到隱藏層h漱受,而得到隱藏層h之后络凿,通過p(vlh)又能重構(gòu)可視層,通過調(diào)整參數(shù)昂羡,我們就是要使得從隱藏層得到的可視層VI與原來的可視層v如果一樣,那么得到的隱藏層就是可視層的另外一種表達(dá)摔踱,因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征虐先,所以它就是一種Dcep Learning方法。文獻(xiàn)X32]從理論一上證明派敷,當(dāng)隱層節(jié)點(diǎn)足夠多時(shí)蛹批,深度網(wǎng)絡(luò)就可以表示任意離散分布;文獻(xiàn)[33]指出受限玻爾茲曼機(jī)中的隱層節(jié)點(diǎn)與可視節(jié)點(diǎn)可以為任意的指數(shù)族單元(即給定隱單元(可見單元),可見單元(隱單元)的分布的形式一可以為任意的指數(shù)族分布)篮愉,如高斯單元腐芍、softmax單元、泊松單元等等试躏。
Deep BeliefNetworks深信度網(wǎng)絡(luò)
DBNs是一個(gè)概率生成模型猪勇,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對(duì),生成模型是建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布颠蕴,對(duì)P(Observation|Label)和 P(Label|Observation)都做了評(píng)估泣刹,而判別模型僅僅而已評(píng)估了后者助析,也就是P(Label|Observation)。對(duì)于在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用傳統(tǒng)的BP算法的時(shí)候椅您,DBNs遇到了以下問題:
(1)需要為訓(xùn)練提供一個(gè)有標(biāo)簽的樣本集外冀;
(2)學(xué)習(xí)過程較慢;
[if !supportLists](3)[endif]不適當(dāng)?shù)膮?shù)選擇會(huì)導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解掀泳。
目前雪隧,和DBNs有關(guān)的研究包括堆疊自動(dòng)編碼器,它是通過用堆疊自動(dòng)編碼器來替換傳統(tǒng)DBNs里面的RBMs员舵。這就使得可以通過同樣的規(guī)則來訓(xùn)練產(chǎn)生深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu)膀跌,但它缺少層的參數(shù)化的嚴(yán)格要求。與DBNs不同固灵,自動(dòng)編碼器使用判別模型捅伤,這樣這個(gè)結(jié)構(gòu)就很難采樣輸入采樣空間,這就使得網(wǎng)絡(luò)更難捕捉它的內(nèi)部表達(dá)巫玻。但是丛忆,降噪自動(dòng)編碼器卻能很好的避免這個(gè)問題,并且比傳統(tǒng)的DBNs更優(yōu)仍秤。它通過在訓(xùn)練過程添加隨機(jī)的污染并堆疊產(chǎn)生場(chǎng)泛化性能熄诡。訓(xùn)練單一的降噪自動(dòng)編碼器的過程和RBMs訓(xùn)練生成模型的過程一樣。
Networks卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種诗力,已成為當(dāng)前語音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)凰浮。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度苇本,減少了權(quán)值的數(shù)量袜茧。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入瓣窄,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程笛厦。卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移俺夕、比例縮放裳凸、傾斜或者共他形式的變形具有高度不變性。
CNNs是受早期的延時(shí)神經(jīng)網(wǎng)絡(luò)(TDNN)的影響劝贸。延時(shí)神經(jīng)網(wǎng)絡(luò)通過在時(shí)間維度上共享權(quán)值降低學(xué)習(xí)復(fù)雜度姨谷,適用于語音和時(shí)間序列信號(hào)的處理。
CNNs是第一個(gè)真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法映九。它利用空間關(guān)系減少需要學(xué)習(xí)的參數(shù)數(shù)目以提高一般前向BP算法的訓(xùn)練性能梦湘。CNNs作為一個(gè)深度學(xué)習(xí)架構(gòu)提出是為了最小化數(shù)據(jù)的預(yù)處理要求。在CNN中,圖像的一小部分(局部感受區(qū)域)作為層級(jí)結(jié)構(gòu)的最低層的輸入践叠,信息再依次傳輸?shù)讲煌膶友早停繉油ㄟ^一個(gè)數(shù)字濾波器去獲得觀測(cè)數(shù)據(jù)的最顯著的特征。這個(gè)方法能夠獲取對(duì)平移禁灼、縮放和旋轉(zhuǎn)不變的觀測(cè)數(shù)據(jù)的顯著特征管挟,因?yàn)閳D像的局部感受區(qū)域允許神經(jīng)元或者處理單元可以訪問到最基礎(chǔ)的特征,例如定向邊緣或者角點(diǎn)弄捕。
[if !supportLists]第2章[endif]總結(jié)
深度學(xué)習(xí)是關(guān)于自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達(dá)的算法僻孝。換句話來說,深度學(xué)習(xí)算法自動(dòng)的提取分類需要的低層次或者高層次特征守谓。高層次特征穿铆,一是指該特征可以分級(jí)(層次)地依賴其他特征,例如:對(duì)于機(jī)器視覺斋荞,深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá)荞雏,例如邊緣檢測(cè)器,小波濾波器等平酿,然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá)凤优,例如這些低層次表達(dá)的線性或者非線性組合,然后重復(fù)這個(gè)過程蜈彼,最后得到一個(gè)高層次的表達(dá)筑辨。
Deep learning能夠得到更好地表示數(shù)據(jù)的feature,同時(shí)由于模型的層次幸逆、參數(shù)很多棍辕,capacity足夠,因此还绘,模型有能力表示大規(guī)模數(shù)據(jù)楚昭,所以對(duì)于圖像、語音這種特征不明顯(需要手工設(shè)計(jì)且很多沒有直觀物理含義)的問題蚕甥,能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果哪替。此外,從模式識(shí)別特征和分類器的角度菇怀,deep learning框架將feature和分類器結(jié)合到一個(gè)框架中,用數(shù)據(jù)去學(xué)習(xí)feature晌块,在使用中減少了手工設(shè)計(jì)feature的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面)爱沟,因此,不僅僅效果可以更好匆背,而且呼伸,使用起來也有很多方便之處,因此,是十分值得關(guān)注的一套框架括享,每個(gè)做ML的人都應(yīng)該關(guān)注了解一下搂根。
當(dāng)然,deep learning本身也不是完美的铃辖,也不是解決世間任何ML問題的利器剩愧,不應(yīng)該被放大到一個(gè)無所不能的程度。
2)Deep learning未來
深度學(xué)習(xí)目前仍有大量工作需要研究娇斩。目前的關(guān)注點(diǎn)還是從機(jī)器學(xué)習(xí)的領(lǐng)域借鑒一些可以在深度學(xué)習(xí)使用的方法仁卷,特別是降維領(lǐng)域。例如:目前一個(gè)工作就是稀疏編碼犬第,通過壓縮感知理論對(duì)高維數(shù)據(jù)進(jìn)行降維锦积,使得非常少的元素的向量就可以精確的代表原來的高維信號(hào)。另一個(gè)例子就是半監(jiān)督流行學(xué)習(xí)歉嗓,通過測(cè)量訓(xùn)練樣本的相似性丰介,將高維數(shù)據(jù)的這種相似性投影到低維空間。另外一個(gè)比較鼓舞人心的方向就是evolutionary programming approaches(遺傳編程方法)鉴分,它可以通過最小化工程能量去進(jìn)行概念性自適應(yīng)學(xué)習(xí)和改變核心架構(gòu)哮幢。
Deep learning還有很多核心的問題需要解決:
(1)對(duì)于一個(gè)特定的框架,對(duì)于多少維的輸入它可以表現(xiàn)得較優(yōu)(如果是圖像冠场,可能是上百萬維)家浇?
(2)對(duì)捕捉短時(shí)或者長(zhǎng)時(shí)間的時(shí)間依賴,哪種架構(gòu)才是有效的碴裙?
(3)如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu)钢悲,融合多種感知的信息?
(4)有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu)舔株,以改進(jìn)其魯棒性和對(duì)扭曲和數(shù)據(jù)丟失的不變性莺琳?
(5)模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法?
探索新的特征提取模型是值得深入研究的內(nèi)容载慈。此外有效的可并行訓(xùn)練算法也是值得研究的一個(gè)方向惭等。當(dāng)前基于最小批處理的隨機(jī)梯度優(yōu)化算法很難在多計(jì)算機(jī)中進(jìn)行并行訓(xùn)練。通常辦法是利用圖形處理單元加速學(xué)習(xí)過程办铡。然而單個(gè)機(jī)器GPU對(duì)大規(guī)模數(shù)據(jù)識(shí)別或相似任務(wù)數(shù)據(jù)集并不適用辞做。在深度學(xué)習(xí)應(yīng)用拓展方面,如何合理充分利用深度學(xué)習(xí)在增強(qiáng)傳統(tǒng)學(xué)習(xí)算法的性能仍是目前各領(lǐng)域的研究重點(diǎn)寡具。
本文還介紹了用于圖像分類的不同方法秤茅,目前主流的分類方法還是用卷積神經(jīng)網(wǎng)絡(luò)。還了解了視網(wǎng)膜及其OCT圖像的具體結(jié)構(gòu)和特征童叠。