轉(zhuǎn)載:圖像特征提取與特征選擇基本方法總結(jié)
版權(quán)聲明:本文為博主原創(chuàng)文章霞丧,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議蛮浑,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/zx799959906/article/details/39369543
圖像特征的提取和選擇是圖像處理過程中很重要的環(huán)節(jié)淳地,對后續(xù)圖像分類有著重要的影響著拭,并且對于圖像數(shù)據(jù)具有樣本少,維數(shù)高的特點衡怀,要從圖像中提取有用的信息棍矛,必須對圖像特征進行降維處理,特征提取與特征選擇就是最有效的降維方法抛杨,其目的是得到一個反映數(shù)據(jù)本質(zhì)結(jié)構(gòu)够委、識別率更高的特征子空間 。
一.原始特征提取
1.圖像的基本特征
顏色特征
形狀特征
紋理特征
空間關(guān)系特征
2.基于顏色特征的提取方法?
顏色直方圖
顏色集怖现,是對顏色直方圖的一種近似茁帽,其將圖像表達為一個二進制的顏色索引集
顏色矩,其將圖像中任何的顏色分布用它的矩來表示
顏色聚合向量
顏色相關(guān)圖
顏色特征是一種全局特征屈嗤,描述了圖像或圖像區(qū)域所對應(yīng)的景物的表面性質(zhì)潘拨。由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感饶号,所以顏色特征不能很好的捕捉圖像中對象的局部特征铁追。另外,僅使用顏色特征查詢時茫船,如果數(shù)據(jù)庫很大琅束,常會將許多不需要的圖像也檢索出來癣蟋。顏色直方圖是最常用的表達顏色特征的方法,其優(yōu)點是不受圖像旋轉(zhuǎn)和平移變化的影響狰闪,進一步借助歸一化還可不受圖像尺度變化的影響疯搅,基缺點是沒有表達出顏色空間分布的信息。
3.基于紋理特征的提取方法
基于統(tǒng)計的灰度共生矩陣和能量譜函數(shù)法
幾何法埋泵,例如基于圖像基元的結(jié)構(gòu)化方法
模型法幔欧,以圖像的構(gòu)造模型為基礎(chǔ),采用模型參數(shù)作為紋理特征丽声,典型的方法有隨機場模型法
信號處理法礁蔗,例如,小波變換
紋理特征也是一種全局特征雁社,它也描述了圖像或圖像區(qū)域所對應(yīng)景物的表面性質(zhì)浴井。作為一種統(tǒng)計特征,紋理特征常具有旋轉(zhuǎn)不變性霉撵,并且對于噪聲有較強的抵抗能力磺浙。但紋理只是一種物體表面的特性,無法完全反映出物體的本質(zhì)屬性徒坡,所以僅利用紋理特征無法獲得高層次圖像內(nèi)容撕氧,且紋理特征還有一個很明顯的缺點是當(dāng)圖像的分辨率變化的時候,所計算出來的紋理可能會有較大偏差喇完。
4.基于形狀特征的提取方法
基于邊界的伦泥,例如Hough變換,傅里葉變換等
基于區(qū)域的锦溪,例如矩不變量不脯,幾何矩特征,轉(zhuǎn)動慣量等
其他方法刻诊,例如有限元法防楷,旋轉(zhuǎn)函數(shù)和小波描述符等
基于形狀特征的檢索方法都可以比較有效地利用圖像中感興趣的目標來進行檢索 ,但也存在一些問題坏逢,例如當(dāng)目標有變形時檢索結(jié)果就不太可靠域帐,且許多形狀特征僅描述了目標的局部特征,對全面描述目標有較高的時間和空間要求等是整。
5.基于空間關(guān)系的特征提取方法
空間關(guān)系肖揣,是指圖像中分割出來的多個目標之間的相互的空間位置或相對方向關(guān)系,這些關(guān)系可分為連接/鄰接關(guān)系浮入、交疊/重疊關(guān)系和包含/包容關(guān)系等龙优。提取圖像空間關(guān)系特征可以有兩種方法:一種方法是首先對圖像進行自動分割,劃分出圖像中所包含的對象或顏色區(qū)域事秀,然后根據(jù)這些區(qū)域提取圖像特征彤断,并建立索引野舶;另一種方法則簡單地將圖像均勻地劃分為若干規(guī)則子塊,然后對每個圖像子塊提取特征宰衙,并建立索引平道。
空間關(guān)系特征的使用可加強對圖像內(nèi)容的描述區(qū)分能力,但空間關(guān)系特征常對圖像或目標的旋轉(zhuǎn)供炼、反轉(zhuǎn)一屋、尺度變化等比較敏感。另外袋哼,實際應(yīng)用中冀墨,僅僅利用空間信息往往是不夠的,不能有效準確地表達場景信息涛贯。
6.小結(jié)
上述特征提取方法是圖像特征的初步獲取诽嘉,其各有利弊。針對不同的實際問題弟翘,可選擇適當(dāng)?shù)膱D像特征提取方法虫腋。但有時僅用單一的特征來進行圖像檢索或匹配,其結(jié)果準確度不高衅胀,為了提高準確度岔乔,有人提出了多特征融合的圖像檢索或匹配技術(shù)。
二.特征提取
對于初步獲取的圖像特征滚躯,可能維數(shù)依然很大,且可能包含一定的無關(guān)或冗余特征嘿歌。這里的特征提取是指從初步獲取的原始特征中通過一定的數(shù)學(xué)運算得到一組新的特征也稱作特征變換掸掏,其可以有效的降低特征空間維數(shù)和消除特征之間可能存在的相關(guān)性,減少特征中的無用信息宙帝。
1.特征提取的基本方法
線性方法丧凤,如主成分分析法(PCA),線性判別分析法(LDA)步脓,多維尺度法(MDS)
非線性方法愿待,如核方法(KPCA,KDA)靴患,流型學(xué)習(xí)
2.主成分分析法
PCA方法是從一組特征中通過求解最優(yōu)的正交變換仍侥,得到一組相互間方差最大的新特征,它們是原始特征的線性組合鸳君,且相互之間是不相關(guān)的农渊,再對新特征進行重要性排序,選取前幾個主成分或颊。用較少的主成分來表示數(shù)據(jù)砸紊,可以實現(xiàn)特征的降維传于,還可以消除數(shù)據(jù)中的噪聲。該算法不考慮樣本的類別信息醉顽,是一種無監(jiān)督的方法沼溜。
3.線性判別方法
該方法基本思想是將高維的數(shù)據(jù)樣本投影到最佳判別的矢量空間,以達到提取分類信息和壓縮特征空間維數(shù)的效果游添,投影后保證數(shù)據(jù)樣本在新的子空間類間距離最大和類內(nèi)距離最小盛末,即樣本數(shù)據(jù)在該空間中有最佳的可分離性。Fisher線性判別分析是最具有代表性的LDA 法否淤。
4.多維尺度法
MDS是一種很經(jīng)典的數(shù)據(jù)映射方法悄但,其根據(jù)樣本之間的距離關(guān)系或不相似度關(guān)系在低維空間里生成對樣本的一種表示。MDS分為度量型和非度量型兩種石抡,度量型MDS把樣本間的距離關(guān)系或不相似度關(guān)系看作一種定量的度量檐嚣,盡可能的在低維空間里保持這種度量關(guān)系;非度量型MDS把樣本間的距離關(guān)系或不相似度關(guān)系看作一種定性的關(guān)系啰扛,在低維空間里只需保持這種關(guān)系的順序嚎京。
5.核主成分分析法
該方法對樣本進行非線性變換,通過在變換空間進行主成分分析來實現(xiàn)在原空間的非線性主成分分析隐解。根據(jù)可再生希爾伯特空間的性質(zhì)鞍帝,在變換空間中的協(xié)方差矩陣可以通過原空間中的核函數(shù)進行運算,從而繞過復(fù)雜的非線性變換煞茫。核方法對于不同的問題選擇合適的核函數(shù)類型帕涌,不同的核函數(shù)類型反映了對數(shù)據(jù)分布的不同假設(shè),也可以看作是對數(shù)據(jù)引入了一種非線性距離度量续徽。
6.基于流型學(xué)習(xí)的方法
其基本思想是通過局部距離來定義非線性距離度量蚓曼,在樣本分布較密集的情況下可以實現(xiàn)各種復(fù)雜的非線性距離度量。具體方法有:
等容特征映射(IsoMap)--歐氏距離累加
局部線性嵌入(LLE)--近鄰樣本線性重構(gòu)
拉普拉斯特征映射(LE)--鄰域選取和樣本間相似度表達
其他改進算法
三.特征選擇
特征選擇也是降低特征空間維數(shù)的一種基本方法钦扭,它是用計算的方法從一組給定的特征中選出能夠有效識別目標的最小特征子集纫版。與特征提取最本質(zhì)的區(qū)別就是特征提取主要是從原特征空間到新特征空間的一種變換,特征提取到的子特征會失去對類別原有主觀意義的具體解釋客情,而特征選擇可以保持對這中具體意義的解釋其弊。
1.特征選擇的基本步驟
候選特征子集的生成(搜索策略)
子集評價(評價準則)
停止準則
結(jié)果驗證
2.特征選擇方法分類
根據(jù)搜索策略和評價準則的不同,可對特征選擇方法進行如下分類:
按搜索策略分:
基于全局尋優(yōu)的分支定界法
該方法是一種從包含所有候選特征開始膀斋,逐步去掉不被選中的特征的自頂向下的方法梭伐,具有回溯的過程,能夠考慮到所有可能的組合概页。
其基本思想是:設(shè)法將所有可能的特征組合構(gòu)建成一個樹狀結(jié)構(gòu)籽御,按照特定的規(guī)律對樹進行搜索,使得搜索過程盡可能早的達到最優(yōu)解而不必遍歷整棵樹。
要做到這一點必須要求準則判據(jù)對特征具有單調(diào)性技掏,且當(dāng)處理高維數(shù)據(jù)時铃将,算法復(fù)雜度較高想幻,所以很難廣泛使用谆趾。
基于啟發(fā)式搜索的方法
很多情況下犁嗅,即使采取分支定界法片迅,全局尋優(yōu)的方法計算量可能仍然很大,因此提出了一些基于啟發(fā)式搜索的次優(yōu)選擇算法:單獨最優(yōu)特征組合谦去,序列前向選擇(SFS)及廣義的SFS(GSFS)囱修,序列后向選擇(SBS)及廣義的SBS(GSFS)想诅,增l去r選擇及廣義的增l去r選擇方法吠卷,浮動搜索方法及浮動的廣義后向選擇方法(FGSBS)等锡垄。
隨機搜索方法
該類方法在計算中將特征選擇問題與遺傳算法、模擬退火算法祭隔、粒子群優(yōu)化算法货岭,隨機森林或一個隨機重采樣過程結(jié)合起來,以概率推理和采樣過程作為算法基礎(chǔ)疾渴,基于分類估計的有效性千贯,在算法運行過程中對每個特征賦予一定的權(quán)重,再根據(jù)給定的或自適應(yīng)的閾值對特征的重要性進行評價搞坝。例如搔谴,Relief及其擴展算法就是一種典型的根據(jù)權(quán)重選擇特征的隨機搜索方法,它能有效的去掉無關(guān)特征桩撮,但不能去除冗余特征敦第,且只能用于兩類分類問題。
按評價準則分:
特征選擇方法依據(jù)是否獨立于后續(xù)的學(xué)習(xí)算法可分為過濾式(Filter)和封裝式(Wrapper)和嵌入式(Embedded)三種距境。Filter方式獨立于學(xué)習(xí)算法申尼,直接利用訓(xùn)練數(shù)據(jù)的統(tǒng)計特性來評估特征。Wrapper方式利用學(xué)習(xí)算法的訓(xùn)練準確率來評價特征子集垫桂。Embedded方式結(jié)合了Filter和Wrapper方式。
Filter方式
Filter式的特征選擇方法一般使用評價準則來使特征與類別間的相關(guān)性最大粟按,特征間的相關(guān)性最小诬滩。該方式可以很快的排除掉很多不相關(guān)的噪聲特征,縮小優(yōu)化特征子集搜索的規(guī)模灭将,計算效率高疼鸟,通用性好,可用作特征的預(yù)篩選器庙曙。但當(dāng)特征和分類器息息相關(guān)時空镜,該方法不能保證選擇出一個優(yōu)化特征子集,即使能找到一個滿足條件的優(yōu)化子集,其計算規(guī)模也比較大吴攒。根據(jù)評價函數(shù)可分為四類:
a.基于距離度量的
常用的距離度量有:歐氏距離张抄,Minkowski距離,Chebychev距離和平方距離等洼怔。
Relief及其擴展算法ReliefF和RRelidfF署惯,分支定界法和BFF算法都是基于距離度量的特征選擇算法。
b.基于信息度量的
常用信息度量:信息增益與互信息镣隶,信息增益:可以有效的選出關(guān)鍵特征极谊,剔除無關(guān)特征;互信息:描述兩個隨機變量之間相互依存關(guān)系的強弱安岂,常見算法如下:
基于互信息的MIFS算法
基于最小冗余最大相關(guān)(mRMR)的方法
基于互信息的快速濾波算法FCBF
基于條件互信息的CMIM算法
基于動態(tài)互信息的特征選擇算法
由于信息熵理論不要求假定數(shù)據(jù)分布是已知的能夠以量化的形式度量特征間的不確定程度轻猖,且能有效地度量特征間的非線性關(guān)系,基于信息度量的特征選擇算法成為近年來研究的熱點域那,提出了許多基于信息理論的改進算法咙边。
c.基于依賴性度量的
該方法利用一些統(tǒng)計相關(guān)系數(shù),如Pearson相關(guān)系數(shù)琉雳,F(xiàn)isher得分样眠,方差得分,t檢驗翠肘,秩和檢驗或Hilbert-Schmidt依賴性準則等來度量特征相對于類別可分離性間的重要性程度檐束。有人提出了一種基于稀疏表示的特征選擇方法,且在人臉圖像聚類實驗中取得了較好的結(jié)果束倍。
d.基于一致性度量的
該方法其思想是尋找全集有相同區(qū)分能力的最小子集被丧,盡可能保留原始特征的辨識能力。它具有單調(diào)绪妹、快速甥桂、去除冗余和不相關(guān)特征、處理噪聲等優(yōu)點邮旷,但其對噪聲數(shù)據(jù)敏感黄选,且只適合處理離散特征。
典型的算法有Focus婶肩,LVF等办陷。
Wrapper方式
Wrapper方式依據(jù)選擇子集最終被用于構(gòu)造分類模型,把特征選擇算法作為學(xué)習(xí)算法的一個組成部分律歼,直接使用訓(xùn)練結(jié)果的準確率作為特征重要性程度的評價標準民镜。該方法在速度上要比Filter方式慢,但它所選的優(yōu)化特征子集規(guī)模相對要小的多险毁,非常有利于關(guān)鍵特征的辨識制圈;同時其準確率比較高们童,但泛化能力較差,時間復(fù)雜度較高鲸鹦。
目前慧库,關(guān)于Wrapper方式的研究也比較多,例如:
Hsu等人用決策樹來進行特征選擇亥鬓,采用遺傳算法來尋找使得決策樹分類錯誤率最小的一組特征子集
Chiang等人將Fisher判別分析與遺傳算法結(jié)合完沪,用于化工故障過程中辨識關(guān)鍵變量,其效果也不錯嵌戈。
Guyon等人利用支持向量機的分類性能衡量特征的重要性覆积,最終構(gòu)造了一個分類性能較高的分類器。
Krzysztof提出了一種基于相互關(guān)系的雙重策略的Wrapper特征選擇方法FFSR(fast feature subset ranking)熟呛,以特征子集作為評價單位宽档,以子集收斂能力作為評價標準
戴平等人提出了一種基于SVM的快速特征選擇方法
Embedded方式
針對Filter和Wrapper方式的利弊,提出了Embedded方式的特征選擇方法庵朝,該方式先用filter方法初步去掉無關(guān)或噪聲特征吗冤,只保留少量特征,減少后續(xù)搜索規(guī)模九府,然后再用Wrapper方法進一步優(yōu)化椎瘟,選擇分類準確率最高的特征子集。例如侄旬,Li G-Z等人先使用互信息度量標準和隨機重采樣技術(shù)獲取前k個重要特征肺蔚,再使用SVM構(gòu)造分類器。
四.總結(jié)
從圖像中提取特征儡羔,首先根據(jù)具體的問題宣羊,判斷選取的圖像特征,如顏色或紋理汰蜘。針對不同的特征選擇具體的提取方法仇冯,如常用的基于顏色特征的顏色直方圖或基于紋理的灰度共生矩陣和小波變換等。這是第一步對圖像原始特征的提取族操。由于原始特征可能維數(shù)很高苛坚,或包含大量的冗余特征和無關(guān)特征,會使后續(xù)算法的計算復(fù)雜度變得很高色难,所以進一步進行特征提取和特征選擇炕婶,抽取樣本最相關(guān)特征,降低數(shù)據(jù)維數(shù)和消除不相關(guān)特征和冗余特征莱预。
統(tǒng)計意義上的特征提取是由獲取到的原始特征經(jīng)過線性或非線性變換得到較少數(shù)量且更具有的表達能力的新特征。常用的線性變換有PCA项滑、LDA依沮、MDS涯贞,非線性變換有KPCA、流型學(xué)習(xí)等危喉。有時基本的特征提取方法由于自身的局限性或不能滿足在某些具體問題中的要求宋渔,就需要對這些方法進行改進。例如辜限,PCA不考慮樣本類別皇拣,因此得到的低維空間相對判別分類而言不是最優(yōu)的;在樣本類內(nèi)分布為高斯分布且協(xié)方差相同時薄嫡,LDA可以得到最優(yōu)線性判別分析轉(zhuǎn)換矩陣氧急,但現(xiàn)實世界中類內(nèi)分布的復(fù)雜度遠遠超出了高斯分布;MDS方法中目標函數(shù)的定義及對該目標函數(shù)最小化選擇適合的優(yōu)化方法毫深;KPCA方法中核函數(shù)的選擇與核函數(shù)的參數(shù)設(shè)定等吩坝,都需要根據(jù)具體的情況選擇與設(shè)定;關(guān)于流型學(xué)習(xí)中的各種方法哑蔫,在樣本分布較稀疏時钉寝,對近鄰樣本間距離的度量可能會有較大的偏差。
特征提取技術(shù)很難解釋新特征與樣本類別之間的相互關(guān)系闸迷,但在某些領(lǐng)域內(nèi)對這種相互關(guān)系的理解卻很重要嵌纲,所以,在這種情況下腥沽,特征選擇就更加有效逮走。特征選擇是指從原始特征中選擇最少的特征,使所選特征與類別之間具有最大相關(guān)度巡球,特征與特征之間具有最小相關(guān)度言沐。根據(jù)評價標準是否依賴于具體的學(xué)習(xí)算法,特征選擇算法分為Filter酣栈,Wrapper险胰,Embedded三種方式。Filter方式依據(jù)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)特征選擇最相關(guān)的特征矿筝,該方式主要是選取對樣本距離及相關(guān)性的度量準則起便。直接依賴學(xué)習(xí)算法準確率的Wrapper方式,主要是對學(xué)習(xí)算法的選擇窖维,通常選擇SVM作為評估標準榆综。Embeded方式將特征選擇視為學(xué)習(xí)算法的子系統(tǒng),該算法計算復(fù)雜度介于Wrapper和Filter方式之間铸史,選擇的特征比Filter方式更準確鼻疮,但需要與新設(shè)計的算法相結(jié)合。
最后琳轿,獲取特征子集的選擇策略判沟,在高維樣本空間對所有候選子集進行評估測試是不實際的耿芹。最優(yōu)特征選擇算法-分支界定法不僅對準則判據(jù)有要求,且計算量還是很大挪哄,所以又提出了基于啟發(fā)式的次優(yōu)選擇算法吧秕,還可以利用一些群智能的隨機搜索算法,例如GA迹炼、PSO砸彬、SAA,可以更好的提高搜索效率斯入。