1.K-D樹
概念:一種分割k維數(shù)據(jù)空間的數(shù)據(jù)結(jié)構(gòu)。
構(gòu)造過程:
(1)針對k條坐標(biāo)軸方向纲酗,分別在每個(gè)方向上統(tǒng)計(jì)所有點(diǎn)的數(shù)據(jù)方差脚猾。并在k個(gè)方差選擇最大的,將其方向作為分割方向抡草。(數(shù)據(jù)方差大表明沿該坐標(biāo)軸方向上的數(shù)據(jù)分散得比較開饰及,在這個(gè)方向上進(jìn)行數(shù)據(jù)分割有較好的分辨率。)
(2)選出分割方向上中間的一點(diǎn)康震,用其將數(shù)據(jù)點(diǎn)分割成左右兩部分燎含。
(3)對左右兩部分?jǐn)?shù)據(jù)重復(fù)(1)(2)操作,直至每個(gè)子空間中只剩一個(gè)數(shù)據(jù)點(diǎn)腿短。
查詢步驟:
(1)從根節(jié)點(diǎn)開始屏箍,通過二叉搜索,查找到與目標(biāo)點(diǎn)距離最近的一點(diǎn)A橘忱,并在棧中順序存儲已經(jīng)遍歷的節(jié)點(diǎn)铣除。
(2)以目標(biāo)點(diǎn)為圓心,以兩點(diǎn)間距離為半徑作圓鹦付,若與父節(jié)點(diǎn)的分割線(超平面)相交尚粘,則對分割線另一邊進(jìn)行二叉搜索。
(3)若不相交敲长,則按棧中存儲的節(jié)點(diǎn)進(jìn)行回溯郎嫁,若當(dāng)前節(jié)點(diǎn)比A距離更近,則更新A祈噪。
(4)直至回溯到root點(diǎn)泽铛,此時(shí)的A點(diǎn)即為最近鄰接點(diǎn)。
2.Bag of words
概念:該模型忽略掉文本的語法和語序辑鲤,用一組無序的單詞(words)來表達(dá)一段文字或一個(gè)文檔盔腔。近年來,BoW模型被廣泛應(yīng)用于計(jì)算機(jī)視覺中月褥。與應(yīng)用于文本的BoW類比弛随,圖像的特征(feature)被當(dāng)作單詞(Word)。文本方面:例如有下面兩句話:
John likes to watch movies. Mary likes movies too.
John also likes to watch football games.
可生成如下詞典:
[“John”,?“l(fā)ikes”,?“to”,?“watch”,?“movies”,?“also”,?“football”,?“games”,?“Mary”,?“too”]
根據(jù)這個(gè)詞典宁赤,可以將這兩句話轉(zhuǎn)換成兩個(gè)向量:
[1, 2, 1, 1, 2, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
這兩個(gè)向量共包含10個(gè)元素舀透,其中第i個(gè)元素表示詞典中第i個(gè)單詞在句子中出現(xiàn)的次數(shù)。因此BoW模型可認(rèn)為是一種統(tǒng)計(jì)直方圖(histogram)决左。在文本檢索和處理應(yīng)用中愕够,可以通過該模型很方便的計(jì)算詞頻走贪。
計(jì)算機(jī)視覺方面:將圖像可以類比作文檔,圖像中的特征點(diǎn)類比成詞匯惑芭,那么圖像的BoW模型即是“圖像中所有圖像塊的特征點(diǎn)得到的直方圖”.建立BoW模型主要分為如下幾個(gè)步驟:
(1)特征提取
假設(shè)有N張圖像坠狡,第i張圖像可由n(i)個(gè)特征點(diǎn)表示,則總共能得到sum(n(i))個(gè)特征點(diǎn)遂跟。
(2)生成詞典/碼本(codebook)
對上一步得到的特征向量進(jìn)行聚類(可以使用K-means等聚類方法)逃沿,得到K個(gè)聚類中心,用聚類中心構(gòu)建碼本漩勤。
(3)根據(jù)碼本生成直方圖
對每張圖片,通過最近鄰計(jì)算該圖片的每個(gè)特征點(diǎn)應(yīng)該屬于codebook中的“哪一類”特征點(diǎn)感挥,從而得到該圖片對應(yīng)于該碼本的BoW表示。匹配兩個(gè)圖片的直方圖越败,就可判斷其相似度触幼。
3.TF-IDF
概念:term frequency–inverse document frequency是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。
TF:詞頻究飞,計(jì)算方法:置谦,分子為詞條i在文檔j中出現(xiàn)的次數(shù),分母為文檔j所有詞條出現(xiàn)的總次數(shù)亿傅。
IDF:逆向文件頻率(inverse document frequency媒峡,IDF)是一個(gè)詞語普遍重要性的度量,計(jì)算方法:
分子為庫中文檔數(shù)目葵擎,分母為庫中所有包含詞條i的文檔數(shù)目谅阿。
TF-IDF:即為TF*IDF,以此來計(jì)算某個(gè)詞條的權(quán)重酬滤,形式較多签餐,上面僅列出其中一種表示。
4.K-means clustering
概念:把數(shù)據(jù)分成幾組盯串,按照定義的測量標(biāo)準(zhǔn)氯檐,同組內(nèi)數(shù)據(jù)與其他組數(shù)據(jù)相比具有較強(qiáng)的相似性,這就叫聚簇体捏。聚簇是數(shù)據(jù)挖掘最基礎(chǔ)的操作冠摄,但現(xiàn)在存在的一些傳統(tǒng)聚簇方法已不能滿足處理復(fù)雜類型的、高維的几缭、任意分布形狀的數(shù)據(jù)集合的需要河泳。
k-means算法就是用得最多的一種傳統(tǒng)的聚簇方法,是一種劃分法奏司,相似度的計(jì)算是求數(shù)據(jù)對象與簇中心的距離乔询,與簇中心距離近的就劃為一個(gè)簇。工作流程:
(1)隨機(jī)地選擇k個(gè)對象韵洋,每個(gè)對象初始地代表了一個(gè)簇的平均值或中心竿刁。
(2)對剩余的每個(gè)對象,根據(jù)其與各個(gè)簇中心的距離搪缨,將其賦給最近的簇食拜。
(3)重新計(jì)算每個(gè)簇的平均值,求出新的簇中心副编,再重新聚簇负甸。
(4)不斷重復(fù)(2)(3),直到準(zhǔn)則函數(shù)收斂痹届。
分析:該算法的時(shí)間復(fù)雜度是O(nkt)呻待,其中n是所有對象數(shù)目,k是簇的數(shù)目队腐,t是迭代次數(shù)蚕捉。它的效率比較高;缺點(diǎn)是只能處理數(shù)值型數(shù)據(jù)柴淘,不能處理分類數(shù)據(jù)迫淹,對例外數(shù)據(jù)非常敏感,不能處理非凸面形狀的聚簇为严。
5.SIFT
6.SVM