Rocchio分類(lèi)方法
- 步驟:
- 先把屬于一個(gè)類(lèi)別的樣本文檔轉(zhuǎn)換成文檔向量(tf-idf)礁遵。
-
求屬于一個(gè)類(lèi)別的樣本文檔的質(zhì)心向量(原型向量)轻绞。
其中Dc表示文檔集中屬于類(lèi)別c的子文檔的個(gè)數(shù),v(d)表示歸一化之后的文檔向量佣耐;上面后2個(gè)向量就是所求的質(zhì)心向量政勃。
- 判斷新文檔屬于哪個(gè)類(lèi)別。
-
基于超平面的方法:
在Rocchio分類(lèi)中晰赞,兩類(lèi)的邊界由那些到兩個(gè)類(lèi)質(zhì)心等距的點(diǎn)集組成稼病。二維平面上的一條直線在M維空間可 以推廣成一個(gè)超平面這個(gè)直線的點(diǎn)可以表示為:
-
歐式距離
將d分配到類(lèi)別c
-
余弦相似度
將d分配到類(lèi)別c
k鄰近分類(lèi)器
- 通過(guò)局部信息來(lái)確定類(lèi)別邊界
-
k的取值往往取決于經(jīng)驗(yàn)或者分類(lèi)問(wèn)題本身的有關(guān)知識(shí)选侨。k一般取奇數(shù)來(lái)減少多個(gè)主類(lèi)同時(shí)存在的可能性。k=3和k=5是兩組常用的取值援制。但是芍瑞,k也常取50到100之間的更大的值。另一種選取k值的方法是拆檬,取在訓(xùn)練集的留存數(shù)據(jù)上效果最好的k值。
Sk表示文檔d的k個(gè)近鄰文檔組成的集合答捕,如果d'屬于類(lèi)別c則Ic(d')=1拱镐,否則為0持际。最后將得分最高的類(lèi)別賦予文檔d蜘欲。