信息檢索復(fù)習(xí)(7)——基于向量空間模型的文本分類(lèi)巴比、Rocchio、KNN

Rocchio分類(lèi)方法

  • 步驟:
    1. 先把屬于一個(gè)類(lèi)別的樣本文檔轉(zhuǎn)換成文檔向量(tf-idf)礁遵。
    2. 求屬于一個(gè)類(lèi)別的樣本文檔的質(zhì)心向量(原型向量)轻绞。



      其中Dc表示文檔集中屬于類(lèi)別c的子文檔的個(gè)數(shù),v(d)表示歸一化之后的文檔向量佣耐;上面后2個(gè)向量就是所求的質(zhì)心向量政勃。

    3. 判斷新文檔屬于哪個(gè)類(lèi)別。
    • 基于超平面的方法:
      在Rocchio分類(lèi)中晰赞,兩類(lèi)的邊界由那些到兩個(gè)類(lèi)質(zhì)心等距的點(diǎn)集組成稼病。二維平面上的一條直線在M維空間可 以推廣成一個(gè)超平面這個(gè)直線的點(diǎn)可以表示為:


  • 歐式距離
    將d分配到類(lèi)別c


  • 余弦相似度
    將d分配到類(lèi)別c



k鄰近分類(lèi)器

  • 通過(guò)局部信息來(lái)確定類(lèi)別邊界
  • k的取值往往取決于經(jīng)驗(yàn)或者分類(lèi)問(wèn)題本身的有關(guān)知識(shí)选侨。k一般取奇數(shù)來(lái)減少多個(gè)主類(lèi)同時(shí)存在的可能性。k=3和k=5是兩組常用的取值援制。但是芍瑞,k也常取50到100之間的更大的值。另一種選取k值的方法是拆檬,取在訓(xùn)練集的留存數(shù)據(jù)上效果最好的k值。



    Sk表示文檔d的k個(gè)近鄰文檔組成的集合答捕,如果d'屬于類(lèi)別c則Ic(d')=1拱镐,否則為0持际。最后將得分最高的類(lèi)別賦予文檔d蜘欲。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末姥份,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子朱庆,更是在濱河造成了極大的恐慌闷祥,老刑警劉巖凯砍,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件悟衩,死亡現(xiàn)場(chǎng)離奇詭異栓拜,居然都是意外死亡惠昔,警方通過(guò)查閱死者的電腦和手機(jī)镇防,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)来氧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)啦扬,“玉大人凫碌,你說(shuō)我怎么就攤上這事∶樘” “怎么了枉层?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵鸟蜡,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我跳座,道長(zhǎng)疲眷,這世上最難降的妖魔是什么您朽? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任哗总,我火速辦了婚禮,結(jié)果婚禮上蛋哭,老公的妹妹穿的比我還像新娘涮母。我一直安慰自己躁愿,他們只是感情好彤钟,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布样勃。 她就那樣靜靜地躺著性芬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪辫樱。 梳的紋絲不亂的頭發(fā)上俊庇,一...
    開(kāi)封第一講書(shū)人閱讀 52,262評(píng)論 1 308
  • 那天辉饱,我揣著相機(jī)與錄音,去河邊找鬼缔逛。 笑死姓惑,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的敦冬。 我是一名探鬼主播唯沮,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼介蛉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起竿滨,我...
    開(kāi)封第一講書(shū)人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎垫言,沒(méi)想到半個(gè)月后倾剿,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡凛捏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年坯癣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了示罗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片芝硬。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖绍绘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情脯倒,我是刑警寧澤捺氢,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布摄乒,位于F島的核電站,受9級(jí)特大地震影響馍佑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜茵臭,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一旦委、第九天 我趴在偏房一處隱蔽的房頂上張望奇徒。 院中可真熱鬧摩钙,春花似錦查辩、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至遣铝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間瘫絮,已是汗流浹背填硕。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留壮莹,地道東北人姻檀。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓绣版,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親诈唬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容