Bag-of-words模型是信息檢索領(lǐng)域常用的文檔表示方法。在信息檢索中灭将,BOW模型假定對(duì)于一個(gè)文檔疼鸟,忽略它的單詞順序和語(yǔ)法、句法等要素庙曙,將其僅僅看作是若干個(gè)詞匯的集合空镜,文檔中每個(gè)單詞的出現(xiàn)都是獨(dú)立的,不依賴(lài)于其它單詞是否出現(xiàn)捌朴。也就是說(shuō)吴攒,文檔中任意一個(gè)位置出現(xiàn)的任何單詞,都不受該文檔語(yǔ)意影響而獨(dú)立選擇的砂蔽。例如有如下兩個(gè)文檔:
1:Bob?likes?to?play?basketball,?Jim?likes?too.
2:Bob?also?likes?to?play?football?games.
基于這兩個(gè)文本文檔洼怔,構(gòu)造一個(gè)詞典:
Dictionary?=?{1:”Bob”,?2.“l(fā)ike”,?3.“to”,?4.“play”,?5.“basketball”,?6.“also”,?7.“football”,?8.“games”,?9.“Jim”,?10.“too”}。
這個(gè)詞典一共包含10個(gè)不同的單詞左驾,利用詞典的索引號(hào)镣隶,上面兩個(gè)文檔每一個(gè)都可以用一個(gè)10維向量表示(用整數(shù)數(shù)字0~n(n為正整數(shù))表示某個(gè)單詞在文檔中出現(xiàn)的次數(shù)):
1:[1,?2,?1,?1,?1,?0,?0,?0,?1,?1]
2:[1,?1,?1,?1?,0,?1,?1,?1,?0,?0]
向量中每個(gè)元素表示詞典中相關(guān)元素在文檔中出現(xiàn)的次數(shù)(下文中泽台,將用單詞的直方圖表示)。不過(guò)矾缓,在構(gòu)造文檔向量的過(guò)程中可以看到怀酷,我們并沒(méi)有表達(dá)單詞在原來(lái)句子中出現(xiàn)的次序(這是本Bag-of-words模型的缺點(diǎn)之一,不過(guò)瑕不掩瑜甚至在此處無(wú)關(guān)緊要)嗜闻。