1.BOW: Bag of words 詞袋模型焦蘑。
2.Bg: 最初被用在文本分類中,將文檔表示成特征矢量冕末。它的基本思想是假定對于一個文本萍歉,忽略其詞序和語法、句法(這也是詞袋模型的缺點)档桃,僅僅將其看做是一些詞匯的集合,而文本中的每個詞匯都是獨立的憔晒。簡單說就是講每篇文檔都看成一個袋子(因為里面裝的都是詞匯藻肄,所以稱為詞袋。
3.實例:
文檔一:Bob likes to play basketball, Jim likes too.
文檔二:Bob also likes to play football games.
首先基于這兩個文本文檔拒担,構(gòu)造一個詞典:
Dictionary = {1:”Bob”, 2. “l(fā)ike”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”嘹屯,8. “games”, 9. “Jim”, 10. “too”}。
然后這個詞典一共包含10個不同的單詞从撼,利用詞典的索引號州弟,上面兩個文檔每一個都可以用一個10維向量表示(用整數(shù)數(shù)字0~n(n為正整數(shù))表示某個單詞在文檔中出現(xiàn)的次數(shù)):
1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]