這是我的影評(píng)，你猜我喜不喜歡這部電影

前言

最近拿了一份IMDb影評(píng)數(shù)據(jù)做練習(xí)有巧，對(duì)（英文的）自然語言處理（Natural Language Processing您访，NLP）有了初步的認(rèn)識(shí)，同時(shí)對(duì)特征工程和Stacking有了更深的理解剪决。

這篇文章記錄一下這次練習(xí)的過程灵汪。

一些需要說明的：

數(shù)據(jù)來源：Sentiment Labelled Sentences Data Set - UCI ML Repository
建模目標(biāo)：構(gòu)建影評(píng)分類器，判斷一份影評(píng)是正面還是負(fù)面的
建模結(jié)果：分類器整體準(zhǔn)確率近0.8（基于0.56的分類閾值）
Tutorial來源：Spooky Author Identification - Kaggle
分析環(huán)境：Python 3.6
使用到的庫：numpy柑潦，pandas享言，matplotlib，seaborn渗鬼，string览露，nltk，sklearn譬胎，xgboost

數(shù)據(jù)集

官方介紹：

This dataset contains sentences labelled with positive or negative sentiment.
The sentences come from three different websites/fields:
imdb.com
amazon.com
yelp.com
For each website, there exist 500 positive and 500 negative sentences. Those were selected randomly for larger datasets of reviews.

這里我只用到了IMDb的1000條影評(píng)差牛，它具體長(zhǎng)這樣：

001 - IMDb影評(píng)數(shù)據(jù)

每一行表示一條影評(píng)，comment列顯示影評(píng)的具體內(nèi)容堰乔，is_pos列顯示該觀眾喜歡（is_pos = 1）還是不喜歡（is_pos = 0）這部電影偏化。

is_pos是此次分析的目標(biāo)特征，其中镐侯，正面和負(fù)面影評(píng)各占50%：

002 - 正面與負(fù)面影評(píng)各占50%

我們需要做的是侦讨，根據(jù)這些已有的影評(píng)數(shù)據(jù)構(gòu)建一個(gè)分類模型，這個(gè)模型能夠根據(jù)一份影評(píng)返回一個(gè)結(jié)果：這位觀眾喜歡/不喜歡這部電影。

文本特征提取

由于原始影評(píng)是非結(jié)構(gòu)化的韵卤，算法不能對(duì)其直接進(jìn)行學(xué)習(xí)骗污，所以我們需要通過特征工程，提取出數(shù)據(jù)中的結(jié)構(gòu)化信息沈条，從而構(gòu)建學(xué)習(xí)模型需忿。

我基于原始文本，構(gòu)建了43個(gè)新特征：

003 - 特征總覽圖

1. Features related to texts

詞數(shù)（number of words）：#words蜡歹，即一份影評(píng)總共有多少個(gè)詞
非重復(fù)詞占比（ratio of unique words）：#unique words / #words
Stop words占比（ratio of stopwords）：#stop words / #words贴谎，其中，stop words指的是在英文中一些出現(xiàn)頻率很高但沒有特殊含義的常用詞季稳，比如a擅这，the
標(biāo)點(diǎn)符號(hào)占比（ratio of punctuations）：#punctuations / #words
名詞占比（ratio of nouns）：#nouns / #words
形容詞占比（ratio of adj）：#adj / #words
動(dòng)詞占比（ratio of verbs）：#verbs / #words
標(biāo)題詞占比（ratio of title words）：#title words / #words，其中景鼠，title words指的是首字母為大寫的詞
平均詞長(zhǎng)（mean length of words）：sum(length of each word in a text) / #words仲翎，即一份影評(píng)中，平均每個(gè)詞的長(zhǎng)度（平均每個(gè)詞有多少個(gè)字母）
文本字符長(zhǎng)度（count of characters）：len(text)
積極詞占比（ratio of positive words）：#positive words / #words铛漓，其中溯香，積極詞詞庫出自這里

2. Features related to vectorizers

這部分的特征涉及以下幾個(gè)概念：

Tokenization：文本詞條（tokens）化，如將句子 "I like this move." 分解為 "I", "like", "this", "movie"
Count Vectorization：將一個(gè)語料庫（corpus）轉(zhuǎn)化為基于詞頻的矩陣浓恶，矩陣的每一行代表一個(gè)文本玫坛，每一列代表某個(gè)詞條在該文本中出現(xiàn)的次數(shù)
TF-IDF： Term Frequency-Inverse Document Frequency，用于評(píng)估一字詞對(duì)于一個(gè)語料庫中的其中一份文件的重要程度包晰，字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加湿镀，但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。
TF-IDF Vctorization：將一個(gè)語料庫轉(zhuǎn)化為基于TF-IDF值的矩陣伐憾，矩陣的每一行代表一個(gè)文本勉痴，每一列代表某個(gè)詞條在該文本下的TF-IDF值
SVD：奇異值分解（Singular Value Decomposition），線性代數(shù)中的一種矩陣分解方法树肃，在NLP中常與TF-IDF矩陣結(jié)合蒸矛，進(jìn)行特征降維（Feature Decomposition）
Stacking：集成學(xué)習(xí)方法（Ensemble Learning）的一種，思路大致如下：先通過不同算法得出一組預(yù)測(cè)值胸嘴，再將這組預(yù)測(cè)值作為輸入特征進(jìn)行學(xué)習(xí)雏掠，從而得到數(shù)據(jù)的最終預(yù)測(cè)值（這里有一篇來自kaggle的文章，很好地解釋了staking的實(shí)現(xiàn)過程）

了解了上述概念后劣像，現(xiàn)在再回過頭來看之前沒有提到的特征：

基于詞頻矩陣的NB預(yù)測(cè)值：通過count vectorization構(gòu)建詞頻矩陣乡话，將該矩陣作為輸入特征，通過樸素貝葉斯（Naive Bayes驾讲，NB）構(gòu)建目標(biāo)變量預(yù)測(cè)值（is_pos = 1的概率）蚊伞，并將該預(yù)測(cè)值作為最終XGBoost模型的新特征
基于詞頻矩陣矩陣的LR預(yù)測(cè)值：通過count vectorization構(gòu)建詞頻矩陣，將該矩陣作為輸入特征吮铭，通過邏輯回歸（Logistic Regression时迫，LR）構(gòu)建目標(biāo)變量預(yù)測(cè)值（is_pos = 1的概率），并將該預(yù)測(cè)值作為最終XGBoost模型的新特征
SVD features of TF-IDF metrix：通過TF-IDF vectorization構(gòu)建TF-IDF矩陣谓晌，通過SVD將該矩陣降至30維掠拳，并將這30維向量作為最終XGBoost模型的新特征

結(jié)果分析

我在不同階段使用不同特征組合、算法進(jìn)行了建模纸肉，下面我將分別給出這些不同的建模結(jié)果溺欧，并在最后對(duì)這些結(jié)果進(jìn)行綜合對(duì)比，以期對(duì)特征工程柏肪、Stacking的作用管中窺豹姐刁。