文本數(shù)據(jù)的基本體征提取
詞匯數(shù)量 (理由:負(fù)面情緒評(píng)論含有詞語(yǔ)數(shù)量比正面情緒評(píng)論多)
字符數(shù)量 (理由:負(fù)面情緒評(píng)論含有詞語(yǔ)數(shù)量比正面情緒評(píng)論多)
平均字長(zhǎng)(所有單詞的長(zhǎng)度然后除以每條推文單詞的個(gè)數(shù),即可作為平均詞匯長(zhǎng)度)
停用詞數(shù)量
特殊字符數(shù)量(提取“#”和“@”符號(hào)的數(shù)量。這也有利于我們從文本數(shù)據(jù)中提取更多信息)
數(shù)字?jǐn)?shù)量(數(shù)字?jǐn)?shù)量是一個(gè)比較有用的特征)
大寫(xiě)字母數(shù)量
文本數(shù)據(jù)的基本預(yù)處理
小寫(xiě)轉(zhuǎn)換
去除標(biāo)點(diǎn)符號(hào)
去除停用詞
去除頻現(xiàn)詞
去除稀疏詞
拼寫(xiě)校正
分詞(tokenization)
詞干提取(stemming)
詞形還原(lemmatization)
高級(jí)文本處理
N-grams語(yǔ)言模型
詞頻
逆文檔頻率
TF-IDF
詞袋
情感分析
詞嵌入