基于深度學(xué)習(xí)的文本分類1-fastText
FastText
FastText是一種典型的深度學(xué)習(xí)詞向量的表示方法九串,它非常簡(jiǎn)單通過(guò)Embedding層將單詞映射到稠密空間榨乎,然后將句子中所有的單詞在Embedding空間中進(jìn)行平均节槐,進(jìn)而完成分類操作鸭限。
所以FastText是一個(gè)三層的神經(jīng)網(wǎng)絡(luò)闰蚕,輸入層、隱含層和輸出層懂从。
FastText在文本分類任務(wù)上授段,是優(yōu)于TF-IDF的:
- FastText用單詞的Embedding疊加獲得的文檔向量,將相似的句子分為一類
- FastText學(xué)習(xí)到的Embedding空間維度比較低番甩,可以快速進(jìn)行訓(xùn)練
本質(zhì)上還是一個(gè)詞袋模型侵贵,只是使用Embedding的方式替代了TF-IDF表示。
本章作業(yè)
- 閱讀FastText的文檔缘薛,嘗試修改參數(shù)窍育,得到更好的分?jǐn)?shù)
- 基于驗(yàn)證集的結(jié)果調(diào)整超參數(shù),使得模型性能更優(yōu)
深度模型中宴胧,訓(xùn)練次數(shù)是很重要的一個(gè)參數(shù)漱抓,如果過(guò)多,則過(guò)擬合牺汤,過(guò)少則欠擬合辽旋。
我們可以發(fā)現(xiàn)浩嫌,訓(xùn)練集的F1分?jǐn)?shù)隨著次數(shù)增加而增加檐迟,但是驗(yàn)證集先上升,后穩(wěn)定码耐。