Pytorch實現(xiàn)中文文本分類任務(wù)(Bert柠贤,ERNIE,TextCNN类缤,TextRNN臼勉,F(xiàn)astText,TextRCNN餐弱,BiLSTM_Attention, DPCNN, Transformer)

Chinese-Text-Classification

Github項目地址:https://github.com/JackHCC/Chinese-Text-Classification-PyTorch

中文文本分類宴霸,基于pytorch囱晴,開箱即用。

  • 神經(jīng)網(wǎng)絡(luò)模型:TextCNN瓢谢,TextRNN畸写,F(xiàn)astText,TextRCNN氓扛,BiLSTM_Attention, DPCNN, Transformer

  • 預(yù)訓(xùn)練模型:Bert枯芬,ERNIE

介紹

神經(jīng)網(wǎng)絡(luò)模型

模型介紹、數(shù)據(jù)流動過程:參考

數(shù)據(jù)以字為單位輸入模型采郎,預(yù)訓(xùn)練詞向量使用 搜狗新聞 Word+Character 300d破停,點這里下載

模型 介紹
TextCNN Kim 2014 經(jīng)典的CNN文本分類
TextRNN BiLSTM
TextRNN_Att BiLSTM+Attention
TextRCNN BiLSTM+池化
FastText bow+bigram+trigram, 效果出奇的好
DPCNN 深層金字塔CNN
Transformer 效果較差

預(yù)訓(xùn)練模型

模型 介紹 備注
bert 原始的bert
ERNIE ERNIE
bert_CNN bert作為Embedding層尉剩,接入三種卷積核的CNN bert + CNN
bert_RNN bert作為Embedding層,接入LSTM bert + RNN
bert_RCNN bert作為Embedding層毅臊,通過LSTM與bert輸出拼接理茎,經(jīng)過一層最大池化層 bert + RCNN
bert_DPCNN bert作為Embedding層,經(jīng)過一個包含三個不同卷積特征提取器的region embedding層管嬉,可以看作輸出的是embedding皂林,然后經(jīng)過兩層的等長卷積來為接下來的特征抽取提供更寬的感受眼,(提高embdding的豐富性)蚯撩,然后會重復(fù)通過一個1/2池化的殘差塊础倍,1/2池化不斷提高詞位的語義,其中固定了feature_maps,殘差網(wǎng)絡(luò)的引入是為了解決在訓(xùn)練的過程中梯度消失和梯度爆炸的問題胎挎。 bert + DPCNN

參考:

環(huán)境

python 3.7
pytorch 1.1
tqdm
sklearn
tensorboardX
pytorch_pretrained_bert(預(yù)訓(xùn)練代碼也上傳了, 不需要這個庫了)

中文數(shù)據(jù)集

我從THUCNews中抽取了20萬條新聞標(biāo)題沟启,已上傳至github,文本長度在20到30之間犹菇。一共10個類別德迹,每類2萬條。數(shù)據(jù)以字為單位輸入模型揭芍。

類別:財經(jīng)胳搞、房產(chǎn)、股票称杨、教育肌毅、科技、社會姑原、時政悬而、體育、游戲页衙、娛樂摊滔。

數(shù)據(jù)集劃分:

數(shù)據(jù)集 數(shù)據(jù)量
訓(xùn)練集 18萬
驗證集 1萬
測試集 1萬

更換數(shù)據(jù)集

  • 按照THUCNews數(shù)據(jù)集的格式來格式化自己的中文數(shù)據(jù)集阴绢。
  • 對于神經(jīng)網(wǎng)絡(luò)模型:
    • 如果用字,按照數(shù)據(jù)集的格式來格式化你的數(shù)據(jù)艰躺。
    • 如果用詞呻袭,提前分好詞,詞之間用空格隔開腺兴,python run.py --model TextCNN --word True
    • 使用預(yù)訓(xùn)練詞向量:utils.py的main函數(shù)可以提取詞表對應(yīng)的預(yù)訓(xùn)練詞向量左电。

實驗效果

機器:一塊2080Ti , 訓(xùn)練時間:30分鐘页响。

模型 acc 備注
TextCNN 91.22% Kim 2014 經(jīng)典的CNN文本分類
TextRNN 91.12% BiLSTM
TextRNN_Att 90.90% BiLSTM+Attention
TextRCNN 91.54% BiLSTM+池化
FastText 92.23% bow+bigram+trigram篓足, 效果出奇的好
DPCNN 91.25% 深層金字塔CNN
Transformer 89.91% 效果較差
bert 94.83% 單純的bert
ERNIE 94.61% 說好的中文碾壓bert呢
bert_CNN 94.44% bert + CNN
bert_RNN 94.57% bert + RNN
bert_RCNN 94.51% bert + RCNN
bert_DPCNN 94.47% bert + DPCNN

原始的bert效果就很好了,把bert當(dāng)作embedding層送入其它模型闰蚕,效果反而降了栈拖,之后會嘗試長文本的效果對比。

預(yù)訓(xùn)練語言模型

bert模型放在 bert_pretain目錄下没陡,ERNIE模型放在ERNIE_pretrain目錄下涩哟,每個目錄下都是三個文件:

  • pytorch_model.bin
  • bert_config.json
  • vocab.txt

預(yù)訓(xùn)練模型下載地址:

bert_Chinese: 模型 https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese.tar.gz
詞表 https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-vocab.txt

來自這里

備用:模型的網(wǎng)盤地址:https://pan.baidu.com/s/1qSAD5gwClq7xlgzl_4W3Pw

ERNIE_Chinese: https://pan.baidu.com/s/1lEPdDN1-YQJmKEd_g9rLgw

來自這里

解壓后,按照上面說的放在對應(yīng)目錄下盼玄,文件名稱確認(rèn)無誤即可贴彼。

使用說明

神經(jīng)網(wǎng)絡(luò)方法

# 訓(xùn)練并測試:
# TextCNN
python run.py --model TextCNN

# TextRNN
python run.py --model TextRNN

# TextRNN_Att
python run.py --model TextRNN_Att

# TextRCNN
python run.py --model TextRCNN

# FastText, embedding層是隨機初始化的
python run.py --model FastText --embedding random 

# DPCNN
python run.py --model DPCNN

# Transformer
python run.py --model Transformer

預(yù)訓(xùn)練方法

下載好預(yù)訓(xùn)練模型就可以跑了:

# 預(yù)訓(xùn)練模型訓(xùn)練并測試:
# bert
python pretrain_run.py --model bert

# bert + 其它
python pretrain_run.py --model bert_CNN

# ERNIE
python pretrain_run.py --model ERNIE

預(yù)測

預(yù)訓(xùn)練模型:

python pretrain_predict.py

神經(jīng)網(wǎng)絡(luò)模型:

python predict.py

參數(shù)

模型都在models目錄下,超參定義和模型定義在同一文件中埃儿。

參考

論文

[1] Convolutional Neural Networks for Sentence Classification

[2] Recurrent Neural Network for Text Classification with Multi-Task Learning

[3] Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

[4] Recurrent Convolutional Neural Networks for Text Classification

[5] Bag of Tricks for Efficient Text Classification

[6] Deep Pyramid Convolutional Neural Networks for Text Categorization

[7] Attention Is All You Need

[8] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[9] ERNIE: Enhanced Representation through Knowledge Integration

倉庫

本項目基于以下倉庫繼續(xù)開發(fā)優(yōu)化:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末器仗,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子童番,更是在濱河造成了極大的恐慌精钮,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妓盲,死亡現(xiàn)場離奇詭異杂拨,居然都是意外死亡,警方通過查閱死者的電腦和手機悯衬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門弹沽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人筋粗,你說我怎么就攤上這事策橘。” “怎么了娜亿?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵丽已,是天一觀的道長。 經(jīng)常有香客問我买决,道長沛婴,這世上最難降的妖魔是什么吼畏? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮嘁灯,結(jié)果婚禮上泻蚊,老公的妹妹穿的比我還像新娘。我一直安慰自己丑婿,他們只是感情好性雄,可當(dāng)我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著羹奉,像睡著了一般秒旋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上诀拭,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天迁筛,我揣著相機與錄音,去河邊找鬼耕挨。 笑死瑰煎,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的俗孝。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼魄健,長吁一口氣:“原來是場噩夢啊……” “哼赋铝!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起沽瘦,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤革骨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后析恋,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體良哲,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年助隧,在試婚紗的時候發(fā)現(xiàn)自己被綠了筑凫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡并村,死狀恐怖巍实,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情哩牍,我是刑警寧澤棚潦,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站膝昆,受9級特大地震影響丸边,放射性物質(zhì)發(fā)生泄漏叠必。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一妹窖、第九天 我趴在偏房一處隱蔽的房頂上張望纬朝。 院中可真熱鬧,春花似錦嘱吗、人聲如沸玄组。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽俄讹。三九已至,卻和暖如春绕德,著一層夾襖步出監(jiān)牢的瞬間患膛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工耻蛇, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留踪蹬,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓臣咖,卻偏偏與公主長得像跃捣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子夺蛇,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容