上個月看知乎的時候瓶蝴,復(fù)旦大學(xué)邱教授發(fā)布的一個NLP初學(xué)者入門項(xiàng)目委可,包括NLP四大任務(wù)類型:分類渊跋、序列標(biāo)注、文本匹配撤缴、文本生成刹枉。
https://github.com/FudanNLP/nlp-beginner
當(dāng)時看了一下叽唱,發(fā)現(xiàn)似乎有點(diǎn)難屈呕,需要從numpy開始造輪子,然后慢慢轉(zhuǎn)到深度學(xué)習(xí)棺亭,每個項(xiàng)目大概兩周時間虎眨。剛好我的課程已經(jīng)結(jié)束了,接下來要做的就是文獻(xiàn)綜述和編程學(xué)習(xí)镶摘。自己的編碼能力依舊不行嗽桩,所以還是從頭再來一遍吧。
一共五個項(xiàng)目凄敢,對應(yīng)的是《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》這本書碌冶,里面有ppt和相應(yīng)的練習(xí)資源。涉及到的章節(jié)主要是2涝缝、3扑庞、6、7拒逮、11罐氨、15。我會閱讀章節(jié)內(nèi)容滩援,完成課后習(xí)題栅隐,閱讀參考論文,然后實(shí)現(xiàn)相應(yīng)任務(wù),看起來好頭疼啊……
目前來看租悄,唯一走對的路就是選擇了pytorch……
六月份希望能夠完成前三個任務(wù)……
任務(wù)說明頁內(nèi)容(https://github.com/FudanNLP/nlp-beginner)
任務(wù)一:基于機(jī)器學(xué)習(xí)的文本分類
實(shí)現(xiàn)基于logistic/softmax regression的文本分類
-
參考
數(shù)據(jù)集:Classify the sentiment of sentences from the Rotten Tomatoes dataset
實(shí)現(xiàn)要求:NumPy
-
需要了解的知識點(diǎn):
- 文本特征表示:Bag-of-Word谨究,N-gram
- 分類器:logistic/softmax regression,損失函數(shù)泣棋、(隨機(jī))梯度下降记盒、特征選擇
- 數(shù)據(jù)集:訓(xùn)練集/驗(yàn)證集/測試集的劃分
-
實(shí)驗(yàn):
- 分析不同的特征、損失函數(shù)外傅、學(xué)習(xí)率對最終分類性能的影響
- shuffle 纪吮、batch、mini-batch
時間:兩周
任務(wù)二:基于深度學(xué)習(xí)的文本分類
熟悉Pytorch萎胰,用Pytorch重寫《任務(wù)一》碾盟,實(shí)現(xiàn)CNN、RNN的文本分類技竟;
-
參考
- https://pytorch.org/
- Convolutional Neural Networks for Sentence Classification https://arxiv.org/abs/1408.5882
- https://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/
word embedding 的方式初始化
隨機(jī)embedding的初始化方式
用glove 預(yù)訓(xùn)練的embedding進(jìn)行初始化 https://nlp.stanford.edu/projects/glove/
-
知識點(diǎn):
- CNN/RNN的特征抽取
- 詞嵌入
- Dropout
時間:兩周
任務(wù)三:基于注意力機(jī)制的文本匹配
輸入兩個句子判斷冰肴,判斷它們之間的關(guān)系。參考ESIM(可以只用LSTM榔组,忽略Tree-LSTM)熙尉,用雙向的注意力機(jī)制實(shí)現(xiàn)。
- 參考
- 《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第7章
- Reasoning about Entailment with Neural Attention https://arxiv.org/pdf/1509.06664v1.pdf
- Enhanced LSTM for Natural Language Inference https://arxiv.org/pdf/1609.06038v3.pdf
- 數(shù)據(jù)集:https://nlp.stanford.edu/projects/snli/
- 實(shí)現(xiàn)要求:Pytorch
- 知識點(diǎn):
- 注意力機(jī)制
- token2token attetnion
- 時間:兩周
任務(wù)四:基于LSTM+CRF的序列標(biāo)注
用LSTM+CRF來訓(xùn)練序列標(biāo)注模型:以Named Entity Recognition為例搓扯。
- 參考
- 數(shù)據(jù)集:CONLL 2003,https://www.clips.uantwerpen.be/conll2003/ner/
- 實(shí)現(xiàn)要求:Pytorch
- 知識點(diǎn):
- 評價指標(biāo):precision锨推、recall铅歼、F1
- 無向圖模型、CRF
- 時間:兩周
任務(wù)五:基于神經(jīng)網(wǎng)絡(luò)的語言模型
用LSTM换可、GRU來訓(xùn)練字符級的語言模型椎椰,計(jì)算困惑度
- 參考
- 《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》 第6、15章
- 數(shù)據(jù)集:poetryFromTang.txt
- 實(shí)現(xiàn)要求:Pytorch
- 知識點(diǎn):
- 語言模型:困惑度等
- 文本生成
- 時間:兩周