NLP入門(mén)組隊(duì)學(xué)習(xí) 題目理解
報(bào)名了NLP組隊(duì)學(xué)習(xí)辖所,這是第一天的學(xué)習(xí)。
賽題名稱(chēng):
零基礎(chǔ)入門(mén)NLP之新聞文本分類(lèi)
賽題目標(biāo):
入門(mén)自然語(yǔ)言處理茄厘,熟悉相關(guān)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法和算法伍纫。
賽題任務(wù):
對(duì)來(lái)自互聯(lián)網(wǎng)的新聞文本進(jìn)行分類(lèi)群凶,也是一個(gè)典型字符識(shí)別的問(wèn)題噪沙。
學(xué)習(xí)目標(biāo)
理解賽題背景與賽題數(shù)據(jù)
下載賽題數(shù)據(jù)炼彪,理解賽題的思路
賽題數(shù)據(jù)
賽題的數(shù)據(jù)報(bào)名后即可下載,數(shù)據(jù)為新聞文本正歼,并且進(jìn)行了字符級(jí)別的匿名處理霹购。數(shù)據(jù)文本中包含14個(gè)類(lèi)別:財(cái)經(jīng)、彩票朋腋、房產(chǎn)、股票膜楷、家居旭咽、教育、科技赌厅、社會(huì)穷绵、時(shí)尚、市政特愿、體育仲墨、星座、游戲揍障、娛樂(lè)目养。
賽題數(shù)據(jù)構(gòu)成:訓(xùn)練集20w條樣本,測(cè)試集A包含5w條樣本毒嫡,測(cè)試集B包括5w條樣本癌蚁。字符匿名處理是為了預(yù)防人工標(biāo)注測(cè)試集。
數(shù)據(jù)標(biāo)簽
標(biāo)簽與類(lèi)別對(duì)應(yīng)關(guān)系如下:{‘科技’: 0, ‘股票’: 1, ‘體育’: 2, ‘娛樂(lè)’: 3, ‘市政’: 4, ‘社會(huì)’: 5, ‘教育’: 6, ‘財(cái)經(jīng)’: 7, ‘家居’: 8, ‘游戲’: 9, ‘房產(chǎn)’: 10, ‘時(shí)尚’: 11, ‘彩票’: 12, ‘星座’: 13}
評(píng)測(cè)指標(biāo)
評(píng)價(jià)標(biāo)準(zhǔn)為類(lèi)別f1_score的均值兜畸,將提交結(jié)果和實(shí)際類(lèi)別進(jìn)行對(duì)比努释,結(jié)果當(dāng)然越大越好.多分類(lèi)的F1_score 使用marco計(jì)算方式
當(dāng)精確率和召回率都高,f1值就會(huì)很高咬摇。
使用sklearn的庫(kù)函數(shù)可以完成f1值的計(jì)算
讀取數(shù)據(jù)
使用Pandas庫(kù)讀取數(shù)據(jù)伐蒂,方便后續(xù)進(jìn)行
解題思路
賽題思路分析:賽題文本分類(lèi)問(wèn)題,根據(jù)每句的字符進(jìn)行分類(lèi)肛鹏。這個(gè)題目已經(jīng)幫助我們分好詞了逸邦,由于數(shù)據(jù)匿名化的恩沛,不能直接使用中文分詞,因此我們直接對(duì)匿名字符進(jìn)行建模昭雌,涉及到特征提取和分類(lèi)模型兩個(gè)部分复唤。
可能會(huì)用到的解題思路:
思路1:TF-IDF + 機(jī)器學(xué)習(xí)分類(lèi)器
使用TF-IDF對(duì)文本提取特征,并使用分類(lèi)器分類(lèi)烛卧,分類(lèi)器可以選擇SVM佛纫、LR、或者XGboost
思路2:FastText
FastText是入門(mén)級(jí)的詞向量总放,使用Facebook提供的FastText工具呈宇,快速構(gòu)建分類(lèi)器
思路3:WordVec + 深度學(xué)習(xí)分類(lèi)器
WordVec是進(jìn)階級(jí)的詞向量,深度學(xué)習(xí)分類(lèi)網(wǎng)絡(luò)有TextCNN局雄、TextRNN以及BiLSTM甥啄。
思路4:Bert詞向量
Bert是高配級(jí)詞向量,建模學(xué)習(xí)能力更加強(qiáng)大