一:背景
本次新人賽是Datawhale與天池聯(lián)合發(fā)起的0基礎(chǔ)入門系列賽事第三場 —— 零基礎(chǔ)入門NLP之新聞文本分類挑戰(zhàn)賽矢洲。賽題以自然語言處理為背景璧眠,要求選手根據(jù)新聞文本字符對新聞的類別進(jìn)行分類,這是一個經(jīng)典文本分類問題读虏。通過這道賽題可以引導(dǎo)大家走入自然語言處理的世界责静,帶大家接觸NLP的預(yù)處理、模型構(gòu)建和模型訓(xùn)練等知識點(diǎn)盖桥。
二:賽題數(shù)據(jù)
賽題數(shù)據(jù)集脫敏如下:
text
label
2 2967 6758 339 2021 1854 3731 4109 3792 4149 15...
11 4464 486 6352 5619 2465 4802 1452 3137 5778 54...
3 7346 4068 5074 3747 5681 6093 1777 2226 7354 6...
2 7159 948 4866 2109 5520 2490 211 3956 5520 549...
3 3646 3055 3055 2490 4659 6065 3370 5814 2465 5...
9 3819 4525 1129 6725 6485 2109 3800 5264 1006 4...
3 307 4780 6811 1580 7539 5886 5486 3433 6644 58...
10 26 4270 1866 5977 3523 3764 4464 3659 4853 517...
12 2708 2218 5915 4559 886 1241 4819 314 4261 166...
3 3654 531 1348 29 4553 6722 1474 5099 7541 307 ...
在數(shù)據(jù)集中標(biāo)簽的對應(yīng)的關(guān)系如下:
{'科技': 0, '股票': 1, '體育': 2, '娛樂': 3, '時政': 4, '社會': 5, '教育': 6, '財(cái)經(jīng)': 7, '家居': 8, '游戲': 9, '房產(chǎn)': 10, '時尚': 11, '彩票': 12, '星座': 13}
三灾螃、評測標(biāo)準(zhǔn)
分類問題的一個衡量指標(biāo)。一些多分類問題的機(jī)器學(xué)習(xí)競賽葱轩,常常將F1-score作為最終測評的方法睦焕。它是精確率和召回率的調(diào)和平均數(shù),最大為1靴拱,最小為0垃喊。
計(jì)算公式如下:
F1 = 2 *(precision?recall)/(precision+recall)
from sklearn.metrics import f1_score
f1_score(y_test,y_predict)
四、解題思路
重點(diǎn)在于數(shù)據(jù)訓(xùn)練分類,通過對于文本分類采用tf-idf+一些常見的分類算法(比如貝葉斯分類等)袜炕,看了下文本分類的資料本谜,F(xiàn)astText也不錯,可以采用實(shí)踐下