你的首個(gè)Kaggle NLP入門賽:Natural Language Processing with Disaster Tweets
競賽簡述
推特如今已成為緊急情況下的重要溝通渠道畦娄。
智能手機(jī)的“器官化”讓人們能夠?qū)崟r(shí)發(fā)布他們看到的緊急情況。因此,越來越多的機(jī)構(gòu)通過程序監(jiān)控推特的相關(guān)內(nèi)容(如救災(zāi)組織和新聞機(jī)構(gòu))挪钓。
但是造虎,機(jī)器難以辨認(rèn)一個(gè)人是否真的在宣布一場災(zāi)難巡莹。例如:
作者明確地使用了“燃燒”(ABLAZE)這個(gè)詞兵迅,但它的意思卻是隱喻性的泰讽。這對人類來說是顯而易見的例衍,尤其是在有圖片輔助理解的情況,但機(jī)器就不那么清楚了已卸。
在這個(gè)比賽中佛玄,你要建立一個(gè)機(jī)器學(xué)習(xí)模型來預(yù)測哪些推文是關(guān)于真正的災(zāi)難的,哪些不是累澡。你的數(shù)據(jù)集包含一萬條已進(jìn)行人工分類的推文梦抢。
免責(zé)聲明:本次比賽的數(shù)據(jù)集包含可能被認(rèn)為是褻瀆、粗俗或冒犯的文本永乌。
這個(gè)數(shù)據(jù)集是由figure-eight公司創(chuàng)建的惑申,最初在他們的“Data For Everyone”網(wǎng)站上分享。