自然語言處理簡單應用---預測文章獲得的贊同數(shù)量

Hacker News(http://news.ycombinator.com/) 是一個國外新聞社區(qū)厦酬,用戶創(chuàng)造的內容質量遠遠超出其他創(chuàng)業(yè)者主題的網(wǎng)站。

數(shù)據(jù)下載地址:https://github.com/arnauddri/hn

數(shù)據(jù)集中存儲了從HackerNews上爬取的內容付燥,我們的目的是通過對每篇文章的headline進行分析,預測文章獲得的贊同數(shù)量寞焙,數(shù)據(jù)樣例為:



讀取文件

import pandas as pd
submissions=pd.read_csv('./data/sel_hn_stories.csv')
submissions.columns=["submission_time", "upvotes", "url", "headline"]
submissions = submissions.dropna()
submissions.head()

對headline進行分詞處理:

tokenized_headlines=[]
for headline in submissions['headline']:
    tokenized_headlines.append(headline.split(" "))

# 處理tokens:大小寫轉換吕粗、去標點符號,生成unique_words
punctuation = [",", ":", ";", ".", "'", '"', "’", "?", "/", "-", "+", "&", "(", ")"]
clean_tokenized = []
for item in tokenized_headlines:
    tokens=[]
    for token in item:
        token=token.lower()
        for punc in punctuation:
            token.replace(punc,"")
        tokens.append(token)
    clean_tokenized.append(tokens)
clean_tokenized

清理完以后的樣式:

生成單詞矩陣:

#生成單詞矩陣饱搏,并對每個headline進行詞頻統(tǒng)計
import numpy as np

unique_words=[]
sigle_words=[]
for item in clean_tokenized:
    for token in item:
        if token not in sigle_words:
            sigle_words.append(token)
        elif token not in unique_words:
            unique_words.append(token)
counts=pd.DataFrame(0,index=np.arange(len(clean_tokenized)),columns=unique_words)
counts.head()

#詞頻統(tǒng)計
for i,item in enumerate(clean_tokenized):
    for word in item:
        if word in unique_words:
            counts.iloc[i][word]+=1
counts.head()

為了提高預測的準確性非剃,我們需要過濾掉出現(xiàn)次數(shù)較少的單詞、次數(shù)較多的單詞(如a推沸、an等)备绽,這類詞對提高預測準確率沒有什么幫助。

# Cleaning dataframe:刪除出現(xiàn)頻率過多鬓催、過少columns
word_counts=counts.sum(axis=0)
counts=counts.loc[:,(word_counts>=5)&(word_counts<=100)]
counts.head()

接下來為預測過程:
產生訓練集疯坤、測試集--訓練模型--做出預測

# Split dataset to train and test set
from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test=train_test_split(counts,submissions['upvotes'],test_size=.2,random_state=1)
from sklearn.linear_model import LinearRegression

lr=LinearRegression()
lr.fit(x_train,y_train)
predictions=lr.predict(x_test)

mse=sum((y_test-predictions)**2)/len(predictions)
mse

得到mse為:2558.0535509833271
在我們的數(shù)據(jù)中,平均贊數(shù)為10深浮,標準差為39.5。即便對mse開方眠冈,得到的值為46.7飞苇,依然偏大。這意味著我們的平均錯誤為46.7蜗顽,遠遠大于標準差布卡,與真實值偏差太大了。
之所以偏差這么大是因為以下幾個原因:

  • 為了方便操作雇盖,我使用的數(shù)據(jù)集僅僅為爬取的文件中的很小一部分忿等,可以嘗試使用更多的數(shù)據(jù)來提高預測性。
  • 嘗試增加一些特征:比如標題長度崔挖、單詞平均長度
  • 嘗試使用其他模式贸街,如RandomForest、Ensemble等進行預測狸相,觀察模型的性能變化薛匪。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市脓鹃,隨后出現(xiàn)的幾起案子逸尖,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件娇跟,死亡現(xiàn)場離奇詭異岩齿,居然都是意外死亡,警方通過查閱死者的電腦和手機苞俘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進店門盹沈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人苗胀,你說我怎么就攤上這事襟诸。” “怎么了基协?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵歌亲,是天一觀的道長。 經(jīng)常有香客問我澜驮,道長陷揪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任杂穷,我火速辦了婚禮悍缠,結果婚禮上,老公的妹妹穿的比我還像新娘耐量。我一直安慰自己飞蚓,他們只是感情好,可當我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布廊蜒。 她就那樣靜靜地躺著趴拧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪山叮。 梳的紋絲不亂的頭發(fā)上著榴,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天,我揣著相機與錄音屁倔,去河邊找鬼脑又。 笑死,一個胖子當著我的面吹牛锐借,可吹牛的內容都是我干的问麸。 我是一名探鬼主播,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼瞎饲,長吁一口氣:“原來是場噩夢啊……” “哼口叙!你這毒婦竟也來了?” 一聲冷哼從身側響起嗅战,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤妄田,失蹤者是張志新(化名)和其女友劉穎俺亮,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疟呐,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡脚曾,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了启具。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片本讥。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鲁冯,靈堂內的尸體忽然破棺而出拷沸,到底是詐尸還是另有隱情,我是刑警寧澤薯演,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布撞芍,位于F島的核電站,受9級特大地震影響跨扮,放射性物質發(fā)生泄漏序无。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一衡创、第九天 我趴在偏房一處隱蔽的房頂上張望帝嗡。 院中可真熱鬧,春花似錦璃氢、人聲如沸哟玷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽碗降。三九已至,卻和暖如春塘秦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背动看。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工尊剔, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人菱皆。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓须误,卻偏偏與公主長得像,于是被迫代替她去往敵國和親仇轻。 傳聞我的和親對象是個殘疾皇子京痢,可洞房花燭夜當晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內容