情感分析 Sentiment analysis with Andrew Trask 練習(xí)總結(jié)

本文所用代碼請(qǐng)見 我的Github,版權(quán)歸屬于 Udacity 和 Andrew Trask夭拌。

在神經(jīng)網(wǎng)絡(luò)構(gòu)建的過程中小作,為了快速實(shí)現(xiàn)模型迭代,可能在初期的時(shí)候?qū)τ趩栴}作了基本的分析之后就開始打造網(wǎng)絡(luò)的雛形了即纲,一個(gè)工作正常但精度或效率不高的模型要遠(yuǎn)好于理論上精度奇高但從未完整運(yùn)行成功過一次的模型。

在 Udacity 的這個(gè)影評(píng)情感分析練習(xí)中博肋,在初期了解了電影評(píng)論的積極與消極傾向可以由評(píng)論中出現(xiàn)的詞匯來進(jìn)行預(yù)測(cè)后就可以動(dòng)手打造網(wǎng)絡(luò)了低斋。最初的版本是將訓(xùn)練集中所有可能出現(xiàn)的詞匯構(gòu)成一個(gè)很長的 review_vocab 數(shù)組蜂厅,這種處理方式相當(dāng)于將各個(gè)詞匯作為 類別數(shù)據(jù) 進(jìn)行處理,在此基礎(chǔ)上對(duì)于任意一個(gè)訓(xùn)練樣本中的影評(píng)輸入拔稳,統(tǒng)計(jì)其中出現(xiàn)的單詞及其數(shù)量葛峻,以此更新其在 review_vocab 上相應(yīng)位置的值,將這個(gè)向量作為網(wǎng)絡(luò)的輸入進(jìn)行一個(gè)樣本的訓(xùn)練巴比。

后續(xù)在訓(xùn)練中發(fā)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練效率很低术奖,此時(shí),可以不急于使用那些高級(jí)的數(shù)據(jù)處理技術(shù)轻绞,可以先回過頭來對(duì)于初期的實(shí)現(xiàn)方式進(jìn)行評(píng)價(jià)采记,例如評(píng)論中實(shí)際上很多中性的冠詞出現(xiàn)的頻率甚至遠(yuǎn)高于帶有感情色彩的形容詞,此時(shí)在統(tǒng)計(jì)輸入中如果只考慮單詞是否出現(xiàn)政勃,而不統(tǒng)計(jì)單詞出現(xiàn)的數(shù)量唧龄,對(duì)于網(wǎng)絡(luò)的預(yù)測(cè)能力可能就是有提升的。此時(shí)只需要將輸入向量中所有出現(xiàn)的單詞的位置設(shè)置成 1 奸远,在實(shí)際運(yùn)算中可以發(fā)現(xiàn)這個(gè)小小的改動(dòng)對(duì)于提高預(yù)測(cè)準(zhǔn)確性有很大的影響既棺。

進(jìn)一步地,可以發(fā)現(xiàn)網(wǎng)絡(luò)在每一個(gè)樣本的計(jì)算過程中要計(jì)算大量的輸入中的 0 與權(quán)重的乘法懒叛,而如果有辦法將這些輸入中的非零位置索引出來丸冕,將隱藏層的輸出直接定義為輸入與隱藏層權(quán)重參數(shù)的乘法而不是兩個(gè)向量相乘就可以減少大量的計(jì)算。更進(jìn)一步地薛窥,由于輸入中所有非零位置的元素都為 1胖烛,那么可以直接將隱藏層的輸出定義為對(duì)應(yīng)輸入向量非零位置的權(quán)重參數(shù)的加法。這里需要注意的是在構(gòu)建每一個(gè)評(píng)論的索引列表時(shí)诅迷,索引位置還是基于相應(yīng)單詞在之前的 review_vobab 數(shù)組中的位置佩番,這樣可以不改變輸入層到隱藏層矩陣的形狀 (input_nodes, hidden_nodes) ,其中 input_nodes = len(review_vocab) 使得模型的代碼修改量最小罢杉。

最后趟畏,還可以根據(jù)部分帶有感情色彩的語氣詞在積極評(píng)價(jià)中出現(xiàn)的頻率高于消極評(píng)價(jià)這一點(diǎn),進(jìn)一步改進(jìn)輸入?yún)?shù)設(shè)置滩租,將頻率過高及過低的助詞直接在訓(xùn)練之前過濾掉拱镐,減少模型中所需要的特征輸入的量,講師 Andrew Trask 提到這一方式在自然語言處理中比較常用持际。總結(jié)起來就是對(duì)于問題的分析和前期的數(shù)據(jù)處理非常重要哗咆,將很大程度上決定算法的效率蜘欲,在高效的算法的基礎(chǔ)上建立的模型,才能體現(xiàn)出算力的重要性晌柬,否則只會(huì)浪費(fèi)硬件姥份。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末郭脂,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子澈歉,更是在濱河造成了極大的恐慌展鸡,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,002評(píng)論 6 519
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件埃难,死亡現(xiàn)場(chǎng)離奇詭異莹弊,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)涡尘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,357評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門忍弛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人考抄,你說我怎么就攤上這事细疚。” “怎么了川梅?”我有些...
    開封第一講書人閱讀 169,787評(píng)論 0 365
  • 文/不壞的土叔 我叫張陵疯兼,是天一觀的道長。 經(jīng)常有香客問我贫途,道長吧彪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,237評(píng)論 1 300
  • 正文 為了忘掉前任潮饱,我火速辦了婚禮来氧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘香拉。我一直安慰自己啦扬,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,237評(píng)論 6 398
  • 文/花漫 我一把揭開白布凫碌。 她就那樣靜靜地躺著扑毡,像睡著了一般。 火紅的嫁衣襯著肌膚如雪盛险。 梳的紋絲不亂的頭發(fā)上瞄摊,一...
    開封第一講書人閱讀 52,821評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音苦掘,去河邊找鬼换帜。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鹤啡,可吹牛的內(nèi)容都是我干的惯驼。 我是一名探鬼主播,決...
    沈念sama閱讀 41,236評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼祟牲!你這毒婦竟也來了隙畜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,196評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后意狠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,716評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡言询,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,794評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了几颜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片倍试。...
    茶點(diǎn)故事閱讀 40,928評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蛋哭,靈堂內(nèi)的尸體忽然破棺而出县习,到底是詐尸還是另有隱情,我是刑警寧澤谆趾,帶...
    沈念sama閱讀 36,583評(píng)論 5 351
  • 正文 年R本政府宣布躁愿,位于F島的核電站,受9級(jí)特大地震影響沪蓬,放射性物質(zhì)發(fā)生泄漏彤钟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,264評(píng)論 3 336
  • 文/蒙蒙 一跷叉、第九天 我趴在偏房一處隱蔽的房頂上張望逸雹。 院中可真熱鬧,春花似錦云挟、人聲如沸梆砸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,755評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽帖世。三九已至,卻和暖如春沸枯,著一層夾襖步出監(jiān)牢的瞬間日矫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,869評(píng)論 1 274
  • 我被黑心中介騙來泰國打工绑榴, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留哪轿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,378評(píng)論 3 379
  • 正文 我出身青樓翔怎,卻偏偏與公主長得像窃诉,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,937評(píng)論 2 361