? 文獻閱讀
本學(xué)期主要閱讀了兩方面的論文:1.非負矩陣分解方法用于話題探測喳资; 2. 用seq2seq生成對話的相關(guān)論文觉吭。
嘗試了相關(guān)代碼腾供。對于非負矩陣分解方法的幾篇經(jīng)典論文仆邓,做了基礎(chǔ)的代碼編寫和修改,并對其模型做了不同數(shù)據(jù)集的嘗試伴鳖,有了一些baseline結(jié)果节值。
? 基礎(chǔ)學(xué)習(xí)
學(xué)習(xí)機器學(xué)習(xí)的基礎(chǔ)知識,結(jié)合Ian Goodfellow的《Deep Learning》和李航的《統(tǒng)計學(xué)習(xí)方法》榜聂,主要學(xué)習(xí)了機器學(xué)習(xí)中的數(shù)學(xué)和HMM搞疗、EM、RNN等相關(guān)算法须肆。
學(xué)習(xí)tensorflow的基礎(chǔ)匿乃。
? 小論文進展
實驗內(nèi)容:在對新聞報道序列進行話題的變遷分析時,通過對不同時間段的話題分別抽取形成文章的話題隨著時間線的變化趨勢豌汇,為了避免在每個時間片分析出的話題毫無關(guān)聯(lián)幢炸,通過采用聯(lián)合矩陣來融合不同時間潛在話題,從而從文檔的內(nèi)部信息中進行建模拒贱,保證其時間上的連貫性宛徊,根據(jù)矩陣分解得到不同時間相似的話題的結(jié)果佛嬉,從而發(fā)現(xiàn)它們的話題的演變和相關(guān)話題的依賴關(guān)系。
實驗進展:
模型的推導(dǎo)求解闸天、相關(guān)基礎(chǔ)代碼已經(jīng)完成暖呕,并且完成了一個小數(shù)據(jù)集的測試,目前在進行加入噪聲數(shù)據(jù)之后的對比實驗苞氮。代碼運行太慢(大概一周才能出來一個數(shù)據(jù)集)湾揽。
進行相關(guān)方法的撰寫,學(xué)習(xí)別人論文的寫作方法技巧笼吟。
? 下學(xué)期計劃
1. 將這學(xué)期的論文完成并投稿钝腺。
2. 可以嘗試tensor方法來做話題的探測和在Twitter上“信息挾持”等噪聲消息的過濾。去噪聲并監(jiān)控top 10 個話題赞厕,生成連貫的話題報道序列艳狐。
3. 閱讀相關(guān)的論文,尋找將神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用于話題分析的創(chuàng)新點皿桑。