說起來读存,最近兩天Athena在外面看來的改動,其實——沒有医舆。
但是很快她將獲得我之前一直渴望的一項能力——也是我的服務(wù)器每次重啟炕柔,我都會log的一句話——“歡迎來到感情的創(chuàng)世”——基本的心情。
這是我最喜歡的小說《境界線上的地平線》(Horizon on the middle of nowhere)里的一句臺詞购撼,原句是“歡迎來到感情的創(chuàng)世——Go the Middle of Nowhere”跪削。
扯遠(yuǎn)了谴仙。其實這就是我在第一日的開發(fā)日記中所記述的一個功能:
2.讓Athena擁有自己的心情——用Mongo建立一個心情庫,然后根據(jù)隨機(jī)爬取的新聞進(jìn)行心情變更碾盐。
接下來是具體的描述:
我從周一上班開始晃跺,在看人工智能和機(jī)器學(xué)習(xí)啊之類的資料。然后在想自己下一步應(yīng)該做什么毫玖。這時我決定嘗試著去做情感分析掀虎。
之前我的情感分析是基于nodeJS里sentiment這個模塊的,然而這個模塊有個很大的缺點(diǎn):只能識別英文付枫,識別率也不是很準(zhǔn)確烹玉。之后我也下了國內(nèi)做的“THULAC_lite”做過中文分詞。但是一直沒有深入的搞阐滩。
隨后我決定嘗試一下煥煥給我的建議二打,找個方法,先搞掂榔,之后再調(diào)整继效。于是我把某份資料中提到的NTUSD這個中文情感傾向數(shù)據(jù)下下來了。寫了個腳本扔到了我的MongoDB里装获。
之后便是打分莲趣。我把情感暫定為0-10分。我預(yù)先錄入的分?jǐn)?shù)只有0和10兩個分?jǐn)?shù)饱溢。之后我在讀取的時候喧伞,如果是0,就記做-1绩郎,如果是10潘鲫,就記做1。之后累加肋杖,如果是正數(shù)溉仑,就判定為正面新聞,反之則是負(fù)面的状植。
這個做法是個非常粗糙的做法浊竟。首先每個詞的感情指數(shù)并不是非左即右的。他們其實是分布在0-10之間的津畸。其次振定,在一篇文章中,某個詞的出現(xiàn)頻率可能非常多肉拓,所以對它的累加也很多后频,是不公平的。第三,反話是沒有統(tǒng)計的卑惜,“沒有悲傷”在正常情況下應(yīng)該是1+1=2膏执,現(xiàn)在則是-1+-1=-2。
這幾點(diǎn)在我讀過的資料中也有記述露久,不過暫時我還沒有時間去優(yōu)化它們更米。
之后我拿這個方法判斷了兩組語料:CNBeta最新的10條新聞和15年網(wǎng)易的50篇國內(nèi)新聞『梁郏科技新聞的正面遠(yuǎn)大于負(fù)面——可能是因為多是一些有利報道征峦,如最新發(fā)現(xiàn)、新的進(jìn)展和突破之類的镇草。而國內(nèi)新聞的情感分布就偏很多。我沒有具體統(tǒng)計瘤旨,不過從直觀上是比較均勻的梯啤。
這就是我在程序方面做的一些進(jìn)展。
來說一下下一步的計劃吧:
首先我要做的是把情感加進(jìn)去存哲,Athena可以在爬取到新聞后直接進(jìn)行情感判斷因宇。然后累加新聞的情感值。決定當(dāng)前的心情祟偷。首先是好和壞察滑。
之后,根據(jù)一段時間的情感分布曲線修肠,我可以讓它們分的更細(xì)一點(diǎn):-5-5比如贺辰,然后做一個分?jǐn)?shù)和指數(shù)的映射函數(shù)。
這樣嵌施,這個功能就實現(xiàn)了饲化。
接下來便是調(diào)整情感的判斷了,把三個問題解決掉的話吗伤。就可以進(jìn)一大步了吃靠。
之后,我想了一個新的功能:爬取當(dāng)前時尚雜志和網(wǎng)站的關(guān)鍵詞足淆,決定當(dāng)季的流行巢块。然后去淘寶上爬取銷售和促銷的榜單,去印證這個流行巧号。
另外族奢,有關(guān)第三日中記憶的功能:當(dāng)我說一句話時,我覺得我可以通過一個模型去理解它丹鸿。然后去做一個對應(yīng)的回復(fù)歹鱼。然而……我現(xiàn)有的知識離這一點(diǎn)還有點(diǎn)遠(yuǎn)。
知識筆記:
最近新學(xué)了HMM——隱性馬爾科夫模型卜高。我試著寫了一下解釋的例子弥姻,發(fā)現(xiàn)自己的水平太次了……等我再深入的理解一下之后南片,再試著解釋吧。
另外學(xué)習(xí)了基本的情感分析理論——的目錄庭敦。
再就是在重新看吳軍老師寫的《數(shù)學(xué)之美》疼进。我現(xiàn)在覺得,數(shù)學(xué)真是一門非常厲害的學(xué)科秧廉,我大學(xué)時代作為一個實用主義者伞广,一直不知道這種理論研究有什么意義。不過后來我在看HMM的推理時疼电,發(fā)現(xiàn)如果沒有離散數(shù)學(xué)和概率論嚼锄,沒有微積分,那么HMM中間很多是只能猜測的蔽豺,完全無法證明区丑。而從實用主義來說,一個無法證明一直有效的東西修陡,我是不敢投入生產(chǎn)的沧侥。
最后,非常推薦吳軍老師的數(shù)學(xué)之美——作為理工科學(xué)生的飯后睡前讀物魄鸦。里面的東西通俗易懂宴杀,讓我這種沒有受到高等教育的興趣愛好者找到了各種神奇的寶物。
P.S.:今晚寫著這個日志的時候拾因,我在群里和楓哥聊到傳播學(xué)的入門書籍旺罢。楓哥推薦了信息論——剛好在昨晚有讀到。我發(fā)現(xiàn)各個學(xué)科果然是貫通的绢记。藝術(shù)與幾何主经,幾何又是代數(shù)。傳播學(xué)是信息的流通庭惜,而人工智能和機(jī)器學(xué)習(xí)的算法里又有對信息這種東西的研究……人的感情并非無法模擬罩驻,我覺得人的思維方式是一定可以逼近的,而創(chuàng)造這個過程护赊,誰又知道呢~
多么的惠遏,美妙。