時(shí)隔了許久樱调,終于有時(shí)間繼續(xù)更新這個(gè)項(xiàng)目筆記,實(shí)在有些慚愧洽故。
還是首先簡(jiǎn)短說明一下原因吧贝攒。
上次筆記發(fā)布之后,整理了一下項(xiàng)目進(jìn)行的思路时甚,打算未來這個(gè)項(xiàng)目使用scala做重構(gòu)隘弊,于是就很果斷地中斷了一段時(shí)間的項(xiàng)目開發(fā),跑去學(xué)習(xí)了一陣子的scala荒适。同時(shí)也繼續(xù)學(xué)習(xí)了一段時(shí)間的機(jī)器學(xué)習(xí)梨熙。
不過在學(xué)習(xí)機(jī)器學(xué)習(xí)的過程里,總算整理清楚了一些基本概念刀诬,尤其是關(guān)于文本情感分析的過程咽扇。于是又重新調(diào)整了一下項(xiàng)目目前的設(shè)計(jì)。
之前曾經(jīng)計(jì)劃使用snownlp來做自然語言處理陕壹,現(xiàn)在已經(jīng)修改為使用scikit learn+結(jié)巴分詞的方式來做處理肌割。同時(shí)會(huì)給出情感分析的詳細(xì)結(jié)果。這是最主要的修改帐要。
還有一個(gè)修改就是放棄使用postgresql作為數(shù)據(jù)存儲(chǔ),轉(zhuǎn)而使用arangodb弥奸。這是出于兩方面原因的考慮榨惠。一個(gè)是pg的管理工具pgadmin在更新到4以后,變得有些不穩(wěn)定盛霎,使用起來有些不太方便赠橙。還有一個(gè)原因在于考慮到存儲(chǔ)的數(shù)據(jù)可能使用一個(gè)文檔數(shù)據(jù)庫會(huì)更方便,場(chǎng)景也更適合愤炸。
目前的進(jìn)度是爬蟲期揪,數(shù)據(jù)存儲(chǔ),情感分析的程序原型已經(jīng)做好了规个,接下來就開始慢慢一點(diǎn)點(diǎn)把東西實(shí)現(xiàn)出來凤薛。
在實(shí)現(xiàn)完成爬蟲代碼之后姓建,可能還需要做的調(diào)整就是情感分析的處理流程和數(shù)據(jù)處理。一方面是這部分會(huì)有大量的人工干預(yù)過程缤苫,一方面是我要設(shè)法得到依照我的想法所取得的分析結(jié)果速兔,還有一方面就是學(xué)習(xí)python處理金融數(shù)據(jù)和計(jì)算的相關(guān)知識(shí)。
現(xiàn)在調(diào)整了自己的作息時(shí)間活玲,可以每天有一到兩個(gè)小時(shí)用來寫代碼涣狗,希望可以加快一點(diǎn)進(jìn)度吧。因?yàn)楹芸旒抑袝?huì)有一個(gè)小寶貝到來舒憾,到時(shí)候會(huì)更加忙碌镀钓,不知道還有多少時(shí)間可以擠出來寫一寫代碼……