這學(xué)期要做軟件工程大作業(yè)宽闲,我選的課題是“海量詞庫構(gòu)建”。前前后后總時(shí)間至少兩周吧握牧。不過還是學(xué)到了挺多新知識容诬,也踩過許多坑。從中我也意識到了沿腰,寫好注釋的重要性览徒。不然以后回頭看自己寫的代碼,又要花時(shí)間去理解代碼颂龙,效率低下习蓬!還有,做好工作日記措嵌,方能更好掌握項(xiàng)目進(jìn)度躲叼,以及總結(jié)好學(xué)過的知識。我寫下這個(gè)系列的文章企巢,也算一個(gè)總結(jié)吧枫慷。雖然總結(jié)來得有點(diǎn)晚,可能一些學(xué)過的知識和踩過的坑忘了。(哦對了或听,雖然說是軟工大作業(yè)探孝,但是我感覺自己做的跟軟工關(guān)系不大啊,哈哈I袼А)
項(xiàng)目主要有四個(gè)模塊:基礎(chǔ)詞庫構(gòu)建再姑,語料爬取萌抵,分詞分類并構(gòu)建詞庫找御,監(jiān)控系統(tǒng)。
基礎(chǔ)詞庫的構(gòu)建:這里選擇的是具有類別標(biāo)簽的各詞庫绍填。有了這個(gè)帶標(biāo)簽的基礎(chǔ)詞庫霎桅,才能解決后面的新詞分類問題。這里讨永,我選擇了搜狗詞庫和清華大學(xué)中文詞庫滔驶。搜狗詞庫,感覺分類的質(zhì)量不高卿闹,而且有很多重復(fù)的詞揭糕,所以我手動(dòng)從中選擇了幾個(gè)分類質(zhì)量好點(diǎn)的類別并去重,插入數(shù)據(jù)庫锻霎。清華大學(xué)中文詞庫質(zhì)量還是蠻高的著角,直接全部插入數(shù)據(jù)庫了。
語料爬刃铡: 爬的是筆趣閣小說網(wǎng)和新華網(wǎng)吏口。爬了 40w+ 小說章節(jié)(3G),17w+ 新聞(1G)冰更,共計(jì) 4G 語料产徊。(題外話:感覺語料來源不夠豐富,合理的話應(yīng)該多加兩三個(gè)語料來源)
分詞分類并構(gòu)建詞庫:分詞調(diào)用結(jié)巴分詞蜀细。至于分類舟铜,首先用 gensim 里的 Word2vec 訓(xùn)練語料的詞向量,再用一個(gè)簡單的 kNN 進(jìn)行分類奠衔。額谆刨,感覺只是簡單地調(diào)包而已。哈哈涣觉。
監(jiān)控系統(tǒng):監(jiān)控系統(tǒng)用的 Grafana + Mysql痴荐,我之前寫的文章里已經(jīng)有介紹過了。不過呢官册,那時(shí)候用的是 Docker 里面的 Grafana生兆。里面的 Grafana 好像有小 bug,不能安裝插件,所以我直接不用 Docker 新裝了一個(gè) Grafana鸦难。監(jiān)控系統(tǒng)主要監(jiān)控的是語料爬取情況和詞庫構(gòu)建情況根吁。
后面我會(huì)詳細(xì)講講各模塊中的知識點(diǎn),以及一些踩過的坑合蔽。最后就上個(gè)監(jiān)控系統(tǒng)的圖吧唉韭。Grafana 真神器!6㈦纭弓摘!