python學(xué)習(xí) 一 python語(yǔ)法睛低,及變量類(lèi)型
python學(xué)習(xí) 二 爬一個(gè)圖片網(wǎng)站上
python學(xué)習(xí) 二 02 爬一個(gè)圖片網(wǎng)站台囱,獲得主鏈接網(wǎng)址茵典,并保存
python學(xué)習(xí) 二 03 爬一個(gè)圖片網(wǎng)站-獲得所有分頁(yè)網(wǎng)址
python學(xué)習(xí) 二 04 爬一個(gè)圖片網(wǎng)站-解析文件获黔,獲得所有圖片鏈接
python學(xué)習(xí) 二 05 爬一個(gè)圖片網(wǎng)站-下載圖片鏈接
python學(xué)習(xí) 二 06 爬一個(gè)圖片網(wǎng)站-多線程方式下載
python學(xué)習(xí) 三 01 再爬一個(gè)網(wǎng)站痹雅,幾行代碼仰担,搞定分類(lèi)類(lèi)別
python學(xué)習(xí) 三 02 再爬一個(gè)網(wǎng)站,獲得所有分頁(yè)
python學(xué)習(xí) 三 03 再爬一個(gè)網(wǎng)站绩社,根據(jù)分頁(yè)摔蓝,下載圖片
python學(xué)習(xí) 三 04 圖片爬蟲(chóng)工程-組織框架
python 數(shù)據(jù)挖掘篇 一 結(jié)巴分詞
python 數(shù)據(jù)挖掘篇 二 詞云統(tǒng)計(jì)
python 數(shù)據(jù)挖掘篇 三 gensim 使用
python 數(shù)據(jù)挖掘篇四 小說(shuō)數(shù)據(jù)挖掘?qū)嵗?/a>
第四章 小說(shuō)數(shù)據(jù)挖掘?qū)嵗?/a>
示例愉耙,做一個(gè)書(shū)本的搜索引擎贮尉,輸入以句話,輸出與這句話最相近的段落
分三個(gè)階段
1朴沿、 預(yù)處理階段
2猜谚、 加載預(yù)處理好的字典败砂、語(yǔ)料、模型龄毡、索引階段
3吠卷、 查詢(xún)階段
預(yù)處理階段:
加載階段
查詢(xún)階段
Word2Vec 模型
這個(gè)模型也很有意思,可以查找與某個(gè)詞相近沦零、相反祭隔、推理關(guān)系。
總結(jié):
之所以研究gensim路操,是想做一個(gè)古典小說(shuō)搜索引擎疾渴、和小說(shuō)數(shù)據(jù)分析工具。打算將網(wǎng)站www.gudianxiaoshuo.com打造成古典小說(shuō)搜索屯仗、知識(shí)挖掘的網(wǎng)站搞坝。
使用紅樓夢(mèng)做為分析對(duì)象,實(shí)現(xiàn)了搜索分析功能魁袜,但是也發(fā)現(xiàn)將預(yù)處理的信息保存到本地后桩撮,占用空間還是很大的,尤其是lsi語(yǔ)料竟然100M峰弹,不知道還有沒(méi)有更好的方法店量。
項(xiàng)目地址:
https://github.com/gudianxiaoshuo