https://github.com/medcl/elasticsearch-rtf
這是國內(nèi)大神擴的es的發(fā)行版本卓练,目前是5.1.1,目前看來是不需要安裝中文分詞怨咪,但好像ik也不難安裝。當然有個過程。然后官方的一堆插件泳挥,其實沒太看懂。當然可以不用至朗。
【中文分詞】https://github.com/medcl/elasticsearch-analysis-ik
直接解壓到es/plugins/ik里就行屉符。目前版本是5.4.2(發(fā)現(xiàn)RTF也是他搞的,呵呵锹引,那怎么版本不同步)
【dev tool】kibana下載直接啟動即可矗钟,也是官方的。
【索引可視化查詢】https://github.com/mobz/elasticsearch-head嫌变,這個也是下載吨艇,進入目錄,但是基于node.js的
需要npm install/npm run start,那就是也需要node.js的運行環(huán)境腾啥,呵呵东涡。
start后運行在localhost:9100端口。其實這是一個獨立服務器倘待,可以遠程連接
在es的config/*.yml文件下添加這兩行即可疮跑。教程中后面的兩句本來就是默認了。(https://my.oschina.net/kittyMan/blog/387512?p=1)
http.cors.enabled: true
http.cors.allow-origin: "*"
【kibana也是可視化凸舵,怎么變成一個dev tools?】這個也是下載開箱即可祖娘。但怎么只有x86的版本。
測了一下中文分詞沒有問題啊奄。
GET _analyze
{
"analyzer": "ik_max_word"
, "text": "批處理調(diào)用多個批處理文件_百度知道"
}
https://github.com/elastic/elasticsearch-dsl-py
這也是個神器啊渐苏,可以從dsl中解放出來。
pip install elasticsearch-dsl菇夸,直接安裝琼富。
==================================================
不要因為路遠,就忘了為何出發(fā)峻仇。
讓機器理解NLP去理解這個世界公黑,提升效率。
首先中文最大的根源問題摄咆,就是分詞凡蚜。jieba沒有去停止詞的功能,不應該呀吭从,它的詞庫里有stopwords-list吧朝蜘。先不管了,網(wǎng)上找了一份涩金。效果還行谱醇。
http://blog.csdn.net/u010533386/article/details/51458591
分詞之后暇仲,要做機器學習,肯定需要把文檔變成詞向量副渴。詞袋模式奈附,不考慮位置關系,肯定是落后的煮剧。用當下比較流行的word2vec斥滤。
國內(nèi)一些語料庫不太靠譜,要不下載不了勉盅,要不讀不了佑颇。莫名其炒的問題。用wiki吧草娜。中英文都有挑胸。主要是有成熟的方案。