背景介紹
由于項目需要勾给,需要對旅游游記文本進(jìn)行聚類,為打標(biāo)簽做指導(dǎo)宝惰,所以調(diào)研了主流的短文本聚類方法,文本聚類主要還是分成兩個方面再沧。
1. 提取文本特征
在《數(shù)學(xué)之美》前幾章中尼夺,詳細(xì)講了為何要將文本這個自然語言領(lǐng)域的事物,轉(zhuǎn)換成數(shù)學(xué)領(lǐng)域能處理的向量炒瘸、矩陣淤堵。為了分析一段文本,我們需要首先得到這段文本的表示向量顷扩,這個向量就可以作為文本的特征輸入決策器中進(jìn)行判決拐邪。
2. 聚類算法選擇
這里的聚類算法就是上面說的決策器。聚類算法主要分成兩大類隘截,一類是基于距離的迭代算法扎阶,比如k-means事富,還有一類是基于密度的流式聚類算法,比如DBSCAN乘陪。他們各有優(yōu)劣统台,通常由于我們并不清楚聚類的簇數(shù)量,并且由于海量文本迭代的效率比較低啡邑,真實應(yīng)用場景中贱勃,我們在聚類算法的選擇上,更加傾向選DBSCAN這類的算法谤逼。
本文做了幾組對照實驗贵扰,分別使用tf-idf或word2vec作為文本的特征,采用k-means或者DBSCAN進(jìn)行聚類分析流部。實驗流程如下:
實驗流程
1. 中文文本預(yù)處理
將清洗過的數(shù)據(jù)進(jìn)行分詞戚绕、去停用詞。其中分詞的時候枝冀,載入預(yù)先設(shè)置好的自定義詞典舞丛,提高分詞精度。筆者自己寫了一個分詞的類果漾,提高代碼復(fù)用率球切。
from tools.tokenizer.wordCut import WordCut
mydict = ["mysenicdict.txt", "myfooddict.txt"]
file_path = '/home/zcy/haiNan/texttravelgen/data/clean_comments.txt'
# 默認(rèn)是精確模式
test = WordCut()
test.addDictionary(mydict) # 加載自定義詞典
# 分詞,去停用詞(集成在類中了)绒障,不顯示在console吨凑,保存分詞后的文件到file_path目錄
test.seg_file(file_path, show=False, write=True)
2. 特征提取
- Tf-idf
# 詞頻矩陣:矩陣元素a[i][j] 表示j詞在i類文本下的詞頻
vectorizer = CountVectorizer()
# 統(tǒng)計每個詞語的tf-idf權(quán)值
transformer = TfidfTransformer()
freq_word_matrix = vectorizer.fit_transform(corpus)
#獲取詞袋模型中的所有詞語
word = vectorizer.get_feature_names()
tfidf = transformer.fit_transform(freq_word_matrix)
# 元素w[i][j]表示j詞在i類文本中的tf-idf權(quán)重
weight = tfidf.toarray()z
- word2vec
# doc2vec
#訓(xùn)練并保存模型
import gensim
sentences = gensim.models.doc2vec.TaggedLineDocument(token_path)
model = gensim.models.Doc2Vec(sentences, size=100, window=2, min_count=3)
model.train(sentences,total_examples=model.corpus_count, epochs=1000)
model.save('../model/demoDoc2Vec.pkl')
3. 聚類算法
- k-means
# K-means聚類
print 'Start K-means:'
from sklearn.cluster import KMeans
clf = KMeans(n_clusters=20)
s = clf.fit(model.docvecs)
print s
#20個中心點(diǎn)
print(clf.cluster_centers_)
#每個樣本所屬的簇
print(clf.labels_)
i = 1
while i <= len(clf.labels_):
print i, clf.labels_[i-1]
i = i + 1
#用來評估簇的個數(shù)是否合適,距離越小說明簇分的越好户辱,選取臨界點(diǎn)的簇個數(shù)
print(clf.inertia_)
- DBSCAN
# dbscan 密度聚類
from sklearn.cluster import DBSCAN
# Compute DBSCAN
db = DBSCAN(eps=0.005, min_samples=10).fit(weight)
print db.core_sample_indices_
db.labels_
實驗結(jié)果
為了將聚類后的類別信息與原文信對照起來鸵钝,方便查看,筆者寫了一個類提高重用效率庐镐,將結(jié)果寫到ori_path的路徑下恩商,并提供了排序的功能,代碼如下:
from tools.labelMap.labelText import LabelText
label = clf.labels_
ori_path = "../data/clean_comments.txt"
labelAndText = LabelText(label, ori_path)
labelAndText.sortByLabel(write=True)
- tf-idf + k-means聚類結(jié)果
只舉幾個label來看:
new file saved in /home/zhouchengyu/haiNan/texttravelgen/data/sortedLabelText.csv
0 一下機(jī)場攜程訂的專車很準(zhǔn)時的來接了我們焚鹊,服務(wù)也很好痕届,經(jīng)過大約40分鐘的車程,我們從鳳凰機(jī)場來到了亞龍灣末患。
0 下午18:35坐動車返回美蘭,住在機(jī)場附近小旅館锤窑,老板人倒是挺好璧针,挺便宜,裝修這些也算對得起這個價格了渊啰。
0 中午十二點(diǎn)探橱,飛機(jī)準(zhǔn)時到達(dá)荷暌伲口美蘭國際機(jī)場。到達(dá)廳內(nèi)隧膏,爺爺奶奶早已等待多時哗讥。
0 祥鵬航空8L9963,特價機(jī)票胞枕,加上機(jī)場建設(shè)費(fèi)及燃油費(fèi)等約300杆煞。我們老大火速搶完了27人的機(jī)票,帶著這個超級散團(tuán)腐泻,出發(fā)决乎!
0 到了海南一下飛機(jī),濕熱的空氣就迎面撲來派桩。沒幾步路就出汗了构诚。出了機(jī)場趕緊找訂好的住宿的地方。
0 作為一個北方人去過的最南端就是福州了铆惑,也是今年才去的范嘱,一般都在武漢止步。終于在北京等了個把星期员魏,可以坐上飛機(jī)出發(fā)啦~~~
0 新加坡的過境簽相當(dāng)方便彤侍,填一張入境卡就可以了,而且居然不用排隊逆趋。興沖沖地通過海關(guān)后發(fā)現(xiàn)機(jī)場的兩小時的免費(fèi)觀光大巴居然是在轉(zhuǎn)機(jī)區(qū)盏阶,而不是入境后,只好換了100人民幣的新幣開始自助公交游闻书。從機(jī)場坐地鐵到Raffles Palace名斟,去找魚尾獅公園(Merlion Park)。奇怪的是這么有名的地標(biāo)性景點(diǎn)一路上居然沒有任何指示……雕像附近合影的人超多魄眉,大家都是到此一游砰盐。
0 所有的機(jī)場大巴都繞來繞去從同一條線路開往機(jī)場了,40分鐘后到達(dá)機(jī)場
0 樟宜機(jī)場被多家機(jī)構(gòu)評為世界最佳機(jī)場是不無道理的坑律。整個機(jī)場就像一個購物休閑中心岩梳,吃喝玩樂各項設(shè)施應(yīng)有盡有。在這里轉(zhuǎn)機(jī)絲毫不用擔(dān)心如何消磨時間晃择。新加坡機(jī)場的登機(jī)一般提前一個小時冀值,因為安檢被安排在了各個登機(jī)口。這樣布局的好處是在機(jī)場里可以暢行無阻宫屠。加上新加坡機(jī)場實際上只有國際區(qū)沒有國內(nèi)區(qū)(全國就這一個機(jī)場嘛)列疗,因此除了邊檢,其他區(qū)域都是連成一片的浪蹂。
0 上班之后抵栈,基本每次出門都是想要叫車告材。但是這次想來一次隨心所欲的旅行,從出發(fā)開始就不再走便捷的方法了古劲,機(jī)場大巴走起斥赋。這才發(fā)現(xiàn),志誠麗柏那個酒店門口的大巴是半小時發(fā)一次产艾,10分一次疤剑,40分一次。會先到西稍門胰舆,然后才出發(fā)骚露。
0 用銀行貴賓卡享受了機(jī)場貴賓室
label0都與機(jī)場有關(guān),可以看出來聚類效果還是不錯的缚窿。
3 在沙灘上玩了一會我就去附近泳池邊的WC換泳衣棘幸,回來和LILY撲向大海試圖游泳。其實浪還是挺大的倦零,我們在靠近沙灘的地方都不太能穩(wěn)住自己误续,遠(yuǎn)處幾個金發(fā)的外國姑娘卻能在浪里漂浮自如,也許人家從小在海灘玩到大的吧扫茅!羨慕啊蹋嵌。 我在水里玩的不亦樂乎,LILY時刻緊盯著我的皮膚怕我曬傷葫隙,我很驚訝他有著能看出我皮膚被曬黑程度的能力栽烂,我自己看不出來……在海里玩了半小時的樣子他果斷拖回樂不思蜀的我,說再曬我就要回去哭了恋脚。
3 南灣猴島其實是個半島腺办,但這里的位置得天獨(dú)厚,三面環(huán)海糟描,景色和離島一樣的美怀喉。除了擁有優(yōu)越的熱帶海島生態(tài)環(huán)境、獼猴特色資源船响、優(yōu)質(zhì)的海水以及濱海沙灘躬拢,還有水上疍家魚排的獨(dú)特民俗風(fēng)情。全國最長的跨海觀光索道见间,猶如一條凌空彩鏈橫跨新村港灣聊闯,將神秘的南灣猴島、迷人的熱帶港灣缤剧、濃郁的疍家民俗馅袁、喧鬧的漁港風(fēng)情等串成一線。
3 大東海是三亞我常去的沙灘荒辕,其他地方不是下餃子就是煮餛飩汗销。
3 剛上船的時候心情還是挺激動的~想象島上迷人的風(fēng)景,結(jié)果到站之后看到碼頭左邊的天空還有點(diǎn)藍(lán)色了抵窒,就先往左邊走去看看弛针,一路上人都很多,零星的開著幾個小店李皇,大概走了100多m的樣子都都到頭了削茁,路封著的,一堆建筑垃圾在哪兒堆著掉房,也沒看見機(jī)械設(shè)備動工茧跋。于是只能調(diào)頭往回網(wǎng)右邊走,其實右邊一來我就看見了只有很小一片沙灘卓囚,我還以為左邊會有一大片沙灘和浮潛的海域等著我們呢~越往右邊走越是失望啊瘾杭,先經(jīng)過美食一條街,各種高價的食品和紀(jì)念品出售哪亿,等終于穿過美食街的人群到了海邊那更是失望粥烁,比大東海劃分的每個游泳區(qū)域還要小一半以上~還只有三個區(qū)域,完全沒得浮潛地方蝇棉!我也是醉了讨阻,我還以為是像東南亞那些海島一樣,上島都是很寬泛的游泳和浮潛區(qū)域篡殷,結(jié)果钝吮。。板辽。而且這個區(qū)域離碼頭也不遠(yuǎn)奇瘦,水質(zhì)可想而知,當(dāng)然人也非常多戳气,瞬間沒了下海的欲望~真不知道網(wǎng)上那些好評怎么來的~商業(yè)化的氣息太重了链患,我不相信大多數(shù)人來這里是為了去深潛去玩那些海上項目~家人都說還不如在大東海游泳,還要花100多的門票來看這烏泱泱的水~還好海邊沙灘椅收費(fèi)不貴瓶您,15塊一張隨便躺
3 三亞自游行心得1麻捻、我不想去景點(diǎn)打卡,只為純度假呀袱。所以選擇住大東海贸毕,我住在大菠蘿(類似于京華城)附近的哈曼酒店。去年才開的五星酒店夜赵,設(shè)施完備明棍,吃住行都方便!哈曼有私家沙灘寇僧,有酒店電瓶車接送摊腋,服務(wù)很貼心沸版!不是所有酒店都有私家沙灘,需看清兴蒸。如果住在沒有私家沙灘的酒店视粮,各種不便!我住的是哈曼的16樓行政山海房橙凳,(最高17層)記桌倥埂:一定要高樓層,樓層低了什么都看不到2岛啸、大東海商業(yè)發(fā)達(dá)钓觉,價廉物美,只是海水和沙灘略遜亞龍灣一籌坚踩。 3荡灾、交通:因為我住大東海,很便利堕虹,沒有租車的必要卧晓。去較遠(yuǎn)的景點(diǎn)、接送機(jī)等赴捞,我全程易到專車逼裆、滴滴專車,非常方便4赦政、關(guān)于第一市場:易到司機(jī)告訴我們胜宇,那已經(jīng)相當(dāng)于旅游商店的性質(zhì)了,大東海區(qū)域用餐恢着,我都在大菠蘿桐愉。
3 從照片看就知道這時候的三亞天氣不是很好,時常烏云甚至下雨掰派,所以找出來的照片好不好看很大程度取決于天氣怎么樣啦大東海海灘上人很多从诲,長長的海岸線上都是人,我去的這個時候天不是很熱靡羡,海水還是有些涼的系洛,多以游泳的人并不多,大多數(shù)都在沙灘上撿貝殼或石頭略步。
3 收拾完畢描扯!步行至大東海廣場的沙灘~脫鞋玩水啦~!
3 亞龍灣是很長一個海灣趟薄。沙灘除了名地細(xì)膩绽诚。有很多的星級酒店私人沙灘。當(dāng)然我們?nèi)サ氖枪查_放海灘,建議四點(diǎn)以后再去游泳恩够,否則日曬很嚴(yán)重卒落。我和小果果都在陰涼下。
第3類都與沙灘有關(guān)玫鸟,聚類效果也不錯导绷。
- word2vec + k-means 聚類結(jié)果
1 直到回來后還在流連成都老火鍋的味道犀勒。真的很好吃屎飘。用牛油做鍋底,加熱后牛油化了贾费,根本不用加水的钦购。
1 離開寬窄巷子,回酒店附近吃了小天鵝褂萧,午睡過后下午去人民廣場喝茶采耳押桃。
1 黃流老鴨:海南最有特色的美食之一,在三亞导犹,最正的黃流老鴨還是在勝利路的光明黃流老鴨店唱凯,十多年的老店,黃流老鴨必然是白切的才是最好的谎痢,也是最好吃的磕昼,再加上微熱的蘸料,就更美味了节猿,我們倆人點(diǎn)了白切黃流老鴨票从、蝦醬地瓜葉和冬瓜海螺湯,冬瓜海螺湯滨嘱,可以說是此次去三亞吃到的最好吃的湯品峰鄙,其他地方吃到的總有那么些不新鮮的無奈~,這的冬瓜海螺湯太讓我喜歡了太雨,現(xiàn)在想起來都能感覺到的味美~當(dāng)然吟榴,鴨肉那可是吃得精光的~,海南的特色美食啊~~
1 很多老人在這里囊扳,聊天吩翻,喝茶,打牌宪拥,老成都的生活仿野。我們也喝了蓋碗茶,叫了師傅來采耳她君,享受安逸脚作。
1 第三次登臨這座熱帶島嶼。2013年來的時候還是一個剛上大一的小姑娘,在海邊遇到同是一個人來三亞游玩的泥巴球涛,后來成為了朋友劣针,在上海的時候還一起約著吃過飯,逛過上海博物館亿扁,在夜晚的浦江邊散步拍照捺典。 2014年清明,趁著假期从祝,去了航蠹海口,約見了在海南念書的閨蜜牍陌,住在呵嬖。口巴納納國際青旅和一群來自五湖四海的朋友一起玩殺人游戲到凌晨三點(diǎn)多,第二天醒來和青旅認(rèn)識的姑娘一起逛海南的菜市場毒涧。來自濟(jì)南的她對南方的蔬果特別感興趣贮预,她說,因為海南的水果多契讲,于是她就考了個海大的研究生仿吞,準(zhǔn)備過來撈水果了。 2015年國慶過后捡偏,和一起奮戰(zhàn)過高考的好朋友一起唤冈,在不同的城市出發(fā)來到三亞找在三亞念書的閨蜜。一起住在三亞老班長國際青旅霹琼,和青旅的義工老板們务傲,去吃了三亞最好吃的炒冰炸雞,去大東海游泳玩沙子枣申,好是快活售葡。
1 從北京西開出的Z201次列車,在漫長的27小時行駛后來到了我的城市忠藤。晚上吃過晚飯挟伙,八點(diǎn)多到火車站候車,第二天早上八點(diǎn)就能到三亞了模孩。全程762公里尖阔,途中跨越瓊州海峽,火車會被拆分成五節(jié)運(yùn)上粵海輪渡榨咐,抵達(dá)海南島接駁后將繼續(xù)行駛介却。(前三圖來自網(wǎng)絡(luò),侵刪块茁。)
1 海南雞飯:雞飯的主料是雞和大米齿坷,最好的雞飯選用的作料是“文昌雞”桂肌。由于“文昌雞”供不應(yīng)求,一般雞飯攤檔選用本地雜色雞永淌,要求是剛成熟而尚未下蛋的雞崎场,以1至1.5公斤重為宜。大米選用上等新鮮的優(yōu)質(zhì)米遂蛀,雞是白切雞谭跨。雞飯皮色油黃,肉白且嫩李滴,骨髓帶血螃宙,吃來清甜爽口。這種米飯悬嗓,油潤軟滑污呼,香濃味爽。
1 出發(fā)前在老班長國際青旅訂好住宿包竹。位置就在吉祥街,徑直往海邊走不到五分鐘籍凝,吉祥街口有到各個景點(diǎn)的汽車公交周瞎,招手即停,交通十分便利饵蒂。周圍有海南最大的超市旺豪超市声诸,還有很多吃東西的小飯館,住下來不用愁吃的退盯。
1 三個人一起逛超市看海鮮買水果彼乌,海洋動物多的就像水族館。因為海南氣候原因渊迁,種出來的水果都像是放大版的慰照。(如果不想在街頭小販那里買不足稱的水果,可以來超市看看琉朽,一般海南的各種水果在這里都可以買到毒租。)
1 清補(bǔ)涼是三亞當(dāng)?shù)氐囊环N小吃。將紅棗箱叁、薏米墅垮、綠豆、芋頭耕漱、西瓜算色、湯圓等煮熟的東西,淋上椰子汁或糖水螟够,清熱消暑灾梦,是夏季必備的飲品。在冬天也可以吃到熱的清補(bǔ)涼。清補(bǔ)涼攤多是設(shè)在路旁斥废,擺上一席小桌子和小櫥窗椒楣,旁邊擺上一個保溫冰桶,幾套塑料的椅子和木桌牡肉。清補(bǔ)涼攤的小櫥窗里放著一排塑料碗捧灰,碗里面分別裝著糖水煮的蕓豆、煮好的綠豆统锤、通心粉毛俏、鵪鶉蛋、菠蘿丁饲窿、西瓜丁煌寇、桂圓肉、紅棗逾雄、薏米等等阀溶,很是誘人
可以發(fā)現(xiàn),類別1的輸出基本都是美食鸦泳,但是也有一些錯分的情況發(fā)生银锻,考慮到Doc2Vec輸出的向量跟向量大小、迭代次數(shù)等參數(shù)做鹰,影響較大击纬,這只是一個Doc2Vec的baseline,這些錯誤聚類暫時還是可以接受的。
類別12主要是景區(qū)的介紹:
12 亞龍灣位于中國最南端的熱帶濱海旅游城市——三亞市東南28公里處钾麸,是海南最南端的一個半月形海灣更振,全長約7.5公里,是海南名景之一饭尝。亞龍灣沙灘綿延7公里且平緩寬闊肯腕,淺海區(qū)寬達(dá)50-60米。沙粒潔白細(xì)軟芋肠,海水澄澈晶瑩乎芳,而且蔚藍(lán)。能見度7-9米帖池,適合潛水奈惑。海底世界資源豐富,有珊瑚礁睡汹、各種熱帶魚肴甸、名貴貝類等。年平均氣溫25.5°C囚巴,海水溫度22-25.1°C原在,終年可游泳友扰,被譽(yù)為“天下第一灣”。.
12 繼續(xù)前行庶柿,今天的目標(biāo)是另一個好地方村怪,這里雖然現(xiàn)在知名度不高,但其實開發(fā)的很早浮庐,曾經(jīng)和五公祠甚负、鹿回頭、天涯海角审残、大小洞天等景點(diǎn)齊名梭域,既有景色,又有深厚的人文搅轿,也是海南四大名菜的出產(chǎn)地之一病涨,東山羊的那個東山,就是這里璧坟。好了既穆,不賣關(guān)子了,這里就是萬寧的東山嶺沸柔,雖然海南最高的山是五指山循衰,但這里才是傳說中的“海南第一山”。東山嶺風(fēng)景區(qū)在萬寧市區(qū)往東2公里褐澎,因為三峰并峙,形似筆架伐蒋,歷史上又叫筆架山工三。這里海拔雖然只有184米高,但是遍山都是奇石先鱼,“一線天”勝景之處有塊風(fēng)動石俭正,重達(dá)百余噸,能在海風(fēng)的吹拂和人力的推搖下產(chǎn)生晃動焙畔。當(dāng)年《紅樓夢》劇組拍片頭的飛來石掸读,也曾經(jīng)到這里來考察過,雖然最后選擇了黃山之巔的飛來石宏多,但說明那個時候的東山嶺就已經(jīng)很著名了儿惫。可惜三亞的崛起伸但,已經(jīng)讓人們快要把這里淡忘了肾请。
12 拉市海位于麗江縣城西面10公里處的拉市壩中部,是云南省第一個以“濕地”命名的自然保護(hù)區(qū)更胖☆跆“拉市”隔显,是古納西語的音譯,“拉”為荒壩饵逐,“市”為新括眠,意為新的荒壩。拉市海是遷徙候鳥的棲息地倍权,每年到此越冬或停歇的候鳥有80多種掷豺,為滇西北之冠。拉市海邊山清水秀账锹,森林茂密萌业,花草繁盛,清幽秀美奸柬。在拉市海一日游生年,內(nèi)容大都差不多,無非就是騎馬廓奕、劃船抱婉、馬幫飯等。但價格不等桌粉,從幾十元到幾百元都有蒸绩,這就需要游客擦亮雙眼。價錢特別便宜的最好別選铃肯,很可能隱藏其他強(qiáng)制性消費(fèi)患亿,200左右價格比較適中,較為靠譜押逼〔脚海總體來講,拉市海作為麗江的著名景點(diǎn)挑格,值得一去咙冗。
12 我給大家按照從海口出發(fā)順時針環(huán)島方向推薦一下比較值得去的地方(沒去過的肯定還有很多好地方漂彤,但只推薦比較了解的雾消,高門票景點(diǎn)一律排除,只保留了南山寺和馮小剛挫望,我覺得可以值回票價):毫⑷螅口市的海南省博物館、瓊臺書院士骤、五公祠范删、騎樓老街、世紀(jì)大橋拷肌、馮小剛電影公社到旦、火山群地質(zhì)公園旨巷;文昌市的孔廟、銅鼓嶺添忘、石頭公園采呐、東郊椰林;瓊海市的博鰲禪寺搁骑、和樂鎮(zhèn)港北港斧吐;萬寧市的東山嶺、大花角仲器、大洲島煤率、加井島;陵水縣的日月灣海門游覽區(qū)乏冀、陵水新村疍家漁排蝶糯;三亞市的海棠灣海棠廣場、亞龍灣海底世界辆沦、三亞灣椰夢長廊昼捍、太陽灣、大東海肢扯、小東海妒茬、鴻洲國際游艇碼頭夜游三亞灣、半山半島帆船港蔚晨、鹿回頭山頂公園乍钻、鳳凰嶺、臨春嶺铭腕、白鷺公園团赁、南山文化旅游區(qū)、崖城學(xué)宮谨履;五指山市的水滿河熱帶雨林風(fēng)景區(qū);樂東縣的鶯歌海鹽場熬丧、尖峰嶺笋粟;東方市的魚鱗洲、大廣壩析蝴、白查村害捕;昌江縣的棋子灣峻壁角;儋州市的東坡書院闷畸、千年古鹽田尝盼、峨蔓火山海岸、石花水洞佑菩、松濤天湖盾沫;澄邁縣的羅驛古村裁赠、鄰昌礁。安排出行計劃就從這里面挑吧赴精,這些景點(diǎn)就足夠玩上半個多月了佩捞。如果不喜歡歷史人文,只喜歡風(fēng)光的就少選其中的人文景點(diǎn)蕾哟。如果像我們一樣都喜歡一忱,那么這些景點(diǎn)一定都不會讓你們失望的。
可以看出谭确,兩種特征聚類得到的文本帘营,粒度層次是有差別的,這正好有利于提取不同層次的聚類信息逐哈,構(gòu)建不同粒度的文本語料庫芬迄。
DBSCAN的聚類效果跟參數(shù)eps設(shè)置關(guān)系很大,雖然理論上基于密度的聚類算法要更優(yōu)一些鞠眉,但是實驗過程表明薯鼠,在文本數(shù)量較少時,還是k-means這樣的迭代算法械蹋,來的實用些(調(diào)參更簡單....)
詳細(xì)代碼見筆者的github: TextClustering
××××××××××××××××××××××××××××××××××××××××××
本文屬于筆者(EdwardChou)原創(chuàng)
轉(zhuǎn)載請注明出處
××××××××××××××××××××××××××××××××××××××××××