標(biāo)簽云或文字云是關(guān)鍵詞的視覺化描述谷醉,用于匯總用戶生成的標(biāo)簽或一個(gè)網(wǎng)站的文字內(nèi)容致稀。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列俱尼,其重要程度又能通過改變字體大小或顏色來表現(xiàn)抖单,所以標(biāo)簽云可以靈活地依照字序或熱門程度來檢索一個(gè)標(biāo)簽。 大多數(shù)標(biāo)簽本身就是超級(jí)鏈接遇八,直接指向與標(biāo)簽相聯(lián)的一系列條目矛绘。[1]
一、數(shù)據(jù)需求
詞云圖對(duì)數(shù)據(jù)源的需求比較簡(jiǎn)單刃永,共有兩列數(shù)據(jù)货矮。一是文字列,存放標(biāo)簽文字斯够;另一是數(shù)值列囚玫,表示標(biāo)簽文字的權(quán)重。
二读规、輸出形狀設(shè)置
數(shù)據(jù)專家中抓督,目前支持兩種詞云圖的形狀設(shè)置方式。
一種是指定特定的形狀束亏,如circle(圓形)铃在、 cardioid(心形)、diamond(菱形)碍遍、triangle(三角形)定铜、triangle-forward(向右三角形)、pentagon(五邊形)雀久、star(星形)宿稀。
另一種是指定的遮蓋圖像。詞云圖對(duì)遮蓋圖像有特殊要求赖捌,為黑白色雙色圖祝沸,白色為底色矮烹。
值得注意的是,文字云繪制過程中罩锐,會(huì)根據(jù)報(bào)告瀏覽器的窗口寬高自動(dòng)重繪圖形奉狈。因而,當(dāng)繪制的圖形有變形時(shí)涩惑,可以嘗試調(diào)整瀏覽器窗口的尺寸仁期,以便于獲得理想的圖像效果。
三竭恬、獲取詞頻數(shù)據(jù)
如果我們僅有文章或一段文字報(bào)告跛蛋,怎么才能知道那些是關(guān)鍵詞呢,又如何把它們轉(zhuǎn)換成詞云圖所需的數(shù)據(jù)呢痊硕。數(shù)據(jù)專家中的詞頻節(jié)點(diǎn)可以幫助我們解決這個(gè)難題赊级。
詞云圖數(shù)據(jù)準(zhǔn)備過程主要包括三步:
一是,通過數(shù)據(jù)錄入節(jié)點(diǎn)岔绸,將文章理逊、報(bào)告文本引入數(shù)據(jù)專家中;
二是盒揉,使用詞頻統(tǒng)計(jì)節(jié)點(diǎn)晋被,根據(jù)關(guān)鍵字典,采用雙向最長(zhǎng)匹配法刚盈,從大段文本中羡洛,統(tǒng)計(jì)出關(guān)鍵詞及出現(xiàn)的頻數(shù)。
三是藕漱,詞云圖主要是用來可視化表達(dá)高頻關(guān)鍵字翘县。因而,我們可以使用篩選類節(jié)點(diǎn)谴分,篩選出出現(xiàn)頻次比較高的關(guān)鍵字,以便于詞云圖進(jìn)行繪圖镀脂。注牺蹄,大量的數(shù)據(jù)加載到詞云圖節(jié)點(diǎn)會(huì)降低繪制的效率,然而對(duì)最終繪制出圖形卻沒有任何幫助薄翅。