文本數(shù)據(jù)可視化 有下面三種
1. 基于文本內(nèi)容的可視化
? 基于詞頻的可視化和基于詞匯分布的可視化
? 常用的有詞云堂湖、分布圖和 Document Cards
2. 基于文本關(guān)系的可視化
? 研究文本內(nèi)外關(guān)系拼余,幫助人們理解文本內(nèi)容和發(fā)現(xiàn)規(guī)律
? 常用的可視化形式有樹狀圖奕删、節(jié)點(diǎn)連接的網(wǎng)絡(luò)圖茶鉴、力導(dǎo)向圖搜吧、疊式圖和 Word Tree 等
3. 基于多層面信息的可視化
? 研究如何結(jié)合信息的多個(gè)方面娩梨,幫助用戶更深層次理解文本
? 常用的有地理熱力圖碟渺、ThemeRiver、SparkClouds街氢、TextFlow 和基于矩陣視圖的情感分析可視化等
代碼舉例
? 1. 詞云
? wordcloud=WordCloud(font_path=simhei,background_color="white",max_font_size=80)
? 2. 關(guān)系圖
? 用連線圖來(lái)表示事物相互關(guān)系的一種方法扯键。
? 安裝 Matplotlib、NetworkX
? ? DG = nx.DiGraph()
DG.add_nodes_from(nodes)
DG.add_edges_from(weights
nx.draw(DG,with_labels=True, node_size=1000, node_color = colors)
? 3. 地理熱力圖
? 通過分詞得到城市名稱后珊肃,將地理名詞通過轉(zhuǎn)換成經(jīng)緯度
? 使用 Folium 庫(kù)進(jìn)行熱力圖繪制地圖
? ? map_osm = folium.Map(location=[35,110],zoom_start=5)?
HeatMap(data1).add_to(map_osm)?
學(xué)習(xí)資料:
《中文自然語(yǔ)言處理入門實(shí)戰(zhàn)》