總結(jié)自《極客時(shí)間——數(shù)據(jù)分析課程》
數(shù)據(jù)可視化分為以下9種情況:
一.可視化工具
1.商業(yè)智能分析
Tableau、PowerBI辰企、FineBI
2.可視化大屏
DataV脖苏、FineReport
3.前端可視化組件
Web渲染技術(shù):Canvas方灾、SVG是html5中主要的2D圖形技術(shù)塘秦,WebGL是3D框架讼渊。
可視化組件:Echarts动看、D3尊剔、Three.js、AntV
4.編程語(yǔ)言
Python:matplotlib菱皆、Seaborn须误。
二.Python可視化技術(shù)
使用python進(jìn)行數(shù)據(jù)分析挨稿,需要在開始時(shí)進(jìn)行探索性的數(shù)據(jù)分析,了解數(shù)據(jù)京痢。
1.可視化試圖的種類
比較:比較數(shù)據(jù)間各類別的關(guān)系奶甘,或者是它們隨著時(shí)間的變化趨勢(shì),比如折線圖祭椰。
聯(lián)系:查看兩個(gè)或兩個(gè)以上變量之間的關(guān)系臭家,比如散點(diǎn)圖。
構(gòu)成:每個(gè)部分占整體的百分比方淤,或者是隨著時(shí)間的百分比變化钉赁,比如餅圖。
分布:關(guān)注單個(gè)變量携茂,或者多個(gè)變量的分布情況你踩,比如直方圖。
按照變量的個(gè)數(shù)讳苦,我們可以把可視化視圖劃分為單變量分析和多變量分析带膜。
(1)散點(diǎn)圖
散點(diǎn)圖的英文叫做 scatter plot,它將兩個(gè)變量的值顯示在二維坐標(biāo)中鸳谜,非常適合展示兩個(gè)變量之間的關(guān)系膝藕。
畫散點(diǎn)圖,需要使用 plt.scatter(x, y, marker=None) 函數(shù)咐扭。x束莫、y 是坐
標(biāo),marker 代表了標(biāo)記的符號(hào)草描。比如“x”览绿、“>”或者“o”。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
N = 1000
x = np.random.randn(N)
y = np.random.randn(N)
plt.scatter(x, y, marker='x')
plt.show()
(2)折線圖
折線圖可以用來(lái)表示數(shù)據(jù)隨著時(shí)間變化的趨勢(shì)穗慕。
Matplotlib 中饿敲,我們可以直接使用 plt.plot() 函數(shù),當(dāng)然需要提前把數(shù)據(jù)按照 x 軸的大小進(jìn)行排序逛绵,要不畫出來(lái)的折線圖就無(wú)法按照 x 軸遞增的順序展示怀各。
import matplotlib.pyplot as plt
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016]
y = [5, 3, 6, 20, 17, 16, 19]
plt.plot(x, y)
plt.show()
(3)直方圖
在 Matplotlib 中,我們使用 plt.hist(x, bins=10) 函數(shù)术浪,其中參數(shù) x 是一維數(shù)組瓢对,bins 代表直方圖中的箱子數(shù)量,默認(rèn)是 10胰苏。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
a = np.random.randn(100)
s = pd.Series(a)
plt.hist(s)
plt.show()