這是Regression-房?jī)r(jià)預(yù)測(cè)的第(2)篇筆記尺锚。介紹outline里的:
- Load data
- Data exploration-Statistical, visualization
1. Load data
首先讀入數(shù)據(jù)珠闰。這里是csv數(shù)據(jù),直接用pandas.read_csv()讀入就可以了瘫辩。
import pandas as pd
data = pd.read_csv('housing.csv')
2. Data exploration-Statistical, visualization
2.1 Statiscial features
首先看看有多少數(shù)據(jù)點(diǎn)(489伏嗜,4)。
data.shape
數(shù)據(jù)類型
查看數(shù)據(jù)類型
接下來(lái)看看它們到底長(zhǎng)什么樣伐厌。這里'MEDV'是y,需要分離出來(lái)承绸。
長(zhǎng)這樣
查看統(tǒng)計(jì)特征
Statistical summary
2.2 Visualization
單變量特征圖
data.hist()
data.plot(kind='density', subplots=True, layout=(1,4), sharex=False, legend=False, fontsize=1)
多變量特征圖
from matplotlib import pyplot
fig = pyplot.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(data.corr(), vmin=-1, vmax=1, interpolation='none')
fig.colorbar(cax)
pyplot.show()
END